PDF 中残留的不可见风险
PDF 因为外观看起来固定,容易让人觉得安全。
但是,PDF 中有时会残留屏幕上显示的正文以外的信息。
例如作者名、创建应用、更新时间、注释、嵌入文件、隐藏文本、原文档痕迹等。
匿名共享文档时,认为“已经转换成 PDF 所以没问题”是危险的。
本文整理 PDF 中残留的不可见风险,以及公开前应确认的事项。
PDF 不能只凭外观判断
PDF 是一种可以像纸张一样显示的便利格式。
但是,PDF 文件内部可能包含显示页面以外的信息。
| 信息 | 内容 | 匿名性上的注意点 |
|---|---|---|
| 作者 | 创建文档的用户名或应用信息 | 接近本人或组织名 |
| 创建日期时间 | 创建、更新的时刻 | 与行动时间或提交时间连接 |
| 注释 | 评论、标记、备忘 | 编辑过程或相关人员可见 |
| 嵌入 | 附件、字体、图片 | 原始数据或创建环境残留 |
| 隐藏文本 | OCR、复制用文本 | 以为已涂黑的信息可能残留 |
即使 PDF 外观看起来干净,内部信息也未必干净。
在匿名性中,要分开确认显示页面和文件内部信息。
PDF 转换会消失的东西和会残留的东西
把 Office 文档或图片转换成 PDF 时,一部分信息会改变。
但是,并不是所有风险都会消失。
| 转换后会改变的东西 | 仍可能残留的东西 |
|---|---|
| 可编辑文档变成固定显示 | 作者、创建应用、创建日期时间 |
| 作为图片嵌入 | 图片内文字、背景、反射 |
| 字体和版面被固定 | 嵌入字体和应用信息 |
| 评论有时会消失 | 注释或修改历史可能以其他形式残留 |
| 看起来像做了涂黑处理 | 下层文本可能残留 |
PDF 化在某些场景中有用。
但是,“做成 PDF”和“匿名性确认已经结束”是两回事。
涂黑与隐藏文本
PDF 中特别危险的是,以为用涂黑隐藏了信息。
如果只是把黑色方块放在上面,下方文本可能仍留在文件中。
即使外观看不见,也可能通过复制、搜索、抽取、内部解析看到原文字。
| 方法 | 风险 |
|---|---|
| 叠加黑色图形 | 下方文本可能残留 |
| 把文字颜色改成背景色 | 可能通过复制或搜索看到 |
| 做成截图 | 画质劣化、OCR 可读文字、背景信息残留 |
| 使用专用涂黑功能 | 处理后仍需重新确认 |
需要涂黑的文档,应使用专用功能,并在处理后进行搜索、复制和元数据确认。
高风险文档不要只凭本文判断,也应考虑咨询专家或可信支援对象。
PDF 中残留的组织信息
在内部举报或采访资料中,PDF 内部的组织信息会成为大问题。
不仅是作者名,模板、部门名、文件路径、注释、分发编号、水印、页码格式等都会成为线索。
| 线索 | 能知道什么 |
|---|---|
| 作者名 | 文档创建者或终端账号 |
| 公司名 | 所属组织或创建环境 |
| 模板 | 部门或业务流程 |
| 注释者 | 参与编辑的人 |
| 水印、分发编号 | 分发对象或资料来源 |
PDF 看起来像“完成版”。
但正因为是完成版,也可能残留组织内部制作的痕迹。
内部举报和采访资料中特别危险的理由
在内部举报和采访资料中,PDF 内部信息可能显示“谁可能接触过这份资料”。
即使文档本身没有名字,只要残留分发范围、更新时间、注释、水印、页码、文档编号、部门特有模板,候选人就会被缩小。
| PDF 内部线索 | 被推测的事 |
|---|---|
| 分发编号 | 资料被分发给哪个部门或谁 |
| 水印 | 用来识别阅览者或分发对象的信息 |
| 注释者名 | 审阅者或相关人员 |
| 更新时间 | 谁能在那个时刻作业 |
| 模板 | 组织、部门或业务流程 |
这类信息即使一般读者看不懂,对组织内部人员也可能是强线索。
匿名性中,不只要考虑陌生人能否看见,也要考虑知情者会如何看见。
也要注意 PDF 内文本抽取
PDF 即使外观看起来像图片,内部也可能有文本。
经过 OCR 处理的 PDF,可能在扫描图片背后包含搜索用文本。
即使在图片上涂黑或模糊,如果搜索用文本中仍有原文字,就很危险。
| 状态 | 要确认的事 |
|---|---|
| 扫描 PDF | 是否包含 OCR 文本 |
| 涂黑 PDF | 复制或搜索是否出现原文字 |
| 含图片 PDF | 图片内文字和背景是否残留 |
| 带注释 PDF | 注释正文和评论是否可抽取 |
| 表单 PDF | 输入框或选择状态是否残留 |
公开 PDF 前,不只要凭外观阅读,也要进行搜索、复制和元数据确认。
“屏幕上看不见”不是安全证明。
可用于确认的工具
如果用在线服务进行 PDF 确认、转换、涂黑或元数据删除,原文件、文件名、内部信息、访问来源信息可能会交给服务方。高风险文档不要上传到外部服务,而应在本地环境确认,并在处理后用其他方法重新确认。
PDF 元数据确认有时会使用 ExifTool。
PDF 结构确认或转换也可以考虑 qpdf。qpdf 是用于确认和转换 PDF 文件结构的工具,可以从官方文档确认使用方法。
URL: https://qpdf.readthedocs.io/
但是,使用工具并不会自动变安全。
需要阅读显示的信息,并在删除或重新生成后再次确认。
公开前确认
公开 PDF 前,按下面的顺序确认。
| 顺序 | 要确认的事 | 理由 |
|---|---|---|
| 1 | 查看作者和创建日期时间 | 确认是否连接到本人或作业时间 |
| 2 | 查看注释和评论 | 确认编辑过程或相关人员是否残留 |
| 3 | 确认涂黑部分 | 查看下方文字是否残留 |
| 4 | 查看嵌入文件和图片 | 确认原数据或其他文件是否残留 |
| 5 | 查看文件名 | 确认姓名、部门、案件名是否残留 |
| 6 | 删除后重新确认 | 确认处理是否成功 |
PDF 是公开后容易被复制的格式。
公开前确认非常重要。
判断不公开 PDF
高风险 PDF 中,删除或转换未必足够。
资料内容本身可能缩小信息来源。
例如,如果残留只有某次会议参加者知道的时间线、特定部门才使用的缩写、按分发对象不同而不同的表记,即使删除元数据,候选范围仍会缩小。
这种情况下,不应原样公开 PDF,而需要判断是否改为概述内容、泛化固有表达、只让可信咨询对象确认必要范围,或交给专家和支援对象。
在匿名性中,把文件清理干净和可以公开,是两回事。
总结
PDF 因为外观固定,容易看起来安全,但内部可能残留作者、创建日期时间、注释、嵌入、隐藏文本。
仅仅 PDF 化并不会完成匿名性。
尤其要注意涂黑、注释、组织信息、分发编号、文件名。
ExifTool 和 qpdf 这样的工具有助于确认,但安全性不由工具名称决定。
公开前,要把外观、内部信息、文件名、删除后的重新确认作为一组来做。
相关工具
ExifTool
与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。
列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。
URL : https://exiftool.org/
MAT2
与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。
列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。
qpdf
与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。
列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。