PDF 元数据的风险
PDF 常被用作公开资料或提交资料。
但是,PDF 不能只凭外观判断。即使正文中没有写名字,文件内部也可能残留作者名、创建软件、创建日期时间、注释、嵌入文件、表单信息。
在匿名性中,不只是 PDF 的内容,制作 PDF 的环境和编辑历史也会成为线索。
本文整理 PDF 中容易残留的信息,以及公开前应确认的观点。
PDF 中残留的信息
PDF 中可能包含文档本身以外的信息。
| 信息 | 表示什么 | 匿名性上的风险 |
|---|---|---|
| 作者 | OS 或文档软件的用户名 | 出现个人名或组织名 |
| 创建日期时间 | 什么时候制作 | 与行动时间或资料制作时期连接 |
| 创建软件 | Word、LibreOffice、扫描仪等 | 成为作业环境线索 |
| 标题 | 原文档名或案件名 | 内部名称残留 |
| 注释 | 评论或编辑备忘 | 相关人员或判断过程出现 |
| 嵌入文件 | 原资料或附件数据 | 不必要的信息混入 |
PDF 看起来像“完成版”。
但是,内部可能残留制作过程的信息。
涂黑失败
PDF 中特别危险的是涂黑失败。
即使外观看起来被黑色方块遮住,内部也可能保留文字信息。通过复制、搜索、解除图层,可能取出原文字。
| 常见处理 | 问题 | 接近安全的思路 |
|---|---|---|
| 叠加黑色图形 | 原文字残留在内部 | 使用专用涂黑功能 |
| 只做截图 | 注意画质和隐藏信息 | 重新确认必要范围 |
| 用注释遮盖 | 注释可能被移除 | 输出后复制搜索 |
| 删除页面 | 嵌入或历史可能残留 | 作为其他文件重新生成 |
| 手动作局部删除 | 容易漏看 | 做成检查清单 |
高风险资料中,不应只靠一个人的眼睛判断涂黑处理。
在法律、报道、内部举报语境中,可能需要专家或可信咨询对象确认。
分开看 PDF 外观和内部
确认 PDF 时,要分开看外观和内部信息。
外观包括正文、图片、表格、二维码、页码、背景、水印。内部包括元数据、注释、嵌入文件、表单、链接。
| 确认位置 | 查看信息 | 理由 |
|---|---|---|
| 外观 | 正文、图片、表格、背景 | 确认直接个人信息 |
| 链接 | URL、共享目标、跟踪 | 避免个人 ID 和内部 URL |
| 元数据 | 作者、创建软件 | 不暴露作业环境 |
| 注释 | 评论、校阅 | 不留下内部对话 |
| 嵌入 | 附件、表单 | 不包含不必要数据 |
PDF 看起来像印刷物。
但实际上,它是具有内部结构的数字文件。
确认步骤
公开 PDF 前,基本原则是不要直接公开原文件。
创建公开用副本,只保留必要信息。
| 步骤 | 要确认的事 |
|---|---|
| 1 | 创建公开用副本,而不是使用原文件 |
| 2 | 查看文件名中是否有本名、案件名、组织名 |
| 3 | 确认文档属性 |
| 4 | 确认注释、评论、表单、嵌入 |
| 5 | 确认涂黑部分是否不能复制搜索 |
| 6 | 在其他环境中重新打开确认显示 |
| 7 | 上传后确认对方会如何看到 |
ExifTool 和 qpdf 这样的工具有助于确认。
但是,即使用工具删除元数据,正文和图片中残留的信息也要另外确认。 如果把原 PDF 上传到外部 PDF 转换服务、在线涂黑服务、在线元数据确认服务,文档内容、访问信息、处理时刻可能交给该服务。高风险 PDF 中,确认和转换也应尽可能在本地环境进行。
也要确认 PDF 的发送对象
PDF 的风险不只在文件内部。
上传到哪里、发送给谁、用哪个账号共享,也与匿名性有关。如果从个人云端共享,所有者名或邮箱地址可能可见。如果用邮件发送,发送者、主题和时刻会残留。
| 共享方法 | 残留信息 | 注意点 |
|---|---|---|
| 云端链接 | 所有者名、共享历史 | 不从实名账号共享 |
| 邮件附件 | 发送者、主题、时刻 | 查看联系路径关联 |
| 投稿网站 | 上传时刻、账号 | 与发帖内容连接 |
| 聊天发送 | 残留在对方终端 | 注意截图和转发 |
| 匿名提交 | 提交方日志、确认时刻 | 查看提交方可信度 |
让 PDF 安全,不只是整理 PDF 内部。
还要一起考虑共享路径、账号、发送时刻、对方侧保存。
与其他文章的范围区分
本文处理 PDF 中残留信息的风险。
实际删除 PDF 元数据的流程,在“删除 PDF 元数据时的注意”中处理。从 Office 文档制作 PDF 时,也要确认原 Office 文件侧的作者信息和修改历史。
也就是说,重要的是不要只看 PDF 就结束。
| 查看对象 | 主要确认 |
|---|---|
| PDF 本体 | 作者、注释、嵌入、涂黑 |
| 原 Office | 修改历史、评论、公司名 |
| 图片 | 背景、反射、文字、 |
| 共享路径 | 所有者名、URL、发送时刻 |
| 咨询对象 | 证据价值和安全性的处理 |
PDF 在很多场景中是“容易提交的格式”。
正因如此,在内部举报、学校或职场咨询、提供给媒体时,容易未经处理就直接交出。如果重视匿名性,要分开确认制作 PDF 的人、编辑的人、共享的人、打开的人,其信息会留在哪里。
收到的 PDF 也要注意
PDF 风险不只限于自己制作的文件。
从别人那里收到的 PDF,也可能残留作者、创建日期时间、创建软件、注释、嵌入文件。如果把采访或咨询中收到的 PDF 原样公开,可能会形成回到提供者的线。
| 收到的 PDF 信息 | 风险 |
|---|---|
| 作者 | 提供者或组织可见 |
| 创建日期时间 | 资料制作时期可见 |
| 注释 | 内部备忘残留 |
| 嵌入 | 原资料混入 |
| 文件名 | 案件或个人名可见 |
越是收到的 PDF,越要从保护提供者的角度确认。
扫描 PDF 也会残留线索
不能说把纸张扫描成 PDF 就安全。
扫描 PDF 可能残留扫描仪名、创建软件、创建日期时间。纸面本身还会残留印章、收件编号、手写文字、折痕、空白处备忘、复印机特征。即使是没有文字信息的图片 PDF,也会从外观出现线索。
| 线索 | 能知道什么 | 注意点 |
|---|---|---|
| 扫描仪信息 | 使用设备或环境 | 确认元数据 |
| 收件编号 | 组织内部资料 | 可通过编号体系缩小范围 |
| 手写文字 | 书写者 | 熟人可能看出 |
| 印章、签名 | 个人或组织 | 成为直接识别信息 |
| 空白和折痕 | 处理方式 | 原件路径被推测 |
扫描 PDF 同时具有数字文档和纸质文档的风险。
不仅要看元数据,也要放大确认纸面外观。
总结
PDF 不能只凭外观判断安全。
作者名、创建日期时间、创建软件、注释、嵌入文件、表单信息可能残留。
涂黑也不能只看外观。会把原文字留在内部的处理很危险。
在匿名性中,要分开确认 PDF 正文、外观、内部信息、文件名、共享对象。
高风险资料不要独自判断,也要考虑使用可信咨询对象或专家。
相关工具
ExifTool
与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。
列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。
URL : https://exiftool.org/
MAT2
与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。
列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。
qpdf
与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。
列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。