删除 PDF 元数据
删除 PDF 元数据时的注意事项
认为只要删除 PDF 元数据就安全,是不充分的。
元数据删除很重要。但是,PDF 中除了元数据以外,还包含正文、图片、注释、链接、涂黑处理、嵌入文件、文件名和共享设置。即使只删除了元数据,其他位置仍可能残留能追溯到本人或组织的信息。
本文整理 PDF 元数据删除的思路,以及删除后应确认的事项。
删除前先创建副本
首先要做的是,不要直接操作原文件。
创建发布用副本,并对该副本进行删除或转换。原文件可能需要保留编辑历史或证据性。特别是在咨询、内部举报或法律程序中,应谨慎考虑原文件的处理方式。
| 对象 | 处理方式 | 理由 |
|---|---|---|
| 原文件 | 保存在安全位置 | 为了证据性和再次确认 |
| 发布用副本 | 删除元数据或转换 | 为发布做准备 |
| 工作文件夹 | 避免个人名和案件名 | 减少文件路径泄露 |
| 共享对象 | 限制在必要最小范围 | 避免不必要的扩散 |
| 记录 | 留下删除了什么 | 便于之后确认 |
元数据删除只是工作的一部分。
应把原文件管理、发布用副本、共享对象确认一起考虑。
应删除的信息
PDF 中应删除或确认的信息有多种。
| 信息 | 风险 | 确认方法 |
|---|---|---|
| 作者 | 会显示个人名或 OS 用户名 | 查看文档属性 |
| 公司名 | 会显示所属组织 | 确认属性和原 Office 文件 |
| 创建时间 | 与活动时间关联 | 查看属性 |
| 注释 | 会显示评论或内部对话 | 查看注释列表 |
| 嵌入文件 | 混入原始资料 | 确认附件和结构 |
| 表单 | 输入信息残留 | 确认表单字段 |
如果 PDF 是从 Office 文档生成的,也要注意原始 Office 文件一侧。
即使只看 PDF,原文件中也可能残留作者信息或修改历史。
删除后再次确认
使用删除工具后,也一定要再次确认。
即使以为已经删除了元数据,注释、链接、图片、正文、涂黑部分中仍可能残留信息。
| 确认内容 | 理由 |
|---|---|
| 文档属性 | 查看作者和标题是否已消失 |
| 正文搜索 | 查看隐藏词语是否会被搜索出来 |
| 复制操作 | 查看涂黑文字是否仍可复制 |
| 注释列表 | 查看评论是否残留 |
| 链接 | 查看个人 ID 或内部 URL 是否残留 |
| 文件名 | 查看是否包含真实姓名或组织名 |
重要的是,不要因为执行了删除就安心。
应在其他环境中重新打开要发布的文件并确认。
工具只是辅助
PDF 的检查和转换可能会使用 ExifTool 等本地工具。
ExifTool 是用于检查多种格式元数据的代表性工具。
URL : https://exiftool.org/
但是,工具并不是万能的。
工具有助于确认和删除内部信息,但正文中写出的信息、图片背景、截图中的通知、共享链接的所有者名,需要另外确认。
| 工具能做的事 | 仅靠工具不足的事 |
|---|---|
| 确认元数据 | 文章中的固有信息 |
| 删除部分元数据 | 涂黑处理的安全性 |
| 确认文件结构 | 图片中的背景和反射 |
| 格式转换 | 共享目标的日志和所有者显示 |
| 自动处理 | 高风险的法律判断 |
对于高风险文档,不要只根据工具执行结果作出公开判断。
也有不应删除的信息
如果只看匿名性,可能会想删除所有信息。
但是,在受害咨询、内部举报、法律咨询中,有些信息应作为证据保留。原文件的创建时间、编辑历史、发送路径,之后可能会变得重要。
| 信息 | 发布用文件中 | 咨询和证据中 |
|---|---|---|
| 创建时间 | 考虑模糊或删除 | 可能成为必要记录 |
| 作者 | 发布前删除 | 原本中可能保留 |
| 修改历史 | 从发布用副本中删除 | 可能用于说明经过 |
| 注释 | 从发布用副本中删除 | 可能成为内部确认记录 |
| 原文件 | 不公开 | 保存在安全位置 |
这就是把发布用文件和保存用原本分开的理由。
保护匿名性所需的删除,以及保护证据所需的保存,必须同时考虑。
删除后的名称和存放位置
即使删除了元数据,文件名和存放位置也可能暴露信息。
例如,文件名中包含真实姓名、公司名或案件名。云端共享链接显示实名账号的所有者名。工作文件夹名出现在截图中。这些信息要与元数据删除分开确认。
| 确认对象 | 理由 |
|---|---|
| 文件名 | 避免真实姓名、组织名、案件名 |
| 文件夹名 | 画面共享或压缩时可能出现 |
| 云端所有者 | 与实名账号关联 |
| 共享 URL | 可能包含个人 ID 或跟踪信息 |
| 发送时间 | 会与活动记录对照 |
删除工作的最后,应从第三方视角确认状态。
即使在自己的设备上看起来安全,接收方也可能看到所有者名、预览、链接卡片或文件名。如果可能,应在其他浏览器或其他环境中确认最终公开状态。
删除后的确认中,重要的是不要只看元数据。
还要确认正文中的固有名词、图片背景、链接目标、文件名、上传目标的显示名。删除工作应与最终公开物整体检查成套进行。
记录删除工作
对于高风险文档,记录删除了什么、保留了什么,之后会更容易确认。
不过,该记录本身也需要注意。如果保存在实名云端或工作设备上,就会成为把自己与删除对象资料关联起来的线索。
| 记录内容 | 注意点 |
|---|---|
| 删除的项目 | 不要包含在发布用文件中 |
| 保留的项目 | 能说明为什么保留 |
| 原文件保存位置 | 限定在安全位置 |
| 发布用文件名 | 不要包含个人信息 |
| 确认时间 | 注意与活动记录的关联 |
删除工作是公开判断的一部分。
删除后用其他方法验证
元数据删除不是执行完就结束。
应使用与删除工具不同的方法确认。查看文档属性、选择并复制文字确认、用其他 PDF 查看器打开、在其他环境中下载试试。使用多种视角,更容易发现删除遗漏或显示差异。
| 验证方法 | 容易发现的问题 |
|---|---|
| 查看文档属性 | 作者、标题、创建软件 |
| 选择并复制文字确认 | 涂黑下的文字、隐藏文本 |
| 用其他查看器打开 | 残留注释或表单 |
| 在其他环境中确认 | 所有者名和共享显示 |
| 重新阅读正文 | 固有名词和上下文泄露 |
删除工作中,比工具的成功提示更重要的是将被公开的最终状态。
在匿名性中,“以为已经删除了”是最危险的状态。删除后,应确认在接收方环境中会如何显示。
总结
PDF 元数据删除很重要,但它本身并不会让文件安全。
不要直接公开原文件。应创建发布用副本,并确认作者、公司名、创建时间、注释、嵌入内容、表单和链接。
删除后,应重新确认文档属性、搜索、复制、注释和文件名。
工具只是辅助。
正文、图片、涂黑处理、共享对象和法律风险需要另外确认。
相关工具
Wayback Machine
与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。
列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。
URL : https://web.archive.org/
ExifTool
与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。
列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。
URL : https://exiftool.org/
MAT2
与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。
列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。
qpdf
与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。
列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。