Learn

38 篇文章分类:全部
元数据

删除 PDF 元数据

删除 PDF 元数据时的注意事项

认为只要删除 PDF 元数据就安全,是不充分的。

元数据删除很重要。但是,PDF 中除了元数据以外,还包含正文、图片、注释、链接、涂黑处理、嵌入文件、文件名和共享设置。即使只删除了元数据,其他位置仍可能残留能追溯到本人或组织的信息。

本文整理 PDF 元数据删除的思路,以及删除后应确认的事项。

删除前先创建副本

首先要做的是,不要直接操作原文件。

创建发布用副本,并对该副本进行删除或转换。原文件可能需要保留编辑历史或证据性。特别是在咨询、内部举报或法律程序中,应谨慎考虑原文件的处理方式。

对象处理方式理由
原文件保存在安全位置为了证据性和再次确认
发布用副本删除元数据或转换为发布做准备
工作文件夹避免个人名和案件名减少文件路径泄露
共享对象限制在必要最小范围避免不必要的扩散
记录留下删除了什么便于之后确认

元数据删除只是工作的一部分。

应把原文件管理、发布用副本、共享对象确认一起考虑。

应删除的信息

PDF 中应删除或确认的信息有多种。

信息风险确认方法
作者会显示个人名或 OS 用户名查看文档属性
公司名会显示所属组织确认属性和原 Office 文件
创建时间与活动时间关联查看属性
注释会显示评论或内部对话查看注释列表
嵌入文件混入原始资料确认附件和结构
表单输入信息残留确认表单字段

如果 PDF 是从 Office 文档生成的,也要注意原始 Office 文件一侧。

即使只看 PDF,原文件中也可能残留作者信息或修改历史。

删除后再次确认

使用删除工具后,也一定要再次确认。

即使以为已经删除了元数据,注释、链接、图片、正文、涂黑部分中仍可能残留信息。

确认内容理由
文档属性查看作者和标题是否已消失
正文搜索查看隐藏词语是否会被搜索出来
复制操作查看涂黑文字是否仍可复制
注释列表查看评论是否残留
链接查看个人 ID 或内部 URL 是否残留
文件名查看是否包含真实姓名或组织名

重要的是,不要因为执行了删除就安心。

应在其他环境中重新打开要发布的文件并确认。

工具只是辅助

PDF 的检查和转换可能会使用 ExifTool 等本地工具。

ExifTool 是用于检查多种格式元数据的代表性工具。

URL : https://exiftool.org/

但是,工具并不是万能的。

工具有助于确认和删除内部信息,但正文中写出的信息、图片背景、截图中的通知、共享链接的所有者名,需要另外确认。

工具能做的事仅靠工具不足的事
确认元数据文章中的固有信息
删除部分元数据涂黑处理的安全性
确认文件结构图片中的背景和反射
格式转换共享目标的日志和所有者显示
自动处理高风险的法律判断

对于高风险文档,不要只根据工具执行结果作出公开判断。

也有不应删除的信息

如果只看匿名性,可能会想删除所有信息。

但是,在受害咨询、内部举报、法律咨询中,有些信息应作为证据保留。原文件的创建时间、编辑历史、发送路径,之后可能会变得重要。

信息发布用文件中咨询和证据中
创建时间考虑模糊或删除可能成为必要记录
作者发布前删除原本中可能保留
修改历史从发布用副本中删除可能用于说明经过
注释从发布用副本中删除可能成为内部确认记录
原文件不公开保存在安全位置

这就是把发布用文件和保存用原本分开的理由。

保护匿名性所需的删除,以及保护证据所需的保存,必须同时考虑。

删除后的名称和存放位置

即使删除了元数据,文件名和存放位置也可能暴露信息。

例如,文件名中包含真实姓名、公司名或案件名。云端共享链接显示实名账号的所有者名。工作文件夹名出现在截图中。这些信息要与元数据删除分开确认。

确认对象理由
文件名避免真实姓名、组织名、案件名
文件夹名画面共享或压缩时可能出现
云端所有者与实名账号关联
共享 URL可能包含个人 ID 或跟踪信息
发送时间会与活动记录对照

删除工作的最后,应从第三方视角确认状态。

即使在自己的设备上看起来安全,接收方也可能看到所有者名、预览、链接卡片或文件名。如果可能,应在其他浏览器或其他环境中确认最终公开状态。

删除后的确认中,重要的是不要只看元数据。

还要确认正文中的固有名词、图片背景、链接目标、文件名、上传目标的显示名。删除工作应与最终公开物整体检查成套进行。

记录删除工作

对于高风险文档,记录删除了什么、保留了什么,之后会更容易确认。

不过,该记录本身也需要注意。如果保存在实名云端或工作设备上,就会成为把自己与删除对象资料关联起来的线索。

记录内容注意点
删除的项目不要包含在发布用文件中
保留的项目能说明为什么保留
原文件保存位置限定在安全位置
发布用文件名不要包含个人信息
确认时间注意与活动记录的关联

删除工作是公开判断的一部分。

删除后用其他方法验证

元数据删除不是执行完就结束。

应使用与删除工具不同的方法确认。查看文档属性、选择并复制文字确认、用其他 PDF 查看器打开、在其他环境中下载试试。使用多种视角,更容易发现删除遗漏或显示差异。

验证方法容易发现的问题
查看文档属性作者、标题、创建软件
选择并复制文字确认涂黑下的文字、隐藏文本
用其他查看器打开残留注释或表单
在其他环境中确认所有者名和共享显示
重新阅读正文固有名词和上下文泄露

删除工作中,比工具的成功提示更重要的是将被公开的最终状态。

在匿名性中,“以为已经删除了”是最危险的状态。删除后,应确认在接收方环境中会如何显示。

总结

PDF 元数据删除很重要,但它本身并不会让文件安全。

不要直接公开原文件。应创建发布用副本,并确认作者、公司名、创建时间、注释、嵌入内容、表单和链接。

删除后,应重新确认文档属性、搜索、复制、注释和文件名。

工具只是辅助。

正文、图片、涂黑处理、共享对象和法律风险需要另外确认。

相关工具

Archive check

Wayback Machine

与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。

列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。

URL : https://web.archive.org/

打开外部网站
Metadata inspection

ExifTool

与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。

列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。

URL : https://exiftool.org/

打开外部网站
Metadata removal

MAT2

与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。

列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。

URL : https://0xacab.org/jvoisin/mat2

打开外部网站
PDF inspection

qpdf

与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。

列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。

URL : https://qpdf.readthedocs.io/

打开外部网站

相关文章