Learn

284 篇文章分类:全部
元数据

PDF 中残留的不可见风险

PDF 因为外观看起来固定,容易让人觉得安全。

但是,PDF 中有时会残留屏幕上显示的正文以外的信息。

例如作者名、创建应用、更新时间、注释、嵌入文件、隐藏文本、原文档痕迹等。

匿名共享文档时,认为“已经转换成 PDF 所以没问题”是危险的。

本文整理 PDF 中残留的不可见风险,以及公开前应确认的事项。

PDF 不能只凭外观判断

PDF 是一种可以像纸张一样显示的便利格式。

但是,PDF 文件内部可能包含显示页面以外的信息。

信息内容匿名性上的注意点
作者创建文档的用户名或应用信息接近本人或组织名
创建日期时间创建、更新的时刻与行动时间或提交时间连接
注释评论、标记、备忘编辑过程或相关人员可见
嵌入附件、字体、图片原始数据或创建环境残留
隐藏文本OCR、复制用文本以为已涂黑的信息可能残留

即使 PDF 外观看起来干净,内部信息也未必干净。

在匿名性中,要分开确认显示页面和文件内部信息。

PDF 转换会消失的东西和会残留的东西

把 Office 文档或图片转换成 PDF 时,一部分信息会改变。

但是,并不是所有风险都会消失。

转换后会改变的东西仍可能残留的东西
可编辑文档变成固定显示作者、创建应用、创建日期时间
作为图片嵌入图片内文字、背景、反射
字体和版面被固定嵌入字体和应用信息
评论有时会消失注释或修改历史可能以其他形式残留
看起来像做了涂黑处理下层文本可能残留

PDF 化在某些场景中有用。

但是,“做成 PDF”和“匿名性确认已经结束”是两回事。

涂黑与隐藏文本

PDF 中特别危险的是,以为用涂黑隐藏了信息。

如果只是把黑色方块放在上面,下方文本可能仍留在文件中。

即使外观看不见,也可能通过复制、搜索、抽取、内部解析看到原文字。

方法风险
叠加黑色图形下方文本可能残留
把文字颜色改成背景色可能通过复制或搜索看到
做成截图画质劣化、OCR 可读文字、背景信息残留
使用专用涂黑功能处理后仍需重新确认

需要涂黑的文档,应使用专用功能,并在处理后进行搜索、复制和元数据确认。

高风险文档不要只凭本文判断,也应考虑咨询专家或可信支援对象。

PDF 中残留的组织信息

在内部举报或采访资料中,PDF 内部的组织信息会成为大问题。

不仅是作者名,模板、部门名、文件路径、注释、分发编号、水印、页码格式等都会成为线索。

线索能知道什么
作者名文档创建者或终端账号
公司名所属组织或创建环境
模板部门或业务流程
注释者参与编辑的人
水印、分发编号分发对象或资料来源

PDF 看起来像“完成版”。

但正因为是完成版,也可能残留组织内部制作的痕迹。

内部举报和采访资料中特别危险的理由

在内部举报和采访资料中,PDF 内部信息可能显示“谁可能接触过这份资料”。

即使文档本身没有名字,只要残留分发范围、更新时间、注释、水印、页码、文档编号、部门特有模板,候选人就会被缩小。

PDF 内部线索被推测的事
分发编号资料被分发给哪个部门或谁
水印用来识别阅览者或分发对象的信息
注释者名审阅者或相关人员
更新时间谁能在那个时刻作业
模板组织、部门或业务流程

这类信息即使一般读者看不懂,对组织内部人员也可能是强线索。

匿名性中,不只要考虑陌生人能否看见,也要考虑知情者会如何看见。

也要注意 PDF 内文本抽取

PDF 即使外观看起来像图片,内部也可能有文本。

经过 OCR 处理的 PDF,可能在扫描图片背后包含搜索用文本。

即使在图片上涂黑或模糊,如果搜索用文本中仍有原文字,就很危险。

状态要确认的事
扫描 PDF是否包含 OCR 文本
涂黑 PDF复制或搜索是否出现原文字
含图片 PDF图片内文字和背景是否残留
带注释 PDF注释正文和评论是否可抽取
表单 PDF输入框或选择状态是否残留

公开 PDF 前,不只要凭外观阅读,也要进行搜索、复制和元数据确认。

“屏幕上看不见”不是安全证明。

可用于确认的工具

如果用在线服务进行 PDF 确认、转换、涂黑或元数据删除,原文件、文件名、内部信息、访问来源信息可能会交给服务方。高风险文档不要上传到外部服务,而应在本地环境确认,并在处理后用其他方法重新确认。

PDF 元数据确认有时会使用 ExifTool。

URL: https://exiftool.org/

PDF 结构确认或转换也可以考虑 qpdf。qpdf 是用于确认和转换 PDF 文件结构的工具,可以从官方文档确认使用方法。

URL: https://qpdf.readthedocs.io/

但是,使用工具并不会自动变安全。

需要阅读显示的信息,并在删除或重新生成后再次确认。

公开前确认

公开 PDF 前,按下面的顺序确认。

顺序要确认的事理由
1查看作者和创建日期时间确认是否连接到本人或作业时间
2查看注释和评论确认编辑过程或相关人员是否残留
3确认涂黑部分查看下方文字是否残留
4查看嵌入文件和图片确认原数据或其他文件是否残留
5查看文件名确认姓名、部门、案件名是否残留
6删除后重新确认确认处理是否成功

PDF 是公开后容易被复制的格式。

公开前确认非常重要。

判断不公开 PDF

高风险 PDF 中,删除或转换未必足够。

资料内容本身可能缩小信息来源。

例如,如果残留只有某次会议参加者知道的时间线、特定部门才使用的缩写、按分发对象不同而不同的表记,即使删除元数据,候选范围仍会缩小。

这种情况下,不应原样公开 PDF,而需要判断是否改为概述内容、泛化固有表达、只让可信咨询对象确认必要范围,或交给专家和支援对象。

在匿名性中,把文件清理干净和可以公开,是两回事。

总结

PDF 因为外观固定,容易看起来安全,但内部可能残留作者、创建日期时间、注释、嵌入、隐藏文本。

仅仅 PDF 化并不会完成匿名性。

尤其要注意涂黑、注释、组织信息、分发编号、文件名。

ExifTool 和 qpdf 这样的工具有助于确认,但安全性不由工具名称决定。

公开前,要把外观、内部信息、文件名、删除后的重新确认作为一组来做。

相关工具

Metadata inspection

ExifTool

与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。

列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。

URL : https://exiftool.org/

打开外部网站
Metadata removal

MAT2

与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。

列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。

URL : https://0xacab.org/jvoisin/mat2

打开外部网站
PDF inspection

qpdf

与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。

列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。

URL : https://qpdf.readthedocs.io/

打开外部网站

相关文章