Office 和 PDF 的元数据风险
Office 文件和 PDF 是内部举报中经常处理的资料。
会议纪要、合同、报告、邮件附件、电子表格、演示资料、扫描 PDF。它们作为证据可能很有力,但也是容易残留元数据和编辑历史的格式。
在内部举报中,不只是文件内容有问题,文件是如何制作的、谁编辑过、从哪个环境流出,也会成为问题。
Office 文件中残留的信息
Word、Excel、PowerPoint 中可能残留作者、最后保存者、公司名、评论、修订历史、隐藏工作表、嵌入对象等。
| 信息 | 风险 |
|---|---|
| 作者、最后保存者 | 暴露真实姓名或内部账号 |
| 评论 | 残留相关人员姓名或审阅内容 |
| 修订历史 | 看出谁编辑了哪里 |
| 隐藏工作表 | 残留未显示的数据 |
| 嵌入文件 | 包含其他资料或内部信息 |
Office 文件的内容并不只有看得见的页面。
尤其是 Excel,需要注意隐藏工作表、筛选器、评论、公式、外部链接。
Office 文件很容易保留工作过程。 协同编辑、审阅、评论、修订历史、模板、外部链接都会残留。 即使表面上是完成稿,文件内部也可能留下编辑痕迹。
在 Excel 中,隐藏工作表、隐藏行、被筛选器隐藏的行、公式、名称定义、外部数据连接都会成为问题。 在 PowerPoint 中,需要注意演讲者备注、隐藏幻灯片、嵌入图片、模板。 在 Word 中,需要确认修订历史、评论、页眉、页脚、文档属性。
PDF 中残留的信息
PDF 看起来像完成版,因此容易被误认为安全。
但是,PDF 中也可能残留作者、创建软件、创建时间、编辑历史、注释、书签、嵌入文件、OCR 文本。
| 信息 | 风险 |
|---|---|
| 作者 | 看出原文档或作业者 |
| 创建软件 | 推测是在哪个环境中制作的 |
| 注释、评论 | 残留审阅历史或姓名 |
| OCR 文本 | 以为涂黑的文字可能仍残留 |
| 嵌入文件 | 包含原始资料或附件信息 |
并不是转换成 PDF 就会安全。
涂黑或打马赛克如果处理方式不当,原来的文字可能会被取出。
PDF 看起来像用于分发的完成版,因此容易让人放松警惕。 但 PDF 中也可能残留作者信息、注释、书签、附件、隐藏图层、OCR 文本。 如果只是把黑色方块放在文字上方进行涂黑,下面的文字可能仍然存在。 即使看起来是图片,背后也可能残留文本。
制作公开用 PDF 时,不仅要看外观,还要确认可复制的文本、注释、附件和属性。 涂黑过的位置,要确认在复制、搜索、选择、用其他工具打开时也不可见。
内部举报中特别危险的点
在内部举报中,即使元数据没有直接显示姓名,也很危险。
如果有创建时间、版本号、部门名称、文档编号、评论中的姓名、分发对象痕迹,就能看出资料流向。
| 残留信息 | 可推测的内容 |
|---|---|
| 版本号 | 是什么时候、分发给谁的资料 |
| 文档编号 | 管理部门或资料分类 |
| 评论者 | 相关部门或审阅负责人 |
| 隐藏数据 | 本不应公开的信息 |
| 创建时间 | 接触资料的时期 |
公开方如果随意放出资料,受到牵连的就不只是举报者,还可能包括相关人员和无关员工。
在内部举报中,会有人寻找资料来源。 对方看的不只是正文,还会看版本号、分发对象、评论者、文档编号、模板、创建时间。 例如,如果公开内容中出现只有最新版才有的表述,有权访问最新版的人就会受到怀疑。 如果残留评论者姓名,就能看出相关部门或审阅路径。
元数据不仅影响举报者本人,也会影响资料制作者、收到分发的部门、审阅负责人和共同编辑者。 公开方有责任不把收到的资料原样放出。
确认和加工时的注意
处理 Office 和 PDF 时,要区分确认用、保管用和公开用。
如果随意加工可能需要证据价值的原文件,之后可能产生问题。另一方面,公开用文件中不能留下不必要的信息。
| 阶段 | 注意点 |
|---|---|
| 接收 | 不要随意在平常环境中打开原文件 |
| 确认 | 查看属性、评论、修订历史、隐藏元素 |
| 保管 | 区分原文件和公开副本 |
| 加工 | 确认涂黑、删除、转换的方法 |
| 再确认 | 查看公开用文件中是否残留信息 |
具体的元数据确认和删除工具,会在另一篇文章中介绍。
这里需要把握的是,只靠格式转换并不会变得安全。
原文件有时作为证据很重要。 因此,如果直接加工并覆盖原文件,可能会影响证据价值和可验证性。 另一方面,公开用文件中不能留下不必要的信息。 所以,需要区分原文件、工作副本、公开副本。
| 文件类型 | 处理方式 |
|---|---|
| 原文件 | 为保持证据价值而安全保管 |
| 工作副本 | 用于确认和加工 |
| 公开副本 | 删除不必要信息后再确认 |
| 咨询副本 | 调整给律师或专家查看的范围 |
高风险内部举报中,不要只凭文章判断,也要考虑咨询律师、新闻机构或可信赖的支持方。 文件应该删除还是保留,不仅关系匿名性,也关系证据价值和法律风险。
公开前检查
公开 Office 或 PDF 前,按下面的顺序查看。
- 文件名中是否包含真实姓名、部门名、案件名
- 属性中是否残留作者、公司名、最后保存者
- 是否残留评论、修订历史、注释
- 是否有隐藏工作表、隐藏幻灯片、演讲者备注
- PDF 的涂黑下方是否残留文字
- 是否在另一个环境中重新确认了转换后的文件
确认不是一次就结束。 加工后、转换后、公开前都要再次确认。 特别是在 PDF 化之后,要把它当作与原文档不同的文件,重新确认属性、注释和可复制的文字。
总结
Office 文件和 PDF 中可能残留作者、最后保存者、公司名、评论、修订历史、隐藏工作表、注释、OCR 文本、嵌入文件。
在内部举报中,这些信息会连接到举报者、部门、资料流向和分发范围。
并不是转换成 PDF 就会安全。
要区分原文件、确认用文件、公开用文件,并在公开前确认元数据和不可见元素。
Office 和 PDF 既是有力证据,也是一种会讲述来源的文件格式。
相关工具
ExifTool
与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。
列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。
URL : https://exiftool.org/
MAT2
与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。
列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。
qpdf
与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。
列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。
SecureDrop
与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。
列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。
URL : https://securedrop.org/
GlobaLeaks
与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。
列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。
URL : https://globaleaks.org/