文档、PDF 和 Office 文件中的作者信息
在内部举报中处理文档时,不能只看正文。
PDF、Word、Excel、PowerPoint、图片化的资料中,可能会残留作者信息、编辑历史、评论、模板、文件路径、分发标识符。
即使从正文中删除了姓名,只要文件内部残留作者姓名,匿名性就会崩塌。
本文整理内部举报中尤其需要注意的文档、PDF 和 Office 文件的作者信息。
什么是作者信息
作者信息是指附随在文件上的作者、公司名、编辑者、创建软件、创建日期时间等信息。
Office 文档和 PDF 中,可能残留从外观上看不出来的信息。
| 信息 | 能看出什么 |
|---|---|
| 作者姓名 | 真实姓名或内部账号名 |
| 公司名 | 所属组织 |
| 最后更新者 | 参与编辑的人 |
| 创建日期时间 | 资料是什么时候创建的 |
| 文件路径 | 部门名、用户名、设备名 |
| 评论 | 内部对话或负责人姓名 |
这些信息即使没有显示在打开文件后的画面上,也可能作为属性或元数据保留下来。
Office 文件的注意事项
Word、Excel、PowerPoint 中容易残留修订记录和评论。
尤其是内部文档中,审阅负责人、部门名、修改历史、隐藏工作表、嵌入对象都会成为线索。
| Office 文件中的信息 | 风险 |
|---|---|
| 修订记录 | 可以知道谁编辑了哪里 |
| 评论 | 残留负责人姓名或内部对话 |
| 隐藏工作表 | 残留没有显示在表面的数据 |
| 嵌入文件 | 包含原始资料或其他文件 |
| 模板 | 可以看出组织名或部门名 |
将 Office 文件原样发送到外部是危险的。
应制作发布副本,并确认不需要的历史记录和评论。不过,在需要证据价值的场景中,要保存加工前的原件。
PDF 的注意事项
PDF 看起来安全,但内部会残留信息。
其中可能包含作者、创建软件、注释、表单、嵌入文字、黑色遮盖下方的文字、附件。
| PDF 中的信息 | 注意事项 |
|---|---|
| 作者 | 残留真实姓名或组织名 |
| 注释 | 可以看到评论或审阅历史 |
| 嵌入文字 | 黑色遮盖下方可能残留文字 |
| 表单 | 残留输入历史或字段名 |
| 附件 | PDF 内可能包含其他文件 |
并不是只要转换成 PDF 就会安全。
需要确认遮盖处理、注释、属性、嵌入信息。
注意遮盖失败
在内部举报资料中,有时会用黑色遮盖姓名或编号。
但是,如果只是把黑色方块放在文字上方,下方文字可能仍然存在。可能可以从 PDF 中复制文字、搜索文字,或者移除图层后看到文字。
| 遮盖失败 | 会发生什么 |
|---|---|
| 只是把图形放在文字上方 | 复制或搜索时会出现原文字 |
| 只是用注释隐藏 | 隐藏注释后会看见 |
| 图片化不充分 | 高分辨率下能读出文字 |
| 只删除了一部分 | 可能会被周边信息推断出来 |
| 附带原文件 | 加工前的资料仍然存在 |
遮盖不能只凭外观判断。
用其他应用打开发布用文件,并进行复制、搜索、属性确认。
截图化的局限
有人认为把文档做成截图就会安全。
截图有时可以减少一部分元数据,但并非万能。画面中可能拍到通知、账号名、时间、OS 界面、浏览器标签页、文件名。图片文件中也可能残留创建日期时间或设备信息。
| 截图中残留的内容 | 注意事项 |
|---|---|
| 通知 | 拍到实名账号或其他服务 |
| 浏览器标签页 | 能看到正在浏览的页面或服务 |
| 时间 | 与行为历史关联 |
| 文件名 | 能看到案件名或部门名 |
| 图片元数据 | 可能残留创建日期时间或设备信息 |
截图化不是把原件问题全部消除的处理。
作为发布用图片,需要另行确认。
区分确认和保全
在内部举报中,只考虑删除元数据是危险的。
原件的证据价值有时很重要。资料是什么时候创建的、由谁创建、显示真实性的信息,有时会变得必要。
| 文件 | 处理方式 |
|---|---|
| 原件 | 为保持证据价值而安全保管 |
| 确认用副本 | 检查元数据和内容 |
| 提交用副本 | 按接收方的流程处理 |
| 发布副本 | 删除不必要的个人信息 |
删除什么、保留什么,会因目的而改变。
向新闻机构提供信息、向律师咨询、公开发布时,判断并不相同。
不要只靠工具判断
元数据检查工具很有用。
ExifTool 是用于检查多种文件格式元数据的代表性工具。
URL : https://exiftool.org/
不过,工具能看到的信息并不是全部风险。正文中的内部术语、文档编号、分发范围、表达习惯、能够取得文件的人很少,也会缩小举报者候选范围。
配合接收方的流程
内部举报资料也很重要的一点是,不要凭自己判断过度加工。
新闻机构、律师、支持团体、举报受理渠道,各自可能有资料接收方式和证据保全方针。提交前,要确认应以哪种格式发送、是否需要原件、匿名化副本是否可以。
| 对象 | 要确认的事 |
|---|---|
| 新闻机构 | 匿名提交渠道和资料格式 |
| 律师 | 原件保全、证据价值、是否可以加工 |
| 支持团体 | 安全咨询路径、必要资料 |
| 公司内部举报渠道 | 身份确认、日志、报复风险 |
| 行政机关 | 提交格式、手续、本人信息的处理 |
安全的文档处理方式会因目的和提交对象而改变。
不要自己决定“删掉就安全”,而要同时确认必要的证据价值和匿名性。
如果难以判断,在提交前向接收方确认安全的咨询方法。
文档处理是同时处理匿名性和证据价值的工作。
只优先其中一方,会留下之后无法说明的风险。
总结
文档、PDF、Office 文件中,可能残留作者信息、编辑历史、评论、文件路径、注释、隐藏数据。
即使从正文中删除了姓名,只要文件内部残留真实姓名或组织名,匿名性就会崩塌。
在内部举报中,要区分原件、确认用、提交用、发布用。需要证据价值的资料,不要随意加工,应向专家或接收方确认。
元数据检查工具很有用,但也需要同时查看文档内容和分发范围之间的关联。
相关工具
ExifTool
与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。
列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。
URL : https://exiftool.org/
MAT2
与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。
列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。
qpdf
与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。
列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。
SecureDrop
与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。
列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。
URL : https://securedrop.org/
GlobaLeaks
与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。
列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。
URL : https://globaleaks.org/