Office 文件中的元数据
Office 元数据的风险
Office 文档是对匿名性来说较难处理的格式。
Word、Excel、PowerPoint 中可能残留作者信息、修改历史、评论、隐藏工作表、模板、内部路径、协同编辑信息。即使看起来已经删除,内部仍可能留下工作过程。
本文整理 Office 元数据的风险。专门讨论作者信息的内容见“Office 文件的作者信息”。
什么是 Office 元数据
Office 元数据是附属于文档正文以外的信息。
| 信息 | 示例 | 风险 |
|---|---|---|
| 文档属性 | 作者、公司名、标题 | 会显示本人或组织 |
| 修改历史 | 编辑者、修改内容 | 相关人员和经过会留下 |
| 评论 | 审阅备注、姓名 | 内部对话会出现 |
| 隐藏信息 | 隐藏工作表、备注 | 未显示的数据会残留 |
| 链接 | 内部文件路径、云端 URL | 会显示组织环境 |
Office 文件适合编辑和共同作业。
因此,将其作为发布用文件处理时,需要确认内部信息。
Excel 和 PowerPoint 中容易漏看的内容
不仅是 Word,Excel 和 PowerPoint 也需要注意。
Excel 中可能残留隐藏工作表、筛选器、单元格评论、定义名称、外部链接。PowerPoint 中可能残留演讲者备注、隐藏幻灯片、图片原始信息、评论。
| 确认对象 | 容易漏看的信息 | 注意点 |
|---|---|---|
| Word | 修改历史、评论 | 即使在最终版显示中也可能残留 |
| Excel | 隐藏工作表、外部链接 | 不能只凭可见范围判断 |
| PowerPoint | 演讲者备注、隐藏幻灯片 | 容易残留在分发资料中 |
| 来自模板 | 组织名、部门名 | 内部模板会成为线索 |
| 协同编辑 | 账号名、历史 | 也要查看云端侧信息 |
只确认可见页面是不够的。
需要使用应用的文档检查功能,并在转换为其他格式后再次确认。
共享方法也要注意
Office 文件经常与云端共享结合使用。
即使删除了文件本身的元数据,共享链接的所有者名、编辑历史、访问权限、URL 中包含的信息仍可能残留。
| 共享方法 | 残留信息 | 注意点 |
|---|---|---|
| 云端链接 | 所有者名、账号名 | 不要从实名账号共享 |
| 邮件附件 | 发件人、主题、标头 | 查看联系路径的关联 |
| 协同编辑 | 编辑历史、评论 | 相关人员姓名会留下 |
| 压缩文件 | 文件夹名、不必要文件 | 检查内容 |
| PDF 转换 | PDF 侧元数据 | 转换后也要确认 |
在匿名性中,不仅要确认文件,也要确认共享路径。
制作为发布用文件的流程
将 Office 文档制作为发布用文件时,应分开编辑用文件和发布用文件。
编辑用文件中可能需要历史和评论。但是,如果原样发布,创建过程和相关人员会显露出来。
| 步骤 | 确认内容 |
|---|---|
| 1 | 保存原文件,并创建发布用副本 |
| 2 | 确认文档属性 |
| 3 | 删除评论、修改历史、隐藏信息 |
| 4 | 确认文件名和文件夹名 |
| 5 | 如果转换为 PDF,转换后也要确认 |
| 6 | 查看共享目标是否显示所有者名 |
创建发布用副本,可以在保留证据性和工作历史的同时,减少向外部暴露的信息。
在内部举报或法律咨询中,如何保存原文件也很重要。
不应原样交付 Office 文件的场景
在匿名性重要的场景中,有时不应原样交付 Office 文件。
特别是在内部举报、职场纠纷、学校问题、消息来源保护中,作者和编辑历史可能缩小相关人员范围。
| 场景 | 理由 | 替代 |
|---|---|---|
| 内部举报 | 组织内部的作者信息会残留 | 向咨询对象确认处理方式 |
| 采访资料 | 可能反推出消息来源 | 使用安全的提交方法 |
| 学校问题 | 未成年人或相关人员会出现 | 整理到必要范围 |
| 职场咨询 | 部门或上级会显露 | 为发布进行模糊处理 |
| 一般公开 | 不必要的编辑历史会出现 | PDF 化后再次确认 |
Office 文档擅长留下共同作业的痕迹。
这在业务中很方便,但在匿名公开中很危险。谁、何时、修改了哪里,这些信息有时会比内容本身更强地成为线索。
处理收到的文档时
不仅是自己创建的 Office 文档,从他人那里收到的文档也要注意。
在内部举报、采访、咨询中,可能会收到提供者创建的文档。该文档中可能残留提供者本人、同事、组织、设备、云端的信息。
| 残留信息 | 影响 |
|---|---|
| 作者或公司名 | 会显示提供者或组织 |
| 修改历史 | 会知道谁参与过 |
| 隐藏工作表 | 本来不打算公开的信息会出现 |
| 链接 | 内部环境或云端会显露 |
| 评论 | 判断过程和相关人员会留下 |
收到的文档往往包含本人没有注意到的信息。
公开或共享前,必须使用单独副本确认。
不要止步于文档检查
Office 有用于确认文档内个人信息和隐藏信息的功能。
这很有用,但不能把匿名性确认全部交给它。文档检查能发现的信息,和读者从正文或表格中推测出的信息是不同的。内部术语、案件名、只有部门内使用的缩写、表格排列、图片内文字,仅靠机械检查有时很难判断。
| 确认方法 | 容易发现的内容 | 另需查看的内容 |
|---|---|---|
| 文档检查 | 作者、评论、隐藏信息 | 正文中的固有名词 |
| 属性确认 | 标题、公司名 | 表格和图片中的线索 |
| PDF 转换后确认 | PDF 侧元数据 | 转换导致的涂黑破损 |
| 第三方审阅 | 读者视角的不自然 | 与审阅者共享的风险 |
| 其他环境显示 | 所有者名和链接显示 | 接收方保存或转发 |
匿名公开中,应结合工具确认和人工阅读。
不要认为“用功能删除了所以安全”。应从接收方视角重新阅读最终将被公开的文档。
总结
Office 元数据中可能包含作者、公司名、修改历史、评论、隐藏工作表、演讲者备注、链接、协同编辑信息。
在匿名性中,基本原则是不要原样公开 Office 文件。
创建发布用副本,确认文档检查、隐藏信息、评论、链接、文件名、共享对象。
即使转换为 PDF,也需要确认转换后的元数据。
Office 文档是一种可能不仅交出正文,还会交出工作环境的格式。
相关工具
Tor Project
与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。
列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。
ExifTool
与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。
列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。
URL : https://exiftool.org/
MAT2
与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。
列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。