公开前检查文档的方法
公开文档前,不仅要确认正文,还要确认文件内部、文件名、评论、修改历史、共享历史,以及转为 PDF 后的状态。
匿名性中危险的不只是正文残留本名。
创建者名、组织名、评论、修改历史、隐藏工作表、注释、文件名、云端共享链接,也会成为推测本人和相关人员的线索。
本文整理公开前检查文档的流程。
检查对象
文档检查中,要把文档表面和内部分开确认。
| 对象 | 确认的事 |
|---|---|
| 正文 | 姓名、地名、所属、时间线、内部用语 |
| 评论 | 相关人员姓名、编辑备注、审阅内容 |
| 修改历史 | 删除前的信息、修改者、修改时刻 |
| 元数据 | 创建者、创建日期时间、应用名、公司名 |
| 文件名 | 本名、部门名、案件名、日期 |
| 共享方法 | 云端链接、权限、发送对象、登录状态 |
文档不能只凭外观判断。
公开前要把正文、内部信息、发送方法分开确认。
检查的基本步骤
公开前检查要按顺序进行。
| 顺序 | 操作 | 理由 |
|---|---|---|
| 1 | 复制原本 | 不混用原本和公开用文件 |
| 2 | 阅读正文 | 确认直接识别符和固有表达 |
| 3 | 查看评论和修改历史 | 确认编辑过程中的信息 |
| 4 | 查看元数据 | 确认创建者和应用信息 |
| 5 | 修改文件名 | 减少外侧的个人信息 |
| 6 | 转换为公开用格式 | 根据需要转为 PDF 或重新生成 |
| 7 | 转换后再次确认 | 查看新文件中是否残留信息 |
遵守这个顺序的原因是,中途创建新文件时可能附加新的元数据。
转换后的再确认也是检查的一部分。
正文检查
首先确认正文。
正文中不仅包含直接个人信息,也包含缩小候选人的信息。
| 类型 | 例子 |
|---|---|
| 直接识别符 | 本名、邮箱、电话号码、地址 |
| 所属信息 | 公司名、学校名、部门、职务 |
| 时间线 | 日期、时刻、活动刚结束后的描述 |
| 内部用语 | 公司内部缩写、项目名、独特称呼 |
| 相关人员信息 | 家人、同事、信源、参加者 |
匿名化不只是删除固有名词。
知情者很少的事件,或只有特定部门使用的说法,也会成为线索。
文件名和保存位置检查
文件名是容易被漏看的个人信息。
即使正文和元数据清理干净,如果文件名中残留本名、部门名、案件名、日期,匿名性也会变弱。
| 确认对象 | 例子 |
|---|---|
| 本名 | yamada_report.pdf、田中_資料.pdf |
| 部门名 | sales_internal.pdf、hr_case.docx |
| 案件名 | project_x_final.pdf |
| 日期 | 2026-06-12_meeting.pdf |
| 保存路径 | /Users/name/Company/ 等 |
保存位置也要注意。
如果在云同步文件夹中作业,可能残留文件历史和共享历史。
使用职场终端或学校终端作业时,终端管理日志和防病毒软件日志也可能相关。
转换后增加的信息
把文档转为 PDF、图片化、转换为其他格式时,可能附加新的元数据。
| 转换 | 可能增加的信息 |
|---|---|
| Office 到 PDF | 创建应用、创建日期时间、PDF 生成者 |
| PDF 到图片 | 图片创建日期时间、转换软件名 |
| 图片重新保存 | 编辑软件名、更新时间 |
| 音频、视频重新编码 | 编码器信息、创建应用 |
| 从云端下载 | 文件名或下载时刻 |
转换有时是为了减少信息。
但是,转换后的文件是新的确认对象。
转换后,一定要再次确认。
内部信息检查
接着确认文档内部的信息。
如果是 Office 文档,查看评论、修改历史、创建者、隐藏工作表。
如果是 PDF,查看创建者、注释、嵌入、隐藏文本。
如果文档包含图片或扫描件,也确认图片内文字和背景。
| 格式 | 确认的事 |
|---|---|
| Office | 评论、修改历史、创建者、公司名、隐藏工作表 |
| 创建者、注释、嵌入、涂黑、隐藏文本 | |
| 含图片文档 | 、背景、反射、文字、文件名 |
| 共同编辑文档 | 共享历史、编辑者、评论、权限 |
即使把文档转为 PDF,也要作为 PDF 再确认。
转换不是确认的终点,而是创建新的确认对象。
可用工具和限制
元数据确认有时会使用 ExifTool。
URL : https://exiftool.org/
PDF 结构确认和转换中,qpdf 是候选工具。
URL : https://qpdf.readthedocs.io/
元数据删除中,MAT2 是候选工具。
URL : https://0xacab.org/jvoisin/mat2
MAT2 这类工具,要确认发布源、维护状况、支持格式后再使用。处理后,不要只相信同一工具的结果,也要用其他方法再次确认。
这些工具很方便,但不会判断文档内容是否安全。
即使用工具削减元数据,正文中的内部用语、图片内招牌、文件名、发送路径仍会残留。
公开前停下来的判断
检查中如果仍有不明项目,不要急着公开。
| 停下来的信号 | 理由 |
|---|---|
| 无法确认创建者名是否消失 | 可能接近本人或组织 |
| 修改历史残留 | 可能看见删除前的信息 |
| 不确定涂黑是否正确 | 底层文字可能残留 |
| 只有云端共享链接 | 所有者和权限信息会相关 |
| 包含高风险内容 | 可能需要专家或可信咨询对象 |
匿名性中,不把无法判断的项目当作安全。
选择确认、推迟公开、削减信息、咨询、或不公开。
检查后的共享方法
即使检查结束,共享方法也可能破坏匿名性。
邮件、云端共享、SNS 的 DM、上传表单、匿名投稿工具,残留的记录各不相同。
| 共享方法 | 注意点 |
|---|---|
| 邮件 | 发件人、收件人、时刻、附件文件名会残留 |
| 云端共享 | 所有者、共享权限、访问历史会残留 |
| SNS 的 DM | 与账号、发送时刻、终端信息连接 |
| 上传表单 | 可能记录 IP、User-Agent、发送时刻 |
| 匿名投稿工具 | 确认工具的信任模型和文件内容 |
即使检查了文件,如果从实名账号发送,匿名性也会崩塌。
文档检查要与共享方法确认一起考虑。
总结
公开前的文档检查,要把正文、评论、修改历史、元数据、文件名、共享方法分开确认。
文档不能只凭外观判断安全性。
即使转为 PDF,也可能残留创建者、注释、嵌入、隐藏文本。
ExifTool、qpdf、MAT2 这类工具有帮助,但匿名性不会只靠工具完成。
公开前,要分开原本和公开用文件,删除后再次确认,并确认正文和发送路径。
相关工具
ExifTool
与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。
列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。
URL : https://exiftool.org/
MAT2
与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。
列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。
qpdf
与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。
列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。