qpdf / MAT2 指南
在确认和删除 PDF 或文档文件的元数据时,qpdf、MAT2 这类本地工具会成为候选。
但是,只记住工具名称并不能保护匿名性。
重要的是理解哪个工具处理什么、不处理什么。
本文整理 qpdf 和 MAT2 的作用、在匿名性语境中的使用位置,以及使用时的限制。
什么是 qpdf
qpdf 是用于确认 PDF 文件结构和进行转换的工具。
因为它处理 PDF 的内部结构,所以会出现在 PDF 检查和重新生成的流程中。
官方文档可以确认功能和使用方法。
URL : https://qpdf.readthedocs.io/
在匿名性的语境中,qpdf 不是自动让 PDF 变安全的工具。
它是处理 PDF 结构的工具。
要与确认创建者、注释、嵌入内容、隐藏文本等作业组合使用。
什么是 MAT2
MAT2 是作为 Metadata Anonymisation Toolkit 发布的元数据删除工具。官方仓库目前已经归档,并设为只读。
它用于集中处理图片、文档、音频等多种格式的元数据删除。
官方仓库可以确认支持格式和使用方法。
URL : https://0xacab.org/jvoisin/mat2
MAT2 能集中处理多种格式,这一点很方便,但使用前需要确认维护状态和分发来源。
但是,把文件经过 MAT2 处理,并不意味着文件内容或外观中的线索会消失。
qpdf 和 MAT2 的区别
qpdf 和 MAT2 不是用于同一目的的工具。
| 项目 | qpdf | MAT2 |
|---|---|---|
| 主要对象 | 多种格式的元数据删除 | |
| 擅长的事 | PDF 结构处理和转换 | 自动化元数据删除 |
| 匿名性上的作用 | 辅助处理 PDF 内部的确认和重新生成 | 辅助删除发布用文件的元数据 |
| 注意点 | 需要另外判断 PDF 内容 | 删除后需要重新确认 |
两者都不能单独保证匿名性。
在匿名性中,要把删除前确认、处理、删除后重新确认、外观确认作为一组来做。
应该使用哪一个
qpdf 和 MAT2 要从目的出发选择。
| 目的 | 候选 | 理由 |
|---|---|---|
| 想确认 PDF 结构 | qpdf | 适合处理 PDF 内部 |
| 想重新生成 PDF | qpdf | 可以处理转换、线性化等 PDF 处理 |
| 想删除多种格式的元数据 | MAT2 | 可以集中处理图片、文档等 |
| 想确认删除后残留什么 | 也并用 ExifTool 等 | 为了从其他视角确认 |
| 处理高风险文档 | 用多种手段确认 | 为了不过度相信一个工具 |
初学者最先应该考虑的不是工具名称。
而是该文件是什么格式,想删除哪些信息。
如果想查看 PDF 结构就选择 qpdf,如果想删除多种格式的元数据就选择 MAT2,要从目的出发选择。
介绍工具时重要的信任模型
使用本地工具的好处是,可以不把文件交给外部 Web 服务就进行处理。
不过,本地工具也有信任模型。
| 信任对象 | 注意点 |
|---|---|
| 工具本体 | 确认官方网站和分发来源 |
| 执行工具的设备 | 工作设备、共享 PC、受管理设备中可能留下日志 |
| 保存位置 | 如果是云同步文件夹,会留下历史 |
| 处理结果 | 需要重新确认是否已经删除 |
| 作业记录 | 截图和笔记本身也会成为痕迹 |
即使避开外部服务,也不代表自己的设备环境就是安全的。
在匿名性中,要连同在哪里、对哪个文件、在哪个保存位置使用工具一起考虑。
使用前要考虑的事
使用工具前,要决定想保护什么。
| 确认 | 理由 |
|---|---|
| 文件格式是什么 | PDF、图片、Office、音频中查看项目不同 |
| 想删除什么 | 分开作者、GPS、日期时间、注释等 |
| 是否保留原本 | 为了不与发布副本混在一起 |
| 在哪台设备上作业 | 为了避开工作设备和云同步 |
| 删除后用什么确认 | 为了确认处理结果 |
如果一开始就执行删除工具,会变得不知道什么消失了。
先确认,接着处理,最后重新确认。
工具无法删除的东西
即使使用 qpdf 或 MAT2,也有不会消失的东西。
| 残留内容 | 例子 |
|---|---|
| 正文内容 | 固有名词、时间线、内部用语 |
| 图片外观 | 背景、反射、招牌、人脸 |
| 音频或视频内容 | 声音、环境音、广播 |
| 文件名 | 真实姓名、部门名、案件名 |
| 传输路径 | 上传时刻、IP、账号 |
元数据删除工具是用于减少文件内部一部分信息的工具。
它们不会替你判断文档内容或发布方法。
处理后的重新确认
使用 qpdf 或 MAT2 后,必须重新确认。
重新确认时,不仅使用同一个工具,也要使用其他视角。
| 确认 | 理由 |
|---|---|
| 用 ExifTool 查看 | 确认 ExifTool 可见范围内的元数据 |
| 打开文件查看 | 查看显示错乱和残留文字 |
| 尝试搜索和复制 | 查看涂黑下方的文字是否残留 |
| 查看文件名 | 确认姓名或案件名是否残留 |
| 在其他环境中打开 | 确认不是只有自己的环境中看不到 |
以为已经删除成功的瞬间,最容易发生遗漏。
要把处理后的重新确认也作为同一项作业的一部分。
不要增加太多工具
对匿名性感到不安时,会想连续使用很多工具。
但是,工具越多,作业失误和文件混淆也会增加。
首先,重要的是分开原文件、发布副本、处理后文件。
在此基础上,根据需要的范围使用 qpdf、MAT2、ExifTool 这样作用不同的工具。
要做到能说明的不是“用了哪个工具”,而是“确认了哪个文件,什么没有残留”。
高风险文档中的注意事项
对于包含内部举报、采访资料、活动记录、个人信息的文档,作业环境和工具使用方法同样重要。
如果在工作设备上处理,可能留下设备日志或文件访问历史。
如果在个人云同步文件夹中作业,同步历史和账号信息会相关。
如果用截图保存确认结果,截图中也可能拍到文件路径或用户名。
使用工具前,要分开考虑作业环境、保存位置、发布目标、咨询对象。
总结
qpdf 是用于确认 PDF 结构和进行转换的工具。
MAT2 是处理多种格式元数据删除的工具。
两者都有助于匿名性确认,但都不能单独保证安全。
使用工具前,要决定想删除什么。
处理后,要用 ExifTool 等其他方法重新确认,并进一步确认正文、背景、文件名、传输路径。
在匿名性中,比起使用工具,更重要的是守住确认、处理、重新确认、发布判断的流程。
相关工具
ExifTool
与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。
列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。
URL : https://exiftool.org/
MAT2
与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。
列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。
qpdf
与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。
列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。