收到文件后的元数据确认
从信源那里收到的文件,不能原样打开,也不能原样共享。
图片、PDF、Office 文档、视频、音频、压缩文件中,可能留下正文以外的信息。作者姓名、组织名、拍摄地点、拍摄日期时间、编辑历史、评论、内部文件名。这些信息会成为指向信源的线索。
元数据确认不只在发布前需要,在编辑部内部共享前也需要。
什么是元数据
元数据不是文件内容本身,而是附属于文件的信息。
文档可能涉及作者和编辑历史,图片可能涉及拍摄日期时间和 GPS,视频可能涉及设备信息和音频,压缩文件可能涉及内部文件夹名。
| 文件 | 需要确认的信息 |
|---|---|
| 图片 | GPS、拍摄日期时间、相机型号、缩略图 |
| 作者、编辑软件、嵌入信息 | |
| Word・Excel | 作者、组织名、修订记录、评论 |
| 视频 | 拍摄日期时间、设备信息、音频、背景 |
| 音频 | 录音环境、说话者、背景音、创建信息 |
| 压缩文件 | 内部文件名、文件夹结构、创建日期时间 |
只凭文件外观看,会漏掉这些信息。
元数据就像文件的说明书。 其中可能包含作者、日期时间、设备、编辑历史、位置信息、软件、内部文件名。 即使信源已经从正文中删除姓名,元数据中仍可能留下实名或组织名。
另外,问题不只是元数据。 图片背景、音频中的声音或地名、文档正文的内部术语、文件名、文件夹结构也会成为线索。 元数据确认只是整个文件确认的一部分。
如何连接到信源
元数据可能直接显示信源姓名。
但不止如此。即使只显示组织名、设备名、部门名、拍摄地点、拍摄时间,也会缩小候选范围。
| 残留信息 | 与信源的连接 |
|---|---|
| 作者名 | 显示实名或内部账号 |
| 组织名 | 看出工作单位或部门 |
| 拍摄地点 | 看出资料在哪里拍摄 |
| 拍摄时间 | 与出勤记录或出入日志对照 |
| 评论历史 | 看出共同编辑者或内部交流 |
在内部资料中,被怀疑的有时不是作者,而是查看者或编辑者。
要思考哪种信息会连接到谁。
例如,图片 GPS 显示拍摄地点。 Office 文档的最后保存者显示内部账号名。 PDF 创建时间与资料查看时间重合。 压缩文件中留下带有部门名的文件夹。 这些信息不只指向信源本人,也会指向资料分发对象或相关部门。
信源保护中,不能因为“没有出现姓名”就判断安全。 要看是否残留会缩小候选范围的信息。
确认顺序
收到文件后,应在隔离的确认环境中检查。
如果直接放入平时的云端或个人设备,可能产生同步、预览、历史记录、备份。
| 顺序 | 操作 |
|---|---|
| 1 | 记录接收路径和发送者状况 |
| 2 | 不随意打开原始文件,制作副本后确认 |
| 3 | 确认文件名、扩展名、创建日期时间 |
| 4 | 确认元数据、评论、修订记录 |
| 5 | 从发布副本中删除不必要信息 |
| 6 | 发布前由另一人再次确认 |
出于证据价值,原始文件有时需要保存。
即使如此,也要与发布用文件分开处理。
如果在平时环境中打开收到的文件,预览、同步、最近使用文件、病毒扫描、云端备份可能会启动。 结果是,来自信源的文件会留在别的位置。 高风险资料应分开确认环境和保存位置。
另外,不要一开始就加工原始文件,这也很重要。 它可能需要作为证据保全。 应分开原始文件、确认用副本、发布用副本,只加工发布用副本。
不只依赖工具
工具对元数据确认很有帮助。
ExifTool 是代表性工具,可以在本地确认多种文件格式的元数据。重要的是,不需要把收到的文件上传到来路不明的在线检查网站,而是可以在本地确认。详细用法会在另一篇文章中介绍。
URL : https://exiftool.org/
但是,工具并不能让文件自动变得安全。
图片背景、音频内容、文档正文的独有表达、资料种类本身,都可能让人推测信源。
| 确认方法 | 容易漏看的内容 |
|---|---|
| 元数据确认工具 | 图片背景或正文内容 |
| 目视确认 | 文件内部的作者信息 |
| 音频确认 | 元数据或录音设备信息 |
| 自动删除 | 评论或部分修订记录 |
需要结合工具确认和人工确认。
ExifTool 这样的工具,可以帮助确认不可见信息。 但是,工具什么都不显示并不等于安全。 图片背景中出现车站名、音频中出现姓名、文档措辞暴露部门,这类信息需要人来确认。
反过来,只靠人工目视,也会漏掉文件内部的作者信息或嵌入数据。 信源保护中,需要结合工具确认与目视、音频内容确认。
编辑部内部共享前确认
如果只在发布前才确认元数据,有时已经太晚。 一旦把原始文件放进编辑部内部共享文件夹、聊天或云端,查看者和共享历史就会扩大。 不要把含有信源信息的文件原样共享给很多人。
| 共享前要看的事 | 理由 |
|---|---|
| 共享范围 | 不扩大到必要人员以外 |
| 文件名 | 是否出现信源或组织名 |
| 元数据 | 确认作者、位置信息、编辑历史 |
| 保存位置 | 避免实名云端或范围很大的共享文件夹 |
| 发布副本 | 与原始文件分开处理 |
收到的文件在成为公开物之前,就已经是信源保护对象。
高风险资料中,有时不能由一个人独自判断确认或加工。 证据价值、法律风险、信源保护会同时相关,因此必要时应咨询编辑负责人、律师、可信专家。 不过,咨询时也不能随意扩大原始文件传播范围。 刚收到文件时,首先要有隔离处理的意识。在流入平时的云端或聊天前,应先决定确认环境、保存位置和共享范围。
总结
从信源收到的文件中,会留下正文以外的信息。
作者、组织名、拍摄地点、拍摄日期时间、编辑历史、评论、内部文件名,都会成为指向信源的线索。
文件不仅要在发布前确认,也要在编辑部内部共享前确认。
ExifTool 这样的工具很有用,但背景、正文、音频、资料种类带来的反推需要另行确认。
元数据确认是信源保护的基础工作。
相关工具
Google Lens
与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。
列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。
URL : https://lens.google/
ExifTool
与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。
列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。
URL : https://exiftool.org/
MAT2
与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。
列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。
qpdf
与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。
列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。
FFmpeg
与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。
列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。
URL : https://ffmpeg.org/
SecureDrop
与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。
列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。
URL : https://securedrop.org/
GlobaLeaks
与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。
列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。
URL : https://globaleaks.org/