PDF、Office、视频和音频文件的元数据
图像的 信息广为人知。 但是,在匿名性上需要注意的元数据并不只存在于图像中。
PDF、Office 文档、视频、音频、压缩文件中,也可能保留作者姓名、编辑历史、使用的软件、拍摄日期和时间、标签信息、评论、内部文件名等信息。
即使你以为已经从外观上删掉了,文件内部也可能仍然保留其他信息。 另外,即使删除了元数据,也可能从正文、背景、音频、画面中的文字、文件名推测出身份或所属单位。
本文按文件格式整理容易残留的信息,以及发布前应该确认的事项。
元数据是文件的周边信息
元数据是附加在文件本身上的信息。
它与文章正文或图像本身不同,可能包含作者、创建日期和时间、编辑软件、位置信息、修订历史、评论等。
在匿名性方面,元数据会成为有力线索。 这是因为,即使正文里没有写名字,文件内部也可能残留作者姓名或组织名称。
| 格式 | 容易残留的信息 | 注意点 |
|---|---|---|
| 作者、创建软件、注释、嵌入文件 | 注意涂黑和注释的处理 | |
| Office 文档 | 作者、公司名称、修订历史、评论 | 隐藏工作表和审阅信息可能残留 |
| 视频 | 拍摄日期和时间、设备信息、位置信息、编辑软件 | 音频和背景也是线索 |
| 音频 | ID3 标签、录音日期和时间、应用信息 | 也要确认声音和背景音 |
| 压缩文件 | 内部文件名、文件夹名、不需要的文件 | 可能混入处理过程中的数据 |
元数据会因文件格式不同而呈现出不同样子。 因此,不要只用一种确认方法就判断一切安全。
PDF 中需要注意的信息
PDF 是便于分发文档的格式。 但是,如果要匿名发布资料,就需要谨慎。
PDF 中可能保留作者姓名、创建日期和时间、创建软件、标题、注释、嵌入文件、表单信息等。
另外,即使看起来已经做了黑色遮盖,原始文字信息也可能仍然留在内部。 如果只是把黑色矩形作为图像叠在上面,原始文字有时可以通过复制或搜索被取出。
| 要确认的内容 | 理由 |
|---|---|
| 文档属性 | 作者姓名和创建软件可能残留 |
| 注释 | 评论和编辑备注可能可见 |
| 嵌入文件 | 可能包含原始资料或不需要的数据 |
| 涂黑处理 | 确认原始文字是否没有留在内部 |
| 文件名 | 可能包含案件名、组织名称、真实姓名 |
PDF 看起来像是发布用文件,但内部结构不一定安全。 对于高风险资料,应使用本地工具确认,并在需要时以更安全的形式重新生成。
Office 文档中需要注意的信息
Word、Excel、PowerPoint 等 Office 文档,是容易留下作业历史的格式。
其中可能包含作者姓名、公司名称、修订历史、评论、隐藏工作表、模板、链接、协作编辑历史等。
在内部举报或采访资料中,直接交出 Office 文档尤其需要慎重考虑。 这是因为,不只是文档内容,谁创建了它、它是在什么组织环境中编辑的,也可能残留下来。
| 要确认的内容 | 可见的信息 |
|---|---|
| 作者 | 个人姓名或账号名 |
| 公司名称 | 所属组织或设备设置 |
| 修订历史 | 谁编辑了哪里 |
| 评论 | 内部对话或判断痕迹 |
| 隐藏工作表 | 未显示的数据 |
| 链接 | 内部路径或云端 URL |
对于 Office 文档,重要的是不要只凭可见页面判断。 制作发布用版本时,应删除不需要的历史,输出为其他格式后再重新确认。
视频中需要注意的信息
视频需要同时注意元数据和内容本身。
文件内部可能保留拍摄日期和时间、设备信息、位置信息、编辑软件、编码信息。 此外,视频本身可能拍到脸、背景、招牌、制服、车辆、窗户反射、通知、画面中的账号名。
视频比静止图像包含的信息量更多,因此匿名性的确认也更难。
| 要确认的内容 | 理由 |
|---|---|
| 拍摄日期和时间 | 会与行动时间或现场参与联系起来 |
| 位置信息 | 会暴露拍摄地点 |
| 设备信息 | 会显示使用机型或编辑环境 |
| 背景 | 可从建筑物、招牌、风景判断地点 |
| 音频 | 声音、环境音、对话会成为线索 |
| 通知 | 账号名或联系方式可能入镜 |
对于视频,即使删除了元数据,仍然需要确认内容。 即使是很短的视频,也可能从几秒钟的背景或声音推测出地点或人物。
音频中需要注意的信息
音频文件也有元数据。
MP3 等文件中可能包含标题、艺术家、专辑、创建软件、评论等标签信息。 录音应用或编辑软件的信息也可能残留。
另外,在音频中,内容本身就是有力线索。 可能从声音、说话方式、方言、背景音、通知音、车站广播、汽车声音、房间回声等推测出人物或地点。
| 要确认的内容 | 理由 |
|---|---|
| ID3 标签 | 标题或作者信息可能残留 |
| 录音日期和时间 | 可能与行动时间相互核对 |
| 创建应用 | 会成为使用环境的线索 |
| 声音 | 可能识别本人或相关人员 |
| 背景音 | 可能判断地点或状况 |
匿名发布音频时,仅删除元数据并不够。 还要确认声音特征、说话方式和背景音。
压缩文件中需要注意的信息
ZIP 等压缩文件用于把多个文件一起交给他人。
在压缩文件中,要注意内部文件名、文件夹名、不需要的文件、处理过程中的数据。
例如,即使你以为只放入了想发布的 PDF,同一文件夹里也可能混入原始 Office 文档、笔记、截图、隐藏文件。 文件夹名中也可能包含真实姓名、案件名、公司名称。
压缩文件打开后,一定要确认其中的内容。
确认的基本步骤
无论文件格式如何,确认流程都是共通的。
| 阶段 | 确认事项 |
|---|---|
| 1 | 不直接发布原始文件 |
| 2 | 制作发布副本 |
| 3 | 确认文件名 |
| 4 | 确认元数据 |
| 5 | 确认正文、图像、音频、背景 |
| 6 | 删除或转换后重新确认 |
| 7 | 确认在上传目标处对方会如何看到它 |
ExifTool 这样的工具可用于确认多种格式的元数据。
ExifTool 是一种代表性的本地工具,可以确认和编辑图像、视频、文档等多种格式的元数据。在学习不同文件格式的差异时,它也可以作为确认文件中实际包含哪些信息的入口。 URL : https://exiftool.org/
但是,不要只停留在工具结果上。 工具有助于确认内部信息,但图像背景、文档正文、音频内容、上传目标处的所有者显示,都需要另外确认。
总结
元数据并不只是图像的问题。
PDF、Office 文档、视频、音频、压缩文件中,也可能残留作者、编辑历史、创建软件、标签、位置信息、内部文件名等。
在匿名性方面,要分开确认文件内容和元数据。 即使删除了元数据,也可能从正文、背景、音频、反射、文件名、共享设置推测出身份或所属单位。
发布前,不要直接交出原始文件,应制作发布副本,按格式确认,并在删除后重新确认。 需要把交出文件这件事理解为:可能交出的不只是正文,还包括创建环境和共享路径。
相关工具
Wayback Machine
与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。
列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。
URL : https://web.archive.org/
ExifTool
与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。
列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。
URL : https://exiftool.org/
MAT2
与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。
列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。
qpdf
与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。
列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。
FFmpeg
与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。
列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。
URL : https://ffmpeg.org/