Learn

38 篇文章分类:全部
元数据

PDF、Office、视频和音频文件的元数据

图像的 信息广为人知。 但是,在匿名性上需要注意的元数据并不只存在于图像中。

PDF、Office 文档、视频、音频、压缩文件中,也可能保留作者姓名、编辑历史、使用的软件、拍摄日期和时间、标签信息、评论、内部文件名等信息。

即使你以为已经从外观上删掉了,文件内部也可能仍然保留其他信息。 另外,即使删除了元数据,也可能从正文、背景、音频、画面中的文字、文件名推测出身份或所属单位。

本文按文件格式整理容易残留的信息,以及发布前应该确认的事项。

元数据是文件的周边信息

元数据是附加在文件本身上的信息。

它与文章正文或图像本身不同,可能包含作者、创建日期和时间、编辑软件、位置信息、修订历史、评论等。

在匿名性方面,元数据会成为有力线索。 这是因为,即使正文里没有写名字,文件内部也可能残留作者姓名或组织名称。

格式容易残留的信息注意点
PDF作者、创建软件、注释、嵌入文件注意涂黑和注释的处理
Office 文档作者、公司名称、修订历史、评论隐藏工作表和审阅信息可能残留
视频拍摄日期和时间、设备信息、位置信息、编辑软件音频和背景也是线索
音频ID3 标签、录音日期和时间、应用信息也要确认声音和背景音
压缩文件内部文件名、文件夹名、不需要的文件可能混入处理过程中的数据

元数据会因文件格式不同而呈现出不同样子。 因此,不要只用一种确认方法就判断一切安全。

PDF 中需要注意的信息

PDF 是便于分发文档的格式。 但是,如果要匿名发布资料,就需要谨慎。

PDF 中可能保留作者姓名、创建日期和时间、创建软件、标题、注释、嵌入文件、表单信息等。

另外,即使看起来已经做了黑色遮盖,原始文字信息也可能仍然留在内部。 如果只是把黑色矩形作为图像叠在上面,原始文字有时可以通过复制或搜索被取出。

要确认的内容理由
文档属性作者姓名和创建软件可能残留
注释评论和编辑备注可能可见
嵌入文件可能包含原始资料或不需要的数据
涂黑处理确认原始文字是否没有留在内部
文件名可能包含案件名、组织名称、真实姓名

PDF 看起来像是发布用文件,但内部结构不一定安全。 对于高风险资料,应使用本地工具确认,并在需要时以更安全的形式重新生成。

Office 文档中需要注意的信息

Word、Excel、PowerPoint 等 Office 文档,是容易留下作业历史的格式。

其中可能包含作者姓名、公司名称、修订历史、评论、隐藏工作表、模板、链接、协作编辑历史等。

在内部举报或采访资料中,直接交出 Office 文档尤其需要慎重考虑。 这是因为,不只是文档内容,谁创建了它、它是在什么组织环境中编辑的,也可能残留下来。

要确认的内容可见的信息
作者个人姓名或账号名
公司名称所属组织或设备设置
修订历史谁编辑了哪里
评论内部对话或判断痕迹
隐藏工作表未显示的数据
链接内部路径或云端 URL

对于 Office 文档,重要的是不要只凭可见页面判断。 制作发布用版本时,应删除不需要的历史,输出为其他格式后再重新确认。

视频中需要注意的信息

视频需要同时注意元数据和内容本身。

文件内部可能保留拍摄日期和时间、设备信息、位置信息、编辑软件、编码信息。 此外,视频本身可能拍到脸、背景、招牌、制服、车辆、窗户反射、通知、画面中的账号名。

视频比静止图像包含的信息量更多,因此匿名性的确认也更难。

要确认的内容理由
拍摄日期和时间会与行动时间或现场参与联系起来
位置信息会暴露拍摄地点
设备信息会显示使用机型或编辑环境
背景可从建筑物、招牌、风景判断地点
音频声音、环境音、对话会成为线索
通知账号名或联系方式可能入镜

对于视频,即使删除了元数据,仍然需要确认内容。 即使是很短的视频,也可能从几秒钟的背景或声音推测出地点或人物。

音频中需要注意的信息

音频文件也有元数据。

MP3 等文件中可能包含标题、艺术家、专辑、创建软件、评论等标签信息。 录音应用或编辑软件的信息也可能残留。

另外,在音频中,内容本身就是有力线索。 可能从声音、说话方式、方言、背景音、通知音、车站广播、汽车声音、房间回声等推测出人物或地点。

要确认的内容理由
ID3 标签标题或作者信息可能残留
录音日期和时间可能与行动时间相互核对
创建应用会成为使用环境的线索
声音可能识别本人或相关人员
背景音可能判断地点或状况

匿名发布音频时,仅删除元数据并不够。 还要确认声音特征、说话方式和背景音。

压缩文件中需要注意的信息

ZIP 等压缩文件用于把多个文件一起交给他人。

在压缩文件中,要注意内部文件名、文件夹名、不需要的文件、处理过程中的数据。

例如,即使你以为只放入了想发布的 PDF,同一文件夹里也可能混入原始 Office 文档、笔记、截图、隐藏文件。 文件夹名中也可能包含真实姓名、案件名、公司名称。

压缩文件打开后,一定要确认其中的内容。

确认的基本步骤

无论文件格式如何,确认流程都是共通的。

阶段确认事项
1不直接发布原始文件
2制作发布副本
3确认文件名
4确认元数据
5确认正文、图像、音频、背景
6删除或转换后重新确认
7确认在上传目标处对方会如何看到它

ExifTool 这样的工具可用于确认多种格式的元数据。

ExifTool 是一种代表性的本地工具,可以确认和编辑图像、视频、文档等多种格式的元数据。在学习不同文件格式的差异时,它也可以作为确认文件中实际包含哪些信息的入口。 URL : https://exiftool.org/

但是,不要只停留在工具结果上。 工具有助于确认内部信息,但图像背景、文档正文、音频内容、上传目标处的所有者显示,都需要另外确认。

总结

元数据并不只是图像的问题。

PDF、Office 文档、视频、音频、压缩文件中,也可能残留作者、编辑历史、创建软件、标签、位置信息、内部文件名等。

在匿名性方面,要分开确认文件内容和元数据。 即使删除了元数据,也可能从正文、背景、音频、反射、文件名、共享设置推测出身份或所属单位。

发布前,不要直接交出原始文件,应制作发布副本,按格式确认,并在删除后重新确认。 需要把交出文件这件事理解为:可能交出的不只是正文,还包括创建环境和共享路径。

相关工具

Archive check

Wayback Machine

与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。

列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。

URL : https://web.archive.org/

打开外部网站
Metadata inspection

ExifTool

与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。

列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。

URL : https://exiftool.org/

打开外部网站
Metadata removal

MAT2

与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。

列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。

URL : https://0xacab.org/jvoisin/mat2

打开外部网站
PDF inspection

qpdf

与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。

列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。

URL : https://qpdf.readthedocs.io/

打开外部网站
Audio and video

FFmpeg

与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。

列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。

URL : https://ffmpeg.org/

打开外部网站

相关文章