Learn

38 篇文章分类:全部
元数据

什么是元数据

文件中并不只包含表面上显示的正文或图片。

如果是照片,可能有拍摄日期和时间、相机型号。 如果是文档,可能有作者姓名、编辑软件。 如果是 PDF,可能有创建时间、文档标题。 如果是视频,可能有拍摄设备、位置信息。

这种“关于数据的数据”称为元数据。

元数据是有用的信息。 它用于文件管理、搜索、编辑和整理。

但是,从匿名性角度看,元数据会成为容易被忽视的线索。

文件中残留的背后信息

元数据不是文件内容本身,而是关于该文件的信息。

例如,照片元数据中可能包含拍摄日期和时间、相机型号、镜头信息、GPS 位置信息。 文档文件中可能残留作者姓名、公司名、编辑历史、评论、使用的软件。

文件可能残留的信息匿名性上的注意点
照片拍摄日期和时间、位置信息、相机型号会知道地点或设备
视频拍摄日期和时间、位置信息、设备信息会关联到拍摄地点或日常活动范围
PDF作者、标题、创建软件可能残留本人姓名或组织名
Office 文档作者、公司名、编辑历史、评论可能残留内部信息或工作人员姓名
音频录音日期和时间、软件信息、标签成为录制环境或编辑历史的线索

打开文件时,元数据不一定显眼。 所以它很危险。

即使认真模糊了正文,如果文件背后残留作者姓名,匿名性也会迅速变弱。

为什么会残留元数据

元数据本身并不是坏东西。

照片应用会按拍摄日期和时间、地点整理照片。 文档创建软件会管理作者和编辑历史。 PDF 创建工具会记录标题和创建软件。

也就是说,元数据是为了让工作更方便而存在的。

问题在于,这些便利的信息在发布或共享时也会残留下来。

即使只在自己的设备内使用时不会成为问题,一旦交给外部,就会成为关联到身份或组织的线索。

匿名性中会成为问题的元数据

匿名性中特别需要注意的元数据,是会关联到本人、地点、时间、设备、组织的信息。

类型示例会关联到什么
本人信息作者姓名、用户名、公司名真实姓名或所属关系
时间信息创建日期和时间、拍摄日期和时间、更新日期和时间活动时间、工作时间、移动历史
位置信息GPS、拍摄地点日常活动范围、工作地点、学校、停留地点
设备信息相机型号、手机型号、软件名使用的设备或环境
编辑信息评论、修改历史、图层内部工作、相关人员、修改前信息

这些信息单独看起来很小。 但是,一旦与发布内容、拍摄背景、账号、发布时间组合起来,就会成为推测身份的材料。

删除元数据并不代表结束

删除元数据很重要。 但是,这并不意味着仅凭这一点就安全。

例如,即使删除了照片的 GPS 信息,如果背景中拍到车站名、店名、学校名、公司内部公告、制服、车牌,地点仍会被推测出来。

即使删除了 PDF 的作者信息,如果正文中残留部门名、内部用语、只有少数人知道的来龙去脉,候选范围也会缩小。

确认对象查看位置示例
元数据文件的内部信息作者、日期和时间、位置信息
可见内容图片或正文自身背景、招牌、、内部信息
文件名共享时使用的名称真实姓名、案件名、组织名
共享路径从哪里交出云端历史、邮件、账号

在匿名性中,要把元数据和内容分开确认。 只看其中一方是不够的。

发布前确认的顺序

确认元数据时,先决定顺序可以减少遗漏。

  1. 查看文件名
  2. 查看文件的可见内容
  3. 确认元数据
  4. 删除不必要的元数据
  5. 删除后再次确认文件
  6. 确认共享方式和上传目标

特别重要的是,删除后要再确认一次。

有些软件会在保存或转换时添加新的元数据。 编辑图片后、导出 PDF 后、上传到云端后,信息也可能发生变化。

不要把已经确认过的文件和要发布的文件弄混,这也很重要。

如果确认原文件后又另存为、编辑图片后导出新文件、转换成 PDF,或打包成压缩文件,应再次确认最终要发布的文件。

操作再次确认的理由
另存为可能写入新的作者信息
PDF 转换可能附加创建软件或标题
图片编辑可能写入编辑软件或保存日期和时间
压缩会残留内部文件名或文件夹名
云端上传可能追加所有者或历史记录

处理元数据时应避免的做法

处理元数据时,应避免以下失败。

  • 只改文件名就安心
  • 只删除图片的 GPS,却不看背景
  • 只看 PDF 属性,却不看评论和编辑历史
  • 不再次确认转换后的文件
  • 不确认云端共享链接的历史或账号
  • 把在实名环境中创建的文件原样带入匿名环境

元数据不是只删除一个项目就结束的东西。 要连同文件格式、创建软件、编辑方法、共享方法一起确认。

不要完全交给工具

元数据删除工具很有用。 但是,认为只要经过工具处理就安全是危险的。

工具可能不支持某些格式。 可能只残留一部分元数据。 可见的正文或背景中可能残留信息。 删除后,其他软件可能会添加新的信息。

在元数据对策中,应把删除、再次确认、内容确认作为一套流程。 详细确认方法和 ExifTool 的使用方法会在另一篇文章中介绍。

风险轻重会因发送对象而变化

元数据的风险会因发送对象而变化。

发给家人的照片,与作为匿名提供信息而发送的资料,需要的确认强度不同。 发布到公开社交媒体的图片,与通过云端共享原文件的图片也不同。

在高风险场景中,也要考虑不直接交出原文件,而是只提取必要的信息。 元数据确认的强度,应根据目的和对象来决定。

总结

元数据不是文件内容本身,而是关于该文件的信息。

照片、视频、PDF、Office 文档、音频文件中,可能残留作者、日期和时间、位置信息、设备信息、编辑历史等。

元数据是有用的信息,但在匿名性中,它会成为关联到身份、地点、时间、组织、设备的线索。

不过,并不是删除元数据后一切就安全。 还需要另外确认图片背景、正文内容、文件名、共享路径、云端历史。

在匿名性中,同时查看文件“背后残留的信息”和“表面残留的信息”很重要。

相关工具

Metadata inspection

ExifTool

与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。

列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。

URL : https://exiftool.org/

打开外部网站
Metadata removal

MAT2

与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。

列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。

URL : https://0xacab.org/jvoisin/mat2

打开外部网站

相关文章