Learn

284 篇文章分类:全部
元数据

PDF 元数据的风险

PDF 常被用作公开资料或提交资料。

但是,PDF 不能只凭外观判断。即使正文中没有写名字,文件内部也可能残留作者名、创建软件、创建日期时间、注释、嵌入文件、表单信息。

在匿名性中,不只是 PDF 的内容,制作 PDF 的环境和编辑历史也会成为线索。

本文整理 PDF 中容易残留的信息,以及公开前应确认的观点。

PDF 中残留的信息

PDF 中可能包含文档本身以外的信息。

信息表示什么匿名性上的风险
作者OS 或文档软件的用户名出现个人名或组织名
创建日期时间什么时候制作与行动时间或资料制作时期连接
创建软件Word、LibreOffice、扫描仪等成为作业环境线索
标题原文档名或案件名内部名称残留
注释评论或编辑备忘相关人员或判断过程出现
嵌入文件原资料或附件数据不必要的信息混入

PDF 看起来像“完成版”。

但是,内部可能残留制作过程的信息。

涂黑失败

PDF 中特别危险的是涂黑失败。

即使外观看起来被黑色方块遮住,内部也可能保留文字信息。通过复制、搜索、解除图层,可能取出原文字。

常见处理问题接近安全的思路
叠加黑色图形原文字残留在内部使用专用涂黑功能
只做截图注意画质和隐藏信息重新确认必要范围
用注释遮盖注释可能被移除输出后复制搜索
删除页面嵌入或历史可能残留作为其他文件重新生成
手动作局部删除容易漏看做成检查清单

高风险资料中,不应只靠一个人的眼睛判断涂黑处理。

在法律、报道、内部举报语境中,可能需要专家或可信咨询对象确认。

分开看 PDF 外观和内部

确认 PDF 时,要分开看外观和内部信息。

外观包括正文、图片、表格、二维码、页码、背景、水印。内部包括元数据、注释、嵌入文件、表单、链接。

确认位置查看信息理由
外观正文、图片、表格、背景确认直接个人信息
链接URL、共享目标、跟踪避免个人 ID 和内部 URL
元数据作者、创建软件不暴露作业环境
注释评论、校阅不留下内部对话
嵌入附件、表单不包含不必要数据

PDF 看起来像印刷物。

但实际上,它是具有内部结构的数字文件。

确认步骤

公开 PDF 前,基本原则是不要直接公开原文件。

创建公开用副本,只保留必要信息。

步骤要确认的事
1创建公开用副本,而不是使用原文件
2查看文件名中是否有本名、案件名、组织名
3确认文档属性
4确认注释、评论、表单、嵌入
5确认涂黑部分是否不能复制搜索
6在其他环境中重新打开确认显示
7上传后确认对方会如何看到

ExifTool 和 qpdf 这样的工具有助于确认。

但是,即使用工具删除元数据,正文和图片中残留的信息也要另外确认。 如果把原 PDF 上传到外部 PDF 转换服务、在线涂黑服务、在线元数据确认服务,文档内容、访问信息、处理时刻可能交给该服务。高风险 PDF 中,确认和转换也应尽可能在本地环境进行。

也要确认 PDF 的发送对象

PDF 的风险不只在文件内部。

上传到哪里、发送给谁、用哪个账号共享,也与匿名性有关。如果从个人云端共享,所有者名或邮箱地址可能可见。如果用邮件发送,发送者、主题和时刻会残留。

共享方法残留信息注意点
云端链接所有者名、共享历史不从实名账号共享
邮件附件发送者、主题、时刻查看联系路径关联
投稿网站上传时刻、账号与发帖内容连接
聊天发送残留在对方终端注意截图和转发
匿名提交提交方日志、确认时刻查看提交方可信度

让 PDF 安全,不只是整理 PDF 内部。

还要一起考虑共享路径、账号、发送时刻、对方侧保存。

与其他文章的范围区分

本文处理 PDF 中残留信息的风险。

实际删除 PDF 元数据的流程,在“删除 PDF 元数据时的注意”中处理。从 Office 文档制作 PDF 时,也要确认原 Office 文件侧的作者信息和修改历史。

也就是说,重要的是不要只看 PDF 就结束。

查看对象主要确认
PDF 本体作者、注释、嵌入、涂黑
原 Office修改历史、评论、公司名
图片背景、反射、文字、
共享路径所有者名、URL、发送时刻
咨询对象证据价值和安全性的处理

PDF 在很多场景中是“容易提交的格式”。

正因如此,在内部举报、学校或职场咨询、提供给媒体时,容易未经处理就直接交出。如果重视匿名性,要分开确认制作 PDF 的人、编辑的人、共享的人、打开的人,其信息会留在哪里。

收到的 PDF 也要注意

PDF 风险不只限于自己制作的文件。

从别人那里收到的 PDF,也可能残留作者、创建日期时间、创建软件、注释、嵌入文件。如果把采访或咨询中收到的 PDF 原样公开,可能会形成回到提供者的线。

收到的 PDF 信息风险
作者提供者或组织可见
创建日期时间资料制作时期可见
注释内部备忘残留
嵌入原资料混入
文件名案件或个人名可见

越是收到的 PDF,越要从保护提供者的角度确认。

扫描 PDF 也会残留线索

不能说把纸张扫描成 PDF 就安全。

扫描 PDF 可能残留扫描仪名、创建软件、创建日期时间。纸面本身还会残留印章、收件编号、手写文字、折痕、空白处备忘、复印机特征。即使是没有文字信息的图片 PDF,也会从外观出现线索。

线索能知道什么注意点
扫描仪信息使用设备或环境确认元数据
收件编号组织内部资料可通过编号体系缩小范围
手写文字书写者熟人可能看出
印章、签名个人或组织成为直接识别信息
空白和折痕处理方式原件路径被推测

扫描 PDF 同时具有数字文档和纸质文档的风险。

不仅要看元数据,也要放大确认纸面外观。

总结

PDF 不能只凭外观判断安全。

作者名、创建日期时间、创建软件、注释、嵌入文件、表单信息可能残留。

涂黑也不能只看外观。会把原文字留在内部的处理很危险。

在匿名性中,要分开确认 PDF 正文、外观、内部信息、文件名、共享对象。

高风险资料不要独自判断,也要考虑使用可信咨询对象或专家。

相关工具

Metadata inspection

ExifTool

与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。

列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。

URL : https://exiftool.org/

打开外部网站
Metadata removal

MAT2

与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。

列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。

URL : https://0xacab.org/jvoisin/mat2

打开外部网站
PDF inspection

qpdf

与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。

列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。

URL : https://qpdf.readthedocs.io/

打开外部网站

相关文章