视频和音频元数据
视频和音频元数据的风险
视频和音频是匿名性处理中较难处理的格式。
文件内部可能保留拍摄日期和时间、设备信息、位置信息、编辑软件以及标签信息。除此之外,视频或音频内容本身也可能包含人脸、声音、背景、通知、环境音、对话以及地点线索。
它们的信息量比图片更大。即使只有几秒的视频或声音,也可能让身份或生活范围被推测出来。
本文整理视频和音频文件中可能残留的信息,以及发布前应检查的要点。
视频中残留的信息
视频文件同时包含元数据和影像内容。
| 信息 | 表示什么 | 注意点 |
|---|---|---|
| 拍摄日期和时间 | 何时拍摄 | 会与行动时间或现场参与关联起来 |
| 位置信息 | 拍摄地点 | 有时会保留 GPS |
| 设备信息 | 使用的机型或应用 | 成为拍摄环境的线索 |
| 编辑软件 | 工作环境 | 可能暴露编辑者或制作环境 |
| 影像内容 | 人脸、背景、招牌 | 通过删除元数据无法消除 |
在视频中,即使只有一帧出现信息,也可能成为线索。
一瞬间出现的通知或反光也需要检查。
音频中残留的信息
音频文件可能保留标签信息和录音环境相关信息。
此外,声音本身就是很强的线索。声音、说话方式、方言、背景音、车站广播、工作场所声音、家人的声音以及通知音都可能被包含在内。
| 信息 | 表示什么 | 注意点 |
|---|---|---|
| ID3 标签 | 标题、创建者、评论 | 即使不是音乐录音也可能残留 |
| 录音日期和时间 | 录音时间 | 会与行动时间关联起来 |
| 录音应用 | 使用环境 | 成为设备或工作环境的线索 |
| 本人声音 | 可识别个人身份的特征 | 对熟人来说是强线索 |
| 背景音 | 地点或状况 | 可能暴露车站、店铺、工作场所、家庭 |
即使没有露脸,音频也会显露可识别个人身份的特征。
在高风险发布中,需要慎重考虑是否公开声音本身。
仅删除元数据并不够
对视频和音频来说,即使删除元数据,内容仍然会留下。
| 对象 | 内容中残留的信息 | 例子 |
|---|---|---|
| 影像 | 背景、人脸、文字、反光 | 招牌、名牌、通知 |
| 音频 | 声音、环境音、对话 | 车站广播、家人的声音 |
| 屏幕录制 | 标签页、通知、账号名 | 真实姓名邮箱、日历 |
| 字幕 | 姓名、时间、地点 | 也包括自动生成字幕的误显示 |
| 编辑 | 忘记剪掉的部分、前后空白 | 拍摄前后的对话 |
在匿名性处理中,需要把文件内部信息和内容分开检查。
发布前检查
发布视频或音频前,基本原则是不要直接发布原始文件。
| 检查项目 | 理由 |
|---|---|
| 创建发布用副本 | 保护原始文件 |
| 检查元数据 | 查看拍摄日期、时间和设备信息 |
| 完整播放并检查 | 找出瞬间泄露的信息 |
| 单独检查音频 | 听背景音和对话 |
| 查看字幕和自动转写 | 确认是否出现姓名或地点 |
| 检查文件名 | 避免真实姓名或项目名 |
即使是短视频,开头和结尾也可能包含多余信息。
剪切后也要重新检查。
也需要做出不发布的判断
视频和音频即使经过处理,也有时很难变得足够安全。
即使改变声音,说话方式和背景音仍会留下。即使遮住人脸,服装和地点仍会留下。即使删除元数据,画面中的通知和对话仍会留下。在这种情况下,不发布会成为最安全的选择。
| 情况 | 不发布的理由 | 替代方案 |
|---|---|---|
| 包含本人或相关人员的声音 | 熟人可能认出来 | 转写成文字并整理内容 |
| 地点强烈入镜 | 会从背景被识别 | 改为不含地点信息的说明 |
| 未成年人或家人入镜 | 会牵连本人以外的人 | 不使用图片或声音 |
| 包含工作场所声音或内部对话 | 可能暴露组织或相关人员 | 仅限可信的咨询对象 |
| 处理后含义会失真 | 可能产生误解或证据性问题 | 保存原件,另行制作发布版本 |
在匿名性处理中,不仅发布的技术重要,不发布的判断也很重要。
对高风险资料,应考虑通过安全路径交给可信的咨询对象,而不是作为公开帖发布。
工具能检查什么,不能检查什么
检查视频和音频元数据时,有时会使用 ExifTool 或 ffmpeg 系列工具。
ExifTool 是一种代表性工具,可以检查多种格式的元数据。
URL : https://exiftool.org/
| 工具容易看到的内容 | 需要另行检查的内容 |
|---|---|
| 拍摄日期和时间 | 影像中的时钟或通知 |
| 设备信息 | 人脸、服装、背景 |
| 位置信息 | 招牌或车站声音 |
| 编辑软件 | 对话或声音特征 |
| 标签信息 | 字幕和转写内容 |
工具有助于检查内部信息。
但是,声音和影像的内容需要自己确认。
文件越长,检查越困难
视频和音频越长,检查就越困难。
即使是 10 分钟的视频,也可能只有 1 秒钟出现通知。即使是 30 分钟的音频,中途也可能进入家人的声音或车站广播。在匿名性处理中,重要的是不要在未检查整体的情况下发布。
| 问题 | 会发生什么 |
|---|---|
| 开头或结尾忘记剪掉 | 拍摄前后的对话会留下 |
| 中途的通知 | 真实姓名或联系方式会出现 |
| 背景音 | 地点或时间会暴露 |
| 字幕 | 自动转写中会出现姓名 |
| 编辑错误 | 原以为已经隐藏的部分会留下 |
还需要确认发布视频或音频的目的。
它是作为证据所必需,还是只是辅助说明,或只是想传达气氛,判断会因此不同。如果目的不强,用文字说明更安全。
屏幕录制有不同的风险
在视频中,屏幕录制尤其需要注意。
屏幕录制会拍到浏览器标签页、书签、通知、邮箱地址、已登录图标、文件名、时钟以及输入历史。即使只打算展示资料的一部分,屏幕边缘也可能残留真实姓名环境。
| 容易入镜的内容 | 能看出什么 | 对策 |
|---|---|---|
| 浏览器标签页 | 正在浏览的网站或工作内容 | 只保留必要标签页 |
| 通知 | 真实姓名、联系方式、日程 | 关闭通知 |
| 书签 | 兴趣、工作场所、管理页面 | 使用专用浏览器 |
| 文件名 | 项目名、个人名 | 分到发布用文件夹 |
| 时钟 | 拍摄时间或生活节奏 | 必要时裁剪掉 |
屏幕录制会直接交出设备状态。
重视匿名性时,不应使用日常环境录制,而应在为发布整理过的其他浏览器或其他用户环境中录制。录制后,还要重新检查影像、音频、字幕和文件名。
总结
视频和音频文件在元数据和内容两方面都有风险。
除了拍摄日期和时间、位置信息、设备信息、编辑软件、标签信息之外,人脸、背景、反光、声音、环境音、通知和对话也会成为线索。
即使删除元数据,影像和声音的内容仍会留下。
发布前应创建发布用副本,并检查元数据、影像、音频、字幕和文件名。
在高风险活动中,不发布视频或音频也会成为一种安全措施。
相关工具
ExifTool
与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。
列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。
URL : https://exiftool.org/
MAT2
与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。
列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。
FFmpeg
与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。
列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。
URL : https://ffmpeg.org/