ID3 标签的风险
音频文件中,除了声音本身以外,有时还会保存标签信息。
MP3 中常用的 ID3 标签,可能包含标题、艺术家名、专辑名、创建者、评论、图片,以及与录音和编辑有关的信息。
匿名公开音频时,即使已经处理过声音,如果 ID3 标签中残留本名、账号名、制作环境、原文件名,匿名性也会变弱。
本文整理什么是 ID3 标签、哪些信息会成为风险,以及公开前应确认什么。
什么是 ID3 标签
ID3 标签是主要附加在 MP3 文件上的元数据。
音乐播放器能显示曲名、艺术家名、专辑封面,是因为使用了这些标签信息。
| 标签信息 | 内容 | 匿名性上的注意点 |
|---|---|---|
| Title | 标题 | 可能暴露原录音名或内容 |
| Artist | 艺术家名 | 可能残留本名或账号名 |
| Album | 专辑名 | 可能残留项目名或分类 |
| Comment | 评论 | 可能残留编辑备注或内部信息 |
| Cover Art | 嵌入图片 | 注意图片内信息和元数据 |
| Software | 制作、编辑软件 | 会成为工作环境线索 |
音频文件的标签信息,仅靠播放界面无法完全确认。
因此,标签信息是容易被漏看的领域。
ID3 标签与匿名性有关的原因
匿名公开音频时,很多人会注意声音和内容。
但是,文件内的标签也会残留信息。
例如,录音应用可能自动添加标题,编辑软件可能写入创建者名,封面图片中可能嵌入其他信息。
| 场景 | 可能残留的信息 |
|---|---|
| 手机录音 | 录音日期时间、应用名、原文件名 |
| 音乐编辑软件 | 创建者、项目名、软件名 |
| 播客导出 | 标题、作者名、节目名 |
| 语音备忘录共享 | 评论、录音名、终端信息 |
| 带封面的音频 | 图片内的元数据或外观信息 |
仅靠 ID3 标签不一定能知道本人是谁。
但是,如果与声音、说话方式、内容、发帖时间、账号、过去音频组合,就会成为关联材料。
ID3 标签和嵌入图片
音频文件中可能嵌入封面图片。
这张图片也需要注意。
封面图片中可能出现脸、标志、地点、创建者名。进一步说,图片本身也可能包含元数据。
| 嵌入图片的信息 | 风险 |
|---|---|
| 脸部照片 | 本人或相关人员会被看出 |
| 标志 | 可看出所属、团体、项目 |
| 地点 | 可看出拍摄地或日常活动范围 |
| 文字 | 残留姓名、活动名、日期 |
| 图片元数据 | 可能残留创建时间或编辑信息 |
确认音频文件时,不仅要听声音,也要查看嵌入图片。
即使播放器外观上不显示,标签内也可能残留图片。
声音和标签要分开确认
即使删除 ID3 标签,声音和环境音仍会保留。
反过来,即使加工了声音,标签中也可能残留创建者名。
| 确认对象 | 查看内容 |
|---|---|
| 标签信息 | 标题、作者、评论、图片、软件名 |
| 声音 | 音质、说话方式、方言、习惯 |
| 内容 | 固有名词、时间线、地点、相关人员 |
| 环境音 | 车站、店铺、职场、学校、家庭声音 |
| 文件名 | 姓名、日期、地点、案件名 |
音频文件的匿名性不只由标签删除决定。
要把文件内部、音频内容、文件名、发布环境分开确认。
公开前的确认
公开音频文件前,按以下顺序确认。
| 顺序 | 确认 | 理由 |
|---|---|---|
| 1 | 查看 ID3 标签 | 确认是否残留标题、作者、评论 |
| 2 | 查看嵌入图片 | 确认封面图片和图片元数据 |
| 3 | 查看文件名 | 确认是否包含本名、日期、地点 |
| 4 | 从头到尾听音频 | 确认声音、对话、环境音 |
| 5 | 处理后再次确认 | 确认删除或转换是否成功 |
音频即使很短,信息量也很大。
背景中有人叫名字、车站名播报、通知音响起,这类一瞬间的信息也会残留。
删除标签后的再确认
删除 ID3 标签后,必须再次确认。
根据删除工具或转换处理的不同,可能只有一部分标签被删除,其他标签仍然残留。
| 确认 | 理由 |
|---|---|
| 标题和作者是否消失 | 确认直接识别信息 |
| 评论是否残留 | 查看编辑备注和内部信息 |
| 嵌入图片是否消失 | 确认封面图片残留 |
| 是否附加了新的制作软件名 | 确认转换后的信息 |
| 文件名是否有问题 | 避免外侧的信息泄露 |
音频文件在转换后可能附加新的元数据。
因此,处理后的确认也要包含在公开前检查中。
可用于确认的工具
元数据确认有时会使用 ExifTool。
URL : https://exiftool.org/
音频转换和重新编码会使用 FFmpeg。
URL : https://ffmpeg.org/
高风险音频不要上传到在线转换网站或在线标签编辑网站,尽量在本地确认和处理。外部服务可能会取得文件内容、访问来源 IP、确认时间、浏览器信息。
但是,工具不会理解音频的含义。
即使删除 ID3 标签,声音和环境音中残留的线索仍需要由人确认。
高风险音频要考虑公开形式
高风险内容中,也可以判断不直接公开音频。
可以选择把声音转写成文字后只公开内容、泛化固有名词、不公开音频而改为摘要,或在理解共享风险的基础上请可信任对象确认。
不过,即使改为文字转写,和内容线索仍会残留。
重要的不是改变形式就会安全,而是选择保留哪些信息。
ID3 标签在再分发中也会残留
音频文件可能被下载后重新上传到别的地方。
如果一旦公开的文件中残留标签,即使之后自己删除,副本中也会继续残留。
尤其是播客、音频资料、录音备忘、活动记录这类容易被保存的音频,公开前确认很重要。
比起发帖后发现再删除,公开前确认标签更可靠。
与其他信息的关联
ID3 标签在与其他信息连接时会变强。
| 组合 | 会发生什么 |
|---|---|
| Artist + 声音 | 标签名和声音共同形成同一人物感 |
| 创建时间 + 发帖时间 | 会被推测为录音后立即发帖 |
| 评论 + 内容 | 编辑备注与发言内容连接 |
| 封面图片 + 过去图片 | 与别的账号连接 |
| 文件名 + 标签 | 正文外信息重叠 |
匿名性中,不单独看 ID3 标签。
要与音频内容、账号、发帖时间、过去公开物一起确认。
总结
ID3 标签是保存在音频文件中的元数据。
标题、作者、评论、嵌入图片、制作软件等可能会残留。
匿名公开音频时,不仅要确认声音和内容,也要确认标签信息。
即使删除标签,声音、说话方式、环境音、文件名、发帖时间仍会残留。
音频文件应把元数据确认、音频确认、文件名确认、处理后的再确认作为一组来进行。
相关工具
ExifTool
与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。
列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。
URL : https://exiftool.org/
MAT2
与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。
列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。
FFmpeg
与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。
列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。
URL : https://ffmpeg.org/