AI 时代的文章匿名化
匿名写文章时,过去只要“不写本名”“不写公司名”“模糊地区名”,有时看起来就已经在一定程度上足够。
现在,仅靠这些已经不够。
搜索、文本分析、摘要 AI、相似文本搜索、SNS 上的长期历史,让文章习惯、话题偏向、体验谈时间线、专业领域、与过去帖子的重叠更容易被发现。
AI 时代的文章匿名化,不只是删除单词,还需要确认“整篇文章塑造出什么样的人物像”。
本文整理 AI 时代文章中会看到哪些线索,以及发布前应如何整理。
AI 时代基本仍是关联
并不是因为有了 AI,匿名性的思考方式就完全改变。
基本仍是关联。
问题在于,不同信息会连接到同一人物、同一职场、同一地区、同一过去账号、同一活动。不过,AI 和搜索技术让发现这种关联的工作变快了。
| 文章内线索 | 连接的东西 | AI 时代的注意点 |
|---|---|---|
| 过去帖子、其他账号 | 更容易发现相似写法 | |
| 话题 | 职业、地区、兴趣 | 从长期历史塑造人物像 |
| 专业术语 | 所属、负责领域 | 行业和组织会被缩小 |
| 体验谈 | 时间线、相关人员 | 事件顺序会被核对 |
| 命名实体 | 人名、地点、组织 | 搜索中容易出现候选 |
AI 时代的文章匿名化,不是害怕 AI。
而是以人类手工容易漏掉的关联会被机械拾取为前提进行确认。
删除本名后,文章习惯仍会残留
文章中有习惯。
常用词、句子长度、连接方式、标题写法、例子选择、标点、强调方式、愤怒方式、说明顺序。这些会在本人无意识中残留。
| 习惯 | 例子 | 注意点 |
|---|---|---|
| 表达方式 | 总是使用的固定说法 | 与实名侧重叠时很强 |
| 结构 | 导入、例子、结论的顺序 | 整篇文章会相似 |
| 标点 | 逗号使用方式、换行 | 小习惯也会累积 |
| 例子的选择 | 同一行业或地区的例子 | 经验会显现 |
| 情绪表达 | 愤怒方式、讽刺、断定 | 与过去帖子连接 |
文体关联的详细内容在另一篇文章中处理。
这里重要的是,“只替换词语并不会改变文体”。匿名化中,不只看固有名词,也要看文章结构和例子的选择。
让 AI 改写并不等于安全
让 AI 改写文章,文体有时会改变。
但是,不能因此说安全。输入 AI 的内容包含原文、固有名词、内部信息、体验谈、相关人员信息。如果输入外部服务,就意味着信任该服务。
| 做法 | 会改变的东西 | 残留问题 |
|---|---|---|
| 改变句尾 | 表面印象 | 话题、时间线、专业性残留 |
| 让 AI 摘要 | 文章量和表达 | 把输入内容交给外部 |
| 只删除固有名词 | 直接点名 | 周边信息会缩小候选 |
| 翻译后再翻回 | 文体的一部分 | 含义和例子选择仍残留 |
AI 可以成为方便的辅助。
不过,高风险文章、内部举报、信源、未公开资料、个人受害信息输入外部 AI 服务时,应谨慎考虑。输入目标服务、保存方针、账号、使用环境都会成为新的信任对象。
文章匿名化应看的层
文章匿名化要按顺序查看多个层。
只看词语、只看文体、只看时间线都不够。
| 层 | 确认内容 | 例子 |
|---|---|---|
| 直接标识符 | 姓名、地址、组织名 | 本名、学校名、公司名 |
| 准标识符 | 地区、职业、年龄、职务 | 把候选缩小到少数人的信息 |
| 文体 | 表达方式、结构、习惯 | 与实名侧相同写法 |
| 内容 | 体验谈、专业领域、兴趣 | 与过去帖子重叠 |
| 时间 | 事件时期、发帖时间 | 与现实记录核对 |
| 外部要素 | 图片、URL、文件 | 正文外的信息 |
按这个顺序查看,可以减少确认遗漏。
删除姓名后,确认职业和地区。接着看文体和时间线。最后也确认图片和文件。文章匿名化是分阶段的工作。
具体性应该保留在哪里
匿名化困难之处在于,不能把文章削得太薄。
如果全部写成“在某个地方,某个人经历了某件事”,匿名性可能会提高。但是,读者什么也得不到。
重要的是,分开读者需要的具体性和接近本人的具体性。
| 目的 | 保留的具体性 | 去掉的具体性 |
|---|---|---|
| 提醒注意 | 失败类型、确认步骤 | 实在组织名、日期 |
| 咨询 | 困扰内容、需要的支援 | 学校名、职场名、相关人员名 |
| 技术说明 | 机制、不复现范围的例子 | 内部 URL、真实数据 |
| 体验分享 | 感受到的问题、结构 | 详细时间线、少人数职务 |
即使在 AI 时代,好的匿名化也不是单纯删除。
它保留含义,同时降低可用于核对的精度。
输入 AI 前思考信任对象
AI 时代的文章匿名化中,在“让 AI 帮忙修改”之前,要思考会把什么交给那个 AI 服务。
如果输入文章中包含职场名、相关人员名、内部情况、未公开证据、受害者信息、信源信息,那么从那一刻起,就已经把信息交给外部服务。
| 输入的信息 | 会发生什么 | 确认内容 |
|---|---|---|
| 个人咨询文 | 包含日常活动范围和相关人员 | 是否能信任输入目标服务 |
| 内部举报草稿 | 包含组织和证据 | 输入外部 AI 前考虑咨询对象 |
| 采访笔记 | 包含信源和接触时期 | 是否牵连信息提供者 |
| 预定公开文章 | 包含文体和固有名词 | 输入前先做最低限度模糊 |
使用 AI 服务本身并不是坏事。
但是,在高风险文章中,输入 AI 前先在本地删除固有名词和相关人员信息。即使如此仍有不安时,比起外部 AI,应优先咨询可信赖的人或专家。
发布后文章也会被再利用
公开的文章不会在发布时结束。
它会被搜索收录、引用、摘要、截图,在其他地方重新分发。之后删除,也可能残留原文。
发布后不断回复和补充,会追加新的线索。
需要匿名性的文章,不只要管理发布前,也要管理发布后的反应。情绪化回复、追加体验谈、对相关人员的反驳、时间线补充,有时会成为比最初帖子更强的线索。
发布前确认
AI 时代的文章匿名化,按以下顺序确认。
- 删除姓名、组织名、地名等直接标识符
- 把职业、地区、职务、年龄、经验年数改成更宽泛表达
- 确认体验谈时间线是否过细
- 查看是否与实名账号相同文体或话题
- 确认与过去帖子组合后是否会形成人物像
- 也确认图片、文件、URL、截图
如果还残留无法判断的项目,请不要原样发布。
不明白的东西,要进入进一步模糊、延迟公开、不公开、咨询可信赖对象中的某一种。
总结
AI 时代的文章匿名化,只删除本名和公司名并不充分。
文体、话题、专业性、体验谈、时间线、过去帖子、图片、文件、URL 组合起来,会接近本人或相关人员。
AI 和搜索技术让这些关联更容易被发现。
匿名化中,要在保留读者需要的含义的同时,降低可用于核对的精度。
重要的是,不只看文章,还要包括过去信息和公开物整体一起确认。
相关工具
OSINT Framework
与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。
列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。