为什么能从文体推测身份
匿名发声时,很多人会注意姓名和头像。
但是,文章本身也有线索。
语尾。 标点。 常用表达。 专业术语。 话题选择。 文章长度。 生气的方式。 说明顺序。
这些特征,会成为与实名账号或过去发帖连接的材料。
本文整理文体如何关系到匿名性。
文体会显出个人特征
文章会显出一个人的习惯。
即使自己觉得是在普通地写,词语选择和节奏也会有偏向。
例如,以下这些就是线索。
- 常用语尾
- 标点使用方式
- 换行方式
- 喜欢用的连接词
- 比喻习惯
- 专业术语的用法
- 情绪表达的强度
- 文章长度
这些单独看并不决定性。 但是,多个重叠后,就会形成像是同一个人的迹象。
与实名账号相似时很危险
即使匿名账号不写本名,只要文体与实名账号相似,也会被关联。
尤其危险的是,用同样的讲法写同样的话题。
实名侧也写同一个专业领域。 匿名侧也用同样的论点顺序说明。 使用同样的表达、同样的口头禅、同样的强调方式。
这种重叠,对能读出来的人来说相当显眼。
| 重叠 | 可见的信息 |
|---|---|
| 相同语尾 | 文章习惯 |
| 相同专业术语 | 所属领域或经验 |
| 相同话题组合 | 关心点或立场 |
| 相同说明顺序 | 思考习惯 |
| 相同情绪表达 | 反应模式 |
在匿名性中,不仅要确认写什么,也要确认怎么写。
AI 时代会强化文体关联
一直以来,人们就会通过文章习惯推测他人。
但是在 AI 时代,这项工作会变快。 大量文章更容易被比较,相似表达、词汇、句子长度、话题倾向也更容易被提取。
这并不是说 AI 一定能识别本人。 但是,缩小候选范围的能力正在提高。
匿名发帖与实名博客。 匿名账号与过去的论坛发帖。 别名文章与社交媒体文字。
这些内容被并列分析时,文体会成为关联材料。
不过,也没有必要把文体分析看成万能。
只靠文章确定本人并不简单。 短文、固定格式的文字、对新闻的简短反应,可能缺少判断材料。
问题在于文章数量很大时。 长期持续的匿名账号,会积累那个人的用词习惯、关心点、生气方式、说明顺序、常用比喻。 如果实名侧也有大量类似文章,就会更容易比较。
| 状况 | 文体风险 |
|---|---|
| 短的单次发帖 | 判断材料较少 |
| 长期持续的匿名账号 | 习惯容易积累 |
| 实名侧也有很多长文 | 比较对象增加 |
| 写同一个专业领域 | 词汇和说明顺序容易重叠 |
| 情绪化发帖很多 | 反应模式容易留下 |
文体风险会随着时间和数量增强。
分开思考内容和文体
思考文体风险时,把内容和文体分开会更容易整理。
内容,是写了什么。 文体,是怎么写。
| 视角 | 例子 | 对匿名性的影响 |
|---|---|---|
| 内容 | 职场、地区、亲身经历、专业领域 | 直接缩小本人或所属范围 |
| 文体 | 语尾、标点、表达、结构 | 与实名侧或过去发帖连接 |
| 反应 | 对什么生气、强调什么 | 显出价值观或立场 |
| 话题顺序 | 每次从同一个论点开始 | 思考模式会留下 |
即使模糊内容,如果文体相同,也会被关联。 反过来,即使改变文体,如果内容过于具体,身份也会被缩小。
两者都需要查看。
分离文体时的思路
改变文体,并不是夸张地扮演另一个人。
不自然的人设很难长期维持。 持续越久,原本的习惯越会回来。
现实可行的是,减少实名侧与匿名侧的重叠。
- 不使用实名侧的口头禅
- 避免相同专业术语
- 避免相同话题组合
- 改变文章长度
- 改变说明顺序
- 不把情绪化反应原样发出
- 发帖前与过去的实名发帖并排查看
文体无法完全消除。 正因为如此,意识到并减少重叠很重要。
也需要注意“用 AI 改写就安全”的想法。
尤其不要把未公开的举报文、咨询文、包含个人信息的文章、高风险匿名活动的文章,原样输入外部 AI 服务。输入内容和使用历史可能会留在服务侧。
AI 改写有时可以帮助整理表达,但内容、论点选择、举例方式、生气的地方、过于详细的领域仍会留下。
此外,如果每次都变成同一种 AI 风格的文章,那本身也会成为另一种特征。 过于不自然地整齐、相同结构、相同表达持续出现时,会在匿名账号内部形成一贯特征。
文体对策并不只是把文章换成另一种说法。 它也包括调整说什么、按什么顺序说、具体到什么程度。
与实名侧并排阅读
发帖前确认中效果较高的方法,是把实名侧文章和匿名侧文章并排阅读。
是否写了同一个话题。 是否使用了相同连接词。 是否用同样顺序说明。 是否出现相同比喻或口头禅。
自己不容易注意到的习惯,并排查看后会显现。
| 比较部分 | 确认事项 |
|---|---|
| 开头 | 是否每次都用同样的开场 |
| 说明顺序 | 是否与实名侧的论点排列方式相同 |
| 语尾 | 断定、疑问、讽刺的形式是否相似 |
| 比喻 | 是否总是使用相同经历或行业例子 |
| 专业词汇 | 是否透出实名侧的职业或所属领域 |
文体无法完全消除。 即便如此,只要有意识地减少重叠,就能减少关联材料。
短文也会显出习惯
长文会增加文体信息。 但是,短文也不等于安全。
即使是短回复,表情符号的用法、标点、反应速度、讽刺方式、常用应答语也会显出习惯。 尤其在社交媒体上,短发帖会大量积累。
| 短文习惯 | 可见的信息 |
|---|---|
| 固定应答语 | 平时说话的习惯 |
| 是否使用标点 | 写作节奏 |
| 讽刺或生气方式 | 反应模式 |
| 回复时间段 | 生活节奏 |
| 经常回应的话题 | 关心点或立场 |
匿名账号中,不只是长文文章,回复、引用、简短感想也会被看作同一人格的积累。
发帖前要确认的事
确认文体时,要查看以下几点。
| 确认项目 | 查看理由 |
|---|---|
| 常用语尾 | 容易显出与实名侧相同的习惯 |
| 标点和换行 | 文章节奏会留下 |
| 专业词汇 | 会显出职业或所属领域 |
| 比喻 | 容易显出个人经历 |
| 话题组合 | 会与过去发帖连接 |
| 情绪表达 | 反应模式会留下 |
发帖前,只是把实名账号的文章和匿名发帖并排阅读,也会注意到一些东西。
自己觉得普通,并排后却可能相当相似。
总结
文体关系到匿名性。
语尾、标点、表达、专业术语、话题选择、文章长度、情绪表达,都会成为像是同一个人的材料。
并不是说只靠文体就一定能识别本人。 但是,与内容、发帖时间、账号、图片、过去信息组合后,会成为缩小候选范围的线索。
保护匿名性时,不仅需要确认写什么,也需要确认怎么写。
重要的不是扮演另一个人。 而是减少与实名侧或过去发帖的重叠。