Learn

96 篇文章分类:全部
文本与内容

为什么能从文体推测身份

匿名发声时,很多人会注意姓名和头像。

但是,文章本身也有线索。

语尾。 标点。 常用表达。 专业术语。 话题选择。 文章长度。 生气的方式。 说明顺序。

这些特征,会成为与实名账号或过去发帖连接的材料。

本文整理文体如何关系到匿名性。

文体会显出个人特征

文章会显出一个人的习惯。

即使自己觉得是在普通地写,词语选择和节奏也会有偏向。

例如,以下这些就是线索。

  • 常用语尾
  • 标点使用方式
  • 换行方式
  • 喜欢用的连接词
  • 比喻习惯
  • 专业术语的用法
  • 情绪表达的强度
  • 文章长度

这些单独看并不决定性。 但是,多个重叠后,就会形成像是同一个人的迹象。

与实名账号相似时很危险

即使匿名账号不写本名,只要文体与实名账号相似,也会被关联。

尤其危险的是,用同样的讲法写同样的话题。

实名侧也写同一个专业领域。 匿名侧也用同样的论点顺序说明。 使用同样的表达、同样的口头禅、同样的强调方式。

这种重叠,对能读出来的人来说相当显眼。

重叠可见的信息
相同语尾文章习惯
相同专业术语所属领域或经验
相同话题组合关心点或立场
相同说明顺序思考习惯
相同情绪表达反应模式

在匿名性中,不仅要确认写什么,也要确认怎么写。

AI 时代会强化文体关联

一直以来,人们就会通过文章习惯推测他人。

但是在 AI 时代,这项工作会变快。 大量文章更容易被比较,相似表达、词汇、句子长度、话题倾向也更容易被提取。

这并不是说 AI 一定能识别本人。 但是,缩小候选范围的能力正在提高。

匿名发帖与实名博客。 匿名账号与过去的论坛发帖。 别名文章与社交媒体文字。

这些内容被并列分析时,文体会成为关联材料。

不过,也没有必要把文体分析看成万能。

只靠文章确定本人并不简单。 短文、固定格式的文字、对新闻的简短反应,可能缺少判断材料。

问题在于文章数量很大时。 长期持续的匿名账号,会积累那个人的用词习惯、关心点、生气方式、说明顺序、常用比喻。 如果实名侧也有大量类似文章,就会更容易比较。

状况文体风险
短的单次发帖判断材料较少
长期持续的匿名账号习惯容易积累
实名侧也有很多长文比较对象增加
写同一个专业领域词汇和说明顺序容易重叠
情绪化发帖很多反应模式容易留下

文体风险会随着时间和数量增强。

分开思考内容和文体

思考文体风险时,把内容和文体分开会更容易整理。

内容,是写了什么。 文体,是怎么写。

视角例子对匿名性的影响
内容职场、地区、亲身经历、专业领域直接缩小本人或所属范围
文体语尾、标点、表达、结构与实名侧或过去发帖连接
反应对什么生气、强调什么显出价值观或立场
话题顺序每次从同一个论点开始思考模式会留下

即使模糊内容,如果文体相同,也会被关联。 反过来,即使改变文体,如果内容过于具体,身份也会被缩小。

两者都需要查看。

分离文体时的思路

改变文体,并不是夸张地扮演另一个人。

不自然的人设很难长期维持。 持续越久,原本的习惯越会回来。

现实可行的是,减少实名侧与匿名侧的重叠。

  • 不使用实名侧的口头禅
  • 避免相同专业术语
  • 避免相同话题组合
  • 改变文章长度
  • 改变说明顺序
  • 不把情绪化反应原样发出
  • 发帖前与过去的实名发帖并排查看

文体无法完全消除。 正因为如此,意识到并减少重叠很重要。

也需要注意“用 AI 改写就安全”的想法。

尤其不要把未公开的举报文、咨询文、包含个人信息的文章、高风险匿名活动的文章,原样输入外部 AI 服务。输入内容和使用历史可能会留在服务侧。

AI 改写有时可以帮助整理表达,但内容、论点选择、举例方式、生气的地方、过于详细的领域仍会留下。

此外,如果每次都变成同一种 AI 风格的文章,那本身也会成为另一种特征。 过于不自然地整齐、相同结构、相同表达持续出现时,会在匿名账号内部形成一贯特征。

文体对策并不只是把文章换成另一种说法。 它也包括调整说什么、按什么顺序说、具体到什么程度。

与实名侧并排阅读

发帖前确认中效果较高的方法,是把实名侧文章和匿名侧文章并排阅读。

是否写了同一个话题。 是否使用了相同连接词。 是否用同样顺序说明。 是否出现相同比喻或口头禅。

自己不容易注意到的习惯,并排查看后会显现。

比较部分确认事项
开头是否每次都用同样的开场
说明顺序是否与实名侧的论点排列方式相同
语尾断定、疑问、讽刺的形式是否相似
比喻是否总是使用相同经历或行业例子
专业词汇是否透出实名侧的职业或所属领域

文体无法完全消除。 即便如此,只要有意识地减少重叠,就能减少关联材料。

短文也会显出习惯

长文会增加文体信息。 但是,短文也不等于安全。

即使是短回复,表情符号的用法、标点、反应速度、讽刺方式、常用应答语也会显出习惯。 尤其在社交媒体上,短发帖会大量积累。

短文习惯可见的信息
固定应答语平时说话的习惯
是否使用标点写作节奏
讽刺或生气方式反应模式
回复时间段生活节奏
经常回应的话题关心点或立场

匿名账号中,不只是长文文章,回复、引用、简短感想也会被看作同一人格的积累。

发帖前要确认的事

确认文体时,要查看以下几点。

确认项目查看理由
常用语尾容易显出与实名侧相同的习惯
标点和换行文章节奏会留下
专业词汇会显出职业或所属领域
比喻容易显出个人经历
话题组合会与过去发帖连接
情绪表达反应模式会留下

发帖前,只是把实名账号的文章和匿名发帖并排阅读,也会注意到一些东西。

自己觉得普通,并排后却可能相当相似。

总结

文体关系到匿名性。

语尾、标点、表达、专业术语、话题选择、文章长度、情绪表达,都会成为像是同一个人的材料。

并不是说只靠文体就一定能识别本人。 但是,与内容、发帖时间、账号、图片、过去信息组合后,会成为缩小候选范围的线索。

保护匿名性时,不仅需要确认写什么,也需要确认怎么写。

重要的不是扮演另一个人。 而是减少与实名侧或过去发帖的重叠。

相关文章