Learn

284 篇文章分类:全部
文本与内容

安全模糊固有名词的方法

匿名写文章时,最先想删掉的往往是人名、公司名、学校名、店名、地区名等固有名词。

这是正确的出发点。

但是,只把固有名词涂黑,并不等于安全。固有名词周围还会留下职务、关系、时期、地点、项目名、照片、文件名、URL 等线索。

即使把“〇〇公司”改成“某家公司”,如果写成“西日本一家小型医疗类初创公司,上个月刚宣布融资”,候选范围也会大幅缩小。

本文整理的不是只删除固有名词,而是在保留读者所需意义的同时,降低接近本人或相关人员的精度。

固有名词会成为强线索

固有名词是能一下子缩小对象范围的信息。

人名、公司名、学校名、医院名、店铺名、活动名、项目名、车站名、设施名,即使单独出现也是强信息。再和日期或职务组合起来,不仅本人,相关人员也可能变得可见。

固有名词能看出什么匿名性上的注意点
人名个人、相关人员不只本人,周围的人也会被识别
公司名、学校名所属、日常活动范围发帖者立场和相关人员会被缩小
医院、店铺、设施名使用地点、地区会和行动范围、时刻连接
活动名参加者、时期会与参加者名单和照片核对
项目名业务范围、负责人内部人员能看出来源
车站名、地名日常活动范围、移动路线和其他发帖重叠时,会接近住所或工作单位

固有名词会比本人想象中更容易牵连周围的人。

保护匿名性的编辑中,不仅自己的名字,别人的名字和所属也要同样处理。

先决定要保护什么

在模糊固有名词之前,先决定想保护什么。

是保护本人,还是隐藏工作单位;是保护信源,还是保护受害者或咨询者。目标不同,可以保留的信息粒度也会改变。

想保护的对象特别注意的信息编辑方向
发帖者本人工作单位、学校、日常活动范围、过去发帖把接近自己的固有名词改成更宽泛的表达
相关人员人名、职务、关系删除能浮现个人的信息
信源所属、接触时期、谈过的内容调整到能增加知情人数的粒度
受害者、咨询者地区、学校、家庭关系减少周围人能够推测的信息
组织内部信息项目名、会议名、资料名泛化内部人员才懂的表达

同样是“模糊学校名”,保护对象不同,需要的粒度也不同。

低风险的一般经历分享中,“东京的一所大学”有时已经足够。高风险的举报或咨询中,可能需要降到“某教育机构”。

替换时分开意义和精度

模糊固有名词的目的,不是把文章变空。

保留读者需要的意义。降低接近本人或相关人员的精度。

原表达替换例保留的意义降低的精度
涩谷区的〇〇诊所城市地区的医疗机构医疗机构中的事件区名、设施名
A 大学 B 研究室某研究机构研究现场的话题大学名、研究室名
新宿站附近的店铺大型车站周边的店铺人流较多的地点车站名、店铺识别
招聘例会上佐藤部长说过例会上管理层说过会议和立场会议名、人名、职务的唯一性
项目 Falcon某内部项目业务上的项目内部代号

这种替换会保留读者理解情况所需的信息。

同时,会去掉通过搜索或内部核对接近对象的信息。

邻近信息也要一起模糊

只删除固有名词,如果邻近信息还在,就没有意义。

即使删除公司名,如果所在地、行业、人数、职务、发布日期、产品名还在,候选仍会被缩小。即使删除人名,如果职务、年龄、关系、说话方式、时间线还在,内部人员仍能看出来。

已删除的固有名词容易残留的邻近线索确认事项
公司名行业、规模、地区、产品名是否能用组合搜索出来
学校名学部、研讨班、课程名、活动是否会缩小到少数人
人名职务、关系、口头习惯、年龄周围的人是否能看出来
地区名车站、店铺、方言、天气、活动日常活动范围是否可见
活动名日期、会场、演讲者参加者是否会被缩小

公开前,要在删除固有名词后重读全文。

不是只看“名字是否消失”,而是看“是否还留下能把名字补回去的线索”。

过度模糊会破坏意义

把固有名词全部删掉,看起来很安全。

但是,如果连必要意义也删掉,读者就无法理解情况。咨询文、提醒、技术说明、报道资料中,问题是什么会变得传达不出去。

重要的是确认这个固有名词对于传达什么是否必要。

目的较容易保留的信息想删除的信息
一般提醒行业、问题类型公司名、店铺名、日期时间
咨询困扰情况、所需支持学校名、负责人名、少数人的职务
技术解说机制、失败模式内部系统名、真实管理界面
举报准备事实关系、证据类型相关人员名、分发对象、准确时刻

把保留意义的部分和降低精度的部分分开,更容易兼顾可读性和匿名性。

文件、图片、URL 也要确认

固有名词不一定只出现在正文中。

文件名、图片背景、截图、PDF 元数据、Office 文档作者、共享 URL 中也可能残留。

位置残留的固有名词确认事项
文件名公司名、项目名、日期改成公开用名称
图片招牌、名牌、校徽、地名连背景也一起确认
PDF、Office 文档作者、公司名、模板确认元数据
URL组织名、用户名、搜索词删除不必要参数
音频称呼、地名、设施名重新听音频内容

元数据的确认方法在其他文章中详细说明。

本文要把握的是,固有名词也会残留在正文之外。

发帖前的确认步骤

模糊固有名词后的文章,按下面顺序确认。

  1. 查找人名、公司名、学校名、设施名、活动名
  2. 确认其周围的职务、地区、时期、关系
  3. 查看是否有被搜索后会出现候选的表达。实际进行外部搜索时,不要直接输入未公开正文、敏感固有名词、内部信息
  4. 思考内部人员读到后会想到谁
  5. 确认附件、图片、URL、音频中是否也有同样信息

如果还剩不明确项目,重要的是不要急着公开。

“大概没问题”在匿名性确认中是很弱的判断。不明白的内容,应进入确认、进一步模糊、不公开、咨询可信赖对象中的某一种。

总结

安全模糊固有名词,不只是删除名字。

即使删除人名、公司名、学校名、设施名、活动名,只要职务、时期、地区、关系、文件名、图片、URL 还在,对象仍会被缩小。

保护匿名性的编辑,是在保留读者所需意义的同时,降低接近本人和相关人员的精度。

模糊固有名词后,也要确认“了解情况的人读到后会想到谁”。

不仅正文,连图片、文件、URL、音频也一起检查,是公开前的重要工作。

相关文章