安全模糊固有名词的方法
匿名写文章时,最先想删掉的往往是人名、公司名、学校名、店名、地区名等固有名词。
这是正确的出发点。
但是,只把固有名词涂黑,并不等于安全。固有名词周围还会留下职务、关系、时期、地点、项目名、照片、文件名、URL 等线索。
即使把“〇〇公司”改成“某家公司”,如果写成“西日本一家小型医疗类初创公司,上个月刚宣布融资”,候选范围也会大幅缩小。
本文整理的不是只删除固有名词,而是在保留读者所需意义的同时,降低接近本人或相关人员的精度。
固有名词会成为强线索
固有名词是能一下子缩小对象范围的信息。
人名、公司名、学校名、医院名、店铺名、活动名、项目名、车站名、设施名,即使单独出现也是强信息。再和日期或职务组合起来,不仅本人,相关人员也可能变得可见。
| 固有名词 | 能看出什么 | 匿名性上的注意点 |
|---|---|---|
| 人名 | 个人、相关人员 | 不只本人,周围的人也会被识别 |
| 公司名、学校名 | 所属、日常活动范围 | 发帖者立场和相关人员会被缩小 |
| 医院、店铺、设施名 | 使用地点、地区 | 会和行动范围、时刻连接 |
| 活动名 | 参加者、时期 | 会与参加者名单和照片核对 |
| 项目名 | 业务范围、负责人 | 内部人员能看出来源 |
| 车站名、地名 | 日常活动范围、移动路线 | 和其他发帖重叠时,会接近住所或工作单位 |
固有名词会比本人想象中更容易牵连周围的人。
保护匿名性的编辑中,不仅自己的名字,别人的名字和所属也要同样处理。
先决定要保护什么
在模糊固有名词之前,先决定想保护什么。
是保护本人,还是隐藏工作单位;是保护信源,还是保护受害者或咨询者。目标不同,可以保留的信息粒度也会改变。
| 想保护的对象 | 特别注意的信息 | 编辑方向 |
|---|---|---|
| 发帖者本人 | 工作单位、学校、日常活动范围、过去发帖 | 把接近自己的固有名词改成更宽泛的表达 |
| 相关人员 | 人名、职务、关系 | 删除能浮现个人的信息 |
| 信源 | 所属、接触时期、谈过的内容 | 调整到能增加知情人数的粒度 |
| 受害者、咨询者 | 地区、学校、家庭关系 | 减少周围人能够推测的信息 |
| 组织内部信息 | 项目名、会议名、资料名 | 泛化内部人员才懂的表达 |
同样是“模糊学校名”,保护对象不同,需要的粒度也不同。
低风险的一般经历分享中,“东京的一所大学”有时已经足够。高风险的举报或咨询中,可能需要降到“某教育机构”。
替换时分开意义和精度
模糊固有名词的目的,不是把文章变空。
保留读者需要的意义。降低接近本人或相关人员的精度。
| 原表达 | 替换例 | 保留的意义 | 降低的精度 |
|---|---|---|---|
| 涩谷区的〇〇诊所 | 城市地区的医疗机构 | 医疗机构中的事件 | 区名、设施名 |
| A 大学 B 研究室 | 某研究机构 | 研究现场的话题 | 大学名、研究室名 |
| 新宿站附近的店铺 | 大型车站周边的店铺 | 人流较多的地点 | 车站名、店铺识别 |
| 招聘例会上佐藤部长说过 | 例会上管理层说过 | 会议和立场 | 会议名、人名、职务的唯一性 |
| 项目 Falcon | 某内部项目 | 业务上的项目 | 内部代号 |
这种替换会保留读者理解情况所需的信息。
同时,会去掉通过搜索或内部核对接近对象的信息。
邻近信息也要一起模糊
只删除固有名词,如果邻近信息还在,就没有意义。
即使删除公司名,如果所在地、行业、人数、职务、发布日期、产品名还在,候选仍会被缩小。即使删除人名,如果职务、年龄、关系、说话方式、时间线还在,内部人员仍能看出来。
| 已删除的固有名词 | 容易残留的邻近线索 | 确认事项 |
|---|---|---|
| 公司名 | 行业、规模、地区、产品名 | 是否能用组合搜索出来 |
| 学校名 | 学部、研讨班、课程名、活动 | 是否会缩小到少数人 |
| 人名 | 职务、关系、口头习惯、年龄 | 周围的人是否能看出来 |
| 地区名 | 车站、店铺、方言、天气、活动 | 日常活动范围是否可见 |
| 活动名 | 日期、会场、演讲者 | 参加者是否会被缩小 |
公开前,要在删除固有名词后重读全文。
不是只看“名字是否消失”,而是看“是否还留下能把名字补回去的线索”。
过度模糊会破坏意义
把固有名词全部删掉,看起来很安全。
但是,如果连必要意义也删掉,读者就无法理解情况。咨询文、提醒、技术说明、报道资料中,问题是什么会变得传达不出去。
重要的是确认这个固有名词对于传达什么是否必要。
| 目的 | 较容易保留的信息 | 想删除的信息 |
|---|---|---|
| 一般提醒 | 行业、问题类型 | 公司名、店铺名、日期时间 |
| 咨询 | 困扰情况、所需支持 | 学校名、负责人名、少数人的职务 |
| 技术解说 | 机制、失败模式 | 内部系统名、真实管理界面 |
| 举报准备 | 事实关系、证据类型 | 相关人员名、分发对象、准确时刻 |
把保留意义的部分和降低精度的部分分开,更容易兼顾可读性和匿名性。
文件、图片、URL 也要确认
固有名词不一定只出现在正文中。
文件名、图片背景、截图、PDF 元数据、Office 文档作者、共享 URL 中也可能残留。
| 位置 | 残留的固有名词 | 确认事项 |
|---|---|---|
| 文件名 | 公司名、项目名、日期 | 改成公开用名称 |
| 图片 | 招牌、名牌、校徽、地名 | 连背景也一起确认 |
| PDF、Office 文档 | 作者、公司名、模板 | 确认元数据 |
| URL | 组织名、用户名、搜索词 | 删除不必要参数 |
| 音频 | 称呼、地名、设施名 | 重新听音频内容 |
元数据的确认方法在其他文章中详细说明。
本文要把握的是,固有名词也会残留在正文之外。
发帖前的确认步骤
模糊固有名词后的文章,按下面顺序确认。
- 查找人名、公司名、学校名、设施名、活动名
- 确认其周围的职务、地区、时期、关系
- 查看是否有被搜索后会出现候选的表达。实际进行外部搜索时,不要直接输入未公开正文、敏感固有名词、内部信息
- 思考内部人员读到后会想到谁
- 确认附件、图片、URL、音频中是否也有同样信息
如果还剩不明确项目,重要的是不要急着公开。
“大概没问题”在匿名性确认中是很弱的判断。不明白的内容,应进入确认、进一步模糊、不公开、咨询可信赖对象中的某一种。
总结
安全模糊固有名词,不只是删除名字。
即使删除人名、公司名、学校名、设施名、活动名,只要职务、时期、地区、关系、文件名、图片、URL 还在,对象仍会被缩小。
保护匿名性的编辑,是在保留读者所需意义的同时,降低接近本人和相关人员的精度。
模糊固有名词后,也要确认“了解情况的人读到后会想到谁”。
不仅正文,连图片、文件、URL、音频也一起检查,是公开前的重要工作。