存档网站中残留的信息和删除请求
即使删除 Web 页面,该信息也未必会从互联网上完全消失。
它可能留在搜索结果、缓存、转载、截图,以及存档网站中。
思考匿名性时,这一点很重要。
即使从当前页面删除姓名或个人资料,只要过去页面被保存,就可能被追溯到旧信息。旧网名、脸部照片、个人资料、所属、活动历史、过去 URL,会成为连接到当前匿名活动的入口。
本文说明存档网站中残留信息的思路、确认方法、删除请求或排除请求的推进方式,以及无法删除时的运营。
什么是存档网站
存档网站,是保存过去 Web 页面,并让人之后也能浏览的服务。
代表性的例子是 Internet Archive 运营的 。Wayback Machine 是用于确认过去 Web 页面如何显示的大型存档。
URL : https://web.archive.org/
Wayback Machine 有助于研究、报道、资料确认、引用已消失页面等。另一方面,对个人来说,它也可能成为本以为已删除的旧页面仍然残留的位置。
存档本身不是坏东西。
问题在于,旧信息影响当前匿名性或安全的情况。
| 存档中残留的内容 | 对匿名性的影响 |
|---|---|
| 旧个人资料 | 本名、地区、所属、年龄层、链接与当前活动连接 |
| 过去博客文章 | 、关注点、日常活动范围、旧网名残留 |
| 企业、学校、团体页面 | 所属和活动历史残留 |
| 图片和 PDF | 脸部照片、创建者信息、活动信息残留 |
| 已删除页面 | 可从过去版本确认当前看不见的信息 |
删除原页面后仍会留在存档中
很多人容易误解一点。
删除原页面后,存档网站中的已保存页面未必会自动消失。
例如,删除了过去的个人资料页。打开当前 URL 时变成 404 错误,看起来也不再出现在搜索中。但是,如果该 URL 以前被存档,过去的显示可能仍然残留。
在匿名性中,这个“过去版本”会成为问题。
当前匿名账号与旧网名相似。发帖内容与过去博客相似。个人资料中残留的地区或职业与当前发声内容重叠。发生这种情况时,存档会成为关联材料。
确认存档时,不只看当前页面,也要查看过去用过的 URL。
确认什么
确认存档时,先列出与自己有关的 URL。
只用本名或网名搜索并不够。旧博客 URL、个人资料页面、SNS 公开页面、企业或学校介绍页面、活动告知页面、PDF 的 URL 等,知道直接 URL 的内容也要确认。
| 确认对象 | 查看理由 |
|---|---|
| 旧博客 URL | 确认已删除文章或个人资料是否残留 |
| 旧个人资料页面 | 查看姓名、地区、链接、自我介绍是否残留 |
| 企业、学校、团体页面 | 查看所属、职务、活动参加信息是否残留 |
| 图片文件 URL | 查看即使从页面删除后,图片本身是否被保存 |
| PDF 和资料 URL | 确认创建者信息、名册、分发资料是否残留 |
| 旧网名搜索结果 | 确认是否能到达已存档页面 |
需要注意的是,存档不只是页面单位。
即使 HTML 页面消失,图片文件或 PDF 也可能被直接保存。博客正文消失后,首页或分类页也可能残留标题或摘要。
确认不是一次就结束。
在开始匿名活动前、修改个人资料后、提交删除请求后等,应分不同时间重新查看。
删除请求和排除请求的思路
如果想删除存档中残留的信息,先整理原网站侧。
如果原页面现在仍然公开,只删除存档意义有限。应先考虑原网站删除、设为非公开、修正个人信息、替换 PDF 等。
在此基础上,确认存档网站的删除申请或排除申请。
| 阶段 | 要做的事 | 理由 |
|---|---|---|
| 1 | 确认原页面现在是否仍公开 | 原信息残留时会再次被发现 |
| 2 | 如果是自己可管理页面,先删除或设为非公开 | 从有管理权限的位置优先处理 |
| 3 | 如果管理者是别人,请求修正或删除 | 企业、学校、团体、他人网站需要管理者处理 |
| 4 | 整理存档中残留的 URL | 明确请求对象 |
| 5 | 按存档网站手续申请 | 方法因服务而异 |
删除请求中,可能会要求目标 URL、保存的信息、构成问题的理由、证明本人或管理者身份的信息。
不过,如果为了本人确认而交出过多追加信息,会产生别的风险。要确认必要范围,并谨慎判断向哪个窗口交出什么。
如果涉及法定权利、名誉毀损、骚扰、未成年人信息、性图像、个人信息滥用,也应考虑咨询律师或支援窗口。
与 robots.txt 和 noindex 的区别
如果是自己管理的网站,可能会考虑对搜索引擎和爬虫进行控制。
代表性机制有 robots.txt 和 noindex。
不过,它们并不是万能的。
robots.txt 是告诉爬虫可以巡回哪些范围的指示。noindex 是指示不要出现在搜索结果中。两者都不是必然删除已经保存的存档或第三方保存副本的机制。
| 机制 | 主要作用 | 注意点 |
|---|---|---|
| robots.txt | 告诉爬虫可以巡回哪些范围 | 并非所有对象都会遵守,也不一定删除过去保存内容 |
| noindex | 避免进入搜索结果 | 不是删除页面内容的机制 |
| 原页面删除 | 删除当前公开信息 | 存档和转载可能残留 |
| 存档删除请求 | 要求删除已保存页面 | 取决于服务侧手续和判断 |
这些技术设置也属于搜索引擎对策和网站管理领域。
从匿名性角度看,重要的是理解“搜索不到”和“信息不存在”是两回事。
存在无法删除的存档时
存档删除并不总是成功。
保存来源是其他服务、本人确认困难、被作为有公共性的资料处理、转载位置很多、截图已扩散。出现这些情况时,很难删除全部内容。
即使如此,仍可以通过运营避免与当前匿名活动连接。
| 残留信息 | 当前匿名活动中应避免的事 |
|---|---|
| 旧网名 | 不使用相似名称、相同缩写、相同个人资料文 |
| 地区和所属 | 不细致谈论会推测相同地区和所属的话题 |
| 过去文体 | 不反复使用相同语尾、固定句式、专业说法 |
| 脸部照片和活动照片 | 不与当前图片、活动、交友关系连接 |
| 过去 URL | 不从新账号链接到过去 URL |
如果存在无法删除的信息,就把该信息纳入威胁模型。
也就是说,假设“这个信息只要寻找就能找到”,再思考当前发帖内容、图片、时间、账号设计。
匿名性不是完全删除过去信息。
而是不要增加把过去信息和当前行动连接起来的材料。
总结
存档网站中可能残留已删除页面、旧个人资料、图片、PDF、活动信息。
删除原页面后,存档、搜索结果、转载、截图未必会自动消失。
先确认与自己有关的 URL、旧网名、过去个人资料、图片、PDF。然后按顺序考虑删除或修正原页面、请求网站管理者处理、向存档网站提交删除请求。
像 Wayback Machine 这样的存档,在社会上是重要的记录机制。
但是,对个人匿名性来说,旧信息也可能成为连接到当前活动的入口。
如果存在无法删除的信息,就要以此为前提重组运营。不要让旧网名、地区、所属、文体、图片、过去 URL 与当前匿名活动连接起来,这一点很重要。
相关工具
Wayback Machine
与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。
列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。
URL : https://web.archive.org/
Google Search removal tools
与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。
列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。
OSINT Framework
与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。
列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。