Learn

284 篇文章分类:全部
过往信息与删除

存档网站中残留的信息和删除请求

即使删除 Web 页面,该信息也未必会从互联网上完全消失。

它可能留在搜索结果、缓存、转载、截图,以及存档网站中。

思考匿名性时,这一点很重要。

即使从当前页面删除姓名或个人资料,只要过去页面被保存,就可能被追溯到旧信息。旧网名、脸部照片、个人资料、所属、活动历史、过去 URL,会成为连接到当前匿名活动的入口。

本文说明存档网站中残留信息的思路、确认方法、删除请求或排除请求的推进方式,以及无法删除时的运营。

什么是存档网站

存档网站,是保存过去 Web 页面,并让人之后也能浏览的服务。

代表性的例子是 Internet Archive 运营的 。Wayback Machine 是用于确认过去 Web 页面如何显示的大型存档。

URL : https://web.archive.org/

Wayback Machine 有助于研究、报道、资料确认、引用已消失页面等。另一方面,对个人来说,它也可能成为本以为已删除的旧页面仍然残留的位置。

存档本身不是坏东西。

问题在于,旧信息影响当前匿名性或安全的情况。

存档中残留的内容对匿名性的影响
旧个人资料本名、地区、所属、年龄层、链接与当前活动连接
过去博客文章、关注点、日常活动范围、旧网名残留
企业、学校、团体页面所属和活动历史残留
图片和 PDF脸部照片、创建者信息、活动信息残留
已删除页面可从过去版本确认当前看不见的信息

删除原页面后仍会留在存档中

很多人容易误解一点。

删除原页面后,存档网站中的已保存页面未必会自动消失。

例如,删除了过去的个人资料页。打开当前 URL 时变成 404 错误,看起来也不再出现在搜索中。但是,如果该 URL 以前被存档,过去的显示可能仍然残留。

在匿名性中,这个“过去版本”会成为问题。

当前匿名账号与旧网名相似。发帖内容与过去博客相似。个人资料中残留的地区或职业与当前发声内容重叠。发生这种情况时,存档会成为关联材料。

确认存档时,不只看当前页面,也要查看过去用过的 URL。

确认什么

确认存档时,先列出与自己有关的 URL。

只用本名或网名搜索并不够。旧博客 URL、个人资料页面、SNS 公开页面、企业或学校介绍页面、活动告知页面、PDF 的 URL 等,知道直接 URL 的内容也要确认。

确认对象查看理由
旧博客 URL确认已删除文章或个人资料是否残留
旧个人资料页面查看姓名、地区、链接、自我介绍是否残留
企业、学校、团体页面查看所属、职务、活动参加信息是否残留
图片文件 URL查看即使从页面删除后,图片本身是否被保存
PDF 和资料 URL确认创建者信息、名册、分发资料是否残留
旧网名搜索结果确认是否能到达已存档页面

需要注意的是,存档不只是页面单位。

即使 HTML 页面消失,图片文件或 PDF 也可能被直接保存。博客正文消失后,首页或分类页也可能残留标题或摘要。

确认不是一次就结束。

在开始匿名活动前、修改个人资料后、提交删除请求后等,应分不同时间重新查看。

删除请求和排除请求的思路

如果想删除存档中残留的信息,先整理原网站侧。

如果原页面现在仍然公开,只删除存档意义有限。应先考虑原网站删除、设为非公开、修正个人信息、替换 PDF 等。

在此基础上,确认存档网站的删除申请或排除申请。

阶段要做的事理由
1确认原页面现在是否仍公开原信息残留时会再次被发现
2如果是自己可管理页面,先删除或设为非公开从有管理权限的位置优先处理
3如果管理者是别人,请求修正或删除企业、学校、团体、他人网站需要管理者处理
4整理存档中残留的 URL明确请求对象
5按存档网站手续申请方法因服务而异

删除请求中,可能会要求目标 URL、保存的信息、构成问题的理由、证明本人或管理者身份的信息。

不过,如果为了本人确认而交出过多追加信息,会产生别的风险。要确认必要范围,并谨慎判断向哪个窗口交出什么。

如果涉及法定权利、名誉毀损、骚扰、未成年人信息、性图像、个人信息滥用,也应考虑咨询律师或支援窗口。

与 robots.txt 和 noindex 的区别

如果是自己管理的网站,可能会考虑对搜索引擎和爬虫进行控制。

代表性机制有 robots.txtnoindex

不过,它们并不是万能的。

robots.txt 是告诉爬虫可以巡回哪些范围的指示。noindex 是指示不要出现在搜索结果中。两者都不是必然删除已经保存的存档或第三方保存副本的机制。

机制主要作用注意点
robots.txt告诉爬虫可以巡回哪些范围并非所有对象都会遵守,也不一定删除过去保存内容
noindex避免进入搜索结果不是删除页面内容的机制
原页面删除删除当前公开信息存档和转载可能残留
存档删除请求要求删除已保存页面取决于服务侧手续和判断

这些技术设置也属于搜索引擎对策和网站管理领域。

从匿名性角度看,重要的是理解“搜索不到”和“信息不存在”是两回事。

存在无法删除的存档时

存档删除并不总是成功。

保存来源是其他服务、本人确认困难、被作为有公共性的资料处理、转载位置很多、截图已扩散。出现这些情况时,很难删除全部内容。

即使如此,仍可以通过运营避免与当前匿名活动连接。

残留信息当前匿名活动中应避免的事
旧网名不使用相似名称、相同缩写、相同个人资料文
地区和所属不细致谈论会推测相同地区和所属的话题
过去文体不反复使用相同语尾、固定句式、专业说法
脸部照片和活动照片不与当前图片、活动、交友关系连接
过去 URL不从新账号链接到过去 URL

如果存在无法删除的信息,就把该信息纳入威胁模型。

也就是说,假设“这个信息只要寻找就能找到”,再思考当前发帖内容、图片、时间、账号设计。

匿名性不是完全删除过去信息。

而是不要增加把过去信息和当前行动连接起来的材料。

总结

存档网站中可能残留已删除页面、旧个人资料、图片、PDF、活动信息。

删除原页面后,存档、搜索结果、转载、截图未必会自动消失。

先确认与自己有关的 URL、旧网名、过去个人资料、图片、PDF。然后按顺序考虑删除或修正原页面、请求网站管理者处理、向存档网站提交删除请求。

像 Wayback Machine 这样的存档,在社会上是重要的记录机制。

但是,对个人匿名性来说,旧信息也可能成为连接到当前活动的入口。

如果存在无法删除的信息,就要以此为前提重组运营。不要让旧网名、地区、所属、文体、图片、过去 URL 与当前匿名活动连接起来,这一点很重要。

相关工具

Archive check

Wayback Machine

与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。

列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。

URL : https://web.archive.org/

打开外部网站
Search result removal

Google Search removal tools

与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。

列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。

URL : https://support.google.com/websearch/answer/3143948

打开外部网站
OSINT directory

OSINT Framework

与本文相关的外部资源。只有在符合你的处境和威胁模型时再打开。

列在这里的原因: 它可能有助于理解本文主题,但位于 Anonymity Sense 之外,使用前应先自行确认。

URL : https://osintframework.com/

打开外部网站

相关文章