Информация, остающаяся на архивных сайтах, и запросы на удаление

Прошлая информация и удаление

Информация, остающаяся на архивных сайтах, и запросы на удаление

Даже если удалить Web-страницу, информация не обязательно полностью исчезает из интернета.

Она может остаться в результатах поиска, кэше, перепубликациях, скриншотах и на архивных сайтах.

Для анонимности это важно.

Даже если сейчас удалить имя или профиль со страницы, сохраненная старая страница может привести к прошлой информации. Старые ники, фотографии лица, профиль, принадлежность, история активности и старые URL становятся входом, который связывает с текущей анонимной активностью.

В этой статье объясняется, как думать об информации на архивных сайтах, как ее проверять, как подходить к запросам на удаление или исключение, и как действовать, если удалить не получается.

Что такое архивный сайт

Архивный сайт — это сервис, который сохраняет прошлые Web-страницы и позволяет смотреть их позже.

Типичный пример — , которой управляет Internet Archive. Wayback Machine — большой архив для проверки того, как Web-страницы выглядели раньше.

URL : https://web.archive.org/

Wayback Machine полезна для исследований, журналистики, проверки материалов и обращения к утраченным страницам. Но для отдельного человека это также место, где может остаться старая страница, которую он считал удаленной.

Архивы сами по себе не плохи.

Проблема возникает, когда старая информация влияет на текущую анонимность или безопасность.

Что остается в архиве	Влияние на анонимность
Старый профиль	Настоящее имя, регион, принадлежность, возрастная группа, ссылки связываются с текущей активностью
Прошлые статьи блога	Остаются стиль, интересы, привычные места, старый ник
Страницы компании, школы или организации	Остаются принадлежность и история активности
Изображения и PDF	Остаются фотография лица, сведения автора, информация события
Удаленная страница	По прошлой версии проверяют то, что сейчас не видно

Удаление исходной страницы не удаляет архив

Есть частое заблуждение.

Если удалить исходную страницу, сохраненная страница на архивном сайте не обязательно удалится автоматически.

Например, вы удалили старую страницу профиля. Текущий URL открывается как ошибка 404, и кажется, что страница исчезла и из поиска. Но если этот URL раньше был заархивирован, старая версия может остаться.

В анонимности проблема именно в этой "прошлой версии".

Текущий анонимный аккаунт похож на старый ник. Содержание публикаций похоже на старый блог. Регион или профессия из старого профиля совпадают с текущими высказываниями. В таких случаях архив становится материалом для корреляции.

При проверке архивов нужно смотреть не только текущие страницы, но и URL, которые использовались раньше.

Что проверять

При проверке архивов сначала выписывают URL, связанные с вами.

Недостаточно искать только настоящее имя и ник. Проверяют и те адреса, которые известны напрямую: старые URL блогов, страницы профилей, публичные страницы соцсети, страницы компании или школы, объявления о событиях, URL PDF.

Объект проверки	Зачем смотреть
URL старого блога	Проверить, не остались ли удаленные статьи или профиль
Старая страница профиля	Смотреть, не остались ли имя, регион, ссылки, биография
Страница компании, школы или организации	Смотреть, не остались ли принадлежность, должность, участие в событиях
URL файла изображения	Смотреть, не сохранено ли изображение отдельно, даже если оно удалено со страницы
URL PDF или материалов	Проверить сведения автора, списки имен, раздаточные материалы
Результаты поиска по старому нику	Проверить, ведут ли к архивированным страницам

Важно помнить, что архивы бывают не только на уровне страниц.

Даже если HTML-страница удалена, файл изображения или PDF может быть сохранен напрямую. Даже если текст статьи блога удален, на главной странице или странице категории могут остаться заголовок и фрагмент.

Одной проверки недостаточно.

Пересматривайте в разные моменты: перед началом анонимной активности, после изменения профиля, после отправки запроса на удаление.

Как думать о запросах на удаление и исключение

Если вы хотите удалить информацию, оставшуюся в архиве, сначала приведите в порядок исходный сайт.

Если исходная страница все еще опубликована, удаление только из архива мало помогает. Сначала обдумайте удаление исходной страницы, закрытие доступа, исправление персональных данных, замену PDF.

После этого проверяют процедуры запроса на удаление или исключение у архивного сайта.

Этап	Что делать	Причина
1	Проверить, опубликована ли исходная страница сейчас	Если исходная информация остается, ее снова найдут
2	Если страницей можно управлять самостоятельно, удалить или закрыть ее	Сначала работать с тем, где есть права управления
3	Если управляет другой администратор, запросить исправление или удаление	На сайтах компаний, школ, организаций и других людей нужна реакция администратора
4	Упорядочить URL, оставшиеся в архиве	Уточнить объект запроса
5	Подать запрос по процедуре архивного сайта	У каждого сервиса свой способ и правила

В запросе на удаление могут попросить целевой URL, сохраненную информацию, причину проблемы и сведения, подтверждающие, что вы являетесь самим человеком или администратором.

Но если для подтверждения личности вы выдадите слишком много дополнительной информации, это станет другим риском. Проверяйте необходимый объем и осторожно решайте, в какое окно и что передавать.

Если связаны юридические права, клевета, преследование, сведения о несовершеннолетних, сексуальные изображения или злоупотребление персональной информацией, рассмотрите консультацию с юристом или поддерживающим каналом.

Отличие от robots.txt и noindex

Если вы управляете сайтом, можно думать о настройках для поисковых систем и краулеров.

Типичные механизмы — robots.txt и noindex.

Но они не универсальны.

robots.txt — это указание для краулеров о том, какие области можно обходить. noindex — указание не показывать страницу в результатах поиска. Ни то ни другое не является механизмом, который обязательно удаляет уже сохраненный архив или копии третьих лиц.

Механизм	Основная роль	На что обратить внимание
robots.txt	Сообщает краулерам области, которые можно обходить	Не все стороны обязаны следовать, и это не гарантирует удаление ранее сохраненного
noindex	Избегает появления в результатах поиска	Это не механизм удаления содержимого страницы
Удаление исходной страницы	Удаляет текущую публичную информацию	Архивы и перепубликации могут остаться
Запрос на удаление архива	Просит удалить сохраненную страницу	Зависит от процедуры и решения сервиса

Эти технические настройки относятся также к поисковой оптимизации и управлению сайтом.

С точки зрения анонимности важно понимать, что "не появляется в поиске" и "информации не существует" — разные вещи.

Если есть архив, который нельзя удалить

Удаление архива не всегда успешно.

Источник сохранения — другой сервис, подтверждение личности сложно, информация считается общественно значимой, есть несколько перепубликаций, скриншоты распространились. В таких случаях удалить все трудно.

Но даже тогда можно вести текущую анонимную активность так, чтобы не связывать ее с этим.

Оставшаяся информация	Чего избегать в текущей анонимной активности
Старый ник	Не использовать похожее имя, ту же аббревиатуру, тот же текст профиля
Регион или принадлежность	Не раскрывать подробно темы, позволяющие предположить тот же регион или принадлежность
Прошлый стиль	Не повторять те же окончания, шаблонные фразы, специальные выражения
Фотографии лица или события	Не связывать с текущими изображениями, активностью и социальными связями
Прошлый URL	Не ссылаться на прошлый URL из нового аккаунта

Если информация не удаляется, включите ее в модель угроз.

То есть считайте, что "эту информацию можно найти", и с учетом этого проектируйте текущие публикации, изображения, время и аккаунты.

Анонимность — это не полное стирание прошлой информации.

Это недобавление материалов, связывающих прошлую информацию с текущими действиями.

Итоги

На архивных сайтах могут оставаться удаленные страницы, старые профили, изображения, PDF и информация событий.

Даже если удалить исходную страницу, архивы, результаты поиска, перепубликации и скриншоты не исчезают автоматически.

Сначала проверьте связанные с вами URL, старые ники, прошлые профили, изображения и PDF. Затем по порядку обдумайте удаление или исправление исходной страницы, запрос администратору сайта и запрос на удаление в архивном сайте.

Архивы вроде Wayback Machine социально важны как механизм записи.

Но для личной анонимности старая информация также может стать входом, который связывает с текущей активностью.

Если есть информация, которую нельзя удалить, перестройте практику с учетом этого. Важно не связывать старые ники, регион, принадлежность, стиль, изображения и прошлые URL с текущей анонимной активностью.