В публикуемых файлах недостаточно проверять только то, что видно на экране.
В SVG, HTML и XML-подобных файлах могут оставаться невидимый текст и комментарии.
Внешне место может быть пустым, но внутри файла остаются рабочие заметки, текст до удаления, имена, названия компаний, внутренние URL и названия дел.
Для анонимности нужно проверять не только видимую информацию, но и информацию, которую можно прочитать, если открыть файл.
В этой статье разбирается, как скрытый текст и XML-комментарии становятся риском и что проверять перед публикацией.
Что такое скрытый текст
Скрытый текст - это текстовая информация, которая остается в файле, но не видна на экране или ее трудно заметить.
Это прозрачный текст, текст, вынесенный за пределы экрана, скрытые слои, слишком маленький текст, элементы, скрытые CSS.
Вид
Внешний вид
Содержание
Прозрачный текст
Не виден
Остается как строка
Текст за пределами экрана
Вне области отображения
Остается с координатами
Скрытый элемент
Не отображается
Остается как тег
Слишком маленький текст
Трудно читать
Находится при увеличении или поиске
Черновик до удаления
Иногда не виден
Остается как комментарий или другой элемент
Скрытый текст остается и без злого умысла.
Заметка, оставленная во время работы, имя, которое казалось удаленным, старый заголовок или название компании в шаблоне могут остаться в публичном файле.
Что такое XML-комментарий
XML-комментарий - это заметка, которую можно записать внутри файла.
Обычно она не видна в браузере. Но ее можно прочитать, если открыть файл.
Она пишется в форме вроде <!-- comment --> и используется в SVG, HTML, XML.
Что остается в комментарии
Пример
На что обратить внимание для анонимности
Рабочая заметка
потом убрать название компании ХХ
Остается название организации
Имя ответственного
checked by Tanaka
Выходит личное имя
Внутренний URL
staging.example
Видна среда разработки
Название дела
project-alpha
Понятно связанным людям
Текст для удаления
Старое описание
Остается информация, которую считали удаленной
Комментарии удобны в разработке и производстве.
Но если они остаются в публичном файле, третьи лица читают информацию, которая не отображается.
Почему это связано с анонимностью
Скрытый текст и комментарии могут напрямую показывать человека или принадлежность.
Кроме того, даже слабая информация по отдельности связывается с другой информацией. Если она накладывается на имя файла, автора публикации, время публикации, содержание изображения, URL и прошлые публикации, круг кандидатов сужается.
Оставшаяся информация
С чем связывается
Что происходит
Название компании
Содержание публикации, профессия
Предполагается принадлежность
Имя автора
Аккаунт, прошлые файлы
Приближает к настоящему имени
Внутренний URL
Организация или проект
Сужает связанных людей
Черновик
Исходный рассказ
Удаленная информация возвращается
Дата
Время публикации, событие
Сопоставляется по хронологии
Невидимую информацию сам автор легко упускает.
Именно поэтому ее включают в проверку перед публикацией.
Как проверять
Базовый способ проверки - открыть файл как текст.
SVG, HTML и XML можно открыть в текстовом редакторе. Ищите имена, названия компаний и школ, адреса электронной почты, URL, символы комментариев, старые заголовки и внутренние термины.
Метод проверки
Что смотреть
На что обратить внимание
Открыть в текстовом редакторе
Комментарии, теги, строки
Не судить только по отображению
Поиск внутри файла
Имена, названия организаций, URL
Искать несколько вариантов написания
Посмотреть исходный код в браузере
Структуру HTML и SVG
Она отличается от результата рендеринга
Увеличить
Малый текст, край экрана
Проверить и видимые утечки
Искать только свое имя недостаточно.
Проверяйте название компании, отдела, школы, проекта, старый ник, почту, географические названия и внутренние термины.
После инструмента все равно проверять вручную
Инструменты оптимизации и удаления иногда уменьшают ненужные комментарии и метаданные.
Если загрузить файл в Web-сервис оптимизации или удаления, содержимое файла и сведения доступа могут уйти внешней стороне. В публикациях, которым нужна анонимность, сначала проверяют локально.
Но полагаться только на инструмент нельзя.
Поведение инструментов зависит от настроек. Они не полностью заменяют решение, какие элементы нужно оставить или удалить с точки зрения анонимности.
Что может уменьшить инструмент
Что смотрит человек
Причина
Комментарии
Текст внутри изображения
Видимая информация остается
Ненужные атрибуты
Имена собственные
Смысл не оценивается
Метаданные
Контекст
Есть информация, понятная только связанным людям
Пустые элементы
Имя файла
Внешняя информация остается отдельно
В публикациях, которым нужна анонимность, после инструмента файл снова открывают и проверяют.
После удаления комментариев остается контекст
Даже если удалить XML-комментарии, могут остаться контекстные признаки.
id, class, имя файла, имя папки, URL, текст внутри изображения и рассказ в тексте находятся в других местах.
Что удалено
Что остается
Что проверить
XML-комментарии
id и class
Не остались ли внутренние термины
Рабочие заметки
Имя файла
Не остались ли название дела и дата
Черновик
Отображаемый текст
Не виден ли в изображении
Внутренний URL
Целевой URL
Проверить внешние ссылки и имена сред
Удаление комментариев важно, но на нем не останавливаются.
В анонимности проверяют, какая информация куда переместилась и где осталась.
Особая осторожность с файлами совместной работы
В SVG или HTML, созданных несколькими людьми, чаще остаются комментарии и скрытый текст.
В процессе работы туда могут попадать имена ответственных, комментарии ревью, просьбы исправить, внутренние термины, имена клиентов.
Информация, остающаяся при совместной работе
Пример
На что обратить внимание
Имя ответственного
reviewed by A
Остается личное имя
Заметка исправления
это для компании ХХ
Видны контрагент или организация
Внутреннее сокращение
first-team-only
Понятно внутренним людям
Старый вариант
Старый заголовок, старый логотип
Остается информация, которую считали удаленной
При публикации файла совместной работы проверяйте не только свою часть, а весь файл.
Важно смотреть не "я этого не добавлял", а "осталось ли это в публичном файле".
Если объект публикации - zip или папка, проверяйте все файлы внутри.
Даже если один SVG чистый, информация утечет через старый HTML или README в комплекте, если там остались комментарии.
Итоги
Скрытый текст и XML-комментарии - информация, которая не видна на экране, но остается внутри файла.
В SVG, HTML и XML-подобных файлах могут оставаться рабочие заметки, имена, названия компаний, внутренние URL, черновики и названия проектов.
Перед публикацией проверяйте не только внешний вид, но и содержимое как текст.
Даже после оптимизации инструментом не считайте это само по себе безопасным.
В анонимности важно проверять и отображаемую информацию, и информацию, которая остается внутри файла и может быть прочитана.
Связанные инструменты
Metadata inspection
ExifTool
Внешний ресурс, связанный с этой статьей. Открывайте его только если он подходит вашей ситуации и модели угроз.
Почему указано здесь: Он может помочь с темой статьи, но находится вне Anonymity Sense, поэтому перед использованием его нужно проверить.
SVG, HTML и XML-файлы могут содержать скрытый текст, XML-комментарии, рабочие заметки, внутренние URL, имена и черновики, даже если они не видны на экране.