Метаданные в PDF-, Office-, видео- и аудиофайлах
Информация в изображениях хорошо известна. Однако метаданные, на которые нужно обращать внимание для анонимности, не ограничиваются изображениями.
В PDF, документах Office, видео, аудиофайлах и сжатых файлах тоже могут оставаться имена авторов, история редактирования, использованное программное обеспечение, дата и время съемки или записи, информация тегов, комментарии, внутренние имена файлов и похожие сведения.
Даже если визуально кажется, что вы что-то удалили, внутри файла может оставаться другая информация. Кроме того, даже если удалить метаданные, личность или принадлежность могут быть выведены из текста, фона, аудио, текста на экране или имени файла.
В этой статье систематизировано, какие сведения часто остаются в разных форматах файлов и что нужно проверять перед публикацией.
Метаданные — это сопутствующая информация файла
Метаданные — это информация, связанная с самим файлом.
Отдельно от текста документа или самого изображения они могут включать автора, дату и время создания, программу редактирования, данные о местоположении, историю изменений, комментарии и похожие сведения.
Для анонимности метаданные становятся сильными признаками. Причина в том, что даже если имя не написано в тексте, внутри файла может остаться имя автора или название организации.
| Формат | Сведения, которые часто остаются | Внимание |
|---|---|---|
| Автор, программа создания, примечания, встроенные файлы | Важно обращать внимание на обработку закрашивания и примечаний | |
| Документы Office | Автор, название компании, история изменений, комментарии | Остаются скрытые листы и сведения рецензирования |
| Видео | Дата и время съемки, сведения об устройстве, данные о местоположении, программа редактирования | Аудио и фон тоже становятся признаками |
| Аудио | ID3-теги, дата и время записи, сведения о приложении | Проверять также голоса и фоновые звуки |
| Сжатые файлы | Внутренние имена файлов, имена папок, ненужные файлы | Могут смешаться рабочие данные |
Метаданные выглядят по-разному в зависимости от формата файла. Поэтому не стоит решать, что все безопасно, на основании одного способа проверки.
Сведения, на которые нужно обращать внимание в PDF
PDF — это формат, удобный для распространения документов. Однако при анонимной публикации материалов нужна осторожность.
В PDF могут оставаться имена авторов, даты и время создания, программа создания, заголовки, примечания, встроенные файлы, данные форм и похожие сведения.
Кроме того, даже если визуально кажется, что текст закрашен, исходная текстовая информация может оставаться внутри. Если просто наложить черный прямоугольник как изображение, исходный текст иногда можно извлечь копированием или поиском.
| Что проверять | Причина |
|---|---|
| Свойства документа | Остаются имя автора и программа создания |
| Примечания | Видны комментарии и редакторские заметки |
| Встроенные файлы | Включены исходные материалы или ненужные данные |
| Обработка закрашивания | Проверить, не остается ли исходный текст внутри |
| Имя файла | Могут входить названия дел, организаций или настоящие имена |
PDF выглядит как файл для публикации, но его внутренняя структура не обязательно безопасна. Для материалов высокого риска проверяйте локальными инструментами и при необходимости создавайте заново в более безопасной форме.
Сведения, на которые нужно обращать внимание в документах Office
Документы Office, такие как Word, Excel и PowerPoint, — это форматы, в которых часто остается история работы.
Они могут содержать имена авторов, названия компаний, историю изменений, комментарии, скрытые листы, шаблоны, ссылки, историю совместного редактирования и похожие сведения.
В случае материалов для внутреннего разоблачения или журналистских материалов передача документов Office как есть требует особой осторожности. Причина в том, что может остаться не только содержимое документа, но и сведения о том, кто его создал и в какой организационной среде он редактировался.
| Что проверять | Видимые сведения |
|---|---|
| Автор | Личное имя или имя аккаунта |
| Название компании | Организация или настройки устройства |
| История изменений | Кто какую часть редактировал |
| Комментарии | Внутренние разговоры или следы решений |
| Скрытые листы | Данные, которые не отображаются |
| Ссылки | Внутренние пути или облачные URL |
Для документов Office важно не судить только по видимой странице. При подготовке версии для публикации удаляйте ненужную историю, экспортируйте в другой формат, а затем проверяйте снова.
Сведения, на которые нужно обращать внимание в видео
В видео нужно обращать внимание и на метаданные, и на содержимое.
Внутри файла могут оставаться дата и время съемки, сведения об устройстве, данные о местоположении, программа редактирования и сведения о кодировании. Кроме того, само видео может показывать лица, фон, вывески, униформу, транспорт, отражения в окнах, уведомления и имена аккаунтов на экране.
Поскольку видео содержит больше информации, чем неподвижные изображения, проверять анонимность также сложнее.
| Что проверять | Причина |
|---|---|
| Дата и время съемки | Связывается со временем действий или участием на месте |
| Данные о местоположении | Становится понятно место съемки |
| Сведения об устройстве | Видна модель устройства или среда редактирования |
| Фон | Здания, вывески и пейзаж раскрывают место |
| Аудио | Голоса, окружающие звуки и разговоры становятся признаками |
| Уведомления | Могут быть видны имена аккаунтов или контакты |
В видео проверка содержимого остается необходимой даже после удаления метаданных. Даже в коротком видео несколько секунд фона или звука могут позволить предположить место или человека.
Сведения, на которые нужно обращать внимание в аудио
У аудиофайлов тоже есть метаданные.
MP3 и похожие файлы могут содержать информацию тегов, такую как название, исполнитель, альбом, программа создания и комментарии. Также могут оставаться сведения о приложении записи или программе редактирования.
Кроме того, в аудио само содержимое является сильным признаком. Человека или место могут предположить по голосу, манере речи, диалекту, фоновым звукам, звукам уведомлений, объявлениям на станции, звукам машин, эху помещения и похожим деталям.
| Что проверять | Причина |
|---|---|
| ID3-теги | Остаются название или сведения об авторе |
| Дата и время записи | Может сопоставляться со временем действий |
| Приложение создания | Становится признаком среды использования |
| Голос | Раскрывает самого человека или связанных людей |
| Фоновые звуки | Раскрывают место или ситуацию |
При анонимной публикации аудио удаления метаданных недостаточно. Проверяйте также тембр голоса, манеру речи и фоновые звуки.
Сведения, на которые нужно обращать внимание в сжатых файлах
Сжатые файлы, такие как ZIP, используются, когда несколько файлов передаются вместе.
В сжатых файлах обращайте внимание на внутренние имена файлов, имена папок, ненужные файлы и рабочие данные.
Например, даже если вы собирались положить только PDF для публикации, в той же папке могут оказаться исходный документ Office, заметки, снимки экрана или скрытые файлы. Имена папок тоже могут содержать настоящее имя, название дела или название компании.
Всегда проверяйте содержимое сжатого файла, когда открываете его.
Базовый порядок проверки
Порядок проверки общий независимо от формата файла.
| Этап | Что проверять |
|---|---|
| 1 | Не публиковать исходный файл напрямую |
| 2 | Создать копию для публикации |
| 3 | Проверить имя файла |
| 4 | Проверить метаданные |
| 5 | Проверить текст, изображения, аудио и фон |
| 6 | После удаления или преобразования проверить снова |
| 7 | Проверить, как место загрузки покажет файл другой стороне |
Инструменты вроде ExifTool используются для проверки метаданных в нескольких форматах.
ExifTool — распространенный локальный инструмент, который позволяет проверять и редактировать метаданные в нескольких форматах, включая изображения, видео и документы. При изучении различий между форматами файлов он также становится отправной точкой для проверки того, какие сведения действительно находятся внутри. URL : https://exiftool.org/
Однако не останавливайтесь только на результатах инструмента. Инструменты помогают проверять внутреннюю информацию, но фон изображения, текст документа, содержимое аудио и отображение владельца в месте загрузки нужно проверять отдельно.
Итоги
Метаданные — это проблема не только изображений.
В PDF, документах Office, видео, аудиофайлах и сжатых файлах также могут оставаться автор, история редактирования, программа создания, теги, данные о местоположении, внутренние имена файлов и похожие сведения.
Для анонимности проверяйте содержимое файла и метаданные отдельно. Даже если удалить метаданные, личность или принадлежность могут быть выведены из текста, фона, аудио, отражений, имени файла и настроек общего доступа.
Перед публикацией не передавайте исходный файл напрямую: создайте копию для публикации, проверьте по формату и после удаления проверьте снова. Нужно считать, что передача файла может передавать не только текст, но и среду создания и путь передачи.
Связанные инструменты
Wayback Machine
Внешний ресурс, связанный с этой статьей. Открывайте его только если он подходит вашей ситуации и модели угроз.
Почему указано здесь: Он может помочь с темой статьи, но находится вне Anonymity Sense, поэтому перед использованием его нужно проверить.
URL : https://web.archive.org/
ExifTool
Внешний ресурс, связанный с этой статьей. Открывайте его только если он подходит вашей ситуации и модели угроз.
Почему указано здесь: Он может помочь с темой статьи, но находится вне Anonymity Sense, поэтому перед использованием его нужно проверить.
URL : https://exiftool.org/
MAT2
Внешний ресурс, связанный с этой статьей. Открывайте его только если он подходит вашей ситуации и модели угроз.
Почему указано здесь: Он может помочь с темой статьи, но находится вне Anonymity Sense, поэтому перед использованием его нужно проверить.
qpdf
Внешний ресурс, связанный с этой статьей. Открывайте его только если он подходит вашей ситуации и модели угроз.
Почему указано здесь: Он может помочь с темой статьи, но находится вне Anonymity Sense, поэтому перед использованием его нужно проверить.
FFmpeg
Внешний ресурс, связанный с этой статьей. Открывайте его только если он подходит вашей ситуации и модели угроз.
Почему указано здесь: Он может помочь с темой статьи, но находится вне Anonymity Sense, поэтому перед использованием его нужно проверить.
URL : https://ffmpeg.org/