Learn

284 статейКатегория: Все
Метаданные

Невидимые риски, остающиеся в PDF

PDF выглядит безопасным, потому что его внешний вид зафиксирован.

Но в PDF может оставаться информация помимо текста, который виден на экране.

Имя автора, приложение создания, время обновления, аннотации, встроенные файлы, скрытый текст, следы исходного документа и другое.

Когда вы анонимно делитесь документом, опасно думать: "я преобразовал его в PDF, значит все нормально".

В этой статье разобраны невидимые риски, остающиеся в PDF, и пункты, которые нужно проверить перед публикацией.

PDF нельзя оценивать только по внешнему виду

PDF — удобный формат, который можно отображать как бумажный документ.

Но внутри PDF-файла может быть информация помимо отображаемых страниц.

ИнформацияСодержаниеЧто учитывать для анонимности
АвторИмя пользователя или сведения о приложении, создавшем документПриближает к человеку или организации
Дата созданияВремя создания и обновленияСвязывается со временем действия или отправки
АннотацииКомментарии, выделения, заметкиВидны процесс редактирования и связанные люди
Встроенные данныеВложения, шрифты, изображенияОстаются исходные данные или среда создания
Скрытый текстOCR, текст для копированияИногда остается информация, которую пытались скрыть закрашиванием

Даже если PDF внешне чистый, внутренняя информация не обязательно чистая.

В анонимности отдельно проверяют отображаемые страницы и информацию внутри файла.

Что исчезает и что остается при преобразовании в PDF

Если преобразовать документ Office или изображение в PDF, часть информации меняется.

Но не все риски исчезают.

Что меняется при преобразованииЧто может остаться
Редактируемый документ становится фиксированным отображениемАвтор, приложение создания, дата создания
Встраивается как изображениеТекст на изображении, фон, отражения
Фиксируются шрифты и версткаВстроенные шрифты и сведения о приложении
Комментарии иногда исчезаютАннотации или история изменений могут остаться в другой форме
Кажется, что закрашивание выполненоТекст под ним может остаться

Преобразование в PDF бывает полезным.

Но "сделал PDF" и "проверка анонимности завершена" — разные вещи.

Закрашивание и скрытый текст

Особенно опасно в PDF скрывать информацию так, будто это закрашивание.

Если просто положить сверху черный прямоугольник, нижний текст может остаться внутри файла.

Даже если внешне его нельзя прочитать, исходные символы иногда видны при копировании, поиске, извлечении или внутреннем анализе.

СпособРиск
Наложить черную фигуруНижний текст может остаться
Сделать цвет текста цветом фонаМожет быть виден при копировании или поиске
Сделать скриншотОстаются ухудшение качества, текст, читаемый OCR, и сведения фона
Использовать специальную функцию редактированияПосле обработки нужна повторная проверка

Если документ требует редактирования, используйте специальную функцию и после обработки проверяйте поиск, копирование и метаданные.

Для документов высокого риска стоит не решать только по статье, а рассмотреть консультацию со специалистом или надежной поддержкой.

Организационная информация, остающаяся в PDF

В материалах для сообщения о нарушениях или журналистской работы организационная информация внутри PDF становится серьезной проблемой.

Признаками могут быть не только имя автора, но и шаблон, название отдела, путь к файлу, аннотации, номер распространения, водяной знак, формат номеров страниц.

ПризнакЧто можно понять
Имя автораСоздателя документа или учетную запись устройства
Название компанииОрганизацию или среду создания
ШаблонОтдел или рабочий процесс
Автор аннотацийЛюдей, участвовавших в редактировании
Водяной знак или номер распространенияПолучателя или происхождение материала

PDF выглядит как "готовая версия".

Но именно потому, что это готовая версия, в нем могут оставаться следы создания внутри организации.

Почему это особенно опасно для сообщений о нарушениях и материалов источника

В сообщениях о нарушениях и журналистских материалах информация внутри PDF иногда показывает, "кто мог знать этот материал".

Даже если в самом документе нет имени, круг кандидатов сужают область распространения, время обновления, аннотации, водяные знаки, номера страниц, номера документа и шаблоны, характерные для отдела.

Признак внутри PDFЧто предполагается
Номер распространенияКакому отделу или человеку был выдан материал
Водяной знакИнформация для идентификации читателя или получателя
Имя автора аннотацийПроверявший человек или связанное лицо
Время обновленияКто мог работать в это время
ШаблонОрганизация, отдел или рабочий процесс

Такая информация может быть непонятна обычному читателю, но для человека внутри организации она становится сильным признаком.

В анонимности важно думать не только о том, видно ли это незнакомому человеку, но и о том, как это выглядит для того, кто знает контекст.

Осторожность с извлечением текста из PDF

Даже если PDF внешне похож на изображение, внутри у него может быть текст.

В PDF после OCR за сканированным изображением может быть поисковый текст.

Если закрашивание или размытие сделано только на изображении, но исходные символы остались в поисковом тексте, это опасно.

СостояниеЧто проверить
Сканированный PDFНет ли OCR-текста
PDF с закрашиваниемНе появляется ли исходный текст при копировании или поиске
PDF с изображениямиНе остались ли текст и фон внутри изображений
PDF с аннотациямиНе извлекается ли текст аннотаций или комментариев
PDF-формаНе остались ли поля ввода и выбранные состояния

Перед публикацией PDF не только читают глазами, но и проверяют поиск, копирование и метаданные.

"Не видно на экране" не является доказательством безопасности.

Инструменты для проверки

Если проверять PDF, преобразовывать его, редактировать или удалять метаданные через онлайн-сервисы, исходный файл, имя файла, внутренняя информация и сведения об источнике доступа могут перейти стороне сервиса. Для документов высокого риска не загружайте файл во внешние сервисы, проверяйте его в локальной среде и после обработки перепроверяйте другим способом.

Для проверки метаданных PDF иногда используют ExifTool.

URL: https://exiftool.org/

Для проверки структуры PDF и преобразований также может подойти qpdf. qpdf — инструмент для проверки структуры PDF-файлов и преобразований; способ использования можно посмотреть в официальной документации.

URL: https://qpdf.readthedocs.io/

Но использование инструмента не делает файл автоматически безопасным.

Нужно читать показанную информацию и перепроверять после удаления или пересоздания.

Проверка перед публикацией

Перед публикацией PDF проверяют в следующем порядке.

ПорядокЧто проверитьПричина
1Посмотреть автора и дату созданияПроверить, не связывают ли они с человеком или временем работы
2Посмотреть аннотации и комментарииПроверить, не остались ли процесс редактирования и связанные люди
3Проверить закрашенные местаПосмотреть, не остался ли нижний текст
4Посмотреть встроенные файлы и изображенияПроверить, не остались ли исходные данные или другие файлы
5Посмотреть имя файлаПроверить, не остались ли имя, отдел, название дела
6После удаления проверить сноваУбедиться, что обработка сработала

PDF — формат, который легко копируется после публикации.

Поэтому проверка до публикации важна.

Решение не публиковать PDF

Для PDF высокого риска одного удаления или преобразования может быть недостаточно.

Само содержание материала может сужать источник.

Например, если остается хронология, которую знают только участники определенного совещания, сокращения, используемые только конкретным отделом, или различающиеся обозначения для разных получателей, круг кандидатов сузится даже после удаления метаданных.

В таком случае нужно не публиковать PDF как есть, а принимать другие решения: пересказать содержание, обобщить имена собственные, показать только необходимую часть надежному консультанту, обратиться к специалисту или в поддержку.

В анонимности сделать файл чистым и решить, что его можно публиковать, — разные задачи.

Итоги

PDF выглядит безопасным из-за фиксированного внешнего вида, но внутри могут оставаться автор, дата создания, аннотации, встроенные данные и скрытый текст.

Одно преобразование в PDF не завершает анонимность.

Особое внимание нужно уделять закрашиванию, аннотациям, организационной информации, номерам распространения и именам файлов.

ExifTool и qpdf помогают проверять, но безопасность не определяется одним названием инструмента.

Перед публикацией проверяйте внешний вид, внутреннюю информацию, имя файла и результат после удаления вместе.

Связанные инструменты

Metadata inspection

ExifTool

Внешний ресурс, связанный с этой статьей. Открывайте его только если он подходит вашей ситуации и модели угроз.

Почему указано здесь: Он может помочь с темой статьи, но находится вне Anonymity Sense, поэтому перед использованием его нужно проверить.

URL : https://exiftool.org/

Открыть внешний сайт
Metadata removal

MAT2

Внешний ресурс, связанный с этой статьей. Открывайте его только если он подходит вашей ситуации и модели угроз.

Почему указано здесь: Он может помочь с темой статьи, но находится вне Anonymity Sense, поэтому перед использованием его нужно проверить.

URL : https://0xacab.org/jvoisin/mat2

Открыть внешний сайт
PDF inspection

qpdf

Внешний ресурс, связанный с этой статьей. Открывайте его только если он подходит вашей ситуации и модели угроз.

Почему указано здесь: Он может помочь с темой статьи, но находится вне Anonymity Sense, поэтому перед использованием его нужно проверить.

URL : https://qpdf.readthedocs.io/

Открыть внешний сайт

Связанные статьи