PDF выглядит безопасным, потому что его внешний вид зафиксирован.
Но в PDF может оставаться информация помимо текста, который виден на экране.
Имя автора, приложение создания, время обновления, аннотации, встроенные файлы, скрытый текст, следы исходного документа и другое.
Когда вы анонимно делитесь документом, опасно думать: "я преобразовал его в PDF, значит все нормально".
В этой статье разобраны невидимые риски, остающиеся в PDF, и пункты, которые нужно проверить перед публикацией.
PDF нельзя оценивать только по внешнему виду
PDF — удобный формат, который можно отображать как бумажный документ.
Но внутри PDF-файла может быть информация помимо отображаемых страниц.
Информация
Содержание
Что учитывать для анонимности
Автор
Имя пользователя или сведения о приложении, создавшем документ
Приближает к человеку или организации
Дата создания
Время создания и обновления
Связывается со временем действия или отправки
Аннотации
Комментарии, выделения, заметки
Видны процесс редактирования и связанные люди
Встроенные данные
Вложения, шрифты, изображения
Остаются исходные данные или среда создания
Скрытый текст
OCR, текст для копирования
Иногда остается информация, которую пытались скрыть закрашиванием
Даже если PDF внешне чистый, внутренняя информация не обязательно чистая.
В анонимности отдельно проверяют отображаемые страницы и информацию внутри файла.
Что исчезает и что остается при преобразовании в PDF
Если преобразовать документ Office или изображение в PDF, часть информации меняется.
Но не все риски исчезают.
Что меняется при преобразовании
Что может остаться
Редактируемый документ становится фиксированным отображением
Автор, приложение создания, дата создания
Встраивается как изображение
Текст на изображении, фон, отражения
Фиксируются шрифты и верстка
Встроенные шрифты и сведения о приложении
Комментарии иногда исчезают
Аннотации или история изменений могут остаться в другой форме
Кажется, что закрашивание выполнено
Текст под ним может остаться
Преобразование в PDF бывает полезным.
Но "сделал PDF" и "проверка анонимности завершена" — разные вещи.
Закрашивание и скрытый текст
Особенно опасно в PDF скрывать информацию так, будто это закрашивание.
Если просто положить сверху черный прямоугольник, нижний текст может остаться внутри файла.
Даже если внешне его нельзя прочитать, исходные символы иногда видны при копировании, поиске, извлечении или внутреннем анализе.
Способ
Риск
Наложить черную фигуру
Нижний текст может остаться
Сделать цвет текста цветом фона
Может быть виден при копировании или поиске
Сделать скриншот
Остаются ухудшение качества, текст, читаемый OCR, и сведения фона
Использовать специальную функцию редактирования
После обработки нужна повторная проверка
Если документ требует редактирования, используйте специальную функцию и после обработки проверяйте поиск, копирование и метаданные.
Для документов высокого риска стоит не решать только по статье, а рассмотреть консультацию со специалистом или надежной поддержкой.
Организационная информация, остающаяся в PDF
В материалах для сообщения о нарушениях или журналистской работы организационная информация внутри PDF становится серьезной проблемой.
Признаками могут быть не только имя автора, но и шаблон, название отдела, путь к файлу, аннотации, номер распространения, водяной знак, формат номеров страниц.
Признак
Что можно понять
Имя автора
Создателя документа или учетную запись устройства
Название компании
Организацию или среду создания
Шаблон
Отдел или рабочий процесс
Автор аннотаций
Людей, участвовавших в редактировании
Водяной знак или номер распространения
Получателя или происхождение материала
PDF выглядит как "готовая версия".
Но именно потому, что это готовая версия, в нем могут оставаться следы создания внутри организации.
Почему это особенно опасно для сообщений о нарушениях и материалов источника
В сообщениях о нарушениях и журналистских материалах информация внутри PDF иногда показывает, "кто мог знать этот материал".
Даже если в самом документе нет имени, круг кандидатов сужают область распространения, время обновления, аннотации, водяные знаки, номера страниц, номера документа и шаблоны, характерные для отдела.
Признак внутри PDF
Что предполагается
Номер распространения
Какому отделу или человеку был выдан материал
Водяной знак
Информация для идентификации читателя или получателя
Имя автора аннотаций
Проверявший человек или связанное лицо
Время обновления
Кто мог работать в это время
Шаблон
Организация, отдел или рабочий процесс
Такая информация может быть непонятна обычному читателю, но для человека внутри организации она становится сильным признаком.
В анонимности важно думать не только о том, видно ли это незнакомому человеку, но и о том, как это выглядит для того, кто знает контекст.
Осторожность с извлечением текста из PDF
Даже если PDF внешне похож на изображение, внутри у него может быть текст.
В PDF после OCR за сканированным изображением может быть поисковый текст.
Если закрашивание или размытие сделано только на изображении, но исходные символы остались в поисковом тексте, это опасно.
Состояние
Что проверить
Сканированный PDF
Нет ли OCR-текста
PDF с закрашиванием
Не появляется ли исходный текст при копировании или поиске
PDF с изображениями
Не остались ли текст и фон внутри изображений
PDF с аннотациями
Не извлекается ли текст аннотаций или комментариев
PDF-форма
Не остались ли поля ввода и выбранные состояния
Перед публикацией PDF не только читают глазами, но и проверяют поиск, копирование и метаданные.
"Не видно на экране" не является доказательством безопасности.
Инструменты для проверки
Если проверять PDF, преобразовывать его, редактировать или удалять метаданные через онлайн-сервисы, исходный файл, имя файла, внутренняя информация и сведения об источнике доступа могут перейти стороне сервиса. Для документов высокого риска не загружайте файл во внешние сервисы, проверяйте его в локальной среде и после обработки перепроверяйте другим способом.
Для проверки метаданных PDF иногда используют ExifTool.
Для проверки структуры PDF и преобразований также может подойти qpdf. qpdf — инструмент для проверки структуры PDF-файлов и преобразований; способ использования можно посмотреть в официальной документации.
Но использование инструмента не делает файл автоматически безопасным.
Нужно читать показанную информацию и перепроверять после удаления или пересоздания.
Проверка перед публикацией
Перед публикацией PDF проверяют в следующем порядке.
Порядок
Что проверить
Причина
1
Посмотреть автора и дату создания
Проверить, не связывают ли они с человеком или временем работы
2
Посмотреть аннотации и комментарии
Проверить, не остались ли процесс редактирования и связанные люди
3
Проверить закрашенные места
Посмотреть, не остался ли нижний текст
4
Посмотреть встроенные файлы и изображения
Проверить, не остались ли исходные данные или другие файлы
5
Посмотреть имя файла
Проверить, не остались ли имя, отдел, название дела
6
После удаления проверить снова
Убедиться, что обработка сработала
PDF — формат, который легко копируется после публикации.
Поэтому проверка до публикации важна.
Решение не публиковать PDF
Для PDF высокого риска одного удаления или преобразования может быть недостаточно.
Само содержание материала может сужать источник.
Например, если остается хронология, которую знают только участники определенного совещания, сокращения, используемые только конкретным отделом, или различающиеся обозначения для разных получателей, круг кандидатов сузится даже после удаления метаданных.
В таком случае нужно не публиковать PDF как есть, а принимать другие решения: пересказать содержание, обобщить имена собственные, показать только необходимую часть надежному консультанту, обратиться к специалисту или в поддержку.
В анонимности сделать файл чистым и решить, что его можно публиковать, — разные задачи.
Итоги
PDF выглядит безопасным из-за фиксированного внешнего вида, но внутри могут оставаться автор, дата создания, аннотации, встроенные данные и скрытый текст.
Одно преобразование в PDF не завершает анонимность.
Особое внимание нужно уделять закрашиванию, аннотациям, организационной информации, номерам распространения и именам файлов.
ExifTool и qpdf помогают проверять, но безопасность не определяется одним названием инструмента.
Перед публикацией проверяйте внешний вид, внутреннюю информацию, имя файла и результат после удаления вместе.
Связанные инструменты
Metadata inspection
ExifTool
Внешний ресурс, связанный с этой статьей. Открывайте его только если он подходит вашей ситуации и модели угроз.
Почему указано здесь: Он может помочь с темой статьи, но находится вне Anonymity Sense, поэтому перед использованием его нужно проверить.