Learn

284 статейКатегория: Все
Метаданные

Риски метаданных PDF

PDF часто используют как материалы для публикации или отправки.

Но PDF нельзя оценивать только по внешнему виду. Даже если в тексте не написано имя, внутри файла могут оставаться имя автора, программа создания, дата создания, аннотации, встроенные файлы и сведения форм.

В анонимности признаком становится не только содержание PDF, но и среда, где он был создан, и история редактирования.

В этой статье разобраны сведения, которые часто остаются в PDF, и точки проверки перед публикацией.

Информация, остающаяся в PDF

В PDF может содержаться информация помимо самого документа.

ИнформацияЧто показываетРиск для анонимности
АвторИмя пользователя ОС или текстового редактораВыдает личное имя или организацию
Дата созданияКогда был создан файлСвязывается со временем действий или подготовки материалов
Программа созданияWord, LibreOffice, сканер и другоеСтановится признаком рабочей среды
ЗаголовокИмя исходного документа или название делаОставляет внутреннее название
АннотацииКомментарии и редакторские заметкиПоказывает связанных людей и ход решений
Встроенные файлыИсходные материалы или вложенные данныеПодмешивает лишнюю информацию

PDF выглядит как "готовая версия".

Но внутри может оставаться информация о процессе создания.

Ошибки закрашивания

Особенно опасны ошибки закрашивания в PDF.

Даже если внешне текст закрыт черным прямоугольником, внутри может оставаться текстовая информация. Исходные символы иногда можно извлечь копированием, поиском или отключением слоя.

Типичная обработкаПроблемаКак приблизиться к безопасности
Наложить черную фигуруИсходный текст остается внутриИспользовать специальную функцию редактирования
Только сделать скриншотНужно учитывать качество и скрытую информациюПовторно проверить нужную область
Скрыть аннотациейАннотацию иногда можно убратьПосле вывода проверить копирование и поиск
Удалить страницуВстроенные данные или история могут остатьсяПересоздать как отдельный файл
Удалять вручную частямиЛегко что-то пропуститьИспользовать чек-лист

В материалах высокого риска безопаснее не оценивать закрашивание только одним человеком.

В юридическом, журналистском контексте или при сообщении о нарушениях может понадобиться проверка специалиста или надежного консультанта.

Смотреть отдельно внешний вид и внутреннее содержимое PDF

При проверке PDF разделяют внешний вид и внутреннюю информацию.

Во внешнем виде есть текст, изображения, таблицы, QR-коды, номера страниц, фон и водяные знаки. Внутри есть метаданные, аннотации, встроенные файлы, формы и ссылки.

Где проверятьКакая информацияПричина
Внешний видТекст, изображения, таблицы, фонПроверить прямую персональную информацию
СсылкиURL, место общего доступа, отслеживаниеИзбежать личных ID и внутренних URL
МетаданныеАвтор, программа созданияНе раскрывать рабочую среду
АннотацииКомментарии, рецензированиеНе оставлять внутренние разговоры
Встроенные данныеВложения, формыНе включать лишние данные

PDF похож на печатный документ.

Но на практике это цифровой файл с внутренней структурой.

Процедура проверки

Перед публикацией PDF базовое правило — не публиковать исходный файл напрямую.

Создайте копию для публикации и оставьте только необходимую информацию.

ШагЧто проверить
1Создать копию для публикации, а не использовать исходный файл
2Проверить, нет ли в имени файла настоящего имени, названия дела или организации
3Проверить свойства документа
4Проверить аннотации, комментарии, формы и встроенные данные
5Проверить, нельзя ли копировать или искать закрашенный текст
6Открыть заново в другой среде и проверить отображение
7После загрузки проверить, как это видно другой стороне

ExifTool и qpdf могут помогать в проверке.

Но даже если инструмент удалил метаданные, информацию в тексте и изображениях проверяют отдельно. Если загрузить исходный PDF во внешний сервис преобразования, онлайн-сервис редактирования или онлайн-сервис проверки метаданных, этому сервису могут перейти содержание документа, сведения доступа и время обработки. Для PDF высокого риска проверку и преобразование по возможности выполняют в локальной среде.

Проверять и получателя PDF

Риски PDF не ограничиваются внутренним содержимым файла.

Куда его загрузить, кому отправить и с какого аккаунта поделиться — это тоже связано с анонимностью. При общем доступе из личного облака могут быть видны имя владельца и адрес электронной почты. При отправке почтой остаются отправитель, тема и время.

Способ передачиОстающаяся информацияЧто учитывать
Облачная ссылкаИмя владельца, история общего доступаНе делиться из аккаунта настоящего имени
Вложение в почтуОтправитель, тема, времяСмотреть корреляцию канала связи
Сайт публикацииВремя загрузки, аккаунтСвязывается с содержанием публикации
Отправка в чатеОстается на устройстве другой стороныУчитывать скриншоты и пересылку
Анонимная передачаЖурналы получателя, время проверкиСмотреть надежность получателя

Сделать PDF безопаснее — это не только привести в порядок внутренности файла.

Нужно учитывать маршрут передачи, аккаунт, время отправки и сохранение на стороне получателя.

Разграничение с другими статьями

Эта статья рассматривает риски информации, остающейся в PDF.

Практический процесс удаления метаданных PDF разобран в статье "Осторожность при удалении метаданных PDF". Если PDF создается из документа Office, нужно также проверить сведения об авторе и историю изменений в исходном Office-файле.

То есть важно не останавливаться только на PDF.

Что смотретьОсновная проверка
Сам PDFАвтор, аннотации, встроенные данные, закрашивание
Исходный OfficeИстория изменений, комментарии, название компании
ИзображенияФон, отражения, текст,
Маршрут передачиИмя владельца, URL, время отправки
КонсультантДоказательная ценность и безопасность

PDF во многих ситуациях является "удобным форматом для отправки".

Именно поэтому при сообщениях о нарушениях, консультациях о школе или работе, передаче материалов журналистам его легко отправить как есть. Если важна анонимность, отдельно проверяйте, где остаются сведения о создателе, редакторе, отправителе и читателе PDF.

Осторожность с полученными PDF

Риски PDF касаются не только файлов, созданных вами.

В PDF, полученном от другого человека, тоже могут оставаться автор, дата создания, программа создания, аннотации и встроенные файлы. Если без проверки опубликовать PDF, полученный в ходе журналистской работы или консультации, можно создать путь обратно к предоставившему человеку.

Информация в полученном PDFРиск
АвторВидны предоставивший человек или организация
Дата созданияВидно время подготовки материала
АннотацииОстаются внутренние заметки
Встроенные данныеПодмешиваются исходные материалы
Имя файлаВидны дело или личное имя

Чем более полученный PDF связан с другим человеком, тем сильнее нужно проверять его с точки зрения защиты предоставившего.

В сканированном PDF тоже остаются признаки

Нельзя сказать, что достаточно отсканировать бумагу в PDF, чтобы стало безопасно.

В сканированном PDF могут оставаться имя сканера, программа создания и дата создания. Кроме того, на самой странице остаются печати, регистрационные номера, почерк, сгибы, заметки на полях и особенности копировального аппарата. Даже изображение PDF без текстовой информации дает признаки по внешнему виду.

ПризнакЧто понятноЧто учитывать
Сведения о сканереИспользованное устройство или средаПроверять метаданные
Регистрационный номерВнутренний документ организацииКруг сужается по системе номеров
ПочеркКто писалЗнакомые могут узнать
Печать или подписьЧеловек или организацияСтановится прямым идентификатором
Поля и сгибыКак обращались с оригиналомМожно предположить маршрут исходника

Сканированный PDF несет риски и цифрового, и бумажного документа.

Проверяйте не только метаданные, но и увеличенный внешний вид страницы.

Итоги

PDF нельзя считать безопасным только по внешнему виду.

В нем могут оставаться имя автора, дата создания, программа создания, аннотации, встроенные файлы и сведения форм.

Закрашивание тоже недостаточно оценивать глазами. Обработка, при которой исходный текст остается внутри, опасна.

В анонимности отдельно проверяют текст PDF, внешний вид, внутреннюю информацию, имя файла и место передачи.

Для материалов высокого риска также стоит не решать в одиночку и использовать надежный канал консультации или специалиста.

Связанные инструменты

Metadata inspection

ExifTool

Внешний ресурс, связанный с этой статьей. Открывайте его только если он подходит вашей ситуации и модели угроз.

Почему указано здесь: Он может помочь с темой статьи, но находится вне Anonymity Sense, поэтому перед использованием его нужно проверить.

URL : https://exiftool.org/

Открыть внешний сайт
Metadata removal

MAT2

Внешний ресурс, связанный с этой статьей. Открывайте его только если он подходит вашей ситуации и модели угроз.

Почему указано здесь: Он может помочь с темой статьи, но находится вне Anonymity Sense, поэтому перед использованием его нужно проверить.

URL : https://0xacab.org/jvoisin/mat2

Открыть внешний сайт
PDF inspection

qpdf

Внешний ресурс, связанный с этой статьей. Открывайте его только если он подходит вашей ситуации и модели угроз.

Почему указано здесь: Он может помочь с темой статьи, но находится вне Anonymity Sense, поэтому перед использованием его нужно проверить.

URL : https://qpdf.readthedocs.io/

Открыть внешний сайт

Связанные статьи