PDF часто используют как материалы для публикации или отправки.
Но PDF нельзя оценивать только по внешнему виду. Даже если в тексте не написано имя, внутри файла могут оставаться имя автора, программа создания, дата создания, аннотации, встроенные файлы и сведения форм.
В анонимности признаком становится не только содержание PDF, но и среда, где он был создан, и история редактирования.
В этой статье разобраны сведения, которые часто остаются в PDF, и точки проверки перед публикацией.
Информация, остающаяся в PDF
В PDF может содержаться информация помимо самого документа.
Информация
Что показывает
Риск для анонимности
Автор
Имя пользователя ОС или текстового редактора
Выдает личное имя или организацию
Дата создания
Когда был создан файл
Связывается со временем действий или подготовки материалов
Программа создания
Word, LibreOffice, сканер и другое
Становится признаком рабочей среды
Заголовок
Имя исходного документа или название дела
Оставляет внутреннее название
Аннотации
Комментарии и редакторские заметки
Показывает связанных людей и ход решений
Встроенные файлы
Исходные материалы или вложенные данные
Подмешивает лишнюю информацию
PDF выглядит как "готовая версия".
Но внутри может оставаться информация о процессе создания.
Ошибки закрашивания
Особенно опасны ошибки закрашивания в PDF.
Даже если внешне текст закрыт черным прямоугольником, внутри может оставаться текстовая информация. Исходные символы иногда можно извлечь копированием, поиском или отключением слоя.
Типичная обработка
Проблема
Как приблизиться к безопасности
Наложить черную фигуру
Исходный текст остается внутри
Использовать специальную функцию редактирования
Только сделать скриншот
Нужно учитывать качество и скрытую информацию
Повторно проверить нужную область
Скрыть аннотацией
Аннотацию иногда можно убрать
После вывода проверить копирование и поиск
Удалить страницу
Встроенные данные или история могут остаться
Пересоздать как отдельный файл
Удалять вручную частями
Легко что-то пропустить
Использовать чек-лист
В материалах высокого риска безопаснее не оценивать закрашивание только одним человеком.
В юридическом, журналистском контексте или при сообщении о нарушениях может понадобиться проверка специалиста или надежного консультанта.
Смотреть отдельно внешний вид и внутреннее содержимое PDF
При проверке PDF разделяют внешний вид и внутреннюю информацию.
Во внешнем виде есть текст, изображения, таблицы, QR-коды, номера страниц, фон и водяные знаки. Внутри есть метаданные, аннотации, встроенные файлы, формы и ссылки.
Где проверять
Какая информация
Причина
Внешний вид
Текст, изображения, таблицы, фон
Проверить прямую персональную информацию
Ссылки
URL, место общего доступа, отслеживание
Избежать личных ID и внутренних URL
Метаданные
Автор, программа создания
Не раскрывать рабочую среду
Аннотации
Комментарии, рецензирование
Не оставлять внутренние разговоры
Встроенные данные
Вложения, формы
Не включать лишние данные
PDF похож на печатный документ.
Но на практике это цифровой файл с внутренней структурой.
Процедура проверки
Перед публикацией PDF базовое правило — не публиковать исходный файл напрямую.
Создайте копию для публикации и оставьте только необходимую информацию.
Шаг
Что проверить
1
Создать копию для публикации, а не использовать исходный файл
2
Проверить, нет ли в имени файла настоящего имени, названия дела или организации
3
Проверить свойства документа
4
Проверить аннотации, комментарии, формы и встроенные данные
5
Проверить, нельзя ли копировать или искать закрашенный текст
6
Открыть заново в другой среде и проверить отображение
7
После загрузки проверить, как это видно другой стороне
ExifTool и qpdf могут помогать в проверке.
Но даже если инструмент удалил метаданные, информацию в тексте и изображениях проверяют отдельно. Если загрузить исходный PDF во внешний сервис преобразования, онлайн-сервис редактирования или онлайн-сервис проверки метаданных, этому сервису могут перейти содержание документа, сведения доступа и время обработки. Для PDF высокого риска проверку и преобразование по возможности выполняют в локальной среде.
Проверять и получателя PDF
Риски PDF не ограничиваются внутренним содержимым файла.
Куда его загрузить, кому отправить и с какого аккаунта поделиться — это тоже связано с анонимностью. При общем доступе из личного облака могут быть видны имя владельца и адрес электронной почты. При отправке почтой остаются отправитель, тема и время.
Способ передачи
Остающаяся информация
Что учитывать
Облачная ссылка
Имя владельца, история общего доступа
Не делиться из аккаунта настоящего имени
Вложение в почту
Отправитель, тема, время
Смотреть корреляцию канала связи
Сайт публикации
Время загрузки, аккаунт
Связывается с содержанием публикации
Отправка в чате
Остается на устройстве другой стороны
Учитывать скриншоты и пересылку
Анонимная передача
Журналы получателя, время проверки
Смотреть надежность получателя
Сделать PDF безопаснее — это не только привести в порядок внутренности файла.
Нужно учитывать маршрут передачи, аккаунт, время отправки и сохранение на стороне получателя.
Разграничение с другими статьями
Эта статья рассматривает риски информации, остающейся в PDF.
Практический процесс удаления метаданных PDF разобран в статье "Осторожность при удалении метаданных PDF". Если PDF создается из документа Office, нужно также проверить сведения об авторе и историю изменений в исходном Office-файле.
То есть важно не останавливаться только на PDF.
Что смотреть
Основная проверка
Сам PDF
Автор, аннотации, встроенные данные, закрашивание
Исходный Office
История изменений, комментарии, название компании
Изображения
Фон, отражения, текст,
Маршрут передачи
Имя владельца, URL, время отправки
Консультант
Доказательная ценность и безопасность
PDF во многих ситуациях является "удобным форматом для отправки".
Именно поэтому при сообщениях о нарушениях, консультациях о школе или работе, передаче материалов журналистам его легко отправить как есть. Если важна анонимность, отдельно проверяйте, где остаются сведения о создателе, редакторе, отправителе и читателе PDF.
Осторожность с полученными PDF
Риски PDF касаются не только файлов, созданных вами.
В PDF, полученном от другого человека, тоже могут оставаться автор, дата создания, программа создания, аннотации и встроенные файлы. Если без проверки опубликовать PDF, полученный в ходе журналистской работы или консультации, можно создать путь обратно к предоставившему человеку.
Информация в полученном PDF
Риск
Автор
Видны предоставивший человек или организация
Дата создания
Видно время подготовки материала
Аннотации
Остаются внутренние заметки
Встроенные данные
Подмешиваются исходные материалы
Имя файла
Видны дело или личное имя
Чем более полученный PDF связан с другим человеком, тем сильнее нужно проверять его с точки зрения защиты предоставившего.
В сканированном PDF тоже остаются признаки
Нельзя сказать, что достаточно отсканировать бумагу в PDF, чтобы стало безопасно.
В сканированном PDF могут оставаться имя сканера, программа создания и дата создания. Кроме того, на самой странице остаются печати, регистрационные номера, почерк, сгибы, заметки на полях и особенности копировального аппарата. Даже изображение PDF без текстовой информации дает признаки по внешнему виду.
Признак
Что понятно
Что учитывать
Сведения о сканере
Использованное устройство или среда
Проверять метаданные
Регистрационный номер
Внутренний документ организации
Круг сужается по системе номеров
Почерк
Кто писал
Знакомые могут узнать
Печать или подпись
Человек или организация
Становится прямым идентификатором
Поля и сгибы
Как обращались с оригиналом
Можно предположить маршрут исходника
Сканированный PDF несет риски и цифрового, и бумажного документа.
Проверяйте не только метаданные, но и увеличенный внешний вид страницы.
Итоги
PDF нельзя считать безопасным только по внешнему виду.
В нем могут оставаться имя автора, дата создания, программа создания, аннотации, встроенные файлы и сведения форм.
Закрашивание тоже недостаточно оценивать глазами. Обработка, при которой исходный текст остается внутри, опасна.
В анонимности отдельно проверяют текст PDF, внешний вид, внутреннюю информацию, имя файла и место передачи.
Для материалов высокого риска также стоит не решать в одиночку и использовать надежный канал консультации или специалиста.
Связанные инструменты
Metadata inspection
ExifTool
Внешний ресурс, связанный с этой статьей. Открывайте его только если он подходит вашей ситуации и модели угроз.
Почему указано здесь: Он может помочь с темой статьи, но находится вне Anonymity Sense, поэтому перед использованием его нужно проверить.
PDF нужно проверять по внешнему виду, внутренней структуре, имени файла, маршруту передачи, аннотациям, закрашиванию, встроенным данным и сканированным признакам.