Learn

メタデータ

PDFに残る見えないリスク

匿名性の判断で見落としやすい手がかりを、実践前後の確認に使える形で整理します。

PDFは、見た目が固定されているため安全そうに見えます。

しかし、PDFには画面に表示される本文以外の情報が残ることがあります。

作成者名、作成アプリ、更新日時、注釈、埋め込みファイル、非表示テキスト、元文書の痕跡などです。

匿名で文書を共有するとき、「PDFに変換したから大丈夫」と考えるのは危険です。

この記事では、PDFに残る見えないリスクと、公開前に確認すべき点を整理します。

PDFは見た目だけでは判断できない

PDFは、紙のように表示できる便利な形式です。

しかし、PDFファイルの中には、表示されるページ以外の情報が含まれることがあります。

情報内容匿名性での注意点
作成者文書を作ったユーザー名やアプリ情報本人や組織名に近づく
作成日時作成・更新された時刻行動時刻や提出時刻と結びつく
注釈コメント、マーカー、メモ編集過程や関係者が見える
埋め込み添付ファイル、フォント、画像元データや作成環境が残る
非表示テキストOCR、コピー用テキスト黒塗りしたつもりの情報が残ることがある

PDFの見た目がきれいでも、内部情報がきれいとは限りません。

匿名性では、表示されるページと、ファイル内部の情報を分けて確認します。

PDF変換で消えるものと残るもの

Office文書や画像をPDFに変換すると、一部の情報は変わります。

しかし、すべてのリスクが消えるわけではありません。

変換で変わるもの残る可能性があるもの
編集可能な文書が固定表示になる作成者、作成アプリ、作成日時
画像として埋め込まれる画像内の文字、背景、反射
フォントやレイアウトが固定される埋め込みフォントやアプリ情報
コメントが消える場合がある注釈や変更履歴が別形で残る場合がある
黒塗り処理をしたように見える下のテキストが残る場合がある

PDF化は有効な場面があります。

しかし、「PDFにした」ことと「匿名性の確認が終わった」ことは違います。

黒塗りと非表示テキスト

PDFで特に危険なのが、黒塗りのつもりで情報を隠した場合です。

黒い四角を上から置いただけでは、下のテキストがファイル内に残ることがあります。

見た目では読めなくても、コピー、検索、抽出、内部解析で元の文字が見える場合があります。

方法リスク
黒い図形を重ねる下のテキストが残る場合がある
文字色を背景色にするコピーや検索で見える場合がある
スクリーンショット化する画質やOCR、背景情報が残る
専用の墨消し機能を使う処理後の再確認が必要

墨消しが必要な文書では、専用機能を使い、処理後に検索・コピー・確認を行います。

高リスクな文書では、記事だけで判断せず、専門家や信頼できる支援先に相談することも検討します。

PDFに残る組織情報

内部告発や取材資料では、PDF内の組織情報が大きな問題になります。

作成者名だけでなく、テンプレート、部署名、ファイルパス、注釈、配布番号、透かし、ページ番号の形式などが手がかりになります。

手がかり何が分かるか
作成者名文書作成者や端末アカウント
会社名所属組織や作成環境
テンプレート部署や業務フロー
注釈者編集に関わった人
透かし・配布番号配布先や資料の出所

PDFは「完成版」に見えます。

しかし、完成版だからこそ、組織内で作られた痕跡が残っていることがあります。

内部告発や取材資料で特に危険な理由

内部告発や取材資料では、PDF内の情報が「誰が知り得た資料か」を示すことがあります。

文書そのものに名前がなくても、配布範囲、更新時刻、注釈、透かし、ページ番号、文書番号、部署特有のテンプレートが残れば、候補者は絞られます。

PDF内の手がかり推測されること
配布番号どの部署や誰に配布された資料か
透かし閲覧者や配布先を識別するための情報
注釈者名レビューした人や関係者
更新日時誰がその時刻に作業できたか
テンプレート組織や部署、業務フロー

このような情報は、一般の読者には意味が分からなくても、組織内部の人には強い手がかりになります。

匿名性では、知らない人に見えるかだけではなく、知っている人にどう見えるかを考えます。

PDF内のテキスト抽出にも注意する

PDFは、見た目では画像のように見えても、内部にテキストを持っている場合があります。

OCR処理されたPDFでは、スキャン画像の裏側に検索用テキストが入ることがあります。

黒塗りやぼかしを画像上で行っても、検索用テキストに元の文字が残っていれば危険です。

状態確認すること
スキャンPDFOCRテキストが入っていないか
黒塗りPDFコピーや検索で元文字が出ないか
画像入りPDF画像内の文字や背景が残っていないか
注釈付きPDF注釈本文やコメントが抽出できないか
フォームPDF入力欄や選択状態が残っていないか

PDFを公開する前には、見た目で読むだけでなく、検索、コピー、メタデータ確認を行います。

「画面で見えない」は安全の証明ではありません。

確認に使えるツール

PDFのメタデータ確認には、ExifToolが使われることがあります。

URL : https://exiftool.org/

PDFの構造確認や変換では、qpdfも候補になります。qpdfはPDFファイルの構造確認や変換に使われるツールで、公式ドキュメントから使い方を確認できます。

URL : https://qpdf.readthedocs.io/

ただし、ツールを使えば自動で安全になるわけではありません。

表示された情報を読み、削除や再生成の後に再確認する必要があります。

公開前の確認

PDFを公開する前は、次の順番で確認します。

順番確認すること理由
1作成者・作成日時を見る本人や作業時刻に結びつかないか確認する
2注釈やコメントを見る編集過程や関係者が残っていないか確認する
3黒塗り部分を確認する下の文字が残っていないか見る
4埋め込みファイルや画像を見る元データや別ファイルが残っていないか確認する
5ファイル名を見る名前、部署、案件名が残っていないか確認する
6削除後に再確認する処理が成功したか確認する

PDFは、公開後にコピーされやすい形式です。

公開前に確認することが重要です。

PDFを公開しない判断

高リスクなPDFでは、削除や変換だけで十分とは限りません。

資料の内容そのものが、情報源を絞る場合があります。

たとえば、ある会議の参加者だけが知っている時系列、特定部署だけが使う略語、配布先ごとに違う表記が残っていれば、メタデータを消しても候補は狭まります。

この場合、PDFをそのまま公開するのではなく、内容を要約する、固有表現を一般化する、第三者に確認してもらう、信頼できる相談先に持ち込むなどの判断が必要です。

匿名性では、ファイルをきれいにすることと、公開してよいことは別です。

まとめ

PDFは見た目が固定されているため安全そうに見えますが、内部には作成者、作成日時、注釈、埋め込み、非表示テキストが残ることがあります。

PDF化しただけでは匿名性は完成しません。

特に、黒塗り、注釈、組織情報、配布番号、ファイル名には注意します。

ExifToolやqpdfのようなツールは確認に役立ちますが、ツール名だけで安全性は決まりません。

公開前には、見た目、内部情報、ファイル名、削除後の再確認をセットで行います。

関連ツール

Metadata inspection

ExifTool

ExifToolは、画像、動画、PDF、Office文書など幅広い形式のメタデータを確認・編集できる代表的なローカルツールです。

紹介する理由: 匿名性が必要なファイルをオンライン変換サイトへアップロードせず、手元の環境でメタデータを確認しやすいため紹介します。

URL : https://exiftool.org/

外部サイトを開く
Metadata removal

MAT2

MAT2は、画像、PDF、Office文書など複数形式のメタデータ削除を目的としたローカルツールです。

紹介する理由: ファイル公開前に、ブラウザ上の簡易チェックだけでは見えにくいメタデータをローカル環境で減らす候補になるため紹介します。

URL : https://0xacab.org/jvoisin/mat2

外部サイトを開く
PDF inspection

qpdf

qpdfは、PDFの構造確認、変換、再構成に使われるPDF処理ツールです。

紹介する理由: PDFは見た目だけでは内部構造やメタデータが分かりにくいため、公開前にローカルで確認する候補として紹介します。

URL : https://qpdf.readthedocs.io/

外部サイトを開く

関連記事