PDFに残る見えないリスク
匿名性の判断で見落としやすい手がかりを、実践前後の確認に使える形で整理します。
PDFは、見た目が固定されているため安全そうに見えます。
しかし、PDFには画面に表示される本文以外の情報が残ることがあります。
作成者名、作成アプリ、更新日時、注釈、埋め込みファイル、非表示テキスト、元文書の痕跡などです。
匿名で文書を共有するとき、「PDFに変換したから大丈夫」と考えるのは危険です。
この記事では、PDFに残る見えないリスクと、公開前に確認すべき点を整理します。
PDFは見た目だけでは判断できない
PDFは、紙のように表示できる便利な形式です。
しかし、PDFファイルの中には、表示されるページ以外の情報が含まれることがあります。
| 情報 | 内容 | 匿名性での注意点 |
|---|---|---|
| 作成者 | 文書を作ったユーザー名やアプリ情報 | 本人や組織名に近づく |
| 作成日時 | 作成・更新された時刻 | 行動時刻や提出時刻と結びつく |
| 注釈 | コメント、マーカー、メモ | 編集過程や関係者が見える |
| 埋め込み | 添付ファイル、フォント、画像 | 元データや作成環境が残る |
| 非表示テキスト | OCR、コピー用テキスト | 黒塗りしたつもりの情報が残ることがある |
PDFの見た目がきれいでも、内部情報がきれいとは限りません。
匿名性では、表示されるページと、ファイル内部の情報を分けて確認します。
PDF変換で消えるものと残るもの
Office文書や画像をPDFに変換すると、一部の情報は変わります。
しかし、すべてのリスクが消えるわけではありません。
| 変換で変わるもの | 残る可能性があるもの |
|---|---|
| 編集可能な文書が固定表示になる | 作成者、作成アプリ、作成日時 |
| 画像として埋め込まれる | 画像内の文字、背景、反射 |
| フォントやレイアウトが固定される | 埋め込みフォントやアプリ情報 |
| コメントが消える場合がある | 注釈や変更履歴が別形で残る場合がある |
| 黒塗り処理をしたように見える | 下のテキストが残る場合がある |
PDF化は有効な場面があります。
しかし、「PDFにした」ことと「匿名性の確認が終わった」ことは違います。
黒塗りと非表示テキスト
PDFで特に危険なのが、黒塗りのつもりで情報を隠した場合です。
黒い四角を上から置いただけでは、下のテキストがファイル内に残ることがあります。
見た目では読めなくても、コピー、検索、抽出、内部解析で元の文字が見える場合があります。
| 方法 | リスク |
|---|---|
| 黒い図形を重ねる | 下のテキストが残る場合がある |
| 文字色を背景色にする | コピーや検索で見える場合がある |
| スクリーンショット化する | 画質やOCR、背景情報が残る |
| 専用の墨消し機能を使う | 処理後の再確認が必要 |
墨消しが必要な文書では、専用機能を使い、処理後に検索・コピー・確認を行います。
高リスクな文書では、記事だけで判断せず、専門家や信頼できる支援先に相談することも検討します。
PDFに残る組織情報
内部告発や取材資料では、PDF内の組織情報が大きな問題になります。
作成者名だけでなく、テンプレート、部署名、ファイルパス、注釈、配布番号、透かし、ページ番号の形式などが手がかりになります。
| 手がかり | 何が分かるか |
|---|---|
| 作成者名 | 文書作成者や端末アカウント |
| 会社名 | 所属組織や作成環境 |
| テンプレート | 部署や業務フロー |
| 注釈者 | 編集に関わった人 |
| 透かし・配布番号 | 配布先や資料の出所 |
PDFは「完成版」に見えます。
しかし、完成版だからこそ、組織内で作られた痕跡が残っていることがあります。
内部告発や取材資料で特に危険な理由
内部告発や取材資料では、PDF内の情報が「誰が知り得た資料か」を示すことがあります。
文書そのものに名前がなくても、配布範囲、更新時刻、注釈、透かし、ページ番号、文書番号、部署特有のテンプレートが残れば、候補者は絞られます。
| PDF内の手がかり | 推測されること |
|---|---|
| 配布番号 | どの部署や誰に配布された資料か |
| 透かし | 閲覧者や配布先を識別するための情報 |
| 注釈者名 | レビューした人や関係者 |
| 更新日時 | 誰がその時刻に作業できたか |
| テンプレート | 組織や部署、業務フロー |
このような情報は、一般の読者には意味が分からなくても、組織内部の人には強い手がかりになります。
匿名性では、知らない人に見えるかだけではなく、知っている人にどう見えるかを考えます。
PDF内のテキスト抽出にも注意する
PDFは、見た目では画像のように見えても、内部にテキストを持っている場合があります。
OCR処理されたPDFでは、スキャン画像の裏側に検索用テキストが入ることがあります。
黒塗りやぼかしを画像上で行っても、検索用テキストに元の文字が残っていれば危険です。
| 状態 | 確認すること |
|---|---|
| スキャンPDF | OCRテキストが入っていないか |
| 黒塗りPDF | コピーや検索で元文字が出ないか |
| 画像入りPDF | 画像内の文字や背景が残っていないか |
| 注釈付きPDF | 注釈本文やコメントが抽出できないか |
| フォームPDF | 入力欄や選択状態が残っていないか |
PDFを公開する前には、見た目で読むだけでなく、検索、コピー、メタデータ確認を行います。
「画面で見えない」は安全の証明ではありません。
確認に使えるツール
PDFのメタデータ確認には、ExifToolが使われることがあります。
URL : https://exiftool.org/
PDFの構造確認や変換では、qpdfも候補になります。qpdfはPDFファイルの構造確認や変換に使われるツールで、公式ドキュメントから使い方を確認できます。
URL : https://qpdf.readthedocs.io/
ただし、ツールを使えば自動で安全になるわけではありません。
表示された情報を読み、削除や再生成の後に再確認する必要があります。
公開前の確認
PDFを公開する前は、次の順番で確認します。
| 順番 | 確認すること | 理由 |
|---|---|---|
| 1 | 作成者・作成日時を見る | 本人や作業時刻に結びつかないか確認する |
| 2 | 注釈やコメントを見る | 編集過程や関係者が残っていないか確認する |
| 3 | 黒塗り部分を確認する | 下の文字が残っていないか見る |
| 4 | 埋め込みファイルや画像を見る | 元データや別ファイルが残っていないか確認する |
| 5 | ファイル名を見る | 名前、部署、案件名が残っていないか確認する |
| 6 | 削除後に再確認する | 処理が成功したか確認する |
PDFは、公開後にコピーされやすい形式です。
公開前に確認することが重要です。
PDFを公開しない判断
高リスクなPDFでは、削除や変換だけで十分とは限りません。
資料の内容そのものが、情報源を絞る場合があります。
たとえば、ある会議の参加者だけが知っている時系列、特定部署だけが使う略語、配布先ごとに違う表記が残っていれば、メタデータを消しても候補は狭まります。
この場合、PDFをそのまま公開するのではなく、内容を要約する、固有表現を一般化する、第三者に確認してもらう、信頼できる相談先に持ち込むなどの判断が必要です。
匿名性では、ファイルをきれいにすることと、公開してよいことは別です。
まとめ
PDFは見た目が固定されているため安全そうに見えますが、内部には作成者、作成日時、注釈、埋め込み、非表示テキストが残ることがあります。
PDF化しただけでは匿名性は完成しません。
特に、黒塗り、注釈、組織情報、配布番号、ファイル名には注意します。
ExifToolやqpdfのようなツールは確認に役立ちますが、ツール名だけで安全性は決まりません。
公開前には、見た目、内部情報、ファイル名、削除後の再確認をセットで行います。
関連ツール
ExifTool
ExifToolは、画像、動画、PDF、Office文書など幅広い形式のメタデータを確認・編集できる代表的なローカルツールです。
紹介する理由: 匿名性が必要なファイルをオンライン変換サイトへアップロードせず、手元の環境でメタデータを確認しやすいため紹介します。
URL : https://exiftool.org/
MAT2
MAT2は、画像、PDF、Office文書など複数形式のメタデータ削除を目的としたローカルツールです。
紹介する理由: ファイル公開前に、ブラウザ上の簡易チェックだけでは見えにくいメタデータをローカル環境で減らす候補になるため紹介します。
qpdf
qpdfは、PDFの構造確認、変換、再構成に使われるPDF処理ツールです。
紹介する理由: PDFは見た目だけでは内部構造やメタデータが分かりにくいため、公開前にローカルで確認する候補として紹介します。