Risques invisibles qui restent dans les PDF
Les PDF semblent sûrs parce que leur apparence est fixe.
Pourtant, un PDF peut conserver des informations autres que le texte affiché à l'écran.
Nom du créateur, application de création, date de modification, annotations, fichiers intégrés, texte caché, traces du document d'origine, etc.
Quand vous partagez anonymement un document, penser "c'est bon parce que je l'ai converti en PDF" est dangereux.
Cet article organise les risques invisibles qui restent dans les PDF et les points à vérifier avant publication.
Un PDF ne se juge pas seulement à son apparence
Un PDF est un format pratique qui s'affiche comme du papier.
Cependant, un fichier PDF peut contenir des informations autres que les pages affichées.
| Information | Contenu | Point d'attention pour l'anonymat |
|---|---|---|
| Créateur | Nom d'utilisateur ou information d'application ayant créé le document | Rapproche d'une personne ou d'une organisation |
| Date de création | Heure de création ou de modification | Se relie à l'heure d'action ou de soumission |
| Annotations | Commentaires, marqueurs, notes | Le processus d'édition ou les personnes liées apparaissent |
| Éléments intégrés | Pièces jointes, polices, images | Les données d'origine ou l'environnement de création restent |
| Texte caché | OCR, texte copiable | Des informations censées être caviardées peuvent rester |
Même si l'apparence du PDF est propre, ses informations internes ne le sont pas nécessairement.
Pour l'anonymat, vérifiez séparément les pages affichées et les informations internes du fichier.
Ce que la conversion en PDF supprime et ce qu'elle laisse
Lorsque vous convertissez un document Office ou une image en PDF, certaines informations changent.
Mais tous les risques ne disparaissent pas.
| Ce qui change par la conversion | Ce qui peut rester |
|---|---|
| Un document modifiable devient un affichage fixe | Créateur, application de création, date de création |
| Le contenu est intégré comme image | Texte dans l'image, arrière-plan, reflets |
| Les polices et la mise en page sont fixées | Polices intégrées et informations d'application |
| Les commentaires peuvent disparaître | Les annotations ou historiques de modification peuvent rester sous une autre forme |
| Le caviardage semble effectué | Le texte dessous peut rester |
La conversion en PDF peut être utile dans certaines situations.
Mais "avoir fait un PDF" et "avoir fini de vérifier l'anonymat" sont deux choses différentes.
Caviardage et texte caché
Le cas particulièrement dangereux dans un PDF est celui où l'on pense avoir caché une information par caviardage.
Si vous placez seulement un rectangle noir par-dessus le texte, le texte dessous peut rester dans le fichier.
Même s'il est illisible à l'écran, les caractères d'origine peuvent apparaître par copie, recherche, extraction ou analyse interne.
| Méthode | Risque |
|---|---|
| Superposer une forme noire | Le texte dessous peut rester |
| Mettre le texte dans la couleur du fond | Il peut apparaître par copie ou recherche |
| Transformer en capture d'écran | Baisse de qualité, texte lisible par OCR, informations d'arrière-plan restantes |
| Utiliser une fonction dédiée de caviardage | Une revérification après traitement est nécessaire |
Pour les documents qui nécessitent un caviardage, utilisez une fonction dédiée, puis vérifiez après traitement par recherche, copie et contrôle des métadonnées.
Pour les documents à haut risque, ne décidez pas seulement avec cet article et envisagez aussi de consulter un spécialiste ou une personne ou structure de confiance.
Informations d'organisation dans les PDF
Dans les lancements d'alerte et les documents de reportage, les informations d'organisation présentes dans un PDF deviennent un gros problème.
Outre le nom du créateur, les modèles, noms de service, chemins de fichier, annotations, numéros de diffusion, filigranes et formats de numérotation des pages deviennent des indices.
| Indice | Ce qu'il révèle |
|---|---|
| Nom du créateur | Auteur du document ou compte du terminal |
| Nom d'entreprise | Organisation d'appartenance ou environnement de création |
| Modèle | Service ou flux de travail |
| Auteur d'annotation | Personne impliquée dans l'édition |
| Filigrane ou numéro de diffusion | Destinataire ou origine du document |
Un PDF ressemble à une "version finale".
Mais précisément parce qu'il s'agit d'une version finale, des traces de création interne peuvent y rester.
Pourquoi c'est particulièrement dangereux pour les alertes et les documents de reportage
Dans les lancements d'alerte et les documents de reportage, les informations internes d'un PDF peuvent indiquer "qui pouvait connaître ce document".
Même si le document lui-même ne contient pas de nom, le cercle des candidats se réduit si le périmètre de diffusion, l'heure de modification, les annotations, le filigrane, les numéros de page, le numéro de document ou un modèle propre à un service restent.
| Indice dans le PDF | Ce qui est déduit |
|---|---|
| Numéro de diffusion | À quel service ou à quelle personne le document a été distribué |
| Filigrane | Information destinée à identifier un lecteur ou destinataire |
| Nom de l'annotateur | Personne ayant relu ou personne liée |
| Date de modification | Qui pouvait travailler à ce moment-là |
| Modèle | Organisation, service ou flux de travail |
Même si ces informations n'ont pas de sens pour le public général, elles peuvent être de forts indices pour les personnes internes à l'organisation.
Pour l'anonymat, pensez non seulement à ce que voit une personne qui ne connaît pas le contexte, mais aussi à ce que voit une personne qui le connaît.
Attention aussi à l'extraction de texte dans les PDF
Même quand un PDF ressemble à une image, il peut contenir du texte en interne.
Dans un PDF traité par OCR, un texte de recherche peut se trouver derrière l'image scannée.
Même si vous caviardez ou floutez l'image, le texte d'origine reste dangereux s'il est conservé dans le texte de recherche.
| État | Ce qu'il faut vérifier |
|---|---|
| PDF scanné | Un texte OCR est-il présent ? |
| PDF caviardé | Le texte d'origine apparaît-il par copie ou recherche ? |
| PDF contenant des images | Du texte ou un arrière-plan dans l'image reste-t-il ? |
| PDF annoté | Le contenu des annotations ou commentaires est-il extractible ? |
| Formulaire PDF | Les champs saisis ou états sélectionnés restent-ils ? |
Avant de publier un PDF, ne vous contentez pas de le lire visuellement : effectuez aussi une recherche, une copie et une vérification des métadonnées.
"Invisible à l'écran" n'est pas une preuve de sécurité.
Outils utilisables pour la vérification
Si vous utilisez un service en ligne pour vérifier, convertir, caviarder ou supprimer les métadonnées d'un PDF, le fichier d'origine, son nom, ses informations internes et les informations d'accès peuvent être transmis au service. Pour un document à haut risque, n'envoyez pas le fichier vers un service externe ; vérifiez-le dans un environnement local, puis revérifiez le résultat avec une autre méthode.
ExifTool est parfois utilisé pour vérifier les métadonnées des PDF.
qpdf est aussi une option pour vérifier la structure ou convertir un PDF. qpdf est un outil utilisé pour vérifier la structure des fichiers PDF et les convertir ; sa documentation officielle permet de consulter son usage.
URL: https://qpdf.readthedocs.io/
Cependant, utiliser un outil ne rend pas automatiquement le fichier sûr.
Il faut lire les informations affichées, puis revérifier après suppression ou régénération.
Vérification avant publication
Avant de publier un PDF, vérifiez dans l'ordre suivant.
| Ordre | Ce qu'il faut vérifier | Raison |
|---|---|---|
| 1 | Regarder le créateur et la date de création | Vérifier que cela ne se relie pas à la personne ou à l'heure de travail |
| 2 | Regarder les annotations et commentaires | Vérifier que le processus d'édition ou les personnes liées ne restent pas |
| 3 | Vérifier les zones caviardées | Voir si le texte dessous reste présent |
| 4 | Regarder les fichiers intégrés et images | Vérifier qu'aucune donnée d'origine ou autre fichier ne reste |
| 5 | Regarder le nom du fichier | Vérifier qu'aucun nom, service ou nom de projet ne reste |
| 6 | Revérifier après suppression | Confirmer que le traitement a réussi |
Le PDF est un format qui se copie facilement après publication.
La vérification avant publication est donc importante.
Décider de ne pas publier un PDF
Pour un PDF à haut risque, la suppression ou la conversion peut ne pas suffire.
Le contenu même du document peut réduire le cercle des sources possibles.
Par exemple, si une chronologie connue seulement des personnes présentes à une réunion, des abréviations propres à un service ou des différences de formulation selon les destinataires restent, le cercle des candidats se réduit même après suppression des métadonnées.
Dans ce cas, il faut envisager de ne pas publier le PDF tel quel : résumer le contenu, généraliser les expressions propres, faire vérifier seulement le nécessaire par une personne ou structure de confiance, ou porter le document à un spécialiste ou un organisme d'aide.
Dans l'anonymat, rendre le fichier propre et pouvoir le publier sont deux questions différentes.
Résumé
Les PDF semblent sûrs parce que leur apparence est fixe, mais ils peuvent conserver en interne le créateur, la date de création, les annotations, les éléments intégrés et le texte caché.
La conversion en PDF seule ne complète pas l'anonymat.
Il faut faire particulièrement attention au caviardage, aux annotations, aux informations d'organisation, aux numéros de diffusion et aux noms de fichier.
Les outils comme ExifTool et qpdf aident à vérifier, mais la sécurité ne se décide pas au seul nom de l'outil.
Avant publication, vérifiez ensemble l'apparence, les informations internes, le nom de fichier et le résultat après suppression.
Outils liés
ExifTool
Ressource externe liée à cet article. Ouvrez-la seulement si elle correspond à votre situation et à votre modèle de menace.
Pourquoi il est listé ici: Elle peut aider sur le sujet de l’article, mais elle se situe hors d’Anonymity Sense et doit être vérifiée avant usage.
URL : https://exiftool.org/
MAT2
Ressource externe liée à cet article. Ouvrez-la seulement si elle correspond à votre situation et à votre modèle de menace.
Pourquoi il est listé ici: Elle peut aider sur le sujet de l’article, mais elle se situe hors d’Anonymity Sense et doit être vérifiée avant usage.
qpdf
Ressource externe liée à cet article. Ouvrez-la seulement si elle correspond à votre situation et à votre modèle de menace.
Pourquoi il est listé ici: Elle peut aider sur le sujet de l’article, mais elle se situe hors d’Anonymity Sense et doit être vérifiée avant usage.