Métadonnées dans les fichiers PDF, Office, vidéo et audio
Les informations des images sont bien connues. Cependant, les métadonnées auxquelles il faut faire attention pour l'anonymat ne se limitent pas aux images.
Les PDF, documents Office, vidéos, fichiers audio et fichiers compressés peuvent aussi conserver des noms d'auteur, des historiques de modification, le logiciel utilisé, des dates et heures de prise de vue ou d'enregistrement, des informations de balises, des commentaires, des noms de fichiers internes et d'autres informations similaires.
Même si vous pensez avoir supprimé quelque chose visuellement, d'autres informations peuvent rester à l'intérieur du fichier. De plus, même si vous supprimez les métadonnées, l'identité ou l'appartenance peuvent encore être déduites du texte, de l'arrière-plan, de l'audio, du texte visible à l'écran ou du nom de fichier.
Cet article organise, par format de fichier, les informations qui ont tendance à rester et les points à vérifier avant publication.
Les métadonnées sont des informations autour d'un fichier
Les métadonnées sont des informations attachées au fichier lui-même.
Indépendamment du texte du document ou de l'image elle-même, elles peuvent inclure l'auteur, la date et l'heure de création, le logiciel d'édition, les informations de localisation, l'historique des modifications, les commentaires et d'autres informations similaires.
Pour l'anonymat, les métadonnées deviennent des indices forts. En effet, même si aucun nom n'est écrit dans le texte, un nom d'auteur ou d'organisation peut rester à l'intérieur du fichier.
| Format | Informations qui ont tendance à rester | Attention |
|---|---|---|
| Auteur, logiciel de création, annotations, fichiers intégrés | Faire attention au traitement du caviardage et des annotations | |
| Documents Office | Auteur, nom de l'entreprise, historique des modifications, commentaires | Des feuilles masquées et des informations de révision restent |
| Vidéo | Date et heure de prise de vue, informations sur l'appareil, informations de localisation, logiciel d'édition | L'audio et les arrière-plans sont aussi des indices |
| Audio | Balises ID3, date et heure d'enregistrement, informations sur l'application | Vérifier aussi les voix et les sons d'arrière-plan |
| Fichiers compressés | Noms de fichiers internes, noms de dossiers, fichiers inutiles | Des données de travail en cours peuvent être mélangées |
Les métadonnées se présentent différemment selon le format de fichier. Il vaut donc mieux ne pas conclure que tout est sûr avec une seule méthode de vérification.
Informations à surveiller dans les PDF
Le PDF est un format pratique pour distribuer des documents. Cependant, la prudence est nécessaire lorsque l'on publie des documents anonymement.
Les PDF peuvent conserver des noms d'auteur, des dates et heures de création, le logiciel de création, des titres, des annotations, des fichiers intégrés, des informations de formulaire et d'autres données similaires.
De plus, même si quelque chose semble caviardé visuellement, les informations textuelles d'origine peuvent rester à l'intérieur. Si l'on se contente de superposer un rectangle noir comme image, le texte d'origine peut parfois être extrait par copie ou par recherche.
| Élément à vérifier | Raison |
|---|---|
| Propriétés du document | Le nom de l'auteur et le logiciel de création restent |
| Annotations | Des commentaires et notes d'édition sont visibles |
| Fichiers intégrés | Des documents d'origine ou données inutiles sont inclus |
| Traitement du caviardage | Vérifier que le texte d'origine ne reste pas en interne |
| Nom de fichier | Des noms d'affaire, d'organisation ou des vrais noms peuvent être inclus |
Les PDF semblent prêts pour la publication, mais leur structure interne n'est pas forcément sûre. Pour des documents à haut risque, vérifiez avec des outils locaux et régénérez-les sous une forme plus sûre si nécessaire.
Informations à surveiller dans les documents Office
Les documents Office tels que Word, Excel et PowerPoint sont des formats où l'historique de travail a tendance à rester.
Ils peuvent contenir des noms d'auteur, des noms d'entreprise, des historiques de modification, des commentaires, des feuilles masquées, des modèles, des liens, l'historique de coédition et d'autres informations similaires.
Pour des documents de lanceur d'alerte ou de reportage, transmettre des documents Office tels quels demande une attention particulière. En effet, non seulement le contenu du document, mais aussi la personne qui l'a créé et l'environnement organisationnel dans lequel il a été modifié peuvent rester.
| Élément à vérifier | Informations visibles |
|---|---|
| Auteur | Nom personnel ou nom de compte |
| Nom de l'entreprise | Organisation d'appartenance ou paramètres de l'appareil |
| Historique des modifications | Qui a modifié quelle partie |
| Commentaires | Conversations internes ou traces de décisions |
| Feuilles masquées | Données non affichées |
| Liens | Chemins internes ou URL cloud |
Pour les documents Office, il est important de ne pas juger uniquement à partir de la page visible. Lorsque vous préparez une version de publication, supprimez les historiques inutiles, exportez dans un autre format, puis vérifiez de nouveau.
Informations à surveiller dans les vidéos
Avec les vidéos, il faut faire attention à la fois aux métadonnées et au contenu.
À l'intérieur du fichier, la date et l'heure de prise de vue, les informations sur l'appareil, les informations de localisation, le logiciel d'édition et les informations d'encodage peuvent rester. En outre, la vidéo elle-même peut montrer des visages, des arrière-plans, des panneaux, des uniformes, des véhicules, des reflets de fenêtres, des notifications et des noms de compte à l'écran.
Comme la vidéo contient plus d'informations que les images fixes, la vérification de l'anonymat devient aussi plus difficile.
| Élément à vérifier | Raison |
|---|---|
| Date et heure de prise de vue | Se relie à l'heure d'une action ou à une participation sur place |
| Informations de localisation | Le lieu de prise de vue devient identifiable |
| Informations sur l'appareil | Le modèle utilisé ou l'environnement d'édition est visible |
| Arrière-plan | Les bâtiments, panneaux et paysages révèlent le lieu |
| Audio | Les voix, sons ambiants et conversations deviennent des indices |
| Notifications | Des noms de compte ou contacts peuvent être visibles |
Dans les vidéos, la vérification du contenu reste nécessaire même si les métadonnées sont supprimées. Même dans une courte vidéo, quelques secondes d'arrière-plan ou de son peuvent permettre de déduire un lieu ou une personne.
Informations à surveiller dans l'audio
Les fichiers audio ont aussi des métadonnées.
Les MP3 et formats similaires peuvent contenir des informations de balises comme le titre, l'artiste, l'album, le logiciel de création et des commentaires. Des informations sur l'application d'enregistrement ou le logiciel d'édition peuvent aussi rester.
Avec l'audio, le contenu lui-même est également un indice fort. Des personnes ou des lieux peuvent être déduits de la voix, de la manière de parler, du dialecte, des sons d'arrière-plan, des sons de notification, des annonces de gare, des bruits de voiture, de la réverbération d'une pièce et d'autres détails similaires.
| Élément à vérifier | Raison |
|---|---|
| Balises ID3 | Le titre ou les informations d'auteur restent |
| Date et heure d'enregistrement | Peut être comparée à l'heure d'une action |
| Application de création | Devient un indice sur l'environnement d'utilisation |
| Voix | Révèle la personne elle-même ou des personnes concernées |
| Sons d'arrière-plan | Révèlent un lieu ou une situation |
Lorsque l'on publie de l'audio anonymement, la suppression des métadonnées ne suffit pas. Vérifiez aussi le timbre de la voix, la manière de parler et les sons d'arrière-plan.
Informations à surveiller dans les fichiers compressés
Les fichiers compressés comme les fichiers ZIP sont utilisés lorsque l'on transmet plusieurs fichiers ensemble.
Dans les fichiers compressés, faites attention aux noms de fichiers internes, aux noms de dossiers, aux fichiers inutiles et aux données de travail en cours.
Par exemple, même si vous pensiez n'inclure que le PDF à publier, le même dossier peut aussi contenir le document Office d'origine, des notes, des captures d'écran ou des fichiers cachés. Les noms de dossiers peuvent aussi inclure un vrai nom, un nom d'affaire ou un nom d'entreprise.
Vérifiez toujours le contenu d'un fichier compressé quand vous l'ouvrez.
Procédure de vérification de base
Le déroulement de la vérification est commun quel que soit le format de fichier.
| Étape | À vérifier |
|---|---|
| 1 | Ne pas publier directement le fichier d'origine |
| 2 | Créer une copie de publication |
| 3 | Vérifier le nom de fichier |
| 4 | Vérifier les métadonnées |
| 5 | Vérifier le texte, les images, l'audio et les arrière-plans |
| 6 | Revérifier après suppression ou conversion |
| 7 | Vérifier comment la destination de téléversement l'affiche à l'autre partie |
Des outils comme ExifTool sont utilisés pour vérifier les métadonnées dans plusieurs formats.
ExifTool est un outil local représentatif qui permet de vérifier et de modifier les métadonnées de plusieurs formats, notamment les images, les vidéos et les documents. Lorsque l'on apprend les différences entre formats de fichier, il sert aussi de point d'entrée pour vérifier quelles informations sont réellement présentes. URL : https://exiftool.org/
Cependant, ne vous arrêtez pas aux seuls résultats de l'outil. Les outils aident à vérifier les informations internes, mais il faut vérifier séparément les arrière-plans d'image, le texte du document, le contenu audio et l'affichage du propriétaire à la destination de téléversement.
Résumé
Les métadonnées ne sont pas seulement un problème d'images.
Les PDF, documents Office, vidéos, fichiers audio et fichiers compressés peuvent aussi conserver l'auteur, l'historique des modifications, le logiciel de création, des balises, des informations de localisation, des noms de fichiers internes et d'autres informations similaires.
Pour l'anonymat, vérifiez séparément le contenu du fichier et les métadonnées. Même si vous supprimez les métadonnées, l'identité ou l'appartenance peuvent être déduites du texte, de l'arrière-plan, de l'audio, des reflets, du nom de fichier et des paramètres de partage.
Avant publication, ne transmettez pas directement le fichier d'origine: créez une copie de publication, vérifiez selon le format, puis revérifiez après suppression. Il faut considérer que transmettre un fichier peut aussi transmettre non seulement le texte, mais l'environnement de création et le chemin de partage.
Outils liés
Wayback Machine
Ressource externe liée à cet article. Ouvrez-la seulement si elle correspond à votre situation et à votre modèle de menace.
Pourquoi il est listé ici: Elle peut aider sur le sujet de l’article, mais elle se situe hors d’Anonymity Sense et doit être vérifiée avant usage.
URL : https://web.archive.org/
ExifTool
Ressource externe liée à cet article. Ouvrez-la seulement si elle correspond à votre situation et à votre modèle de menace.
Pourquoi il est listé ici: Elle peut aider sur le sujet de l’article, mais elle se situe hors d’Anonymity Sense et doit être vérifiée avant usage.
URL : https://exiftool.org/
MAT2
Ressource externe liée à cet article. Ouvrez-la seulement si elle correspond à votre situation et à votre modèle de menace.
Pourquoi il est listé ici: Elle peut aider sur le sujet de l’article, mais elle se situe hors d’Anonymity Sense et doit être vérifiée avant usage.
qpdf
Ressource externe liée à cet article. Ouvrez-la seulement si elle correspond à votre situation et à votre modèle de menace.
Pourquoi il est listé ici: Elle peut aider sur le sujet de l’article, mais elle se situe hors d’Anonymity Sense et doit être vérifiée avant usage.
FFmpeg
Ressource externe liée à cet article. Ouvrez-la seulement si elle correspond à votre situation et à votre modèle de menace.
Pourquoi il est listé ici: Elle peut aider sur le sujet de l’article, mais elle se situe hors d’Anonymity Sense et doit être vérifiée avant usage.
URL : https://ffmpeg.org/