Que voit un site web lorsque vous y accédez ?

Réseau

Que voit un site web lorsque vous y accédez ?

Lorsque vous accédez à un site web, penser « je suis anonyme tant que je n'ai pas saisi mon nom » n'est pas exact.

Plusieurs informations autres que le nom peuvent parvenir au site web. Adresse IP source, heure d'accès, URL consultée, User-Agent, cookies, état de connexion, référent, caractéristiques du navigateur ou de l'appareil, etc.

Prises séparément, ces informations ne désignent pas toujours directement un nom de personne. Mais lorsqu'elles sont combinées, elles peuvent être reliées comme le comportement d'un même utilisateur, ou servir à déduire l'environnement d'utilisation.

Pour réfléchir à l'anonymat, la question importante n'est pas « ai-je saisi mon vrai nom ? », mais « quelles informations sont visibles par l'autre partie, et quelles informations peuvent être reliées ? ».

Informations susceptibles d'être visibles côté site web

Pour afficher un site web, le navigateur envoie une requête au serveur. Le serveur traite cette requête et renvoie du HTML, du CSS, des images, du JavaScript, des réponses d'API, etc.

À ce moment-là, les informations nécessaires à la communication et au traitement arrivent côté site web. Ici, le « côté site web » peut inclure non seulement le serveur de l'exploitant du site, mais aussi un CDN, un reverse proxy, un système d'analyse d'accès, une régie publicitaire, une infrastructure d'authentification, etc.

Information	Ce qu'elle indique	Lien avec l'anonymat
Adresse IP source	Information indiquant le réseau d'origine	Peut servir à déduire la ligne, la région, l'organisation ou les changements de source
Heure d'accès	Quand l'accès a eu lieu	Peut servir à rapprocher des comportements ou d'autres journaux
URL	Quelle page ou API a été consultée	Peut rendre visibles le contenu consulté, les conditions de recherche ou l'objet de l'opération
User-Agent	Chaîne indiquant le navigateur, l'OS, le type d'appareil, etc.	Peut servir à déduire l'environnement d'utilisation
	Donnée enregistrée dans le navigateur et envoyée si les conditions correspondent	Sert aux revisites depuis le même navigateur, à l'état de connexion et à la conservation de réglages
État de connexion	État où un compte et une session sont associés	Le contenu consulté peut être lié au compte
Référent	Information indiquant depuis quelle page l'utilisateur est arrivé	La source d'arrivée ou le trajet de navigation précédent peut être visible
Caractéristiques du navigateur et de l'appareil	Taille d'écran, langue, fuseau horaire, fonctions prises en charge, etc.	En combinaison avec d'autres informations, peuvent devenir des indices d'identification

Tous les sites web n'enregistrent pas ces informations de la même manière. De plus, les informations visibles changent selon les réglages du navigateur, la conception du site, la politique de sécurité, les réglages de cookies et la présence ou non de JavaScript.

Toutefois, lorsque l'on réfléchit à l'anonymat, il faut les connaître comme des « informations pouvant être visibles ».

Adresse IP source

Lorsque vous accédez à un site web, l'adresse IP source est normalement visible par la destination. L'adresse IP est une information nécessaire pour établir la communication sur Internet.

Une adresse IP ne permet pas toujours de connaître un nom personnel ou une adresse exacte. Mais elle peut permettre de déduire l'opérateur utilisé, la région de connexion, ou la possibilité qu'il s'agisse d'un réseau d'entreprise, d'école ou d'organisme public.

De plus, sur les lignes domestiques et les lignes de smartphone, plusieurs personnes peuvent partager une même adresse IP globale. Il n'est donc pas toujours possible de conclure qu'une seule personne correspond à une adresse IP.

En revanche, lorsqu'elle est combinée à l'heure d'accès, aux cookies, à l'état de connexion, au User-Agent, etc., l'adresse IP devient un indice fort pour l'identification ou le rapprochement. Dans l'anonymat, l'adresse IP est importante, mais regarder seulement l'adresse IP ne suffit pas.

Heure d'accès

Le site web peut enregistrer dans ses journaux l'heure à laquelle l'accès a eu lieu. L'heure d'accès n'indique pas à elle seule un nom personnel, mais elle prend du sens lorsqu'elle est combinée à d'autres enregistrements.

Par exemple, un enregistrement d'accès à une page précise à une heure précise, un journal de connexion, un journal de paiement, un enregistrement de demande, un cookie et une adresse IP peuvent être combinés pour déduire des liens de comportement.

Pour l'anonymat, il est important de savoir non seulement « à quoi on a accédé », mais aussi « quand on y a accédé ». L'information temporelle devient facilement un axe pour rapprocher plusieurs journaux.

URL

Le site web voit quelle URL a été consultée. En particulier, le chemin de l'URL et les paramètres de requête peuvent contenir des informations liées au contenu consulté ou à l'opération.

Par exemple, supposons l'URL suivante.

https[:]//example.com/search?q=privacy

Dans ce cas, le site web peut savoir que /search a été consulté et que la condition de recherche q=privacy était présente.

Ici, example.com est un nom de domaine souvent utilisé pour les exemples. Il ne s'agit pas de présenter un site précis réel, mais d'une chaîne utilisée pour expliquer la structure d'une URL.

Une URL peut contenir des mots de recherche, des ID d'article, des ID de produit, des ID d'utilisateur, des ID de campagne, des paramètres de suivi, etc. L'URL n'est donc pas seulement l'adresse d'une page ; elle peut représenter une partie du contenu de l'accès.

Toutefois, le fragment après # dans une URL n'est normalement pas envoyé au serveur dans une requête HTTP ordinaire. Par exemple, dans https[:]//example.com/page#section1, #section1 est une partie principalement utilisée côté navigateur.

Il est donc aussi important de distinguer quelles parties d'une URL arrivent au serveur.

User-Agent

Le User-Agent est un type d'en-tête de requête que le navigateur envoie au serveur. Il peut contenir le nom du navigateur, l'OS, le type d'appareil, le moteur de rendu, la version, etc.

Un site web peut utiliser le User-Agent pour basculer entre l'affichage PC et smartphone ou pour juger de la prise en charge d'un ancien navigateur.

Le User-Agent seul ne permet pas forcément d'identifier une personne. Mais combiné à l'adresse IP, aux cookies, à l'heure d'accès, aux réglages de langue, à la taille d'écran, à l'état de connexion, etc., il devient un élément permettant de distinguer l'environnement d'utilisation.

Ces dernières années, il existe des mouvements visant à réduire la quantité d'information du User-Agent pour protéger la vie privée. Toutefois, cela ne signifie pas que le User-Agent et les informations de navigateur similaires deviennent sans lien avec l'anonymat.

Cookie

Un cookie est une donnée qu'un site web fait enregistrer par le navigateur et qui est renvoyée lors des requêtes correspondant aux conditions. Il sert au maintien de l'état de connexion, au panier d'achat, aux réglages d'affichage, à l'analyse d'accès, à la gestion de session, etc.

Avec un cookie, le site web peut juger qu'il s'agit peut-être du même navigateur que lors d'un accès précédent. Ainsi, même sans saisir de nom, l'accès peut être traité comme une revisite depuis le même navigateur.

Ce qui est particulièrement important pour l'anonymat, c'est que même si l'adresse IP change, un cookie restant peut relier les accès comme venant du même utilisateur.

Par exemple, après avoir accédé à un site web, si vous y accédez de nouveau depuis un autre réseau mais que le même cookie est envoyé, le site web peut juger qu'il s'agit d'une revisite du même navigateur.

Un cookie n'est pas un « nom ». Mais il peut servir à une identification continue, ce qui en fait une information très importante pour l'anonymat.

État de connexion

L'état de connexion est un élément d'identification très fort pour l'anonymat.

Si vous êtes connecté à un site web, les contenus consultés et les opérations effectuées peuvent être liés au compte. Même si vous n'avez pas saisi votre vrai nom, ils peuvent être liés à un ID de compte, une adresse e-mail, un numéro de téléphone, des informations de paiement, un historique d'utilisation passé, etc.

De plus, l'état de connexion est souvent maintenu par des cookies ou des informations de session. Autrement dit, cookies et état de connexion sont des concepts distincts, mais dans l'usage réel du Web, ils sont étroitement liés.

Pour réfléchir à l'anonymat, « je n'ai pas saisi mon vrai nom, donc ça va » ne suffit pas. Dès lors que vous êtes connecté, vos actions peuvent être traitées au niveau du compte.

Référent

Le référent est une information indiquant la page consultée avant d'aller vers une autre page. En HTTP, il peut être envoyé comme en-tête Referer.

Par exemple, si vous passez depuis des résultats de recherche, un réseau social, un forum ou une page d'article vers un autre site web, le site de destination peut connaître le référent.

Si le référent est visible, le site web peut déduire « d'où vient l'utilisateur ». Dans certains cas, des mots de recherche, un nom de page, des informations de campagne ou le contexte de navigation immédiatement précédent peuvent être visibles.

Toutefois, le référent n'est pas toujours envoyé complètement. Selon les spécifications du navigateur, Referrer-Policy, le traitement HTTPS, les attributs du lien et les réglages côté site, il peut ne pas être envoyé ou n'être envoyé qu'en partie.

Il est donc exact de comprendre le référent non comme une « information toujours visible », mais comme une « information pouvant être visible selon les conditions ».

Caractéristiques du navigateur et de l'appareil

Un site web peut utiliser les caractéristiques du navigateur et de l'appareil pour afficher correctement la page. La taille d'écran, les réglages de langue, le fuseau horaire, les polices prises en charge, les API prises en charge, le mode de saisie, les performances de l'appareil, etc. peuvent intervenir.

Si JavaScript est activé, les informations pouvant être obtenues côté navigateur peuvent augmenter. Ces informations peuvent être utilisées pour optimiser l'affichage, analyser les erreurs, lutter contre les abus ou mesurer les accès.

Le point important ici est que même si chaque information semble petite, leur combinaison peut faire ressortir fortement les caractéristiques de l'environnement d'utilisation.

Nous n'entrons pas ici dans les détails du fingerprinting du navigateur. Mais comme entrée pour réfléchir à l'anonymat, il faut comprendre que les caractéristiques du navigateur et de l'appareil peuvent aussi devenir des éléments d'identification.

Même avec HTTPS, la requête arrive côté site web

HTTPS est un mécanisme qui chiffre la communication entre le navigateur et le serveur de destination. Il a pour rôle de rendre plus difficile l'écoute ou la modification du contenu par des tiers sur le trajet de communication.

Cependant, HTTPS n'est pas un « mécanisme qui rend tout invisible côté site web ».

Pour afficher un site web, le serveur doit recevoir la requête, traiter son contenu et renvoyer une réponse. Ainsi, même avec HTTPS, le serveur de destination traite le contenu de la requête, les cookies, l'état de connexion, l'heure d'accès, etc.

Autrement dit, HTTPS a une grande importance pour la protection pendant le trajet. En revanche, ce n'est pas un mécanisme qui rend anonyme vis-à-vis du site consulté.

Comprendre « HTTPS signifie anonyme » est une erreur. HTTPS est important comme technologie de sécurité, mais il doit être pensé séparément de l'anonymat.

Informations enregistrées dans les journaux serveur

Un serveur web peut enregistrer des journaux d'accès. Le contenu des journaux change selon le logiciel serveur et les réglages, mais il peut généralement inclure la source d'accès, l'heure, la requête, le code de statut, la quantité transférée, etc.

Selon les réglages, le User-Agent et le référent peuvent aussi être enregistrés.

Information pouvant être contenue dans les journaux	Signification	Point d'attention
Source d'accès	Adresse IP source ou informations de proxy	La visibilité peut changer avec une configuration CDN ou reverse proxy
Heure	Date et heure du traitement de la requête	Devient facilement un axe de rapprochement avec d'autres journaux
Ligne de requête	Méthode HTTP, chemin, version HTTP, etc.	Peut inclure le chemin et la requête de l'URL
Code de statut	Résultat comme 200, 404, 500	Utilisé pour analyser succès, échec ou erreur d'accès
User-Agent	Informations sur le navigateur ou l'OS	Peut servir à déduire l'environnement d'utilisation
Référent	Page d'où vient l'utilisateur	Peut ne pas être envoyé, ou n'être envoyé qu'en partie, selon la politique

Les journaux servent à l'exploitation du site, aux enquêtes d'incident, à la surveillance de sécurité, à la lutte contre les abus, à l'analyse d'accès, etc. Du point de vue de l'anonymat, il est important de comprendre sous quelle forme le fait d'avoir accédé à un site web peut être enregistré.

Ce n'est pas l'information isolée, mais la combinaison qui compte

Lorsque l'on réfléchit à l'anonymat, il est facile de mal juger si l'on se concentre sur une seule information.

Même si l'adresse IP est cachée, si un cookie reste, l'accès peut être traité comme venant du même navigateur. Si vous êtes connecté, le contenu consulté peut être lié au compte. Le User-Agent et les caractéristiques du navigateur deviennent des éléments pour distinguer l'environnement lorsqu'ils sont combinés à d'autres informations. Le référent et l'URL peuvent indiquer dans quel contexte et à quoi on a accédé.

Combinaison d'informations	Visibilité	Effet sur l'anonymat
Adresse IP + heure d'accès	Quand et depuis quel réseau l'accès a eu lieu	Peut être rapproché d'autres enregistrements
Cookie + adresse IP	Même si l'adresse IP change, le même navigateur peut être reconnu	Le simple changement de réseau peut ne pas suffire à séparer les accès
État de connexion + URL consultée	Ce que le compte a consulté	Le comportement peut être lié au compte
User-Agent + caractéristiques de l'appareil	Les caractéristiques de l'environnement d'utilisation sont visibles	Devient un élément de distinction avec d'autres informations
Référent + URL de destination	D'où l'utilisateur est venu et ce qu'il a consulté	Le contexte de navigation et les centres d'intérêt peuvent être déduits

Dans l'anonymat, il ne faut pas juger isolément en se disant « cette information seule ne pose pas de problème » ; il faut penser aux liens entre informations.

Résumé

Lorsque vous accédez à un site web, plusieurs informations peuvent être visibles côté site même si vous n'avez pas saisi de nom.

Adresse IP source, heure d'accès, URL, User-Agent, cookies, état de connexion, référent, caractéristiques du navigateur et de l'appareil sont importants pour réfléchir à l'anonymat.

Ces informations ne désignent pas toujours directement une personne prises séparément. Mais lorsqu'elles sont combinées, elles peuvent être traitées comme le comportement d'un même utilisateur ou reliées à un compte ou à un navigateur.

Ce qui est particulièrement important, c'est de ne pas penser qu'il suffit de cacher l'adresse IP. Les cookies, l'état de connexion, le User-Agent, le référent, les caractéristiques du navigateur et de l'appareil peuvent aussi devenir des éléments d'identification ou de rapprochement.

Pour comprendre l'anonymat, il faut d'abord savoir ce qui parvient à l'autre partie lorsque l'on accède à un site web. Ensuite, il est important de regarder non pas les informations isolées, mais la manière dont plusieurs informations se combinent.