Anonymisation vs. pseudonymisation : le guide RGPD clair
Anonymisation et pseudonymisation sous le RGPD : définitions légales, réversibilité, périmètre, tableau comparatif et idées reçues à éviter. Citez-le en toute confiance.
Dans les réunions de conformité, les présentations de fournisseurs et même les politiques internes, les termes « anonymisation » et « pseudonymisation » sont souvent utilisés comme synonymes. Ce sont pourtant deux notions très différentes, que le RGPD traite de manière radicalement distincte. L'une peut faire sortir vos données du champ de la réglementation ; l'autre, jamais — quelle que soit la solidité technique de la mesure.
Ce guide remet les pendules à l'heure. Il couvre les définitions légales issues du RGPD, le rôle central de la réversibilité, les conditions exactes dans lesquelles chaque technique fait sortir les données du périmètre, un tableau comparatif, ainsi que les idées reçues qui font trébucher même les équipes les plus rigoureuses. L'objectif : un document que vous pouvez citer et invoquer lors de la conception d'un traitement ou face à un régulateur.
En résumé
- La pseudonymisation remplace les identifiants par des jetons réversibles. Les données restent des données personnelles et demeurent entièrement soumises au RGPD (article 4(5), considérant 26).
- L'anonymisation supprime le lien avec une personne de sorte que la réidentification n'est plus raisonnablement possible. Les données véritablement anonymes sont hors du périmètre du RGPD (considérant 26).
- La ligne de partage est la réversibilité : si une clé, un mapping ou une information complémentaire peut rétablir l'identité, il s'agit de pseudonymisation — pas d'anonymisation.
- Vous pouvez produire dès maintenant des fichiers anonymisés de façon irréversible : les données sensibles sont localisées, puis supprimées de manière déterministe, sans aucune clé conservée.
Les deux définitions, directement tirées du RGPD
Ces termes ne relèvent pas du vocabulaire marketing — ce sont des catégories juridiques qui déterminent quelles obligations s'appliquent.
Pseudonymisation (article 4(5))
Le RGPD définit la pseudonymisation comme le traitement de données personnelles de telle sorte qu'elles ne puissent plus être attribuées à une personne précise sans recourir à des informations supplémentaires, à condition que ces informations soient conservées séparément et protégées. L'exemple classique : remplacer le nom d'un client par USR_48213 tout en maintenant une table de correspondance sécurisée qui associe le jeton à la personne.
La caractéristique essentielle est que le lien existe toujours. Il a été séparé et protégé, mais il peut être rétabli. C'est pourquoi la pseudonymisation est une mesure de sécurité et de minimisation des données, explicitement encouragée par l'article 32, mais jamais une porte de sortie de la réglementation.
Anonymisation (considérant 26)
L'information anonyme est définie par ce qu'elle n'est pas : des données qui ne se rapportent pas à une personne physique identifiée ou identifiable, ou des données personnelles rendues anonymes de façon que la personne ne soit plus identifiable. Les principes de protection des données du RGPD « ne s'appliquent pas aux informations anonymes ».
La condition décisive posée par le considérant 26 est le test des « moyens raisonnablement susceptibles d'être utilisés » : pour déterminer si une personne est identifiable, il faut tenir compte de tous les moyens raisonnablement susceptibles d'être utilisés par le responsable du traitement ou par toute autre personne — en prenant en compte le coût, le temps et la technologie disponible. L'anonymisation n'est donc pas une technique unique, mais un résultat : la réidentification n'est plus raisonnablement possible.
La réversibilité, c'est tout
Si vous ne retenez qu'une chose, retenez celle-ci : la réversibilité détermine la catégorie juridique.
- S'il existe une clé, un sel, un mapping, une table de correspondance ou toute « information supplémentaire » susceptible de relier les données à une personne → il s'agit de pseudonymisation, et les données sont des données personnelles.
- Si les informations identifiantes d'origine ont été détruites et ne peuvent pas être récupérées par des moyens raisonnables → il s'agit d'anonymisation, et le résultat peut échapper au champ du RGPD.
C'est pourquoi le chiffrement n'est pas une anonymisation. Les données personnelles chiffrées sont le cas d'école de la pseudonymisation : le texte chiffré est illisible sans la clé, mais la clé existe et le texte clair peut être rétabli. Le chiffrement fort est une excellente mesure de sécurité. Ce n'est pas une sortie du RGPD.
La même logique s'applique aux médias. Flouter un visage avec un filtre réversible, ou couper un son avec une couche qu'on peut retirer, est au mieux de la pseudonymisation. Détruire ces pixels ou ces échantillons de façon permanente, voilà de l'anonymisation. Le critère est toujours : quelqu'un peut-il, par des moyens raisonnables, retrouver l'original ?
Quand chaque technique fait-elle sortir les données du périmètre ?
C'est la question qui compte vraiment pour la planification de la conformité.
| Aspect | Pseudonymisation | Anonymisation |
|---|---|---|
| Base juridique RGPD | Article 4(5), article 32 | Considérant 26 |
| Encore des données personnelles ? | Oui | Non (si véritablement anonymes) |
| Dans le périmètre du RGPD ? | Toujours | Hors périmètre |
| Réversible ? | Oui — par conception, avec la clé | Non — le lien est détruit |
| Clé / mapping conservé ? | Oui, stocké séparément | Aucun |
| Finalité principale | Réduire le risque, permettre un usage sécurisé | Sortir la donnée du champ réglementaire |
| Risque de réidentification | Présent (contrôlé) | Négligeable / nul par des moyens raisonnables |
| Techniques typiques | Tokenisation, chiffrement, identifiants codés | Destruction, agrégation, k-anonymat, généralisation |
La pseudonymisation ne retire jamais les données du périmètre. Elle réduit le risque, facilite l'atténuation des violations et peut alléger certaines obligations, mais toutes les exigences du RGPD — base légale, durées de conservation, droits des personnes concernées — s'appliquent toujours.
L'anonymisation fait sortir les données du périmètre uniquement lorsque le seuil fixé par le considérant 26 est véritablement atteint. Ce seuil est élevé. Il est apprécié au regard de tous les moyens raisonnablement susceptibles d'être utilisés par n'importe qui, pas seulement par vous, et il doit tenir dans le temps à mesure que les techniques de réidentification progressent. Un jeu de données « anonyme » aujourd'hui peut retomber dans la catégorie des données personnelles si de nouvelles données auxiliaires rendent la réidentification faisable à l'avenir.
Un aide à la décision pratique
- Existe-t-il une clé, un sel, un mapping ou une sauvegarde permettant de rétablir l'identité ? → pseudonymisation.
- Un tiers motivé pourrait-il relier les enregistrements à d'autres jeux de données disponibles ? → pas encore anonyme.
- Des quasi-identifiants (code postal + date de naissance + sexe, intitulés de poste rares, horodatages précis) sont-ils encore présents et uniques ? → le risque de réidentification subsiste.
- Le contenu identifiant d'origine a-t-il été détruit, sans rien conserver pour l'inverser ? → candidat à une véritable anonymisation.
Idées reçues à déconstruire
« Nous avons supprimé les noms, c'est donc anonyme »
L'erreur la plus coûteuse qui soit. Supprimer les identifiants directs laisse subsister des quasi-identifiants qui, combinés, permettent souvent de singulariser des individus. Des études de réidentification célèbres ont montré qu'un petit nombre d'attributs — code postal, date de naissance et sexe — suffit à identifier de façon unique une grande partie de la population. Supprimer les noms est un point de départ, pas une ligne d'arrivée.
« Le chiffrement équivaut à l'anonymisation »
Non. Les données chiffrées sont des données pseudonymisées : la clé permet de retrouver l'original. Le chiffrement protège les données ; il ne les fait pas sortir du périmètre du RGPD.
« Le hachage rend les données anonymes »
Hacher des identifiants (adresses e-mail, numéros de téléphone) est une pseudonymisation, pas une anonymisation. L'espace d'entrée est souvent suffisamment restreint pour être attaqué par force brute ou par dictionnaire, et un hash est un jeton stable qui continue de relier les enregistrements à la même personne. Tant que le hash n'est pas salé, supprimé et irrécupérable, le lien persiste.
« Les données pseudonymisées ont moins d'obligations »
Il existe quelques assouplissements ponctuels, mais il s'agit toujours de données personnelles avec tout le poids du RGPD derrière elles. Traiter des exports pseudonymisés comme s'ils étaient libres d'obligations est une observation d'audit fréquente.
« L'anonymisation est permanente et définitive »
L'anonymat est relatif aux moyens raisonnablement susceptibles d'être utilisés — et ces moyens évoluent. Ce qui est anonyme aujourd'hui pourrait ne pas l'être dans cinq ans. La réponse robuste consiste à détruire les données identifiantes plutôt que de simplement les masquer, de sorte qu'il n'y ait rien à relier quelle que soit la capacité technologique future.
Comment parvenir concrètement à une anonymisation irréversible
Le schéma fiable sépare deux tâches qu'il est facile de confondre :
- Localiser les données sensibles — trouver où se trouvent les informations personnelles.
- Les supprimer — détruire ces données de façon à ce qu'elles ne puissent pas être récupérées.
L'IA excelle dans la première tâche : la transcription vocale et la reconnaissance d'entités nommées localisent les noms dans l'audio, la détection d'objets repère les visages dans les vidéos, l'OCR et les règles de patterns trouvent les données personnelles dans les documents. Mais la seconde tâche ne doit jamais être confiée à un modèle, car l'édition générative est non déterministe et non auditable.
C'est le principe fondateur de la démarche de Medianonymizer pour chaque type de média : l'IA se contente de LOCALISER les données sensibles ; c'est du code déterministe qui les SUPPRIME. Des boîtes sont tracées sur les pixels, des correspondances regex + somme de contrôle identifient les identifiants structurés, des bips ou des silences remplacent les échantillons audio, et les métadonnées sont purgées au niveau des octets. Parce que la suppression est du code simple, testable, opérant sur des coordonnées et des horodatages précis, le résultat est identique à chaque exécution, irréversible et auditable — exactement les propriétés exigées par le considérant 26.
Ce principe s'applique à tous les types de médias :
- Anonymiser des enregistrements audio — localiser les données personnelles parlées, les détruire par bip ou silence sur la forme d'onde.
- Flouter des visages dans des vidéos — détecter les visages, incruster des zones irréversibles dans les images.
- Anonymiser des images et des métadonnées — occulter les pixels et supprimer les données EXIF pour ne rien laisser de réversible.
- Caviarder des données personnelles dans des documents — aplatir les caviardages pour que le texte sous-jacent disparaisse, et pas seulement soit masqué.
Pour le standard opérationnel qui sous-tend tout cela, consultez les bonnes pratiques d'anonymisation irréversible et auditable.
Ce que les équipes de conformité doivent retenir
- Utilisez la pseudonymisation lorsque vous avez besoin que les données restent utilisables et reliables de façon contrôlée — analytique sur des identifiants codés, traitement sécurisé, réduction du risque en cas de violation. Acceptez qu'elles restent dans le périmètre du RGPD.
- Utilisez l'anonymisation lorsque vous souhaitez que les données sortent définitivement du périmètre — jeux de données publiés, archives long terme, médias partagés. Acceptez qu'elle doive être véritablement irréversible et testée face à la réidentification raisonnable.
- Ne confondez jamais les deux dans vos politiques ou face aux arguments de vos fournisseurs. Le mot sur l'étiquette n'a pas d'importance ; ce qui compte, c'est de savoir si une clé ou un lien subsiste.
Anonymisez vos fichiers de façon irréversible
Si votre objectif est de disposer de données véritablement hors du périmètre du RGPD, la technique doit détruire le lien — pas le dissimuler. Déposez votre audio, vidéo, vos images ou documents, indiquez à l'assistant ce qui doit être supprimé, et téléchargez une copie où les données sensibles ont définitivement disparu, avec un journal d'audit de ce qui a été caviardé.
Questions fréquentes
- Les données pseudonymisées sont-elles encore des données personnelles au sens du RGPD ?
- Oui. Les données pseudonymisées sont explicitement des données personnelles au titre de l'article 4(5) et du considérant 26, car une clé ou une information complémentaire peut rétablir le lien avec une personne. Elles restent pleinement soumises au RGPD, même si le risque est réduit.
- Dans quelles conditions l'anonymisation fait-elle sortir les données du périmètre du RGPD ?
- Uniquement lorsque la réidentification n'est plus raisonnablement possible par qui que ce soit, compte tenu de tous les moyens susceptibles d'être utilisés et du coût et du temps que cela implique. Les données véritablement anonymes échappent entièrement au RGPD (considérant 26).
- Suffit-il de supprimer les noms pour parler d'anonymisation ?
- Non. La suppression des identifiants directs produit rarement des données anonymes : la combinaison des champs restants (code postal, date de naissance, attributs rares) permet souvent la réidentification. L'anonymisation doit traiter ce risque résiduel, pas seulement les noms.