Beaucoup d’organisations pensent avoir résolu leur problème de conformité en « masquant » les données avant de les transmettre à un outil d’IA générative.
Ce n’est souvent pas suffisant. Et la confusion entre données anonymisées et données pseudonymisées en est, la plupart du temps, la cause.
Note : cet article a été rédigé en collaboration entre l’équipe de SerendipAI et l’avocate Nina TOGOUNA, du cabinet Togouna & Tome Avocats.
Anonymisé vs. Pseudonymisé : la distinction fondamentale
Une donnée anonymisée ne permet plus, de manière irréversible, d’identifier une personne. Elle sort du champ du RGPD : aucune obligation de traitement, de consentement ou de durée de conservation ne s’applique.
Une donnée pseudonymisée consiste à remplacer les identifiants directs par un code, un numéro ou un autre identifiant de substitution, mais la clé de réidentification est conservée séparément. Elle reste une donnée personnelle à part entière dès lors que la personne concernée peut encore être identifiée, directement ou indirecte, par le recours à une information supplémentaire. Toutes les obligations du RGPD continuent de s’appliquer.
La pseudonymisation est une mesure de sécurité reconnue par le RGPD. Elle ne constitue pas une anonymisation.
Ce que sont des données personnelles
On pense souvent au nom et au prénom. La notion juridique est de portée beaucoup plus large.
Constituent des données personnelles : une adresse email, un numéro de téléphone, une adresse IP, un numéro de client ou d’employé, une photo, un enregistrement vocal, des données de localisation, un historique de navigation, un identifiant de cookie, et un point souvent sous-estimé : toute combinaison d’informations permettant d’identifier indirectement une personne.
C’est exactement ce dernier point qui crée le plus d’angles morts dans les pratiques actuelles.
Exemple 1 : Le village de 80 habitants
Imaginez une base de données de santé publiée sans nom ni prénom. Elle contient : l’âge, le sexe, le code postal et un diagnostic.
Dans une commune de 80 personnes, cette combinaison suffit souvent à identifier quelqu’un avec précision. « Femme, 67 ans, code postal 55XXX, diabète de type 2 » peut ne désigner qu’une seule personne dans ce périmètre.
La donnée n’est pas anonymisée ; elle reste une donnée personnelle, dès lors que la personne concernée peut être réidentifiée.
| Ce qui découle du RGPD (Considérant n° 26) Le risque raisonnable de réidentification est le critère qui distingue pseudonymisation et anonymisation. Dès lors que ce risque existe, même sans certitude, la donnée reste personnelle. Supprimer le nom ne suffit pas si le croisement avec d’autres données permet de retrouver l’individu. |
Exemple 2 : Le code postal comme marqueur identifiant
Au Luxembourg, certains codes postaux correspondent à des quartiers ou des rues très précises. La granularité géographique y est plus fine qu’ailleurs.
Croiser un code postal avec une information sensible comme l’appartenance religieuse, l’état de santé, l’origine ethnique ou encore l’orientation politique peut permettre d’identifier des individus au sein d’une minorité dans ce périmètre.
Le traitement de ces catégories particulières de données personnelles, dites « données sensibles » est en principe interdit par le RGPD, sauf dans des cas limitativement prévus par le RGPD (exemple : consentement exprès de la personne concernée).
| L’enjeu dans un contexte LLM Transmettre à un outil d’IA externe un jeu de données croisant des codes postaux et des caractéristiques sensibles constitue un traitement de données sensibles en principe interdit. L’absence d’identifiants directs tels que les nom et prénom ne suffit pas à exclure l’application du RGPD, dès lors que le risque de réidentification n’est pas écarté. Un tel traitement requiert une base légale spécifique au sens du RGPD. |
Ce que cela implique pour vos usages LLM
Les outils d’IA générative, même dans leur version dite « enterprise », opèrent sur des infrastructures externes à votre système d’information. Toute donnée transmise à ces outils quitte votre périmètre de contrôle.
Si la donnée est pseudonymisée et non anonymisée, elle constitue une donnée personnelle hors de l’environnement maîtrisé du responsable de traitement. Ce traitement implique notamment l’existence d’une base légale appropriée, la conclusion d’un accord de traitement des données (DPA) signé avec le prestataire, et l’inscription du traitement dans le registre des activités de traitement.
La conformité ne dépend pas uniquement du niveau de service souscrit auprès du fournisseur de l’outil d’IA générative. Elle dépend de la nature des données transmises, des obligations incombant au responsable de traitement en vertu du RGPD, et de sa capacité à en démontrer le respect.
Les vecteurs d’exposition les plus courants :
- des prompts contenant des extraits de contrats ou de dossiers clients partiellement floutés ;
- des jeux de données internes transmis pour analyse sans vérification préalable du niveau d’anonymisation réel ;
- l’usage non encadré d’interfaces grand public par les collaborateurs (ou shadow AI).
| Constat de terrain Les incidents de conformité liés aux LLM ne résultent généralement pas d’attaques sophistiquées. Ils traduisent une absence de cadre d’usage et une mauvaise qualification des données transmises. |
Ce que l’AI Act ajoute
Le RGPD encadre les obligations du responsable de traitement et, le cas échéant, de ses sous-traitants, en matière de traitement de données personnelles. L’AI Act encadre celles des fournisseurs et des déployeurs de systèmes d’IA, renforcées pour les usages qualifiés de « haut risque » comme par exemple l’évaluation de la solvabilité, la sélection ou l’évaluation de candidats, la prise de décisions médicales.
Pour ces systèmes, l’AI Act impose à la fois au fournisseur et au déployeur une documentation continue et traçable des données utilisées :
- Le fournisseur doit documenter la nature, l’origine et la protection des jeux de données d’entraînement, validation et test dans la documentation technique du marquage CE.
- Le déployeur doit documenter l’origine, l’adéquation et la protection des données qu’il utilise, et conserver cette documentation pendant toute la durée d’utilisation du système.
L’utilisation de données personnelles pseudonymisées n’exonère ni le responsable du traitement ni le sous-traitant : le croisement RGPD et de l’ AI Act impose une de qualification à double niveau : juridique et technique, dont découlent des obligations distinctes pour chacun.
En pratique, trois questions à se poser avant tout usage LLM
| Question 1 : Nature réelle de la donnée La donnée est-elle réellement anonymisée, ou seulement pseudonymisée ? Existe-t-il quelque part dans vos systèmes une clé de correspondance, ou un croisement possible avec d’autres variables permettant la réidentification ? |
| Question 2 : Périmètre du traitement L’outil opère-t-il sur une infrastructure sous votre contrôle ? Les conditions de traitement du prestataire ont-elles été vérifiées ? Un DPA est-il en place ? |
| Question 3 : Documentation et traçabilité Cet usage est-il documenté dans votre registre des traitements ? Pour les systèmes soumis à l’AI Act, la nature des données d’entrée est-elle formalisée et versionnée ? |
Pour conclure
La technologie n’est pas le risque. L’absence de qualification des données l’est.
Cette distinction n’est pas un détail juridique réservé aux équipes conformité. Elle conditionne directement la légalité d’un usage, la responsabilité de l’organisation en cas d’incident, et la robustesse du cadre de gouvernance IA mis en place.
Les organisations qui maîtrisent leurs processus de classification des données seront mieux armées pour tirer parti de ces outils. Celles qui ne les ont pas encore structurés s’exposent à une amplification de risques existants.
La technologie n’est pas le risque. L’absence de qualification des données l’est.
Digital Omnibus : vers une redéfinition du statut des données pseudonymiséees ?
La Commission européenne a proposé, dans le cadre du Digital Omnibus publié le 19 novembre 2025, de clarifier la définition de la donnée personnelle.
La proposition prévoit que certaines données pseudonymisées puissent, dans certaines situations, ne plus être considérées comme des données à caractère personnel à légard d’un destinataire ne disposant pas de moyens raisonnablement susceptibles d’être utilisés pour réidentifier les personnes concernées, notamment dans des contextes liés au développement de systèmes d’IA.
Cette proposition fait l’objet de discussions au niveau européen. Dans un avis conjoint de février 2026, l’EDPB et le CEPD ont formulé des réserves sur la portée de cette évolution au regard du cadre actuel du RGPD et de la jurisprudence de la CJUE (https://www.edpb.europa.eu/system/files/2026-02/edpb_edps_jointopinion_202602_digitalomnibus_en.pdf).
En l’absence de texte définitif, les données pseudonymisées continuent d’être considérées comme des données à caractère personnel soumises au RGPD.
#RGPD #AIAct #DataGovernance #LLM #Conformité #AIGovernance #PrivacyByDesign







