Avant qu'un enregistrement d'entretien ne quitte votre étude, faites taire les instants où un participant peut être identifié. Un entretien semi-directif est une conversation qui coule librement, si bien qu'un nom, un employeur ou une ville d'origine ne tiennent jamais dans un champ bien rangé : ils surgissent au milieu d'une phrase, sans qu'on les demande, enfouis quelque part dans une heure de parole. Vous pouvez anonymiser un entretien maintenant sans compte : téléversez le fichier, cochez les catégories à retirer et téléchargez un MP3 propre.
Pourquoi l'audio d'un entretien regorge d'identifiants que vous n'avez jamais demandés
Vous avez conçu l'étude autour d'un thème, pas d'une personne — et pourtant les participants livrent des détails sans cesse, parce que les gens racontent des histoires et que les histoires contiennent des noms. Au fil de trente enregistrements, vous entendrez :
- Des noms prononcés — celui du participant, mais aussi d'un supérieur, d'une collègue, d'un proche glissé dans une anecdote.
- Des lieux qui désignent quelqu'un — la petite ville où il a grandi, le service où elle travaille, la rue où se trouve son bureau.
- Des coordonnées lues à voix haute — un e-mail dicté pour que vous recontactiez, un mobile, parfois le sien.
- Des numéros de référence — un matricule, un numéro de dossier, un numéro de pièce d'identité cité depuis un document posé sur la table.
Rien de tout cela ne figurait dans votre guide d'entretien. Le nettoyer à la main, c'est peigner trente heures d'audio seconde par seconde — précisément la corvée qu'un pipeline devrait vous ôter pour que vous reveniez au codage de vos données.
D'une transcription mot à mot à une forme d'onde détruite
L'outil sépare volontairement ce qui devine de ce qui coupe.
Il trouve d'abord. Votre téléversement est normalisé en une piste mono propre à 16 kHz et transcrit avec un horodatage sur chaque mot par un modèle de la classe Whisper. Cette transcription est la carte : la reconnaissance d'entités marque personnes et lieux, tandis que des détecteurs adossés à des sommes de contrôle repèrent les valeurs structurées — un e-mail, un numéro de téléphone, un IBAN ou un numéro de pièce ne sont signalés que si leur format tient, si bien qu'un chiffre cité au passage est laissé tranquille. Le modèle de parole ne modifie jamais l'audio ; il dit seulement où chaque mot tombe dans le temps.
Il détruit ensuite. Chaque mot signalé est ramené à sa seconde de début et de fin, une petite marge est ajoutée de chaque côté, les plages qui se chevauchent sont fusionnées pour que rien ne file par un trou, et ffmpeg réécrit les échantillons de ces plages. Cette moitié n'est pas probabiliste : le même enregistrement produit la même sortie à chaque exécution.
La détection est au mieux — et la langue compte
Trouver un nom prononcé dépend de la transcription et de la couverture linguistique du reconnaisseur. La reconnaissance des noms de personnes est la plus forte en espagnol et en anglais ; pour des entretiens en allemand, français ou italien, le modèle ne capte les noms que partiellement, si bien qu'un nom de famille peut passer. Les identifiants structurés — e-mail, téléphone, IBAN et numéros de pièce — sont repérés par format dans toutes les langues. Pour un terrain qui n'est pas en espagnol ou en anglais, ajoutez les vrais noms de vos participants à la deny-list et gardez un humain dans la boucle. L'étape de destruction est exacte ; l'étape de détection n'est pas une garantie.
Bip ou silence — et pourquoi les échantillons ont disparu pour de bon
Les deux choix effacent ce qu'il y avait dessous ; ils ne diffèrent que par ce qu'un auditeur ultérieur entend.
- Baisser le volume ou étouffer laisse le nom récupérable
- Un bip posé par-dessus peut être retiré pour exposer la parole
- Les métadonnées du téléphone peuvent encore nommer l'appareil ou la session
- Rien ne montre à un auditeur que la coupe était intentionnelle
- La forme d'onde de cette plage est mise à zéro — le nom a disparu
- Un ton à 1 kHz ou un silence net prend sa place dans le même fichier
- Le MP3 est réencodé avec toutes les balises retirées
- La liste d'audit ne conserve que la plage horaire, jamais les mots
Ce que l'outil trouve, et où vous gardez la main
Nous retirons les noms et lieux prononcés que trouve la reconnaissance d'entités, ainsi que les e-mails, numéros de téléphone, IBAN et numéros nationaux de pièce d'identité repérés par format — et tout ce que vous mettez dans la deny-list. Ce que nous ne ferons pas, c'est prétendre que la passe est complète : ouvrez la liste d'audit renvoyée, allez à quelques horodatages et confirmez les instants dont vous vous souvenez de la pièce. Cet outil travaille sur de l'audio et renvoie de l'audio — il ne vous donne pas de transcription à conserver, il ne touche pas aux visages dans la vidéo et il n'expurge pas un PDF. Ce sont des tâches distinctes avec leurs propres outils.
S'accorde à la façon dont sonne vraiment le terrain qualitatif
Les enregistrements de terrain sont brouillons, et le pipeline s'y attend. Un téléphone posé sur la table capte les deux voix sur un seul canal mono, l'écho de la pièce, un café en fond, le raclement d'une chaise — rien de tout cela ne fait dérailler la carte temporelle, car l'alignement est reconstruit à partir des mots eux-mêmes, pas d'un signal de studio propre. Un participant qui dit son propre nom par-dessus votre question reste épinglé à la seconde exacte où il l'a dit. Les longues pauses, les tours de parole qui se chevauchent et un accent sur lequel le reconnaisseur doit peiner se résolvent encore en un horodatage que la coupe peut utiliser.
Anonymisez un enregistrement d'entretien maintenant
Téléversez l'entretien, choisissez si les noms, lieux et coordonnées prononcés deviennent un bip ou un silence, ajoutez à la deny-list les noms que vous connaissez, confirmez le prix et téléchargez le MP3 propre — prêt pour le dépôt, un co-auteur ou un service de transcription. Le modèle ne trouve que les instants sensibles ; le code déterministe les détruit, si bien que le résultat est irréversible et identique à chaque exécution. Sans compte, ne payez que ce que vous anonymisez.
Quand en avez-vous besoin
Une doctorante vient de terminer le travail de terrain de son étude : trente entretiens semi-directifs, d'une heure chacun, enregistrés au téléphone. Chaque participant a signé un consentement promettant que ses données seraient anonymisées avant d'être archivées dans le dépôt de recherche ouvert de l'université et avant l'envoi de l'audio à un service de transcription externe. Mais les enregistrements sont pleins d'identifiants prononcés qu'elle n'a jamais demandés et qu'elle ne peut plus ignorer : un participant nomme son supérieur direct, mentionne la petite ville où il a grandi, lit à voix haute l'e-mail d'une collègue, donne son propre numéro de téléphone pour être recontacté. Le faire à la main, c'est passer trente heures d'audio seconde par seconde. Téléversez chaque entretien sur Medianonymizer, choisissez les catégories à retirer, et les secondes où un nom, un employeur, une ville ou une coordonnée sont prononcés sont localisées à partir d'une transcription mot à mot puis détruites sur la forme d'onde — un bip à 1 kHz ou un silence net — avant que le fichier n'atteigne le dépôt, un co-auteur ou un transcripteur.
L'angle de la conformité
Selon l'article 89 du RGPD, le traitement de données personnelles à des fins de recherche scientifique s'accompagne de garanties spécifiques et d'un devoir de minimisation : vous ne devez pas conserver des identifiants dont vous n'avez pas besoin. Le considérant 26 est le levier : des données véritablement anonymisées sortent entièrement du champ du Règlement, si bien qu'un enregistrement dont les identifiants directs sont détruits peut être archivé et partagé sans les obligations de retrait du consentement et de conservation qui suivent les données personnelles vivantes. Les consentements qu'approuvent la plupart des comités d'éthique promettent exactement cela : des identifiants retirés avant l'archivage. Détruire le nom, l'employeur et le lieu prononcés dans l'audio, c'est ainsi que vous tenez cette promesse au lieu de simplement l'affirmer.
Ce que vous pouvez vérifier
Le résultat est vérifiable, pas une affirmation. Ouvrez le MP3 renvoyé et allez à l'instant où le participant a dit son nom : vous entendez un ton à 1 kHz ou un silence, pas le nom — les échantillons d'origine de cette plage sont mis à zéro, ni baissés ni recouverts d'une couche que vous pourriez retirer. Inspectez les balises du fichier avec n'importe quel outil : aucune métadonnée ID3 n'a été reprise du téléphone qui l'a enregistré. La liste d'audit ne consigne que les plages horaires expurgées — seconde de début et de fin — jamais les mots eux-mêmes, de sorte que le journal ne peut pas non plus réidentifier qui que ce soit.
Questions fréquentes
- Puis-je aussi conserver une transcription anonymisée, ou cet outil ne renvoie-t-il que de l'audio ?
- Cet outil renvoie de l'audio : un MP3 propre avec les identifiants localisés détruits et toutes les métadonnées retirées. Il ne vous rend pas de transcription à conserver. Une transcription mot à mot n'est produite que pour localiser où les identifiants sont prononcés, et la liste d'audit qu'elle génère consigne des plages horaires — seconde de début et de fin — jamais les mots. Si vous avez besoin d'une transcription anonymisée pour votre codage, passez l'audio nettoyé dans votre flux de transcription ensuite, ou utilisez notre outil texte sur une transcription que vous détenez déjà.
- Comment gère-t-il deux voix — l'enquêteur et le participant — dans un même enregistrement ?
- La détection travaille sur les mots, pas sur celui qui les a dits, de sorte qu'un identifiant est retiré que le participant l'ait prononcé ou que vous l'ayez répété pour confirmer. Un enregistrement au téléphone mélange en général les deux voix sur une seule piste mono, et c'est très bien : la carte temporelle est reconstruite à partir de la transcription, pas de canaux séparés. Si vos identifiants se concentrent dans les tours de parole d'une voix, la deny-list et une vérification ponctuelle vous assurent que rien de l'autre voix n'est passé.
- La détection automatique fonctionne-t-elle pour des entretiens en allemand, français ou italien, ou seulement en anglais et espagnol ?
- Les identifiants structurés — adresses e-mail, numéros de téléphone, IBAN, numéros de carte et de pièce d'identité — sont repérés par leur format dans toutes les langues. La reconnaissance des noms de personnes et des lieux est la plus forte en espagnol et en anglais ; pour l'allemand, le français ou l'italien, elle est partielle, si bien que le nom de famille d'un participant peut être manqué. Pour un terrain dans ces langues, ajoutez les vrais noms à la deny-list pour qu'ils soient toujours retirés, et gardez un contrôle manuel dans votre flux. Nous préférons énoncer cette limite plutôt que de vous laisser supposer qu'un nom a été capté alors qu'il ne l'était pas.
- Puis-je ajouter les vrais noms de mes participants à une deny-list pour qu'ils soient toujours retirés ?
- Oui, et pour les entretiens qui ne sont pas en anglais ou en espagnol, c'est l'étape recommandée. Une deny-list est un ensemble de chaînes exactes — le nom d'un participant, un lieu, un code interne de projet — retirées dans la même passe quel que soit le score que leur donne le reconnaisseur. Elle n'affaiblit pas la détection : elle garantit que les valeurs que vous connaissez déjà sont détruites. La liste ne sert qu'à la correspondance et n'est jamais écrite dans la sortie ni dans le journal d'audit.
- L'anonymisation est-elle réversible, et suffit-elle au consentement de mon comité d'éthique ?
- Les plages localisées sont détruites, pas cachées : les échantillons sont mis à zéro et remplacés par un bip ou un silence dans le même fichier, sans couche à retirer — cette partie est irréversible. Savoir si cela satisfait votre comité d'éthique relève de sa décision et dépend de votre étude. Nous détruisons les identifiants directs que nous localisons, mais nous ne certifions pas un enregistrement comme anonyme, car les identifiants indirects et tout ce que la détection a manqué restent à votre charge de vérification. Voyez l'outil comme le mécanisme qui tient la promesse de votre consentement, associé à votre propre contrôle — non comme un feu vert de conformité.