Avant qu'un enregistrement ne quitte votre archive, détruisez les secondes où des données personnelles sont dictées. Un appel de support ou de vente est une conversation non structurée, si bien que le numéro de carte, le code de sécurité et le nom du client ne sont pas rangés dans un champ étiqueté : ils sont dits à voix haute, au milieu d'une phrase, dispersés sur des minutes de dialogue. Vous pouvez caviarder un enregistrement maintenant sans compte : téléversez-le, choisissez les catégories à retirer et téléchargez un MP3 propre.
Ce qu'un enregistrement d'appel capte vraiment
Les appels de paiement et de support laissent fuir exactement les catégories qui préoccupent le plus les régulateurs, et ils les laissent fuir sous forme de parole plutôt que de colonnes bien rangées d'une base de données :
- Données de carte dans le périmètre PCI-DSS — le numéro de compte principal lu chiffre par chiffre, la date d'expiration et le code de sécurité à trois chiffres.
- Identifiants directs — noms complets, noms de famille épelés, dates de naissance et adresses e-mail.
- Données de contact et de localisation — numéros de téléphone, adresses de facturation et domiciles.
- Numéros de référence — identifiants client, numéros de commande, IBAN et numéros de pièce d'identité nationale.
La difficulté n'est jamais quoi retirer. C'est trouver où chaque valeur apparaît sur des milliers d'heures d'audio, et la retirer d'une manière que vous pourrez prouver ensuite. C'est un problème de chaîne de traitement, pas de travail manuel.
Comment fonctionne le caviardage : localiser, puis détruire
La chaîne garde strictement séparées la partie probabiliste et la partie exacte.
D'abord, elle localise. L'enregistrement est normalisé en une piste mono propre à 16 kHz et transcrit avec des horodatages au niveau du mot — à l'aide d'un modèle de classe Whisper dans le cloud par défaut, ou d'un aligneur local en repli. Le modèle indique seulement où les mots sont dits ; il ne touche jamais l'audio. Sur cette transcription, la détection agit de deux façons : la reconnaissance d'entités signale les personnes et les lieux, tandis que des détecteurs validés par somme de contrôle attrapent les identifiants structurés — un numéro de carte n'est signalé que s'il passe la vérification de Luhn, si bien qu'un vrai numéro de compte est capturé tandis qu'une chaîne aléatoire de seize chiffres dite en passant est laissée tranquille. La même validation protège les IBAN et les pièces d'identité. Vous pouvez ajouter votre propre deny-list de chaînes exactes — un code de dossier interne, un nom de produit — à retirer dans la même passe.
Ensuite, du code déterministe détruit. Chaque mot détecté est ramené à son temps de début et de fin, une petite marge est ajoutée de chaque côté, les plages qui se chevauchent sont fusionnées pour que rien ne passe par un interstice, et ffmpeg réécrit les échantillons de ces plages. Rien dans cette étape n'est génératif : la même entrée produit la même sortie à chaque exécution.
La détection fait au mieux — la destruction est exacte
Nous sommes honnêtes sur la frontière. Trouver des données dictées dépend de la transcription ; si un mot n'est pas transcrit ou ne peut pas être aligné dans le temps, cette plage est laissée intacte en toute sécurité plutôt que devinée. Ce qui n'est pas probabiliste, c'est le retrait : une fois une plage marquée, les échantillons d'origine qu'elle contient sont physiquement détruits. Associez la passe automatique à une vérification humaine sur vos appels les plus sensibles.
Silence ou bip : vous choisissez le marqueur
Les deux options effacent l'audio en dessous ; elles ne diffèrent que par ce qu'un auditeur entend ensuite.
- Baisser le volume ou atténuer laisse la parole récupérable
- Un bip posé par-dessus peut être retiré pour exposer l'original
- Les métadonnées source peuvent encore nommer l'appareil, le conseiller ou la session
- Rien ne prouve qu'un caviardage était intentionnel
- La forme d'onde de cette plage est mise à zéro — les chiffres ont disparu
- Un bip à 1 kHz ou du silence propre les remplace dans le même fichier
- Le MP3 est ré-encodé avec toutes les balises retirées
- La liste d'audit marque la plage, jamais la valeur
Ce que nous détectons, et ce que nous ne promettons pas
Nous retirons les numéros de carte validés par Luhn, les IBAN et données bancaires, les numéros de pièce d'identité et de passeport, les noms, adresses e-mail, numéros de téléphone et adresses postales — ainsi que tout ce qui figure sur votre deny-list. Un code de sécurité à trois chiffres dicté isolément n'est pas un signal fort à lui seul, alors traitez l'étape de vérification comme partie du flux et ajoutez des valeurs précises à la deny-list quand vous les connaissez. Cet outil traite de l'audio et renvoie de l'audio : il ne vous remet pas de transcription à conserver, il ne détecte pas les visages dans la vidéo et il ne surligne pas un PDF — ce sont des modalités distinctes avec leurs propres outils.
Caviardez un enregistrement d'appel maintenant
Téléversez l'enregistrement, choisissez si les données de carte, noms, pièces d'identité et adresses dictés deviennent un bip ou du silence, confirmez le prix et téléchargez le MP3 propre. L'IA trouve seulement les moments sensibles ; du code déterministe les détruit, si bien que le résultat est irréversible et identique à chaque exécution. Sans compte, ne payez que ce que vous caviardez.
Quand en avez-vous besoin
C'est un mardi après-midi dans un centre de contact et un conseiller prend un paiement par carte au téléphone. Le client lit à voix haute les seize chiffres de sa carte, puis le code de sécurité à trois chiffres, épelle son nom de famille et confirme l'adresse de facturation. Chaque seconde est enregistrée pour l'évaluation qualité et le règlement des litiges, et restera dans votre archive pendant des mois. Multipliez cela par quelques milliers d'appels par jour et vous conservez une bibliothèque consultable de données de carte vivantes et d'identités. Téléversez cet enregistrement sur Medianonymizer, choisissez les catégories à retirer, et les secondes où le numéro de carte, le code, le nom et l'adresse sont dictés sont localisées à partir d'une transcription mot à mot puis détruites sur la forme d'onde — remplacées par un bip à 1 kHz ou par du silence — avant que le fichier ne soit remis à la qualité, à un prestataire d'analytique ou à un relecteur externe.
L'angle de la conformité
La norme PCI-DSS v4.0 est explicite : les données d'authentification sensibles telles que le code de vérification de la carte ne doivent jamais être conservées après l'autorisation (exigence 3.3.1), et le numéro de compte principal doit être rendu illisible partout où il est stocké (exigences 3.4 et 3.5). Un enregistrement qui capte ces chiffres lus à voix haute est un stockage. En parallèle, le RGPD traite le nom, l'adresse et le téléphone de l'appelant comme des données personnelles que vous devez minimiser et protéger. Détruire les valeurs dictées dans l'enregistrement sort ce fichier du périmètre PCI et RGPD pour ces éléments : il ne reste aucun numéro de carte à protéger ni aucune identité à divulguer.
Ce que vous pouvez vérifier
Le résultat est vérifiable, pas une promesse. Ouvrez le MP3 renvoyé et rendez-vous à l'horodatage où le numéro de carte a été lu : vous entendez un ton à 1 kHz ou du silence, pas les chiffres — les échantillons d'origine de cette plage ont disparu, ni baissés en volume ni cachés sous une couche. Inspectez les balises du fichier avec n'importe quel outil et aucune métadonnée ID3 n'a été reportée. La liste d'audit n'enregistre que les plages de temps caviardées — seconde de début et de fin — jamais les chiffres eux-mêmes, si bien que même le journal ne peut divulguer ce qu'il a retiré.
Questions fréquentes
- Comment l'outil trouve-t-il des données personnelles dans l'audio parlé ?
- Il transcrit l'appel en texte avec des horodatages au niveau du mot à l'aide d'un modèle vocal de classe Whisper, puis exécute la reconnaissance d'entités et des détecteurs validés par somme de contrôle sur cette transcription. Les noms et les lieux proviennent de la reconnaissance d'entités ; les numéros de carte, IBAN et pièces d'identité sont repérés par leur structure et validés — un numéro de carte n'est signalé que s'il passe la vérification de Luhn. Le modèle indique seulement où une valeur est dictée ; il ne modifie jamais l'audio.
- Le caviardage est-il réversible, ou l'audio est-il vraiment détruit ?
- Il est détruit. Chaque plage détectée est réécrite sur la forme d'onde : les échantillons d'origine sont mis à zéro et remplacés par un bip à 1 kHz ou du silence propre dans le même fichier. Il n'y a pas de piste de bip séparée à retirer ni de couche cachée à décoller. Une fois une plage caviardée, la parole qui s'y trouvait ne peut être reconstruite à partir de la sortie.
- Dois-je utiliser un bip ou du silence pour les données de carte ?
- Pour les contextes PCI et juridiques, le bip est le choix par défaut le plus sûr car il laisse un marqueur audible indiquant que quelque chose a été retiré intentionnellement — un auditeur peut entendre le caviardage. Le silence est plus propre pour les jeux de données d'analytique et de qualité mais peut être confondu avec une coupure d'enregistrement. Les deux effacent les échantillons sous-jacents, donc les deux sont irréversibles.
- La sortie transporte-t-elle encore des métadonnées de l'enregistrement d'origine ?
- Non. L'appel est ré-encodé en un nouveau MP3 avec toutes les balises retirées, si bien que les identifiants d'appareil, les données de session et les horodatages de la source ne voyagent pas avec lui. Le fichier que vous téléchargez est l'audio nettoyé, et rien d'autre.
- Quelles sont les limites honnêtes de la détection automatique ?
- Trouver des données dictées dépend de la transcription. Si un mot n'est pas transcrit ou ne peut pas être aligné dans le temps, cette plage est laissée intacte en toute sécurité plutôt que devinée, si bien qu'un code de sécurité à trois chiffres dicté isolément n'est pas un signal fort à lui seul. Associez la passe automatique à une vérification humaine sur les appels sensibles et ajoutez à la deny-list les chaînes exactes que vous connaissez. L'étape de destruction est exacte ; l'étape de détection fait au mieux.