Redacta PII de grabaciones de llamadas — silencia o pita los datos de tarjeta hablados

Destruye los datos personales hablados dentro de una grabación de llamada

Sube una llamada de soporte o de ventas, elige las categorías a eliminar, y los segundos donde se dicen un número de tarjeta, un código de seguridad, un nombre o una dirección se localizan a partir de la transcripción y se destruyen sobre la onda —sustituidos por un pitido de 1 kHz o por silencio— antes de compartir el fichero con calidad, analítica o un revisor externo.

Medianonymizer Team1 de julio de 20266 min de lectura

Antes de que una grabación salga de tu archivo, destruye los segundos donde se pronuncian datos personales. Una llamada de soporte o ventas es una conversación no estructurada, así que el número de tarjeta, el código de seguridad y el nombre del cliente no están en un campo etiquetado: se dicen en voz alta, a mitad de frase, repartidos por minutos de diálogo. Puedes redactar una grabación ahora mismo sin cuenta: súbela, elige las categorías a eliminar y descarga un MP3 limpio.

Qué captura de verdad una grabación de llamada

Las llamadas de pago y soporte filtran justo las categorías que más preocupan a los reguladores, y las filtran como habla en lugar de como columnas ordenadas de una base de datos:

Datos de tarjeta en alcance PCI-DSS — el número de cuenta principal leído dígito a dígito, la caducidad y el código de seguridad de tres cifras.
Identificadores directos — nombres completos, apellidos deletreados, fechas de nacimiento y correos electrónicos.
Datos de contacto y ubicación — números de teléfono, direcciones de facturación y domicilio.
Números de referencia — identificadores de cliente, números de pedido, IBAN y documentos nacionales de identidad.

La dificultad nunca es qué eliminar. Es encontrar dónde aparece cada valor a lo largo de miles de horas de audio, y eliminarlo de una forma que puedas demostrar después. Eso es un problema de canalización, no de trabajo manual.

Cómo funciona la redacción: localizar y luego destruir

La canalización mantiene estrictamente separada la parte probabilística de la parte exacta.

Primero localiza. La grabación se normaliza a una pista mono limpia de 16 kHz y se transcribe con marcas de tiempo a nivel de palabra —usando por defecto un modelo tipo Whisper en la nube, o un alineador local como respaldo—. El modelo solo señala dónde se dicen las palabras; nunca toca el audio. Sobre esa transcripción, la detección actúa de dos formas: el reconocimiento de entidades marca personas y lugares, mientras que los detectores validados por checksum atrapan identificadores estructurados —un número de tarjeta solo se marca si pasa el algoritmo de Luhn, de modo que un número de cuenta real se captura mientras que una cadena aleatoria de dieciséis cifras dicha de pasada se deja en paz—. La misma validación protege los IBAN y los documentos de identidad. Puedes añadir tu propia deny-list de cadenas exactas —un código interno de caso, un nombre de producto— para eliminarlas en la misma pasada.

Después, el código determinista destruye. Cada palabra detectada se reasigna a su tiempo de inicio y fin, se añade un pequeño margen a cada lado, se fusionan los tramos solapados para que nada se escape por un hueco, y ffmpeg reescribe las muestras de esos tramos. Nada de este paso es generativo: la misma entrada produce la misma salida en cada ejecución.

La detección es de mejor esfuerzo; la destrucción es exacta

Somos honestos con el límite. Encontrar datos hablados depende de la transcripción; si una palabra no se transcribe o no se puede alinear en el tiempo, ese tramo se deja intacto de forma segura en lugar de adivinarlo. Lo que no es probabilístico es la eliminación: una vez marcado un tramo, las muestras originales que contiene se destruyen físicamente. Combina la pasada automática con una revisión humana en tus llamadas más sensibles.

Silencio o pitido: eliges la marca

Ambas opciones borran el audio de debajo; solo se diferencian en lo que oye un oyente después.

Ocultar el momento

Bajar el volumen o amortiguar deja el habla recuperable
Un pitido superpuesto encima se puede quitar para exponer el original
Los metadatos de origen aún pueden nombrar el dispositivo, el agente o la sesión
Nada demuestra que una redacción fuera intencionada

Destruir las muestras

La onda de ese tramo se pone a cero: los dígitos han desaparecido
Un pitido de 1 kHz o silencio limpio los sustituye en el mismo fichero
El MP3 se recodifica con todas las etiquetas eliminadas
La lista de auditoría marca el tramo, nunca el valor

Qué detectamos y qué no prometemos

Eliminamos números de tarjeta validados por Luhn, IBAN y datos bancarios, documentos de identidad y pasaportes, nombres, correos electrónicos, números de teléfono y direcciones postales —además de cualquier cosa de tu deny-list—. Un código de seguridad de tres cifras dicho de forma aislada no es una señal fuerte por sí sola, así que trata el paso de revisión como parte del flujo y añade valores concretos a la deny-list cuando los conozcas. Esta herramienta procesa audio y devuelve audio: no te entrega una transcripción para conservar, no detecta caras en vídeo y no marca un PDF —esas son modalidades distintas con sus propias herramientas—.

0cuentas necesarias para redactar una llamada

1kHzpitido de censura sobre cada tramo redactado

MP3salida limpia, todos los metadatos eliminados

Pensado para el audio real de un call center

El audio real de las llamadas llega en formas incomodas, y la canalizacion esta hecha para ellas. Una llamada en estereo deja al agente en un canal y a quien llama en el otro, mientras que una exportacion mono mezcla ambas voces. Las grabaciones comprimidas por codecs telefonicos, remuestreadas por un menu IVR o retenidas en una cola ACD, se normalizan igual antes de transcribir. La musica de espera, los tonos DTMF del teclado, la diafonia y las microcortes de red no descarrilan el mapa temporal, porque el alineamiento se reconstruye desde las propias palabras dichas. Una etiqueta de canal marca quien habla en cada momento, de modo que puedes revisar solo el tramo del cliente sin escuchar al operador.

Redacta una grabación de llamada ahora

Sube la grabación, elige si los datos de tarjeta, nombres, documentos y direcciones hablados se convierten en pitido o silencio, confirma el precio y descarga el MP3 limpio. La IA solo encuentra los momentos sensibles; el código determinista los destruye, así que el resultado es irreversible e idéntico en cada ejecución. Sin cuenta, paga solo por lo que redactas.

Cuándo lo necesitas

Es un martes por la tarde en un centro de contacto y un agente está cobrando un pago con tarjeta por teléfono. El cliente lee en voz alta los dieciséis dígitos de su tarjeta, luego el código de seguridad de tres cifras, después deletrea su apellido y confirma la dirección de facturación. Cada segundo se está grabando para control de calidad y resolución de incidencias, y quedará en tu archivo durante meses. Multiplícalo por unos miles de llamadas al día y estás guardando una biblioteca consultable de datos de tarjeta vivos e identidades. Sube esa grabación a Medianonymizer, elige las categorías a eliminar, y los segundos donde se dicen el número de tarjeta, el código, el nombre y la dirección se localizan a partir de una transcripción palabra por palabra y se destruyen sobre la onda —sustituidos por un pitido de 1 kHz o por silencio— antes de entregar el fichero a calidad, a un proveedor de analítica o a un revisor externo.

El ángulo de cumplimiento

PCI-DSS v4.0 es explícito: los datos de autenticación sensibles como el código de verificación de la tarjeta no deben conservarse nunca tras la autorización (Requisito 3.3.1), y el número de cuenta principal debe quedar ilegible allí donde se almacene (Requisitos 3.4 y 3.5). Una grabación que capta esos dígitos leídos en voz alta es almacenamiento. En paralelo, el RGPD trata el nombre, la dirección y el teléfono de quien llama como datos personales que debes minimizar y proteger. Destruir los valores hablados dentro de la grabación saca ese fichero del alcance de PCI y del RGPD para esos elementos: no queda número de tarjeta que proteger ni identidad que filtrar.

Lo que puedes comprobar

El resultado es comprobable, no una promesa. Abre el MP3 devuelto y salta al momento donde se leyó el número de tarjeta: oirás un tono de 1 kHz o silencio, no los dígitos —las muestras originales de ese tramo han desaparecido, no están bajadas de volumen ni ocultas bajo una capa—. Inspecciona las etiquetas del fichero con cualquier herramienta y no hay metadatos ID3 arrastrados. La lista de auditoría registra solo los tramos de tiempo redactados —segundo de inicio y de fin—, nunca los números en sí, de modo que ni el propio registro puede filtrar lo que eliminó.

Preguntas frecuentes

¿Cómo encuentra la herramienta datos personales dentro del audio hablado?

Transcribe la llamada a texto con marcas de tiempo a nivel de palabra usando un modelo de voz tipo Whisper, y después ejecuta reconocimiento de entidades y detectores validados por checksum sobre esa transcripción. Los nombres y lugares provienen del reconocimiento de entidades; los números de tarjeta, IBAN y documentos de identidad se detectan por estructura y se validan —un número de tarjeta solo se marca si pasa el algoritmo de Luhn—. El modelo solo señala dónde se dice un valor; nunca edita el audio.

¿La redacción es reversible o el audio se destruye de verdad?

Se destruye. Cada tramo detectado se reescribe sobre la onda: las muestras originales se ponen a cero y se sustituyen por un pitido de 1 kHz o por silencio limpio en el mismo fichero. No hay una pista de censura aparte que quitar ni una capa oculta que retirar. Una vez redactado un tramo, el habla que había allí no puede reconstruirse desde la salida.

¿Debo usar pitido o silencio para los datos de tarjeta?

Para contextos PCI y legales, el pitido es la opción más segura porque deja una marca audible de que algo se eliminó a propósito —un auditor puede oír la redacción—. El silencio es más limpio para conjuntos de datos de analítica y calidad, pero puede confundirse con un corte de la grabación. Ambos borran las muestras subyacentes, así que ambos son irreversibles.

¿La salida sigue arrastrando metadatos de la grabación original?

No. La llamada se recodifica a un MP3 nuevo con todas las etiquetas eliminadas, de modo que identificadores de dispositivo, datos de sesión y marcas de tiempo del origen no viajan con ella. El fichero que descargas es el audio limpio y nada más.

¿Cuáles son los límites honestos de la detección automática?

Encontrar datos hablados depende de la transcripción. Si una palabra no se transcribe o no se puede alinear en el tiempo, ese tramo se deja intacto de forma segura en lugar de adivinarlo, así que un código de seguridad de tres cifras dicho de forma aislada no es una señal fuerte por sí sola. Combina la pasada automática con una revisión humana en las llamadas sensibles y añade a la deny-list las cadenas exactas que conozcas. El paso de destrucción es exacto; el de detección es de mejor esfuerzo.

Guías relacionadas

ChatGPT y LLMs