Antes de que una grabación de entrevista salga de tu estudio, silencia los momentos en los que se puede identificar a un participante. Una entrevista semiestructurada es una conversación que fluye libre, así que un nombre, una empresa o un pueblo natal nunca están en un campo ordenado: aparecen a mitad de frase, sin que los pidas, enterrados en algún punto de una hora de charla. Puedes anonimizar una entrevista ahora mismo sin cuenta: sube el fichero, marca las categorías que quieras fuera y descarga un MP3 limpio.
Por qué el audio de una entrevista está lleno de identificadores que nunca pediste
Diseñaste el estudio en torno a un tema, no a una persona; y aun así los participantes aportan detalles sin parar, porque la gente real cuenta historias y las historias llevan nombres dentro. A lo largo de treinta grabaciones oirás:
- Nombres hablados — el del propio participante, pero también el de un jefe, una compañera o un familiar colado en una anécdota.
- Lugares que señalan a alguien — el pueblo pequeño donde creció, la planta del hospital donde trabaja, la calle donde está su oficina.
- Datos de contacto leídos en voz alta — un correo dictado para que le escribas, un móvil, a veces el suyo propio.
- Números de referencia — un número de empleado, un número de caso, un DNI citado desde un documento que tiene sobre la mesa.
Nada de esto estaba en tu guion de entrevista. Limpiarlo a mano significa peinar treinta horas de audio segundo a segundo: justo la tarea que una canalización debería quitarte de encima para que vuelvas a codificar tus datos.
De una transcripción palabra a palabra a una onda destruida
La herramienta mantiene aparte, a propósito, la parte que adivina y la parte que corta.
Primero encuentra. Tu subida se normaliza a una pista mono limpia de 16 kHz y se transcribe con una marca de tiempo en cada palabra mediante un modelo tipo Whisper. Esa transcripción es el mapa: el reconocimiento de entidades marca personas y lugares, mientras que los detectores respaldados por checksum eligen valores estructurados —un correo, un teléfono, un IBAN o un documento solo se marcan cuando su formato cuadra, así que una cifra citada de pasada se deja en paz—. El modelo de voz nunca edita el audio; solo dice dónde cae cada palabra en el tiempo.
Después destruye. Cada palabra marcada se reasigna a su segundo de inicio y fin, se añade un pequeño margen a cada lado, se fusionan los tramos solapados para que nada se escape por un hueco, y ffmpeg reescribe las muestras de esos tramos. Esta mitad no es probabilística: la misma grabación produce la misma salida cada vez que la ejecutas.
La detección es de mejor esfuerzo, y el idioma importa
Encontrar un nombre hablado depende de la transcripción y de la cobertura de idioma del reconocedor. El reconocimiento de nombres de persona es más fuerte en español e inglés; para entrevistas en alemán, francés o italiano el modelo capta los nombres solo parcialmente, así que puede escapársele el apellido de un participante. Los identificadores estructurados —correo, teléfono, IBAN y documentos— se detectan por formato en cualquier idioma. Para trabajo de campo que no sea en español o inglés, añade los nombres reales de tus participantes a la deny-list y mantén a una persona en el bucle. El paso de destrucción es exacto; el de detección no es una garantía.
Pitido o silencio, y por qué las muestras desaparecen para siempre
Ambas opciones borran lo que había debajo; solo se diferencian en lo que oye un oyente después.
- Bajar el volumen o amortiguar deja el nombre recuperable
- Un pitido superpuesto encima se puede levantar para exponer el habla
- Los metadatos del móvil aún pueden nombrar el dispositivo o la sesión
- Nada le muestra a un oyente que la edición fue intencionada
- La onda de ese tramo se pone a cero: el nombre ha desaparecido
- Un tono de 1 kHz o silencio limpio ocupa su lugar en el mismo fichero
- El MP3 se recodifica con todas las etiquetas eliminadas
- La lista de auditoría guarda solo el tramo de tiempo, nunca las palabras
Qué encuentra la herramienta y dónde sigues al mando
Eliminamos nombres y lugares hablados que encuentra el reconocimiento de entidades, además de correos, teléfonos, IBAN y documentos nacionales de identidad detectados por formato, y cualquier cosa que pongas en la deny-list. Lo que no haremos es fingir que la pasada es completa: abre la lista de auditoría devuelta, salta a unas cuantas marcas de tiempo y confirma los momentos que recuerdas de la sala. Esta herramienta trabaja con audio y devuelve audio: no te entrega una transcripción para conservar, no toca caras en vídeo y no redacta un PDF. Esas son tareas aparte con sus propias herramientas.
Encaja con cómo suena de verdad el trabajo de campo cualitativo
Las grabaciones de campo son caóticas y la canalización lo espera. Un móvil dejado sobre la mesa capta ambas voces en un canal mono, el eco de la sala, una cafetería de fondo, el arrastre de una silla: nada de eso descarrila el mapa temporal, porque el alineamiento se reconstruye desde las propias palabras, no desde una señal limpia de estudio. Un participante que dice su propio nombre encima de tu pregunta sigue quedando fijado al segundo exacto en que lo dijo. Las pausas largas, los turnos solapados y un acento con el que el reconocedor tiene que esforzarse siguen resolviéndose en una marca de tiempo que el corte puede usar.
Anonimiza una grabación de entrevista ahora
Sube la entrevista, elige si los nombres, lugares y datos de contacto hablados se convierten en pitido o silencio, añade a la deny-list los nombres que conozcas, confirma el precio y descarga el MP3 limpio, listo para el repositorio, un coautor o un servicio de transcripción. El modelo solo encuentra los momentos sensibles; el código determinista los destruye, así que el resultado es irreversible e idéntico en cada ejecución. Sin cuenta, paga solo por lo que anonimizas.
Cuándo lo necesitas
Una investigadora predoctoral acaba de terminar el trabajo de campo de su estudio: treinta entrevistas semiestructuradas, de una hora cada una, grabadas con el móvil. Cada participante firmó un consentimiento que prometía anonimizar sus datos antes de archivarlos en el repositorio abierto de la universidad y antes de enviar el audio a un servicio externo de transcripción. Pero las grabaciones están llenas de identificadores hablados que ella nunca pidió y no puede dejar de oír: un participante nombra a su jefe directo, menciona el pueblo pequeño donde creció, lee en voz alta el correo de una compañera, da su propio número de teléfono para que le hagan seguimiento. Hacerlo a mano significa repasar treinta horas de audio segundo a segundo. Sube cada entrevista a Medianonymizer, elige las categorías a eliminar, y los segundos donde se dicen un nombre, una empresa, una localidad o un dato de contacto se localizan a partir de una transcripción palabra a palabra y se destruyen sobre la onda —un pitido de 1 kHz o silencio limpio— antes de que el fichero llegue al repositorio, a un coautor o a quien transcribe.
El ángulo de cumplimiento
Según el artículo 89 del RGPD, el tratamiento de datos personales con fines de investigación científica conlleva garantías específicas y un deber de minimización: no debes conservar identificadores que no necesitas. El considerando 26 es la palanca: los datos verdaderamente anonimizados quedan fuera del Reglamento por completo, así que una grabación con los identificadores directos destruidos puede archivarse y compartirse sin las obligaciones de retirada del consentimiento y de conservación que arrastran los datos personales vivos. Los consentimientos que aprueban la mayoría de comités de ética prometen justo esto: identificadores eliminados antes de archivar. Destruir el nombre, la empresa y la localidad hablados en el audio es cómo cumples esa promesa en lugar de solo afirmarla.
Lo que puedes comprobar
El resultado es comprobable, no una afirmación. Abre el MP3 devuelto y salta al momento donde el participante dijo su nombre: oirás un tono de 1 kHz o silencio, no el nombre —las muestras originales de ese tramo están puestas a cero, no bajadas de volumen ni cubiertas por una capa que pudieras retirar—. Inspecciona las etiquetas del fichero con cualquier herramienta y no hay metadatos ID3 arrastrados del móvil que lo grabó. La lista de auditoría registra solo los tramos de tiempo redactados —segundo de inicio y de fin—, nunca las palabras en sí, de modo que el registro tampoco puede reidentificar a nadie.
Preguntas frecuentes
- ¿Puedo conservar también una transcripción anonimizada o esta herramienta solo devuelve audio?
- Esta herramienta devuelve audio: un MP3 limpio con los identificadores localizados destruidos y todos los metadatos eliminados. No te entrega una transcripción para conservar. La transcripción palabra a palabra se genera solo para localizar dónde se dicen los identificadores, y la lista de auditoría que produce registra tramos de tiempo —segundo de inicio y de fin—, nunca las palabras. Si necesitas una transcripción anonimizada para codificar, pasa el audio ya limpio por tu flujo de transcripción, o usa nuestra herramienta de texto sobre una transcripción que ya tengas.
- ¿Cómo gestiona dos voces —la de quien entrevista y la del participante— en una misma grabación?
- La detección trabaja sobre las palabras, no sobre quién las dijo, así que un identificador se elimina tanto si lo pronunció el participante como si tú lo repetiste para confirmarlo. Una grabación de móvil suele mezclar ambas voces en una sola pista mono, y no pasa nada: el mapa temporal se reconstruye desde la transcripción, no desde canales separados. Si tus identificadores se concentran en los turnos de una voz, la deny-list y una revisión puntual son la forma de asegurarte de que nada de la otra voz se coló.
- ¿La detección automática funciona para entrevistas en alemán, francés o italiano, o solo en inglés y español?
- Los identificadores estructurados —correos, teléfonos, IBAN, tarjetas y documentos de identidad— se detectan por formato en cualquier idioma. El reconocimiento de nombres de persona y lugares es más fuerte en español e inglés; para alemán, francés o italiano es parcial, así que puede escapársele el apellido de un participante. Para trabajo de campo en esos idiomas, añade los nombres reales a la deny-list para que siempre se eliminen y mantén una revisión manual en tu flujo. Preferimos declarar ese límite antes que dejar que asumas que un nombre se detectó cuando no fue así.
- ¿Puedo añadir los nombres reales de mis participantes a una deny-list para que siempre se eliminen?
- Sí, y para entrevistas que no sean en inglés o español es el paso recomendado. Una deny-list es un conjunto de cadenas exactas —el nombre de un participante, un lugar, un código interno de proyecto— que se eliminan en la misma pasada al margen de la puntuación que les dé el reconocedor. No debilita la detección: garantiza que los valores que ya conoces se destruyen. La lista se usa solo para casar y nunca se escribe en la salida ni en el registro de auditoría.
- ¿La anonimización es reversible y basta para satisfacer el consentimiento de mi comité de ética?
- Los tramos localizados se destruyen, no se ocultan: las muestras se ponen a cero y se sustituyen por un pitido o silencio en el mismo fichero, sin capa que retirar —esa parte es irreversible—. Que satisfaga a tu comité de ética es decisión suya y depende de tu estudio. Destruimos los identificadores directos que localizamos, pero no certificamos una grabación como anónima, porque los identificadores indirectos y todo lo que la detección no cogió siguen siendo tu responsabilidad revisar. Trata la herramienta como el mecanismo que cumple la promesa de tu consentimiento, junto a tu propia revisión, no como un visto bueno de cumplimiento.