Vai al contenuto
Tutte le guide all'anonimizzazione
Ricerca qualitativa e GDPR

Rimuovi gli identificatori parlati da un'intervista prima che esca dal tuo studio

Carica un'intervista qualitativa, scegli quali identificatori parlati rimuovere e i secondi in cui un partecipante pronuncia il proprio nome, il datore di lavoro o la città vengono individuati da una trascrizione parola per parola e distrutti sulla forma d'onda — sostituiti da un bip a 1 kHz o da silenzio pulito — prima di depositare la registrazione in un archivio o consegnarla a un servizio di trascrizione.

Medianonymizer Team1 luglio 20266 min di lettura
Anonimizzare un'intervista

Senza registrazione · Paghi per utilizzo · Oscuramento irreversibile

Prima che una registrazione di intervista esca dal tuo studio, fai tacere i momenti in cui un partecipante può essere identificato. Un'intervista semi-strutturata è una conversazione che scorre libera, così un nome, un datore di lavoro o una città d'origine non stanno mai in un campo ordinato: affiorano a metà frase, senza che tu li chieda, sepolti da qualche parte in un'ora di parlato. Puoi anonimizzare un'intervista ora senza account: carica il file, spunta le categorie che vuoi eliminare e scarica un MP3 pulito.

Perché l'audio di un'intervista è pieno di identificatori che non hai mai chiesto

Hai progettato lo studio attorno a un tema, non a una persona — eppure i partecipanti offrono dettagli di continuo, perché le persone reali raccontano storie e le storie contengono nomi. Nel corso di trenta registrazioni sentirai:

  • Nomi pronunciati — quello del partecipante, ma anche di un responsabile, di una collega, di un familiare infilato in un aneddoto.
  • Luoghi che individuano qualcuno — il piccolo paese in cui è cresciuto, il reparto in cui lavora, la via in cui si trova il suo ufficio.
  • Contatti letti ad alta voce — un'e-mail dettata perché tu ricontatti, un cellulare, a volte il suo.
  • Numeri di riferimento — una matricola, un numero di pratica, un documento d'identità citato da un foglio sul tavolo.

Nulla di tutto ciò era nella tua traccia d'intervista. Ripulirlo a mano significa pettinare trenta ore di audio secondo per secondo: proprio la fatica che una pipeline dovrebbe toglierti di dosso perché tu torni a codificare i tuoi dati.

Da una trascrizione parola per parola a una forma d'onda distrutta

Lo strumento tiene di proposito separati ciò che indovina da ciò che taglia.

Prima trova. Il tuo caricamento viene normalizzato in una traccia mono pulita a 16 kHz e trascritto con un marcatore temporale su ogni parola da un modello di classe Whisper. Quella trascrizione è la mappa: il riconoscimento di entità segna persone e luoghi, mentre i rilevatori sostenuti da checksum estraggono valori strutturati — un'e-mail, un numero di telefono, un IBAN o un documento vengono segnalati solo quando il formato torna, così una cifra citata di sfuggita viene lasciata in pace. Il modello vocale non modifica mai l'audio; dice solo dove cade ogni parola nel tempo.

Poi distrugge. Ogni parola segnalata viene riportata al suo secondo di inizio e di fine, si aggiunge un piccolo margine per lato, i tratti sovrapposti vengono uniti perché nulla scappi da un varco, e ffmpeg riscrive i campioni di quei tratti. Questa metà non è probabilistica: la stessa registrazione produce lo stesso output a ogni esecuzione.

Il rilevamento è al meglio possibile — e la lingua conta

Trovare un nome pronunciato dipende dalla trascrizione e dalla copertura linguistica del riconoscitore. Il riconoscimento di nomi di persona è più forte in spagnolo e inglese; per interviste in tedesco, francese o italiano il modello coglie i nomi solo in parte, così un cognome può sfuggire. Gli identificatori strutturati — e-mail, telefono, IBAN e documenti — vengono colti per formato in ogni lingua. Per il lavoro sul campo che non è in spagnolo o inglese, aggiungi i nomi reali dei tuoi partecipanti alla deny-list e tieni una persona nel ciclo. Il passo di distruzione è esatto; il passo di rilevamento non è una garanzia.

Bip o silenzio — e perché i campioni spariscono per sempre

Entrambe le scelte cancellano ciò che c'era sotto; differiscono solo in ciò che un ascoltatore sente dopo.

Coprire il momento
  • Abbassare il volume o attutire lascia il nome recuperabile
  • Un bip sovrapposto si può togliere per esporre il parlato
  • I metadati del telefono possono ancora nominare il dispositivo o la sessione
  • Nulla mostra a un ascoltatore che il taglio era intenzionale
Cancellare i campioni
  • La forma d'onda di quel tratto è messa a zero: il nome è sparito
  • Un tono a 1 kHz o silenzio pulito ne prende il posto nello stesso file
  • L'MP3 viene ricodificato con tutti i tag rimossi
  • La lista di controllo conserva solo l'intervallo di tempo, mai le parole

Cosa trova lo strumento e dove resti al comando

Rimuoviamo nomi e luoghi pronunciati che il riconoscimento di entità trova, più e-mail, numeri di telefono, IBAN e numeri nazionali di documento colti per formato — e qualsiasi cosa tu metta nella deny-list. Ciò che non faremo è fingere che la passata sia completa: apri la lista di controllo restituita, salta a qualche marcatore temporale e conferma i momenti che ricordi dalla stanza. Questo strumento lavora sull'audio e restituisce audio — non ti consegna una trascrizione da conservare, non tocca i volti nel video e non oscura un PDF. Sono lavori distinti con strumenti propri.

0account necessari per anonimizzare una registrazione
1kHzbip di censura su ogni tratto distrutto
MP3output pulito, tutti i metadati rimossi

Si adatta a come suona davvero il lavoro sul campo qualitativo

Le registrazioni sul campo sono disordinate e la pipeline se lo aspetta. Un telefono lasciato sul tavolo cattura entrambe le voci su un canale mono, l'eco della stanza, un bar sullo sfondo, lo strisciare di una sedia — nulla di tutto ciò fa deragliare la mappa temporale, perché l'allineamento viene ricostruito dalle parole stesse, non da un segnale pulito da studio. Un partecipante che dice il proprio nome sopra la tua domanda resta comunque inchiodato al secondo esatto in cui l'ha detto. Pause lunghe, turni sovrapposti e un accento su cui il riconoscitore deve faticare si risolvono ancora in un marcatore temporale che il taglio può usare.

Anonimizza ora una registrazione di intervista

Carica l'intervista, scegli se i nomi, i luoghi e i contatti pronunciati diventano un bip o silenzio, aggiungi alla deny-list i nomi che conosci, conferma il prezzo e scarica l'MP3 pulito — pronto per il repository, un co-autore o un servizio di trascrizione. Il modello trova solo i momenti sensibili; il codice deterministico li distrugge, così il risultato è irreversibile e identico a ogni esecuzione. Senza account, paghi solo per ciò che anonimizzi.

Quando ti serve

Una dottoranda ha appena concluso il lavoro sul campo del suo studio: trenta interviste semi-strutturate, di un'ora ciascuna, registrate col telefono. Ogni partecipante ha firmato un consenso che prometteva di anonimizzare i suoi dati prima di archiviarli nel repository di ricerca aperto dell'università e prima di inviare l'audio a un servizio di trascrizione esterno. Ma le registrazioni sono piene di identificatori parlati che lei non ha mai chiesto e che non può fingere di non aver sentito: un partecipante nomina il suo responsabile diretto, cita il piccolo paese in cui è cresciuto, legge ad alta voce l'e-mail di una collega, dà il proprio numero di telefono per essere ricontattato. Farlo a mano significa ripassare trenta ore di audio secondo per secondo. Carica ogni intervista su Medianonymizer, scegli le categorie da rimuovere, e i secondi in cui vengono pronunciati un nome, un datore di lavoro, una città o un contatto vengono individuati da una trascrizione parola per parola e distrutti sulla forma d'onda — un bip a 1 kHz o silenzio pulito — prima che il file raggiunga il repository, un co-autore o chi trascrive.

L'aspetto della conformità

Secondo l'articolo 89 del GDPR, il trattamento di dati personali a fini di ricerca scientifica comporta garanzie specifiche e un dovere di minimizzazione: non devi conservare identificatori di cui non hai bisogno. Il considerando 26 è la leva: i dati realmente anonimizzati escono del tutto dal Regolamento, così una registrazione con gli identificatori diretti distrutti può essere archiviata e condivisa senza gli obblighi di revoca del consenso e di conservazione che seguono i dati personali vivi. I consensi che la maggior parte dei comitati etici approva promettono esattamente questo: identificatori rimossi prima dell'archiviazione. Distruggere il nome, il datore di lavoro e il luogo pronunciati nell'audio è il modo in cui mantieni quella promessa invece di limitarti ad affermarla.

Ciò che puoi verificare

Il risultato è verificabile, non un'affermazione. Apri l'MP3 restituito e vai al momento in cui il partecipante ha detto il proprio nome: senti un tono a 1 kHz o silenzio, non il nome — i campioni originali di quel tratto sono messi a zero, non abbassati e non coperti da uno strato che potresti rimuovere. Ispeziona i tag del file con qualsiasi strumento e non ci sono metadati ID3 ereditati dal telefono che l'ha registrato. La lista di controllo registra solo gli intervalli di tempo oscurati — secondo di inizio e di fine — mai le parole stesse, così nemmeno il registro può re-identificare qualcuno.

Domande frequenti

Posso anche conservare una trascrizione anonimizzata, o questo strumento restituisce solo audio?
Questo strumento restituisce audio: un MP3 pulito con gli identificatori individuati distrutti e tutti i metadati rimossi. Non ti consegna una trascrizione da conservare. Una trascrizione parola per parola viene generata solo per individuare dove sono pronunciati gli identificatori, e la lista di controllo che produce registra intervalli di tempo — secondo di inizio e di fine — mai le parole. Se ti serve una trascrizione anonimizzata per la codifica, passa in seguito l'audio già pulito nel tuo flusso di trascrizione, oppure usa il nostro strumento di testo su una trascrizione che possiedi già.
Come gestisce due voci — l'intervistatore e il partecipante — in una singola registrazione?
Il rilevamento lavora sulle parole, non su chi le ha dette, così un identificatore viene rimosso sia che l'abbia pronunciato il partecipante sia che tu l'abbia ripetuto per conferma. Una registrazione col telefono di solito mescola entrambe le voci in un'unica traccia mono, e va bene: la mappa temporale viene ricostruita dalla trascrizione, non da canali separati. Se i tuoi identificatori si concentrano nei turni di una voce, la deny-list e un controllo a campione sono il modo per assicurarti che nulla dell'altra voce sia sfuggito.
Il rilevamento automatico funziona per interviste in tedesco, francese o italiano, o solo in inglese e spagnolo?
Gli identificatori strutturati — indirizzi e-mail, numeri di telefono, IBAN, numeri di carta e di documento — vengono colti per formato in qualsiasi lingua. Il riconoscimento di nomi di persona e luoghi è più forte in spagnolo e inglese; per tedesco, francese o italiano è parziale, quindi il cognome di un partecipante può sfuggire. Per il lavoro sul campo in queste lingue, aggiungi i nomi reali alla deny-list perché siano sempre rimossi e mantieni un controllo manuale nel flusso. Preferiamo dichiarare questo limite piuttosto che lasciarti presumere che un nome sia stato colto quando non lo è stato.
Posso aggiungere i nomi reali dei miei partecipanti a una deny-list perché siano sempre rimossi?
Sì, e per interviste che non sono in inglese o spagnolo è il passaggio consigliato. Una deny-list è un insieme di stringhe esatte — il nome di un partecipante, un luogo, un codice interno di progetto — rimosse nella stessa passata a prescindere dal punteggio che il riconoscitore assegna loro. Non indebolisce il rilevamento: garantisce che i valori che già conosci vengano distrutti. La lista serve solo per la corrispondenza e non viene mai scritta nell'output né nel registro di controllo.
L'anonimizzazione è reversibile, e basta a soddisfare il consenso del mio comitato etico?
Gli intervalli individuati vengono distrutti, non nascosti: i campioni sono messi a zero e sostituiti da un bip o dal silenzio nello stesso file, senza strato da rimuovere — quella parte è irreversibile. Se soddisfi il tuo comitato etico è una loro decisione e dipende dal tuo studio. Distruggiamo gli identificatori diretti che individuiamo, ma non certifichiamo una registrazione come anonima, perché gli identificatori indiretti e tutto ciò che il rilevamento ha mancato restano di tua responsabilità da rivedere. Considera lo strumento come il meccanismo che mantiene la promessa del tuo consenso, insieme al tuo controllo — non come un via libera di conformità.

Anonimizza il tuo file ora

Carica il tuo testo, scegli cosa rimuovere e scarica una copia pulita — i dati personali vengono eliminati, non nascosti.

Senza registrazione · Paghi per utilizzo · Oscuramento irreversibile

Passo 1 di 5
Carica il tuo file
Trascina qualsiasi file — riconosciamo automaticamente il tipo. Viene cifrato e caricato direttamente sullo storage, senza passare per noi.

Guide correlate