Antes de uma gravação sair do seu arquivo, destrua os segundos em que são ditos dados pessoais. Uma chamada de apoio ou de vendas é uma conversa não estruturada, por isso o número de cartão, o código de segurança e o nome do cliente não estão num campo etiquetado: são ditos em voz alta, a meio de uma frase, espalhados por minutos de diálogo. Pode redigir uma gravação agora sem conta: envie-a, escolha as categorias a remover e transfira um MP3 limpo.
O que uma gravação de chamada capta na verdade
As chamadas de pagamento e apoio deixam escapar exatamente as categorias que mais preocupam os reguladores, e deixam-nas escapar como fala em vez de colunas arrumadas de uma base de dados:
- Dados de cartão no âmbito PCI-DSS — o número de conta principal lido dígito a dígito, a validade e o código de segurança de três dígitos.
- Identificadores diretos — nomes completos, apelidos soletrados, datas de nascimento e endereços de e-mail.
- Dados de contacto e localização — números de telefone, moradas de faturação e domicílio.
- Números de referência — identificadores de cliente, números de encomenda, IBAN e documentos de identidade nacionais.
A dificuldade nunca é o quê remover. É encontrar onde cada valor aparece ao longo de milhares de horas de áudio, e removê-lo de uma forma que possa provar depois. Isto é um problema de pipeline, não de trabalho manual.
Como funciona a redação: localizar e depois destruir
A pipeline mantém rigorosamente separadas a parte probabilística e a parte exata.
Primeiro localiza. A gravação é normalizada para uma faixa mono limpa a 16 kHz e transcrita com marcas de tempo ao nível da palavra — usando por defeito um modelo do tipo Whisper na nuvem, ou um alinhador local como recurso. O modelo apenas indica onde as palavras são ditas; nunca toca no áudio. Sobre essa transcrição, a deteção atua de duas formas: o reconhecimento de entidades assinala pessoas e locais, enquanto detetores validados por checksum apanham identificadores estruturados — um número de cartão só é assinalado se passar a verificação de Luhn, de modo que um número de conta real é apanhado enquanto uma cadeia aleatória de dezasseis dígitos dita de passagem é deixada em paz. A mesma validação protege os IBAN e os documentos de identidade. Pode acrescentar a sua própria deny-list de cadeias exatas — um código interno de processo, um nome de produto — para serem removidas na mesma passagem.
Depois, o código determinista destrói. Cada palavra detetada é remapeada para o seu tempo de início e fim, acrescenta-se uma pequena margem de cada lado, os trechos sobrepostos são fundidos para que nada escape por uma fenda, e o ffmpeg reescreve as amostras desses trechos. Nada neste passo é generativo: a mesma entrada produz a mesma saída em cada execução.
A deteção é do melhor esforço — a destruição é exata
Somos honestos quanto ao limite. Encontrar dados falados depende da transcrição; se uma palavra não for transcrita ou não puder ser alinhada no tempo, esse trecho é deixado intacto em segurança em vez de adivinhado. O que não é probabilístico é a remoção: depois de um trecho ser marcado, as amostras originais que contém são fisicamente destruídas. Combine a passagem automática com uma verificação humana nas suas chamadas mais sensíveis.
Silêncio ou bip: escolhe a marca
Ambas as opções apagam o áudio por baixo; diferem apenas no que um ouvinte ouve depois.
- Baixar o volume ou abafar deixa a fala recuperável
- Um bip colocado por cima pode ser retirado para expor o original
- Os metadados de origem ainda podem nomear o dispositivo, o agente ou a sessão
- Nada prova que uma redação foi intencional
- A forma de onda desse trecho é posta a zero — os dígitos desapareceram
- Um bip a 1 kHz ou silêncio limpo substitui-os no mesmo ficheiro
- O MP3 é recodificado com todas as etiquetas removidas
- A lista de auditoria marca o trecho, nunca o valor
O que detetamos e o que não prometemos
Removemos números de cartão validados por Luhn, IBAN e dados bancários, documentos de identidade e passaportes, nomes, endereços de e-mail, números de telefone e moradas postais — além de tudo o que estiver na sua deny-list. Um código de segurança de três dígitos dito isoladamente não é um sinal forte por si só, por isso trate o passo de revisão como parte do fluxo e acrescente valores concretos à deny-list quando os conhecer. Esta ferramenta processa áudio e devolve áudio: não lhe entrega uma transcrição para guardar, não deteta rostos em vídeo e não marca um PDF — essas são modalidades distintas com as suas próprias ferramentas.
Redija uma gravação de chamada agora
Envie a gravação, escolha se os dados de cartão, nomes, documentos e moradas ditos se tornam um bip ou silêncio, confirme o preço e transfira o MP3 limpo. A IA apenas encontra os momentos sensíveis; o código determinista destrói-os, por isso o resultado é irreversível e idêntico em cada execução. Sem conta, pague só pelo que redige.
Quando precisa disto
É uma terça-feira à tarde num centro de contacto e um agente está a receber um pagamento com cartão ao telefone. O cliente lê em voz alta os dezasseis dígitos do cartão, depois o código de segurança de três dígitos, soletra o apelido e confirma a morada de faturação. Cada segundo está a ser gravado para avaliação de qualidade e resolução de litígios, e ficará no seu arquivo durante meses. Multiplique isso por alguns milhares de chamadas por dia e está a guardar uma biblioteca pesquisável de dados de cartão vivos e de identidades. Envie essa gravação para o Medianonymizer, escolha as categorias a remover, e os segundos em que o número de cartão, o código, o nome e a morada são ditos são localizados a partir de uma transcrição palavra a palavra e destruídos na forma de onda — substituídos por um bip a 1 kHz ou por silêncio — antes de o ficheiro ser entregue à qualidade, a um fornecedor de analítica ou a um revisor externo.
O ângulo da conformidade
A norma PCI-DSS v4.0 é explícita: os dados de autenticação sensíveis, como o código de verificação do cartão, nunca devem ser conservados após a autorização (requisito 3.3.1), e o número de conta principal deve ser tornado ilegível onde quer que seja armazenado (requisitos 3.4 e 3.5). Uma gravação que capta esses dígitos lidos em voz alta é armazenamento. Em paralelo, o RGPD trata o nome, a morada e o telefone de quem liga como dados pessoais que tem de minimizar e proteger. Destruir os valores falados dentro da gravação tira esse ficheiro do âmbito do PCI e do RGPD para esses elementos: não sobra nenhum número de cartão para proteger nem nenhuma identidade para vazar.
O que pode verificar
O resultado é verificável, não uma promessa. Abra o MP3 devolvido e salte para o momento em que o número de cartão foi lido: ouve um tom a 1 kHz ou silêncio, não os dígitos — as amostras originais desse trecho desapareceram, não foram baixadas de volume nem escondidas sob uma camada. Inspecione as etiquetas do ficheiro com qualquer ferramenta e não há metadados ID3 transferidos. A lista de auditoria regista apenas os trechos de tempo redigidos — segundo de início e de fim — nunca os números em si, de modo que nem o próprio registo pode vazar o que removeu.
Perguntas frequentes
- Como é que a ferramenta encontra dados pessoais no áudio falado?
- Transcreve a chamada para texto com marcas de tempo ao nível da palavra usando um modelo de voz do tipo Whisper, e depois executa reconhecimento de entidades e detetores validados por checksum sobre essa transcrição. Nomes e locais vêm do reconhecimento de entidades; números de cartão, IBAN e documentos de identidade são detetados pela estrutura e validados — um número de cartão só é assinalado se passar a verificação de Luhn. O modelo apenas indica onde um valor é dito; nunca edita o áudio.
- A redação é reversível ou o áudio é mesmo destruído?
- É destruído. Cada trecho detetado é reescrito na forma de onda: as amostras originais são postas a zero e substituídas por um bip a 1 kHz ou por silêncio limpo no mesmo ficheiro. Não há uma faixa de bip separada para retirar nem uma camada escondida para descolar. Depois de um trecho ser redigido, a fala que lá estava não pode ser reconstruída a partir da saída.
- Devo usar um bip ou silêncio para os dados de cartão?
- Para contextos PCI e legais, o bip é a escolha padrão mais segura porque deixa uma marca audível de que algo foi removido de propósito — um auditor consegue ouvir a redação. O silêncio é mais limpo para conjuntos de dados de analítica e qualidade, mas pode ser confundido com uma quebra na gravação. Ambos apagam as amostras subjacentes, por isso ambos são irreversíveis.
- A saída ainda transporta metadados da gravação original?
- Não. A chamada é recodificada para um MP3 novo com todas as etiquetas removidas, de modo que identificadores de dispositivo, dados de sessão e marcas de tempo da origem não viajam com ela. O ficheiro que transfere é o áudio limpo e nada mais.
- Quais são os limites honestos da deteção automática?
- Encontrar dados falados depende da transcrição. Se uma palavra não for transcrita ou não puder ser alinhada no tempo, esse trecho é deixado intacto em segurança em vez de adivinhado, por isso um código de segurança de três dígitos dito isoladamente não é um sinal forte por si só. Combine a passagem automática com uma verificação humana nas chamadas sensíveis e acrescente à deny-list as cadeias exatas que conhece. O passo de destruição é exato; o passo de deteção é do melhor esforço.