Wie findet das Werkzeug personenbezogene Daten in gesprochenem Audio?

Es transkribiert den Anruf mit wortgenauen Zeitstempeln über ein Sprachmodell der Whisper-Klasse in Text und führt dann Entitätserkennung und prüfsummenvalidierte Matcher über dieses Transkript aus. Namen und Orte stammen aus der Entitätserkennung; Kartennummern, IBANs und Ausweisnummern werden anhand ihrer Struktur erkannt und validiert — eine Kartennummer wird nur markiert, wenn sie die Luhn-Prüfung besteht. Das Modell zeigt nur, wo ein Wert gesprochen wird; es bearbeitet das Audio nie.

Ist die Schwärzung umkehrbar, oder wird das Audio wirklich zerstört?

Es wird zerstört. Jeder erkannte Bereich wird in der Wellenform überschrieben: die Originalproben werden auf null gesetzt und durch einen 1-kHz-Piepton oder saubere Stille in derselben Datei ersetzt. Es gibt keine separate Piepspur zum Entfernen und keine versteckte Schicht zum Abziehen. Ist ein Bereich einmal geschwärzt, lässt sich die Sprache, die dort war, aus der Ausgabe nicht rekonstruieren.

Soll ich für Kartendaten einen Piepton oder Stille verwenden?

Für PCI- und Rechtskontexte ist der Piepton die sicherere Standardwahl, weil er eine hörbare Markierung hinterlässt, dass etwas absichtlich entfernt wurde — ein Prüfer kann die Schwärzung hören. Stille ist sauberer für Analytics- und QA-Datensätze, kann aber mit einem Aufzeichnungsausfall verwechselt werden. Beide löschen die zugrunde liegenden Proben, also sind beide unwiderruflich.

Trägt die Ausgabe noch Metadaten der Originalaufzeichnung?

Nein. Der Anruf wird zu einer frischen MP3 mit entfernten Tags neu kodiert, sodass Geräte-IDs, Sitzungsdaten und Zeitstempel der Quelle nicht mitreisen. Die Datei, die Sie herunterladen, ist das bereinigte Audio und sonst nichts.

Was sind die ehrlichen Grenzen der automatischen Erkennung?

Das Finden gesprochener Daten hängt vom Transkript ab. Wird ein Wort nicht transkribiert oder lässt es sich nicht zeitlich ausrichten, bleibt dieser Bereich sicher unberührt, statt geraten zu werden — ein isoliert gesprochener dreistelliger Sicherheitscode ist also kein starkes eigenständiges Signal. Kombinieren Sie den automatischen Durchlauf mit einer menschlichen Stichprobe bei sensiblen Anrufen und ergänzen Sie die Deny-List um exakte Zeichenfolgen, die Sie kennen. Der Zerstörungsschritt ist exakt; der Erkennungsschritt ist nach bestem Bemühen.

PII aus Anrufaufzeichnungen schwärzen — gesprochene Kartendaten piepen oder stummschalten

Bevor eine Anrufaufzeichnung Ihr Archiv verlässt, zerstören Sie die Sekunden, in denen personenbezogene Daten gesprochen werden. Ein Support- oder Vertriebsanruf ist ein unstrukturiertes Gespräch, deshalb stecken Kartennummer, Sicherheitscode und Kundenname nicht in einem beschrifteten Feld — sie werden laut gesprochen, mitten im Satz, über Minuten des Dialogs verstreut. Sie können eine Aufzeichnung jetzt schwärzen ohne Konto: hochladen, die zu entfernenden Kategorien wählen und eine saubere MP3 herunterladen.

Was eine Anrufaufzeichnung wirklich erfasst

Zahlungs- und Supportanrufe verlieren genau die Kategorien, die Regulierungsbehörden am meisten interessieren, und sie verlieren sie als Sprache statt als saubere Datenbankspalten:

Kartendaten im PCI-DSS-Geltungsbereich — die Ziffer für Ziffer vorgelesene primäre Kontonummer, das Ablaufdatum und der dreistellige Sicherheitscode.
Direkte Identifikatoren — vollständige Namen, buchstabierte Nachnamen, Geburtsdaten und E-Mail-Adressen.
Kontakt- und Standortdaten — Telefonnummern, Rechnungs- und Wohnadressen.
Referenznummern — Kunden-IDs, Bestellnummern, IBANs und nationale Ausweisnummern.

Die Schwierigkeit ist nie, was entfernt werden soll. Es ist, wo jeder Wert über Tausende Stunden Audio auftaucht, und ihn so zu entfernen, dass Sie es hinterher nachweisen können. Das ist ein Pipeline-Problem, kein manuelles.

Wie die Schwärzung funktioniert: lokalisieren, dann zerstören

Die Pipeline hält den probabilistischen und den exakten Teil strikt getrennt.

Zuerst lokalisiert sie. Die Aufzeichnung wird auf eine saubere 16-kHz-Monospur normalisiert und mit wortgenauen Zeitstempeln transkribiert — standardmäßig mit einem Whisper-Klasse-Modell in der Cloud oder als Rückfalloption mit einem lokalen Aligner. Das Modell zeigt nur, wo Wörter gesprochen werden; es berührt das Audio nie. Über diesem Transkript arbeitet die Erkennung auf zwei Wegen: die Entitätserkennung markiert Personen und Orte, während prüfsummenvalidierte Matcher strukturierte Identifikatoren fangen — eine Kartennummer wird nur markiert, wenn sie die Luhn-Prüfung besteht, sodass eine echte Kontonummer erfasst wird, während eine zufällige sechzehnstellige Zeichenfolge, die nebenbei gesprochen wird, in Ruhe gelassen wird. Dieselbe Validierung schützt IBANs und Ausweisnummern. Sie können eine eigene Deny-List exakter Zeichenfolgen hinzufügen — ein internes Vorgangskürzel, einen Produktnamen — die im selben Durchlauf entfernt werden.

Dann zerstört deterministischer Code. Jedes erkannte Wort wird seiner Start- und Endzeit zugeordnet, an jeder Seite wird ein kleiner Puffer ergänzt, überlappende Bereiche werden zusammengeführt, damit nichts durch eine Lücke rutscht, und ffmpeg überschreibt die Proben in diesen Bereichen. Nichts an diesem Schritt ist generativ: dieselbe Eingabe erzeugt bei jedem Durchlauf dieselbe Ausgabe.

Die Erkennung ist nach bestem Bemühen — die Zerstörung ist exakt

Wir sind ehrlich mit der Grenze. Gesprochene Daten zu finden hängt vom Transkript ab; wird ein Wort nicht transkribiert oder lässt es sich nicht zeitlich ausrichten, bleibt dieser Bereich sicher unberührt, statt geraten zu werden. Was nicht probabilistisch ist, ist die Entfernung: ist ein Bereich einmal markiert, werden die Originalproben darin physisch zerstört. Kombinieren Sie den automatischen Durchlauf mit einer menschlichen Stichprobe bei Ihren sensibelsten Anrufen.

Stille oder Piepton: Sie wählen die Markierung

Beide Optionen löschen das darunterliegende Audio; sie unterscheiden sich nur darin, was ein Hörer danach hört.

Den Moment verstecken

Lautstärke senken oder dämpfen lässt die Sprache wiederherstellbar
Ein obendrauf gelegter Piepton lässt sich entfernen, um das Original freizulegen
Quell-Metadaten können weiterhin Gerät, Mitarbeiter oder Sitzung benennen
Nichts beweist, dass eine Schwärzung je beabsichtigt war

Die Proben zerstören

Die Wellenform in diesem Bereich wird auf null gesetzt — die Ziffern sind weg
Ein 1-kHz-Piepton oder saubere Stille ersetzt sie in derselben Datei
Die MP3 wird mit entfernten Tags neu kodiert
Die Prüfliste markiert den Bereich, niemals den Wert

Was wir erkennen und was wir nicht versprechen

Wir entfernen durch Luhn validierte Kartennummern, IBANs und Bankdaten, nationale Ausweis- und Passnummern, Namen, E-Mail-Adressen, Telefonnummern und Postadressen — plus alles auf Ihrer Deny-List. Ein isoliert gesprochener dreistelliger Sicherheitscode ist kein starkes eigenständiges Signal, behandeln Sie den Prüfschritt also als Teil des Ablaufs und ergänzen Sie konkrete Werte in der Deny-List, wenn Sie sie kennen. Dieses Werkzeug verarbeitet Audio und liefert Audio: es gibt Ihnen kein Transkript zum Aufbewahren, es erkennt keine Gesichter in Videos und es bearbeitet kein PDF — das sind eigene Modalitäten mit eigenen Werkzeugen.

0Konten nötig, um einen Anruf zu schwärzen

1kHzZensur-Piepton über jedem geschwärzten Bereich

MP3saubere Ausgabe, alle Metadaten entfernt

Schwärzen Sie jetzt eine Anrufaufzeichnung

Laden Sie die Aufzeichnung hoch, wählen Sie, ob gesprochene Kartendaten, Namen, Ausweise und Adressen zu einem Piepton oder zu Stille werden, bestätigen Sie den Preis und laden Sie die saubere MP3 herunter. Die KI findet nur die sensiblen Momente; deterministischer Code zerstört sie, sodass das Ergebnis unwiderruflich und bei jedem Durchlauf identisch ist. Kein Konto, zahlen Sie nur für das, was Sie schwärzen.

Wann Sie das brauchen

Es ist Dienstagnachmittag in einem Contact Center und ein Mitarbeiter nimmt am Telefon eine Kartenzahlung entgegen. Der Kunde liest die sechzehn Ziffern seiner Karte laut vor, dann den dreistelligen Sicherheitscode, buchstabiert seinen Nachnamen und bestätigt die Rechnungsadresse. Jede Sekunde davon wird für Qualitätsbewertung und Streitfälle aufgezeichnet und bleibt monatelang in Ihrem Archiv. Multiplizieren Sie das mit ein paar tausend Anrufen pro Tag, und Sie führen eine durchsuchbare Bibliothek lebender Kartendaten und Identitäten. Laden Sie diese Aufzeichnung zu Medianonymizer hoch, wählen Sie die zu entfernenden Kategorien, und die Sekunden, in denen Kartennummer, Code, Name und Adresse gesprochen werden, werden aus einem wortgenauen Transkript lokalisiert und in der Wellenform zerstört — ersetzt durch einen 1-kHz-Piepton oder durch Stille — bevor die Datei jemals an QA, einen Analytics-Anbieter oder einen externen Prüfer übergeben wird.

Der Compliance-Aspekt

PCI-DSS v4.0 ist eindeutig: sensible Authentifizierungsdaten wie der Kartenprüfcode dürfen nach der Autorisierung niemals gespeichert werden (Anforderung 3.3.1), und die primäre Kontonummer muss überall dort, wo sie gespeichert ist, unlesbar gemacht werden (Anforderungen 3.4 und 3.5). Eine Aufzeichnung, die diese laut vorgelesenen Ziffern erfasst, ist Speicherung. Parallel behandelt die DSGVO Name, Adresse und Telefonnummer des Anrufers als personenbezogene Daten, die Sie minimieren und schützen müssen. Das Zerstören der gesprochenen Werte in der Aufzeichnung nimmt diese Datei für diese Elemente aus dem PCI- und DSGVO-Geltungsbereich heraus: Es bleibt keine Kartennummer zu schützen und keine Identität zu leaken.

Was Sie überprüfen können

Das Ergebnis ist überprüfbar, kein Versprechen. Öffnen Sie die zurückgegebene MP3 und springen Sie zum Zeitpunkt, an dem die Kartennummer vorgelesen wurde: Sie hören einen 1-kHz-Ton oder Stille, nicht die Ziffern — die Originalproben in diesem Bereich sind weg, nicht leiser gedreht und nicht unter einer Schicht versteckt. Prüfen Sie die Tags der Datei mit einem beliebigen Werkzeug, und es sind keine ID3-Metadaten übernommen worden. Die Prüfliste erfasst nur die geschwärzten Zeitbereiche — Start- und Endsekunde — niemals die Zahlen selbst, sodass nicht einmal das Protokoll preisgeben kann, was es entfernt hat.

Häufig gestellte Fragen

Wie findet das Werkzeug personenbezogene Daten in gesprochenem Audio?: Es transkribiert den Anruf mit wortgenauen Zeitstempeln über ein Sprachmodell der Whisper-Klasse in Text und führt dann Entitätserkennung und prüfsummenvalidierte Matcher über dieses Transkript aus. Namen und Orte stammen aus der Entitätserkennung; Kartennummern, IBANs und Ausweisnummern werden anhand ihrer Struktur erkannt und validiert — eine Kartennummer wird nur markiert, wenn sie die Luhn-Prüfung besteht. Das Modell zeigt nur, wo ein Wert gesprochen wird; es bearbeitet das Audio nie.
Ist die Schwärzung umkehrbar, oder wird das Audio wirklich zerstört?: Es wird zerstört. Jeder erkannte Bereich wird in der Wellenform überschrieben: die Originalproben werden auf null gesetzt und durch einen 1-kHz-Piepton oder saubere Stille in derselben Datei ersetzt. Es gibt keine separate Piepspur zum Entfernen und keine versteckte Schicht zum Abziehen. Ist ein Bereich einmal geschwärzt, lässt sich die Sprache, die dort war, aus der Ausgabe nicht rekonstruieren.
Soll ich für Kartendaten einen Piepton oder Stille verwenden?: Für PCI- und Rechtskontexte ist der Piepton die sicherere Standardwahl, weil er eine hörbare Markierung hinterlässt, dass etwas absichtlich entfernt wurde — ein Prüfer kann die Schwärzung hören. Stille ist sauberer für Analytics- und QA-Datensätze, kann aber mit einem Aufzeichnungsausfall verwechselt werden. Beide löschen die zugrunde liegenden Proben, also sind beide unwiderruflich.
Trägt die Ausgabe noch Metadaten der Originalaufzeichnung?: Nein. Der Anruf wird zu einer frischen MP3 mit entfernten Tags neu kodiert, sodass Geräte-IDs, Sitzungsdaten und Zeitstempel der Quelle nicht mitreisen. Die Datei, die Sie herunterladen, ist das bereinigte Audio und sonst nichts.
Was sind die ehrlichen Grenzen der automatischen Erkennung?: Das Finden gesprochener Daten hängt vom Transkript ab. Wird ein Wort nicht transkribiert oder lässt es sich nicht zeitlich ausrichten, bleibt dieser Bereich sicher unberührt, statt geraten zu werden — ein isoliert gesprochener dreistelliger Sicherheitscode ist also kein starkes eigenständiges Signal. Kombinieren Sie den automatischen Durchlauf mit einer menschlichen Stichprobe bei sensiblen Anrufen und ergänzen Sie die Deny-List um exakte Zeichenfolgen, die Sie kennen. Der Zerstörungsschritt ist exakt; der Erkennungsschritt ist nach bestem Bemühen.

Zerstören Sie gesprochene personenbezogene Daten in einer Anrufaufzeichnung

Was eine Anrufaufzeichnung wirklich erfasst

Wie die Schwärzung funktioniert: lokalisieren, dann zerstören

Stille oder Piepton: Sie wählen die Markierung

Was wir erkennen und was wir nicht versprechen

Schwärzen Sie jetzt eine Anrufaufzeichnung

Wann Sie das brauchen

Der Compliance-Aspekt

Was Sie überprüfen können

Häufig gestellte Fragen

Anonymisieren Sie Ihre Datei jetzt

Verwandte Leitfäden

Personenbezogene Daten vor ChatGPT entfernen — Text schwärzen, den Sie in ein LLM einfügen

CCTV-Aufnahmen anonymisieren — Unbeteiligte fuer eine Auskunftsanfrage schwaerzen

Dashcam-Aufnahmen anonymisieren — andere Personen vor dem Teilen verpixeln