Welche Dateitypen kann ich hochladen, und was bekomme ich zurück?

Laden Sie ein einfaches `.txt`, ein Word-`.docx` oder ein PDF hoch. Der Text wird extrahiert, die gewählten Kategorien werden lokalisiert und neu geschrieben, und Sie erhalten ein sauberes `.txt`, das Sie per Diff mit der Quelle vergleichen können. Es ist ein Datei-rein-Datei-raus-Vorgang: eine Textdatei für den ganzen Stapel Zeilen, kein Formular pro Datensatz.

Was ist der Unterschied zwischen Entfernen, Maskieren mit Sternchen und Ersetzen durch ?

Entfernen löscht den Abschnitt, sodass an der Stelle des Werts nichts bleibt. Maskieren behält die Länge, indem eine Reihe Sternchen darübergeschrieben wird. Ersetzen setzt einen typisierten Marker wie ` ` oder ` ` ein, was eine Zeile lesbar hält und einem Prüfer zeigt, welche Art Wert dort stand. Sie wählen einen Stil, und er wird auf jeden erkannten Abschnitt der Datei gleich angewendet.

Erkennt es Kartennummern, IBANs und Ausweisnummern zuverlässig — oder markiert es zufällige Ziffern?

Die riskanten Kategorien werden validiert, nicht geraten. Eine sechzehnstellige Zeichenkette gilt nur als Karte, wenn sie den Luhn-Algorithmus besteht, also geht eine echte PAN und eine gleich lange Bestellnummer bleibt. Eine IBAN wird nur entfernt, wenn ihre mod-97-Prüfsumme stimmt, und Telefonnummern werden über ihr nationales Muster erkannt. Da dies arithmetische Prüfungen sind, verhalten sie sich gleich, egal in welcher Sprache der umgebende Text ist.

Funktioniert es mit deutschem, französischem oder italienischem Text, oder nur mit Englisch und Spanisch?

Die strukturierten Kennungen — Karten, IBANs, E-Mails, Telefone, Prüfziffern-IDs — sind sprachunabhängig und funktionieren überall. Personennamen sind anders: das Namensmodell stützt sich auf Spanisch und Englisch, deutsche, französische und italienische Namen werden also nur teilweise erkannt. Für diese Dateien tragen Sie bekannte Nachnamen in die Deny-Liste ein und lesen die Ausgabe gegen — seien Sie an dieser Stelle ehrlich statt Vollständigkeit zu versprechen.

Kann der ursprüngliche Text nach dem Entfernen aus der Ausgabedatei wiederhergestellt werden?

Nein. Die erkannten Zeichen werden aus der Datei selbst herausgeschrieben — gelöscht, maskiert oder ersetzt — und ein frisches `.txt` wird angelegt. Es gibt keine verborgene Schicht darunter und keine Metadaten, die den Text vor der Bereinigung speichern. Die Audit-Liste behält nur Zeichen-Offsets, Anfang und Ende jedes Abschnitts, nie den Wert, der dort war, sodass nichts in der Ausgabe zum Original zurückgeführt werden kann.

PII aus Text entfernen — Namen, E-Mails, Karten und Ausweise aus Datensätzen, Logs und Exporten

Geben Sie eine Datei an jemanden weiter, der die personenbezogenen Daten darin niemals sehen darf — und sorgen Sie dafür, dass er es nicht kann. Wenn Sie einen Ausschnitt der Produktion als CSV ziehen, damit ein Dienstleister einen Bug reproduziert, oder einen Stapel Tickets an ein ausgelagertes Analytics-Team leiten, stehen Namen, E-Mails und Kontonummern nicht in ordentlichen Spalten. Sie stecken als Freitext in Log-Zeilen und Ticket-Texten. Sie können jetzt eine Textdatei bereinigen, ohne Konto: hochladen, die zu entfernenden Kategorien ankreuzen und ein einfaches .txt herunterladen, das Sie mit dem Original vergleichen können.

Wo sich die personenbezogenen Daten wirklich verstecken

In einer Tabelle wissen Sie, welche Spalte die E-Mail enthält. In einem Log-Dump oder Ticket-Export nicht: der Nachname des Kunden taucht mitten im Satz auf, die Telefonnummer klemmt in einem Stacktrace, die Kartennummer hat ein Agent in Eile in eine Notiz geklebt. Genau das macht Massentext so leckanfällig. Die Werte von Hand über Tausende Zeilen zu löschen ist langsam, und ein Fehler ist eine Panne — der Vorgang muss also mechanisch sein.

Laden Sie die Datei hoch und wählen Sie aus den Kategorien, die die Pipeline zu finden weiß:

Personennamen, auch mitten in einer Zeile — für Deutsch teilweise, siehe Deny-Liste.
E-Mails und Telefonnummern, in ihren gängigen internationalen Formen.
Kartennummern (PAN), nach Struktur erkannt und vor dem Entfernen geprüft.
IBANs und Bankdaten, über ihre eingebaute Prüfsumme validiert.
Ausweisnummern — DNI, NIF, NIE, CIF und dergleichen — über ihr Prüfzeichen erkannt.
Postanschriften, die einen Datensatz an einen Ort binden.

Alles, was Sie bereits kennen — ein internes Fallkürzel, ein Projektname, ein bestimmtes Handle — kommt auf eine Deny-Liste und wird im selben Durchgang entfernt.

Validiertes Entfernen, kein Glücksgriff

Die Kategorien, die am meisten wehtäten, wenn ein echter Wert durchrutschte, sind genau die, bei denen die Pipeline nichts errät. Eine Folge von sechzehn Ziffern gilt nur als Kartennummer, wenn sie den Luhn-Algorithmus erfüllt, also wird eine echte PAN entfernt, während eine zufällige Bestellnummer gleicher Länge unangetastet bleibt. Eine IBAN wird nur neu geschrieben, wenn ihr mod-97-Rest korrekt ist. Spanische DNI/NIF/NIE/CIF werden über ihren Prüfbuchstaben erkannt, Telefonnummern über ihr nationales Muster. Da diese Tests arithmetisch sind, funktionieren sie gleich, egal in welcher Sprache der umgebende Text ist — einer strukturierten Kennung ist es egal, ob der Satz um sie herum deutsch oder portugiesisch ist.

Strukturierte IDs reisen zwischen Sprachen; Namen nicht

Der Namenserkenner stützt sich auf spanische und englische Modelle, deshalb werden Personennamen in deutschem, französischem und italienischem Text nur teilweise gefunden. Seien Sie sich ehrlich darüber: tragen Sie bekannte Nachnamen in die Deny-Liste ein und lesen Sie diese Dateien gegen. Karten, IBANs, E-Mails, Telefone und Prüfziffern-IDs sind sprachunabhängig und brauchen diesen Vorbehalt nicht."

Von Hand bearbeiten gegen einen deterministischen Durchgang

Werte von Hand löschen

Ein Suchen-und-Ersetzen übersieht die eine anders geschriebene Zeile
Jeder Prüfer entfernt eine leicht andere Auswahl
Kein Protokoll darüber, was entfernt wurde und wo
Ein einziger übersehener Wert ist ein Leck

Eine deterministische Neuschreibung

Jeder Abschnitt einer gewählten Kategorie wird in einem Durchgang gefunden
Dieselbe Eingabe ergibt dieselbe Ausgabe, Durchgang für Durchgang
Entfernen, mit * maskieren oder durch <ENTITY> ersetzen — Ihre Wahl
Die Audit-Liste behält Zeichen-Offsets, nie den Wert

Die Ausgabe ist ein einfaches .txt, Sie können sie also per Diff mit der Quelle vergleichen und selbst sehen, dass jeder erkannte Abschnitt weg ist: gelöscht, mit einer Reihe Sternchen maskiert oder durch einen typisierten Marker ersetzt. Welchen Stil Sie wählen, wird überall in der Datei gleich angewendet. Und die Audit-Spur protokolliert nur, wo ein Abschnitt saß — seinen Anfang und sein Ende — nie die Zeichen, die dort waren, sodass nicht einmal das Protokoll selbst verraten kann, was es entfernt hat.

0Konten nötig, um eine Datei zu bereinigen

LuhnPrüfung, bevor eine Kartennummer entfernt wird

.txteinfache Ausgabe zum Diff gegen die Quelle

Datenminimierung ist der rechtliche Kern

Artikel 5 Abs. 1 lit. c DSGVO macht Minimierung verbindlich: personenbezogene Daten müssen auf das Notwendige beschränkt sein. Ein Dienstleister, der eine Abfrage debuggt, oder eine Staging-Maschine, die eine Testsuite fährt, braucht keine echten Identitäten — nach dem Grundsatz sollte er sie also nicht erhalten. Artikel 4 Nr. 5 zieht die Linie, auf die es Ihnen wirklich ankommt: pseudonymisierte Datensätze lassen sich weiterhin zurückverfolgen, während das vollständige Entfernen der Kennungen die Datei Richtung Anonymisierung und aus diesem Risiko heraus schiebt. Einen rohen Export an einen Dritten zu geben oder Echtdaten in eine Nicht-Produktivumgebung zu kopieren ist genau das, worauf Aufsichtsbehörden schauen. Die PII vorher zu entfernen ist der günstigste Weg, auf der richtigen Seite dieser Linie zu bleiben — und dieses Werkzeug verarbeitet Text und gibt Text zurück: es markiert kein PDF visuell, pixelt kein Gesicht und piept keine Audiodatei, das sind eigene Aufgaben mit eigenen Werkzeugen.

Jetzt eine Datei bereinigen

Laden Sie das .txt, .docx oder PDF hoch, wählen Sie die Kategorien und den Neuschreib-Stil, bestätigen Sie den Preis und laden Sie die saubere Kopie herunter. Die Erkennung findet die Abschnitte; deterministischer Code schreibt sie neu, das Ergebnis ist also jedes Mal gleich. Kein Konto, zahlen Sie nur für das, was Sie bereinigen.

Wann Sie das brauchen

Ein Entwickler muss eine Datei an jemanden übergeben, der die personenbezogenen Daten darin niemals sehen sollte. Das kann ein Produktions-Export der Datenbank sein, der als CSV gezogen wurde, damit ein Dienstleister einen Bug reproduziert; ein Stapel Support-Tickets, der an ein ausgelagertes Analytics-Team geht; oder ein Ausschnitt der Anwendungs-Logs, der zu Test-Fixtures für eine Staging-Umgebung wird. Die Datei ist Freitext, also stehen Kundennamen, E-Mails, Telefonnummern, Ausweisnummern, IBANs und die eine oder andere Kartennummer nicht in beschrifteten Spalten — sie sind über Log-Zeilen und Ticket-Texte verstreut. Sie von Hand über Tausende Zeilen zu löschen ist fehleranfällig, und ein übersehener Wert ist ein Leck. Laden Sie die Datei hoch, wählen Sie die zu entfernenden Kategorien, und jeder Abschnitt, der ein Name, eine E-Mail, ein Telefon, eine Karte, eine IBAN oder eine Ausweisnummer ist, wird lokalisiert und deterministisch neu geschrieben — das .txt, das Sie übergeben, trägt die Struktur und keine der Personen.

Der Compliance-Aspekt

Artikel 5 Abs. 1 lit. c DSGVO macht Datenminimierung zum verbindlichen Grundsatz: personenbezogene Daten müssen auf das Notwendige beschränkt sein, und ein Dienstleister, der eine Abfrage debuggt, oder eine Staging-Maschine, die Tests fährt, braucht keine echten Identitäten. Artikel 4 Nr. 5 zieht die Linie, auf die es Ihnen wirklich ankommt: Pseudonymisierung erlaubt weiterhin die Rückführung eines Datensatzes, während das vollständige Entfernen der Kennungen die Datei Richtung Anonymisierung und aus diesem Risiko heraus bewegt. Einen rohen Export an einen Dritten zu geben oder Echtdaten in eine Nicht-Produktivumgebung zu kopieren ist genau das, worauf Aufsichtsbehörden schauen; die PII vorher zu entfernen ist der günstigste Weg, auf der richtigen Seite dieser Linie zu bleiben.

Was Sie überprüfen können

Das Ergebnis ist ein einfaches .txt, das Sie per Diff mit dem Original vergleichen können. Jeder erkannte Abschnitt ist weg: gelöscht, mit einer Reihe Sternchen maskiert oder durch einen typisierten Marker wie <PERSON> oder <IBAN_CODE> ersetzt — Ihre Wahl, jedes Mal gleich angewendet. Die riskanten Kategorien werden validiert, nicht geraten: eine sechzehnstellige Zeichenkette wird nur entfernt, wenn sie die Luhn-Prüfung besteht, eine IBAN nur, wenn ihre mod-97-Prüfsumme stimmt — echte Kartennummern gehen, eine zufällige Bestellnummer bleibt. Die Audit-Liste speichert nur Zeichen-Offsets — Anfang und Ende — nie den Wert, der dort stand.

Häufig gestellte Fragen

Welche Dateitypen kann ich hochladen, und was bekomme ich zurück?: Laden Sie ein einfaches `.txt`, ein Word-`.docx` oder ein PDF hoch. Der Text wird extrahiert, die gewählten Kategorien werden lokalisiert und neu geschrieben, und Sie erhalten ein sauberes `.txt`, das Sie per Diff mit der Quelle vergleichen können. Es ist ein Datei-rein-Datei-raus-Vorgang: eine Textdatei für den ganzen Stapel Zeilen, kein Formular pro Datensatz.
Was ist der Unterschied zwischen Entfernen, Maskieren mit Sternchen und Ersetzen durch <ENTITY>?: Entfernen löscht den Abschnitt, sodass an der Stelle des Werts nichts bleibt. Maskieren behält die Länge, indem eine Reihe Sternchen darübergeschrieben wird. Ersetzen setzt einen typisierten Marker wie `<PERSON>` oder `<IBAN_CODE>` ein, was eine Zeile lesbar hält und einem Prüfer zeigt, welche Art Wert dort stand. Sie wählen einen Stil, und er wird auf jeden erkannten Abschnitt der Datei gleich angewendet.
Erkennt es Kartennummern, IBANs und Ausweisnummern zuverlässig — oder markiert es zufällige Ziffern?: Die riskanten Kategorien werden validiert, nicht geraten. Eine sechzehnstellige Zeichenkette gilt nur als Karte, wenn sie den Luhn-Algorithmus besteht, also geht eine echte PAN und eine gleich lange Bestellnummer bleibt. Eine IBAN wird nur entfernt, wenn ihre mod-97-Prüfsumme stimmt, und Telefonnummern werden über ihr nationales Muster erkannt. Da dies arithmetische Prüfungen sind, verhalten sie sich gleich, egal in welcher Sprache der umgebende Text ist.
Funktioniert es mit deutschem, französischem oder italienischem Text, oder nur mit Englisch und Spanisch?: Die strukturierten Kennungen — Karten, IBANs, E-Mails, Telefone, Prüfziffern-IDs — sind sprachunabhängig und funktionieren überall. Personennamen sind anders: das Namensmodell stützt sich auf Spanisch und Englisch, deutsche, französische und italienische Namen werden also nur teilweise erkannt. Für diese Dateien tragen Sie bekannte Nachnamen in die Deny-Liste ein und lesen die Ausgabe gegen — seien Sie an dieser Stelle ehrlich statt Vollständigkeit zu versprechen.
Kann der ursprüngliche Text nach dem Entfernen aus der Ausgabedatei wiederhergestellt werden?: Nein. Die erkannten Zeichen werden aus der Datei selbst herausgeschrieben — gelöscht, maskiert oder ersetzt — und ein frisches `.txt` wird angelegt. Es gibt keine verborgene Schicht darunter und keine Metadaten, die den Text vor der Bereinigung speichern. Die Audit-Liste behält nur Zeichen-Offsets, Anfang und Ende jedes Abschnitts, nie den Wert, der dort war, sodass nichts in der Ausgabe zum Original zurückgeführt werden kann.

Personenbezogene Daten aus einer Textdatei entfernen, bevor Sie sie teilen

Wo sich die personenbezogenen Daten wirklich verstecken

Validiertes Entfernen, kein Glücksgriff

Von Hand bearbeiten gegen einen deterministischen Durchgang

Datenminimierung ist der rechtliche Kern

Jetzt eine Datei bereinigen

Wann Sie das brauchen

Der Compliance-Aspekt

Was Sie überprüfen können

Häufig gestellte Fragen

Anonymisieren Sie Ihre Datei jetzt

Verwandte Leitfäden

Personenbezogene Daten vor ChatGPT entfernen — Text schwärzen, den Sie in ein LLM einfügen

PII aus Anrufaufzeichnungen schwärzen — gesprochene Kartendaten piepen oder stummschalten

CCTV-Aufnahmen anonymisieren — Unbeteiligte fuer eine Auskunftsanfrage schwaerzen