01 | 2021 public
Schwerpunkt: Daten und KI
Schwerpunkt: Daten und KI
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
IS IT A MATCH?<br />
Dublettenerkennung in der<br />
öffentlichen Verwaltung<br />
| von NEDISLAV NEDYALKOV und DOMINIK MÜLLER<br />
Manchmal erinnert unsere Arbeit an<br />
die Aufforderung eines etwas ruppigen<br />
Hauptkommissars an seinen Mitarbeiter<br />
in einem Vorabendkrimi: „Hier, gleichen<br />
Sie mal die Daten der Rentenkassen mit<br />
diesen Meldedaten ab!“ Nur landet in<br />
unserem Fall kein Aktenstapel auf dem<br />
Schreibtisch, sondern der Zugang zu einer<br />
äußerst umfangreichen Datenbank – so<br />
wie im Projektbeispiel bei der Bundesagentur<br />
für Arbeit, das wir in diesem Beitrag<br />
vorstellen.<br />
Doch was hat das mit Data Science<br />
zu tun? Könnten wir nicht einfach jedes<br />
mögliche Rentenkassen-Meldedaten-Paar<br />
ansehen und prüfen, ob es sich<br />
hier um dasselbe Objekt handelt? Leider<br />
nicht. Es würde schlichtweg viel zu lange<br />
dauern. Im Beispiel der Arbeitsagentur<br />
geht es um zehn Millionen Datensätze<br />
der Rentenkassen und drei Millionen<br />
Datensätze aus Meldedaten. Bei einem<br />
vollständigen Abgleich kämen wir auf<br />
dreißig Billionen Paarungen. Selbst wenn<br />
jeder automatische Abgleich nur eine<br />
Millisekunde dauern würde, entspräche<br />
das einer Rechenzeit von etwa 950 Jahren<br />
– ohne Pause, ohne Ausfälle. So lange<br />
möchte niemand warten – weder wir<br />
noch die Arbeitsagentur. Gefragt ist also<br />
eine weitaus schnellere Lösung. Und sie<br />
muss (zumindest fast) so gut sein wie ein<br />
vollständiger Abgleich. Damit stehen wir<br />
also vor nicht weniger als der Herausforderung,<br />
sogenannte Dubletten zuverlässig<br />
erkennen zu können.<br />
Herausforderung angenommen: Im<br />
Folgenden stellen wir eine Lösung für<br />
dieses Problem vor, ebenso wie einen<br />
Prototyp für die Implementierung. Keine<br />
Sorge: Auf mathematische Definitionen<br />
und Modellbeschreibungen verzichten<br />
wir. Stattdessen liefern wir eine anschauliche<br />
und praxisnahe Beschreibung.<br />
Für diejenigen Leser, die gerne<br />
mehr erfahren möchten, haben wir<br />
Schlüsselbegriffe kursiv gekennzeichnet<br />
und die wichtigsten in Infoboxen näher<br />
beschrieben.<br />
22 | .<strong>public</strong> <strong>01</strong>-21 | Daten und KI