20.04.2021 Aufrufe

01 | 2021 public

Schwerpunkt: Daten und KI

Schwerpunkt: Daten und KI

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

IS IT A MATCH?<br />

Dublettenerkennung in der<br />

öffentlichen Verwaltung<br />

| von NEDISLAV NEDYALKOV und DOMINIK MÜLLER<br />

Manchmal erinnert unsere Arbeit an<br />

die Aufforderung eines etwas ruppigen<br />

Hauptkommissars an seinen Mitarbeiter<br />

in einem Vorabendkrimi: „Hier, gleichen<br />

Sie mal die Daten der Rentenkassen mit<br />

diesen Meldedaten ab!“ Nur landet in<br />

unserem Fall kein Aktenstapel auf dem<br />

Schreibtisch, sondern der Zugang zu einer<br />

äußerst umfangreichen Datenbank – so<br />

wie im Projektbeispiel bei der Bundesagentur<br />

für Arbeit, das wir in diesem Beitrag<br />

vorstellen.<br />

Doch was hat das mit Data Science<br />

zu tun? Könnten wir nicht einfach jedes<br />

mögliche Rentenkassen-Meldedaten-Paar<br />

ansehen und prüfen, ob es sich<br />

hier um dasselbe Objekt handelt? Leider<br />

nicht. Es würde schlichtweg viel zu lange<br />

dauern. Im Beispiel der Arbeitsagentur<br />

geht es um zehn Millionen Datensätze<br />

der Rentenkassen und drei Millionen<br />

Datensätze aus Meldedaten. Bei einem<br />

vollständigen Abgleich kämen wir auf<br />

dreißig Billionen Paarungen. Selbst wenn<br />

jeder automatische Abgleich nur eine<br />

Millisekunde dauern würde, entspräche<br />

das einer Rechenzeit von etwa 950 Jahren<br />

– ohne Pause, ohne Ausfälle. So lange<br />

möchte niemand warten – weder wir<br />

noch die Arbeitsagentur. Gefragt ist also<br />

eine weitaus schnellere Lösung. Und sie<br />

muss (zumindest fast) so gut sein wie ein<br />

vollständiger Abgleich. Damit stehen wir<br />

also vor nicht weniger als der Herausforderung,<br />

sogenannte Dubletten zuverlässig<br />

erkennen zu können.<br />

Herausforderung angenommen: Im<br />

Folgenden stellen wir eine Lösung für<br />

dieses Problem vor, ebenso wie einen<br />

Prototyp für die Implementierung. Keine<br />

Sorge: Auf mathematische Definitionen<br />

und Modellbeschreibungen verzichten<br />

wir. Stattdessen liefern wir eine anschauliche<br />

und praxisnahe Beschreibung.<br />

Für diejenigen Leser, die gerne<br />

mehr erfahren möchten, haben wir<br />

Schlüsselbegriffe kursiv gekennzeichnet<br />

und die wichtigsten in Infoboxen näher<br />

beschrieben.<br />

22 | .<strong>public</strong> <strong>01</strong>-21 | Daten und KI

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!