Arno Knobbe - Universiteit Leiden
Arno Knobbe - Universiteit Leiden
Arno Knobbe - Universiteit Leiden
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
22<br />
dr. arno <strong>Knobbe</strong> is dataminer – iemand die met hulp van computers zinnige kennis kan halen uit grote hoeveelheden data. hij is senior<br />
onderzoeker in de data mining-groep van het LiaCs, het informatica-instituut van de universiteit <strong>Leiden</strong>. <strong>Knobbe</strong> is groepsleider van<br />
tien promovendi, postdocs en programmeurs. hij begon zijn carrière in het bedrijfsleven, als dataminer bij een it-bedrijf. daarna werkte<br />
hij als zelfstandig ondernemer, en rondde ondertussen in zijn eigen tijd een proefschrift af over data mining. daarna werkte hij vier jaar<br />
als postdoc in utrecht, waarna hij in 2009 overstapte naar <strong>Leiden</strong>.
arno knoBBe<br />
<strong>Leiden</strong> institute of advanCed Computer sCienCe<br />
De computer ziet meer<br />
de computercode die hij ontwikkelt is onbegrijpelijk voor de leek,<br />
maar dataminer arno <strong>Knobbe</strong> kan met praktijkvoorbeelden precies<br />
uitleggen wat die code kan. frauderende artsen opsporen in<br />
declaratiegegevens van achmea bijvoorbeeld, of een middeleeuws<br />
facebook opbouwen aan de hand van verkoopakten. “de praktijk<br />
is ingewikkelder dan je kunt verzinnen.”<br />
“Toen ik op huizenjacht ging, heb ik een databankje gemaakt<br />
met alle beschikbare gegevens van interessante huizen. Dan zie<br />
je zo dat een extra slaapkamer ongeveer 40.000 euro kost en dat<br />
de huizenprijs afneemt als je verder van het station woont. Dat<br />
is de manier waarop je als dataminer naar de wereld kijkt”, lacht<br />
<strong>Arno</strong> <strong>Knobbe</strong>.<br />
Om op serieuze toon te vertellen over de databank van Canadese<br />
koophuizen, die hij voor zijn onderzoek gebruikt. “Die twintig<br />
huizen van mij had je zo nog kunnen overzien. Maar bij de<br />
databanken waar wij mee werken, gaat dat niet.” De Canadese<br />
databank bevat ruim 500 huizen met hun kenmerken, zoals<br />
verkoopprijs, perceelgrootte, aantal slaapkamers en badkamers<br />
en ga zo maar door. Bij elkaar een kluwen aan informatie. “Wij<br />
vragen ons af wat voor verbanden er in die onoverzichtelijke<br />
dataset verstopt zitten.”<br />
<strong>Knobbe</strong> werkt als onderzoeker en groepsleider bij het informatica-instituut<br />
LIACS. Zijn groep ontwikkelt methoden om relevante<br />
informatie uit een databrij te vissen. “Welke huizen het best<br />
verkoopbaar zijn bijvoorbeeld, of wat de beste beleggingsobjecten<br />
zijn.” De Leidse dataminers maken analyseprogramma’s die<br />
zoeken naar ‘subgroepen, die afwijken van de rest van de dataset’.<br />
“Zo kan uit de analyse rollen dat huizen met een oprit, zoveel<br />
vierkante meter grond en twee badkamers geliefde objecten zijn.”<br />
Het gaat hem niet om die huizen zelf. Zijn groep werkt ook aan<br />
methoden voor fraudedetectie voor verzekeraar Achmea. “Daar<br />
komt dan met soortgelijke methoden een subgroep boven van<br />
tandartsen die opvallend vaak röntgenfoto’s of adviesgesprekken<br />
declareren.” Het werken met datasets uit de praktijk geeft zoveel<br />
inspiratie, vertelt hij. De ruwe werkelijkheid is ingewikkelder<br />
dan de verzonnen datasets waar onderzoekers hun methoden<br />
vaak op testen. <strong>Knobbe</strong>: “Een mooie theorie publiceren, met<br />
een fundamentele component, en dan als uitsmijter een mooie<br />
toepassing – daar houd ik van.”<br />
Zijn onderzoeksgroep is de laatste tijd hard gegroeid. De rol van<br />
groepsleider ligt hem goed, vertelt hij. “Zelf software ontwikkelen<br />
of stoeien met een mooie dataset is geweldig, dat heb ik<br />
als postdoc gedaan. Maar nu kan ik meerdere projecten doen, ik<br />
krijg meer voor elkaar. Soms ben ik wel jaloers op de postdocs<br />
en promovendi. Dan spotten ze: ‘laat eens zien of je het nog kan’.<br />
Gelukkig blijk ik het nog niet verleerd.”<br />
<strong>Knobbe</strong> legt uit dat de fundamentele onderzoeksvraag is hoe<br />
je in datasets de juiste, interessante subgroepen kan vinden.<br />
Neem weer die Canadese huizenmarkt. Banken of makelaars<br />
hebben niets aan zoekalgoritmen die aankomen met de subgroep<br />
‘huizen met een keuken en minstens één slaapkamer’. Te groot<br />
en algemeen. Maar de subgroep ‘huizen van twee verdiepingen<br />
met een voordeur op het oosten, drie badkamers, een zwart dak<br />
23
24<br />
arno knoBBe<br />
en een zwembad’ is ook oninteressant. Te gedetailleerd. Of, zoals<br />
<strong>Knobbe</strong> formuleert: “Die subgroep is te klein om nog voorspellende<br />
waarde te hebben. Je wilt dat het algoritme uitkomt op een<br />
handjevol subgroepen, die je daadwerkelijk meer vertellen over<br />
de huizenmarkt.” De vraag is hoe complex je algoritme dan moet<br />
zijn. “Het model wordt niet steeds beter naarmate het complexer<br />
wordt. Er is een omslagpunt, waarna de prestaties weer afnemen.<br />
De kunst is dus om het punt te vinden waar het model maximaal<br />
presteert.”<br />
Daarnaast is het belangrijk dat de analyse razendsnel gaat. “Een<br />
dag rekenen mag, maar niemand wil een jaar wachten. Vergelijk<br />
het met een immens landschap, dat je snel met slechts honderd<br />
mensen moet verkennen. Dan verspreid je de verkenners eerst<br />
netjes over het land. Stel dat een paar dan wat heuveltjes zien.<br />
Dan stuur je extra verkenners die kant op – misschien ligt er een<br />
gebergte. Zo doe je dat binnen datasets ook. Het zoekalgoritme<br />
vindt kleine afwijkingen ten opzichte van de omgeving. Die af -<br />
wijkingen pluist het uit.”<br />
Naast ‘subgroepen’ heeft <strong>Knobbe</strong> nog een interessegebied: de<br />
analyse van sensordata. Ook hier haalt hij inspiratie uit de<br />
praktijk. Samen met industriepartner Strukton en de Technische<br />
<strong>Universiteit</strong> Delft doet hij onderzoek naar de Hollandse Brug.<br />
In die verbindingsbrug tussen Flevoland en Noord-Holland zitten<br />
145 sensoren om trillingen en temperatuur te meten. Met die<br />
sensoren zou je de veroudering van de brug in gaten kunnen<br />
houden. Maar hoe moet dat precies?<br />
Ook hier ontstaat een onoverzichtelijke berg data. Iedere trilling<br />
van iedere auto wordt in detail geregistreerd. Dat zijn een miljard<br />
metingen per dag, het hele jaar door. <strong>Knobbe</strong> laat meetgegevens<br />
zien van één dag. “Op het oog zie je in dit drukke piekenlandschap<br />
twee uitschieters, de ochtend- en avondspits. Andere trends vallen<br />
je niet op. Maar onze algoritmen splitsen deze gegevens op. Dan<br />
komen er andere fenomenen boven, zoals een dag-nacht-ritme:<br />
de brug beweegt doordat hij opwarmt en afkoelt.” Technologiestichting<br />
STW gaf hem de financiering voor dit onderzoeksproject,<br />
dat nu twee jaar loopt en al meerdere publicaties heeft opgeleverd.<br />
“De ene dag praat ik over bruggen, de andere over middeleeuwse<br />
akten”, vertelt <strong>Knobbe</strong>. Sinds begin 2012 is hij betrokken bij een<br />
Engels onderzoeksproject naar middeleeuwse verkoopakten.<br />
“Bijvoorbeeld dat ene William, zoon van Mariot, land verkoopt<br />
aan Simon de Evesham. In een ander document is weer te vinden<br />
dat die Simon ook zaken doet met John de Esingwald.” De documenten<br />
geven inzicht in het zakelijk leven in die tijd. De historici<br />
in het project willen de sociale netwerken in kaart brengen – wie<br />
kende wie, wie was belangrijk? “Met de hand is dat een enorme<br />
puzzel. Dat ‘achternaam’ nog een vaag begrip was in de middeleeuwen<br />
maakt het extra moeilijk. John of York kan zijn naam zijn,<br />
maar ook een John die in York woont. Dat puzzelen resulteerde<br />
in een grote tafel vol briefjes met brokjes informatie.”<br />
Dat is dankzij project ChartEx voorbij. <strong>Knobbe</strong> maakt deel uit<br />
van de groep historici en informatici die geld krijgt uit de Digging<br />
into Data-Challenge, waarin ook NWO meedoet. Doel is<br />
om de kennis uit de informatica op andere terreinen in te zetten,<br />
bijvoorbeeld in de cultuursector. “Wij ontwikkelden de softare<br />
om de digitale versie van die tafel te maken; een doorzoekbaar<br />
diagram waarin met pijlen de relaties zijn aangegeven. Een soort<br />
Facebook van de middeleeuwen.”<br />
De historici in het project zijn dolenthousiast. <strong>Knobbe</strong>: “Ik vind<br />
het zo vanzelfsprekend wat er met datamining kan, maar voor<br />
hen is het een nieuwe wereld. Ze noemen het een game changer.<br />
Dat vind ik een eer.”<br />
Anouck Vrouwe
engLish summarY<br />
Whether it concerns claim details of a large health insurance<br />
company, or sensor readings from a highway bridge, data miner<br />
<strong>Arno</strong> <strong>Knobbe</strong> from the <strong>Leiden</strong> Institute of Advanced Computer<br />
Science (LIACS) is not fazed. Just as long as the database is large<br />
and challenging, and he and his team can develop smart methods<br />
to extract useful knowledge from the big pile of data. This could<br />
be care givers that claim ‘ineffi ciently’, or simply how the bridge<br />
responds to sunshine. “I like to work with datasets from practice.<br />
This is often so much more complex than you could imagine.<br />
Recognizing the fundamental problems in such practical applications<br />
can lead to nice theoretical advances that are appreciated<br />
by the entire research fi eld, not just by the insurance people or<br />
civil engineers.”<br />
“Een netwerk van middeleeuwse zakelijke relaties.” 25