Arno Knobbe - Universiteit Leiden

22 

dr. arno Knobbe is dataminer – iemand die met hulp van computers zinnige kennis kan halen uit grote hoeveelheden data. hij is senior 

onderzoeker in de data mining-groep van het LiaCs, het informatica-instituut van de universiteit Leiden. Knobbe is groepsleider van 

tien promovendi, postdocs en programmeurs. hij begon zijn carrière in het bedrijfsleven, als dataminer bij een it-bedrijf. daarna werkte 

hij als zelfstandig ondernemer, en rondde ondertussen in zijn eigen tijd een proefschrift af over data mining. daarna werkte hij vier jaar 

als postdoc in utrecht, waarna hij in 2009 overstapte naar Leiden.

arno knoBBe 

Leiden institute of advanCed Computer sCienCe 

De computer ziet meer 

de computercode die hij ontwikkelt is onbegrijpelijk voor de leek, 

maar dataminer arno Knobbe kan met praktijkvoorbeelden precies 

uitleggen wat die code kan. frauderende artsen opsporen in 

declaratiegegevens van achmea bijvoorbeeld, of een middeleeuws 

facebook opbouwen aan de hand van verkoopakten. “de praktijk 

is ingewikkelder dan je kunt verzinnen.” 

“Toen ik op huizenjacht ging, heb ik een databankje gemaakt 

met alle beschikbare gegevens van interessante huizen. Dan zie 

je zo dat een extra slaapkamer ongeveer 40.000 euro kost en dat 

de huizenprijs afneemt als je verder van het station woont. Dat 

is de manier waarop je als dataminer naar de wereld kijkt”, lacht 

Arno Knobbe. 

Om op serieuze toon te vertellen over de databank van Canadese 

koophuizen, die hij voor zijn onderzoek gebruikt. “Die twintig 

huizen van mij had je zo nog kunnen overzien. Maar bij de 

databanken waar wij mee werken, gaat dat niet.” De Canadese 

databank bevat ruim 500 huizen met hun kenmerken, zoals 

verkoopprijs, perceelgrootte, aantal slaapkamers en badkamers 

en ga zo maar door. Bij elkaar een kluwen aan informatie. “Wij 

vragen ons af wat voor verbanden er in die onoverzichtelijke 

dataset verstopt zitten.” 

Knobbe werkt als onderzoeker en groepsleider bij het informatica-instituut 

LIACS. Zijn groep ontwikkelt methoden om relevante 

informatie uit een databrij te vissen. “Welke huizen het best 

verkoopbaar zijn bijvoorbeeld, of wat de beste beleggingsobjecten 

zijn.” De Leidse dataminers maken analyseprogramma’s die 

zoeken naar ‘subgroepen, die afwijken van de rest van de dataset’. 

“Zo kan uit de analyse rollen dat huizen met een oprit, zoveel 

vierkante meter grond en twee badkamers geliefde objecten zijn.” 

Het gaat hem niet om die huizen zelf. Zijn groep werkt ook aan 

methoden voor fraudedetectie voor verzekeraar Achmea. “Daar 

komt dan met soortgelijke methoden een subgroep boven van 

tandartsen die opvallend vaak röntgenfoto’s of adviesgesprekken 

declareren.” Het werken met datasets uit de praktijk geeft zoveel 

inspiratie, vertelt hij. De ruwe werkelijkheid is ingewikkelder 

dan de verzonnen datasets waar onderzoekers hun methoden 

vaak op testen. Knobbe: “Een mooie theorie publiceren, met 

een fundamentele component, en dan als uitsmijter een mooie 

toepassing – daar houd ik van.” 

Zijn onderzoeksgroep is de laatste tijd hard gegroeid. De rol van 

groepsleider ligt hem goed, vertelt hij. “Zelf software ontwikkelen 

of stoeien met een mooie dataset is geweldig, dat heb ik 

als postdoc gedaan. Maar nu kan ik meerdere projecten doen, ik 

krijg meer voor elkaar. Soms ben ik wel jaloers op de postdocs 

en promovendi. Dan spotten ze: ‘laat eens zien of je het nog kan’. 

Gelukkig blijk ik het nog niet verleerd.” 

Knobbe legt uit dat de fundamentele onderzoeksvraag is hoe 

je in datasets de juiste, interessante subgroepen kan vinden. 

Neem weer die Canadese huizenmarkt. Banken of makelaars 

hebben niets aan zoekalgoritmen die aankomen met de subgroep 

‘huizen met een keuken en minstens één slaapkamer’. Te groot 

en algemeen. Maar de subgroep ‘huizen van twee verdiepingen 

met een voordeur op het oosten, drie badkamers, een zwart dak 

23

24 

arno knoBBe 

en een zwembad’ is ook oninteressant. Te gedetailleerd. Of, zoals 

Knobbe formuleert: “Die subgroep is te klein om nog voorspellende 

waarde te hebben. Je wilt dat het algoritme uitkomt op een 

handjevol subgroepen, die je daadwerkelijk meer vertellen over 

de huizenmarkt.” De vraag is hoe complex je algoritme dan moet 

zijn. “Het model wordt niet steeds beter naarmate het complexer 

wordt. Er is een omslagpunt, waarna de prestaties weer afnemen. 

De kunst is dus om het punt te vinden waar het model maximaal 

presteert.” 

Daarnaast is het belangrijk dat de analyse razendsnel gaat. “Een 

dag rekenen mag, maar niemand wil een jaar wachten. Vergelijk 

het met een immens landschap, dat je snel met slechts honderd 

mensen moet verkennen. Dan verspreid je de verkenners eerst 

netjes over het land. Stel dat een paar dan wat heuveltjes zien. 

Dan stuur je extra verkenners die kant op – misschien ligt er een 

gebergte. Zo doe je dat binnen datasets ook. Het zoekalgoritme 

vindt kleine afwijkingen ten opzichte van de omgeving. Die af - 

wijkingen pluist het uit.” 

Naast ‘subgroepen’ heeft Knobbe nog een interessegebied: de 

analyse van sensordata. Ook hier haalt hij inspiratie uit de 

praktijk. Samen met industriepartner Strukton en de Technische 

Universiteit Delft doet hij onderzoek naar de Hollandse Brug. 

In die verbindingsbrug tussen Flevoland en Noord-Holland zitten 

145 sensoren om trillingen en temperatuur te meten. Met die 

sensoren zou je de veroudering van de brug in gaten kunnen 

houden. Maar hoe moet dat precies? 

Ook hier ontstaat een onoverzichtelijke berg data. Iedere trilling 

van iedere auto wordt in detail geregistreerd. Dat zijn een miljard 

metingen per dag, het hele jaar door. Knobbe laat meetgegevens 

zien van één dag. “Op het oog zie je in dit drukke piekenlandschap 

twee uitschieters, de ochtend- en avondspits. Andere trends vallen 

je niet op. Maar onze algoritmen splitsen deze gegevens op. Dan 

komen er andere fenomenen boven, zoals een dag-nacht-ritme: 

de brug beweegt doordat hij opwarmt en afkoelt.” Technologiestichting 

STW gaf hem de financiering voor dit onderzoeksproject, 

dat nu twee jaar loopt en al meerdere publicaties heeft opgeleverd. 

“De ene dag praat ik over bruggen, de andere over middeleeuwse 

akten”, vertelt Knobbe. Sinds begin 2012 is hij betrokken bij een 

Engels onderzoeksproject naar middeleeuwse verkoopakten. 

“Bijvoorbeeld dat ene William, zoon van Mariot, land verkoopt 

aan Simon de Evesham. In een ander document is weer te vinden 

dat die Simon ook zaken doet met John de Esingwald.” De documenten 

geven inzicht in het zakelijk leven in die tijd. De historici 

in het project willen de sociale netwerken in kaart brengen – wie 

kende wie, wie was belangrijk? “Met de hand is dat een enorme 

puzzel. Dat ‘achternaam’ nog een vaag begrip was in de middeleeuwen 

maakt het extra moeilijk. John of York kan zijn naam zijn, 

maar ook een John die in York woont. Dat puzzelen resulteerde 

in een grote tafel vol briefjes met brokjes informatie.” 

Dat is dankzij project ChartEx voorbij. Knobbe maakt deel uit 

van de groep historici en informatici die geld krijgt uit de Digging 

into Data-Challenge, waarin ook NWO meedoet. Doel is 

om de kennis uit de informatica op andere terreinen in te zetten, 

bijvoorbeeld in de cultuursector. “Wij ontwikkelden de softare 

om de digitale versie van die tafel te maken; een doorzoekbaar 

diagram waarin met pijlen de relaties zijn aangegeven. Een soort 

Facebook van de middeleeuwen.” 

De historici in het project zijn dolenthousiast. Knobbe: “Ik vind 

het zo vanzelfsprekend wat er met datamining kan, maar voor 

hen is het een nieuwe wereld. Ze noemen het een game changer. 

Dat vind ik een eer.” 

Anouck Vrouwe

engLish summarY 

Whether it concerns claim details of a large health insurance 

company, or sensor readings from a highway bridge, data miner 

Arno Knobbe from the Leiden Institute of Advanced Computer 

Science (LIACS) is not fazed. Just as long as the database is large 

and challenging, and he and his team can develop smart methods 

to extract useful knowledge from the big pile of data. This could 

be care givers that claim ‘ineffi ciently’, or simply how the bridge 

responds to sunshine. “I like to work with datasets from practice. 

This is often so much more complex than you could imagine. 

Recognizing the fundamental problems in such practical applications 

can lead to nice theoretical advances that are appreciated 

by the entire research fi eld, not just by the insurance people or 

civil engineers.” 

“Een netwerk van middeleeuwse zakelijke relaties.” 25

Arno Knobbe - Universiteit Leiden

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?