27.09.2013 Views

Arno Knobbe - Universiteit Leiden

Arno Knobbe - Universiteit Leiden

Arno Knobbe - Universiteit Leiden

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

22<br />

dr. arno <strong>Knobbe</strong> is dataminer – iemand die met hulp van computers zinnige kennis kan halen uit grote hoeveelheden data. hij is senior<br />

onderzoeker in de data mining-groep van het LiaCs, het informatica-instituut van de universiteit <strong>Leiden</strong>. <strong>Knobbe</strong> is groepsleider van<br />

tien promovendi, postdocs en programmeurs. hij begon zijn carrière in het bedrijfsleven, als dataminer bij een it-bedrijf. daarna werkte<br />

hij als zelfstandig ondernemer, en rondde ondertussen in zijn eigen tijd een proefschrift af over data mining. daarna werkte hij vier jaar<br />

als postdoc in utrecht, waarna hij in 2009 overstapte naar <strong>Leiden</strong>.


arno knoBBe<br />

<strong>Leiden</strong> institute of advanCed Computer sCienCe<br />

De computer ziet meer<br />

de computercode die hij ontwikkelt is onbegrijpelijk voor de leek,<br />

maar dataminer arno <strong>Knobbe</strong> kan met praktijkvoorbeelden precies<br />

uitleggen wat die code kan. frauderende artsen opsporen in<br />

declaratiegegevens van achmea bijvoorbeeld, of een middeleeuws<br />

facebook opbouwen aan de hand van verkoopakten. “de praktijk<br />

is ingewikkelder dan je kunt verzinnen.”<br />

“Toen ik op huizenjacht ging, heb ik een databankje gemaakt<br />

met alle beschikbare gegevens van interessante huizen. Dan zie<br />

je zo dat een extra slaapkamer ongeveer 40.000 euro kost en dat<br />

de huizenprijs afneemt als je verder van het station woont. Dat<br />

is de manier waarop je als dataminer naar de wereld kijkt”, lacht<br />

<strong>Arno</strong> <strong>Knobbe</strong>.<br />

Om op serieuze toon te vertellen over de databank van Canadese<br />

koophuizen, die hij voor zijn onderzoek gebruikt. “Die twintig<br />

huizen van mij had je zo nog kunnen overzien. Maar bij de<br />

databanken waar wij mee werken, gaat dat niet.” De Canadese<br />

databank bevat ruim 500 huizen met hun kenmerken, zoals<br />

verkoopprijs, perceelgrootte, aantal slaapkamers en badkamers<br />

en ga zo maar door. Bij elkaar een kluwen aan informatie. “Wij<br />

vragen ons af wat voor verbanden er in die onoverzichtelijke<br />

dataset verstopt zitten.”<br />

<strong>Knobbe</strong> werkt als onderzoeker en groepsleider bij het informatica-instituut<br />

LIACS. Zijn groep ontwikkelt methoden om relevante<br />

informatie uit een databrij te vissen. “Welke huizen het best<br />

verkoopbaar zijn bijvoorbeeld, of wat de beste beleggingsobjecten<br />

zijn.” De Leidse dataminers maken analyseprogramma’s die<br />

zoeken naar ‘subgroepen, die afwijken van de rest van de dataset’.<br />

“Zo kan uit de analyse rollen dat huizen met een oprit, zoveel<br />

vierkante meter grond en twee badkamers geliefde objecten zijn.”<br />

Het gaat hem niet om die huizen zelf. Zijn groep werkt ook aan<br />

methoden voor fraudedetectie voor verzekeraar Achmea. “Daar<br />

komt dan met soortgelijke methoden een subgroep boven van<br />

tandartsen die opvallend vaak röntgenfoto’s of adviesgesprekken<br />

declareren.” Het werken met datasets uit de praktijk geeft zoveel<br />

inspiratie, vertelt hij. De ruwe werkelijkheid is ingewikkelder<br />

dan de verzonnen datasets waar onderzoekers hun methoden<br />

vaak op testen. <strong>Knobbe</strong>: “Een mooie theorie publiceren, met<br />

een fundamentele component, en dan als uitsmijter een mooie<br />

toepassing – daar houd ik van.”<br />

Zijn onderzoeksgroep is de laatste tijd hard gegroeid. De rol van<br />

groepsleider ligt hem goed, vertelt hij. “Zelf software ontwikkelen<br />

of stoeien met een mooie dataset is geweldig, dat heb ik<br />

als postdoc gedaan. Maar nu kan ik meerdere projecten doen, ik<br />

krijg meer voor elkaar. Soms ben ik wel jaloers op de postdocs<br />

en promovendi. Dan spotten ze: ‘laat eens zien of je het nog kan’.<br />

Gelukkig blijk ik het nog niet verleerd.”<br />

<strong>Knobbe</strong> legt uit dat de fundamentele onderzoeksvraag is hoe<br />

je in datasets de juiste, interessante subgroepen kan vinden.<br />

Neem weer die Canadese huizenmarkt. Banken of makelaars<br />

hebben niets aan zoekalgoritmen die aankomen met de subgroep<br />

‘huizen met een keuken en minstens één slaapkamer’. Te groot<br />

en algemeen. Maar de subgroep ‘huizen van twee verdiepingen<br />

met een voordeur op het oosten, drie badkamers, een zwart dak<br />

23


24<br />

arno knoBBe<br />

en een zwembad’ is ook oninteressant. Te gedetailleerd. Of, zoals<br />

<strong>Knobbe</strong> formuleert: “Die subgroep is te klein om nog voorspellende<br />

waarde te hebben. Je wilt dat het algoritme uitkomt op een<br />

handjevol subgroepen, die je daadwerkelijk meer vertellen over<br />

de huizenmarkt.” De vraag is hoe complex je algoritme dan moet<br />

zijn. “Het model wordt niet steeds beter naarmate het complexer<br />

wordt. Er is een omslagpunt, waarna de prestaties weer afnemen.<br />

De kunst is dus om het punt te vinden waar het model maximaal<br />

presteert.”<br />

Daarnaast is het belangrijk dat de analyse razendsnel gaat. “Een<br />

dag rekenen mag, maar niemand wil een jaar wachten. Vergelijk<br />

het met een immens landschap, dat je snel met slechts honderd<br />

mensen moet verkennen. Dan verspreid je de verkenners eerst<br />

netjes over het land. Stel dat een paar dan wat heuveltjes zien.<br />

Dan stuur je extra verkenners die kant op – misschien ligt er een<br />

gebergte. Zo doe je dat binnen datasets ook. Het zoekalgoritme<br />

vindt kleine afwijkingen ten opzichte van de omgeving. Die af -<br />

wijkingen pluist het uit.”<br />

Naast ‘subgroepen’ heeft <strong>Knobbe</strong> nog een interessegebied: de<br />

analyse van sensordata. Ook hier haalt hij inspiratie uit de<br />

praktijk. Samen met industriepartner Strukton en de Technische<br />

<strong>Universiteit</strong> Delft doet hij onderzoek naar de Hollandse Brug.<br />

In die verbindingsbrug tussen Flevoland en Noord-Holland zitten<br />

145 sensoren om trillingen en temperatuur te meten. Met die<br />

sensoren zou je de veroudering van de brug in gaten kunnen<br />

houden. Maar hoe moet dat precies?<br />

Ook hier ontstaat een onoverzichtelijke berg data. Iedere trilling<br />

van iedere auto wordt in detail geregistreerd. Dat zijn een miljard<br />

metingen per dag, het hele jaar door. <strong>Knobbe</strong> laat meetgegevens<br />

zien van één dag. “Op het oog zie je in dit drukke piekenlandschap<br />

twee uitschieters, de ochtend- en avondspits. Andere trends vallen<br />

je niet op. Maar onze algoritmen splitsen deze gegevens op. Dan<br />

komen er andere fenomenen boven, zoals een dag-nacht-ritme:<br />

de brug beweegt doordat hij opwarmt en afkoelt.” Technologiestichting<br />

STW gaf hem de financiering voor dit onderzoeksproject,<br />

dat nu twee jaar loopt en al meerdere publicaties heeft opgeleverd.<br />

“De ene dag praat ik over bruggen, de andere over middeleeuwse<br />

akten”, vertelt <strong>Knobbe</strong>. Sinds begin 2012 is hij betrokken bij een<br />

Engels onderzoeksproject naar middeleeuwse verkoopakten.<br />

“Bijvoorbeeld dat ene William, zoon van Mariot, land verkoopt<br />

aan Simon de Evesham. In een ander document is weer te vinden<br />

dat die Simon ook zaken doet met John de Esingwald.” De documenten<br />

geven inzicht in het zakelijk leven in die tijd. De historici<br />

in het project willen de sociale netwerken in kaart brengen – wie<br />

kende wie, wie was belangrijk? “Met de hand is dat een enorme<br />

puzzel. Dat ‘achternaam’ nog een vaag begrip was in de middeleeuwen<br />

maakt het extra moeilijk. John of York kan zijn naam zijn,<br />

maar ook een John die in York woont. Dat puzzelen resulteerde<br />

in een grote tafel vol briefjes met brokjes informatie.”<br />

Dat is dankzij project ChartEx voorbij. <strong>Knobbe</strong> maakt deel uit<br />

van de groep historici en informatici die geld krijgt uit de Digging<br />

into Data-Challenge, waarin ook NWO meedoet. Doel is<br />

om de kennis uit de informatica op andere terreinen in te zetten,<br />

bijvoorbeeld in de cultuursector. “Wij ontwikkelden de softare<br />

om de digitale versie van die tafel te maken; een doorzoekbaar<br />

diagram waarin met pijlen de relaties zijn aangegeven. Een soort<br />

Facebook van de middeleeuwen.”<br />

De historici in het project zijn dolenthousiast. <strong>Knobbe</strong>: “Ik vind<br />

het zo vanzelfsprekend wat er met datamining kan, maar voor<br />

hen is het een nieuwe wereld. Ze noemen het een game changer.<br />

Dat vind ik een eer.”<br />

Anouck Vrouwe


engLish summarY<br />

Whether it concerns claim details of a large health insurance<br />

company, or sensor readings from a highway bridge, data miner<br />

<strong>Arno</strong> <strong>Knobbe</strong> from the <strong>Leiden</strong> Institute of Advanced Computer<br />

Science (LIACS) is not fazed. Just as long as the database is large<br />

and challenging, and he and his team can develop smart methods<br />

to extract useful knowledge from the big pile of data. This could<br />

be care givers that claim ‘ineffi ciently’, or simply how the bridge<br />

responds to sunshine. “I like to work with datasets from practice.<br />

This is often so much more complex than you could imagine.<br />

Recognizing the fundamental problems in such practical applications<br />

can lead to nice theoretical advances that are appreciated<br />

by the entire research fi eld, not just by the insurance people or<br />

civil engineers.”<br />

“Een netwerk van middeleeuwse zakelijke relaties.” 25

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!