vrijdag 19 februari 2010

Hoe is het eigenlijk met je werk daar? Wil het een beetje vlotten?

De oplettende lezer moet hebben opgemerkt dat ik veel tijd besteed aan mijn werk maar er nooit iets over schrijf. Voor wie erin geïnteresseerd is:

Het Nijmeegse project waar ik op werk heeft als doel om grote databases met patenten beter doorzoekbaar te maken. Bedrijven en onderzoekers die een nieuwe uitvinding hebben gedaan en deze willen patenteren, huren professionele patentzoekers in om alle patenten op te zoeken die vergelijkbare uitvindingen beschrijven.

Het zoeken van deze patenten is om drie redenen een uitdaging. Ten eerste bestaan er miljoenen patenten in verschillende talen. Ten tweede is het heel belangrijk dat alle relevante patenten gevonden worden (want als je net dat ene patent mist dat de nieuwe uitvinding teniet doet dan kan dat veel geld kosten). En ten derde zijn patenten technische teksten die ook nog eens door juristen zijn opgeschreven. Hier is een voorbeeldfragment uit zo'n patentdocument:
What is claimed is: (1) A tissue retractor for use in percutaneous surgery through a cannula having an inner cylindrical surface, said retractor comprising: a working tip configured to atraumatically displace tissue as the retractor is manipulated through the tissue; and a body having a proximal first end and a distal second end, said second end being integral with said working tip, said body sized to be rotatably received within the cannula and having a length from said first end to said second end sufficient so that said first end and said working tip can be outside the cannula when...
Deze teksten vereisen een andere zoekmethode dan webpagina's, waarvoor zoekmachines zoals Google tellingen van woorden gebruiken in combinatie met statistieken over hoe populair een pagina is. In ons project ontwikkelen we een zoeksysteem voor patenten dat niet alleen alle woorden uit het document opslaat en hoe vaak ze voorkomen maar ook allerlei relaties tussen woorden in de tekst.

In het voorbeeld hierboven zijn allemaal specificaties opgenomen van de tissue retractor die in de eerste regel geïntroduceerd is. Voor de patentzoeker is het bijvoorbeeld van cruciaal belang dat dit apparaat is ontworpen voor percutaneous surgery en niet voor een ander soort surgery. Het losse woord surgery is dus niet informatief genoeg; de relatie tussen surgery en percutaneous moet opgeslagen worden. Op dezelfde manier is het van belang dat de tissue retractor een working tip bevat, en niet andersom.

Een belangrijke aspect van het vinden van de relaties tussen woorden in de tekst is dat alle keren dat verwezen wordt naar dezelfde tissue retractor alle gegeven informatie wordt opgeslagen bij diezelfde tissue retractor. In de tweede regel wordt bijvoorbeeld gedefinieerd welke onderdelen said retractor bevat. Het is dan van belang dat het systeem weet dat said retractor de eerder genoemde tissue retractor is. Het vinden van deze verwijzingen in een tekst is een klassieke taak in de computerlinguïstiek en wordt anaphora resolution genoemd.

Mijn taak hier in Wolverhampton is het implementeren van anaforenresolutie in ons zoeksysteem voor patenten. Deze taak is de reden dat ik in deze onderzoeksgroep werk: Ruslan Mitkov is dé expert op het gebied van anaforenresolutie, en in Nijmegen ontbrak deze expertise.

Voordat ik de implementatie kan doen, heb ik eerst de literatuur over het onderwerp bestudeerd en een plan van aanpak gemaakt. Daarna heb ik een aantal patentteksten bij elkaar gezocht die gaan dienen als evaluatiedata. In die teksten markeren mijn collega Eva en ik handmatig alle verwijzingen tussen woordgroepen zodat we straks het systeem kunnen evalueren met deze handmatige annotaties als referentie.

De volgende stap is het bouwen van het raamwerk waarin de anaforenresolutie kan worden geïmplementeerd. Nadat mijn technisch ontwerp was goedgekeurd door Kees, mijn baas, ben ik aan de slag gegaan. Ik ben er de afgelopen twee weken druk mee geweest omdat ik moest werken in een voor mij nog onbekende programmeertaal (CDL3) en moest aansluiten bij de bestaande modules van het systeem. Inmiddels kunnen mijn vorderingen de goedkeuring uit Nijmegen wegdragen en kan ik hopelijk volgende week aan de oplossing van het anaforenprobleem beginnen.
















En over werk gesproken: hier een voorproefje van mijn proefschrift. Vanmiddag gaat het naar de drukker.

woensdag 17 februari 2010

Vliegensvlug na het Chinese buffet volgde het toetje: pannenkoeken - het was immers pancake day!

Pancake day is het Engelse equivalent van carnaval. Shrove Tuesday, Fat Tuesday, Mardi Gras, Vastenavond, Vastelaovend, Pancake day; hoe je het ook wilt noemen, het viel dit jaar tegelijk met het Chinees Nieuwjaar: gisteren.

Het international office van de universiteit had een feestavond georganiseerd ter gelegenheid van het Chinees Nieuwjaar. Ik ging er naartoe met mijn collega's Maria, Andrea, Natalia, Irina en Iustina. Bij aankomst kregen we een vel papier met alle Chinese sterrenbeelden en de opdracht om zo snel mogelijk iemand te vinden voor ieder sterrenbeeld.

Zoals jullie weten ben ik meestal vrij fanatiek met spelletjes maar nu waren Andrea en Iustina al aan het rondrennen door de zaal voor ik er erg in had. Na minder dan tien minuten hadden ze de bingo voltooid - helaas was iemand ze net voor en wonnen ze de tweede prijs (chocolademunten). Er werd lekker Chinees eten geserveerd en ondertussen konden we meedoen met een kennisquiz: twaalf multiple-choice vragen over dieren uit de Chinese dierenriem. Dankzij Google via Natalia's telefoon behaalden 'the Russians' een glansrijke overwinning (de prijs: een zak gummibeertjes).

Vliegensvlug na het Chinese buffet volgde het toetje: pannenkoeken - het was immers pancake day! Met gebakken banaan smaakten de pannenkoeken erg goed. Ondertussen werden we vermaakt door een dansende draak, een Chinese goochelaar en Chinese acrobaten. Aan het einde van al deze festiviteiten vond een wedstrijd pancake tossing plaats. Avondvullend? Nee hoor, om acht uur stonden we allemaal weer buiten! Maar leuk was het wel.

















Mijn fortune cookie: "you will get a promotion"

Voor de snelle lezers die dit bericht lazen voordat de foto erbij stond heb ik een geweldige Friends-scène bijgevoegd die ik voorbij zag komen op een van onze dvd's: Monica en Ross doen the Routine. Petra en ik lagen tijdens de laatste Friends-marathon rollend van het lachen op de grond terwijl Paul en Jelka deze choreografie exact nadeden.

maandag 15 februari 2010

We namen de trein naar Shrewsbury, waar we eerst de onvermijdelijke Costa opzochten

Zaterdagmiddag kwamen Liesbeth en Bram aan in Wolverhampton. Ze hadden een hotel geboekt vlak bij West Park. Ik had geen plannen gemaakt voor zaterdagavond en dat bleek ook geenszins nodig want Liesbeth en ik hadden voldoende gespreksstof voor zeker drie dagen.

Voor zondag had ik wel een gedetailleerd reisplan uitgewerkt: een bezoek aan Shropshire, de streek die ten westen van de black country ligt en door de Lonely Planet wordt omschreven als a "charming county that ripples with heather-tickled hills, beautiful moorland and gushing rivers." Dat klinkt goed!

We namen de trein naar Shrewsbury, de belangrijkste plaats in Shropshire, waar we eerst de onvermijdelijke Costa opzochten, gelegen tegenover de oude wolhandelhal:

















Na de koffie deden we een rondwandeling uit de Lonely Planet. Liesbeth en Bram demonstreerden nog even dat veel Engelse gebouwen voor midgets zijn gemaakt:






















Ondanks dat het kasteel gesloten was, vonden we Shrewsbury toch een bezienswaardig plaatsje, waar verrassend veel andere toeristen op de been waren.

















Nadat ik op de foto was geweest met Charles Darwin - die in Shrewsbury is geboren - en we een tosti hadden gegeten, namen we de trein naar Ludlow.






















Ludlow is een schilderachtig plaatsje met een mooie kerk en een indrukwekkend kasteel op een heuvel. Voor het kasteel ligt het marktplein waar vroeger de wol uit Wales verhandeld werd.

















Terwijl Bram zich in de plaatselijke Costa installeerde met zijn e-reader maakten Liesbeth en ik nog een wandeling over de heuvels van waar je een mooi uitzicht op Ludlow had:

















Terug in Shrewsbury hadden we een lekkere Italiaanse maaltijd bij Pizza Express. Paul en ik hadden al goede ervaringen met deze keten van eerdere vakanties in Wales (Cardiff) en Cornwall (Truro), die veel beter eten serveert dan de naam doet vermoeden.