Het Nijmeegse project waar ik op werk heeft als doel om grote databases met patenten beter doorzoekbaar te maken. Bedrijven en onderzoekers die een nieuwe uitvinding hebben gedaan en deze willen patenteren, huren professionele patentzoekers in om alle patenten op te zoeken die vergelijkbare uitvindingen beschrijven.
Het zoeken van deze patenten is om drie redenen een uitdaging. Ten eerste bestaan er miljoenen patenten in verschillende talen. Ten tweede is het heel belangrijk dat alle relevante patenten gevonden worden (want als je net dat ene patent mist dat de nieuwe uitvinding teniet doet dan kan dat veel geld kosten). En ten derde zijn patenten technische teksten die ook nog eens door juristen zijn opgeschreven. Hier is een voorbeeldfragment uit zo'n patentdocument:
What is claimed is: (1) A tissue retractor for use in percutaneous surgery through a cannula having an inner cylindrical surface, said retractor comprising: a working tip configured to atraumatically displace tissue as the retractor is manipulated through the tissue; and a body having a proximal first end and a distal second end, said second end being integral with said working tip, said body sized to be rotatably received within the cannula and having a length from said first end to said second end sufficient so that said first end and said working tip can be outside the cannula when...Deze teksten vereisen een andere zoekmethode dan webpagina's, waarvoor zoekmachines zoals Google tellingen van woorden gebruiken in combinatie met statistieken over hoe populair een pagina is. In ons project ontwikkelen we een zoeksysteem voor patenten dat niet alleen alle woorden uit het document opslaat en hoe vaak ze voorkomen maar ook allerlei relaties tussen woorden in de tekst.
In het voorbeeld hierboven zijn allemaal specificaties opgenomen van de tissue retractor die in de eerste regel geïntroduceerd is. Voor de patentzoeker is het bijvoorbeeld van cruciaal belang dat dit apparaat is ontworpen voor percutaneous surgery en niet voor een ander soort surgery. Het losse woord surgery is dus niet informatief genoeg; de relatie tussen surgery en percutaneous moet opgeslagen worden. Op dezelfde manier is het van belang dat de tissue retractor een working tip bevat, en niet andersom.
Een belangrijke aspect van het vinden van de relaties tussen woorden in de tekst is dat alle keren dat verwezen wordt naar dezelfde tissue retractor alle gegeven informatie wordt opgeslagen bij diezelfde tissue retractor. In de tweede regel wordt bijvoorbeeld gedefinieerd welke onderdelen said retractor bevat. Het is dan van belang dat het systeem weet dat said retractor de eerder genoemde tissue retractor is. Het vinden van deze verwijzingen in een tekst is een klassieke taak in de computerlinguïstiek en wordt anaphora resolution genoemd.
Mijn taak hier in Wolverhampton is het implementeren van anaforenresolutie in ons zoeksysteem voor patenten. Deze taak is de reden dat ik in deze onderzoeksgroep werk: Ruslan Mitkov is dé expert op het gebied van anaforenresolutie, en in Nijmegen ontbrak deze expertise.
Voordat ik de implementatie kan doen, heb ik eerst de literatuur over het onderwerp bestudeerd en een plan van aanpak gemaakt. Daarna heb ik een aantal patentteksten bij elkaar gezocht die gaan dienen als evaluatiedata. In die teksten markeren mijn collega Eva en ik handmatig alle verwijzingen tussen woordgroepen zodat we straks het systeem kunnen evalueren met deze handmatige annotaties als referentie.
De volgende stap is het bouwen van het raamwerk waarin de anaforenresolutie kan worden geïmplementeerd. Nadat mijn technisch ontwerp was goedgekeurd door Kees, mijn baas, ben ik aan de slag gegaan. Ik ben er de afgelopen twee weken druk mee geweest omdat ik moest werken in een voor mij nog onbekende programmeertaal (CDL3) en moest aansluiten bij de bestaande modules van het systeem. Inmiddels kunnen mijn vorderingen de goedkeuring uit Nijmegen wegdragen en kan ik hopelijk volgende week aan de oplossing van het anaforenprobleem beginnen.
En over werk gesproken: hier een voorproefje van mijn proefschrift. Vanmiddag gaat het naar de drukker.
Eh... Ik zit nu al 3 minuten naar je proefschriftknipsel te staren in een poging om het plaatje te herkennen. Mijn visuele systeem is blijkbaar aan weekend toe, want ik maak er de vreemdste dingen van... Zijn het garnalen? Hersenen? Flamingo's? Darmen? (jakkes)
BeantwoordenVerwijderenFlamingo's! (en wacht het boekje maar af :))
BeantwoordenVerwijderenHi Suzan,
BeantwoordenVerwijderenDie flamingo's had ik wel herkend. Ik woon per slot niet ver van de flamingkolonie in Zwillbrock. Ik ben wel benieuwd naar de relatie tussen de foto en de Why-vraag.. een mooie cliff-hanger als het boekje uitkomt.
En... een begrijpelijk verhaal over je werk in W.
Sorry suzan... de anonieme reactie van 15:41 was ik, Jan V
BeantwoordenVerwijderenMooi die flamingo's. Je hebt duidelijk omschreven waar je mee bezig bent.Ik kan het begrijpen Yeah! Knap hoor.
BeantwoordenVerwijderenWauw, nu kom ik wel heel dom over met m'n flamingovraag... Ik zwéér dat ik vrijdag alleen het bovenste stukje van de foto kon zien! :D Met hoofden en poten er onder zijn ze een heel stuk herkenbaarder, haha.
BeantwoordenVerwijderen