Scriptie-klas BA Informatiekunde 2006-2007

Planning

Mogelijke Onderwerpen

1. Leeshulp

Bij het lezen van wetenschappelijke (juridische, medische) tekst kom je veel terminologie tegen. Definities van zulke termen kun je vinden in Wikipedia of gespecialiseerde woordenboeken. In dit project ontwikkel je software die gebruikers in staat stelt tijdens het lezen gemakkelijk informatie over een woord of term te vinden (bv dmv pop-ups), zoals definities, synoniemen, betekenis van afkortingen, vertaling in een andere taal, ...

Literatuur

2. ISA-relaties

WordNet is een elektronisch woordenboek waarin woorden o.a. d.m.v. ISA-relaties (hyperniem-relaties) worden gedefinieerd: een hond ISA huisdier, een BMW ISA automerk, etc. Veel toepassingen in NLP (zoals QA) maken gebruik van WN. De coverage van WN (m.n. voor talen anders dan het Engels) is echter beperkt. Daarom is het interessant ISA relaties automatisch te leren.

De klassieke aanpak is van Hearst. Recenter hebben mensen geprobeerd dit m.b.v. het Web te doen, aangezien daar vele malen meer informatie beschikbaar is.

Literatuur

3. Persoonsnamen disambigueren

Net als namen van locaties, kunnen ook namen van personen ambigu zijn. In dit onderzoek probeer je te ontdekken wanneer dezelfde naam naar verschillende personen verwijst.

Literatuur

4. Web-based Question Answering

Question answering is het vinden van het antwoord op een vraag van een gebruiker in een document-collectie of op het web. Het voordeel van het gebruik van het web is dat er veel informatie beschikbaar is, en dus dat het antwoord op een vraag vaak letterlijk voorhanden is, en dat het juiste antwoord vaak ook het meest frequente antwoord op het web is. Veel onderzoek is gedaan voor het Engels. Het Nederlandstalige web is groot, maar niet zo groot als het Engelse.

Onderzoek of deze benadering ook werkt voor het Nederlands.

Literatuur