Betekenis van Afkortingen

Natuurlijke Taalverwerking II, Opdracht 4

Schrijf een programma dat afkortingen en hun betekenis vindt in een verzameling zinnen. Schat de precisie en de recall van je oplossing.

Je mag deze opdracht ook als duo maken. Lever in dat geval je oplossing 1 maal in, met vermelding van beide namen.

Om afkortingen en hun betekenis te vinden moet je:

Je mag je oplossing implementeren in een programmeertaal naar keuze. Perl en verwante talen liggen erg voor de hand, omdat ze goede ondersteuning bieden voor allerlei vormen van tekstmanipulatie en pattern matching.

Data

Het bestand abbreviation.sentences.gz bevat alle zinnen uit Wikipedia (NL, van november 2006) die twee hoofdletters achter elkaar bevatten. Dit bestand kun je gebruiken voor ontwikkelen van je patronen, en testen van precisie en recall.

De zinnen zien er als volgt uit:

Antropologie wordt door de American Anthropological Association ( AAA ) in vier gebieden onderverdeeld .
International Association of Athletics Federations ( IAAF )
Ja  Zuster , Nee Zuster ( TV )
Het TCP/IP-protocol is het meest gebruikte protocol op de 3e laag ( IP ) en de vierde laag ( TCP ) van het OSI-model .
Een belangrijke mijlpaal was de ontwikkeling van The Internet and Transmission Control Protocols ( TCP ) , in 1973 ontwikkeld door de computerspecialist Vinton Cerf .
...
Zinnen zijn al getokeniseerd. Dit betekent dat alle interpunctie (m.n. punten en komma's) al gescheiden is van de woorden. Je kunt de woorden in een zin dus gemakkelijk vinden door de zin te splitsen op spaties.

Evaluatie

Wanneer je tevreden bent over je programma, kun je de presetaties van je programma testen door precision en recall te schatten. Zie de college-aantekeningen voor suggesties voor hoe je dat zou kunnen doen.

Inleveren

Lever je programma in, de gevonden afkortingen + hun betekenis, en bespreek kort wat de resultaten van de evaluatie waren.

Deadline

Vrijdag 25 mei.