Abstract
Fokus i denne afhandling er anvendelse af ontologier i informationssøgning (Information Retrieval). Den overordnede hypotese er, at indføring af konceptuel viden, så som ontologier, i forbindelse med forespørgselsevaluering kan bidrage til løsning af væsentlige problemer i eksisterende metoder.
Denne inddragelse af ontologier indeholder en række væsentlige udfordringer. Vi har valgt at fokusere på similaritetsmål der baserer sig på viden om relationer mellem begreber, på genkendelse af semantisk viden i tekst og på hvordan ontologibaserede similaritetsmål og semantisk indeksering kan forenes i en realistisk tilgang til informationssøgning.
Genkendelse af semantisk viden i tekst udføres ved hjælp af en simpel natursprogsbehandling i indekseringsprocessen, med det formål at afdække substantivfraser. Endvidere, vil vi skitsere problemstillinger forbundet med at identificere hvilke semantiske relationer simple substantivfraser er opbygget af og diskutere hvordan en forøgelse af sammenføjning af begreber influerer på forespørgselsevalueringen.
Der redegøres for hvorledes et mål for similaritet kan baseres på afstand i ontologiers struktur, og introduceres et nyt afstandsmål -- \q{shared nodes}. Dette mål sammenlignes med en række andre mål ved hjælp af en samling af intuitive egenskaber for similaritetsmål. Denne sammenligning viser at \q{shared nodes} har fortrin frem for øvrige mål, men også at det er beregningsmæssigt mere indviklet. Der redegøres endvidere for en række væsentlige problemer forbundet med \q{shared nodes}, som er relateret til den forskel der er mellem relationer med hensyn til i hvor høj grad de bringer de begreber de forbinder, sammen. Et mere generelt mål, \q{weighted shared nodes}, introduceres som løsning på disse problemer.
Afslutningsvist fokuseres der på hvorledes et similaritetsmål, der sammenligner begreber, kan inddrages i forespørgselsevalueringen. Den løsning vi præsenterer indfører en semantisk ekspansion baseret på similaritetsmål. Evalueringsmetoden der anvendes er en generaliseret \q{fuzzy set retrieval} model, der inkluderer ekspansion af forespørgsler. Selvom det ikke er almindeligt at anvende fuzzy set modellen i informationssøgning, viser det sig at den har den fornødne fleksibilitet til en generalisering til ontologibaseret forespørgselsevaluering, og at indførelsen af et hierarkisk aggregeringsprincip giver mulighed for at behandle sammensatte begreber på en simpel og naturlig måde.
Originalsprog | Engelsk |
---|
Udgivelsessted | Roskilde |
---|---|
Forlag | Roskilde Universitet |
Antal sider | 196 |
Status | Udgivet - 2006 |
Navn | Datalogiske Skrifter |
---|---|
Nummer | 107 |
ISSN | 0109-9779 |
Emneord
- informationsøgning
- ontologier
- natursprogsanalyse
- videnrepresentation