Foto: Anne Trap-LindSemantic Processing across Domains er et projekt støttet af Forskningsrådet for Kultur og Kommunikation med en bevilling på 5,7 mio kr (DFF-1319-00123).  Projektet omhandler semantisk processering og domænetilpasning med udgangspunkt i dansk.

Projektet udføres i samarbejde med Det Danske Sprog og Litteraturselskab og løber i perioden 2013 til 2017.

Projektet ledes af professor Bolette Sandford Pedersen og lektor Anders Søgaard, Center for Sprogteknologi, Københavns Universitet.

Mere om projektet

Hvis den næste generation af informationsteknologi skal kunne håndtere sprog på en mere altomfattende måde, er det nødvendigt at indarbejde semantisk processering i de teknologiske løsninger.

Projektet fokuserer på semantisk processering af dansk, og den særlige udfordring vi møder her er at dansk ikke er særlig godt dækket ind mht. semantisk opmærkede sprogdata, og at eksisterende systemer ikke i tilstrækkelig grad er robuste når man skifter fra et domæne til et andet. Vi vil eksperimentere med et skalérbart betydningsinventar baseret på Den Danske Ordbog og DanNet hvor vi kan arbejde med forskellige niveauer af finkornethed, og vi vil opmærke en afgrænset mængde danske tekster med semantisk viden.

Projektet tager udgangspunkt i den nyeste viden inden for semantisk processering men går skridtet videre idet det udvikler maskinlæringsmetoder der kan arbejde med færre annoterede data end hidtil set og samtidig er robust på tværs af domæner. Disse opmærkede data vil blive udnyttet til automatisk at lære ordbetydning og semantisk analyse. Dette vil ske ved brug af nye, semisuperviserede teknikker, som kan klare sig med færre data, og med metodisk håndtering af det bias der opstår når ens opmærkede data kommer fra et andet domæne end det, som man er interesseret i.

Den semantiske model vil blive afprøvet i to prototyper: dels på Det Danske Sprog- og Litteraturselskabs sprogtjeneste ordnet.dk hvor man vil kunne søge semantisk i danske tekster, dels i det danske spørgsmål/svar-system som er under udvikling af CST-KU og DTU i ESICT-projektet.