Semantic Processing across Domains

Projektet er afsluttet.

Hvis den næste generation af informationsteknologi skal kunne håndtere sprog på en mere altomfattende måde, er det nødvendigt at indarbejde semantisk processering i de teknologiske løsninger.

Projektet fokuserede på semantisk processering af dansk, og den særlige udfordring vi møder her er at dansk ikke er særlig godt dækket ind mht. semantisk opmærkede sprogdata, og at eksisterende systemer ikke i tilstrækkelig grad er robuste når man skifter fra et domæne til et andet. Vi eksperimenterede med et skalérbart betydningsinventar baseret på Den Danske Ordbog og DanNet hvor vi kunne arbejde med forskellige niveauer af finkornethed, og vi  opmærkede en afgrænset mængde danske tekster med semantisk viden.

Projektet tog udgangspunkt i den nyeste viden inden for semantisk processering men gik skridtet videre idet det udvikler maskinlæringsmetoder der kan arbejde med færre annoterede data end hidtil set og samtidig er robust på tværs af domæner. Disse opmærkede data vil blive udnyttet til automatisk at lære ordbetydning og semantisk analyse. Dette vil ske ved brug af nye, semisuperviserede teknikker, som kan klare sig med færre data, og med metodisk håndtering af det bias der opstår når ens opmærkede data kommer fra et andet domæne end det, som man er interesseret i.

Den semantiske model blev afprøvet i to prototyper: dels på Det Danske Sprog- og Litteraturselskabs sprogtjeneste ordnet.dk hvor man kunne søge semantisk i danske tekster, dels i det danske spørgsmål/svar-system som er under udvikling af CST-KU og DTU i ESICT-projektet.

 

 

 

 

 

 

 

 

 

 

 

 

SemDaX-korpusset er nu tilgængeligt til forskningsformål på https://github.com/kuhumcst/semdax.

Korpusset indeholder 90.000 ord, dækker 6 teksttyper (blog, chat, forum, avis, ugeblad, folketingstaler) og er håndopmærket med leksikalske betydninger baseret på Den Danske Ordbog og det danske wordnet, DanNet.

Formål med korpusset er at tilvejebringe danske træningsdata til udvikling af sprogteknologi der kan skelne mellem ords forskellige betydninger i dansk.  I materialet anvender vi betydningsinventarer af varierende grovhed. Således indeholder korpusset opmærkninger med både et finkornet inventar med hoved- og underbetydninger, samt grovere inventarer hvor der kun skelnes imellem de mest umiddelbare betydninger. Pålideligheden ved de forskellige inventarer måles bl.a. ud fra annotørenighed, hvorfor 60% materialet er opmærket af flere annotører (se annotørenigheden for de forskellige teksttyper).

De metodiske overvejelser bag korpusset præsenteres i Bolette S. Pedersen, Anna Braasch, Anders Johanssen, Hector Martinez Alonso, Sanni Nimb, Sussi Olsen, Anders Søgaard, Nicolai Hartvig Sørensen: The SemDaX corpus – sense annotations with scalable sense inventories. (under udgivelse til LREC 2016)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Partnere

Projektet udgøres af to projektpartnere

Center for Sprogteknologi, Københavns Universitet

Navn Titel Telefon E-mail
Pedersen, Bolette Sandford Professor, Viceinstitutleder +4535329078 E-mail

Støttet af

Uddannelses- og Forskningsministeriet

Semantic Processing across Domains er støttet af Forskningsrådet for Kultur og Kommunikation med en bevilling på 5,7 mio. kr (DFF-1319-00123)

Samarbejde

Projektet udføres i samarbejde med Det Danske Sprog og Litteraturselskab

Projektperiode: 2013 - 2017

Kontakt

Projektet ledes af professor Bolette Sandford Pedersen og lektor Anders Søgaard, Center for Sprogteknologi, Københavns Universitet.

Projektet i pressen

Læs artiklen om projektet "Maskiner skal lære at forstå dansk" på Videnskab.dk.

Det Danske Sprog- og Litteraturselskab

Navn Titel Telefon E-mail
Sanni Nimb Seniorredaktør E-mail

Øvrige projektmedarbejdere

Anders Johannsen, postdoc, Center for Sprogteknologi
Héctor Martínez Alonso, postdoc,  Center for Sprogteknologi
Sussi A. Olsen, videnskabelig medarbejder,  Center for Sprogteknologi

Nicolai Hartvig Sørensen, seniorredaktør, Det Danske Sprog- og Litteraturselskab

Ida Hauerberg Wolthers, studentermedhjælper
Sara Lee Naldal, studentermedhjælper
Selma Rosenfeldt-Olsen, Studentermedhjælper