Semantic Processing across Domains

Projektet er afsluttet.

Hvis den næste generation af informationsteknologi skal kunne håndtere sprog på en mere altomfattende måde, er det nødvendigt at indarbejde semantisk processering i de teknologiske løsninger.

Projektet fokuserede på semantisk processering af dansk, og den særlige udfordring vi møder her er at dansk ikke er særlig godt dækket ind mht. semantisk opmærkede sprogdata, og at eksisterende systemer ikke i tilstrækkelig grad er robuste når man skifter fra et domæne til et andet. Vi eksperimenterede med et skalérbart betydningsinventar baseret på Den Danske Ordbog og DanNet hvor vi kunne arbejde med forskellige niveauer af finkornethed, og vi  opmærkede en afgrænset mængde danske tekster med semantisk viden.

Projektet tog udgangspunkt i den nyeste viden inden for semantisk processering men gik skridtet videre idet det udvikler maskinlæringsmetoder der kan arbejde med færre annoterede data end hidtil set og samtidig er robust på tværs af domæner. Disse opmærkede data vil blive udnyttet til automatisk at lære ordbetydning og semantisk analyse. Dette vil ske ved brug af nye, semisuperviserede teknikker, som kan klare sig med færre data, og med metodisk håndtering af det bias der opstår når ens opmærkede data kommer fra et andet domæne end det, som man er interesseret i.

Den semantiske model blev afprøvet i to prototyper: dels på Det Danske Sprog- og Litteraturselskabs sprogtjeneste ordnet.dk hvor man kunne søge semantisk i danske tekster, dels i det danske spørgsmål/svar-system som er under udvikling af CST-KU og DTU i ESICT-projektet.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Partnere

Projektet udgøres af to projektpartnere

Center for Sprogteknologi, Københavns Universitet

Navn Titel Telefon E-mail
Anders Søgaard Professor +45 353-29065 E-mail
Bolette Sandford Pedersen Viceinstitutleder, professor +45 353-29078 E-mail

Støttet af

Uddannelses- og Forskningsministeriet

Semantic Processing across Domains er støttet af Forskningsrådet for Kultur og Kommunikation med en bevilling på 5,7 mio kr (DFF-1319-00123)

Samarbejde

Projektet udføres i samarbejde med Det Danske Sprog og Litteraturselskab

Projektperiode: 2013 - 2017

Kontakt

Projektet ledes af professor Bolette Sandford Pedersen og lektor Anders Søgaard, Center for Sprogteknologi, Københavns Universitet.

Projektet i pressen

Læs artiklen om projektet "Maskiner skal lære at forstå dansk" på Videnskab.dk.

Det Danske Sprog- og Litteraturselskab

Navn Titel Telefon E-mail
Sanni Nimb Seniorredaktør E-mail

Øvrige projektmedarbejdere

Anders Johannsen, postdoc, Center for Sprogteknologi
Héctor Martínez Alonso, postdoc,  Center for Sprogteknologi
Sussi A. Olsen, videnskabelig medarbejder,  Center for Sprogteknologi

Nicolai Hartvig Sørensen, seniorredaktør, Det Danske Sprog- og Litteraturselskab

Ida Hauerberg Wolthers, studentermedhjælper
Sara Lee Naldal, studentermedhjælper
Selma Rosenfeldt-Olsen, Studentermedhjælper