Forskningsområder inden for sprogteknologi

CST’s ansatte udfører forskning inden for en række sprogteknologiske områder som interagerer på forskellig vis. Meget af forskningen udføres i eksternt finansierede projekter

NLP og digital humaniora

Vi udvikler metoder til natursprogsbehandling (NLP) og statistiske og neurale sprogmodeller til analyse af tekstlige data i bred forstand. Dette omfatter en bred vifte af genrer såsom digte, romaner, breve, nyhedsartikler, videnskabelige artikler eller sangtekster. Vi udvikler ’NLP-pipelines’ og korpusværktøjer med fokus på dansk samt metoder og guldstandarder til at evaluere dem.

 

  • Measuring Modernity and Mining the Meaning – two projects financed by the Carlsberg Foundation and the UCPH Data+ grant
    Goal - To explore the “Modern Breakthrough” in Scandinavian literature through 900 digitised Danish and Norwegian novels 1870-1900 by means of quantitative methods in terms of i.e. semantic processing. PI’s are from Literature at NorS and from the Department of Computer Science.
  • Automated credibility assessment of dissemination of science news in media - Faculty funded PhD thesis.
    Goal - To examine fake news and to do cross-domain sentence-level hyperbole detection. To explore an NLP approach to Danish sentence-level hyperbole detection.
  • Computational modelling of language change - Velux funded PhD thesis.
    Goal - One among others is to analyse the phonological changes that can happen in the language used in manuscripts.
  • ParlaMint and related projects – CLARIN projects.
    Goal - to examine parliamentary debates including compilation and annotation of corpora and machine learning experiments on the data.
  • Poetry analysis and generation – internal project.
    Goals - To develop a poetry generation system for Basque Language using Neural Networks, to analyse the usefulness of scansion models for the recognition of old Scottish tunes, to align the Milton and Shakespeare corpus with text aligned with audio, words, syllables, phonemes, and scansion.

 

NLP-ressourcer og datasæt

Et centralt fokus for centret er at udarbejde systematiske metoder til udvikling af ressourcer og datasæt til NLP. Med Centrets baggrund og ekspertise inden for datalingvistik og med dets tilknytning til Institut for Nordiske Studier og Sprogvidenskab er det en vision for dette forskningsområde at opdyrke og videreudvikle en sproglig drevet tilgang til udvikling af sproglige ressourcer, hvor der fokuseres på det danske sprogs, kulturens og samfundets særlige kendetegn. Vi bygger de fleste af vores leksikalske ressourcer i tæt samarbejde med sproginstitutioner i Danmark, såsom Det Danske Sprog- og Litteraturselskab og Dansk Sprognævn.

 

Current lexical and terminological projects

  • ELEXIS – EU Horizon2020. Formål: at facilitere samarbejde og informationsudveksling blandt leksikografiske miljøer i EU samt at forske i hvordan viden fra højkvalitetsordbøger bliver tilgængelig for sprogteknologi. I projektet udvikles også semantisk opmærkede korpora for mange sprog. 
  • DanNet2 – The Carlsberg Foundation. Formål: at undersøge hvordan Begrebsordbogen kan gøres anvendelig til sprogteknologiske formål og udvide det danske wordnet DanNet med begrebsordbogsdata.
  • Det Centrale OrdRegister (COR) – Digitaliseringsstyrelsen. Formål: at stille et betydningsinventar for danske ord (lemmaer) til rådighed for virksomheder og forskere der arbejder med sprogteknologi og kunstig intelligens. 
  • FedTerm – EU CEF Programme. Formål: at udvikle en platform for termsamlinger for de europæiske sprog som løbende synkroniseres med den centrale europæiske termbank EuroTermBank.  (Goal: To develop federated terminology collections for the European languages)

CST also engages in resource collections and compilation of corpora related to projects in digital humanities and computational cognitive modelling as further described under these respective subareas. These include among others:

CST engagerer sig også i indsamling af ressourcer og kompilering af korpora relateret til projekter inden for digital humaniora og kognitiv modellering som beskrevet andetsteds. Disse omfatter blandt andet:

  • CLARIN ressourceudvikling (bl.a. ParlaMint korpussamlinger).
  • The Danish eye tracking data collection – internt projekt med ITU. Formål: at udvikle en dansk eye-tracking samling af naturlig læsning af danske tekster. Ressourcen kan bruges til forskning i psykolingvistik og til at forbedre NLP-applikationer med kognition. 
  • Low-cost eye tracking corpus for explainable natural language processing – Carlsberg Foundation– med DIKU, KU. Formål: at indsamle billig webcambaseret eye-tracking til let-forklarlig NLP. 
  • Gestures and Head Movements in Language (GEHM). Forskningsnetværk som understøtter samarbejde mellem otte ledende forskningsgrupper der arbejder med gestus og sprog. Formål: at skabe nye teoretiske indsigter i hvordan håndgestus og hovedbevægelser interagerer med tale i ansigt til ansigt multimodal kommunikation.

 

Kognitiv datamodellering og multimodalitet

Kognitiv datamodellering er en tilgang til kognition, der søger at forstå hvordan mennesker behandler information ved at udvikle matematiske og beregningsmæssige modeller, der fanger aspekter af en sådan behandling. På CST fokuserer vi på beregningsmodeller for sprogbehandling og i hvor høj grad disse modeller gør brug af kognitive signaler på den ene side og sproglig viden på den anden. Endvidere undersøger vi den måde, hvorpå sprog – både skriftligt og talt – interagerer med andre modaliteter såsom den visuelle gesturale modalitet.

 

  • Gestures and Head Movements in Language (GEHM). Research network that supports cooperation among eight leading research groups that work in the area of gesture and language. (Goal: to foster new theoretical insights into the way hand gestures and head movements interact with speech in face-to-face multimodal communication).
  • Project on the development of an automatic head movement classifier – internal project related to GEHM. (Goal: To develop a classifier that makes use of visual and acoustic features to detect head movements in video data. To be used as an aid for the annotation of video-recorded language data).
  • The Danish eye tracking data collection – internal project with ITU. (Goal: To develop a Danish eye tracking collection from natural reading of Danish texts. The data resource can be used for research in psycholinguistics as well as for cognitively-enhanced NLP applications.
  • Low-cost eye tracking corpus for explainable natural language processing – Carlsberg Foundation– with the Department of Computer Science at UCPH. (Goal: To collect low-cost webcam-based eye-tracking for explainable NLP).

 

 

NLP-infrastruktur og sprogpolitik

Vi arbejder med sprogpolitiske spørgsmål vedrørende dansk sprogteknologi og fremmer sprogteknologi for sprog med få ressourcer, både i Danmark og EU. Centret har i årtier været involveret i at fremme dansk sprogteknologi i hele verden og i at fremme interoperabilitet og tilgængeligheden af danske ressourcer internationalt. Dette har vi gjort ved at støtte brugen af standarder samt produktion og deling af sproglige ressourcer baseret på FAIR. Centrets langvarige engagement i CLARIN, en teknologisk infrastruktur for samfundsvidenskab og humaniora, er en del af denne indsats. CLARIN omfatter udvikling af NLP-værktøjer til bearbejdning og annotering af tekst og andet sprogrelateret materiale.

 

  • CLARIN Formål: at gøre alle digitale sprogressourcer og NLP-værktøjer fra hele Europa og længere væk tilgængelige via et online-miljø med single sign-on til støtte for forskere inden for humaniora og samfundsvidenskab. 
  • Common European Language Data Space – LDS har til formål at lette og styrke indsamling og deling af sproglige data og overvinde juridiske og tekniske barrierer i den forbindelse.

  • European Language Equality Formål: At udarbejde en strategisk forsknings-, innovations- og implementeringsdagsorden og en plan for at opnå fuld digital sproglig lighed i Europa inden 2030.
  • European Language Grid Formål: at udvikle en skalerbar skybaseret platform, der vil give let adgang til masser af sprogteknologi for alle de europæiske sprog, inkl. værktøjer og tjenester, datasæt og ressourcer. 
  • European Language Resource Coordination  Formål: At forbedre kvaliteten af automatiserede oversættelsesløsninger ved at indsamle og koordinere relevante sprogressourcer for alle officielle sprog i EU og CEF-associerede lande. 

I årenes løb har centret også været særdeles aktiv i et betydeligt antal internationale og nationale bestyrelser og udvalg med relevans for infrastruktur og sprogpolitik. Disse omfatter pt. Digital Humanities in the Nordic and Baltic Countries (DHNB), European Language Technology Council, Social and Cultural Innovation SWG, ESFRI, Advisory Board for Sprogteknologi.dk under Digitaliseringsstyrelsen, Dansk Sprognævn, Det Danske Sprog- og Litteraturselskab samt Terminologigruppen i Danmark.

 

Representation learning i natursprogsprocessering (RL4NLP)

Kunstig intellligens

Vi bidrager til gøre AI mere transparent ved at udforske moderne sprogmodellers interne repræsentationer og læringsmekanismer. Ved at anvende en flersproglig strategi sammenligner vi disse mekanismer med lingvistiske teorier for på den måde at afdække universelle mønstre mellem sprogene, og vi viser hvordan denne afdækning kan forbedre modellerne og gøre dem mere praktisk anvendelige. Derudover beriger vi sprogmodellerne med lingvistiske teorier og forbedrer dermed deres gennemsigtighed og ydeevne. Denne tilpasning af sprogmodellerne forbedrer modellernes fortolkelighed og muliggør mere robust og præcis behandling af forskellige sprog.