Sprogteknologisk Konference 2025
Kom med til Sprogteknologisk Konference 2025!

Digitaliseringsstyrelsen og Center for Sprogteknologi ved KU inviterer til dette års Sprogteknologisk Konference den 14. november 2025.
For femte år i træk samler vi fagfolk, forskere og praktikere der arbejder med sprogteknologi i en dansk kontekst. Alt fra udvikling af værktøjer og modeller i den offentlige sektor til sproglige ressourcer der understøtter dansk i en digital tidsalder. Konferencen skal bruges til at dele erfaringer fra danske use-cases og belyse de særlige udfordringer og muligheder der opstår når vi udvikler og anvender sprogteknologi med afsæt i det danske sprogområde.
Vi tager afsæt i regeringens strategiske indsats for kunstig intelligens, som indeholder initiativer om tilgængeliggørelse af danske tekstdata og en sikker, transparent platform til udvikling af danske sprogmodeller.
Konferencen i år fokuserer således især på hvordan vi sammen kan sikre at AI-løsninger forankres i det danske sprog og det danske samfund. Vi belyser emnet dels gennem et række oplæg fra aktører der arbejder konkret med udvikling af dansk sprogteknologi i danske løsninger, dels gennem udvalgte forskningsoplæg der kigger dybere ind i sprogmodellernes maskinrum, og undersøger hvordan modellerne håndterer sproglig og kulturel diversitet, og frem for alt, hvordan de fremover kan blive bedre til det.
Alle pladser på konferencen er nu optaget.
Der kommer løbende afbud, så hvis du tilmelder dig, får du plads på en venteliste og får tilbudt en plads hvis der kommer en.
| 08:30 - 09:00 | Morgenmad og check-in |
| 09:00 - 09:05 | Forord og praktikaliteter v. konferencier Marie Høst |
| 09:05 - 09:15 | Åbning v. Digitaliseringsminister Caroline Stage Olsen |
| 09:15 - 09:20 |
Velkomst og præsentation af dagens program v. professor Bolette Sandford Pedersen, Center for Sprogteknologi, KU |
| 09:20 - 09:50 | Cultural Awareness in Language Models: A Multilingual Perspective Professor José Camacho Collados, Cardiff University |
| 09:50 - 10:20 | Linguistic Disparities in Language Technology: Lessons from West-Greenlandic Ph.d.-studerende Esther Ploeger, Aalborg Universitet |
| 10:20 - 10:40 | Kaffepause |
| 10:40 - 11:10 | Lex.llm – et AI-baseret søgeinterface til Danmarks Nationale Leksikon
Sekretariatschef Ole Kaag Mølgaard, Lex, Danmarks Nationalleksikon og professor Kristoffer Nielbo, Center for Humanities Computing og Danish Foundation Models, AU |
| 11:10 - 11:40 | Tale-til-tekst-modeller på tværs af danske dialekter og CoRal projekt Marie Juhl Jørgensen, Alvenir |
| 11:40 - 11:55 | Poster pitch |
| 11:55 - 13:10 | Frokost, netværk og posters |
| 13:10 - 13:40 |
Pilotprojekt om byrådsdata: Juridiske afklaringer og mulige løsninger Casper Frohn, Digitaliseringsstyrelsen |
| 13:40 - 14:10 | Multilingual Learning Strategies in Large Language Models Lektor Ali Basirat, Center for Sprogteknologi, KU |
| 14:10 - 14:40 | PHAIR-projektet Klinisk professor Espen Jimenez Solem, Region Hovedstaden |
| 14:40 - 15:10 | Kaffe og posters |
| 15:10 - 15:50 |
Paneldebat: Tillid, design og data i sprogteknologiske løsninger til dansk anvendelse Deltagere: Maria Skjærven, Future Scouts, |
| 15:50 - 16:00 | Afrunding Center for Sprogteknologi og Digitaliseringsstyrelsen |
| 16:00 - 16:30 | Netværk, posters og vin |
José Camacho Collados
Cultural Awareness in Language Models: A Multilingual Perspective.
Language models have become ubiquitous in Natural Language Processing (NLP). In particular, the new wave of large language models (LLMs) are increasingly used to communicate and solve practical problems in many languages and countries, and by an increasingly diverse set of users. However, even though there is no doubt that these models open up plenty of opportunities, there are important issues and research questions that arise when it comes to LLMs and their application in different languages and cultures. For instance, the language coverage in LMs drastically decreases for less-resourced languages and as such, their performance. And not only the general performance is affected, but general-purpose LMs may be implicitly biased to specific cultures and languages depending on their underlying training data.
In this talk, I will discuss how LLMs reflect on cultural diversity, including potential shortcomings and how language coverage and cultural awareness may be intrinsically intertwined. I will also present some lessons based on our recent research in this area. In particular, I will focus on the development of BLEnD, a large effort to develop a cultural benchmark of everyday knowledge for dozens of languages and countries.
Esther Ploeger
Linguistic Disparities in Language Technology: Lessons from West-Greenlandic.
Language technology has advanced rapidly, but much of it has been shaped by structural assumptions of English and other well-resourced languages. In this talk, I explore how linguistic disparities affect the performance of language technologies beyond English. Drawing on West-Greenlandic as a case study, I illustrate how morphological and structural variations challenge mainstream NLP approaches. I argue that language differences matter, and that working with underrepresented languages requires navigating not only resource scarcity, but also fundamental linguistic disparities.
Marie Juhl Jørgensen
Tale-til-tekst-modeller på tværs af danske dialekter
Sønderjysk lyder helt anderledes end bornholmsk. Eller gør det? Danske sproggenkendelsesmodeller kan lære meget på tværs af dialekter. Udgivelsen af et nyt dansk samtale og oplæsningsdatasæt har banet vejen for nye, bedre sprogmodeller, der kan transskribere stemmer fra hele Danmark. Men hvordan kan vi på bedste vis, udnytte dette data?
Oplægget fokuserer på wav2vec2 og whisper modeller trænet til dansk i forbindelse med forskningsprojektet CoRal.
Kristoffer Nielbo og Ole Kaag Mølgaard
Lex.llm – et AI-baseret søgeinterface til Danmarks Nationale Leksikon
Fremskridt inden for sprogteknologi og kunstig intelligens har giver sprogmodeller en række, ofte imponerende evner på tværs af meget forskellige domæner og opgaver. Opgaverne omfatter, men er ikke begrænset til, oversættelse, opsummering, besvarelse af spørgsmål, opgavegeneralisering, ræsonnering og kontekstlæring. Disse fremskridt forpligter – vigtigheden af at benytte sådanne faktuelle og kontekstfølsomme modeller fremstår nu som uomgængelig, særligt når sprogmodeller anvendes i sprogligt og kulturelt meget forskellige sammenhænge. Det er vigtigt at sikre fakticitet og kulturel sensitivitet indenfor dialoggenerering, indholdsmoderering og informationssøgning for at forhindre bias og tillade adgang til høj-kvalitets information for alle brugergrupper uanset deres udgangspunkt. Hvis vi skal fremme LLM-kapaciteter og -applikationer i Danmark, er det derfor af stor nødvendighed at udvikle modeller, der kan generere korrekte og kontekstuelt relevante svar.
Lex.llm er et translatorisk forsknings- og udviklingsprojekt varetaget af Center for Humanities Computing ved Aarhus Universitet og Lex.dk, Danmarks nationale leksikon. Målsætningen er at udvikle en virtuel assistent til lex.dk, der genererer faktuelle svar tilpasset Lex’ brugere. Mere specifikt vil projektet udvikle en AI-agent, der anvender menneskelignende samtaler til faktasøgning og assisteret læring igennem Lex.dk. Projektet tager afsæt i eksisterende modellers manglende træning på højkvalitets danske data og modellernes fejlagtige repræsentation af kontekstsensitive værdier. Ved at tilpasse åbne modeller, der er tilgængelige gennem projektet Danish Foundation Models[a], vil vi træne en dansk dialogisk LLM til assisterende læring baseret på informationssøgning fra en digital ressource af høj kvalitet, Lex.dk. Derudover skal disse modeller tilpasses til brugers søgepræferencer og vidensniveau i forbindelse med informationssøgning.
[a] Danish Foundation Models (DFM) projektet er et sprogteknologisk initiativ med fokus på dansk sprog og kultur, se mere om projektet.
Ali Basirat
Multilingual Learning Strategies in Large Language Models
Abstract: Large language models (LLMs) are now capable of communicating in dozens of languages, but how they actually learn to process multiple languages remains an open question. Do they build a separate system for each language, mix them into a shared space, or filter one language through another? In this talk, I will present our study that explores these possibilities, drawing on classic theories of second language learning. We analyze internal representations across layers by looking inside the models, not just at their outputs. Our results show that decoder-only models (like GPT-style architectures) tend to keep languages apart in distinct spaces, while encoder-only models (like BERT-style architectures) show a more complex balance between shared and separate processing. We find little evidence that one dominant language (such as English) serves as a pivot for others, but we do see that languages included in training are represented more clearly than unseen ones. These findings reveal how architecture and training data shape multilingual ability in LLMs, with implications for designing models that better support cross-lingual transfer, low-resource languages, and fair access to AI technologies.
Espen Jimenez
Phair-projektet
PHAIR-projektet udforsker, hvordan avancerede transformer-baserede sprogmodeller kan anvendes til at udtrække, strukturere og analysere sundhedsdata til klinisk beslutningsstøtte. Gennem tre års arbejde har projektet givet værdifuld indsigt i både de tekniske muligheder og de juridiske barrierer, der opstår, når kunstig intelligens anvendes på store datasæt og bringes tættere på patientbehandlingen. Oplægget deler centrale erfaringer fra udviklingsarbejdet – herunder praktiske løsninger på databeskyttelses- og lovgivningsmæssige udfordringer – og peger på, hvordan sprogteknologi kan bidrage til en mere effektiv og tillidsfuld anvendelse af sundhedsdata.
Nedenfor kan du læse lidt om de postere der vil blive præsenteret på konferencen.
Annika Simonsen, Barbara Scalvini, Uni Johannesen, Iben Nyholm Debess og Vésteinn Snæbjarnarson
A Multi-Label Neural POS Tagger for Faroese with Constrained Loss
This paper presents a new multi-label neural part-of-speech (POS) tagger for Faroese. We introduce the BRAGD tagset that decomposes complex morphological tags into independent features (word class, gender, number, case, etc.) and use a linguistically-informed constrained loss function that masks invalid feature combinations during training. Our multi-label approach achieves 94.8% accuracy and significantly outperforms previous single-label methods, especially on out-of-domain data, demonstrating that it learns robust morphological patterns rather than memorizing specific text distributions.
Casper Frohn og Torben Blach
Hvordan får vi konkurrencedygtig europæisk sprogteknologi?
Hvordan får vi konkurrencedygtig europæisk sprogteknologi? Digitaliseringsstyrelsen og Alexandra Instituttet fortæller om tre europæiske samarbejdsprojekter, som netop skal hjælpe med dette! Så kom og tag en snak med os om Language Data Space, Alliancen for sprogteknologi (ALT-EDIC) og TrustLLM.
Conrad Donau Lauridsen & Steinar Slette
Retrieval Augmented Generation til Efterforskning af Kommunikationsdata
I Konkurrencestyrelsens Efterforskningsenhed arbejder vi med yderst fortrolig data, sikret fra formodede karteller. Vi har udviklet Analyseportalen, som strukturerer sagskompleksets email-data og gør dem søgbare og analyserbare.
Kernen er et RAG-system, der bruger tricks som query-oprensning, HyDE, oversættelse, filtrering og kontekstbevarelse til at finde relevante svar hurtigt.
Systemet hjælper også selv med prompting og giver let adgang til originaldata, så efterforskere kan verificere resultaterne. På posteren viser vi, hvordan disse metoder anvendes konkret, og hvordan vi har bygget et modul, der automatisk søger i data og genererer en rapport.
Costanza Navarretta and Dorte Haltrup Hansen
Is a Party in Government or in Opposition?
We address the status dichotomy between government and opposition in the speeches of two Danish parties that alternated as being the leader of government or being part of the opposition from 2014 to 2022. We use as data the linguistically annotated ParlaMint-DK 5 (2025) corpus and perform quantitative analyses of the speeches. Moreover, we test two classification approaches to automatically identify the status of the two parties from the transcriptions of their speeches. A transformer-based classifier with a fine-tuned large language model achieves the best performance (macro F1 scores over 0.85).
Jakob Blaaholm Nielsen
Compar:IA (AI-Arenaen)
Compar:IA, som på dansk har fået navnet ’AI Arenaen’ er et åbent værktøj, hvor brugere kan sammenligne og vurdere svar fra forskellige AI-modeller. Der er mulighed for at sammenligne svar fra anonyme modeller, samt vælge to modeller man gerne vil sammenligne. Målet er et gennemsigtigt, faktabaseret grundlag til at forstå og sammenligne modeller på dansk, men også på tværs af mange forskellige europæiske sprog. Der udvikles højkvalitetstekstdatasæt på dansk, som giver et realistisk billede af, hvordan sprogmodeller præsterer i praksis. Projektet giver mulighed for at undersøge anvendelsen af AI-modeller på tværs af europæiske lande, kultur og sprog.
Jakob G. Damgaard, Andreas A. Danielsen, Søren D. Østergaard
Predicting Clinical Outcomes for Patients with Mental Illness using NLP on Electronic Health Records
Predicting future patient outcomes in hospital settings using artificial intelligence may enable personalized, timely interventions that help prevent adverse events. Our previous work has demonstrated the feasibility of developing promising predictive models for patients with mental illness using simple classifiers trained on electronic health record data. However, in psychiatry, vast amounts of informative details and nuances are captured in free-text clinical notes. Therefore, this study aims to evaluate the strengths and limitations of applying different NLP approaches to these notes to enhance the prediction of clinically relevant outcomes for patients with mental illness.
Johanna Düngler
Private Machine Learning
Despite careful anonymization, datasets - and the models trained on them - can still reveal sensitive information. In this poster, we outline techniques that modify learning algorithms to deliver formal, end-to-end privacy guarantees. We also showcase recent work from the Foundations of Responsible Machine Learning group that apply these ideas across a wide range of models.
Kasper Fyhn, Charlotte Bilde, Ida Bække Johannesen
Et korpus over danske kausale udtryk
Vi præsenterer et omfattende annoteringsprojekt af danske kausale udtryk (fordi, derfor, få til at, mm.). Datasættet kan understøtte lingvistisk forskning og udvikling af sprogteknologi til fx holdnings- og risikoanalyse. Vi søger sparring: Hvilke annotationer vil være mest værdifulde for dansk sprogteknologi?
Kenneth Enevoldsen, Kristian Nørgaard Jensen, Jan Kostkan, Balázs Szabó, Márton Kardos, Kirten Vad, Johan Heinsen, Andrea Blasi Núñez, Gianluca Barmina, Jacob Nielsen, Rasmus Larsen, Peter Vahlstrup, Per Møldrup Dalum, Desmond Elliott, Lukas Galke, Peter Schneider-Kamp, Kristoffer Nielbo
Dynaword: From One-shot to Continuously Developed Datasets
This paper introduces Dynaword, a framework for building large-scale, openly-licensed datasets that can be continuously improved through community contributions. As a proof of concept, the authors present Danish Dynaword, which contains four times as many tokens as comparable Danish datasets and has already received contributions from both industry and research. The approach addresses key limitations in current datasets: restrictive licensing, static releases, and centralized quality control.
Nikolaj K. Carstens, Sebastian Kitlen, Maja Nørtoft Jacobsen & Katrine Sandager Nielsen
Sikkerhed i semantik
Kan vi bruge sprogteknologi til at undersøge sikkerhedsliggørelse kvantitativt. Den eksisterende forskning indenfor sikkerhedsliggørelse er begrænset til næsten udelukkende kvalitative studier. Nye sprogteknologiske metoder, såsom word embeddings, gør det dog muligt at foretage en kvantitativ analyse af store mængder sprog. I dette projekt anvender vi en word embeddings model til at undersøge, om forskellige politiske emner bliver mere eller mindre sikkerhedsliggjort efter den russiske invasion af Ukraine.
Nina Skovgaard Schneidermann, Sanni Nimb, Nathalie Hau Norman, Sussi Olsen, Bolette S. Pedersen
DAMETA: Et evalueringsdatasæt af danske metaforer med systematiske parafraser
Vi præsenterer et evalueringsdatasæt med 600 danske metaforer, hvor der til hver metafor er tilknyttet en sætning fra enten DaFig-korpusset eller fra Den Danske Ordbog samt fire menneskeskabte parafraser af sætningen: en korrekt samt tre systematisk forkerte parafraser. Vi har testet datasættet på 7 sprogmodeller, og 8 % af datasættet er også blevet testet af mennesker.
Søren Mollerup
Auto Index
Auto Index er et system til automatisk generering af emneord for dokumenter. Systemet kombinerer embeddings, grafbaseret analyse og reranking-filtre til at skabe præcise og relevante tags. Gennem en pipeline af retrieval og semantisk vurdering leverer Auto Index emneord af høj kvalitet, der understøtter bedre søgning og klassifikation af indhold.
Thor Steen Larsen, Serkan Altay, Swati Anand
Hjælp til tog- og lokomotivfører gennem egen sprogmodellering: Automatisk fejlmelding ved hjælp af domænespecifik tale-til-tekst og finjustering af sprogmodeller
Eksisterende state-of-the-art tale-til-tekst-modeller er utilstrækkelige til at håndtere et støjfyldt togmiljø og den specialiserede jernbaneterminologi. Derfor har DSB indsamlet over 20.000 lydklip fra optaget direkte fra tog og togstationer, som har dannet grundlag for en finjustering af Whisper v3-turbo-model, som demonstrerer markant forbedret performance i støjfyldte miljøer og forståelse af danske fagtermer. Vi præsenterer benchmark-resultater, der sammenligner vores model med Whisper, Røst og Hviske på både vores testdatasæt og Coral-projektets data. Præsentationen inkluderer en live demonstration af applikationen samt indsigter fra den løbende feedback-indsamling fra brugerne.
Valdemar Baes Aaholst og William Viksø-Nielsen
Generativ AI i kommunikationsbranchen: Betydningen af masseudbredelsen af ChatGPT for sproget i danske pressemeddelelser
Vi har indsamlet 62.000 danske pressemeddelelser fra Ritzaus platform ViaRitzau i perioden sommeren 2020 til foråret 2025 via en automatiseret scraper. Med bl.a. den danske sprogmodel DaCy analyserer vi sproglige ændringer før og efter december 2022 for at undersøge, hvordan ChatGPT og lignende sprogmodeller har påvirket tonen og stilen i danske pressemeddelelser. Projektet kombinerer dermed sprogteknologi som både genstand og metode.