Sprogteknologisk Konference 2025
Kom med til Sprogteknologisk Konference 2025!
Digitaliseringsstyrelsen og Center for Sprogteknologi ved KU inviterer til dette års Sprogteknologisk Konference den 14. november 2025.
For femte år i træk samler vi fagfolk, forskere og praktikere der arbejder med sprogteknologi i en dansk kontekst. Alt fra udvikling af værktøjer og modeller i den offentlige sektor til sproglige ressourcer der understøtter dansk i en digital tidsalder. Konferencen skal bruges til at dele erfaringer fra danske use-cases og belyse de særlige udfordringer og muligheder der opstår når vi udvikler og anvender sprogteknologi med afsæt i det danske sprogområde.
Vi tager afsæt i regeringens strategiske indsats for kunstig intelligens, som indeholder initiativer om tilgængeliggørelse af danske tekstdata og en sikker, transparent platform til udvikling af danske sprogmodeller.
Konferencen i år fokuserer således især på hvordan vi sammen kan sikre at AI-løsninger forankres i det danske sprog og det danske samfund. Vi belyser emnet dels gennem et række oplæg fra aktører der arbejder konkret med udvikling af dansk sprogteknologi i danske løsninger, dels gennem udvalgte forskningsoplæg der kigger dybere ind i sprogmodellernes maskinrum, og undersøger hvordan modellerne håndterer sproglig og kulturel diversitet, og frem for alt, hvordan de fremover kan blive bedre til det.
08:30 - 09:00 | Morgenmad og check-in |
09:00 - 09:05 | Forord og praktikaliteter v. konferencier Marie Høst |
09:05 - 09:15 | Åbning v. Digitaliseringsminister Caroline Stage Olsen |
09:15 - 09:20 |
Velkomst og præsentation af dagens program v. professor Bolette Sandford Pedersen, Center for Sprogteknologi, KU |
09:20 - 09:50 | Cultural Awareness in Language Models: A Multilingual Perspective Professor José Camacho Collados, Cardiff University |
09:50 - 10:20 | Linguistic Disparities in Language Technology: Lessons from West-Greenlandic Ph.d.-studerende Esther Ploeger, Aalborg Universitet |
10:20 - 10:40 | Kaffepause |
10:40 - 11:10 | Pilotprojekt om byrådsdata: Juridiske afklaringer og mulige løsninger Casper Frohn, Digitaliseringsstyrelsen |
11:10 - 11:40 | Afslutning på CoRal projekt og modeller udgivet Marie Juhl Jørgensen, Alvenir |
11:40 - 11:55 | Poster pitch |
11:55 - 13:10 | Frokost, netværk og posters |
13:10 - 13:40 |
Lex.llm – et AI-baseret søgeinterface til Danmarks Nationale Leksikon Ansvarshavende chefredaktør Erik Henz Kjeldsen, Lex Danmarks Nationalleksikon og professor Kristoffer Nielbo, Center for Humanities Computing, AU |
13:40 - 14:10 | Multilingual Learning Strategies in Large Language Models Lektor Ali Basirat, Center for Sprogteknologi, KU |
14:10 - 14:40 | PHAIR-projekt Klinisk professor Espen Jimenez, Region Hovedstaden |
14:40 - 15:10 | Kaffe og posters |
15:10 - 15:50 |
Paneldebat: Tillid, design og data i sprogteknologiske løsninger til dansk anvendelse Deltagere: TBO |
15:50 - 16:00 | Afrunding Center for Sprogteknologi og Digitaliseringsstyrelsen |
16:00 - 16:30 | Netværk, posters og vin |
José Camacho Collados
Cultural Awareness in Language Models: A Multilingual Perspective.
Language models have become ubiquitous in Natural Language Processing (NLP). In particular, the new wave of large language models (LLMs) are increasingly used to communicate and solve practical problems in many languages and countries, and by an increasingly diverse set of users. However, even though there is no doubt that these models open up plenty of opportunities, there are important issues and research questions that arise when it comes to LLMs and their application in different languages and cultures. For instance, the language coverage in LMs drastically decreases for less-resourced languages and as such, their performance. And not only the general performance is affected, but general-purpose LMs may be implicitly biased to specific cultures and languages depending on their underlying training data.
In this talk, I will discuss how LLMs reflect on cultural diversity, including potential shortcomings and how language coverage and cultural awareness may be intrinsically intertwined. I will also present some lessons based on our recent research in this area. In particular, I will focus on the development of BLEnD, a large effort to develop a cultural benchmark of everyday knowledge for dozens of languages and countries.
Esther Ploeger
Linguistic Disparities in Language Technology: Lessons from West-Greenlandic.
Language technology has advanced rapidly, but much of it has been shaped by structural assumptions of English and other well-resourced languages. In this talk, I explore how linguistic disparities affect the performance of language technologies beyond English. Drawing on West-Greenlandic as a case study, I illustrate how morphological and structural variations challenge mainstream NLP approaches. I argue that language differences matter, and that working with underrepresented languages requires navigating not only resource scarcity, but also fundamental linguistic disparities.
Marie Juhl Jørgensen
Tale-til-tekst-modeller på tværs af danske dialekter
Sønderjysk lyder helt anderledes end bornholmsk. Eller gør det? Danske sproggenkendelsesmodeller kan lære meget på tværs af dialekter. Udgivelsen af et nyt dansk samtale og oplæsningsdatasæt har banet vejen for nye, bedre sprogmodeller, der kan transskribere stemmer fra hele Danmark. Men hvordan kan vi på bedste vis, udnytte dette data?
Oplægget fokuserer på wav2vec2 og whisper modeller trænet til dansk i forbindelse med forskningsprojektet CoRal.
Kristoffer Nielbo og Erik Henz Kjeldsen
Lex.llm – et AI-baseret søgeinterface til Danmarks Nationale Leksikon
Fremskridt inden for sprogteknologi og kunstig intelligens har giver sprogmodeller en række, ofte imponerende evner på tværs af meget forskellige domæner og opgaver. Opgaverne omfatter, men er ikke begrænset til, oversættelse, opsummering, besvarelse af spørgsmål, opgavegeneralisering, ræsonnering og kontekstlæring. Disse fremskridt forpligter – vigtigheden af at benytte sådanne faktuelle og kontekstfølsomme modeller fremstår nu som uomgængelig, særligt når sprogmodeller anvendes i sprogligt og kulturelt meget forskellige sammenhænge. Det er vigtigt at sikre fakticitet og kulturel sensitivitet indenfor dialoggenerering, indholdsmoderering og informationssøgning for at forhindre bias og tillade adgang til høj-kvalitets information for alle brugergrupper uanset deres udgangspunkt. Hvis vi skal fremme LLM-kapaciteter og -applikationer i Danmark, er det derfor af stor nødvendighed at udvikle modeller, der kan generere korrekte og kontekstuelt relevante svar.
Lex.llm er et translatorisk forsknings- og udviklingsprojekt varetaget af Center for Humanities Computing ved Aarhus Universitet og Lex.dk, Danmarks nationale leksikon. Målsætningen er at udvikle en virtuel assistent til lex.dk, der genererer faktuelle svar tilpasset Lex’ brugere. Mere specifikt vil projektet udvikle en AI-agent, der anvender menneskelignende samtaler til faktasøgning og assisteret læring igennem Lex.dk. Projektet tager afsæt i eksisterende modellers manglende træning på højkvalitets danske data og modellernes fejlagtige repræsentation af kontekstsensitive værdier. Ved at tilpasse åbne modeller, der er tilgængelige gennem projektet Danish Foundation Models[a], vil vi træne en dansk dialogisk LLM til assisterende læring baseret på informationssøgning fra en digital ressource af høj kvalitet, Lex.dk. Derudover skal disse modeller tilpasses til brugers søgepræferencer og vidensniveau i forbindelse med informationssøgning.
[a] Danish Foundation Models (DFM) projektet er et sprogteknologisk initiativ med fokus på dansk sprog og kultur, se mere om projektet.
Ali Basirat
Multilingual Learning Strategies in Large Language Models
Abstract: Large language models (LLMs) are now capable of communicating in dozens of languages, but how they actually learn to process multiple languages remains an open question. Do they build a separate system for each language, mix them into a shared space, or filter one language through another? In this talk, I will present our study that explores these possibilities, drawing on classic theories of second language learning. We analyze internal representations across layers by looking inside the models, not just at their outputs. Our results show that decoder-only models (like GPT-style architectures) tend to keep languages apart in distinct spaces, while encoder-only models (like BERT-style architectures) show a more complex balance between shared and separate processing. We find little evidence that one dominant language (such as English) serves as a pivot for others, but we do see that languages included in training are represented more clearly than unseen ones. These findings reveal how architecture and training data shape multilingual ability in LLMs, with implications for designing models that better support cross-lingual transfer, low-resource languages, and fair access to AI technologies.
Ligesom de foregående år har konferencen en postersession, hvor folk kan netværke og høre hvad der sker inden for dansk sprogteknologi.
Hvis du har lyst til at diskutere et sprogteknologisk emne med interesserede og engagerede kolleger, kan du sende os dit forslag til en poster. Det kan fx være et nyt projekt som du gerne vil fortælle om, et program du vil demonstrere, eller noget andet sprogteknologisk du vil dele med os andre.
Vi opstiller et antal stande hvor I kan vise jeres posters, demoer eller hvad I ellers har forberedt.
Skriv en halv side til os om hvad din poster skal handle om, og send dit forslag senest d. 14. oktober 2025 til Nathalie Hau Sørensen på naha@hum.ku.dk – så melder vi tilbage om din poster er optaget på konferencen senest d. 24. oktober 2025.