Sprogteknologisk Konference 2024

For fjerde gang bød Center for Sprogteknologi og Digitaliseringsstyrelsen velkommen til Sprogteknologisk Konference! 

Sprogteknologi

Dagen blev lige så spændende og vellykket som vi havde håbet på, med en masse veloplagte oplægsholdere, posterholdere og deltagere. Bredden og mængden af oplæg og postere sikrede at der var noget af interesse for alle. 

I programmet kan man nu se præsentationer fra nogle af oplægsholderne, og under Accepterede postere kan man se slides fra posterpitchen.

 

 

 

08:30-09:00 Morgenmad, kaffe og registrering
09:00-09:25

Velkomst v.

Vicedirektør i Digitaliseringsstyrelsen Lars Bønløkke Lê

Minister for digitalisering Caroline Stage Olsen

Prodekan for forskning og impact, KU  Dorthe Gert Simonsen

Centerleder Bolette S. Pedersen, Center for Sprogteknologi, NorS, KU

Session 1, ordstyrer Bolette S. Pedersen

09:25 – 09:55

Detecting Factual Errors of Large Language Models (læs abstract, se præsentation) v. Isabelle Augenstein, Co-lead of the AI Pioneer Centre and leader of the NLP Section at DIKU

09:55 – 10:20

Evaluation of Language Models in the Generative Era  (læs abstract, se præsentation) v. Dan Saattrup Nielsen, Senior AI Specialist, Alexandra Instituttet

10:20 – 10:50

Kaffepause

Session 2, ordstyrer Josephine Andersson

10:50 – 11:15

Sprogteknologi på Patientjournalen (læs abstract, se præsentation) v. Pernille Just Vinholt, ledende overlæge og klinisk professor, SDU

11:15 – 11:40

Sprogteknologi i biomedicinsk forskning (læs abstract) v. Sidsel Boldsen, Senior NLP Scientist, Novo Nordisk

11:40 – 12:00

Poster pitch, ordstyrer Sussi Olsen

12:00 – 13:15

Frokost, netværk og posters

Session 3, ordstyrer Costanza Navarretta

13:15 – 13:40

DanskGPT  (læs abstract, se præsentation) v. Mads Henrichsen, syv.ai

13:40– 14:05

Hvorfra ved vi, hvad en sprogmodel ved?  (læs abstract, se præsentation) v. Anders Søgaard, professor, leder af Center for Philosophy of Artificial Intelligence, KU

14:05 – 14:35

Cross-lingual Modeling of Lexical Metaphor and Metonymy in WordNet Using ChainNet (læs abstract, se præsentation) v. Francis Bond, extraordinary professor, Palacký University Olomouc, Tjekkiet

14:35 – 15:05

Kaffepause og posters

 

Session 4, ordstyrer Jakob Blaaholm Nielsen

15:05 – 15:50

 

Paneldebat: Perspektiverne i sprogmodeller i forhold til sprogsamfundenes repræsentation og i relation til bæredygtighed

Ordstyrere: Kasper Junge, Jonas Høgh Kyhse-Andersen

Deltagere: 

Thomas Kovsted, Adm. Direktør, IBM Danmark
Isabelle Augenstein, Co-lead of the AI Pioneer Centre and leader of the NLP Section at DIKU
Kasper Groes Albin Ludvigsen, Data Scientist, Rigspolitiet
Erik David Johnson, Chief AI Officer, Delegate A/S

15:50-16:00

Afrunding v. Digitaliseringsstyrelsen og Center for Sprogteknologi

16:00-16.30

Netværk og posters

 

 

 

 

 

Slides fra posterpitchen kan ses her

  • Alberto Parola og Patrizia Paggio: Co-speech gestures and information uptake: an empirical investigation with eye-tracker

This research investigates - using eye-tracking technology - how we perceive and process co-speech gestures, focusing specifically on directional gestures that accompany speech when describing movement or location

  • Ali Al-Laith, Daniel Hershcovich, Jens Bjerring-Hansen, Jakob Ingemann Parby, Alexander Conroy, Timothy R Tangherlini: Noise, Novels, Numbers: A Framework for Detecting and Categorizing Noise in Danish and Norwegian Literature

Explore how 19th-century Danish and Norwegian novels depict noise as both a cultural and auditory phenomenon tied to urbanization. This poster presents a novel framework combining topic modelling and fine-tuned pre-trained language models to detect and categorize noise, offering insights into its literary and historical significance during the Scandinavian "Modern Breakthrough"

  • Ali Basirat: Contribution of Linguistic Typology to Universal Dependency Parsing

The research examines how universal dependencies deviate from typological principles and explores a typologically informed transformation to align universal dependencies more closely with these principles. Empirical results underscore the significance of the transformations across diverse languages and highlight their advantages and limitations.

  • Bolette S. Pedersen, Nathalie H. Sørensen, Sanni Nimb, Dorte H. Hansen, Sussi Olsen og Ali Al-Laith: Hvor godt forstår sprogmodellerne danske kulturspecifikke metaforer?

Vi undersøger hvor godt ChatGPT og LLama forklarer danske kulturspecifikke metaforer. Med kulturspecifikke metaforer mener vi metaforer (både enkeltords- og flerords-) som ikke findes tilsvarende på engelsk, og som modellerne derfor ikke kan lære om fra engelsk. Vi sammenligner med et sæt af mere universelle metaforer og kan se at modellerne performer langt bedre i de tilfælde hvor de kan lære fra engelsk. Dette bekræfter vores antagelse om at selv de bedste sprogmodeller stadig har store problemer med kulturelle og sproglige bias.

  • Casper Blum Frohn: Language Data Space, Alliancen for sprogteknologi (ALT-EDIC) og TrustLLM

Hvordan får vi konkurrencedygtig europæisk sprogteknologi? Digitaliseringsstyrelsen og Alexandra Instituttet fortæller om tre europæiske samarbejdsprojekter, som netop skal hjælpe med dette! Så kom og tag en snak med os om Language Data Space, Alliancen for sprogteknologi (ALT-EDIC) og TrustLLM.

  • Christina Rosted: Hvad sker der med sproget i tech? 

Hvad sker der med sproget i tech? Mindre hype og mere mening, tak - alt er data, men data er ikke alt!

  • Costanza Navarretta og Dorte H. Hansen: Government and Opposition in Danish Parliamentary Debates

Using linguistic features and the pre-trained Danish BERT to identify parties in government or in opposition in the Danish Parliament.

  • Daniel Kjeldsmark Andreasen: Afklaringsflow for håndtering af dokumenter og videnselementer til RAG

I en praktisk kontekst oplever vi at den største udfordring i at bygge og sikre kvalitet i løsninger, der bruger sprogmodeller (mindre, open-weights), er at sikre at informationen i vores datagrundlag kan forstås af modellerne. Vores datagrundlag er historisk skabt med begrænsede ressourcer og fokus på formidling til mennesker. Det har skabt stor varians i, og besværliggør et overblik over, hvordan materialet skal præprocesseres. Til at imødegå den udfordring, har vi lavet et udkast til et afklaringsflow/en spørgeguide, der kan anvendes af eller sammen med dataejere. Vi håber denne poster kan være med til at starte en samtale om hvordan vi let får bragt vidensmateriale i spil i sprogmodelsløsninger.

  • Mads Jonathan Pedersen: Sprogteknologi i oversættelser mellem dansk og dansk tegnsprog

Idéen om oversættelser fra dansk til dansk tegnsprog via AI-avatar. Der er potentiale i udviklingen, men vi skal se hvilke løsninger, der skal kvalificere og styrke de automatiske oversættelsesprogrammer.”

  • Martin Sundahl Laursen: Sprogmodeller highlighter relevant information i patientjournalen

Indsigt.ai præsenterer deres implementering af sprogmodeller til at fremsøge relevant information om blødning og trombose i patientjournaler. Sundhedspersonale har sjældent tid til at læse hele journalen, og løsningen kan hjælpe dem med at finde den relevante information hurtigt.

  • Nathalie H. Sørensen, Agnes A. Mikkelsen og Sanni Nimb: Et nyt datasæt med talemåder og faste udtryk

Det Danske Sprog- og Litteraturselskab udgiver i samarbejde med sprogteknologi.dk et nyt datasæt med 1000 danske talemåder og faste udtryk med overførte betydninger.  Formålet med datasættet er at evaluere sprogmodellers danskfærdigheder og inkluderer både en definition fra Den Danske Ordbog og tre falske definitioner til hvert udtryk. 

  • Patrizia Paggio, Manex Aguirrezabal Zabaleta , Costanza Navarretta og Leo Vitasovic: Multimodal interaction in online meetings: the GEHM corpus

A new multimodal corpus consisting of 12 Zoom meeting recordings with automatic transcriptions and visual keypoint data (e.g. head, shoulder, wrist movements) extracted using WhisperX and OpenPose. The corpus is distributed with orthographic transcription, audio-visual recordings, and automatic annotations. We also present a preliminary analysis on the role of vocal feedback in the meetings.

  • René Jørn Belsø: DeiC Dataverse – A National Danish Trusted Repository for Research Data

DeiC Dataverse is a national digital repository, where researchers from Danish universities can register, publish, and archive their research data with structured metadata, including clear terms and conditions for access and reuse, and Digital Object Identifiers (DOI’s). Thereby, the research data become easily visible, searchable and citable – or in other words: FAIR (Findable, Accessible, Interoperable and Reusable).

  • Rob van der Goot: Danish Cultural Adaptation of LMs

We provide a benchmark for evaluating Danish cultural awareness of language models that is created by native Danes, covering many aspects of Danish culture. We evaluate existing large language models, and train our own Danish SprogModel on 13B words, which has superior performance on the Danish culture benchmark.

  • Søren Vejlgaard Holm: Danoliterate: Dansk GLLM-evaluering

I Danoliterate-projektet evalueres generative sprogmodeller på dansk på tværs af brugsscenarier om kulturel dansk viden, fritekstbesvarelse af spørgsmål og generel sprogforståelse. For at forbedre den automatiske evaluering præsenterer projektet en interaktiv arenaside, hvor dansktalere kan evaluere modeller og bidrage til forståelsen af modeller som GPT-4 og Claude.

  • Tascha Lynggaard Nielsen: Enhancing Book Metadata with AI

WeDoBooks vil fremvise de første resultater fra deres undersøgelseser om at bruge AI til at forbedre bøgers metadata i den danske bogbranche.

  • Terne Sasha Thorn Jakobsen, Enric Cristobal Coppulo, Simon Rasmussen og Michael Eriksen Benros: PsyRoBERTa: A Large Language Model for Predicting Psychiatric Outcomes from Danish Clinical Notes

This poster presents PsyRoBERTa, a large language model pretrained on ~40 million Danish clinical notes related to psychiatry. The model is evaluated on the task of predicting psychiatric acute readmissions and with the inclusion of several explainability and bias analyses.