Sprogteknologisk Konference 2024
For fjerde gang bød Center for Sprogteknologi og Digitaliseringsstyrelsen velkommen til Sprogteknologisk Konference!
Dagen blev lige så spændende og vellykket som vi havde håbet på, med en masse veloplagte oplægsholdere, posterholdere og deltagere. Bredden og mængden af oplæg og postere sikrede at der var noget af interesse for alle.
I programmet kan man nu se præsentationer fra nogle af oplægsholderne, og under Accepterede postere kan man se slides fra posterpitchen.
08:30-09:00 | Morgenmad, kaffe og registrering |
09:00-09:25 |
Velkomst v. Vicedirektør i Digitaliseringsstyrelsen Lars Bønløkke Lê Minister for digitalisering Caroline Stage Olsen Prodekan for forskning og impact, KU Dorthe Gert Simonsen Centerleder Bolette S. Pedersen, Center for Sprogteknologi, NorS, KU |
Session 1, ordstyrer Bolette S. Pedersen |
|
09:25 – 09:55 |
Detecting Factual Errors of Large Language Models (læs abstract, se præsentation) v. Isabelle Augenstein, Co-lead of the AI Pioneer Centre and leader of the NLP Section at DIKU |
09:55 – 10:20 |
Evaluation of Language Models in the Generative Era (læs abstract, se præsentation) v. Dan Saattrup Nielsen, Senior AI Specialist, Alexandra Instituttet |
10:20 – 10:50 |
Kaffepause |
Session 2, ordstyrer Josephine Andersson |
|
10:50 – 11:15 |
Sprogteknologi på Patientjournalen (læs abstract, se præsentation) v. Pernille Just Vinholt, ledende overlæge og klinisk professor, SDU |
11:15 – 11:40 |
Sprogteknologi i biomedicinsk forskning (læs abstract) v. Sidsel Boldsen, Senior NLP Scientist, Novo Nordisk |
11:40 – 12:00 |
Poster pitch, ordstyrer Sussi Olsen |
12:00 – 13:15 |
Frokost, netværk og posters |
Session 3, ordstyrer Costanza Navarretta |
|
13:15 – 13:40 |
DanskGPT (læs abstract, se præsentation) v. Mads Henrichsen, syv.ai |
13:40– 14:05 |
Hvorfra ved vi, hvad en sprogmodel ved? (læs abstract, se præsentation) v. Anders Søgaard, professor, leder af Center for Philosophy of Artificial Intelligence, KU |
14:05 – 14:35 |
Cross-lingual Modeling of Lexical Metaphor and Metonymy in WordNet Using ChainNet (læs abstract, se præsentation) v. Francis Bond, extraordinary professor, Palacký University Olomouc, Tjekkiet |
14:35 – 15:05 |
Kaffepause og posters |
Session 4, ordstyrer Jakob Blaaholm Nielsen |
|
15:05 – 15:50
|
Paneldebat: Perspektiverne i sprogmodeller i forhold til sprogsamfundenes repræsentation og i relation til bæredygtighed Ordstyrere: Kasper Junge, Jonas Høgh Kyhse-Andersen Deltagere: Thomas Kovsted, Adm. Direktør, IBM Danmark |
15:50-16:00 |
Afrunding v. Digitaliseringsstyrelsen og Center for Sprogteknologi |
16:00-16.30 |
Netværk og posters |
Slides fra posterpitchen kan ses her.
- Alberto Parola og Patrizia Paggio: Co-speech gestures and information uptake: an empirical investigation with eye-tracker
This research investigates - using eye-tracking technology - how we perceive and process co-speech gestures, focusing specifically on directional gestures that accompany speech when describing movement or location
- Ali Al-Laith, Daniel Hershcovich, Jens Bjerring-Hansen, Jakob Ingemann Parby, Alexander Conroy, Timothy R Tangherlini: Noise, Novels, Numbers: A Framework for Detecting and Categorizing Noise in Danish and Norwegian Literature
Explore how 19th-century Danish and Norwegian novels depict noise as both a cultural and auditory phenomenon tied to urbanization. This poster presents a novel framework combining topic modelling and fine-tuned pre-trained language models to detect and categorize noise, offering insights into its literary and historical significance during the Scandinavian "Modern Breakthrough"
- Ali Basirat: Contribution of Linguistic Typology to Universal Dependency Parsing
The research examines how universal dependencies deviate from typological principles and explores a typologically informed transformation to align universal dependencies more closely with these principles. Empirical results underscore the significance of the transformations across diverse languages and highlight their advantages and limitations.
- Bolette S. Pedersen, Nathalie H. Sørensen, Sanni Nimb, Dorte H. Hansen, Sussi Olsen og Ali Al-Laith: Hvor godt forstår sprogmodellerne danske kulturspecifikke metaforer?
Vi undersøger hvor godt ChatGPT og LLama forklarer danske kulturspecifikke metaforer. Med kulturspecifikke metaforer mener vi metaforer (både enkeltords- og flerords-) som ikke findes tilsvarende på engelsk, og som modellerne derfor ikke kan lære om fra engelsk. Vi sammenligner med et sæt af mere universelle metaforer og kan se at modellerne performer langt bedre i de tilfælde hvor de kan lære fra engelsk. Dette bekræfter vores antagelse om at selv de bedste sprogmodeller stadig har store problemer med kulturelle og sproglige bias.
- Casper Blum Frohn: Language Data Space, Alliancen for sprogteknologi (ALT-EDIC) og TrustLLM
Hvordan får vi konkurrencedygtig europæisk sprogteknologi? Digitaliseringsstyrelsen og Alexandra Instituttet fortæller om tre europæiske samarbejdsprojekter, som netop skal hjælpe med dette! Så kom og tag en snak med os om Language Data Space, Alliancen for sprogteknologi (ALT-EDIC) og TrustLLM.
- Christina Rosted: Hvad sker der med sproget i tech?
Hvad sker der med sproget i tech? Mindre hype og mere mening, tak - alt er data, men data er ikke alt!
- Costanza Navarretta og Dorte H. Hansen: Government and Opposition in Danish Parliamentary Debates
Using linguistic features and the pre-trained Danish BERT to identify parties in government or in opposition in the Danish Parliament.
- Daniel Kjeldsmark Andreasen: Afklaringsflow for håndtering af dokumenter og videnselementer til RAG
I en praktisk kontekst oplever vi at den største udfordring i at bygge og sikre kvalitet i løsninger, der bruger sprogmodeller (mindre, open-weights), er at sikre at informationen i vores datagrundlag kan forstås af modellerne. Vores datagrundlag er historisk skabt med begrænsede ressourcer og fokus på formidling til mennesker. Det har skabt stor varians i, og besværliggør et overblik over, hvordan materialet skal præprocesseres. Til at imødegå den udfordring, har vi lavet et udkast til et afklaringsflow/en spørgeguide, der kan anvendes af eller sammen med dataejere. Vi håber denne poster kan være med til at starte en samtale om hvordan vi let får bragt vidensmateriale i spil i sprogmodelsløsninger.
- Mads Jonathan Pedersen: Sprogteknologi i oversættelser mellem dansk og dansk tegnsprog
Idéen om oversættelser fra dansk til dansk tegnsprog via AI-avatar. Der er potentiale i udviklingen, men vi skal se hvilke løsninger, der skal kvalificere og styrke de automatiske oversættelsesprogrammer.”
- Martin Sundahl Laursen: Sprogmodeller highlighter relevant information i patientjournalen
Indsigt.ai præsenterer deres implementering af sprogmodeller til at fremsøge relevant information om blødning og trombose i patientjournaler. Sundhedspersonale har sjældent tid til at læse hele journalen, og løsningen kan hjælpe dem med at finde den relevante information hurtigt.
- Nathalie H. Sørensen, Agnes A. Mikkelsen og Sanni Nimb: Et nyt datasæt med talemåder og faste udtryk
Det Danske Sprog- og Litteraturselskab udgiver i samarbejde med sprogteknologi.dk et nyt datasæt med 1000 danske talemåder og faste udtryk med overførte betydninger. Formålet med datasættet er at evaluere sprogmodellers danskfærdigheder og inkluderer både en definition fra Den Danske Ordbog og tre falske definitioner til hvert udtryk.
- Patrizia Paggio, Manex Aguirrezabal Zabaleta , Costanza Navarretta og Leo Vitasovic: Multimodal interaction in online meetings: the GEHM corpus
A new multimodal corpus consisting of 12 Zoom meeting recordings with automatic transcriptions and visual keypoint data (e.g. head, shoulder, wrist movements) extracted using WhisperX and OpenPose. The corpus is distributed with orthographic transcription, audio-visual recordings, and automatic annotations. We also present a preliminary analysis on the role of vocal feedback in the meetings.
- René Jørn Belsø: DeiC Dataverse – A National Danish Trusted Repository for Research Data
DeiC Dataverse is a national digital repository, where researchers from Danish universities can register, publish, and archive their research data with structured metadata, including clear terms and conditions for access and reuse, and Digital Object Identifiers (DOI’s). Thereby, the research data become easily visible, searchable and citable – or in other words: FAIR (Findable, Accessible, Interoperable and Reusable).
- Rob van der Goot: Danish Cultural Adaptation of LMs
We provide a benchmark for evaluating Danish cultural awareness of language models that is created by native Danes, covering many aspects of Danish culture. We evaluate existing large language models, and train our own Danish SprogModel on 13B words, which has superior performance on the Danish culture benchmark.
- Søren Vejlgaard Holm: Danoliterate: Dansk GLLM-evaluering
I Danoliterate-projektet evalueres generative sprogmodeller på dansk på tværs af brugsscenarier om kulturel dansk viden, fritekstbesvarelse af spørgsmål og generel sprogforståelse. For at forbedre den automatiske evaluering præsenterer projektet en interaktiv arenaside, hvor dansktalere kan evaluere modeller og bidrage til forståelsen af modeller som GPT-4 og Claude.
- Tascha Lynggaard Nielsen: Enhancing Book Metadata with AI
WeDoBooks vil fremvise de første resultater fra deres undersøgelseser om at bruge AI til at forbedre bøgers metadata i den danske bogbranche.
- Terne Sasha Thorn Jakobsen, Enric Cristobal Coppulo, Simon Rasmussen og Michael Eriksen Benros: PsyRoBERTa: A Large Language Model for Predicting Psychiatric Outcomes from Danish Clinical Notes
This poster presents PsyRoBERTa, a large language model pretrained on ~40 million Danish clinical notes related to psychiatry. The model is evaluated on the task of predicting psychiatric acute readmissions and with the inclusion of several explainability and bias analyses.