Institut for Nordiske Studier og Sprogvidenskab

Det første danske CLARIN-projekt

Projektet løb fra januar 2008 til 30. juni 2011

Det danske CLARIN-konsortium (Centre for Danish Language Resources and Technology Infrastructure for the Humanities) modtog en bevilling på 15 mio. kr. fra Forsknings- og Innovationsstyrelsens nationale pulje for forskningsinfrastruktur. Bevillingen blev brugt til at skabe en dansk it-infrastruktur beregnet til brug for humanistiske forskere. Infrastrukturen skulle rumme skrevne og talte tekster og visuelle data i et sammenhængende og systematisk digitalt lager som skulle gøres tilgængeligt for forskning.

CLARIN står for 'Common Language Resources and Technology Infrastructure', som er navnet på det EU-projekt, som det danske CLARIN-projekt knytter an til.

Projektarbejdet bliver ført videre i DigHumLab-regi, temapakke 1. Læs mere på info.clarin.dk

Visionen

Visionen er at skabe den humanistiske forskers værktøjskasse gennem etableringen af et antal skrevne, talte og visuelle resurser (tekster, lydfiler, videoklip osv.) med tilhørende værktøjer (visningsværktøjer, analyseværktøjer, opmærkningsværktøjer osv.) og at integrere resurserne samlet i et web-baseret elektronisk forskningsmiljø der stilles til rådighed for humanistiske forskere. En sådan adgang til resurser og værktøjer vil give forskerne helt nye muligheder og vil samtidig medvirke til at øge deres muligheder for at deltage i europæiske samarbejdsprojekter. Det danske CLARIN-projekt vil også på længere sigt kunne skabe bedre vilkår for dansk sprogteknologisk forskning og udvikling ved at der bliver mulighed for at igangsætte en struktureret tilgang til etableringen af en dansk BLARK (Basic Language Resource Kit).

Europæisk samarbejde

DK-CLARIN-projektet vil samarbejde med og vil følge de standarder og anbefalinger der udvikles på europæisk niveau i det parallelle EU CLARIN-projekt, se EU-CLARINs hjemmeside. Det danske projekt repræsenterer dog formelt en uafhængig dansk investering i opbygningen af en national infrastruktur som vil kunne stå alene som et vigtigt bidrag til dansk forskning.

Publikationer og foredrag

På denne side findes bidrag til formidling af projektets indhold og resultater i form af fx publikationer, præsentationer og andre materialetyper og formidlingsgenrer. Siden opdateres løbende. Det seneste materiale står øverst.

2010

Semantiske sprogressourcer for computere, Bolette S. Pedersen. Foredrag i Dansk Selskab for Datalogi, 4. maj, 2010.
Encoding Attitude and Connotation in Wordnets, Braasch, A. & B.S. Pedersen. In: The 14th EURALEX International Congress, Leeuwarden , The Netherlands, 2010.
Merging specialist taxonomies and folk taxonomies in wordnets. - a case study of plants, animals and foods in the Danish wordnet, B. S. Pedersen, S. Nimb, A. Braasch. In: Proceedings from the Seventh International Conference on Language Resources and Evaluation, s. 3181-3186. Malta 2010.
Quality indicators of LSP texts - selection and measurements. Measuring the terminological usefulness of documents for an LSP corpus, Jakob Halskov, Anna Braasch, Dorte Haltrup Hansen og Sussi Olsen. Proceedings of LREC 2010, s. 2614-2620. Malta 2010

2009

Compiling, annotating and publishing corpora in DK-CLARIN, the Danish incarnaton of the pan-European initiative for a common research infrastructure, Jakob Halskov og Jørg Asmussen, 2009
CLARIN in Denmark - European and Nordic perspectives, Hanne Fersøe og Bente Maegaard. Artikel til NODALIDA-konferencen, 2009
DanNet - the Challenge of Compiling a WordNet for Danish by Reusing a Monolingual Dictionary. Artikel af B.S. Pedersen, S. Nimb, J. Asmussen, N. H. Sørensen, L.Trap-Jensen, H. Lorentzeni i Language Resources and Evaluation Journal, september 2009.
Hearing loss, perception and annotated corpora. Artikel af Hanne Fersøe om det indtalte PAROLE-korpus og dets anvendelsesmuligher, EU-CLARINs nyhedsbrev nr. 7, september 2009.

Knowledge for Everyman-korpusset i det danske CLARIN projekt. Artikel af Hanne Fersøe i EU-CLARINs nyhedsbrev nr. 4, marts 2009.

2008

Foredrag om det danske CLARIN-projekt, 15 december 2008 på et norsk CLARIN-møde i Bergen af Hanne Fersøe.
Distinguishing the communicative functions of gestures. K. Jokinen, C. Navarretta and P. Paggio. In A. Popescu-Belis and R. Stiefelhagen (eds.) Proceedings of 5th Joint Workshop on Machine Learning and Multimodal Interaction, Utrecht, September 2008, Springer, 38-49.
Fri og bunden forskning om CLARIN-DK. WP2.3 Knowledge for Everyman. Foredrag af Hanne Ruus 9. september 2008 på MUDS12-konferencen.

Arbejdspakker

For at sikre projektets bredde og fremtidige nytte er projektet inddelt i fem arbejdspakker defineret på en sådan måde at projektets resultat ikke alene bliver en teknisk infrastruktur, men også får så mange typer af indhold som muligt inden for rammerne af det bevilgede beløb.

Disse arbejdspakker er opdelt i fem tematisk definerede hovedarbejdspakker. Tre af disse drejer sig om at gøre indhold tilgængeligt, og en af dem fokuserer på den tekniske infrastruktur, mens den sidste arbejdspakke omfatter projektets gennemførelse, koordinering og ledelse.

AP1 - Projektledelse

Dette omfatter den overordnede koordinering og ledelse af projektet, men også håndtering af emner som fx copyright og finansiering af driftsfasen som følger efter etableringen af infrastrukturen.

Koordinatoren skal sikre kommunikationen internt i CST og og mellem centret og Forsknings- og innovationsstyrelsen, som har bevilget penge til projektet.

Koordinatoren vil i samarbejde med projektlederne for de enkelte arbejdspakker kvalitetssikre alle data og gøre sit til at projektet kører efter planen.

Også copyright-problematikker og rettigheder hører under koordinatoren.

AP2 - Basale skrevne sprogresurser

I denne arbejdspakke indsamles og annoteres skrevne tekster, nutidige såvel som ældre, almensproglige og specialiserede fagsproglige tekster, litterære og sagprosatekster, såvel som parallelle korpusser med dansk som et af sprogene. Arbejdspakke 2 består af seks underarbejdspakker, og syv af de ti konsortiemedlemmer samarbejder i en eller flere af disse.

De enkelte underarbejdspakker samarbejder om at etablere en fælles standard for angivelse af metadata og for opmærkning af sproglige enheder i tekstindholdet. Opmærkningen lægger sig tæt op ad anbefalingerne i TEI P5.

AP3 - Talt sprog

I denne arbejdspakke indsamles og annoteres tre forskellige talte korpusser, og der udvikles tilhørende værktøjer. Der er tre underarbejdspakker med deltagelse af fire af de ti konsortiemedlemmer.

AP4 - Teknologiske sprogresurser

En teknologisk resurse er defineret som en konstrueret datasamling, fx en ordbog. I denne arbejdspakke modificeres eksisterende teknologiske resurser, og der udvikles nye. Arbejdet omfatter traditionelle og elektroniske ordbøger såvel som ordbøger og semantiske net beregnet til it-systemer. Det omfatter også sammenkædningen mellem forskellige ordbøger og mellem ordbøger og korpusser. Der er to underarbejdspakker med deltagelse af tre ud af de ti konsortiemedlemmer.

AP5 - Teknisk infrastruktur

I denne arbejdspakke udvikles det tekniske grundlag for infrastrukturen, inklusive en web-brugergrænseflade der kan fungere som den danske CLARIN-platform. Platformen vil give adgang til alt det indhold i form af værktøjer og ressourcer som infrastrukturen indeholder, og gennem den vil man også få adgang til et personligt arbejdsområde og til kommunikationsfaciliteter ligesom der vil kunne foregå brugerverifikation og styring af rettigheder, og brugerne vil have adgang til at fremsøge og hente ressourcer.

Arbejdspakke 5 har to underarbejdspakker som alle konsortiemedlemmer bidrager til. De tre partnere som vil være de teknologiske centre som er ansvarlige for at tingene kan virke sammen og at funktionaliteten er til stede på den tekniske platform er Det Kongelige Bibliotek (KB), Det Danske Sprog- og Litteraturselskab (DSL) og Københavns Universitet, Center for Sprogteknologi (KU-CST).

Deltagere

De deltagende partnere i det første CLARIN-konsortium omfattede otte førende danske humanistiske institutioner: fire universiteter og fire kulturinstitutioner.

Københavns Universitet

Navn	Titel	Telefon	E-mail

Syddansk Universitet

Johannes Wagner, Professor, dr.phil.

Aarhus Universitet

Viggo Sørensen, Lektor, mag.art.

Copenhagen Business School

Peter Juel Henrichsen, lektor

Det Kongelige Bibliotek

Anders Sparre Conrad, specialkonsulent

Nationalmuseet

Birgit Rønne, koordinator

Det Danske Sprog- og Litteraturselskab

Lars Trap-Jensen, ledende redaktør

Dansk Sprognævn

Sabine Kirchmeier-Andersen, direktør

Kontakt

Leder af projektet:
Bente Maegaard
Center for Sprogteknologi
Institut for Nordiske Studier og Sprogvidenskab
Københavns Universitet