DanNet

DanNet er et WordNet, dvs. en lexico-semantisk netværksgraf, der viser hvordan betydninger i sproget relaterer til andre gennem navngivne forbindelser. Man kan også tænke på et WordNet som en slags maskinlæsbar ordbog.

På wordnet.dk/dannet kan du både browse DanNet samt downloade de nyeste versioner af flere forskellige datasæt.

Til forskel fra en almindelig ordbog er det ikke definitionen af ordet, der står i centrum i et WordNet, men i højere grad ordets relationer til andre ord. I DanNet kan man f.eks. se at en dværgpil er en slags busk, at et lysthus findes i en have, at fiberdrys bruges til at spise, og at kager typisk fremstilles ved bagning og typisk er lavet af mel og sukker.

På andreord.nors.ku.dk kan du generere ovenstående illustration på baggrund af en ældre version af DanNet. I fremtiden vil lignende illustrationer baseret på det nyeste data kunne findes på det nye DanNet.

I alt er der pt. registreret cirka 70 tusinde begreber, som holdes på plads af omtrent 500 tusinde indbyrdes relationer. 

 

Tilblivelsen af DanNet og metoderne bag beskrives bedst i denne artikel:

Pedersen, Bolette S. Sanni Nimb, Jørg Asmussen, Nicolai H. Sørensen, Lars Trap-Jensen og Henrik Lorentzen (2009). DanNet – the challenge of compiling a WordNet for Danish by reusing a monolingual dictionary (pdf)Lang Resources & Evaluation 43:269–299.

For enklere, dansksprogede tilgange til wordnettet henvises til:

DanNet har gennem tiden været støttet af Det Danske Forskningsråd (DFF), Forskningsministeriet og EU. Den oprindelige version blev udviklet for midler bevilget af Det Danske Forskningsråd i projektet DanNet – et leksikalsk-semantisk ordnet for dansk, og senere er ressourcen blevet videreudviklet i forbindelse med nyere forskningsprojekter, fx CLARIN-DK, METANORD, Semantic Processing across Domains og ELEXIS.

Wordnettet er udviklet semi-automatisk som en del af de ovenfor nævnte forskningsprojekter og for relativt små midler. Vi tager derfor forbehold for eventuelle fejl og mangler. Observerede fejl og mangler kan rapporteres til bspedersen@hum.ku.dk.

En del af ordforrådet er linket til engelsk, svensk, finsk og estisk: WordTies: A Nordic/Baltic Multilingual Wordnet Initiative. Det er planen på længere sigt at linke hele DanNet til den tilsvarende engelske ressource, Princeton WordNet for på den måde at kunne anvende ressourcen i flersproglige sammenhænge.

Som hjælp til oversættelsen af 5000 såkaldte Base Concepts til dansk er oversættelseslisterne fra Dansk parlør venligt stillet til rådighed af Den Danske Online Ordbog og Orcapia v/ Per Bang.

 

 

 

 

Du kan downloade DanNet-ressourcen i to forskellige formater. Ved at downloade af et datasæt accepterer du CC BY-SA 4.0-licensen:

  • RDF-datasæt (den primære ressource)
    • Én enkelt TTL-fil der nu udgør hovedressourcen.
  • CSV-datasæt (et alternativt format)
    • Denne ZIP-fil indeholder en række CSV-filer samt CSVW-metadata, der tilsammen kan bruges til genskabe det meste af indholdet i RDF-ressourcen.

Der findes flere RDF-datasæt, som også kan downloades på wordnet.dk/dannet. Disse andre datasæt kan bruges til at udvide RDF-hovedressourcen med andet nyttigt data.

Ved reference til ressourcen bedes anvendt denne artikel: Bolette S. Pedersen, Sanni Nimb, Jørg Asmussen, Nicolai H. Sørensen, Lars Trap-Jensen og Henrik Lorentzen. DanNet – the challenge of compiling a WordNet for Danish by reusing a monolingual dictionary (pdf). Lang Resources & Evaluation (2009) 43:269–299.

Hent lingvistiske specifikationer

Bemærk at disse specifikationer er baseret på en ældre udgave af DanNet; dog bør de stadig kunne bruges til at forstå indholdet i DanNet-ressourcen. Det eneste du skal være opmærksom på, er at visse navne på relationer/attributter kan have ændret sig.