SemDaX-korpus

SemDaX-korpusset er nu tilgængeligt til forskningsformål på https://github.com/kuhumcst/semdax.

Korpusset indeholder 90.000 ord, dækker 6 teksttyper (blog, chat, forum, avis, ugeblad, folketingstaler) og er håndopmærket med leksikalske betydninger baseret på Den Danske Ordbog og det danske wordnet, DanNet.

Formål med korpusset er at tilvejebringe danske træningsdata til udvikling af sprogteknologi der kan skelne mellem ords forskellige betydninger i dansk.  I materialet anvender vi betydningsinventarer af varierende grovhed. Således indholder korpusset opmærkninger med både et finkornet inventar med hoved- og underbetydninger, samt grovere inventarer hvor der kun skelnes imellem de mest umiddelbare betydninger. Pålideligheden ved de forskellige inventarer måles bl.a. ud fra annotørenighed, hvorfor 60% materialet er opmærket af flere annotører (se annotørenigheden for de forskellige teksttyper). 

De metodiske overvejelser bag korpusset præsenteres i Bolette S. Pedersen, Anna Braasch, Anders Johanssen, Hector Martinez Alonso, Sanni Nimb, Sussi Olsen, Anders Søgaard, Nicolai Hartvig Sørensen: The SemDaX corpus – sense annotations with scalable sense inventories. (under udgivelse til LREC 2016)