DK-CLARIN fagsprogligt korpus

DK-CLARIN fagsprogligt korpus er et tekstkorpus bestående af fagsproglige tekster fra perioden 2000-2010. Det omfatter tekster på i alt ca. 11 mio. løbende ord fordelt på 7 domæner nemlig sundhed og medicin, klima og miljø, økonomi, landbrug, it, bygge- og anlæg samt nanoteknologi.

Teksterne er forsynet med lemma (ordets grundform), ordklasse og termsandsynlighed (om ordet er et fagord).

Korpusset blev udviklet som en del af det danske CLARIN-projekt (2008-2010), der havde til formål at udvikle en dansk it-infrastruktur til brug for humanistiske forskere, finansieret af Forsknings- og Innovationsstyrelsen.

Projektgruppen bestod af:

  • Jakob Halskov fra Dansk Sprognævn
  • Anna Braasch, Dorte Haltrup Hansen og Sussi Olsen fra Center for Sprogteknologi, Københavns Universitet.

Forskere kan få adgang til DK-CLARIN fagsprogligt korpus via clarin.dk. Korpusset kan enten tilgås som enkeltfiler, som et delkorpus for hvert domæne eller hele det samlede korpus i én pakke. 

En grundig dokumentation af dataindsamling og behandling samt annotering af korpusset kan hentes her.