DK-CLARIN fagsprogligt korpus
DK-CLARIN fagsprogligt korpus er et tekstkorpus bestående af fagsproglige tekster fra perioden 2000-2010. Det omfatter tekster på i alt ca. 11 mio. løbende ord fordelt på 7 domæner nemlig sundhed og medicin, klima og miljø, økonomi, landbrug, it, bygge- og anlæg samt nanoteknologi.
Teksterne er forsynet med lemma (ordets grundform), ordklasse og termsandsynlighed (om ordet er et fagord).
Korpusset blev udviklet som en del af det danske CLARIN-projekt (2008-2010), der havde til formål at udvikle en dansk it-infrastruktur til brug for humanistiske forskere, finansieret af Forsknings- og Innovationsstyrelsen.
Projektgruppen bestod af:
- Jakob Halskov fra Dansk Sprognævn
- Anna Braasch, Dorte Haltrup Hansen og Sussi Olsen fra Center for Sprogteknologi, Københavns Universitet.
Forskere kan få adgang til DK-CLARIN fagsprogligt korpus via clarin.dk. Korpusset kan enten tilgås som enkeltfiler, som et delkorpus for hvert domæne eller hele det samlede korpus i én pakke.