Sprogteknologisk orddatabase over det danske sprog

Den store danske SprogTeknologiske Ordbase, STO, indeholder ordbogsdata lagret i en database og er beregnet til maskinel anvendelse. Det er en omfattende og detaljeret leksikalsk datasamling for dansk, tilgængelig for både kommercielle og forskningsrelaterede formål.

Materialet er udarbejdet primært med sigte på sprogteknologiske anvendelser, men kan desuden udgøre en værdifuld basis for andre formål fx udarbejdelse af sprogundervisningsmateriale eller traditionelle leksikografiske projekter.

Læs mere om STO           Slå op i STO-basen  

STO-basen, både morfologi og syntaks, findes i csv-format og i Lexical Markup Language-format.

Lexical Markup Language er et internationalt anerkendt XML-format og er samtidig ISO-standarden for natursprogsprocessering af ordbøger. Læs mere på www.lexicalmarkupframework.org.

Nedenfor kan du læse mere om LMF-versionen for morfologi og syntaks, se hvilke ændringer der er foretaget i forhold til den oprindelige STO-base, og downloade nogle eksempler af STO-LMF-morfologi og -syntaks.

STO-morfologi i LMF        Eksempler på STO-morfologi

STO-syntaks i LMF           Eksempler på STO-syntaks

STO er offentligt tilgængelig under en CC-BY-SA 4.0-licens og kan downloades fra CLARIN-DK-repositoriet.