Sprogteknologisk orddatabase over det danske sprog
Den store danske SprogTeknologiske Ordbase, STO, indeholder ordbogsdata lagret i en database og er beregnet til maskinel anvendelse. Det er en omfattende og detaljeret leksikalsk datasamling for dansk, tilgængelig for både kommercielle og forskningsrelaterede formål.
Materialet er udarbejdet primært med sigte på sprogteknologiske anvendelser, men kan desuden udgøre en værdifuld basis for andre formål fx udarbejdelse af sprogundervisningsmateriale eller traditionelle leksikografiske projekter.
Læs mere om STO Slå op i STO-basen
STO-basen, både morfologi og syntaks, findes i csv-format og i Lexical Markup Language-format.
Lexical Markup Language er et internationalt anerkendt XML-format og er samtidig ISO-standarden for natursprogsprocessering af ordbøger. Læs mere på www.lexicalmarkupframework.org.
Nedenfor kan du læse mere om LMF-versionen for morfologi og syntaks, se hvilke ændringer der er foretaget i forhold til den oprindelige STO-base, og downloade nogle eksempler af STO-LMF-morfologi og -syntaks.
STO-morfologi i LMF Eksempler på STO-morfologi
STO-syntaks i LMF Eksempler på STO-syntaks
STO er offentligt tilgængelig under en CC-BY-SA 4.0-licens og kan downloades fra CLARIN-DK-repositoriet.