Hvad er STO?
En sprogteknologisk orddatabase er en samling ordbogsdata beregnet til maskinel anvendelse i modsætning til andre ordbøger der først og fremmest er skabt til menneskelig anvendelse. STO er derfor et oplagt basisprodukt til anvendelse som leksikonkomponent i elektroniske systemer der arbejder med dansk sprog.
De mest oplagte anvendelsesområder er on-line informationssøgning, automatisk og maskinstøttet oversættelse, spørgsmål/svar-systemer, sproglige hjælpemidler for handicappede, programmer til sprogundervisning mv. Men orddatabasens materiale er også velegnet til brug i datalingvistiske forskning, eksempelvis i testning af grammatikker.
Hvad indeholder STO?
Ordforrådet stammer primært fra almensprog (68.000 ord) og er fortrinsvis baseret på et aviskorpus.
Det fagsproglige ordforråd (ca. 13.500 ord) stammer fra seks udvalgte emneområder, nemlig edb, miljø, sundhed/helse, finans, forvaltning samt handel & erhverv. Der er indsamlet et tekstkorpus på mellem 1 til 2 mill. løbende ord for hvert af disse områder. Valg af ordforrådet og de enkelte ords kodning er baseret på disse korpusser.
Oplysningstyper i STO:
- Morfologi: ordklasse, bøjning, stavevarianter samt for substantivers vedkommende også oplysninger vedrørende sammensætning.
- Syntaks: ordets konstruktionsmuligheder inkl. de styrede præpositioner mv., og for verber desuden specifikation af hjælpeverbum. For hvert konstruktionsmønster er der anført et prototypisk korpuseksempel.
- Semantik: varierende mht. beskrivelsens detaljeringsgrad omfattende ontologisk type, semantisk relation, argumentstruktur, selektionsrestriktioner, qualia struktur mm. Desuden er alle fagord forsynet med emneområdeangivelse.
Tabeller over ordforrådets sammensætning og lingvistiske beskrivelse:
Ordklasse |
Antal ord |
Morfologi |
Morfologi + syntaks |
Morfologi + syntaks + semantik |
Substantiv |
64735 |
100% |
53% |
12% |
Adjektiv |
9773 |
100% |
68% |
13% |
Verbum |
5775 |
100% |
98% |
17% |
Adverbium |
771 |
100% |
0% |
|
Interjektion |
158 |
100% |
0% |
|
Præposition |
80 |
100% |
0% |
|
Konjunktion |
60 |
100% |
0% |
|
Pronomen |
44 |
100% |
0% |
|
Diverse |
128 |
100% |
0% |
|
Total |
81524 |
|
|
|
Tabel 1. Det samlede ordforråd fordelt på ordklasser
og omfanget af deres lingvistiske beskrivelse
Ordklasse |
Antal ord |
Substantiv |
52840 |
Adjektiv |
8568 |
Verbum |
5410 |
Adverbium |
771 |
Interjektion |
158 |
Præposition |
80 |
Konjunktion |
60 |
Pronomen |
44 |
Diverse |
128 |
Total |
68059 |
Tabel 2. Det almensproglige ordforråd, fordelt på ordklasser
Emneområde |
Substantiv |
Verbum |
Adjektiv |
Total |
IT |
1730 |
160 |
115 |
2005 |
Miljø |
1770 |
50 |
300 |
2120 |
Handel& Erhverv |
1800 |
60 |
160 |
2020 |
Forvaltning |
2430 |
25 |
220 |
2675 |
Sundhed & Helse |
2285 |
40 |
250 |
2575 |
Finans |
1880 |
30 |
160 |
2070 |
Total |
11895 |
365 |
1205 |
13365 |
Tabel 3. Ordforråd fra de enkelte emneområder, fordelt på ordklasser