Hvad er STO? – Københavns Universitet

Videresend til en ven Resize Print Bookmark and Share

CST > STO-ordbase > Hvad er STO?

Hvad er STO?

En sprogteknologisk orddatabase er en samling ordbogsdata beregnet til maskinel anvendelse i modsætning til andre ordbøger der først og fremmest er skabt til menneskelig anvendelse. STO er derfor et oplagt basisprodukt til anvendelse som leksikonkomponent i elektroniske systemer der arbejder med dansk sprog.

De mest oplagte anvendelsesområder er on-line informationssøgning, automatisk og maskinstøttet oversættelse, spørgsmål/svar-systemer, sproglige hjælpemidler for handicappede, programmer til sprogundervisning mv. Men orddatabasens materiale er også velegnet til brug i datalingvistiske forskning, eksempelvis i testning af grammatikker.

Hvad indeholder STO?

Ordforrådet stammer primært fra almensprog (68.000 ord) og er fortrinsvis baseret på et aviskorpus.

Det fagsproglige ordforråd (ca. 13.500 ord) stammer fra seks udvalgte emneområder, nemlig edb, miljø, sundhed/helse, finans, forvaltning samt handel & erhverv. Der er indsamlet et tekstkorpus på mellem 1 til 2 mill. løbende ord for hvert af disse områder. Valg af ordforrådet og de enkelte ords kodning er baseret på disse korpusser.

Oplysningstyper i STO:

  • Morfologi: ordklasse, bøjning, stavevarianter samt for substantivers vedkommende også oplysninger vedrørende sammensætning.
  • Syntaks: ordets konstruktionsmuligheder inkl. de styrede præpositioner mv., og for verber desuden specifikation af hjælpeverbum. For hvert konstruktionsmønster er der anført et prototypisk korpuseksempel.
  • Semantik: varierende mht. beskrivelsens detaljeringsgrad omfattende ontologisk type, semantisk relation, argumentstruktur, selektionsrestriktioner, qualia struktur mm. Desuden er alle fagord forsynet med emneområdeangivelse.

Tabeller over ordforrådets sammensætning og lingvistiske beskrivelse:

Ordklasse

Antal ord

Morfologi

Morfologi + syntaks

Morfologi + syntaks + semantik

Substantiv

64735

100%

53%

12%

Adjektiv

9773

100%

68%

13%

Verbum

5775

100%

98%

17%

Adverbium

771

100%

0%

 

Interjektion

158

100%

0%

 

Præposition

80

100%

0%

 

Konjunktion

60

100%

0%

 

Pronomen

44

100%

0%

 

Diverse

128

100%

0%

 

Total

81524

 

 

 

Tabel 1. Det samlede ordforråd fordelt på ordklasser
og omfanget af deres lingvistiske beskrivelse

Ordklasse

Antal ord

Substantiv

52840

Adjektiv

8568

Verbum

5410

Adverbium

771

Interjektion

158

Præposition

80

Konjunktion

60

Pronomen

44

Diverse

128

Total

68059

Tabel 2. Det almensproglige ordforråd, fordelt på ordklasser

Emneområde

Substantiv

Verbum

Adjektiv

Total

IT

1730

160

115

2005

Miljø

1770

50

300

2120

Handel& Erhverv

1800

60

160

2020

Forvaltning

2430

25

220

2675

Sundhed & Helse

2285

40

250

2575

Finans

1880

30

160

2070

Total

11895

365

1205

13365

Tabel 3. Ordforråd fra de enkelte emneområder, fordelt på ordklasser