LetsMT! – Københavns Universitet

Videresend til en ven Resize Print Bookmark and Share

CST > Projekter > Afsluttede projekter > LetsMT!

 

LetsMT! var et 2-årigt EU-projekt om statistisk maskinoversættelse (SMT) med deltagelse af institutioner fra en række EU-lande, der repræsenterer mindre sprog.

Projektet havde til formål at udvikle en platform, hvor man får hjælp til at træne et maskinoversættelsessystem, der er tilpasset ens egne specifikke oversættelseskrav.

SMT-systemer blev bygget ved analyse af enorme mængder af parallelle tekstdata og indlæring af oversættelsesmodeller ud fra disse data. Kvaliteten af SMT-systemer afhang i høj grad af mængden af træningsdata og mængden af data fra det pågældende fagområde er afgørende. Da hovedparten af offentligt tilgængelige parallelle data kun forekommer for større sprog, er SMT-systemer for større sprog som oftest af langt bedre kvalitet end systemer for mindre sprog.

Dette ville LetsMT! gerne ændre på dels ved at indsamle parallelle data fra tekstindehavere i de forskellige lande, dels ved at indbyde potentielle kommende brugere med parallelle data til at uploade deres data, så der kan trænes SMT-systemer på dem. Data kan både uploades som offentligt tilgængelige, så andre brugere også kan træne SMT-systemer  med dem og som private data, som kun må bruges til at træne brugerens eget specifikke SMT-system. I ingen af tilfældene vil teksterne dog kunne ses af andre, man får kun adgang til information om teksterne (metadata). Oversættelse for andre mindre sprog end dem, der var direkte repræsenteret i projektet, blev også inddraget.

En prototype på LetsMT! platformen er tilgængelig på:
  letsmt.eu
med eksempler på bl.a. dansk. Her kan man desuden læse meget mere om projektet.

Vil I være med til at teste automatisk oversættelse?

Lige for tiden er vi på Københavns Universitet, CST i gang med at træne flere systemer: Et med universitetsadministrative tekster som eksamensordninger, studieregler, jobopslag etc. samt et andet med finansielle årsrapporter. Begge systemer er dansk til engelsk. Til begge systemer mangler vi i høj grad domænespecifikke tekster.

Tekster fra andre fagområder er også velkomne, men indtil videre satser vi på engelsk-dansk, dansk-engelsk.

Hvis I råder over parallelle tekster, som I vil lade indgå i puljen af træningsdata for LetsMT! systemet, uanset om I er interesserede i at blive brugere eller ej, er I meget velkomne til at henvende jer til en af undertegnede. 

Lene Offersgaard, seniorudviklingsingeniør, projektleder: Tlf: 35329081, leneo@hum.ku.dk

Dorte Haltrup Hansen, videnskabelig medarbejder, Tlf: 35329070, dorteh@hum.ku.dk

Sussi Olsen, videnskabelig medarbejder, Tlf: 35329064, saolsen@hum.ku.dk