LetsMT!
Projektet er afsluttet.
LetsMT! var et 2-årigt EU-projekt om statistisk maskinoversættelse (SMT) med deltagelse af institutioner fra en række EU-lande, der repræsenterer mindre sprog.
Projektet havde til formål at udvikle en platform, hvor man får hjælp til at træne et maskinoversættelsessystem, der er tilpasset ens egne specifikke oversættelseskrav.
SMT-systemer blev bygget ved analyse af enorme mængder af parallelle tekstdata og indlæring af oversættelsesmodeller ud fra disse data. Kvaliteten af SMT-systemer afhang i høj grad af mængden af træningsdata og mængden af data fra det pågældende fagområde er afgørende. Da hovedparten af offentligt tilgængelige parallelle data kun forekommer for større sprog, er SMT-systemer for større sprog som oftest af langt bedre kvalitet end systemer for mindre sprog.
Dette ville LetsMT! gerne ændre på dels ved at indsamle parallelle data fra tekstindehavere i de forskellige lande, dels ved at indbyde potentielle kommende brugere med parallelle data til at uploade deres data, så der kan trænes SMT-systemer på dem. Data kan både uploades som offentligt tilgængelige, så andre brugere også kan træne SMT-systemer med dem og som private data, som kun må bruges til at træne brugerens eget specifikke SMT-system. I ingen af tilfældene vil teksterne dog kunne ses af andre, man får kun adgang til information om teksterne (metadata). Oversættelse for andre mindre sprog end dem, der var direkte repræsenteret i projektet, blev også inddraget.
En prototype på LetsMT! platformen er tilgængelig på: letsmt.eu
med eksempler på bl.a. dansk. Her kan man desuden læse meget mere om projektet.
Vil I være med til at teste automatisk oversættelse?
Lige for tiden er vi på Københavns Universitet, CST i gang med at træne flere systemer: Et med universitetsadministrative tekster som eksamensordninger, studieregler, jobopslag etc. samt et andet med finansielle årsrapporter. Begge systemer er dansk til engelsk. Til begge systemer mangler vi i høj grad domænespecifikke tekster.
Tekster fra andre fagområder er også velkomne, men indtil videre satser vi på engelsk-dansk, dansk-engelsk.
Hvis I råder over parallelle tekster, som I vil lade indgå i puljen af træningsdata for LetsMT! systemet, uanset om I er interesserede i at blive brugere eller ej, er I meget velkomne til at henvende jer til en af undertegnede.
Lene Offersgaard, seniorudviklingsingeniør, projektleder: Tlf: 35329081, leneo@hum.ku.dk
Dorte Haltrup Hansen, videnskabelig medarbejder, Tlf: 35329070, dorteh@hum.ku.dk
Sussi Olsen, videnskabelig medarbejder, Tlf: 35329064, saolsen@hum.ku.dk
Præsentationer fra gå-hjem-møde
Her finder du de tre præsentationer fra LetsMT!-gå-hjem-møde, d. 18. april 2012:
Om LetsMT!-platformen
Om data til oversættelse
Integration af SDLTrados og LetsMT!