PaTrans – regelbaseret maskinoversættelse

Center for Sprogteknologi har fra 1991 og frem til 2007 udviklet og vedligeholdt PaTrans - et fuldautomatisk engelsk til dansk maskinoversættelsessystem for et dansk oversættelsesbureau.

Teksttypen, som PaTrans var designet til at håndtere, var patentdokumentation inden for de tekniske emneområder kemi og mekanik. I processen fra forskningsprototype til kommercielt produkt blev PaTrans-systemets funktionalitet dels tilpasset og udvidet til den afgrænsede teksttype og de valgte emneområder, og dels blev der udviklet en redigeringsplatform for at lette det praktiske arbejde i brug af PaTrans-systemet.

Automatisk førredigering

Inden den engelske input-tekst sendes gennem PaTrans-systemet, behandles teksten automatisk i et teksthåndteringsmodul. Foruden at inddele teksten i oversættelsesenheder genkender dette modul standardiserede udtryk som tal, datoangivelser, referencer, patentdokumentnavne og kemiske formler. Disse udtryk tilpasses til det videre oversættelsesforløb ved at få tilskrevet relevante sproglige informationer.

Integrering af en ordklasse-tagger

For at forbedre oversættelseskvaliteten har CST integreret en regelbaseret ordklasse-tagger i PaTrans-systemet. Førend et input-dokument oversættes, bliver alle dets tvetydige ord/tokens således via denne tagger entydiggjort og tilskrevet en værdi for, hvilken ordklasse det tilhører. Disambigueringen har særlig gunstig effekt for oversættelseskvaliteten i de tilfælde, hvor en sætning ikke kan analyseres af PaTrans-systemets grammatikker.

Oversættelseskernen

Til denne del af PaTrans-systemet har CST udviklet to typer af lingvistiske resurser - domæne og teksttypespecifikke grammatikker og generelle ordbøger. Grammatikmodulerne består hovedsageligt af grammatikregler for hvert af de to sprog på flere niveauer og et transfermodul, der udgør det strukturelle forbindelsesled mellem de to sprog. To monolinguale ordbøger for generelt sprog på henholdsvis kildesprog og målsprog er udviklet. Desuden er der udviklet en bilingual ordbog placeret i transfermodulet, hvor generelle ord i kildeproget bliver forbundet med det tilsvarende ord på målsproget.

Foruden at forbedre PaTrans-systemets parser med hensyn til hastighed er funktionaliteten af denne del af systemet blevet udvidet med en såkaldt fejlredningsmekanisme, der bevirker, at der altid produceres et oversættelsesresultat, selvom en input-sætning indeholder ord og/eller sproglige konstruktioner, der ikke er indeholdt i de lingvistiske resurser.

I tilfælde af at en given input-sætning ligger uden for grammatikkernes dækningsgrad, kan det bevirke, at ordstillingen i oversættelsesresultaterne tilnærmelsesvis gør sætningen uforståelig. Som en løsning på dette problem har CST implementeret et automatisk efterredigeringsværktøj. Det er et værktøj, der aktiveres efter maskinoversættelsen, hvis nogle på forhånd definerede betingelser er opfyldt. Den afgørende betingelse er, at den pågældende input-sætning ligger uden for grammatikkernes dækningsgrad. Er betingelserne opfyldt, vil der ud fra en på forhånd fastlagt algoritme blive foretaget en korrektion af ordrækkefølgen. Den vigtigste videnkilde til denne omflytning er den engelske input-sætnings ordrækkefølge.

Værktøj til redigering af input-dokumenter

Da ikke al førredigering kan udføres automatisk, har CST for at lette termkodningsarbejdet implementeret en platform til førredigering af input-dokumenter. Af hjælpefaciliteter til termkodningsarbejdet i redigeringsplatformen kan nævnes visning af konkordanslister, fremhævning af termer, der allerede er kodet, i hvilken termbase de ligger og endelig identifikation af ordsekvenser, der kandiderer til at blive kodet som flerordsenheder.

Format- og layouthåndtering

Input-formatet for tekster til oversættelseskernen er SGML* - et grænsefladeformat der er baseret på SGML (Standardised General Mark-up Language). I PaTrans-systemet kan der konverteres til dette udvekslingsformat til og fra tekstbehandlingsformaterne WordPerfect og Word.

CST's kontakt

Seniorrådgiver Claus Povlsen