Tanker fra en tenkende tenker

tirsdag, mai 31, 2005

Neste generasjon maskinoversettelse

Ved hjelp av 200 milliarder ord fra FN dokumenter kan det se ut som om Google kan få et gjennombrudd innen maskineoversettelse av tekst.

Jeg har vært litt interessert i dette emnet en stund. Kanskje er det en medvirkende årsak til mitt initiativ for å åpne for frivillig orddeling? Som så mange andre har jeg gjort noen eksperimenter med å automatisere ord-for-ord søk-og-erstatt. Resultatet ble deretter.

Det Google gjør nå, er egentlig ikke noe nytt. Istedenfor å oversette ett og ett ord, oversetter de lengre fraser eller setninger. Prinsippet er hentet fra arbeidet med Rosetta steinen, hvor forskerne utnyttet det at den samme teksten var skrevet på to språk. Google bruker dokumenter fra FN, fordi den samme teksten der oversettes til mange språk. Kombinert med endel fancy algoritmer bør det kunne gi endel gode resultater.

Når jeg studerte ved Grunderskolen i Silicon Valley i sommeren 2003, fikk jeg tilbud om å jobbe for et lite oppstartsselskap i San Francisco som hadde spesialisert seg i å oversette forretningsdokumenter fra Engelsk til Japansk. De hadde en egenutviklet applikasjon, men de brukte profesjonelle oversettere.

I oversettingsbransjen er det visst vanlig å betale pr. ord. Dette lille selskapet, som jeg desverre ikke husker navnet på, kunne ta mindre betalt fra sine kunder enn det de betalte oversetterne. Dette var mulig fordi de lagret alle oversettelsene og gjenbrukte dem. Så når de fikk et nytt dokument fra investeringsbanken, så kjørte den den gjennom systemet før de sendte det til oversetterne. Systemet ble gradvis bedre, men volumet var nok for lavt til å lage en generell løsning.

Her har nok Google en kjempefordel. De har et vannvittig antall maskiner de kan fordele belastningen på, og de har erfaring med store mengder tekst. Systemet vil neppe noen gang bli så bra at profesjonelle oversettere av skjønnliteratur blir overflødige, men det vil utvilsomt effektivisere bransjen drastisk.

I ettertid angrer jeg kanskje litt påa t jeg ike tok den jobben. Det hadde vært gøy å sitte igjen med erfaring fra den typen teknologi. På den annen side hadde jeg det gøy og lærte mye mens jeg jobbet for Oblix den sommeren.

Ingen kommentarer: