Krebs on Security
Forestil dig at opdage et hemmeligt sprog, der kun Tales online af en kyndig og lært få. I løbet af en periode på uger, når du begynder at drille betydningen af denne nysgerrige tunge og overveje dens formål, ser sproget ud til at skifte på subtile, men fantastiske måder og genskabe sig selv dagligt foran dine øjne. Og lige når du er klar til at dele dine resultater med resten af verden, forsvinder det hele.
dette beskriver ret min rutsjebane oplevelse af nysgerrighed, undring og skuffelse i løbet af de sidste par uger, da jeg har arbejdet sammen med sikkerhedsforskere i et forsøg på at forstå, hvordan “lorem ipsum” — almindelig pladsholdertekst på utallige hjemmesider — kunne omdannes til så mange tilsyneladende geopolitiske og overraskende moderne sætninger, når de oversættes fra Latin til engelsk ved hjælp af Google Translate. (Hvis du ikke har nogen anelse om, hvad “lorem ipsum” er, spring videre til en kort primer her).
ganske vist ville dette blogindlæg være mere fornuftigt, hvis læserne fuldt ud kunne replikere resultaterne beskrevet nedenfor ved hjælp af Google Translate. Men som jeg vil forklare senere, ændrede noget vigtigt i Googles oversættelsessystem i slutningen af sidste uge, der i øjeblikket gør de eksempler, jeg beskriver, umulige at reproducere.
NATO, Kina
det hele startede for et par måneder siden, da jeg modtog en note fra Lance James, chef for cyber intelligence hos Deloitte. James pingede mig for at dele noget opdaget af FireEye-forsker Michael Shoukry og en anden forsker, der kun ønskede at blive identificeret som “Kraeh3n.” de bemærkede et bisarr mønster i Google Translate: når man skrev “lorem ipsum” i Google Translate, returnerede standardresultaterne (med systemet automatisk detektering af Latin som Sprog) et enkelt ord: “Kina.”
kapitalisering af det første bogstav i hvert ord ændrede output til” NATO ” — forkortelsen for Den Nordatlantiske Traktatorganisation. At vende ordene i både lavere og store bogstaver producerede “Internettet” og “virksomheden” (“virksomheden” med en kapital ” C ” har længe været et kodeord for det amerikanske Central Intelligence Agency). Gentagelse og omarrangering af ordparret med en blanding af kapitalisering genererede endnu fremmede resultater. For eksempel genererede” lorem ipsum ipsum Lorem “udtrykket” Kina er meget meget seksuelt.”
indtil for nylig blev ordene til venstre omdannet til ordene til højre ved hjælp af Google Translate.
Kraeh3n sagde, at hun opdagede den mærkelige opførsel, mens hun korrekturlæste et dokument til en kollega, et dokument, der havde standard lorem ipsum pladsholdertekst. Da hun begyndte at skrive ” l-o-r..e..”og så” Kina ” som et resultat, hun vidste, at noget var mærkeligt.
” jeg så ord som Internet, Kina, regering, politi og frihed og var nysgerrig efter, hvordan dette skete,” sagde Kraeh3n. “Jeg kontaktede straks Michael Shoukry, og vi begyndte at undersøge det yderligere.”
og så begyndte duoen at teste grænserne for disse to ord ved hjælp af en blanding af kapitalisering og gentagelse. Nedenfor er blot en af mange sider med skærmbilleder taget fra deres resultater:
forskerne spekulerede på: hvad foregik der her? Har nogen uden for Google fundet ud af, hvordan man kortlægger bestemte ord til forskellige betydninger i Google Translate? Var det en hemmelig eller skjult kommunikationskanal? Måske en form for kommunikation beregnet til at omgå censur rejst af den kinesiske regering med den store brandmur i Kina? Eller var det bare en tilfældig fejl i matricen?
på sin side tjekkede Shoukry ind med kontakter i den amerikanske efterretningsindustri og spurgte stille, om det at afsløre hans fund på nogen måde kunne bringe vigtige hemmeligheder i fare. Uger gik forbi, og hans kilder hørte ingen indvendinger. En ting var sikkert, resultaterne ændrede sig subtilt fra dag til dag, og det var ikke klart, hvor længe disse to almindelige, men uklare ord ville fortsætte med at producere de samme resultater.
“selvom Google translate muligvis er forkert i oversættelserne af disse ord, er det forundrende, hvorfor disse ord ville blive oversat til ting som” Kina”, “NATO” og “det gratis Internet”, sagde Shoukry. “Kunne dette være en fejl? Er det med vilje? Er det en måde at kommunikere på? Hvad er det?”
da jeg mødte Shoukry på Black Hat security convention i Las Vegas tidligere i denne måned, havde han allerede advaret Google om sine resultater. Det var klart, at det var tid til en intens test, og Uret tikkede allerede: jeg var overbevist (og desværre korrekt) om, at meget af det ville forsvinde når som helst.
en kort historie om LOREM IPSUM
Cicero.
Søg på internettet efter sætningen “lorem ipsum”, og resultaterne afslører, hvorfor denne mærkelige sætning har en sådan kerneforbindelse til leksikonet på nettet. Dens oprindelse i moderniteten er skumle, men ifølge flere steder, der har forsøgt at krønike historien om dette ordpar, blev “lorem ipsum” taget fra en krypteret og ændret sektion af “de finibus bonorum et malorum” (oversat: “af godt og ondt”) en latinsk tekst fra det 1.århundrede f. kr. af den store taler Cicero.
ifølge Cecil Adams, kurator for internet trivia site The Straight Dope, var teksten fra det Cicero-arbejde tilgængeligt i mange år på klæbeark i forskellige størrelser og skrifttyper fra et firma kaldet Letraset.
“i pre-desktop-udgivelsesdage ville en designer skære tingene ud med en Acto-kniv og sætte den på siden,” skrev Adams. “Da computere kom med, inkluderede Aldus lorem ipsum i sit PageMaker-udgivelsesprogram, og du ser det nu, hvor designere er på arbejde, også over hele internettet.”
dette par ord er så almindeligt, at mange content management systemer implementerer det som standardtekst. Eksempel: Lorem Ipsum dukker endda op på healthcare.gov. ifølge en historie offentliggjort Aug. 15 i Daily Mail, mere end et dusin tilsyneladende sovende sundhedsydelser.gov sider bære dummy tekst. (Klik her, hvis du springer videre til dette afsnit).
yderligere test
tingene begyndte at blive endnu mere interessante, da forskerne begyndte at tilføje andre ord fra Cicero-teksten, hvorfra “lorem ipsum” – bittet blev taget, herunder: “Det er det, der er det, der er det, der er det, der er det, der er det . . .”(“Der er ingen, der elsker smerte i sig selv, som søger efter det og vil have det, simpelthen fordi det er smerte …”).
tilføjelse af “dolor” og “sit” og “consectetur” gav for eksempel endnu mere bisarre resultater. Oversættelse af “consectetur Sit Sit Dolor”fra Latin til engelsk producerer” Rusland kan lide.””sit sit dolor dolor” oversætter til ” han er en smart forbruger.”Et eksempel på disse eksempler på oversættelser er nedenfor:
Latin afvises ofte som et” dødt “sprog, og om det er retfærdigt eller sandt, synes det ret klart, at der ikke bør være latinske ord for” mobiltelefon”,” Internet ” og andre grundpiller i det moderne liv i det 21.århundrede. Denne uoverensstemmelse hjælper dog med at kaste lys over en mulig forklaring på sådanne ulige oversættelser: Google Translate har simpelthen ikke nok latinske tekster til rådighed til at have grundigt lært sproget.
i en introduktionsvideo med titlen Inside Google Translate forklarer Google, hvordan oversættelsesmotoren fungerer, kilderne til motorens intelligens og dens begrænsninger. Ifølge Google fungerer dens oversættelsestjeneste ” ved at analysere millioner og millioner af dokumenter, der allerede er oversat af menneskelige oversættere.”Videoen fortsætter:
“disse oversatte tekster kommer fra bøger, organisationer som FN og hjemmesider fra hele verden. Vores computere scanner disse tekster på udkig efter statistisk signifikante mønstre. Det vil sige mønstre mellem oversættelsen og den originale tekst, der sandsynligvis ikke forekommer tilfældigt. Når computeren finder et mønster, kan du bruge dette mønster til at oversætte lignende tekster i fremtiden. Når du gentager denne proces milliarder af gange, ender du med milliarder af mønstre og et meget smart computerprogram.”
her er rub:
“på nogle sprog har vi dog færre oversatte dokumenter til rådighed, og derfor færre mønstre, som vores program har registreret. Derfor vil vores oversættelseskvalitet variere alt efter sprog og sprogpar.”
alligevel forklarer dette ikke helt, hvorfor Google Translate ville indeholde så mange referencer, der er specifikke for Kina, Internettet, telekommunikation, virksomheder, afdelinger og andre ulige koblinger til oversættelse af Latin til engelsk.
under alle omstændigheder kan vi aldrig vide den virkelige forklaring. Lige før midnat, Aug. 16 stoppede Google Translate pludselig med at oversætte ordet “lorem” til alt andet end “lorem” fra Latin til engelsk. Google Translate producerer stadig morsomme og ejendommelige resultater, når man oversætter Latin til engelsk generelt.
en talsmand for Google sagde, at ændringen blev foretaget for at rette en fejl med Translate-algoritmen (justering af ‘lorem ipsum’ Latinsk kedelplade med ikke-relateret engelsk tekst) snarere end en sikkerhedssårbarhed.
Kraeh3n sagde, at hun er overbevist om, at lorem ipsum-fænomenet ikke er en ulykke eller tilfældig forekomst.
” Translate designet til at være i stand til at udvikle sig og lære af input fra publikum for at afspejle tilpasninger i sprogbrug over tid,” sagde Kraeh3n. “Nogen derude lærte at spille den evne og bruge et uklart stykke tekst, som ingen i deres rette sind nogensinde ville skrive ind for at skabe helt tilfældige alternative betydninger, der potentielt kunne bruges til at sende meddelelser skjult.”
i mellemtiden siger Shoukry, at han planlægger at fortsætte sin test for nye sprogmønstre, der kan være skjult i Google Translate.
“kløgtigheden ved at skjule noget i almindeligt syn har eksisteret i mange år,” sagde han. “Dette er dog usædvanligt strålende, fordi disse skabeloner er så vidt brugt, at folk er desensibiliserede over for dem, og fordi denne tekst er så bredt distribueret, at ingen gider at stille spørgsmålstegn ved hvorfor, hvordan og hvor den måske er kommet fra.”
mærker: sort Hat, Cecil Adams, Central Intelligence Agency, Kina, Cicero, Deloitte, google, Google Translate, sundhedspleje.gov, Kraeh3n, Lance James, lorem ipsum, Michael Shoukry, NATO, virksomheden, den lige Dope