Krebs Om Sikkerhet
Tenk deg å oppdage et hemmelig språk som bare snakkes på nettet av en kunnskapsrik og lært få. Over en periode på uker, når du begynner å plage ut meningen med denne nysgjerrige tungen og tenke på dens formål, ser språket ut til å skifte på subtile, men fantastiske måter, og remaking seg daglig foran øynene dine. Og akkurat når du er klar til å dele dine funn med resten av verden, forsvinner hele greia.
dette beskriver på en rettferdig måte min berg — og dalbane — opplevelse av nysgjerrighet, undring og skuffelse de siste ukene, da jeg har jobbet sammen med sikkerhetsforskere i et forsøk på å forstå hvordan “lorem ipsum” – vanlig plassholdertekst på utallige Nettsteder-kunne forvandles til så mange tilsynelatende geopolitiske og oppsiktsvekkende moderne setninger når de oversettes fra Latin til engelsk ved Hjelp Av Google Translate. (Hvis du ikke har noen anelse om hva “lorem ipsum” er, gå videre til en kort primer her).
Riktignok, dette blogginnlegget ville være mer fornuftig hvis leserne kunne fullt gjenskape resultatene beskrevet nedenfor Ved Hjelp Av Google Translate. Men som jeg skal forklare senere, endret Noe viktig I Googles oversettelsessystem sent i forrige uke som for tiden gjør eksemplene jeg vil beskrive umulig å reprodusere.
KINA, NATO, SEXY, SEXY
det hele startet for noen måneder tilbake da Jeg mottok et notat Fra Lance James, leder av cyber intelligence På Deloitte. James pinged meg for å dele noe oppdaget Av FireEye forsker Michael Shoukry og en annen forsker som ønsket å bli identifisert bare som “Kraeh3n.” de la merke Til Et bisarrt mønster I Google Translate: Når en skrev “lorem ipsum” Inn I Google Translate, returnerte standardresultatene (med systemet som automatisk oppdager Latin som språk) et enkelt ord: “Kina.”
Kapitalisering av første bokstav i hvert ord endret produksjonen til “NATO” – akronymet for North Atlantic Treaty Organization. Reversering av ordene i både små og store bokstaver produserte “Internett” og “Selskapet” (“Selskapet” med en kapital ” C ” har lenge vært et kodeord for US Central Intelligence Agency). Gjenta og omorganisere ordet par med en blanding av store bokstaver generert enda merkeligere resultater. For eksempel,” lorem ipsum ipsum ipsum Lorem “genererte uttrykket” Kina er veldig veldig sexy.”
Inntil ganske nylig ble ordene til venstre forvandlet til ordene til høyre Ved Hjelp Av Google Translate.
Kraeh3n sa At Hun oppdaget den merkelige oppførselen mens hun korrekturleste et dokument for en kollega, et dokument som hadde standard lorem ipsum plassholdertekst. Da hun begynte å skrive ” l-o-r..e..”Og så” Kina ” som resultat, visste hun at noe var rart.
“Jeg så ord Som Internett, Kina, regjeringen, politiet og frihet og var nysgjerrig på hvordan dette skjedde,” Sa Kraeh3n. “Jeg kontaktet Umiddelbart Michael Shoukry og vi begynte å se nærmere på Det.”
og så begynte duoen å teste grensene for disse to ordene ved hjelp av en blanding av kapitalisering og repetisjon. Nedenfor er bare en av mange sider med skjermbilder tatt fra resultatene:
forskerne lurte på: hva foregikk her? Har Noen utenfor Google funnet ut hvordan man kartlegger bestemte ord til forskjellige betydninger I Google Translate? Var det en hemmelig eller skjult kommunikasjonskanal? Kanskje en form for kommunikasjon ment å omgå sensur reist Av Den Kinesiske regjeringen med Den Store Brannmuren I Kina? Eller var dette bare en tilfeldig feil i Matrix?
For Hans del, shoukry sjekket inn med kontakter I DEN AMERIKANSKE etterretningsindustrien, stille spør om avsløre hans funn kan på noen måte true viktige hemmeligheter. Uker gikk og hans kilder hørte ingen innvendinger. En ting var sikkert, resultatene var subtilt endret fra dag til dag, og det var ikke klart hvor lenge disse to vanlige, men uklare ordene ville fortsette å gi de samme resultatene.
“Mens Google translate kan være feil i oversettelsene av disse ordene, er Det rart hvorfor disse ordene ville bli oversatt til ting som “Kina”, “NATO” og “Det Frie Internett”, sa Shoukry. “Kan dette være en feil? Er dette med vilje? Er dette en måte for folk å kommunisere? Hva er det?”
da Jeg møtte Shoukry på Black Hat security convention i Las Vegas tidligere denne måneden, hadde Han allerede varslet Google om sine funn. Det var klart at det var tid for noen intense tester, og klokken tikket allerede: jeg var overbevist om (og dessverre riktig) at mye av det ville forsvinne når som helst.
EN KORT HISTORIE AV LOREM IPSUM
Cicero.
Søk På Internett etter uttrykket “lorem ipsum”, og resultatene avslører hvorfor denne merkelige setningen har en så kjerneforbindelse til leksikonet på Nettet. Dens opprinnelse i modernitet er skummel, men ifølge flere steder som har forsøkt å krønike historien til dette ordparet, ble” lorem ipsum “tatt fra en forvrengt og endret seksjon Av” de finibus bonorum et malorum “(oversatt:” Om Godt og Ondt”) en latinsk tekst fra 1. Århundre F. KR. av den store orator Cicero.
Ifølge Cecil Adams, kurator for internett-trivia-nettstedet The Straight Dope, var teksten fra dette cicero-arbeidet tilgjengelig i mange år på limplater i forskjellige størrelser og skrifttyper fra et firma som heter Letraset.
“i pre-desktop-publisering dager, en designer ville kutte ting ut Med En X-acto kniv og stikke den på siden,” Adams skrev. “Når datamaskiner kom sammen, inkluderte Aldus lorem ipsum i Sin PageMaker publishing programvare, og Du ser det nå hvor designere er i arbeid, inkludert over Hele Nettet.”
dette par av ord er så vanlig at mange web content management systemer distribuere det som standard tekst. Lorem Ipsum dukker til Og Med opp På healthcare.gov. Ifølge en historie publisert August. 15 I Daily Mail, mer enn et dusin tilsynelatende sovende helsetjenester.gov sider bære dummy teksten. (Klikk her hvis du hoppet videre til denne delen).
VIDERE TESTING
Ting begynte å bli enda mer interessant da forskerne begynte å legge til andre ord fra cicero-teksten som “lorem ipsum” – biten ble tatt fra, inkludert: “Neque porro quisquam est qui dolorem ipsum quia dolor sit amet, consectetur, adipisci velit . . .”(“Det er ingen som elsker smerte selv, som søker etter det og vil ha det, bare fordi det er smerte …”).
Å Legge til ” dolor “og” sit “og” consectetur”, for eksempel, ga enda mer bisarre resultater. Oversette “consectetur Sit Sit Dolor” fra Latin til engelsk produserer ” Russland Kan Lide.”sit sit dolor dolor” oversetter Til ” Han Er en smart forbruker.”Et eksempel på disse prøveoversettelsene er under:
Latin blir ofte avvist som et “dødt” språk, og om det er rettferdig eller sant, virker det ganske klart at det ikke bør være latinske ord for “mobiltelefon”,” Internett ” og andre bærebjelker i det moderne liv i det 21.Århundre. Denne uoverensstemmelsen bidrar imidlertid til å kaste lys over en mulig forklaring på slike merkelige oversettelser: Google Translate har rett Og Slett ikke nok latinske tekster tilgjengelig for å ha grundig lært språket.
I en introduksjonsvideo med Tittelen Inside Google Translate, Forklarer Google hvordan oversettelsesmotoren fungerer, kildene til motorens intelligens og dens begrensninger. Ifølge Google fungerer Oversettelsestjenesten “ved å analysere millioner og millioner av dokumenter som allerede er oversatt av menneskelige oversettere.”Videoen fortsetter:
“disse oversatte tekster kommer fra bøker, organisasjoner Som Fn, Og Nettsteder fra hele verden. Våre datamaskiner skanne disse tekstene på jakt etter statistisk signifikante mønstre. Det vil si, mønstre mellom oversettelsen og den opprinnelige teksten som er usannsynlig å skje ved en tilfeldighet. Når datamaskinen finner et mønster, kan du bruke dette mønsteret til å oversette lignende tekster i fremtiden. Når du gjentar denne prosessen milliarder av ganger, ender du opp med milliarder av mønstre, og en veldig smart dataprogram.”
Her er gni:
“for noen språk har vi imidlertid færre oversatte dokumenter tilgjengelig, og derfor færre mønstre som programvaren vår har oppdaget. Det er derfor vår oversettelseskvalitet vil variere etter språk og språkpar.”
Likevel forklarer Dette ikke helt Hvorfor Google Translate ville inkludere så mange referanser som er spesifikke For Kina, Internett, telekommunikasjon, selskaper, avdelinger og andre merkelige koblinger i å oversette Latin til engelsk.
I alle fall kan vi aldri vite den virkelige forklaringen. Like før midnatt, August. 16, google Translate stoppet plutselig å oversette ordet “lorem” til alt annet enn “lorem” fra Latin til engelsk. Google Translate gir fortsatt morsomme og særegne resultater når man oversetter Latin til engelsk generelt.
en talsmann For Google sa at endringen ble gjort for å rette opp en feil ved Hjelp Av Oversettelsesalgoritmen (ved å innrette ‘lorem ipsum’ latinske standardtekst med ikke-relatert engelsk tekst) i stedet for et sikkerhetsproblem.
Kraeh3n sa hun er overbevist om at lorem ipsum fenomenet ikke er en ulykke eller tilfeldig forekomst.
“Oversett designet for å kunne utvikle seg og lære av crowd-sourced input for å reflektere tilpasninger i språkbruk over tid,” Sa Kraeh3n. “Noen der ute lærte å spille den evnen og bruke et uklart stykke tekst som ingen i sitt rette sinn noensinne ville skrive inn for å skape helt tilfeldige alternative betydninger som potensielt kunne brukes til å overføre meldinger skjult.”
I Mellomtiden Sier Shoukry at Han planlegger å fortsette sin testing for nye språkmønstre som kan være skjult I Google Translate.
“klokskapen i å skjule noe i vanlig syn har eksistert i mange år,” sa han. “Dette er imidlertid eksepsjonelt strålende fordi disse malene er så mye brukt at folk er ufølsomme for dem, og fordi denne teksten er så utbredt at ingen plager å stille spørsmål til hvorfor, hvordan og hvor det kan ha kommet fra.”
Tags: Svart Hatt, Cecil Adams, Central Intelligence Agency, Kina, Cicero, Deloitte, google, Google Translate, helsetjenester.gov, Kraeh3n, Lance James, lorem ipsum, Michael Shoukry, NATO, Selskapet, Den Rette Dopen