Krebs on Security
Tänk dig att upptäcka ett hemligt språk som bara talas online av en kunnig och lärd få. Under en period av veckor, när du börjar reta ut innebörden av denna nyfikna tunga och begrunda dess syfte, språket verkar skifta i subtila men fantastiska sätt, remaking sig dagligen inför dina ögon. Och precis när du är redo att dela dina resultat med resten av världen, försvinner hela saken.
detta beskriver ganska Min berg — och dalbana — upplevelse av nyfikenhet, underverk och besvikelse under de senaste veckorna, eftersom jag har arbetat tillsammans med säkerhetsforskare i ett försök att förstå hur “lorem ipsum” – vanlig platshållartext på otaliga webbplatser-kan omvandlas till så många uppenbarligen geopolitiska och häpnadsväckande moderna fraser när de översätts från Latin till engelska med Google Translate. (Om du inte har någon aning om vad “lorem ipsum” är, hoppa vidare till en kort primer här).
visserligen skulle det här blogginlägget vara mer meningsfullt om läsarna helt kunde replikera resultaten som beskrivs nedan med hjälp av Google Translate. Men som jag kommer att förklara senare förändrades något viktigt i Googles översättningssystem i slutet av förra veckan som för närvarande gör de exempel jag beskriver omöjliga att reproducera.
Kina, NATO, sexig, sexig
det hela började för några månader tillbaka när jag fick ett meddelande från Lance James, chef för cyber intelligence på Deloitte. James pingade mig för att dela med mig av något som upptäckts av FireEye-forskaren Michael Shoukry och en annan forskare som bara ville identifieras som “Kraeh3n.” de märkte ett bisarrt mönster i Google Translate: när man skrev “lorem ipsum” i Google Translate returnerade standardresultaten (med systemet som automatiskt upptäcker Latin som språk) ett enda ord: “Kina.”
kapitalisering av första bokstaven i varje ord ändrade produktionen till” NATO ” — förkortningen för Nordatlantiska fördragsorganisationen. Att vända orden i både lägre och stora bokstäver producerade “Internet” och “företaget” (“företaget” med ett kapital ” C ” har länge varit ett kodord för US Central Intelligence Agency). Att upprepa och ordna om ordparet med en blandning av kapitalisering genererade ännu konstigare resultat. Till exempel genererade” lorem ipsum ipsum ipsum Lorem “frasen” Kina är väldigt väldigt sexigt.”
fram till helt nyligen omvandlades orden till vänster till orden till höger med Google Translate.
Kraeh3n sa att hon upptäckte det konstiga beteendet medan hon korrekturläste ett dokument för en kollega, ett dokument som hade standard Lorem ipsum platshållare text. När hon började skriva ” l-o-r..e..”och såg” Kina ” som resultatet, hon visste att något var konstigt.
” jag såg ord som Internet, Kina, regering, polis och frihet och var nyfiken på hur detta hände”, sa Kraeh3n. “Jag kontaktade omedelbart Michael Shoukry och vi började undersöka det vidare.”
och så började duon testa gränserna för dessa två ord med en blandning av kapitalisering och upprepning. Nedan är bara en av många sidor med skärmdumpar tagna från deras resultat:
forskarna undrade: vad hände här? Har någon utanför Google listat ut hur man kartlägger vissa ord till olika betydelser i Google Translate? Var det en hemlig eller hemlig kommunikationskanal? Kanske en form av kommunikation som är avsedd att kringgå censuren som uppfördes av den kinesiska regeringen med Kinas stora brandvägg? Eller var det bara en tillfällighet i matrisen?
för sin del checkade Shoukry in med kontakter i den amerikanska underrättelseindustrin och frågade tyst om att avslöja hans resultat på något sätt skulle kunna äventyra viktiga hemligheter. Veckorna gick och hans källor hörde inga invändningar. En sak var säker, resultaten var subtilt förändras från dag till dag, och det var inte klart hur länge dessa två vanliga men obskyra ord skulle fortsätta att ge samma resultat.
“medan Google translate kan vara felaktigt i översättningarna av dessa ord, är det förbryllande varför dessa ord skulle översättas till saker som” Kina”, “NATO” och “det fria Internet”, sa Shoukry. “Kan det här vara en glitch? Är detta avsiktligt? Är detta ett sätt för människor att kommunicera? Vad är det?”
när jag träffade Shoukry vid Black Hat security convention i Las Vegas tidigare denna månad hade han redan varnat Google för sina resultat. Det var uppenbart att det var dags för några intensiva tester, och klockan tickade redan: jag var övertygad (och tyvärr korrekt) att mycket av det skulle försvinna när som helst.
en kort historia av LOREM IPSUM
Cicero.
Sök på Internet efter frasen “lorem ipsum” och resultaten avslöjar varför denna konstiga fras har en sådan kärnanslutning till Lexikonet på webben. Dess ursprung i modernitet är skumma, men enligt flera webbplatser som har försökt att krönika historien om detta ordpar, “lorem ipsum” togs från en förvrängd och förändrad del av “de finibus bonorum et malorum” (översatt: “av gott och ont”) en latinsk text från 1: a århundradet f.Kr. av den stora orator Cicero.
enligt Cecil Adams, kurator för internet trivia-webbplatsen the Straight Dope, var texten från det Cicero-arbetet tillgängligt i många år på självhäftande ark i olika storlekar och typsnitt från ett företag som heter Letraset.
” i pre-desktop-publicering dagar, en designer skulle skära saker ut med en X-acto kniv och hålla den på sidan,” Adams skrev. “När datorer kom med inkluderade Aldus lorem ipsum i sin PageMaker publishing-programvara, och du ser det nu var designers är på jobbet, inklusive över hela webben.”
detta par ord är så vanligt att många Webbinnehållshanteringssystem distribuerar det som standardtext. Typexempel: Lorem Ipsum dyker till och med upp på healthcare.gov. enligt en berättelse publicerad Aug. 15 i Daily Mail, mer än ett dussin tydligen vilande sjukvård.gov sidor bär dummy text. (Klicka här om du hoppade vidare till det här avsnittet).
ytterligare testning
saker började bli ännu mer intressanta när forskarna började lägga till andra ord från Cicero-texten från vilken “Lorem ipsum” – biten togs, inklusive: “Neque porro quisquam est qui dolorem ipsum quia dolor sit amet, consectetur, adipisci velit . . .”(“Det finns ingen som älskar smärta själv, som söker efter det och vill ha det, helt enkelt för att det är smärta …”).
att lägga till” dolor “och” sit “och” consectetur ” gav till exempel ännu mer bisarra resultat. Att översätta ” consectetur Sit Sit Dolor “från Latin till engelska producerar” Ryssland kan lida.””sit sit dolor dolor” översätter till ” Han är en smart konsument.”Ett exempel på dessa exempelöversättningar är nedan:
Latin avfärdas ofta som ett “dött” språk, och huruvida det är rättvist eller sant verkar det ganska tydligt att det inte borde finnas latinska ord för “mobiltelefon”, “Internet” och andra grundpelare i det moderna livet i det 21: a århundradet. Men denna inkongruitet hjälper till att belysa en möjlig förklaring till sådana udda översättningar: Google Translate har helt enkelt inte tillräckligt med latinska texter tillgängliga för att ha lärt sig språket noggrant.
i en introduktionsvideo med titeln Inside Google Translate förklarar Google hur översättningsmotorn fungerar, källorna till motorns intelligens och dess begränsningar. Enligt Google fungerar dess översättningstjänst ” genom att analysera miljoner och miljoner dokument som redan har översatts av mänskliga översättare.”Videon fortsätter:
“dessa översatta texter kommer från böcker, organisationer som FN och webbplatser från hela världen. Våra datorer skannar dessa texter och letar efter statistiskt signifikanta mönster. Det vill säga mönster mellan översättningen och originaltexten som sannolikt inte kommer att ske av en slump. När datorn hittar ett mönster kan du använda det här mönstret för att översätta liknande texter i framtiden. När du upprepar denna process miljarder gånger slutar du med miljarder mönster och ett mycket smart datorprogram.”
här är gnidningen:
“för vissa språk har vi dock färre översatta dokument tillgängliga och därför färre mönster som vår programvara har upptäckt. Det är därför vår översättningskvalitet varierar beroende på språk och språkpar.”
ändå förklarar detta inte riktigt varför Google Translate skulle innehålla så många referenser som är specifika för Kina, Internet, telekommunikation, företag, avdelningar och andra udda kopplingar för att översätta Latin till engelska.
i alla fall kan vi aldrig veta den verkliga förklaringen. Strax före midnatt, Aug. 16, Google Translate slutade plötsligt att översätta ordet ” lorem “till allt annat än” lorem ” från Latin till engelska. Google Translate producerar fortfarande underhållande och märkliga resultat när man översätter Latin till engelska i allmänhet.
en talesman för Google sa att ändringen gjordes för att fixa ett fel med Översättningsalgoritmen (anpassa ‘Lorem ipsum’ Latin standardtext med orelaterad engelsk text) snarare än en säkerhetsproblem.
Kraeh3n sa att hon är övertygad om att Lorem ipsum-fenomenet inte är en olycka eller en slump.
“Translate utformad för att kunna utvecklas och lära av publikinmatning för att återspegla anpassningar i språkanvändning över tiden”, sa Kraeh3n. “Någon där ute lärde sig att spela den förmågan och använda en obskyr textbit som ingen i sitt rätta sinne någonsin skulle skriva in för att skapa helt slumpmässiga alternativa betydelser som potentiellt kan användas för att överföra meddelanden hemligt.”
samtidigt säger Shoukry att han planerar att fortsätta sin testning för nya språkmönster som kan vara dolda i Google Translate.
“smartheten att dölja något i vanlig syn har funnits i många år”, sa han. “Detta är dock exceptionellt lysande eftersom dessa mallar används så mycket att människor är desensibiliserade för dem, och eftersom den här texten är så utbredd att ingen bryr sig om att ifrågasätta varför, hur och var den kan ha kommit ifrån.”
taggar: svart hatt, Cecil Adams, Central Intelligence Agency, Kina, Cicero, Deloitte, google, Google Translate, sjukvård.gov, Kraeh3n, Lance James, lorem ipsum, Michael Shoukry, NATO, företaget, den raka knark