Krebs privind securitatea
Imaginați-vă descoperirea unei limbi secrete vorbite doar online de câțiva cunoscuți și învățați. Într-o perioadă de săptămâni, pe măsură ce începeți să tachinați semnificația acestei limbi curioase și să vă gândiți la scopul ei, limba pare să se schimbe în moduri subtile, dar fantastice, refăcându-se zilnic în fața ochilor voștri. Și tocmai când sunteți gata să vă împărtășiți descoperirile cu restul lumii, totul dispare.
aceasta descrie destul de bine experiența mea de curiozitate, uimire și dezamăgire din ultimele săptămâni, deoarece am lucrat alături de cercetători în domeniul securității într — un efort de a înțelege cum “Lorem ipsum” — text obișnuit de substituent pe nenumărate site-uri web-ar putea fi transformat în atât de multe fraze aparent geopolitice și uimitor de moderne atunci când sunt traduse din latină în engleză folosind Google Translate. (Dacă nu aveți nicio idee despre ce este “Lorem ipsum”, treceți mai departe la un scurt primer aici).
desigur, această postare pe blog ar avea mai mult sens dacă cititorii ar putea reproduce pe deplin rezultatele descrise mai jos folosind Google Translate. Cu toate acestea, după cum voi explica mai târziu, ceva important s-a schimbat în sistemul de traducere Google la sfârșitul săptămânii trecute, ceea ce face în prezent exemplele pe care le voi descrie imposibil de reprodus.
CHINA, NATO, SEXY, SEXY
totul a început cu câteva luni în urmă, când am primit o notă de la Lance James, șeful informațiilor cibernetice la Deloitte. James m-a trimis să împărtășesc ceva descoperit de cercetătorul FireEye Michael Shoukry și de un alt cercetător care dorea să fie identificat doar ca “Kraeh3n”. au observat un model bizar în Google Translate: când cineva a tastat “lorem ipsum” în Google Translate, rezultatele implicite (cu sistemul de detectare automată a latinei ca limbă) au returnat un singur cuvânt: “China.”
scrierea cu majuscule a primei litere a fiecărui cuvânt a schimbat rezultatul în” NATO ” — acronimul pentru Organizația Tratatului Atlanticului de Nord. Inversarea cuvintelor atât cu litere mici, cât și cu majuscule a produs “Internetul” și “Compania” (“Compania” cu capital “C” a fost mult timp un cuvânt de cod pentru Agenția Centrală de informații din SUA). Repetarea și rearanjarea perechii de cuvinte cu un amestec de majuscule au generat rezultate și mai ciudate. De exemplu,” Lorem ipsum ipsum ipsum lorem “a generat expresia” China este foarte foarte sexy.”
până de curând, cuvintele din stânga au fost transformate în cuvintele din dreapta folosind Google Translate.
Kraeh3n a spus că a descoperit comportamentul ciudat în timp ce corecta un document pentru un coleg, un document care avea textul standard al substituentului lorem ipsum. Când a început să scrie ” l-o-r..e..”și a văzut “China” ca rezultat, știa că ceva era ciudat.
“am văzut cuvinte precum Internetul, China, guvernul, poliția și libertatea și am fost curios cum se întâmplă acest lucru”, a spus Kraeh3n. “L-am contactat imediat pe Michael Shoukry și am început să cercetăm mai departe.”
și astfel duo-ul a început să testeze limitele acestor două cuvinte folosind un amestec de majuscule și repetări. Mai jos este doar una dintre numeroasele pagini de capturi de ecran preluate din rezultatele lor:
cercetătorii s-au întrebat: ce se întâmplă aici? Cineva din afara Google și-a dat seama cum să mapeze anumite cuvinte la semnificații diferite în Google Translate? A fost un canal de comunicare secret sau sub acoperire? Poate o formă de comunicare menită să ocolească cenzura ridicată de guvernul chinez cu Marele Firewall al Chinei? Sau toate astea au fost doar o coincidență în Matrix?
la rândul său, Shoukry a verificat contactele din industria de informații din SUA, întrebând în liniște dacă divulgarea descoperirilor sale ar putea pune în pericol în vreun fel secrete importante. Au trecut săptămâni și sursele sale nu au auzit nicio obiecție. Un lucru era sigur, rezultatele se schimbau subtil de la o zi la alta și nu era clar cât timp aceste două cuvinte comune, dar obscure, vor continua să producă aceleași rezultate.
“în timp ce Google translate poate fi incorect în traducerile acestor cuvinte, este încurcat de ce aceste cuvinte ar fi traduse în lucruri precum” China”, “NATO” și “Internetul liber””, a spus Shoukry. “Ar putea fi o eroare? Este intenționat? Este aceasta o modalitate prin care oamenii pot comunica? Ce este?”
când l-am întâlnit pe Shoukry la Convenția de securitate Black Hat din Las Vegas, la începutul acestei luni, el alertase deja Google cu privire la descoperirile sale. În mod clar, era timpul pentru unele teste intense, iar ceasul ticăia deja: eram convins (și, din păcate, corect) că o mare parte din el va dispărea în orice moment.
o scurtă istorie a Lorem IPSUM
Cicero.
căutați pe Internet expresia “lorem ipsum”, iar rezultatele dezvăluie de ce această frază ciudată are o astfel de conexiune de bază cu lexiconul Web. Originile sale în modernitate sunt tulburi, dar conform mai multor site-uri care au încercat să cronicizeze istoria acestei perechi de cuvinte, “Lorem ipsum” a fost preluat dintr-o secțiune amestecată și modificată a “de finibus bonorum et malorum” (tradus: “despre bine și rău”) un text Latin din secolul 1 î.hr. de marele orator Cicero.
potrivit lui Cecil Adams, curator al site-ului Internet trivia The Straight Dope, textul din acea lucrare Cicero a fost disponibil de mai mulți ani pe foi adezive de diferite dimensiuni și caractere de la o companie numită Letraset.
“în zilele pre-desktop-publishing, un designer ar tăia lucrurile cu un cuțit X-acto și l-ar lipi pe pagină”, a scris Adams. “Când au apărut computerele, Aldus a inclus Lorem ipsum în software-ul său de publicare PageMaker, iar acum îl vedeți oriunde lucrează designerii, inclusiv pe Web.”
această pereche de cuvinte este atât de comună încât multe sisteme de gestionare a conținutului Web o implementează ca text implicit. Cazul în cauză: Lorem Ipsum apare chiar și pe healthcare.gov. potrivit unei povești publicate August. 15 în Daily Mail, mai mult de o duzină de asistență medicală aparent latente.paginile gov poartă textul fals. (Click aici dacă ați sărit înainte la această secțiune).
testarea ulterioară
lucrurile au început să devină și mai interesante atunci când cercetătorii au început să adauge alte cuvinte din textul Cicero din care a fost luat bitul “Lorem ipsum”, inclusiv: “Neque porro quisquam est qui dolorem ipsum quia dolor sit amet, consectetur, adipisci velit . . .”(“Nu există nimeni care să iubească durerea însăși, care să o caute și să vrea să o aibă, pur și simplu pentru că este durere …”).
adăugarea “dolor” și “sit” și “consectetur”, de exemplu, a produs rezultate și mai bizare. Traducerea ” consectetur Sit Sit Dolor “din latină în engleză produce” Rusia poate suferi.””sit sit dolor dolor” se traduce prin ” el este un consumator inteligent.”Un exemplu al acestor exemple de traduceri este mai jos:
latina este adesea respinsă ca o limbă” moartă “și dacă este sau nu corectă sau adevărată, pare destul de clar că nu ar trebui să existe cuvinte latine pentru” telefon mobil”,” Internet ” și alte piloni ai vieții moderne în secolul 21. Cu toate acestea, această incongruență ajută la lămurirea unei posibile explicații pentru astfel de traduceri ciudate: Google Translate pur și simplu nu are suficiente texte latine disponibile pentru a fi învățat bine limba.
într-un videoclip introductiv intitulat Inside Google Translate, Google explică modul în care funcționează motorul de traducere, sursele inteligenței motorului și limitările acestuia. Potrivit Google, serviciul său de traducere funcționează “analizând milioane și milioane de documente care au fost deja traduse de traducători umani.”Videoclipul continuă:
“aceste texte traduse provin din cărți, organizații precum Națiunile Unite și site-uri Web din întreaga lume. Computerele noastre scanează aceste texte căutând modele semnificative statistic. Adică, modele între traducere și textul original, care este puțin probabil să apară din întâmplare. Odată ce computerul găsește un model, puteți utiliza acest model pentru a traduce texte similare în viitor. Când repetați acest proces de miliarde de ori, ajungeți la miliarde de tipare și la un program de calculator foarte inteligent.”
Iată freca:
“cu toate acestea, pentru unele limbi, avem mai puține documente traduse disponibile și, prin urmare, mai puține modele pe care software-ul nostru le-a detectat. Acesta este motivul pentru care calitatea traducerii noastre va varia în funcție de limbă și pereche de limbi.”
totuși, acest lucru nu explică de ce Google Translate ar include atât de multe referințe specifice Chinei, Internetului, telecomunicațiilor, companiilor, departamentelor și altor cuplaje ciudate în traducerea latină în engleză.
în orice caz, s-ar putea să nu știm niciodată explicația reală. Chiar înainte de miezul nopții, August. 16, Google Translate a încetat brusc să traducă cuvântul” lorem “în orice altceva decât” lorem ” din latină în engleză. Google Translate produce în continuare rezultate amuzante și deosebite atunci când traduce din latină în engleză în general.
un purtător de cuvânt al Google a declarat că schimbarea a fost făcută pentru a remedia o eroare cu algoritmul de traducere (alinierea ‘Lorem ipsum’ Latin boilerplate cu textul în limba engleză fără legătură), mai degrabă decât o vulnerabilitate de securitate.
Kraeh3n a spus că este convinsă că fenomenul Lorem ipsum nu este un accident sau întâmplare.
“traduceți conceput pentru a putea evolua și pentru a învăța din contribuțiile provenite din mulțime pentru a reflecta adaptările în utilizarea limbajului în timp”, a spus Kraeh3n. “Cineva de acolo a învățat să joace acea abilitate și să folosească un text obscur pe care nimeni în mintea lor dreaptă nu l-ar tasta vreodată pentru a crea semnificații Alternative Total aleatorii care ar putea fi folosite pentru a transmite mesaje pe ascuns.”
între timp, Shoukry spune că intenționează să-și continue testarea pentru noi modele lingvistice care ar putea fi ascunse în Google Translate.
“inteligența de a ascunde ceva la vedere există de mulți ani”, a spus el. “Cu toate acestea, acest lucru este excepțional de genial, deoarece aceste șabloane sunt atât de utilizate pe scară largă încât oamenii sunt desensibilizați la ele și pentru că acest text este atât de larg distribuit încât nimeni nu se deranjează să se întrebe de ce, cum și de unde ar fi putut veni.”
etichete: pălărie neagră, Cecil Adams, Agenția Centrală de informații, China, Cicero, Deloitte, google, Google Translate, asistență medicală.gov, Kraeh3n, Lance James, Lorem ipsum, Michael Shoukry, NATO, compania, drogurile drepte