Krebs on Security
Immagina di scoprire una lingua segreta parlata solo online da pochi esperti e appresi. Per un periodo di settimane, mentre inizi a prendere in giro il significato di questa curiosa lingua e rifletti sul suo scopo, la lingua sembra spostarsi in modi sottili ma fantastici, rifacendosi ogni giorno davanti ai tuoi occhi. E proprio quando sei pronto a condividere le tue scoperte con il resto del mondo, l’intera cosa svanisce.
Questo abbastanza descrive il mio roller coaster esperienza di curiosità, stupore e delusione nelle scorse settimane, ho lavorato a fianco di ricercatori di sicurezza nel tentativo di capire come “lorem ipsum” — comune segnaposto di testo su innumerevoli siti Web — potrebbe essere trasformato in tanti a quanto pare geopolitica e sorprendentemente moderno frasi tradotte dal latino all’inglese con Google Translate. (Se non hai idea di cosa sia “lorem ipsum”, vai avanti a un breve primer qui).
Certo, questo post sul blog avrebbe più senso se i lettori potessero replicare completamente i risultati descritti di seguito utilizzando Google Translate. Tuttavia, come spiegherò più tardi, qualcosa di importante è cambiato nel sistema di traduzione di Google alla fine della scorsa settimana che attualmente rende gli esempi che descriverò impossibili da riprodurre.
CINA, NATO, SEXY, SEXY
Tutto è iniziato qualche mese fa quando ho ricevuto una nota da Lance James, capo della cyber intelligence di Deloitte. James mi ha fatto un ping per condividere qualcosa scoperto dal ricercatore FireEye Michael Shoukry e da un altro ricercatore che desiderava essere identificato solo come “Kraeh3n”. Hanno notato un modello bizzarro in Google Translate: quando uno ha digitato” lorem ipsum “in Google Translate, i risultati predefiniti (con il sistema che rileva automaticamente il latino come lingua) hanno restituito una sola parola:” Cina.”
Capitalizzando la prima lettera di ogni parola ha cambiato l’output in “NATO” – l’acronimo per l’Organizzazione del Trattato del Nord Atlantico. Invertendo le parole sia in basso e maiuscolo prodotto “Internet” e “La società” (la “Società” con una ” C ” capitale è stata a lungo una parola in codice per la U. S. Central Intelligence Agency). Ripetere e riorganizzare la coppia di parole con un mix di maiuscole ha generato risultati ancora più strani. Ad esempio,” lorem ipsum ipsum ipsum Lorem “ha generato la frase” La Cina è molto molto sexy.”
Fino a poco tempo fa, le parole a sinistra sono state trasformate in parole a destra utilizzando Google Translate.
Kraeh3n ha detto di aver scoperto lo strano comportamento durante la correzione di bozze di un documento per un collega, un documento che aveva il testo segnaposto lorem ipsum standard. Quando ha iniziato a digitare ” l-o-r..e..”e visto” Cina ” come il risultato, sapeva che qualcosa era strano.
“Ho visto parole come Internet, Cina, governo, polizia e libertà ed ero curioso di sapere come stava accadendo”, ha detto Kraeh3n. “Ho immediatamente contattato Michael Shoukry e abbiamo iniziato a indagare ulteriormente.”
E così il duo ha iniziato a testare i limiti di queste due parole usando un mix di maiuscole e ripetizioni. Qui di seguito è solo una delle tante pagine di screenshot presi dai loro risultati:
I ricercatori si sono chiesti: cosa stava succedendo qui? Qualcuno al di fuori di Google ha capito come mappare determinate parole a significati diversi in Google Translate? Era un canale di comunicazione segreto o segreto? Forse una forma di comunicazione destinata a bypassare la censura eretta dal governo cinese con il Great Firewall della Cina? O era tutto questo solo una coincidenza glitch in Matrix?
Da parte sua, Shoukry si è messo in contatto con i contatti dell’industria dell’intelligence statunitense, chiedendo in silenzio se divulgare le sue scoperte potesse in qualche modo compromettere importanti segreti. Le settimane passarono e le sue fonti non sentirono obiezioni. Una cosa era certa, i risultati stavano cambiando sottilmente di giorno in giorno, e non era chiaro per quanto tempo queste due parole comuni ma oscure avrebbero continuato a produrre gli stessi risultati.
” Mentre Google translate potrebbe non essere corretto nelle traduzioni di queste parole, è sconcertante perché queste parole sarebbero tradotte in cose come ‘Cina’, ‘NATO’ e ‘Internet libero'”, ha detto Shoukry. “Potrebbe essere un problema tecnico? E ‘ intenzionale? È questo un modo per le persone di comunicare? Che è?”
Quando ho incontrato Shoukry alla Black Hat security convention di Las Vegas all’inizio di questo mese, aveva già avvisato Google delle sue scoperte. Chiaramente, era tempo di test intensi, e il tempo stava già ticchettando: ero convinto (e purtroppo, corretto) che gran parte di esso sarebbe scomparso da un momento all’altro.
UNA BREVE STORIA DI LOREM IPSUM
Cicerone.
Cerca su Internet la frase “lorem ipsum” e i risultati rivelano perché questa strana frase ha una connessione così centrale con il lessico del Web. Le sue origini nella modernità sono torbide, ma secondo diversi siti che hanno tentato di cronicizzare la storia di questa coppia di parole, “lorem ipsum” è stato preso da una sezione strapazzata e alterata di “De finibus bonorum et malorum” (tradotto: “Del bene e del male”) un testo latino del 1 ° secolo a.C. del grande oratore Cicerone.
Secondo Cecil Adams, curatore del sito Internet trivia The Straight Dope, il testo di quel lavoro di Cicero era disponibile per molti anni su fogli adesivi in diverse dimensioni e caratteri tipografici da una società chiamata Letraset.
“Nei giorni di pre-desktop-publishing, un designer tagliava la roba con un coltello X-acto e la attaccava sulla pagina”, ha scritto Adams. “Quando sono arrivati i computer, Aldus ha incluso lorem ipsum nel suo software di pubblicazione PageMaker, e ora lo vedi ovunque i designer siano al lavoro, anche in tutto il Web.”
Questa coppia di parole è così comune che molti sistemi di gestione dei contenuti Web la distribuiscono come testo predefinito. Caso in questione: Lorem Ipsum si presenta anche su healthcare.gov. Secondo una storia pubblicata agosto. 15 nel Daily Mail, più di una dozzina di assistenza sanitaria apparentemente dormiente.pagine gov portano il testo fittizio. (Clicca qui se sei passato a questa sezione).
ULTERIORI TEST
Le cose hanno cominciato a diventare ancora più interessanti quando i ricercatori hanno iniziato ad aggiungere altre parole dal testo di Cicerone da cui è stato preso il bit “lorem ipsum”, tra cui: “Neque porro quisquam est qui dolorem ipsum quia dolor sit amet, consectetur, adipisci velit . . .”(“Non c’è nessuno che ama il dolore stesso, che lo cerca e vuole averlo, semplicemente perché è dolore …”).
L’aggiunta di ” dolor “e” sit “e” consectetur”, ad esempio, ha prodotto risultati ancora più bizzarri. Tradurre “consectetur Sit Sit Dolor” dal latino all’inglese produce ” La Russia potrebbe soffrire.””sit sit dolor dolor” si traduce in ” È un consumatore intelligente.”Un esempio di queste traduzioni di esempio è di seguito:
Il latino è spesso liquidato come una lingua” morta”, e se questo è giusto o vero sembra abbastanza chiaro che non ci dovrebbero essere parole latine per” cellulare”,” Internet ” e altri pilastri della vita moderna nel 21 ° secolo. Tuttavia, questa incongruenza aiuta a far luce su una possibile spiegazione per tali traduzioni dispari: Google Translate semplicemente non ha abbastanza testi latini disponibili per aver imparato a fondo la lingua.
In un video introduttivo intitolato Inside Google Translate, Google spiega come funziona il motore di traduzione, le fonti dell’intelligenza del motore e i suoi limiti. Secondo Google, il suo servizio di traduzione funziona ” analizzando milioni e milioni di documenti che sono già stati tradotti da traduttori umani.”Il video continua:
“Questi testi tradotti provengono da libri, organizzazioni come le Nazioni Unite e siti Web di tutto il mondo. I nostri computer scansionano questi testi alla ricerca di schemi statisticamente significativi. Vale a dire, modelli tra la traduzione e il testo originale che è improbabile che si verifichino per caso. Una volta che il computer trova un modello, è possibile utilizzare questo modello per tradurre testi simili in futuro. Quando si ripete questo processo miliardi di volte, si finisce con miliardi di modelli, e un programma per computer molto intelligente.”
Ecco il problema:
“Per alcune lingue, tuttavia, abbiamo meno documenti tradotti disponibili, e quindi meno modelli che il nostro software ha rilevato. Questo è il motivo per cui la nostra qualità di traduzione varia in base alla lingua e alla coppia di lingue.”
Tuttavia, questo non spiega perché Google Translate includa così tanti riferimenti specifici alla Cina, a Internet, alle telecomunicazioni, alle aziende, ai dipartimenti e ad altri accoppiamenti dispari nella traduzione dal latino all’inglese.
In ogni caso, potremmo non conoscere mai la vera spiegazione. Poco prima di mezzanotte, Agosto. 16, Google Translate bruscamente smesso di tradurre la parola ” lorem “in tutt’altro che” lorem ” dal latino all’inglese. Google Translate produce ancora risultati divertenti e peculiari quando si traduce il latino in inglese in generale.
Un portavoce di Google ha detto che la modifica è stata fatta per correggere un bug con l’algoritmo Translate (allineando ‘lorem ipsum’ boilerplate latino con testo inglese non correlato) piuttosto che una vulnerabilità di sicurezza.
Kraeh3n ha dichiarato di essere convinta che il fenomeno lorem ipsum non sia un incidente o un caso fortuito.
“Traduci progettato per essere in grado di evolvere e imparare dall’input di crowd-sourced per riflettere gli adattamenti nell’uso del linguaggio nel tempo”, ha detto Kraeh3n. “Qualcuno là fuori ha imparato a giocare quell’abilità e ad usare un oscuro pezzo di testo che nessuno sano di mente avrebbe mai digitato per creare significati alternativi totalmente casuali che potrebbero, potenzialmente, essere usati per trasmettere messaggi di nascosto.”
Nel frattempo, Shoukry dice che ha intenzione di continuare il suo test per nuovi modelli linguistici che potrebbero essere nascosti in Google Translate.
“L’intelligenza di nascondere qualcosa in bella vista è in circolazione da molti anni”, ha detto. “Tuttavia, questo è eccezionalmente brillante perché questi modelli sono così ampiamente utilizzati che le persone sono desensibilizzate a loro, e perché questo testo è così ampiamente distribuito che nessuno si preoccupa di chiedersi perché, come e da dove potrebbe provenire.”
Tag: Cappello nero, Cecil Adams, Central Intelligence Agency, Cina, Cicero, Deloitte, google, Google Translate, sanità.il nostro sito utilizza cookie tecnici e di terze parti per migliorare la tua esperienza di navigazione.