Krebs on Security

Imagine discovering a secret language speaked only online by a knowledge and learned few. Kun alat viikkojen kuluessa kiusata tämän omituisen kielen merkitystä ja pohtia sen tarkoitusta, kieli näyttää muuttuvan hienovaraisilla mutta mielikuvituksellisilla tavoilla ja muuttuvan päivittäin silmiesi edessä. Ja juuri kun olet valmis jakamaan havaintosi muun maailman kanssa, koko asia katoaa.

loremipsum tämä kuvaa hyvin vuoristoratakokemustani uteliaisuudesta, ihmettelystä ja pettymyksestä viime viikkojen aikana, kun olen työskennellyt tietoturvatutkijoiden kanssa yrittäen ymmärtää, miten “lorem ipsum” — yleinen paikkateksti lukemattomilla verkkosivustoilla — voitaisiin muuttaa niin moneksi ilmeisen geopoliittiseksi ja hätkähdyttävän moderniksi fraasiksi, kun se käännetään latinasta englanniksi Google Translaten avulla. (Jos sinulla ei ole aavistustakaan, mitä “lorem ipsum” on, siirry eteenpäin lyhyt primer tässä).

tosin tämä blogikirjoitus olisi järkevämpi, jos lukijat voisivat täysin toistaa alla kuvatut tulokset Google Translaten avulla. Kuitenkin, kuten Selitän myöhemmin, jotain tärkeää muuttunut Googlen käännösjärjestelmä myöhään viime viikolla, että tällä hetkellä tekee esimerkkejä I ‘ ll kuvata mahdotonta jäljentää.

Kiina, NATO, SEXY, SEXY

kaikki alkoi muutama kuukausi sitten, kun sain viestin Deloitten kybertiedustelun johtajalta Lance Jamesilta. James pinged minua jakamaan jotain löysi FireEye tutkija Michael Shoukry ja toinen tutkija, joka halusi tunnistaa vain ” Kraeh3n. “he huomasivat outo kuvio Google Translate: kun yksi kirjoitti” lorem ipsum “osaksi Google Translate, oletustulokset (järjestelmän automaattinen havaitseminen Latina kuin kieli) palasi yhden sanan:” Kiina.”

jokaisen sanan ensimmäisen kirjaimen isolla alkukirjaimella tuloste muuttui muotoon” NATO”, joka on lyhenne sanoista “North Atlantic Treaty Organization”. Sanojen kääntäminen sekä ala-että isoilla kirjaimilla tuotti “Internetin” ja “yhtiön” (“yhtiö”, jonka Isolla “C”: llä on pitkään ollut Yhdysvaltain keskustiedustelupalvelun koodisana). Sanaparin toistaminen ja uudelleenjärjestely kapitalisaation sekoituksella tuotti vielä oudompia tuloksia. Esimerkiksi” lorem ipsum ipsum ipsum Lorem “tuotti lauseen” Kiina on erittäin seksikäs.”

aivan viime aikoihin asti vasemmanpuoleiset sanat muutettiin Oikeanpuoleisiksi Google Translaten avulla.

vielä aivan äskettäin vasemmanpuoleiset sanat muutettiin Oikeanpuoleisiksi Google Translaten avulla.

Kraeh3n kertoi huomanneensa oudon käytöksen oikolukiessaan kollegalleen dokumenttia, jossa oli Lorem Ipsumin vakioteksti. Kun hän alkoi kirjoittaa ” l-o-r..e..”ja näki” Kiinan ” seurauksena, hän tiesi jotain outoa.

“näin sanoja kuten Internet, Kiina, hallitus, poliisi ja vapaus ja olin utelias tietämään, miten tämä tapahtui”, Kraeh3n sanoi. “Otin välittömästi yhteyttä Michael Shoukryyn ja aloimme tutkia asiaa tarkemmin.”

ja niin kaksikko alkoi testata näiden kahden sanan rajoja käyttäen kapitalisaation ja toiston sekoitusta. Alla on vain yksi monista sivuista kuvakaappauksia otettu niiden tuloksista:

ipsumlorem

tutkijat ihmettelivät: mitä täällä oikein tapahtuu? Onko joku Googlen ulkopuolinen selvittänyt, miten tietyt sanat kartoitetaan eri merkityksiin Google Translatessa? Oliko se salainen vai salainen viestintäkanava? Ehkä sellainen viestintämuoto, jonka tarkoituksena on ohittaa Kiinan hallituksen pystyttämä sensuuri Kiinan suurella palomuurilla? Vai oliko tämä vain sattumaa Matrixissa?

Shoukry puolestaan otti yhteyttä Yhdysvaltain tiedusteluteollisuuden yhteyksiin ja tiedusteli vaivihkaa, saattaisiko hänen löytöjensä paljastaminen millään tavalla vaarantaa tärkeitä salaisuuksia. Kului viikkoja, eivätkä hänen lähteensä kuulleet vastalauseita. Yksi asia oli varma, tulokset olivat hienovaraisesti muuttuvat päivästä toiseen, ja se ei ollut selvää, kuinka kauan nämä kaksi yhteistä, mutta hämärä sanat jatkaisivat tuottaa samat tulokset.

“vaikka Google translate saattaa olla virheellinen näiden sanojen käännöksissä, on hämmentävää, miksi nämä sanat käännettäisiin sellaisiin asioihin kuin ‘Kiina’, ‘NATO’ ja ‘vapaa Internet'”, Shoukry sanoi. “Voisiko tämä olla häiriö? Onko tämä tahallista? Onko tämä ihmisten tapa kommunikoida? Mitä nyt?”

kun tapasin Shoukryn Black Hat-tietoturvakonventissa Las Vegasissa aiemmin tässä kuussa, hän oli jo varoittanut Googlea havainnoistaan. Oli selvästikin aika intensiiviselle testaukselle, ja kello tikitti jo: olin vakuuttunut (ja valitettavasti oikeassa) siitä, että suuri osa siitä katoaisi minä hetkenä hyvänsä.

Lorem Ipsumin lyhyt historia

Cicero.

Cicero.

Etsi Internetistä lause “lorem ipsum”, ja tulokset paljastavat, miksi tällä oudolla lauseella on niin keskeinen yhteys Webin sanastoon. Sen alkuperä nykyaikana on hämärä, mutta useiden sivustojen mukaan, jotka ovat yrittäneet kronikoida tämän sanaparin historiaa, “lorem ipsum” on otettu “de finibus bonorum et malorum” (käännetty: “hyvästä ja pahasta”) 1.vuosisadan eKr latinalaisesta tekstistä, jonka suuri puhuja Cicero kirjoitti.

The Straight Dope-internetsivuston kuraattorin Cecil Adamsin mukaan kyseisen Ciceron teoksen teksti oli saatavilla useiden vuosien ajan Letraset-nimisen yrityksen eri kokoisille liimalevyille ja kirjasintyypeille.

“desktop-julkaisua edeltävinä päivinä suunnittelija leikkasi tavarat pois X-acto-veitsellä ja työnsi ne sivulle”, Adams kirjoitti. “Kun tietokoneet tulivat mukaan, Aldus sisällytti lorem Ipsumin PageMaker-julkaisuohjelmistoonsa, ja nyt sitä näkee kaikkialla, missä suunnittelijat työskentelevät, mukaan lukien kaikkialla verkossa.”

tämä sanapari on niin yleinen, että monet Verkkosisällönhallintajärjestelmät käyttävät sitä oletustekstinä. Case in point: Lorem Ipsum jopa näkyy healthcare.gov. elokuuta julkaistun jutun mukaan. 15 Daily Mailin mukaan toistakymmentä ilmeisesti lepotilassa olevaa terveydenhuoltoa.gov-sivuilla on valeteksti. (Klikkaa tästä, Jos ohitat eteenpäin tähän osioon).

LOREMipsumhealthcare

JATKOKOKEET

asiat alkoivat käydä entistä mielenkiintoisemmiksi, kun tutkijat alkoivat lisätä muita sanoja Ciceron tekstistä, josta” lorem ipsum “- bitti otettiin, mukaan lukien: “Neque porro quisquam est qui dolorem ipsum quia dolor sit amet, consectetur, adipisci velit . . .”(“Ei ole ketään, joka rakastaa kipua itseään, joka etsii sitä ja haluaa sitä vain siksi, että se on kipua …”).

esimerkiksi sanojen “dolor” ja “sit” ja “consectetur” lisääminen tuotti vielä kummallisempia tuloksia. “Consectetur Sit Sit Dolorin” kääntäminen latinasta englanniksi tuottaa “Venäjä saattaa kärsiä.””sit sit dolor dolor “tarkoittaa” Hän on älykäs kuluttaja.”Esimerkki näistä näytekäännöksistä on alla:

ipsum

latina on usein hylätään “kuollut” kieli, ja onko se oikeudenmukainen tai totta näyttää melko selvää, että ei pitäisi olla latinan sanoja “matkapuhelin”, “Internet” ja muut tukipylväitä modernin elämän 21.vuosisadalla. Tämä ristiriita auttaa kuitenkin valottamaan yhtä mahdollista selitystä tällaisille oudoille käännöksille: Google Translatella ei yksinkertaisesti ole tarpeeksi latinankielisiä tekstejä, jotta se olisi oppinut kielen perusteellisesti.

Inside Google Translate-nimisessä esittelyvideossa Google kertoo käännösmoottorin toiminnasta, Moottorin älykkyyden lähteistä ja sen rajoituksista. Googlen mukaan sen käännöspalvelu toimii ” analysoimalla miljoonia ja taas miljoonia asiakirjoja, jotka ihmiskääntäjät ovat jo kääntäneet.”Video jatkuu:

“nämä käännetyt tekstit ovat peräisin kirjoista, järjestöistä, kuten Yhdistyneistä kansakunnista, ja WWW-sivustoista eri puolilta maailmaa. Tietokoneemme skannaavat nämä tekstit etsien tilastollisesti merkittäviä kuvioita. Toisin sanoen käännöksen ja alkuperäisen tekstin välisiä kuvioita, jotka eivät todennäköisesti tapahdu sattumalta. Kun tietokone löytää kuvion, voit käyttää tätä mallia vastaavien tekstien kääntämiseen tulevaisuudessa. Kun toistat tätä prosessia miljardeja kertoja, päädyt miljardeihin kuvioihin ja yhteen erittäin älykkääseen tietokoneohjelmaan.”

tässä on ongelma.:

“joillekin kielille meillä on kuitenkin vähemmän käännettyjä asiakirjoja saatavilla, ja siksi vähemmän malleja, joita ohjelmistomme on havainnut. Siksi käännöstemme laatu vaihtelee kieli-ja kieliparin mukaan.”

silti, tämä ei aivan selitä, miksi Google Translate olisi niin monia viittauksia erityisiä Kiina, Internet, televiestintä, yritykset, osastot ja muut outoa Kytkimet kääntämisessä latinan Englanti.

joka tapauksessa emme ehkä koskaan saa tietää todellista selitystä. Hieman ennen puoltayötä, Aug. 16, Google Translate yhtäkkiä lopetti kääntää sanan ” lorem “osaksi mitään muuta kuin” lorem ” latinasta Englanti. Google Translate tuottaa edelleen huvittavia ja erikoisia tuloksia, kun latinaa ylipäätään käännetään englanniksi.

Googlen edustaja sanoi, että muutos tehtiin korjaamaan vika Käännösalgoritmilla (kohdistamalla “lorem ipsum” Latinalaiseen boilerplateen liittymättömällä englanninkielisellä tekstillä) tietoturvahaavoittuvuuden sijaan.

Kraeh3n sanoi olevansa vakuuttunut, että lorem ipsum-ilmiö ei ole vahinko tai sattuma.

“Translate designed to be able to evolve and to learn from crowd-sourced input to reflect adaptations in language use over time”, kraeh3n said. “Joku siellä oppinut peli, että kyky ja käyttää hämärä pala tekstiä kukaan heidän järjissään olisi koskaan kirjoita luoda täysin satunnaisia vaihtoehtoisia merkityksiä, joita voitaisiin mahdollisesti käyttää lähettää viestejä salaa.”

sillä välin Shoukry kertoo aikovansa jatkaa uusien kielikuvioiden testaamista, jotka saattavat olla piilossa Google Translatessa.

“nokkeluutta piilottaa jotain näkyville on ollut olemassa jo monta vuotta”, hän sanoi. “Tämä on kuitenkin poikkeuksellisen nerokasta, koska nämä mallit ovat niin laajalti käytössä, että ihmiset ovat turtuneet niihin, ja koska tämä teksti on niin laajalti levinnyt, ettei kukaan vaivaudu kyseenalaistamaan miksi, miten ja mistä se on voinut tulla.”

tunnisteet: musta hattu, Cecil Adams, keskustiedustelupalvelu, Kiina, Cicero, Deloitte, google, Google Translate, Terveydenhuolto.gov, Kraeh3n, Lance James, lorem ipsum, Michael Shoukry, NATO, the Company, the Straight Dope

Vastaa

Sähköpostiosoitettasi ei julkaista.