Krebs on Security
képzelje el, hogy felfedez egy titkos nyelvet, amelyet csak hozzáértő és tanult kevesek beszélnek online. Néhány hét alatt, ahogy elkezded kigúnyolni ennek a furcsa nyelvnek a jelentését és elgondolkozol a célján, úgy tűnik, hogy a nyelv finom, de fantasztikus módon változik, naponta átalakítja magát a szemed előtt. És éppen akkor, amikor készen áll arra, hogy megossza eredményeit a világ többi részével, az egész dolog eltűnik.
ez meglehetősen leírja a hullámvasút tapasztalat a kíváncsiság, a csoda és a csalódás az elmúlt hetekben, mint dolgoztam együtt biztonsági kutatók annak érdekében, hogy megértsék, hogyan “lorem ipsum” — közös helyőrző szöveget számtalan weboldalak — lehet alakítani oly sok látszólag geopolitikai és megdöbbentően modern kifejezéseket, amikor lefordították latinról angolra a Google Translate. (Ha fogalma sincs, mi a “lorem ipsum”, ugorjon egy rövid alapozóra itt).
igaz, hogy ennek a blogbejegyzésnek több értelme lenne, ha az olvasók teljes mértékben megismételhetnék az alább leírt eredményeket a Google Fordító segítségével. Amint azonban később elmagyarázom, valami fontos megváltozott a Google fordítási rendszerében a múlt hét végén, ami jelenleg lehetetlenné teszi az általam leírt példák reprodukálását.
Kína, NATO, SEXY, SEXY
az egész néhány hónappal ezelőtt kezdődött, amikor kaptam egy üzenetet Lance James-től, a Deloitte kiberintelligencia-vezetőjétől. James pingelt nekem megosztani valamit felfedezett FireEye kutató Michael Shoukry és egy másik kutató, aki azt akarta, hogy azonosítható csak “Kraeh3n.” észrevették a bizarr minta a Google Translate: amikor az egyik gépelt ” lorem ipsum “a Google Translate, az alapértelmezett eredmények (a rendszer automatikus észlelése Latin, mint a nyelv) vissza egy szót:” Kína.”
az egyes szavak első betűjének Nagybetűivel a kimenet “NATO” — ra változott-az észak-atlanti Szerződés Szervezetének rövidítése. Az alsó – és nagybetűs szavak megfordításával az “Internet” és a “The Company” (A “C” nagybetűvel rendelkező “vállalat” már régóta kódszó az Egyesült Államok Központi Hírszerző Ügynökségének). A szópár ismétlése és átrendezése a nagybetűk keverékével még furcsább eredményeket eredményezett. Például a ” lorem ipsum ipsum ipsum Lorem “generálta a” Kína nagyon szexi.”
egészen a közelmúltig a bal oldali szavakat a jobb oldali szavakká alakították át a Google Fordító segítségével.
Kraeh3n elmondta, hogy felfedezte a furcsa viselkedést, miközben lektorált egy dokumentumot egy kollégának, egy olyan dokumentumot, amely a szokásos lorem ipsum helyőrző szöveget tartalmazta. Amikor elkezdett gépelni ” l-o-r..e..”és ennek eredményeként látta a “Kínát”, tudta, hogy valami furcsa.
“olyan szavakat láttam, mint az Internet, Kína, kormány, rendőrség és szabadság, és kíváncsi voltam, hogyan történik ez” – mondta Kraeh3n. “Azonnal felvettem a kapcsolatot Michael Shoukryval, és elkezdtünk utánajárni a dolognak.”
és így a duó elkezdte tesztelni a két szó határait a nagybetűk és az ismétlés keverékével. Az alábbiakban csak egy a sok oldal screenshotok venni az eredményeket:
a kutatók azon tűnődtek: mi folyik itt? Kitalálta valaki a Google-on kívül, hogyan lehet bizonyos szavakat különböző jelentésekre leképezni a Google Fordítóban? Titkos vagy titkos kommunikációs csatorna volt? Talán egy olyan kommunikációs forma, amelynek célja a kínai kormány által a kínai Nagy tűzfallal felállított cenzúra megkerülése? Vagy ez csak egy véletlen hiba volt a Mátrixban?
a maga részéről Shoukry bejelentkezett az amerikai hírszerző ipar kapcsolataival, csendben érdeklődve, hogy megállapításainak nyilvánosságra hozatala bármilyen módon veszélyeztetheti-e a fontos titkokat. Hetek teltek el, és a forrásai nem hallottak ellenvetést. Egy dolog biztos volt, az eredmények napról napra finoman változtak, és nem volt világos, hogy ez a két gyakori, de homályos szó meddig fogja ugyanazt az eredményt produkálni.
“bár a Google translate hibás lehet ezeknek a szavaknak a fordításában, rejtélyes, hogy miért fordítják ezeket a szavakat olyan dolgokra, mint a” Kína”, a “NATO” és a “szabad Internet “” – mondta Shoukry. “Lehet, hogy ez egy hiba? Ez szándékos? Ez a módja annak, hogy az emberek kommunikáljanak? Mi az?”
amikor a hónap elején találkoztam Shoukryval a Las Vegas-i Black Hat biztonsági konferencián, már figyelmeztette a Google-t az eredményeire. Nyilvánvaló, hogy ideje volt egy intenzív tesztelésnek, és az óra már ketyegett: meg voltam győződve (és sajnos igazam van), hogy a nagy része bármelyik pillanatban eltűnik.
a LOREM IPSUM rövid története
Cicero.
keresse meg az interneten a “lorem ipsum” kifejezést, és az eredmények feltárják, hogy ez a furcsa kifejezés miért kapcsolódik ilyen alapvető kapcsolatban a Web lexikonjával. Eredete a modernitásban zavaros, de több olyan oldal szerint, amelyek megpróbálták krónikázni ennek a szópárnak a történetét, a “lorem ipsum” a “De finibus bonorum et malorum” (lefordítva: “a jó és a rossz”) kódolt és módosított szakaszából származik, a nagy szónok, Cicero KR.E. 1. századi Latin szövegéből.
Cecil Adams, a The Straight Dope internetes trivia oldal kurátora szerint a Cicero munkájának szövege sok éven át elérhető volt a Letraset nevű cég különböző méretű és betűtípusú ragasztólapjain.
“az asztali kiadást megelőző napokban a tervező kivágta a dolgokat egy X-acto késsel, és az oldalra ragasztotta”-írta Adams. “Amikor a számítógépek megjelentek, az Aldus beépítette a lorem Ipsumot a PageMaker kiadói szoftverébe, és most már mindenhol láthatja, ahol a tervezők dolgoznak, beleértve az egész internetet.”
ez a pár szó annyira gyakori, hogy sok webes tartalomkezelő rendszer alapértelmezett szövegként telepíti. Példa erre: Lorem Ipsum még megjelenik healthcare.gov. Aug. megjelent történet szerint. 15 A Daily Mail, több mint egy tucat látszólag alvó egészségügyi.a gov oldalak tartalmazzák a dummy szöveget. (Kattintson ide, ha előre ugrott erre a szakaszra).
további tesztelés
a dolgok még érdekesebbé váltak, amikor a kutatók más szavakat kezdtek hozzáadni a Cicero szövegből, amelyből a “lorem ipsum” bitet vették, többek között: “Neque porro quisquam est qui dolorem ipsum quia dolor sit amet, consectetur, adipisci velit . . .”(“Nincs senki, aki magát a fájdalmat szereti, aki azt keresi és azt akarja, hogy legyen, egyszerűen azért, mert fájdalom …”).
például a “dolor” és a “sit” és a “consectetur” hozzáadása még bizarrabb eredményeket hozott. A “consectetur Sit sit Dolor” latinról angolra fordítása ” Oroszország szenvedhet.”a” sit sit dolor dolor “azt jelenti, hogy” okos fogyasztó.”Az alábbiakban egy példa található ezekre a mintafordításokra:
a Latin nyelvet gyakran “halott” nyelvként utasítják el, és függetlenül attól, hogy ez igazságos vagy igaz-e, elég egyértelműnek tűnik, hogy nem szabad Latin szavakat használni a “mobiltelefon”, az “Internet” és a 21.századi modern élet egyéb alappilléreire. Ez az inkongruitás azonban segít megvilágítani az ilyen furcsa fordítások egyik lehetséges magyarázatát: a Google Translate egyszerűen nem rendelkezik elegendő Latin szöveggel ahhoz, hogy alaposan megtanulja a nyelvet.
az Inside Google Translate című bevezető videóban a Google elmagyarázza, hogyan működik a fordítómotor, a motor intelligenciájának forrásai és korlátai. A Google szerint fordítási szolgáltatása “több millió dokumentum elemzésével működik, amelyeket emberi fordítók már lefordítottak.”A videó folytatódik:
“ezek a lefordított szövegek könyvekből, szervezetekből, például az Egyesült Nemzetek szervezetéből és a világ minden tájáról származó webhelyekről származnak. A számítógépeink ezeket a szövegeket vizsgálják, statisztikailag szignifikáns mintákat keresve. Ez azt jelenti, hogy a fordítás és az eredeti szöveg közötti minták, amelyek valószínűleg nem véletlenül fordulnak elő. Miután a számítógép talált egy mintát, ezt a mintát felhasználhatja hasonló szövegek lefordítására a jövőben. Ha ezt a folyamatot milliárdszor megismételjük, akkor milliárdnyi mintát kapunk, és egy nagyon okos számítógépes programot.”
itt van a dörzsölés:
“néhány nyelv esetében azonban kevesebb lefordított dokumentum áll rendelkezésre, ezért kevesebb mintát észlel a szoftverünk. Ezért fordítási minőségünk nyelvenként és nyelvpáronként változik.”
még mindig, ez nem egészen magyarázza meg, hogy a Google Translate miért tartalmazna olyan sok hivatkozást Kínára, az internetre, a telekommunikációra, a vállalatokra, részlegekre és más furcsa kapcsolásokra a Latin-angol fordításban.
mindenesetre soha nem tudjuk meg a valódi magyarázatot. Közvetlenül éjfél előtt, augusztus. 16, A Google Translate hirtelen abbahagyta a “lorem” szó lefordítását bármi másra, csak a “lorem” – re latinról angolra. A Google Translate még mindig szórakoztató és különös eredményeket produkál, amikor általában latinról Angolra fordít.
a Google szóvivője elmondta, hogy a változtatás egy hiba kijavítására történt a fordítási algoritmussal (a ‘lorem ipsum’ Latin boilerplate összehangolása nem kapcsolódó angol szöveggel), nem pedig biztonsági rés.
Kraeh3n azt mondta, meg van győződve arról, hogy a lorem ipsum jelenség nem baleset vagy véletlen esemény.
“a fordítást úgy tervezték, hogy képes legyen fejlődni és tanulni a tömegből származó inputokból, hogy tükrözze a nyelvhasználat időbeli alkalmazkodását” -mondta Kraeh3n. “Valaki odakint megtanulta kijátszani ezt a képességet, és egy homályos szövegdarabot használni, amelyet épeszű ember soha nem írna be, hogy teljesen véletlenszerű alternatív jelentéseket hozzon létre, amelyek potenciálisan felhasználhatók az üzenetek titkos továbbítására.”
közben Shoukry azt mondja, hogy folytatja az új nyelvi minták tesztelését, amelyek rejtve lehetnek a Google Translate-ben.
“az okosság, hogy elrejtsünk valamit a szemünk előtt, már évek óta létezik” – mondta. “Ez azonban kivételesen briliáns, mert ezeket a sablonokat olyan széles körben használják, hogy az emberek érzéketlenné válnak rájuk, és mert ez a szöveg olyan széles körben elterjedt, hogy senki sem zavarja, hogy miért, hogyan és honnan származhatott.”
címkék: fekete kalap, Cecil Adams, Központi Hírszerző Ügynökség, Kína, Cicero, Deloitte, google, Google Fordító, egészségügy.gov, Kraeh3n, Lance James, lorem ipsum, Michael Shoukry, NATO, a Társaság, az egyenes Dope