Krebs na Bezpečnostní

Představte si, že objevování tajný jazyk, kterým mluví pouze on-line tím, že znalosti a naučil se pár. Po dobu týdnů, když začnete dráždit ven smyslu tohoto zvědavý jazyk a přemýšlet o jeho účelu, jazyk se objeví na posun v jemné, ale fantastické způsoby, předělání sám denně před očima. A právě když jste připraveni sdílet svá zjištění se zbytkem světa, celá věc zmizí.

loremipsumTento poměrně popisuje moje zkušenosti na horské dráze ze zvědavosti, údiv a zklamání za posledních pár týdnů, kdy jsem pracoval po boku bezpečnostní výzkumníci ve snaze pochopit, jak “lorem ipsum” — společné zástupný text na nespočet Webových stránek — může být transformovány do mnoha zřejmě geopolitické a překvapivě moderní frází při překladu z latiny do angličtiny pomocí Google Translate. (Pokud nemáte ponětí, co je “lorem ipsum”, přeskočte na krátký primer zde).

je pravda, že tento blogový příspěvek by měl větší smysl, kdyby čtenáři mohli plně replikovat výsledky popsané níže pomocí Google Translate. Nicméně, jak vysvětlím později, něco důležitého se změnilo v Google překlad systému koncem minulého týdne, že v současné době dělá příklady, které budu popisovat nemožné reprodukovat.

Čína, NATO, SEXY, SEXY

všechno to začalo před několika měsíci, když jsem dostal poznámku od Lance Jamese, vedoucího kybernetické inteligence v Deloitte. James ping mi podělit se o něco objevil výzkumník FireEye Michael Choukri a další výzkumník, který si přál být identifikován pouze jako “Kraeh3n.” Oni si všimli, bizarní vzor v Google Translate: Když jeden napsal “lorem ipsum” do Google Translate, default výsledků (se systémem auto-detekce latina jako jazyk) vrátil jediné slovo: “Čína.”

kapitalizací prvního písmene každého slova se výstup změnil na “NATO” — zkratka pro organizaci Severoatlantické smlouvy. Couvací slova v obou nižší a velká písmena vyrábí “Internet” a “Společnost” (dále jen “Společnost” s velkým “C” je již dlouho kódové slovo pro AMERICKÉ Central Inteligence Agency). Opakování a přeskupení dvojice slov se směsí velkých písmen generovalo ještě podivnější výsledky. Například” lorem ipsum ipsum ipsum Lorem “vygeneroval frázi” Čína je velmi sexy.”

až donedávna byla slova vlevo transformována na slova vpravo pomocí Google Translate.

až donedávna byla slova vlevo transformována na slova vpravo pomocí Google Translate.

Kraeh3n uvedla, že objevila podivné chování při korektuře dokumentu pro kolegu, dokumentu, který měl standardní zástupný text lorem ipsum. Když začala psát ” l-o-r..e..”a viděla” Čínu ” jako výsledek, věděla, že je něco divného.

“viděl jsem slova jako Internet, Čína,vláda, policie a svoboda a byl jsem zvědavý, jak se to děje,” řekl Kraeh3n. “Okamžitě jsem kontaktoval Michaela Shoukryho a začali jsme se tím dále zabývat.”

a tak duo začalo testovat limity těchto dvou slov pomocí kombinace velkých písmen a opakování. Níže je jen jedna z mnoha stránek screenshotů převzatých z jejich výsledků:

ipsumlorem

vědci se divili: co se tady děje? Má někdo mimo Google přišel na to, jak mapovat určitá slova do různých významů v Google Translate? Byl to tajný nebo tajný komunikační kanál? Možná forma komunikace, která měla obejít cenzuru postavenou čínskou vládou s velkým čínským firewallem? Nebo to všechno byla jen náhodná závada v Matrixu?

Pro jeho část, Choukri jsem zkontroloval kontakty v USA zpravodajské průmyslu, tiše se zeptal, jestli vyzrazení jeho zjištění by mohlo jakýmkoliv způsobem ohrozit důležité tajemství. Uběhly týdny a jeho zdroje neslyšely žádné námitky. Jedna věc byla jistá, výsledky se ze dne na den jemně měnily a nebylo jasné, jak dlouho budou tato dvě běžná, ale nejasná slova i nadále produkovat stejné výsledky.

“, Zatímco Google translate může být nesprávné v překladech těchto slov, to je záhadou, proč tato slova budou přeložena na takové věci jako ‘Čína’ ‘NATO,” a “Internet Zdarma”, tím Choukri řekl. “Mohla by to být závada? Je to úmyslné? Je to způsob, jak lidé komunikovat? Co je to?”

když jsem se setkal Shoukry na Black Hat security convention v Las Vegas začátkem tohoto měsíce, už upozornil Google na jeho zjištění. Jasně, to byl čas na nějaké intenzivní testování, a hodiny už tikají: byl jsem přesvědčen (a bohužel, správné), že hodně z toho by zmizet v každém okamžiku.

stručná historie LOREM IPSUM

Cicero.

Cicero.

vyhledejte na internetu frázi “lorem ipsum” a výsledky odhalují, proč má tato podivná fráze takové základní spojení s lexikonem webu. Svůj původ v modernitě jsou nejasné, ale podle několika stránek, které se pokusily kronika historie této dvojici slov, “lorem ipsum” byl převzat z míchaná a změnil sekci z “De finibus bonorum et malorum,” (v překladu: “Dobro a Zlo”) 1. Století Př. latinské znění, skvělý řečník Cicero.

Podle Cecil Adams, kurátor Internetové vědomostní stránky Rovnou Drogy, text, od toho, Cicero práce byla k dispozici pro mnoho let na lepicí listy v různých velikostech a písma od společnosti s názvem Letraset.

“ve dnech před publikováním na ploše by návrhář vystřihl věci nožem X-acto a nalepil je na stránku,” napsal Adams. “Když přišly počítače, Aldus zahrnoval lorem ipsum do svého softwaru pro publikování PageMaker a nyní ho vidíte všude tam, kde návrháři pracují, včetně celého webu.”

tato dvojice slov je tak běžná, že mnoho systémů pro správu webového obsahu ji používá jako výchozí text. Příklad: Lorem Ipsum se dokonce objeví healthcare.gov. podle příběhu zveřejněného v srpnu. 15 V Daily Mail, více než tucet zjevně spící zdravotní péče.gov stránky nesou fiktivní text. (Klikněte zde, pokud jste přeskočili do této sekce).

LOREMipsumhealthcare

DALŠÍ TESTOVÁNÍ

Věci se začaly ještě více zajímavé, když vědci začali přidávat další slova z Cicero textu, z nichž “lorem ipsum” trochu byla přijata, včetně: “Neque porro quisquam est qui dolorem ipsum quia dolor sit amet, consectetur, adipisci velit . . .”(“Není nikdo, kdo miluje samotnou bolest, kdo ji hledá a chce ji mít, jednoduše proto, že je to bolest …”).

přidání “dolor” a ” sit ” a “consectetur” například přineslo ještě bizarnější výsledky. Překlad “consectetur Sit Sit Dolor” z latiny do angličtiny produkuje ” Rusko může trpět.””sit sit dolor dolor “znamená” Je to chytrý spotřebitel.”Příkladem těchto vzorové překlady, je níže:

ipsum

latina je často odmítány jako “mrtvý” jazyk, a zda nebo ne, že je to spravedlivé, nebo pravda, to zdá se docela jasné, že tam by neměl být latinského slova pro “mobilní telefon,” “Internet” a dalších opor moderního života v 21.Století. Tato nesrovnalost však pomáhá osvětlit jedno možné vysvětlení takových podivných překladů: Google Translate prostě nemá k dispozici dostatek latinských textů, aby se jazyk důkladně naučil.

v úvodním videu s názvem Inside Google Translate Google vysvětluje, jak překladový motor funguje, zdroje inteligence motoru a jeho omezení. Podle společnosti Google funguje její překladatelská služba ” analýzou milionů a milionů dokumentů, které již byly přeloženy lidskými překladateli.”Video pokračuje:

“tyto přeložené texty pocházejí z knih, organizací, jako je Organizace spojených národů, a webové stránky z celého světa. Naše počítače skenují tyto texty a hledají statisticky významné vzorce. To znamená vzory mezi překladem a původním textem, které se pravděpodobně neobjeví náhodou. Jakmile počítač najde vzor, můžete tento vzor použít k překladu podobných textů v budoucnu. Když tento proces opakujete miliardkrát, skončíte s miliardami vzorů a jedním velmi chytrým počítačovým programem.”

tady je ten rub:

“v některých jazycích však máme k dispozici méně přeložených dokumentů, a proto méně vzorů, které náš software detekoval. Proto se naše kvalita překladu bude lišit podle jazykového a jazykového páru.”

přesto to zcela nevysvětluje, proč by Google Translate zahrnoval tolik odkazů specifických pro Čínu, Internet, telekomunikace, společnosti, oddělení a další liché spojky při překladu latiny do angličtiny.

v každém případě se možná nikdy nedozvíme skutečné vysvětlení. Těsně před půlnocí, Srpen. 16, Google Translate náhle přestal Překládat slovo “lorem” do něčeho jiného než “lorem” z latiny do angličtiny. Překladač Google stále přináší zábavné a zvláštní výsledky při překladu latiny do angličtiny obecně.

mluvčí Google řekl, že změna byla provedena opravit chybu s Přeložit algoritmus (zarovnání ‘lorem ipsum’ latinské často používaný nesouvisí s anglickým textem), spíše než zabezpečení.

Kraeh3n uvedla, že je přesvědčena, že fenomén lorem ipsum není náhodou nebo náhodným výskytem.

” překlad je navržen tak, aby se mohl vyvíjet a učit se z davových zdrojů, aby odrážel adaptace v používání jazyka v průběhu času,” řekl Kraeh3n. “Venku někdo naučil hru, že schopnost a použití obskurní kus textu nikdo při smyslech by nikdy zadejte vytvořit zcela náhodné alternativní významy, které by mohly potenciálně být použita pro přenos zpráv skrytě.”

mezitím Shoukry říká, že plánuje pokračovat v testování nových jazykových vzorů, které mohou být skryty v Google Translate.

“chytrost skrývání něčeho na očích existuje již mnoho let,” řekl. “Nicméně, toto je výjimečně brilantní, protože tyto šablony jsou tak široce používané, že lidé jsou citliví na ně, a protože tento text je tak široce distribuované, že nikdo se neobtěžuje se ptát, proč, jak a kde by to mohlo přijít.”

značky: Black Hat, Cecil Adams, Central Intelligence Agency, Čína, Cicero, Deloitte, google, Google Translate, zdravotnictví.gov, Kraeh3n, Lance James, lorem ipsum, Michael Shoukry, NATO, společnost, Straight Dope

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.