Krebs on Security
stel je voor dat je een geheime taal ontdekt die alleen online gesproken wordt door een paar goed geïnformeerde en geleerde mensen. Over een periode van weken, als je de Betekenis van deze nieuwsgierige tong begint te plagen en na te denken over het doel ervan, lijkt de taal te verschuiven op subtiele maar fantastische manieren, en zichzelf dagelijks voor je ogen te herscheppen. En net als je klaar bent om je bevindingen te delen met de rest van de wereld, verdwijnt het hele ding.
dit beschrijft mijn achtbaanervaring van nieuwsgierigheid, verwondering en teleurstelling in de afgelopen weken, omdat ik samen met beveiligingsonderzoekers heb gewerkt in een poging om te begrijpen hoe “lorem ipsum” — veelvoorkomende tekst op talloze websites — kon worden getransformeerd in zoveel ogenschijnlijk geopolitieke en verrassend moderne zinnen wanneer vertaald van het Latijn naar het Engels met behulp van Google Translate. (Als je geen idee hebt wat “lorem ipsum”is, ga dan naar een korte primer hier).
toegegeven, deze blogpost zou zinvoller zijn als lezers de hieronder beschreven resultaten volledig zouden kunnen repliceren met behulp van Google Translate. Echter, zoals ik later zal uitleggen, iets belangrijks veranderd in Google ‘ s vertaalsysteem eind vorige week dat momenteel maakt de voorbeelden die Ik zal beschrijven onmogelijk te reproduceren.CHINA, NATO, SEXY, SEXY
het begon allemaal een paar maanden geleden toen ik een bericht kreeg van Lance James, hoofd cyber intelligence bij Deloitte. James pingde me om iets te delen ontdekt door FireEye onderzoeker Michael Shoukry en een andere onderzoeker die wilde alleen worden geïdentificeerd als “Kraeh3n.” ze merkten een bizar patroon in Google Translate: toen men getypt “lorem ipsum” in Google Translate, de standaard resultaten (met het systeem auto-detecteren Latijn als de taal) terug een enkel woord: “China.”
door de eerste letter van elk woord te kapitaliseren veranderde de output in” NATO ” — het acroniem voor de Noord-Atlantische Verdragsorganisatie. Omkeren van de woorden in zowel lagere als hoofdletters produceerde “het Internet “en” het bedrijf “(het” bedrijf “met een hoofdletter” C ” is al lang een codewoord voor de U. S. Central Intelligence Agency). Het herhalen en herschikken van het woord paar met een mix van hoofdletters gegenereerd nog vreemdere resultaten. Bijvoorbeeld,” lorem ipsum ipsum ipsum Lorem “genereerde de zin” China is very very sexy.”
tot voor kort werden de woorden links getransformeerd naar de woorden rechts met behulp van Google Translate.
Kraeh3n zei dat ze het vreemde gedrag ontdekte tijdens het proeflezen van een document voor een collega, een document dat de standaard lorem ipsum placeholder tekst had. Toen ze “l-o-r” begon te typen..e..”en zag” China ” als resultaat, ze wist dat er iets vreemds was.
” ik zag woorden als Internet, China, overheid, politie en vrijheid en was nieuwsgierig naar hoe dit gebeurde, ” zei Kraeh3n. “Ik nam onmiddellijk contact op met Michael Shoukry en we begonnen er verder naar te kijken.”
en dus begon het duo de grenzen van deze twee woorden te testen met behulp van een mix van hoofdletters en herhalingen. Hieronder is slechts een van de vele pagina ‘ s van screenshots genomen uit hun resultaten:
de onderzoekers vroegen zich af: wat was hier aan de hand? Heeft iemand buiten Google bedacht hoe je bepaalde woorden in kaart kunt brengen naar verschillende betekenissen in Google Translate? Was het een geheim of geheim communicatiekanaal? Misschien een vorm van communicatie bedoeld om de censuur opgericht door de Chinese regering met de Grote Firewall van China te omzeilen? Of was dit allemaal een toevallige fout in de Matrix?Van zijn kant nam Shoukry contact op met contacten in de Amerikaanse inlichtingenindustrie, om stilletjes te vragen of het onthullen van zijn bevindingen belangrijke geheimen in gevaar zou kunnen brengen. Weken gingen voorbij en zijn bronnen hoorden geen bezwaar. Een ding was zeker, de resultaten waren subtiel veranderen van dag tot dag, en het was niet duidelijk hoe lang deze twee veel voorkomende maar obscure woorden zou blijven dezelfde resultaten te produceren.
” hoewel Google translate onjuist kan zijn in de vertalingen van deze woorden, is het onbegrijpelijk waarom deze woorden zouden worden vertaald naar dingen als ‘China,’ ‘NATO,’ en ‘het vrije Internet,'” Shoukry zei. “Kan dit een storing zijn? Is dit opzettelijk? Is dit een manier voor mensen om te communiceren? Wat is er?”
toen ik Shoukry ontmoette op de Black Hat security convention in Las Vegas eerder deze maand, had hij Google al gewaarschuwd voor zijn bevindingen. Het was duidelijk tijd voor een aantal intense testen, en de klok tikte al: Ik was ervan overtuigd (en helaas, correct) dat veel van het op elk moment zou verdwijnen.
een korte geschiedenis van LOREM IPSUM
Cicero.
Zoek op het Internet naar de zin “lorem ipsum,” en de resultaten laten zien waarom deze vreemde zin zo ‘ n kernverbinding heeft met het lexicon van het Web. Zijn oorsprong in de moderniteit is duister, maar volgens meerdere sites die hebben geprobeerd om de geschiedenis van dit woordpaar te kronieken, “lorem ipsum” werd genomen uit een versleutelde en gewijzigde sectie van “de finibus bonorum et malorum,” (vertaald: “van goed en kwaad,”) een 1ste-eeuw v.Chr. Latijnse tekst door de grote redenaar Cicero.
volgens Cecil Adams, curator van de internet trivia site The Straight Dope, was de tekst van dat Cicero werk jarenlang beschikbaar op zelfklevende vellen in verschillende maten en lettertypen van een bedrijf genaamd Letraset.”In pre-desktop-publishing days, a designer would cut the stuff out with a X-acto knife and plak it on the page,” Adams schreef. “Toen computers kwamen, Aldus opgenomen lorem ipsum in de PageMaker publishing software, en je ziet het nu waar ontwerpers zijn aan het werk, met inbegrip van over het hele Web.”
dit paar woorden komt zo vaak voor dat veel web content management systemen het gebruiken als standaard tekst. Voorbeeld: Lorem Ipsum verschijnt zelfs op healthcare.gov. volgens een verhaal gepubliceerd Aug. 15 in de Daily Mail, meer dan een dozijn ogenschijnlijk slapende gezondheidszorg.gov pagina ‘ s dragen de dummy tekst. (Klik hier als u verder bent gegaan naar deze sectie).
verder testen
de dingen begonnen nog interessanter te worden toen de onderzoekers andere woorden begonnen toe te voegen uit de Cicero-tekst waaruit de “lorem ipsum” – bit werd genomen, waaronder: “Neque porro quisquam est qui dolorem ipsum qui dolor sit amet, consectetur, adipisci velit . . .”(“Er is niemand die van pijn zelf houdt, die ernaar zoekt en het wil hebben, simpelweg omdat het pijn is…”).
het toevoegen van bijvoorbeeld” dolor “en” sit “en” consectetur ” leverde nog meer bizarre resultaten op. Vertalen ” consectetur Sit sit Dolor “van Latijn naar Engels produceert” Rusland kan lijden.””sit sit dolor dolor” vertaalt naar ” Hij is een slimme consument.”Een voorbeeld van deze voorbeeldvertalingen is hieronder:
Latijn wordt vaak afgedaan als een “dode” taal, en of dat nu eerlijk of waar is het lijkt vrij duidelijk dat er geen Latijnse woorden voor “mobiele telefoon”, “Internet” en andere pijlers van het moderne leven in de 21e eeuw. Echter, deze ongerijmdheid helpt om licht te werpen op een mogelijke verklaring voor dergelijke vreemde vertalingen: Google Translate heeft gewoon niet genoeg Latijnse teksten beschikbaar om grondig de taal hebben geleerd.In een introductievideo met de titel Inside Google Translate legt Google uit hoe de vertaalmachine werkt, de bronnen van de intelligentie van de motor en de beperkingen ervan. Volgens Google, de vertaal dienst werkt ” door het analyseren van miljoenen en miljoenen documenten die al zijn vertaald door menselijke vertalers.”De video gaat verder:
“deze vertaalde teksten komen uit boeken, organisaties zoals de Verenigde Naties, en websites van over de hele wereld. Onze computers scannen deze teksten op zoek naar statistisch significante patronen. Dat wil zeggen, patronen tussen de vertaling en de oorspronkelijke tekst die waarschijnlijk niet bij toeval voorkomen. Zodra de computer een patroon vindt, kunt u dit patroon gebruiken om soortgelijke teksten in de toekomst te vertalen. Als je dit proces miljarden keren herhaalt, krijg je miljarden patronen en één heel slim computerprogramma.”
Dit is het probleem.:
“voor sommige talen, echter, hebben we minder vertaalde documenten beschikbaar, en dus minder patronen die onze software heeft gedetecteerd. Dit is de reden waarom onze vertaalkwaliteit per taal en taalpaar zal variëren.”
toch verklaart dit niet helemaal waarom Google Translate zoveel verwijzingen zou bevatten die specifiek zijn voor China, het Internet, telecommunicatie, bedrijven, afdelingen en andere vreemde koppelingen in het vertalen van Latijn naar Engels.
in ieder geval zullen we nooit de echte verklaring kennen. Net voor middernacht, Aug. 16, Google Translate abrupt gestopt met het vertalen van het woord “lorem” in iets anders dan “lorem” van Latijn naar Engels. Google Translate levert nog steeds amusante en eigenaardige resultaten op bij het vertalen van Latijn naar Engels in het algemeen.
een woordvoerder van Google zei dat de wijziging was gemaakt om een bug op te lossen met het Translate algoritme (het uitlijnen van ‘lorem ipsum’ Latin boilerplate met ongerelateerde Engelse tekst) in plaats van een beveiligingsprobleem.Kraeh3n zei dat ze ervan overtuigd is dat het fenomeen lorem ipsum geen toeval of toeval is.
” vertalen ontworpen om te kunnen evolueren en te leren van crowdsourced input om aanpassingen in taalgebruik na verloop van tijd weer te geven,” zei Kraeh3n. “Iemand die er geleerd om het spel dat vermogen en het gebruik van een obscure stuk tekst niemand bij zijn volle verstand ooit zou typen om volledig willekeurige alternatieve betekenissen die kunnen, potentieel, worden gebruikt om berichten heimelijk te verzenden creëren.”
ondertussen zegt Shoukry dat hij van plan is door te gaan met het testen van nieuwe taalpatronen die mogelijk verborgen zijn in Google Translate.”The slimness of hiding something in plain sight has been around for many years,” he said. “Dit is echter uitzonderlijk briljant omdat deze sjablonen zo wijd gebruikt worden dat mensen er ongevoelig voor zijn, en omdat deze tekst zo wijd verspreid is dat niemand zich afvraagt waarom, hoe en waar het vandaan zou kunnen komen.”
Tags: Black Hat, Cecil Adams, Central Intelligence Agency, China, Cicero, Deloitte, google, Google Translate, gezondheidszorg.gov, Kraeh3n, Lance James, lorem ipsum, Michael Shoukry, NATO, the Company, The Straight Dope