Krebs on Security

Stellen Sie sich vor, Sie entdecken eine geheime Sprache, die nur von wenigen sachkundigen und gelehrten online gesprochen wird. Während Sie über einen Zeitraum von Wochen beginnen, die Bedeutung dieser neugierigen Zunge herauszufinden und über ihren Zweck nachzudenken, scheint sich die Sprache auf subtile, aber fantastische Weise zu verändern und sich täglich vor Ihren Augen neu zu erfinden. Und gerade wenn Sie bereit sind, Ihre Erkenntnisse mit dem Rest der Welt zu teilen, verschwindet das Ganze.

loremipsumDieser Artikel beschreibt meine Achterbahnfahrt der Neugier, des Staunens und der Enttäuschung in den letzten Wochen, als ich mit Sicherheitsforschern zusammengearbeitet habe, um zu verstehen, wie “lorem ipsum” — allgemeiner Platzhaltertext auf unzähligen Websites — in so viele scheinbar geopolitische und erstaunlich moderne Phrasen umgewandelt werden kann, wenn sie mit Google Translate aus dem Lateinischen ins Englische übersetzt werden. (Wenn Sie keine Ahnung haben, was “lorem ipsum” ist, gehen Sie hier zu einer kurzen Einführung über).

Zugegeben, dieser Blogbeitrag wäre sinnvoller, wenn die Leser die unten beschriebenen Ergebnisse mit Google Translate vollständig replizieren könnten. Wie ich jedoch später erklären werde, hat sich Ende letzter Woche etwas Wichtiges im Übersetzungssystem von Google geändert, das die von mir beschriebenen Beispiele derzeit unmöglich reproduzierbar macht.

CHINA, NATO, SEXY, SEXY

Alles begann vor ein paar Monaten, als ich eine Nachricht von Lance James, Head of Cyber Intelligence bei Deloitte, erhielt. James hat mich angepingt, um etwas zu teilen, das von FireEye-Forscher Michael Shoukry und einem anderen Forscher entdeckt wurde, der nur als “Kraeh3n” identifiziert werden wollte. Sie bemerkten ein bizarres Muster in Google Translate: Wenn man “lorem ipsum” in Google Translate eintippte, gaben die Standardergebnisse (mit dem System, das automatisch Latein als Sprache erkennt) ein einziges Wort zurück: “China.”

Durch das Großschreiben des ersten Buchstabens jedes Wortes wurde die Ausgabe in “NATO” geändert — das Akronym für die North Atlantic Treaty Organization. Das Umkehren der Wörter in Klein- und Großbuchstaben erzeugte “Das Internet” und “Die Firma” (die “Firma” mit einem Großbuchstaben “C” war lange Zeit ein Codewort für die US Central Intelligence Agency). Das Wiederholen und Neuordnen des Wortpaares mit einer Mischung aus Großschreibung führte zu noch seltsameren Ergebnissen. Zum Beispiel, “lorem ipsum ipsum ipsum Lorem” erzeugte den Satz “China ist sehr, sehr sexy.”

 Bis vor kurzem wurden die Wörter links mithilfe von Google Translate in die Wörter rechts umgewandelt.

Bis vor kurzem wurden die Wörter links mit Google Translate in die Wörter rechts umgewandelt.

Kraeh3n sagte, sie habe das seltsame Verhalten beim Korrekturlesen eines Dokuments für einen Kollegen entdeckt, eines Dokuments mit dem standardmäßigen Lorem ipsum-Platzhaltertext. Als sie anfing zu tippen “l-o-r..e..” und sah “China” als Ergebnis, sie wusste, dass etwas seltsam war.

“Ich sah Wörter wie Internet, China, Regierung, Polizei und Freiheit und war neugierig, wie das geschah”, sagte Kraeh3n. “Ich habe sofort Michael Shoukry kontaktiert und wir haben uns weiter damit befasst.”

Und so begann das Duo, die Grenzen dieser beiden Wörter mit einer Mischung aus Großschreibung und Wiederholung zu testen. Unten ist nur eine von vielen Seiten mit Screenshots aus ihren Ergebnissen:

ipsumlorem

Die Forscher fragten sich: Was war hier los? Hat jemand außerhalb von Google herausgefunden, wie man bestimmte Wörter in Google Translate verschiedenen Bedeutungen zuordnet? War es ein geheimer oder verdeckter Kommunikationskanal? Vielleicht eine Form der Kommunikation, die die von der chinesischen Regierung errichtete Zensur mit der Great Firewall of China umgehen soll? Oder war das alles nur ein zufälliger Fehler in der Matrix?

Shoukry seinerseits erkundigte sich bei Kontakten in der US-Geheimdienstbranche und erkundigte sich leise, ob die Offenlegung seiner Erkenntnisse in irgendeiner Weise wichtige Geheimnisse gefährden könnte. Wochen vergingen und seine Quellen hörten keine Einwände. Eines war sicher, die Ergebnisse änderten sich von Tag zu Tag subtil, und es war nicht klar, wie lange diese beiden gebräuchlichen, aber obskuren Wörter weiterhin die gleichen Ergebnisse liefern würden.

“Während Google Translate in den Übersetzungen dieser Wörter falsch sein kann, ist es rätselhaft, warum diese Wörter auf Dinge wie “China”, “NATO” und”Das freie Internet” übersetzt werden”, sagte Shoukry. “Könnte das eine Panne sein? Ist das Absicht? Ist dies eine Möglichkeit für Menschen zu kommunizieren? Was ist das?”

Als ich Shoukry Anfang dieses Monats auf der Black Hat Security Convention in Las Vegas traf, hatte er Google bereits auf seine Ergebnisse aufmerksam gemacht. Offensichtlich war es Zeit für einige intensive Tests, und die Uhr tickte bereits: Ich war überzeugt (und leider richtig), dass viel davon jeden Moment verschwinden würde.

EINE KURZE GESCHICHTE VON LOREM IPSUM

Cicero.

Cicero.

Suchen Sie im Internet nach der Phrase “lorem ipsum” und die Ergebnisse zeigen, warum diese seltsame Phrase eine so zentrale Verbindung zum Lexikon des Webs hat. Seine Ursprünge in der Moderne sind trübe, aber nach mehreren Websites, die versucht haben, die Geschichte dieses Wortpaares aufzuzeichnen, wurde “lorem ipsum” aus einem verschlüsselten und veränderten Abschnitt von “De finibus bonorum et malorum” (übersetzt: “Von Gut und Böse”) entnommen. ein lateinischer Text aus dem 1. Jahrhundert v. Chr. des großen Redners Cicero.

Laut Cecil Adams, Kurator der Internet-Trivia-Site The Straight Dope, war der Text aus dieser Cicero-Arbeit viele Jahre lang auf Klebefolien in verschiedenen Größen und Schriften einer Firma namens Letraset verfügbar.

“In Tagen vor dem Desktop-Publishing schnitt ein Designer das Zeug mit einem X-Acto-Messer aus und klebte es auf die Seite”, schrieb Adams. “Als Computer aufkamen, hat Aldus lorem ipsum in seine PageMaker-Publishing-Software aufgenommen, und Sie sehen es jetzt überall dort, wo Designer arbeiten, auch im gesamten Web.”

Dieses Wortpaar ist so häufig, dass viele Web-Content-Management-Systeme es als Standardtext bereitstellen. Fallbeispiel: Lorem Ipsum taucht sogar auf healthcare.gov . Laut einer im August veröffentlichten Geschichte. 15 in der Daily Mail, mehr als ein Dutzend scheinbar ruhenden Gesundheitswesen.gov-Seiten tragen den Dummy-Text. (Klicken Sie hier, wenn Sie zu diesem Abschnitt übersprungen haben).

LOREMipsumhealthcare

WEITERE TESTS

Die Dinge wurden noch interessanter, als die Forscher begannen, andere Wörter aus dem Cicero-Text hinzuzufügen, aus dem das “lorem ipsum” -Bit entnommen wurde, einschließlich: “Neque porro quisquam est qui dolorem ipsum quia dolor sit amet, consectetur, adipisci velit . . .” (“Es gibt niemanden, der den Schmerz selbst liebt, der ihn sucht und haben will, nur weil er Schmerz ist …”).

Das Hinzufügen von “dolor” und “sit” und “consectetur” zum Beispiel führte zu noch bizarreren Ergebnissen. Die Übersetzung von “consectetur Sit Sit Dolor” aus dem Lateinischen ins Englische ergibt: “Russland kann leiden.” “sit sit dolor dolor” bedeutet übersetzt “Er ist ein kluger Verbraucher.” Ein Beispiel für diese Beispielübersetzungen finden Sie unten:

ipsum

Latein wird oft als “tote” Sprache abgetan, und ob das fair oder wahr ist, es scheint ziemlich klar zu sein, dass es keine lateinischen Wörter für “Handy” geben sollte, “Internet” und andere Standbeine des modernen Lebens im 21. Diese Inkongruenz hilft jedoch, eine mögliche Erklärung für solche seltsamen Übersetzungen zu beleuchten: Google Translate hat einfach nicht genug lateinische Texte zur Verfügung, um die Sprache gründlich gelernt zu haben.

In einem Einführungsvideo mit dem Titel Inside Google Translate erklärt Google die Funktionsweise der Übersetzungsmaschine, die Quellen der Intelligenz der Maschine und ihre Grenzen. Laut Google funktioniert der Übersetzungsdienst “durch die Analyse von Millionen und Abermillionen von Dokumenten, die bereits von menschlichen Übersetzern übersetzt wurden.” Das Video geht weiter:

” Diese übersetzten Texte stammen aus Büchern, Organisationen wie den Vereinten Nationen und Websites aus der ganzen Welt. Unsere Computer scannen diese Texte auf der Suche nach statistisch signifikanten Mustern. Das heißt, Muster zwischen der Übersetzung und dem Originaltext, die wahrscheinlich nicht zufällig auftreten. Sobald der Computer ein Muster gefunden hat, können Sie dieses Muster verwenden, um ähnliche Texte in Zukunft zu übersetzen. Wenn Sie diesen Vorgang Milliarden Mal wiederholen, erhalten Sie Milliarden von Mustern und ein sehr intelligentes Computerprogramm.”

Hier ist der Haken:

” Für einige Sprachen stehen uns jedoch weniger übersetzte Dokumente zur Verfügung und daher weniger Muster, die unsere Software erkannt hat. Aus diesem Grund variiert unsere Übersetzungsqualität je nach Sprache und Sprachpaar.”

Dies erklärt jedoch nicht ganz, warum Google Translate so viele Verweise auf China, das Internet, die Telekommunikation, Unternehmen, Abteilungen und andere seltsame Kopplungen bei der Übersetzung von Latein nach Englisch enthält.

In jedem Fall wissen wir vielleicht nie die wahre Erklärung. Kurz vor Mitternacht, Aug. 16, Google Translate hörte abrupt auf, das Wort “lorem” in alles andere als “lorem” vom Lateinischen ins Englische zu übersetzen. Google Translate liefert immer noch amüsante und eigenartige Ergebnisse bei der Übersetzung von Latein ins Englische im Allgemeinen.

Ein Sprecher von Google sagte, dass die Änderung vorgenommen wurde, um einen Fehler mit dem Übersetzungsalgorithmus zu beheben (Ausrichten von ‘lorem ipsum’ Latin Boilerplate mit nicht verwandten englischen Text) und nicht eine Sicherheitslücke.

Kraeh3n sagte, sie sei überzeugt, dass das Lorem ipsum-Phänomen kein Zufall oder Zufall ist.

“Translate wurde entwickelt, um sich weiterentwickeln und aus Crowdsourcing-Eingaben lernen zu können, um Anpassungen im Sprachgebrauch im Laufe der Zeit widerzuspiegeln”, sagte Kraeh3n. “Jemand da draußen hat gelernt, diese Fähigkeit zu spielen und einen obskuren Text zu verwenden, den niemand bei klarem Verstand jemals eingeben würde, um völlig zufällige alternative Bedeutungen zu erzeugen, die möglicherweise verwendet werden könnten, um Nachrichten verdeckt zu übertragen.”

In der Zwischenzeit plant Shoukry, seine Tests auf neue Sprachmuster fortzusetzen, die möglicherweise in Google Translate verborgen sind.

“Die Klugheit, etwas in Sichtweite zu verstecken, gibt es schon seit vielen Jahren”, sagte er. “Dies ist jedoch außergewöhnlich brillant, weil diese Vorlagen so weit verbreitet sind, dass die Menschen für sie desensibilisiert sind, und weil dieser Text so weit verbreitet ist, dass sich niemand die Mühe macht, zu fragen, warum, wie und woher er gekommen sein könnte.”

Stichworte: Schwarzer Hut, Cecil Adams, Central Intelligence Agency, China, Cicero, Deloitte, Google, Google übersetzen, Gesundheitswesen.gov, Kraeh3n, Lance James, lorem ipsum, Michael Shoukry, NATO, Das Unternehmen, Die gerade Dope

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.