Krebs on Security

Imaginez découvrir une langue secrète parlée uniquement en ligne par quelques personnes bien informées et savantes. Au cours d’une période de semaines, alors que vous commencez à taquiner la signification de cette langue curieuse et à réfléchir à son but, la langue semble changer de manière subtile mais fantastique, se refaisant chaque jour sous vos yeux. Et juste au moment où vous êtes prêt à partager vos découvertes avec le reste du monde, tout disparaît.

loremipsum Cela décrit assez mon expérience de montagnes russes de curiosité, d’émerveillement et de déception au cours des dernières semaines, alors que j’ai travaillé aux côtés de chercheurs en sécurité dans le but de comprendre comment “lorem ipsum” — texte d’espace réservé commun sur d’innombrables sites Web — pourrait être transformé en autant de phrases apparemment géopolitiques et étonnamment modernes lorsqu’elles sont traduites du latin à l’anglais à l’aide de Google Translate. (Si vous n’avez aucune idée de ce qu’est “lorem ipsum”, passez à une brève introduction ici).

Certes, cet article de blog aurait plus de sens si les lecteurs pouvaient reproduire pleinement les résultats décrits ci-dessous à l’aide de Google Translate. Cependant, comme je l’expliquerai plus tard, quelque chose d’important a changé dans le système de traduction de Google à la fin de la semaine dernière qui rend actuellement les exemples que je décrirai impossibles à reproduire.

CHINE, OTAN, SEXY, SEXY

Tout a commencé il y a quelques mois lorsque j’ai reçu une note de Lance James, responsable de la cyber-intelligence chez Deloitte. James m’a demandé de partager quelque chose découvert par le chercheur de FireEye Michael Shoukry et un autre chercheur qui souhaitait être identifié uniquement comme “Kraeh3n”. Ils ont remarqué un motif bizarre dans Google Translate: Lorsque l’on tapait “lorem ipsum” dans Google Translate, les résultats par défaut (avec le système détectant automatiquement le latin comme langue) renvoyaient un seul mot: “Chine.”

La majuscule de la première lettre de chaque mot a changé la sortie en “OTAN” — l’acronyme de l’Organisation du Traité de l’Atlantique Nord. Inverser les mots en minuscules et en majuscules a produit “Internet” et “La Société” (la “Société” avec un “C” majuscule a longtemps été un mot de code pour l’Agence centrale de renseignement des États-Unis). Répéter et réorganiser la paire de mots avec un mélange de majuscules a généré des résultats encore plus étranges. Par exemple, “lorem ipsum ipsum ipsum Lorem” a généré la phrase “La Chine est très très sexy.”

 Jusqu'à très récemment, les mots de gauche étaient transformés en mots de droite à l'aide de Google Translate.

Jusqu’à très récemment, les mots de gauche étaient transformés en mots de droite à l’aide de Google Translate.

Kraeh3n a déclaré avoir découvert ce comportement étrange lors de la relecture d’un document pour un collègue, un document contenant le texte d’espace réservé lorem ipsum standard. Quand elle a commencé à taper “l-o-r..e..”et a vu “China” comme résultat, elle savait que quelque chose était étrange.

“J’ai vu des mots comme Internet, Chine, gouvernement, police et liberté et j’étais curieux de savoir comment cela se passait”, a déclaré Kraeh3n. “J’ai immédiatement contacté Michael Shoukry et nous avons commencé à l’étudier plus avant.”

Et le duo a donc commencé à tester les limites de ces deux mots en utilisant un mélange de majuscules et de répétitions. Voici une des nombreuses pages de captures d’écran tirées de leurs résultats:

ipsumlorem

Les chercheurs se sont demandé: Que se passait-il ici? Quelqu’un en dehors de Google a-t-il compris comment mapper certains mots à différentes significations dans Google Translate? Était-ce un canal de communication secret ou secret? Peut-être une forme de communication destinée à contourner la censure érigée par le gouvernement chinois avec le Grand Pare-feu de la Chine? Ou était-ce juste un pépin fortuit dans la matrice?

Pour sa part, Shoukry s’est entretenu avec des contacts de l’industrie du renseignement américaine, se demandant discrètement si la divulgation de ses découvertes pourrait de quelque manière que ce soit compromettre des secrets importants. Des semaines se sont écoulées et ses sources n’ont entendu aucune objection. Une chose était sûre, les résultats changeaient subtilement de jour en jour, et il n’était pas clair combien de temps ces deux mots communs mais obscurs continueraient à produire les mêmes résultats.

“Bien que Google translate puisse être incorrect dans les traductions de ces mots, il est déroutant de savoir pourquoi ces mots seraient traduits en des termes tels que “Chine”, “OTAN” et “Internet libre””, a déclaré Shoukry. “Cela pourrait-il être un problème? Est-ce intentionnel? Est-ce un moyen pour les gens de communiquer? Qu’est-ce que c’est?”

Lorsque j’ai rencontré Shoukry à la convention de sécurité Black Hat à Las Vegas au début du mois, il avait déjà alerté Google de ses conclusions. De toute évidence, il était temps de faire des tests intenses, et l’horloge tournait déjà: j’étais convaincu (et malheureusement, correct) qu’une grande partie disparaîtrait à tout moment.

UNE BRÈVE HISTOIRE DE LOREM IPSUM

 Cicéron.

Cicéron.

Recherchez sur Internet l’expression “lorem ipsum”, et les résultats révèlent pourquoi cette phrase étrange a un lien si central avec le lexique du Web. Ses origines dans la modernité sont troubles, mais selon plusieurs sites qui ont tenté de raconter l’histoire de cette paire de mots, “lorem ipsum” a été tiré d’une section brouillée et modifiée de “De finibus bonorum et malorum”, (traduit: “Du Bien et du Mal”) un texte latin du 1er siècle avant JC par le grand orateur Cicéron.

Selon Cecil Adams, conservateur du site Internet The Straight Dope, le texte de ce travail de Cicéron était disponible depuis de nombreuses années sur des feuilles adhésives de différentes tailles et polices de caractères d’une société appelée Letraset.

“Dans les jours de pré-publication assistée par ordinateur, un concepteur découpait les choses avec un couteau X-acto et les collait sur la page”, a écrit Adams. “Lorsque les ordinateurs sont arrivés, Aldus a inclus lorem ipsum dans son logiciel de publication PageMaker, et vous le voyez maintenant partout où les concepteurs sont au travail, y compris sur le Web.”

Cette paire de mots est si courante que de nombreux systèmes de gestion de contenu Web la déploient comme texte par défaut. Exemple: Lorem Ipsum apparaît même sur healthcare.gov . Selon une histoire publiée en août. 15 dans le Daily Mail, plus d’une douzaine de soins de santé apparemment dormants.les pages du gouvernement portent le texte factice. (Cliquez ici si vous êtes passé à cette section).

LOREMipsumhealthcare

D’AUTRES TESTS

Les choses ont commencé à devenir encore plus intéressantes lorsque les chercheurs ont commencé à ajouter d’autres mots du texte de Cicéron à partir duquel le bit “lorem ipsum” a été pris, notamment: “Neque porro quisquam est qui dolorem ipsum quia dolor sit amet, consectetur, adipisci velit. . .”(“Il n’y a personne qui aime la douleur elle-même, qui la cherche et veut l’avoir, simplement parce que c’est la douleur …”).

Ajouter “dolor” et “sit” et “consectetur”, par exemple, a produit des résultats encore plus bizarres. Traduire “consectetur Sit Sit Dolor” du latin à l’anglais produit “La Russie Peut Souffrir.””sit sit dolor dolor” se traduit par “C’est un consommateur intelligent.” Un exemple de ces exemples de traductions est ci-dessous:

ipsum

Le latin est souvent rejeté comme une langue “morte”, et que ce soit juste ou vrai, il semble assez clair qu’il ne devrait pas y avoir de mots latins pour “téléphone portable”, “Internet” et d’autres piliers de la vie moderne au 21e siècle. Cependant, cette incongruité permet de faire la lumière sur une explication possible à de telles traductions étranges: Google Translate n’a tout simplement pas assez de textes latins disponibles pour avoir bien appris la langue.

Dans une vidéo d’introduction intitulée Inside Google Translate, Google explique le fonctionnement du moteur de traduction, les sources de l’intelligence du moteur et ses limites. Selon Google, son service de traduction fonctionne “en analysant des millions et des millions de documents qui ont déjà été traduits par des traducteurs humains.” La vidéo continue:

” Ces textes traduits proviennent de livres, d’organisations comme les Nations Unies et de sites Web du monde entier. Nos ordinateurs analysent ces textes à la recherche de modèles statistiquement significatifs. C’est-à-dire des modèles entre la traduction et le texte original qui ne sont pas susceptibles de se produire par hasard. Une fois que l’ordinateur a trouvé un modèle, vous pouvez utiliser ce modèle pour traduire des textes similaires à l’avenir. Lorsque vous répétez ce processus des milliards de fois, vous vous retrouvez avec des milliards de modèles et un programme informatique très intelligent.”

Voici le problème:

” Pour certaines langues, cependant, nous avons moins de documents traduits disponibles, et donc moins de modèles détectés par notre logiciel. C’est pourquoi la qualité de notre traduction varie selon la langue et la paire de langues.”

Pourtant, cela n’explique pas tout à fait pourquoi Google Translate inclurait autant de références spécifiques à la Chine, à Internet, aux télécommunications, aux entreprises, aux départements et à d’autres couplages étranges dans la traduction du latin en anglais.

Dans tous les cas, nous ne connaîtrons peut-être jamais la véritable explication. Juste avant minuit, août. 16, Google Translate a brusquement cessé de traduire le mot “lorem” en autre chose que “lorem” du latin à l’anglais. Google Translate produit toujours des résultats amusants et particuliers lors de la traduction du latin en anglais en général.

Un porte-parole de Google a déclaré que le changement avait été apporté pour corriger un bogue avec l’algorithme de traduction (alignant le standard latin ‘lorem ipsum’ avec du texte anglais non lié) plutôt qu’une faille de sécurité.

Kraeh3n s’est dite convaincue que le phénomène lorem ipsum n’est pas un accident ou un hasard.

” La traduction a été conçue pour pouvoir évoluer et apprendre à partir d’informations provenant de la foule afin de refléter les adaptations de l’utilisation de la langue au fil du temps”, a déclaré Kraeh3n. “Quelqu’un là-bas a appris à jouer cette capacité et à utiliser un morceau de texte obscur que personne dans son esprit ne taperait jamais pour créer des significations alternatives totalement aléatoires qui pourraient, potentiellement, être utilisées pour transmettre des messages secrètement.”

Pendant ce temps, Shoukry dit qu’il prévoit de poursuivre ses tests pour de nouveaux modèles de langue qui peuvent être cachés dans Google Translate.

“L’intelligence de cacher quelque chose à la vue existe depuis de nombreuses années”, a-t-il déclaré. “Cependant, c’est exceptionnellement brillant parce que ces modèles sont si largement utilisés que les gens y sont désensibilisés, et parce que ce texte est si largement diffusé que personne ne se demande pourquoi, comment et d’où il pourrait provenir.”

Mots clés: Chapeau noir, Cecil Adams, Agence Centrale de renseignement, Chine, Cicéron, Deloitte, google, Google Translate, santé.gov, Kraeh3n, Lance James, lorem ipsum, Michael Shoukry, L’OTAN, La Société, La Drogue droite

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.