Krebs on Security

Imagine descobrir uma língua secreta falada apenas online por um conhecedor e poucos aprendidos. Ao longo de um período de semanas, enquanto você começa a provocar o Significado desta língua curiosa e ponderar seu propósito, a linguagem parece mudar de maneira sutil, mas fantástica, refazendo-se diariamente diante de seus olhos. E quando você está prestes a compartilhar suas descobertas com o resto do mundo, tudo desaparece.

loremipsumEsta bastante descreve a minha montanha-russa experiência de curiosidade, espanto e decepção ao longo das últimas semanas, como eu já trabalhou lado a lado com pesquisadores de segurança em um esforço para entender como “lorem ipsum” — comum texto de marcador de posição em inúmeros sites da Web — pode ser transformado em tantas aparentemente geopolítica e surpreendentemente moderna frases quando traduzido de latim para inglês usando o Google Translate. (Se você não tem idéia do que “lorem ipsum” é, pule adiante para um breve iniciador Aqui).

reconhecidamente, este post no blog faria mais sentido se os leitores pudessem replicar totalmente os resultados descritos abaixo usando o Google Translate. No entanto, como vou explicar mais tarde, algo importante mudou no sistema de tradução do Google no final da semana passada que atualmente torna os exemplos que vou descrever impossível de reproduzir.

CHINA, NATO, SEXY, SEXY

tudo começou há alguns meses quando recebi uma nota de Lance James, chefe da inteligência cibernética em Deloitte. James ping-me compartilhar algo descoberto pelo pesquisador da FireEye Michael Shoukry e um outro pesquisador, que não quis ser identificado apenas como “Kraeh3n.” Eles notaram que um bizarro padrão no Google Translate): Quando um escrito “lorem ipsum” no Google Translate, o padrão de resultados (com o sistema de auto-detecção do latim como idioma) retornou uma única palavra: “a China.”

capitalizando a primeira letra de cada palavra mudou a produção para “OTAN” — o acrônimo para a organização do Tratado do Atlântico Norte. Reverter as palavras em maiúsculas e minúsculas produziu “a Internet” e “a empresa” (a “empresa” com um ” C ” maiúsculo tem sido uma palavra de código para a Agência Central de inteligência dos EUA). Repetir e reorganizar o par de palavras com uma mistura de capitalização gerou resultados ainda mais estranhos. Por exemplo,” lorem ipsum ipsum Ipsum Lorem “gerou a frase” a China é muito sexy.”

até muito recentemente, as palavras à esquerda foram transformadas para as palavras à direita usando o Google Translate.

até muito recentemente, as palavras à esquerda foram transformadas para as palavras à direita usando o Google Translate.

Kraeh3n said she discovered the strange behavior while proofreading a document for a colleague, a document that had the standard lorem ipsum placeholder text. Quando ela começou a escrever ” l-o-r..e..”e viu” China ” como resultado, ela sabia que algo era estranho.

“eu vi palavras como Internet, China, governo, polícia e liberdade e estava curioso sobre como isso estava acontecendo”, disse Kraeh3n. “Contactei imediatamente o Michael Shoukry e começámos a investigar mais a fundo.”

e assim a dupla começou a testar os limites dessas duas palavras usando uma mistura de capitalização e repetição. Abaixo está apenas uma das muitas páginas de imagens tiradas de seus resultados:

ipsumlorem

os pesquisadores se perguntaram: o que estava acontecendo aqui? Alguém fora do Google descobriu como mapear certas palavras para diferentes significados no Google Translate? Era um canal de comunicações secreto ou secreto? Talvez uma forma de comunicação destinada a contornar a censura erguida pelo governo chinês com a Grande Firewall da China? Ou isto foi só uma falha no Matrix?Por sua vez, Shoukry entrou em contato com a indústria de inteligência dos EUA, questionando se divulgar suas descobertas poderia de alguma forma comprometer segredos importantes. Semanas se passaram e suas fontes não ouviram objeções. Uma coisa era certa, os resultados estavam subtilmente mudando de dia para dia, e não estava claro quanto tempo essas duas palavras comuns, mas obscuras, continuariam a produzir os mesmos resultados.”Embora o Google translate possa estar incorreto nas traduções destas palavras, é intrigante por que essas palavras seriam traduzidas para coisas como ‘China,’ ‘OTAN’ e ‘a Internet livre'”, disse Shoukry. “Pode ser uma falha? Isto é intencional? É uma forma de as pessoas comunicarem? O que é isto?”

Quando eu conheci Shoukry na Convenção de Segurança Black Hat em Las Vegas no início deste mês, ele já tinha alertado o Google para suas descobertas. Claramente, era hora de alguns testes intensos, e o relógio já estava marcando: eu estava convencido (e infelizmente, correto) de que grande parte dele iria desaparecer a qualquer momento.

a BRIEF HISTORY OF LOREM IPSUM

 Cícero.

Cícero.

procure na Internet a frase “lorem ipsum”, e os resultados revelam por que esta estranha frase tem uma ligação fundamental ao léxico da Web. Suas origens na modernidade são obscuras, mas de acordo com vários locais que tentaram narrar a história deste par de palavras, “lorem ipsum” foi tirado de uma seção codificada e alterada de “De finibus bonorum et malorum”, (traduzido: “do bem e do mal”) um texto em latim do século I a. C. pelo grande orador Cícero.De acordo com Cecil Adams, curador do site de trivialidades da Internet The Straight Dope, o texto desse trabalho de Cícero estava disponível por muitos anos em folhas adesivas em diferentes tamanhos e tipografias de uma empresa chamada Letraset.

“em dias de publicação pré-desktop, um designer iria cortar o material com uma faca X-acto e colocá-lo na página”, Adams escreveu. “Quando os computadores apareceram, Aldus incluiu lorem ipsum em seu software de publicação PageMaker, e você agora vê-lo onde os designers estão trabalhando, incluindo em toda a Web.”

este par de palavras é tão comum que muitos sistemas de gerenciamento de conteúdo web implantá-lo como texto padrão. Caso em questão: O Lorem Ipsum aparece mesmo em healthcare.gov de acordo com uma história publicada em Agosto. 15 no correio diário, mais de uma dúzia de cuidados de saúde aparentemente adormecidos.as páginas do gov trazem o texto falso. (Carregue aqui se saltou para esta secção).

LOREMipsumhealthcare

MAIS TESTES

as Coisas começaram a ficar ainda mais interessante quando os pesquisadores começaram a adicionar outras palavras de Cícero texto a partir do qual o “lorem ipsum” pouco foi feito, incluindo: “Neque porro quisquam est qui dolorem ipsum quia dolor sit amet, consectetur, adipisci velit . . .”(“Não há ninguém que ame a dor em si, que a Procure e a queira ter, simplesmente porque é dor …”).

adicionar “dolor ” e” sit “e” consectetur”, por exemplo, produziu resultados ainda mais bizarros. Traduzir ” consectetur Sit sit Dolor “do latim para o inglês produz” a Rússia pode estar sofrendo.”sit sit dolor dolor “significa” ele é um consumidor inteligente.”Um exemplo dos exemplos de traduções está abaixo:

ipsum

o latim é muitas vezes vista como um “morto” do idioma, e se isso é ou não justo ou verdadeiras, parece bastante claro que não deve haver palavras em latim para “celular”, “Internet” e outros pilares da vida moderna no Século 21. No entanto, esta incongruência ajuda a lançar luz sobre uma possível explicação para tais traduções ímpares: o Google Translate simplesmente não tem textos em latim suficientes para ter aprendido completamente a língua.

em um vídeo introdutório intitulado dentro do Google Translate, O Google explica como o motor de tradução funciona, as fontes da inteligência do motor, e suas limitações. De acordo com o Google, seu serviço de Tradução funciona “analisando milhões e milhões de documentos que já foram traduzidos por tradutores humanos.”O vídeo continua:

“estes textos traduzidos vêm de livros, organizações como as Nações Unidas, e sites de todo o mundo. Os nossos computadores analisam estes textos à procura de padrões estatisticamente significativos. Ou seja, padrões entre a tradução e o texto original que são improváveis de ocorrer por acaso. Uma vez que o computador encontra um padrão, você pode usar este padrão para traduzir textos semelhantes no futuro. Quando você repete este processo bilhões de vezes, você acaba com bilhões de padrões, e um programa de computador muito inteligente.”

aqui está o problema.:

“para alguns idiomas, no entanto, temos menos documentos traduzidos disponíveis, e, portanto, menos padrões que o nosso software detectou. É por isso que a nossa qualidade de Tradução vai variar de acordo com a linguagem e par de linguagem.”

ainda assim, isso não explica porque o Google Translate incluiria tantas referências específicas à China, Internet, telecomunicações, empresas, departamentos e outros acoplamentos estranhos na tradução do latim para o inglês.Em qualquer caso, podemos nunca saber a verdadeira explicação. Pouco antes da meia-noite, ago. 16, O Google Translate abruptamente parou de traduzir a palavra ” lorem “em qualquer coisa, exceto” lorem ” do latim para o inglês. O Google Translate ainda produz resultados divertidos e peculiares ao traduzir o latim para o inglês em geral.

um porta-voz do Google disse que a mudança foi feita para corrigir um bug com o algoritmo de Tradução (alinhando ‘lorem ipsum’ Latin boilerplate com texto Inglês não relacionado) ao invés de uma vulnerabilidade de segurança.Kraeh3n disse que está convencida de que o fenômeno lorem ipsum não é um acidente ou uma ocorrência casual.

“Translate designed to be able to evolve and to learn from crowd-sourced input to reflect adaptations in language use over time”, Kraeh3n said. “Alguém lá fora aprendeu a jogar essa habilidade e usar uma peça Obscura de texto que ninguém no seu perfeito juízo escreveria para criar significados totalmente aleatórios alternativos que poderiam, potencialmente, ser usados para transmitir mensagens secretamente.”

entretanto, Shoukry diz que planeia continuar a testar novos padrões de linguagem que podem estar escondidos no Google Translate.

“a esperteza de esconder algo à vista de todos tem sido em torno de muitos anos”, disse ele. “No entanto, isso é excepcionalmente brilhante porque estes modelos são tão amplamente utilizados que as pessoas são dessensibilizadas para eles, e porque este texto é tão amplamente distribuído que ninguém se preocupa em questionar Por que, como e de onde ele pode ter vindo.”

Tags: Black Hat, Cecil Adams, Central Intelligence Agency, China, Cicero, Deloitte, google, Google Translate, healthcare.gov, Kraeh3n, Lance James, lorem ipsum, Michael Shoukry, NATO, the Company, the Straight Dope

Deixe uma resposta

O seu endereço de email não será publicado.