Krebs on Security
Imagine descubrir un idioma secreto hablado solo en línea por unos pocos conocedores y aprendidos. Durante un período de semanas, a medida que comienzas a desentrañar el significado de esta curiosa lengua y ponderas su propósito, el lenguaje parece cambiar de maneras sutiles pero fantásticas, rehaciéndose a sí mismo diariamente ante tus ojos. Y justo cuando estás listo para compartir tus hallazgos con el resto del mundo, todo se desvanece.
Esto describe bastante mi experiencia de montaña rusa de curiosidad, asombro y decepción en las últimas semanas, ya que he trabajado junto a investigadores de seguridad en un esfuerzo por entender cómo “lorem ipsum”, texto marcador de posición común en innumerables sitios Web, podría transformarse en tantas frases aparentemente geopolíticas y sorprendentemente modernas cuando se traduce del latín al inglés utilizando Google Translate. (Si no tiene idea de lo que es “lorem ipsum”, vaya a una breve introducción aquí).
Es cierto que esta publicación de blog tendría más sentido si los lectores pudieran replicar completamente los resultados descritos a continuación utilizando Google Translate. Sin embargo, como explicaré más adelante, algo importante cambió en el sistema de traducción de Google a finales de la semana pasada que actualmente hace que los ejemplos que describiré sean imposibles de reproducir.
CHINA, OTAN, SEXY, SEXY
Todo comenzó hace unos meses cuando recibí una nota de Lance James, jefe de inteligencia cibernética de Deloitte. James me hizo un ping para compartir algo descubierto por el investigador de FireEye Michael Shoukry y otro investigador que deseaba ser identificado solo como “Kraeh3n”. Notaron un patrón extraño en Google Translate: Cuando uno escribió” lorem ipsum “en Google Translate, los resultados predeterminados (con el sistema de detección automática del latín como idioma) devolvieron una sola palabra:” China.”
Poner en mayúscula la primera letra de cada palabra cambió la salida a” OTAN”, el acrónimo de la Organización del Tratado del Atlántico Norte. Invertir las palabras en mayúsculas y minúsculas produjo “Internet” y “La Compañía” (la “Compañía” con una ” C ” mayúscula ha sido durante mucho tiempo una palabra clave para la Agencia Central de Inteligencia de Estados Unidos). Repetir y reorganizar el par de palabras con una mezcla de mayúsculas generó resultados aún más extraños. Por ejemplo, “lorem ipsum ipsum ipsum Lorem” generó la frase “China es muy, muy sexy.”
Hasta hace muy poco, las palabras de la izquierda se transformaban en las palabras de la derecha utilizando Google Translate.
Kraeh3n dijo que descubrió el extraño comportamiento mientras revisaba un documento para un colega, un documento que tenía el texto estándar de marcador de posición lorem ipsum. Cuando empezó a escribir “l-o-r”..e..”y vio “China” como resultado, ella sabía que algo era extraño.
“Vi palabras como Internet, China, gobierno, policía y libertad y sentí curiosidad por saber cómo estaba sucediendo esto”, dijo Kraeh3n. “Inmediatamente me puse en contacto con Michael Shoukry y empezamos a investigarlo más a fondo.”
Y así el dúo comenzó a probar los límites de estas dos palabras usando una mezcla de mayúsculas y repetición. A continuación se muestra solo una de las muchas páginas de capturas de pantalla tomadas de sus resultados:
Los investigadores se preguntaron: ¿Qué estaba pasando aquí? ¿Alguien fuera de Google ha descubierto cómo asignar ciertas palabras a diferentes significados en Google Translate? ¿Era un canal de comunicación secreto o encubierto? Tal vez una forma de comunicación destinado a eludir la censura implantada por el gobierno Chino con el Gran Cortafuegos de China? ¿O todo esto fue solo una falla accidental en Matrix?
Por su parte, Shoukry se registró con contactos en la industria de inteligencia de los Estados Unidos, preguntando silenciosamente si divulgar sus hallazgos podría de alguna manera poner en peligro secretos importantes. Pasaron semanas y sus fuentes no escucharon objeciones. Una cosa era segura, los resultados estaban cambiando sutilmente de día en día, y no estaba claro cuánto tiempo estas dos palabras comunes pero oscuras continuarían produciendo los mismos resultados.
” Si bien Google translate puede ser incorrecto en las traducciones de estas palabras, es desconcertante por qué estas palabras se traducirían a cosas como ‘China’, ‘OTAN’ e ‘Internet Libre'”, dijo Shoukry. “¿Podría ser un fallo técnico? ¿Es intencional? ¿Es esta una forma para que la gente se comunique? ¿Qué es eso?”
Cuando conocí a Shoukry en la convención de seguridad Black Hat en Las Vegas a principios de este mes, ya había alertado a Google de sus hallazgos. Claramente, era hora de realizar algunas pruebas intensas, y el reloj ya estaba corriendo: estaba convencido (y desafortunadamente, correcto) de que gran parte desaparecería en cualquier momento.
BREVE HISTORIA DE LOREM IPSUM
Cicerón.
Busque en Internet la frase “lorem ipsum”, y los resultados revelan por qué esta extraña frase tiene una conexión central con el léxico de la Web. Sus orígenes en la modernidad son turbios, pero de acuerdo con múltiples sitios que han intentado hacer una crónica de la historia de este par de palabras, “lorem ipsum” fue tomado de una sección mezclada y alterada de “De finibus bonorum et malorum” (traducido: “Del Bien y del Mal”), un texto latino del siglo I a.C. del gran orador Cicerón.
Según Cecil Adams, curador del sitio de trivia de Internet The Straight Dope, el texto de ese trabajo de Cicerón estuvo disponible durante muchos años en hojas adhesivas de diferentes tamaños y tipos de letra de una empresa llamada Letraset.
“En los días previos a la publicación de escritorio, un diseñador cortaba el material con un cuchillo X-acto y lo pegaba en la página”, escribió Adams. “Cuando llegaron las computadoras, Aldus incluyó lorem ipsum en su software de publicación PageMaker, y ahora lo ves donde los diseñadores están trabajando, incluso en toda la Web.”
Este par de palabras es tan común que muchos sistemas de gestión de contenido web lo implementan como texto predeterminado. Ejemplo de ello: Lorem Ipsum incluso aparece en healthcare.gov. De acuerdo con una historia publicada Ago. 15 en el Daily Mail, más de una docena de atención médica aparentemente inactiva.las páginas de gobierno llevan el texto de relleno. (Haga clic aquí si se adelantó a esta sección).
PRUEBAS ADICIONALES
Las cosas comenzaron a ponerse aún más interesantes cuando los investigadores comenzaron a agregar otras palabras del texto de Cicerón del que se tomó el bit “lorem ipsum”, incluyendo: “Neque porro quisquam est qui dolorem ipsum quia dolor sit amet, consectetur, adipisci velit . . .”(“No hay nadie que ame el dolor en sí, que lo busque y quiera tenerlo, simplemente porque es dolor)”).
Agregar ” dolor “y” sit “y” consectetur”, por ejemplo, produjo resultados aún más extraños. Traducir ” consectetur Sit Sit Dolor “del Latín al Inglés produce” Rusia puede Estar Sufriendo.””sit sit dolor dolor” se traduce como ” Es un consumidor inteligente.”Un ejemplo de estas traducciones de ejemplo se encuentra a continuación:
El latín a menudo se descarta como un idioma “muerto”, y sea o no justo o verdadero, parece bastante claro que no debería haber palabras latinas para” teléfono celular”,” Internet ” y otros pilares de la vida moderna en el siglo XXI. Sin embargo, esta incongruencia ayuda a arrojar luz sobre una posible explicación para tales traducciones extrañas: Google Translate simplemente no tiene suficientes textos latinos disponibles para haber aprendido a fondo el idioma.
En un video introductorio titulado Inside Google Translate, Google explica cómo funciona el motor de traducción, las fuentes de la inteligencia del motor y sus limitaciones. Según Google, su servicio de traducción funciona ” analizando millones y millones de documentos que ya han sido traducidos por traductores humanos.”El video continúa:
“Estos textos traducidos provienen de libros, organizaciones como las Naciones Unidas y sitios Web de todo el mundo. Nuestras computadoras escanean estos textos buscando patrones estadísticamente significativos. Es decir, patrones entre la traducción y el texto original que es poco probable que ocurran por casualidad. Una vez que la computadora encuentre un patrón, puede usar este patrón para traducir textos similares en el futuro. Cuando repites este proceso miles de millones de veces, terminas con miles de millones de patrones y un programa de computadora muy inteligente.”
Aquí está el problema:
“Para algunos idiomas, sin embargo, tenemos menos documentos traducidos disponibles y, por lo tanto, menos patrones que nuestro software ha detectado. Esta es la razón por la que nuestra calidad de traducción variará según el idioma y el par de idiomas.”
Sin embargo, esto no explica por qué Google Translate incluiría tantas referencias específicas a China, Internet, telecomunicaciones, empresas, departamentos y otros acoplamientos extraños en la traducción del latín al inglés.
En cualquier caso, es posible que nunca sepamos la verdadera explicación. Justo antes de medianoche, agosto. 16, Google Translate abruptamente dejó de traducir la palabra “lorem” a cualquier cosa menos “lorem” del latín al inglés. Google Translate todavía produce resultados divertidos y peculiares al traducir latín al inglés en general.
Un portavoz de Google dijo que el cambio se hizo para corregir un error con el algoritmo de Traducción (alineando la repetición latina de ‘lorem ipsum’ con texto en inglés no relacionado) en lugar de una vulnerabilidad de seguridad.
Kraeh3n dijo que está convencida de que el fenómeno lorem ipsum no es un accidente o una ocurrencia fortuita.
“Traducir diseñado para poder evolucionar y aprender de las aportaciones de la multitud para reflejar las adaptaciones en el uso del lenguaje a lo largo del tiempo”, dijo Kraeh3n. “Alguien aprendió a jugar con esa habilidad y usar un fragmento de texto oscuro que nadie en su sano juicio escribiría para crear significados alternativos totalmente aleatorios que podrían, potencialmente, usarse para transmitir mensajes de forma encubierta.”
Mientras tanto, Shoukry dice que planea continuar sus pruebas para nuevos patrones de lenguaje que puedan estar ocultos en Google Translate.
“La inteligencia de ocultar algo a plena vista ha existido durante muchos años”, dijo. “Sin embargo, esto es excepcionalmente brillante porque estas plantillas se usan tan ampliamente que las personas se vuelven insensibles a ellas, y porque este texto está tan ampliamente distribuido que nadie se molesta en cuestionar por qué, cómo y de dónde podría haber venido.”
Etiquetas: Sombrero Negro, Cecil Adams, Agencia Central de Inteligencia, China, Cicero, Deloitte, Google, Traductor de Google, atención médica.gov, Kraeh3n, Lance James, lorem ipsum, Michael Shoukry, OTAN, The Company, The Straight Dope