Krebs on Security
知識豊富で学んだ少数の人がオンラインでのみ話されている秘密の言語を発見することを想像してみてくださ あなたがこの好奇心の強い舌の意味をからかい、その目的を熟考し始めると、数週間にわたって、言語はあなたの目の前で毎日自分自身を作り直し、微妙ではあるが幻想的な方法でシフトするように見えます。 そして、あなたが世界の残りの部分とあなたの調査結果を共有する態勢を整えているちょうどその時、全体のことは消えます。
これは、私がセキュリティ研究者と協力して、Google翻訳を使用してラテン語から英語に翻訳すると、”lorem ipsum”—無数のWebサイト上の一般的なプレースホルダーテキスト—が非常に多くの明らかに地政学的で驚くほど現代的なフレーズにどのように変換されるかを理解するために働いてきたので、過去数週間にわたって好奇心、不思議、失望の私のジェットコースターの経験をかなり説明しています。 (あなたは”loremイプサム”が何であるかわからない場合は、ここで簡単なプライマーに先にスキップ)。
確かに、読者がGoogle翻訳を使用して以下に説明する結果を完全に複製することができれば、このブログ記事はより意味があります。 しかし、私は後で説明しますように、重要な何かが現在、私は再現することは不可能説明します例になり、先週末にGoogleの翻訳システムに変更されました。
CHINA,NATO,SEXY,SEXY
すべてが始まったのは、私がDeloitteのサイバーインテリジェンスの責任者であるLance Jamesからメモを受け取った数ヶ月前です。 Jamesは、FireEyeの研究者Michael Shoukryと、「Kraeh3N」としてのみ識別されることを望んでいた別の研究者によって発見されたものを共有するように私にpingを実行しました。彼らは、Google翻訳で奇妙なパターンに気づきました。「lorem ipsum」をGoogle翻訳に入力すると、デフォルトの結果(システムがラテン語を自動検出する言語)が1つの単語を返しました:「China」。”
各単語の最初の文字を大文字にすると、出力が”NATO”—北大西洋条約機構の頭字語に変更されました。 小文字と大文字の両方の単語を逆にすると、”インターネット”と”会社”が生成されました(資本”C”を持つ”会社”は、長い間、米国中央情報局のコードワードでした)。 大文字の組み合わせで単語のペアを繰り返して並べ替えると、見知らぬ結果も生成されました。 たとえば、”lorem ipsum ipsum ipsum Lorem”は、”中国は非常に非常にセクシーです。”
ごく最近まで、左の単語はGoogle翻訳を使用して右の単語に変換されていました。
Kraeh3Nは、同僚のための文書、標準のlorem ipsumプレースホルダーテキストを持っている文書を校正している間に奇妙な行動を発見したと述べました。 彼女は”l-o-rを入力し始めたとき。.e..”そして、結果として”中国”を見て、彼女は何かが奇妙だったことを知っていました。
「インターネット、中国、政府、警察、自由などの言葉を見て、これがどのように起こっているのか興味があった」とKraeh3Nは語った。 「私はすぐにMichael Shoukryに連絡し、さらに調査を開始しました。”
そして、デュオは大文字と繰り返しの組み合わせを使用して、これら二つの単語の限界をテストし始めました。 以下は、その結果から撮影したスクリーンショットの多くのページの一つです:
研究者は疑問に思った:ここで何が起こっていたのですか? Googleの外の誰かが、Google翻訳で特定の単語を異なる意味にマップする方法を考え出しましたか? それは秘密か秘密の通信チャネルでしたか? おそらく、中国のグレートファイアウォールと中国政府によって建てられた検閲をバイパスするための通信の形? それとも、これはマトリックスのちょうどいくつかの偶然のグリッチでしたか?
彼のために、Shoukryは米国の諜報業界の連絡先にチェックインし、彼の調査結果を漏らすことが重要な秘密を危険にさらす可能性があるかどうか静かに問 数週間が過ぎ、彼の情報源は異議を聞いていませんでした。 一つのことは確かだった、結果は微妙に日々変化していた、それはこれら二つの一般的なが、あいまいな言葉が同じ結果を生成し続けるだろうどのくらい
「Google翻訳はこれらの言葉の翻訳に誤りがあるかもしれないが、なぜこれらの言葉が「中国」、「NATO」、「無料インターネット」などに翻訳されるのかは不可解だ」とShoukry “これはグリッチだろうか? これは意図的ですか? これは、人々が通信するための方法ですか? それは何ですか?「
私が今月初めにラスベガスで開催されたBlack Hat security conventionでShoukryに会ったとき、彼はすでにgoogleに彼の調査結果を警告していた。 明らかに、それはいくつかの強烈なテストのための時間だった、と時計はすでに刻々と過ぎていた:私はそれの多くはいつでも消えるだろうと確信してい
LOREM IPSUMの簡単な歴史
キケロ。
インターネットで「lorem ipsum」というフレーズを検索すると、その結果、この奇妙なフレーズがウェブの辞書にこのようなコア接続を持っている理由が明ら 現代におけるその起源は暗いですが、この単語のペアの歴史を記録しようとしている複数のサイトによると、”lorem ipsum”は、偉大な雄弁家キケロによる紀元前1世紀のラテ
インターネット・トリビア・サイトThe Straight DopeのキュレーターであるCecil Adams氏によると、そのキケロ作品のテキストはLetrasetという会社の様々なサイズと書体の粘着シートで長年利用可能であったという。
「デスクトップ出版前の時代には、デザイナーはX-actoナイフで物を切り抜き、それをページに貼り付けるだろう」とアダムスは書いている。 “コンピュータが来たとき、AldusはPageMakerの出版ソフトウェアにlorem ipsumを含んでいて、デザイナーが仕事にあるところはどこでも網を含んでいる今それを、見る。”
この単語のペアは非常に一般的であるため、多くのWebコンテンツ管理システムではデフォルトのテキストとして展開されています。 ポイントのケース:Loremイプサムも上に表示されますhealthcare.gov.Augに掲載された物語によると. デイリーメールで15、ダース以上の明らかに休眠医療。govのページはダミーのテキストを運ぶ。 (このセクションに先にスキップした場合はここをクリックしてください)。
さらなるテスト
研究者が”lorem ipsum”ビットが取られたキケロのテキストから他の単語を追加し始めたとき、”Neque porro quisquam est qui dolorem ipsum quia dolor sit amet,consectetur,adipisci velit”を含むものがさらに面白くなり始めた。 . .”(”痛みそのものを愛し、それを求め、それを持ちたいと思っている人は誰もいません。
例えば、”dolor”と”sit”と”consectetur”を追加すると、さらに奇妙な結果が得られました。 “Consectetur Sit Sit Dolor”をラテン語から英語に翻訳すると、”ロシアは苦しんでいるかもしれない。”彼はスマートな消費者である””dolor dolorは”に翻訳座って座ってください。”これらのサンプル翻訳の例は以下のとおりです:
ラテン語はしばしば”死んだ”言語として却下され、それが公正であるか真実であるかにかかわらず、”携帯電話”、”インターネット”および21世紀の現代生活の他の柱のためのラテン語の言葉があってはならないことはかなり明らかであるようです。 しかし、この違和感は、このような奇妙な翻訳のための一つの可能な説明に光を当てるのに役立ちます:Google翻訳は、単に徹底的に言語を学んだことがで
インサイドGoogle Translateというタイトルの入門ビデオで、Googleは翻訳エンジンがどのように機能するか、エンジンの知性の源、そしてその限界について説明し Googleによると、その翻訳サービスは、「人間の翻訳者によってすでに翻訳されている何百万もの文書を分析することによって機能します。”ビデオは続きます:
“これらの翻訳されたテキストは、世界中の書籍、国連のような組織、およびWebサイトから来ています。 私たちのコンピュータはこれらのテキストをスキャンして統計的に有意なパターンを探します。 つまり、翻訳と原文の間のパターンは、偶然に起こりそうもありません。 コンピュータがパターンを見つけたら、このパターンを使用して、将来的に同様のテキストを翻訳することができます。 このプロセスを何十億回も繰り返すと、何十億ものパターンと非常にスマートなコンピュータプログラムになります。”
ここに摩擦があります:
“しかし、一部の言語では、利用可能な翻訳された文書が少ないため、ソフトウェアが検出したパターンが少なくなります。 このため、当社の翻訳品質は言語と言語ペアによって異なります。”
それでも、これはGoogle翻訳が中国、インターネット、電気通信、企業、部門、およびラテン語を英語に翻訳する際の他の奇妙なカップリングに固有の非常に多
いずれにせよ、我々は本当の説明を知らないかもしれない。 真夜中の直前に、Aug。 16、Google翻訳は突然ラテン語から英語に”lorem”以外のものに単語”lorem”を翻訳停止しました。 Google翻訳は、一般的にラテン語を英語に翻訳するときには、まだ面白いと独特の結果を生成します。
Googleの広報担当者は、セキュリティ上の脆弱性ではなく、翻訳アルゴリズム(’lorem ipsum’ラテン定型文と無関係な英語のテキストを整列させる)のバグを修正す
Kraeh3Nは、lorem ipsum現象は事故や偶然の発生ではないと確信していると述べた。
“時間の経過とともに言語使用の適応を反映するために、進化し、クラウドソースの入力から学ぶことができるように設計された翻訳”とKraeh3Nは言った。 “そこに誰かがその能力をゲームし、彼らの右の心の誰もが今まで、潜在的に、密かにメッセージを送信するために使用することができ、完全にランダムな”
一方、Shoukry氏は、Google翻訳に隠されている可能性のある新しい言語パターンのテストを継続する予定であると述べています。
「目の前に何かを隠すことの巧妙さは、長年にわたって存在してきた」と彼は言った。 “しかし、これらのテンプレートは非常に広く使用されているため、人々はそれらに脱感作され、このテキストは非常に広く配布されているため、なぜ、どのように、どこから来たのか疑問に思う人はいません。”
タグ:黒い帽子、セシル-アダムス、中央情報局、中国、キケロ、デロイト、グーグル、グーグル翻訳、ヘルスケア。gov,Kraeh3N,Lance James,lorem ipsum,Michael Shoukry,NATO,The Company,The Straight Dope