Krebs o bezpieczeństwie

wyobraź sobie odkrywanie tajnego języka używanego tylko online przez doświadczonych i uczonych niewielu. W ciągu kilku tygodni, gdy zaczynasz drażnić znaczenie tego ciekawego języka i zastanawiać się nad jego przeznaczeniem, język wydaje się zmieniać w subtelny, ale fantastyczny sposób, codziennie przerabiając się na twoich oczach. I kiedy jesteś gotowy podzielić się swoimi odkryciami z resztą świata, cała sprawa znika.

loremipsum to dość opisuje moje doświadczenie roller coaster ciekawości, zdumienia i rozczarowania w ciągu ostatnich kilku tygodni, jak pracowałem wraz z badaczami bezpieczeństwa w celu zrozumienia, w jaki sposób “Lorem ipsum” — wspólny tekst zastępczy na niezliczonych stronach internetowych — można przekształcić w tak wiele pozornie geopolitycznych i zaskakująco nowoczesnych zwrotów po przetłumaczeniu z łaciny na angielski za pomocą Google Translate. (Jeśli nie masz pojęcia, czym jest “Lorem ipsum”, przejdź do krótkiego podkład tutaj).

co prawda, ten post na blogu miałby więcej sensu, gdyby czytelnicy mogli w pełni powtórzyć wyniki opisane poniżej za pomocą Google Translate. Jednak, jak wyjaśnię później, coś ważnego zmieniło się w systemie tłumaczeń Google pod koniec zeszłego tygodnia, który obecnie sprawia, że przykłady opiszę niemożliwe do odtworzenia.

CHINA, NATO, SEXY, SEXY

wszystko zaczęło się kilka miesięcy temu, kiedy otrzymałem notatkę od Lance ‘ a Jamesa, szefa cyber intelligence w Deloitte. James zadzwonił do mnie, aby podzielić się czymś odkrytym przez badacza FireEye Michaela Shoukry ‘ ego i innego badacza, który chciał zostać zidentyfikowany tylko jako “Kraeh3n”. zauważyli dziwaczny wzór w Google Translate: gdy ktoś wpisał “Lorem ipsum” w Google Translate, domyślne wyniki (z systemem automatycznego wykrywania łaciny jako języka) zwróciły jedno słowo: “Chiny.”

pisanie wielką literą każdego słowa zmieniło wyjście na “NATO” – akronim Organizacji Traktatu Północnoatlantyckiego. Odwrócenie słów zarówno małymi, jak i wielkimi literami spowodowało ” Internet “i” firma “(“firma “z dużym” C ” od dawna jest słowem kodowym dla Centralnej Agencji Wywiadowczej USA). Powtarzanie i przestawianie pary słów za pomocą kombinacji wielkich liter generowało jeszcze dziwniejsze wyniki. Na przykład “lorem ipsum ipsum ipsum lorem” wygenerowało frazę ” Chiny są bardzo bardzo seksowne.”

do niedawna słowa po lewej stronie były przekształcane w słowa po prawej za pomocą Google Translate.

do niedawna słowa po lewej stronie były przekształcane w słowa po prawej za pomocą Google Translate.

Kraeh3n powiedziała, że odkryła dziwne zachowanie podczas korekty dokumentu dla kolegi, dokumentu, który miał standardowy tekst zastępczy Lorem ipsum. Kiedy zaczęła pisać ” l-o-r..e..”i widząc” Chiny ” jako rezultat, wiedziała, że coś jest dziwne.

“widziałem takie słowa jak Internet, Chiny, rząd, policja i wolność i byłem ciekaw, jak to się dzieje” – powiedział Kraeh3n. “Natychmiast skontaktowałem się z Michaelem Shoukrym i zaczęliśmy się temu przyglądać.”

i tak Duet zaczął testować granice tych dwóch słów, używając kombinacji wielkich liter i powtórzeń. Poniżej znajduje się tylko jedna z wielu stron zrzutów ekranu z ich wyników:

ipsumlorem

badacze zastanawiali się: co tu się dzieje? Czy ktoś spoza Google zorientowali się, jak mapować niektóre słowa do różnych znaczeń w Google Translate? To był tajny czy Tajny kanał komunikacji? Być może forma komunikacji miała na celu ominięcie cenzury wprowadzonej przez chiński rząd za pomocą Wielkiej zapory Chin? A może to była tylko przypadkowa usterka w Matrixie?

ze swojej strony Shoukry zameldował się w kontaktach z amerykańskim przemysłem wywiadowczym, po cichu pytając, czy ujawnienie jego ustaleń może w jakikolwiek sposób zagrozić ważnym tajemnicom. Mijały tygodnie, a jego źródła nie usłyszały sprzeciwu. Jedno było pewne, wyniki subtelnie zmieniały się z dnia na dzień i nie było jasne, jak długo te dwa powszechne, ale niejasne słowa będą nadal przynosić te same wyniki.

“chociaż Tłumacz Google może być nieprawidłowy w tłumaczeniu tych słów, to zastanawiające, dlaczego te słowa byłyby tłumaczone na takie rzeczy jak” Chiny”, “NATO” i “wolny Internet””, powiedział Shoukry. “Czy to może być usterka? Czy to celowe? Czy w ten sposób ludzie się komunikują? O co chodzi?”

kiedy spotkałem Shoukry ‘ ego na konwencji bezpieczeństwa Black Hat w Las Vegas na początku tego miesiąca, już powiadomił Google o swoich ustaleniach. Oczywiście nadszedł czas na intensywne testy, a zegar już tykał: byłem przekonany (i niestety, zgadza się), że wiele z nich zniknie w każdej chwili.

krótka historia LOREM IPSUM

 Cicero.

Szukaj w Internecie frazy “Lorem ipsum”, a wyniki ujawniają, dlaczego ta dziwna fraza ma tak podstawowe połączenie z leksykonem sieci. Jego początki w nowoczesności są mroczne, ale według wielu stron, które próbowały kronikować historię tej pary słów, “Lorem ipsum” został zaczerpnięty z pomieszanego i zmienionego fragmentu “De finibus bonorum et malorum” (w tłumaczeniu: “dobra i zła”) łacińskiego tekstu z I wieku p. n. e.Wielkiego oratora Cycerona.

według Cecila Adamsa, kuratora internetowego serwisu ciekawostek the Straight Dope, tekst z tej pracy Cycerona był przez wiele lat dostępny na arkuszach samoprzylepnych w różnych rozmiarach i krojach pisma firmy Letraset.

“w czasach pre-desktopowych projektant wycinał rzeczy nożem X-acto i przyklejał na stronę” -napisał Adams. “Kiedy pojawiły się komputery, Aldus włączył lorem ipsum do swojego oprogramowania do publikowania PageMaker, a teraz widzisz go wszędzie tam, gdzie pracują projektanci, w tym w całej sieci.”

Ta para słów jest tak powszechna, że wiele systemów zarządzania treścią internetową wdraża ją jako domyślny tekst. Przykład: Lorem Ipsum pojawia się nawet na healthcare.gov. według opowiadania opublikowanego w sierpniu 15 W Daily Mail, ponad tuzin najwyraźniej uśpionych opieki zdrowotnej.strony gov zawierają tekst fałszywy. (Kliknij tutaj, jeśli przeskoczyłeś do tej sekcji).

LOREMipsumhealthcare

dalsze badania

sprawy zaczęły się jeszcze bardziej interesować, gdy badacze zaczęli dodawać inne słowa z tekstu Cycerona, z którego zaczerpnięto bit “Lorem ipsum”, w tym: “Neque porro quisquam est qui dolorem ipsum quia dolor sit amet, consectetur, adpisci velit . . .”(“Nie ma nikogo, kto kocha sam ból, kto szuka go i chce go mieć, po prostu dlatego, że jest bólem …”).

dodanie na przykład “dolor”, “sit” i “consectetur” dało jeszcze dziwniejsze wyniki. Tłumaczenie “consectetur Sit sit Dolor” z łaciny na angielski oznacza ” Rosja może cierpieć.””sit sit dolor dolor” tłumaczy się jako “jest inteligentnym konsumentem.”Przykład tych przykładowych tłumaczeń znajduje się poniżej:

ipsum

łacina jest często odrzucana jako” martwy ” język i niezależnie od tego, czy jest to uczciwe, czy prawdziwe, wydaje się całkiem jasne, że nie powinno być łacińskich słów oznaczających “telefon komórkowy”, “Internet” i inne filary współczesnego życia w XXI wieku. Jednak ta niezgodność pomaga rzucić światło na jedno z możliwych wyjaśnień takich dziwnych tłumaczeń: Tłumacz Google po prostu nie ma wystarczającej ilości tekstów łacińskich, aby dokładnie nauczyć się języka.

w filmie wprowadzającym zatytułowanym Inside Google Translate, Google wyjaśnia, jak działa silnik tłumaczenia, źródła inteligencji silnika i jego ograniczenia. Według Google, jego usługa Translate Działa ” analizując miliony i miliony dokumentów, które zostały już przetłumaczone przez ludzkich tłumaczy.”Film trwa:

“te przetłumaczone teksty pochodzą z książek, organizacji takich jak Organizacja Narodów Zjednoczonych i stron internetowych z całego świata. Nasze komputery skanują te teksty w poszukiwaniu statystycznie istotnych wzorców. To znaczy, wzorce między tłumaczeniem a tekstem oryginalnym, które są mało prawdopodobne, aby wystąpić przez przypadek. Gdy komputer znajdzie wzór, możesz użyć tego Wzoru do przetłumaczenia podobnych tekstów w przyszłości. Powtarzając ten proces miliardy razy, otrzymujemy miliardy wzorców i jeden bardzo inteligentny program komputerowy.”

o to chodzi.:

“w przypadku niektórych języków mamy jednak mniej dostępnych przetłumaczonych dokumentów, a zatem mniej wzorców wykrytych przez nasze oprogramowanie. Dlatego nasza jakość tłumaczenia różni się w zależności od języka i pary językowej.”

mimo to, nie do końca wyjaśnia, dlaczego Google Translate zawiera tak wiele odniesień specyficznych dla Chin, Internetu, telekomunikacji, firm, działów i innych dziwnych sprzężeń w tłumaczeniu z łaciny na angielski.

w każdym razie możemy nigdy nie poznać prawdziwego wyjaśnienia. Tuż przed północą. 16, Google Translate nagle przestał tłumaczyć słowo “lorem” na cokolwiek, ale “lorem” z łaciny na angielski. Tłumacz Google nadal daje zabawne i osobliwe wyniki przy tłumaczeniu łaciny na angielski w ogóle.

rzecznik Google powiedział, że wprowadzono zmianę, aby naprawić błąd za pomocą algorytmu tłumaczenia (wyrównując łaciński kocioł “Lorem ipsum” z niezwiązanym tekstem w języku angielskim), a nie lukę w zabezpieczeniach.

Kraeh3n powiedziała, że jest przekonana, że zjawisko Lorem ipsum nie jest przypadkiem ani przypadkiem.

“Tłumacz zaprojektowany, aby móc ewoluować i uczyć się na podstawie danych wejściowych pochodzących z tłumu, aby odzwierciedlić adaptacje w użyciu języka w czasie”, powiedział Kraeh3n. “Ktoś tam nauczył się grać w tę umiejętność i używać niejasnego fragmentu tekstu, którego nikt przy zdrowych zmysłach nigdy nie wpisałby, aby stworzyć całkowicie losowe alternatywne znaczenia, które potencjalnie mogłyby być wykorzystane do potajemnego przesyłania wiadomości.”

tymczasem Shoukry mówi, że planuje kontynuować testy nowych wzorców językowych, które mogą być ukryte w Google Translate.

“spryt ukrywania czegoś na widoku istnieje od wielu lat” “Jest to jednak wyjątkowo genialne, ponieważ szablony te są tak szeroko stosowane, że ludzie są na nie odczuleni, a także dlatego, że tekst ten jest tak szeroko rozpowszechniony, że nikt nie zadaje sobie pytania, dlaczego, jak i skąd mógł pochodzić.”

Tagi: czarny kapelusz, Cecil Adams, Centralna Agencja Wywiadowcza, Chiny, Cicero, Deloitte, google, Google Translate, Opieka zdrowotna.gov, Kraeh3n, Lance James, lorem ipsum, Michael Shoukry, NATO, the Company, the Straight Dope

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.