로렘 입숨:선과 악의,구글과 중국-보안에 대한 크렙스

지식 있고 배운 소수의 사람들이 온라인에서만 사용하는 비밀 언어를 발견했다고 상상해보십시오. 몇 주 동안,이 호기심 많은 혀의 의미를 놀리고 그 목적을 숙고하기 시작하면서,언어는 미묘하지만 환상적인 방식으로 바뀌어 매일 눈앞에서 스스로를 재구성하는 것처럼 보입니다. 그리고 당신이 당신의 발견을 다른 세계와 공유 할 태세 일 때,모든 것이 사라집니다.

loremipsum 이것은 상당히 지난 몇 주 동안 호기심,놀라움과 실망의 내 롤러 코스터 경험을 설명,내가 이해하기위한 노력의 일환으로 보안 연구자들과 함께 일했던로”로렘 입숨”—수많은 웹 사이트에 일반적인 자리 표시 자 텍스트—구글 번역을 사용하여 영어로 라틴어에서 번역 할 때 많은 분명히 지정 학적 놀랄만큼 현대적인 문구로 변환 할 수있는 방법. (당신은”로렘 입숨”이 무엇인지 아무 생각이없는 경우,여기에 간단한 프라이머로 건너 뜁니다).

독자가 완전히 구글 번역을 사용하여 아래에 설명 된 결과를 복제 할 수 있다면 틀림없이,이 블로그 게시물은 더 의미가 있습니다. 나중에 설명 할 것이다 그러나,중요한 것은 현재 내가 재현 불가능 설명 할 것이다 예제를 만드는 지난 주 구글의 번역 시스템에 변경되었습니다.

중국,나토,섹시,섹시

내가 랜스 제임스,딜로이트에서 사이버 인텔리전스의 머리로부터 메모를 받았을 때 그것은 모두 몇 달 전에 시작했다. 제임스는 파이어 아이 연구원 마이클 슈크리와”크레 3 인”으로 만 확인되기를 바라는 다른 연구원이 발견 한 것을 공유 할 것을 요청했습니다.그들은 구글 번역에서 기괴한 패턴을 발견했습니다.구글 번역에”로렘 입숨”을 입력했을 때 기본 결과(라틴어를 언어로 자동 감지하는 시스템)는”중국”이라는 단어를 반환했습니다.”

각 단어의 첫 글자를 대문자로 바꾸면 북대서양 조약기구의 약어 인”나토”가 출력되었습니다. “인터넷”과”회사”(자본”기음”을 가진”회사”는 오랫동안 미국 중앙 정보 기관의 코드 워드였습니다)가 생성 된 대문자와 대문자로 된 단어를 뒤집습니다. 반복 및 대문자의 혼합으로 단어 쌍을 재배치도 낯선 결과를 생성. 예를 들어,”로렘 입숨 입숨 입숨 로렘은”문구를 생성”중국은 아주 아주 섹시하다.”

아주 최근까지,왼쪽에있는 단어는 구글 번역을 사용하여 오른쪽에있는 단어로 변환되었다.

크레 3 인은 동료에 대한 문서를 교정하면서 이상한 행동을 발견했다고 말했다. 그녀가 타이핑을 시작했을 때”수술실..e..”그리고 그 결과로”중국”을 보았을 때,그녀는 뭔가 이상하다는 것을 알았습니다.

“나는 인터넷,중국,정부,경찰,자유와 같은 말들을 보았고,이런 일이 어떻게 일어나는지 궁금했다.” “나는 즉시 마이클 슈크리에게 연락했고 우리는 그것을 더 조사하기 시작했다.”

그래서 듀오는 대문자와 반복의 혼합을 사용하여이 두 단어의 한계를 테스트하기 시작했습니다. 아래는 그 결과에서 가져온 스크린 샷의 많은 페이지 중 하나입니다:

ipsumlorem

연구자들은 궁금해했다:여기서 무슨 일이 일어 났습니까? 구글 외부의 누군가가 구글 번역에서 특정 단어를 다른 의미로 매핑하는 방법을 알아 냈습니까? 그것은 비밀 또는 은밀한 통신 채널이었다? 아마도 통신의 형태는 중국의 만리 방화벽과 중국 정부에 의해 건립 검열을 우회하는 것을 의미? 또는이 매트릭스의 모든 단지 몇 가지 우연의 일치 결함이었다?

쇼크리는 미국 정보업계의 접촉부를 확인하면서,자신의 조사결과를 누설하는 것이 어떤 식으로든 중요한 비밀을 위태롭게 할 수 있는지 조용히 물었다. 몇 주가 지났고 그의 소식통은 이의를 듣지 못했습니다. 한 가지 확실한 점은 결과가 날마다 미묘하게 변하고 있었으며이 두 가지 공통점이 있지만 모호한 단어가 얼마나 오래 동일한 결과를 만들어 낼지는 분명하지 않았습니다.

“구글 번역은 이 단어들의 번역에서 틀릴 수 있지만,왜 이 단어들이’중국’,’나토’,’무료 인터넷’과 같은 것들로 번역될지 의아해한다”고 슈크리는 말했다. “이 결함이 될 수 있을까? 이 의도적인가? 이것이 사람들이 소통할 수 있는 방법인가? 이게 뭐야?”

이달 초 라스 베이거스에서 열린 블랙햇 보안 협약에서 슈크리를 만났을 때,그는 이미 구글에게 그의 발견을 경고했다. 분명히,그것은 몇 가지 강렬한 테스트를위한 시간이었고,시계는 이미 똑딱했다:나는 그것의 대부분은 어느 순간에 사라질 것이라고 확신(불행하게도,올바른)했다.

로렘 입숨의 간략한 역사

시세로.

인터넷에서”로렘 입숨”이라는 문구를 검색하면 이 이상한 문구가 왜 웹의 어휘집과 핵심을 연결하는지 알 수 있습니다. 근대성의 기원은 어둡지 만,이 단어 쌍의 역사를 기록하려고 시도한 여러 사이트에 따르면,”로렘 입숨”은 주전 1 세기 라틴어 텍스트 인”드 피니버스 보노 룸 과 말로룸”(번역:”선과 악의”)의 뒤섞여 변경된 섹션에서 가져 왔습니다 위대한 연설자 시세로.

세실 아담스,인터넷 퀴즈 사이트 스트레이트 마약의 큐레이터에 따르면,그 시세로 작품의 텍스트는 레트라셋이라는 회사에서 서로 다른 크기와 서체의 접착 시트에 몇 년 동안 사용할 수 있었다.

“데스크탑 출판 전날에 디자이너는 엑스 액토 칼로 물건을 잘라 페이지에 붙였습니다.”아담스가 썼다. “컴퓨터가 등장했을 때,알더스는 페이지 메이커 출판 소프트웨어에 로렘 입숨을 포함,디자이너는 모든 웹을 통해 포함,직장에서 어디든지 당신은 지금 그것을 볼 수 있습니다.”

이 단어 쌍은 너무 일반적이어서 많은 웹 콘텐츠 관리 시스템이 기본 텍스트로 배포합니다. 포인트 케이스:로렘 입숨도에 표시 healthcare.gov.8 월 발표 된 이야기에 따르면. 데일리 메일(15),다스 분명히 휴면 의료보다.정부 페이지는 더미 텍스트를 수행한다. (이 섹션을 건너 뛴 경우 여기를 클릭하십시오).

LOREMipsumhealthcare

추가 테스트

연구자들이”로렘 입숨”비트가 취해진 시세로 텍스트에서 다른 단어를 추가하기 시작했을 때 상황이 더욱 흥미로워지기 시작했습니다. . .”(“고통 자체를 사랑하는 사람은 없으며,고통이기 때문에 그것을 찾고 그것을 갖고 싶어하는 사람은 없습니다…”).

예를 들어”슬픔”과”앉아”와”동의”를 추가하면 훨씬 더 기괴한 결과가 생성되었습니다. 라틴어에서 영어로”영사 앉아 앉아 고통”을 번역하면”러시아가 고통 스러울 수 있습니다.””앉아 앉아 슬픔의 슬픔은”그는 스마트 소비자”로 변환합니다.”이 샘플 번역의 예는 다음과 같습니다:

ipsum

라틴어는 종종”죽은”언어로 기각되며,그것이 공정하거나 사실인지 여부는”휴대 전화”,”인터넷”및 21 세기의 현대 생활의 다른 주류에 대한 라틴어 단어가 있어서는 안된다는 것이 분명해 보입니다. 그러나,이 부조화는 이상한 번역에 대한 하나의 가능한 설명에 빛을 발산 할 수 있습니다:구글은 단순히 철저하게 언어를 배운 가능한 충분한 라틴어 텍스트가없는 번역.

구글 번역 내부라는 제목의 소개 비디오에서,구글은 번역 엔진의 작동 원리,엔진의 지능의 소스,그 한계를 설명합니다. 구글에 따르면,그 번역 서비스는 이미 인간의 번역가에 의해 번역 된 문서의 수백만 수백만을 분석하여”작동합니다.”비디오는 계속:

“이 번역 된 텍스트는 책,유엔과 같은 조직 및 전 세계의 웹 사이트에서 제공됩니다. 우리의 컴퓨터는 통계적으로 유의 한 패턴을 찾고이 텍스트를 스캔합니다. 즉,우연히 발생할 가능성이있는 번역 및 원본 텍스트 사이의 패턴입니다. 컴퓨터가 패턴을 찾으면 이 패턴을 사용하여 향후 유사한 텍스트를 번역할 수 있습니다. 이 과정을 수십억 번 반복하면 수십억 개의 패턴과 하나의 매우 똑똑한 컴퓨터 프로그램으로 끝납니다.”

여기에 문지름이 있습니다:

“그러나 일부 언어의 경우 번역 된 문서가 적기 때문에 소프트웨어가 감지 한 패턴이 적습니다. 이것이 우리의 번역 품질이 언어 및 언어 쌍에 따라 달라지는 이유입니다.”

구글은 중국,인터넷,통신,회사,부서 및 영어로 라틴어를 번역 다른 이상한 커플 링에 특정 많은 참조를 포함 할 번역 왜 아직도,이것은 매우 설명하지 않습니다.

어쨌든 우리는 실제 설명을 결코 알지 못할 수도 있습니다. 그냥 자정 전에,8 월. 16,구글 번역은 갑자기 영어로 라틴어에서”로렘”아무것도하지로 단어”로렘”을 번역 중단했다. 일반적으로 영어로 라틴어를 번역 할 때 구글은 여전히 재미와 독특한 결과를 번역.

구글의 대변인은 변화가 오히려 보안 취약점보다(관련이없는 영어 텍스트와’로렘 입숨’라틴어 상용구를 정렬)번역 알고리즘과 버그를 해결하기 위해 만들어졌다 말했다.

크레 3 인은 로렘 입숨 현상이 사고 나 우연이 아니라고 확신했다.

“번역은 시간이 지남에 따라 언어 사용에 대한 적응을 반영하기 위해 크라우드 소스 입력에서 진화하고 배울 수 있도록 설계되었습니다.” “거기 밖으로 누군가가 그 능력을 게임 및 텍스트의 모호한 조각을 사용 하 여 배운 그들의 오른쪽 마음에 아무도 적,잠재적으로,은밀 하 게 메시지를 전송 하는 데 사용할 수 있는 완전히 임의의 대체 의미를 만들 입력 것 이다.”

한편,슈 크리 그는 구글 번역에 숨겨져있을 수 있습니다 새로운 언어 패턴에 대한 자신의 테스트를 계속 할 계획이라고 말한다.

“명백한 시야에 무언가를 숨기는 영리함은 수년 동안 존재 해왔다”고 그는 말했다. “그러나 이러한 템플릿이 널리 사람들이 그들에게 둔감 것을 사용하고 있기 때문에,이 텍스트가 널리 배포되어 있기 때문에 아무도 왜,어떻게,어디서 온 수 있습니다 의문을 귀찮게하지 않기 때문에 이것은 매우 화려한이다.”

태그:블랙 햇,세실 아담스,중앙 정보국,중국,시세로,딜로이트,구글,구글 번역,건강 관리.정부,크레 3 인,랜스 제임스,로렘 입숨,마이클 슈크리,나토,회사,스트레이트 마약

보안에 대한 크렙스

Published by admin

답글 남기기 응답 취소