[1905.03813]딥러닝이 코드 검색을 만났을 때
추상:최근 자연어를 이용한 코드 검색에 대한 심층 신경망 사용에 대한 여러 제안이 있었다. 이러한 제안에서 공통적 인 것은$\매틱{임베딩}$코드와 자연어 쿼리를 실제 벡터에 넣은 다음 벡터 거리를 사용하여 코드와 쿼리 간의 의미 상관 관계를 근사화하는 아이디어입니다. 이러한 임베딩을 학습하기위한 여러 가지 접근법이 있습니다.$\매팃{감독되지 않은}$코드 예제에만 의존하는 기술,$\매팃{감독 된}$기술을 사용하여$\매팃{정렬 된}$코퍼스 쌍을 이루는 코드 및 자연어 설명. 이 감독의 목표는 아쿠리 및 해당 원하는 코드 스 니펫에 대해 더 유사한 임베딩을 생성하는 것입니다. 분명히 감독 된 기술을 사용해야하는지,그리고 감독을 위해 어떤 종류의 네트워크 및 훈련을 사용해야하는지에 대한 선택이 있습니다. 이 논문은 이러한 선택을 체계적으로 평가하는 첫 번째 논문입니다. 이를 위해 우리는 공통 플랫폼,교육 및 평가 말뭉치에서 실행할 수있는 최첨단 기술을 구현했습니다. 네트워크 복잡성의 디자인 공간을 탐구하기 위해,우리는 또한 기존의 감독되지 않은 기술에 대한$\매팃{최소}$감독 확장 인 새로운 디자인 포인트를 도입했습니다. 우리의 평가는 다음을 보여줍니다:1. 기존의 감독되지 않은 기술에 감독을 추가하면 반드시 많은 것은 아니지만 성능을 향상시킬 수 있습니다. 보다 정교한 시퀀스 기반 네트워크 코드 검색을 위해보다 효과적 일 수 있습니다. 예외를 수행하기 위해 문서스트링을 사용하는 것이 일반적이지만,문서스트링의 효율성과 보다 쿼리에 적합한 감독 모음 사이에는 상당한 차이가 있습니다.
현재 평가 데이터세트는 다음과 같다.:1908.09804
주제:
소프트웨어 공학(cs.SE);계산 및 언어(cs.CL);기계 학습(연사.2014 년)
1905.03813
(이 버전은 1905.038134 입니다.)
주제: | 소프트웨어 공학(cs.SE);계산 및 언어(cs.CL);기계 학습(연사.2014 년) |
1905.03813 | |
(이 버전은 1905.038134 입니다.) |