Darovat arXiv

Název:Když Hluboké Učení Potkal Vyhledávání Kódu

Autoři:Jose Cambronero, Hongyu Li, Kim Seohyun, Koushik Sen, Satish Chandra

ke Stažení PDF

Abstrakt: Tam bylo více nedávné návrhy na využití hlubokých neuronových sítí forcode vyhledávání pomocí přirozeného jazyka. Běžné v těchto návrzích je idea $ \ mathit{embedding}$ code a dotazy přirozeného jazyka, do reálných vektorů a pak pomocí vektorové vzdálenosti k přibližné sémantické korelaci mezi kódem a dotazem. Více přístupů existují pro učení těchto embeddings,včetně $\mathit{bez dozoru}$ techniky, které se spoléhají pouze na korpus ofcode příklady, a $\mathit{pod dohledem}$ techniky, které používají$\mathit{aligned}$ corpus spárovaných kód a přirozený jazyk popisy. Cílem tohoto dohledu je vytvořit embeddings, které jsou více podobné pro aquery a odpovídající požadovaný fragment kódu. Je zřejmé, že existují možnosti, zda vůbec používat kontrolované techniky, a pokud ano, jaký druh sítě a školení použít pro dohled. Tento dokument je prvním, který systematicky hodnotí tyto volby. Za tímto účelem jsme sestavili implementace nejmodernějších technik pro běh na společné platformě, školení a hodnocení korpusů. Prozkoumat design prostor v networkcomplexity, zavedli jsme také nový design bod, který je $\mathit{minimal}$dohled rozšíření stávajícího bez dozoru technika. Naše hodnocení ukazuje, že: 1. přidání dohledu ke stávající technice bez dozoru můžezlepšit výkon, i když ne nutně o mnoho; 2. jednoduché sítě forsupervision může být efektivnější, že sofistikovanější sekvenční basednetworks pro vyhledávání kódu; 3. zatímco to je běžné používat docstrings nést outsupervision, tam je značný rozdíl mezi účinností docstringsand ještě dotaz-odpovídající dohled korpusu.
hodnocení datové sady, je nyní k dispozici na arXiv:1908.09804

Témata: Software Engineering (cs.SE); Výpočet a Jazyk (cs.CL); Strojové Učení (cs.LG)
citujte jako: arXiv:1905.03813
(nebo arXiv:1905.03813v4 pro tuto verzi)

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.