Darovat arXiv
Název:Když Hluboké Učení Potkal Vyhledávání Kódu
ke Stažení PDF
Abstrakt: Tam bylo více nedávné návrhy na využití hlubokých neuronových sítí forcode vyhledávání pomocí přirozeného jazyka. Běžné v těchto návrzích je idea $ \ mathit{embedding}$ code a dotazy přirozeného jazyka, do reálných vektorů a pak pomocí vektorové vzdálenosti k přibližné sémantické korelaci mezi kódem a dotazem. Více přístupů existují pro učení těchto embeddings,včetně $\mathit{bez dozoru}$ techniky, které se spoléhají pouze na korpus ofcode příklady, a $\mathit{pod dohledem}$ techniky, které používají$\mathit{aligned}$ corpus spárovaných kód a přirozený jazyk popisy. Cílem tohoto dohledu je vytvořit embeddings, které jsou více podobné pro aquery a odpovídající požadovaný fragment kódu. Je zřejmé, že existují možnosti, zda vůbec používat kontrolované techniky, a pokud ano, jaký druh sítě a školení použít pro dohled. Tento dokument je prvním, který systematicky hodnotí tyto volby. Za tímto účelem jsme sestavili implementace nejmodernějších technik pro běh na společné platformě, školení a hodnocení korpusů. Prozkoumat design prostor v networkcomplexity, zavedli jsme také nový design bod, který je $\mathit{minimal}$dohled rozšíření stávajícího bez dozoru technika. Naše hodnocení ukazuje, že: 1. přidání dohledu ke stávající technice bez dozoru můžezlepšit výkon, i když ne nutně o mnoho; 2. jednoduché sítě forsupervision může být efektivnější, že sofistikovanější sekvenční basednetworks pro vyhledávání kódu; 3. zatímco to je běžné používat docstrings nést outsupervision, tam je značný rozdíl mezi účinností docstringsand ještě dotaz-odpovídající dohled korpusu.
hodnocení datové sady, je nyní k dispozici na arXiv:1908.09804
Témata: | Software Engineering (cs.SE); Výpočet a Jazyk (cs.CL); Strojové Učení (cs.LG) |
citujte jako: | arXiv:1905.03813 |
(nebo arXiv:1905.03813v4 pro tuto verzi) |