donera till arXiv

Titel: när djupinlärning träffade kodsökning

författare: Jose Cambronero, Hongyu Li, Seohyun Kim, Koushik Sen, Satish Chandra

ladda ner PDF

Sammanfattning: Det har funnits flera senaste förslag om att använda djupa neurala nätverk förkodsökning med naturligt språk. Gemensamt för dessa förslag är ideaof$ \ mathit{embedding} $ code och natural language queries, till verkliga vektoreroch sedan använda vektoravstånd för att approximera semantisk korrelation mellan kod och frågan. Det finns flera metoder för att lära sig dessa inbäddningar, inklusive$ \ mathit{unsupervised} $ – tekniker, som endast är beroende av ett corpus ofcode-exempel, och $\mathit{supervised}$ – tekniker, som använder en$\mathit{aligned}$ corpus av parad kod och naturliga språkbeskrivningar. Målet med denna tillsyn är att producera inbäddningar som är mer lika för aquery och motsvarande önskade kodavsnitt. Det är uppenbart att det finns val om man ska använda övervakade tekniker alls, och om man gör det, vilken typ av nätverk och utbildning som ska användas för övervakning. Detta dokument är den första att utvärdera dessa val systematiskt. För detta ändamål samlade viimplementationer av toppmoderna tekniker för att köra på en gemensam plattform,utbildning och utvärdering corpora. För att utforska designutrymmet i networkcomplexity introducerade vi också en ny designpunkt som är en $\mathit{minimal}$supervision-förlängning till en befintlig oövervakad teknik. Vår utvärdering visar att: 1. att lägga till övervakning till en befintlig oövervakad teknik kanförbättra prestanda, men inte nödvändigtvis med mycket; 2. enkla nätverk forsupervision kan vara mer effektivt att mer sofistikerade sekvens-basednetworks för kodsökning; 3. även om det är vanligt att använda docstrings för att utföraövervakning, det finns ett stort gap mellan effektiviteten hos docstringsoch en mer frågeanpassad övervakningskorpus.
utvärderingsdataset finns nu tillgängligt på arXiv:1908.09804

ämnen: programvaruteknik (cs.SE); beräkning och språk (cs.CL); maskininlärning (cs.LG)
citera som: arXiv: 1905.03813
(eller arXiv: 1905. 03813v4 för denna version)

Lämna ett svar

Din e-postadress kommer inte publiceras.