Doneaza la arXiv

Titlu: când Deep Learning Met Code Search

autori:Jose Cambronero, Hongyu Li, Seohyun Kim, Koushik Sen, Satish Chandra

Download PDF

rezumat: au existat mai multe propuneri recente privind utilizarea rețelelor neuronale profunde pentrucodul de căutare folosind limbajul natural. Comună în cadrul acestor propuneri este ideaof $ \ mathit{embedding} $ cod și interogări de limbaj natural, în vectori reali și apoi folosind distanța vectorială pentru a aproxima corelația semantică între cod și interogare. Există mai multe abordări pentru învățarea acestor încorporări,inclusiv $\mathit{nesupravegheat}$ tehnici, care se bazează doar pe un corpus ofcode exemple, și $\mathit{supravegheat}$ tehnici, care utilizează un$\mathit{aliniat}$ corpus de cod pereche și descrieri ale limbajului natural. Scopul acestei supravegheri este de a produce încorporări care sunt mai similare pentru aquery și fragmentul de cod dorit corespunzător. În mod clar, există opțiuni în utilizarea tehnicilor supravegheate și, dacă se întâmplă, ce fel de rețea și instruire să se utilizeze pentru supraveghere. Această lucrare este prima care evalueazăevaluați aceste alegeri în mod sistematic. În acest scop, am asamblatimplementări de tehnici de ultimă generație pentru a rula pe o platformă comună,corpusuri de formare și evaluare. Pentru a explora spațiul de proiectare în networkcomplexity, am introdus, de asemenea, un nou punct de proiectare, care este o extensie $\mathit{minimal}$supervision la o tehnică nesupravegheată existentă. Evaluarea noastră arată că: 1. adăugarea supravegherii la o tehnică nesupravegheată existentă poate îmbunătăți performanța, deși nu neapărat cu mult; 2. rețelele simple de supraveghere pot fi mai eficiente decât rețelele mai sofisticate bazate pe secvențe pentru căutarea codului; 3. deși este obișnuit să se utilizeze docstrings pentru a efectua supravegherea, există un decalaj considerabil între eficacitatea docstrings și un corpus de supraveghere mai adecvat interogării.
setul de date de evaluare este acum disponibil la arXiv:1908.09804

subiecte: Inginerie Software (cs.SE); calcul și limbaj (cs.CL); învățarea automată (cs.LG)
citează ca: arXiv:1905.03813
(sau arXiv:1905. 03813v4 pentru această versiune)

Lasă un răspuns

Adresa ta de email nu va fi publicată.