Donazione di arXiv

Titolo:Quando il Deep Learning Incontrato la Ricerca di Codice

Autori:José Cambronero, Hongyu Li, Seohyun Kim, Koushik Sen, Satish Chandra

Scarica il PDF

Abstract: Ci sono state delle più recenti proposte di utilizzo di deep neural networks forcode ricerca utilizzando il linguaggio naturale. Comune tra queste proposte è l’idea di queries \ mathit{embedding} queries code e query in linguaggio naturale, in vettori reali e quindi utilizzando la distanza vettoriale per approssimare la correlazione semantica tra codee la query. Diversi approcci esistenti per l’apprendimento di queste immersioni,di cui $\mathit{incustoditi}$ tecniche, che si basano solo su un corpus ofcode esempi, e $\mathit{supervisione}$ tecniche, che utilizzano un$\mathit{aligned}$ corpus di associati codice e descrizioni in linguaggio naturale. L’obiettivo di questa supervisione è produrre embeddings più simili per aquery e il corrispondente frammento di codice desiderato. Chiaramente, ci sono scelte inwhether utilizzare tecniche supervisionate a tutti, e se si fa, che tipo di rete e di formazione da utilizzare per la supervisione. Questo documento è il primo a valutare sistematicamente queste scelte. A tal fine, abbiamo assemblatoimplementazioni di tecniche all’avanguardia da eseguire su una piattaforma comune,corpora di formazione e valutazione. Per esplorare lo spazio di progettazione in networkcomplexity, abbiamo anche introdotto un nuovo punto di progettazione che è un’estensione di supervisione \ \ mathit {minimal}to a una tecnica non supervisionata esistente. La nostra valutazionemostra che: 1. l’aggiunta di supervisione a una tecnica non supervisionata esistente può migliorare le prestazioni, anche se non necessariamente di molto; 2. le reti semplici forsupervision possono essere più efficaci che le reti sequenza-basednetworks più sofisticate per ricerca di codice; 3. mentre è comune utilizzare docstrings per effettuare la supervisione, vi è un divario considerevole tra l’efficacia di docstrings e un corpus di supervisione più appropriato per le query.
Il set di dati di valutazione è ora disponibile su arXiv:1908.09804

Soggetti: Ingegneria del software (cs.SE); Calcolo e linguaggio (cs.CL); Apprendimento automatico (cs.LG)
Citi come: arXiv: 1905.03813
(o arXiv: 1905. 03813v4 per questa versione)

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.