Doner til arXiv
Title: Når Deep Learning Møtte Kode Søk
Last NED PDF
Abstract: Det har vært flere nyere forslag om bruk av dype nevrale nettverk forcode søk ved hjelp av naturlig språk. Felles på tvers av disse forslagene er ideaof $ \ mathit{embedding} $ kode og naturlig språk spørringer, til ekte vektorer og deretter bruke vektoravstand til omtrentlig semantisk korrelasjon mellom kodeog spørringen. Flere tilnærminger finnes for å lære disse innlemmingene, inkludert$ \mathit{unsupervised} $ teknikker, som bare stole på et corpus ofcode-eksempler, og $\mathit {veiledet} $ teknikker, som bruker en$ \ mathit{justert}$ corpus av parret kode og naturlige språkbeskrivelser. Målet med dette tilsynet er å produsere innlemminger som er mer like for aquery og den tilsvarende ønskede kodebiten. Det er klart at det er valg i om man skal bruke overvåkede teknikker i det hele tatt, og hvis man gjør det, hva slags nettverk og opplæring som skal brukes til tilsyn. Dette papiret er det første toevaluere disse valgene systematisk. Til dette formål samlet viimplementasjoner av state-of-the-art teknikker for å kjøre på en felles plattform, opplæring og evaluering korpora. For å utforske designrommet i networkcomplexity, introduserte vi også et nytt designpunkt som er en$ \ mathit{minimal} $ tilsynsutvidelse til en eksisterende uovervåket teknikk. Vår vurdering viser at: 1. legge tilsyn til en eksisterende unsupervised teknikk canimprove ytelse, men ikke nødvendigvis med mye; 2. enkle nettverk fortilsyn kan være mer effektivt enn mer sofistikerte sekvensbaserte nettverk for kodesøk; 3. selv om det er vanlig å bruke docstrings til å utføretilsyn, er det et betydelig gap mellom effektiviteten av docstringsand et mer spørretilpasset tilsynskorpus.
evalueringsdatasettet er nå tilgjengelig på arXiv:1908.09804
Emner: | Programvare Engineering (cs.SE); Beregning Og Språk (cs.CL); Maskinlæring (cs.LG) |
Sitere som: | arXiv: 1905.03813 |
(eller arXiv: 1905. 03813v4 for denne versjonen) |