adomány arXiv

cím: amikor a Deep Learning találkozott Kódkeresés

szerzők: Jose Cambronero, Hongyu Li, Seohyun Kim, Koushik Sen, Satish Chandra

töltse le a PDF-t

absztrakt: a közelmúltban számos javaslat született a mély neurális hálózatok használatárakódos keresés természetes nyelv használatával. Ezekben a javaslatokban gyakori a $ \ mathit{embedding} $ kód és a természetes nyelvű lekérdezések ideaofja, valós vektorokba, majd a vektortávolság használatával közelíti meg a kódés a lekérdezés közötti szemantikai korrelációt. Többféle megközelítés létezik ezen beágyazások megtanulására, beleértve a $ \ mathit{unsupervised}$ technikákat, amelyek csak a corpus ofcode példákon alapulnak, és a $\mathit{felügyelt}$ technikákat, amelyek a$\mathit{igazított}$ korpuszt használják párosított kódokból és természetes nyelvi leírásokból. Ennek a felügyeletnek az a célja, hogy olyan beágyazásokat hozzon létre, amelyek jobban hasonlítanak az aquery-hez és a megfelelő kívánt kódrészlethez. Nyilvánvaló, hogy van választási lehetőség arra, hogy egyáltalán használjunk-e felügyelt technikákat, és ha igen, milyen hálózatot és képzést használjunk a felügyelethez. Ez a cikk az elsőszisztematikusan értékelje ezeket a döntéseket. Ennek érdekében összegyűjtöttük a legkorszerűbb technikák végrehajtását egy közös platformon,képzési és értékelési korpuszon. A networkcomplexity tervezési területének feltárásához egy új tervezési pontot is bevezettünk, amely egy $ \ mathit{minimal} $ felügyeleti kiterjesztés egy meglévő felügyelet nélküli technikához. Értékelésünk azt mutatja, hogy: 1. a felügyelet hozzáadása egy meglévő felügyelet nélküli technikához javíthatja a teljesítményt, bár nem feltétlenül sokkal; 2. az egyszerű hálózatok felügyelete hatékonyabb lehet, mint a kifinomultabb szekvenciaalapú hálózatok a kódkereséshez; 3. bár gyakori a docstrings használata a felügyelet elvégzéséhez, jelentős különbség van a docstringsés egy lekérdezésnek megfelelőbb felügyeleti korpusz.
az értékelési adatkészlet már elérhető az arXiv oldalon:1908.09804

tantárgyak: szoftverfejlesztés (cs.SE); számítás és nyelv (cs.CL); Gépi tanulás (cs.LG)
Idézd: arXiv:1905.03813
(vagy arXiv:1905.03813v4 ehhez a verzióhoz)

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.