18 minden idők klasszikus nyílt forráskódú számítógépes látás projektek kezdőknek

áttekintés

  • nyílt forráskódú számítógépes látás projektek egy nagy segway leszállás szerepet a mély tanulás ipar
  • kezdj el dolgozni ezen 18 népszerű és minden idők klasszikus nyílt forráskódú számítógépes látás projektek

Bevezetés

a számítógépes Látásalkalmazások jelenleg mindenütt jelen vannak. Őszintén szólva nem emlékszem, mikor mentem át utoljára egy egész napot anélkül, hogy legalább egy számítógépes látáshasználati esettel találkoztam volna vagy kölcsönhatásba léptem volna (Helló arcfelismerés a telefonomon!).

de itt van a dolog – az emberek, akik meg akarják tanulni a számítógépes látást, hajlamosak elakadni az elméleti fogalmakban. És ez a legrosszabb út, amit megtehetsz! Ahhoz, hogy valóban megtanuljuk és elsajátítsuk a számítógépes látást, össze kell kapcsolnunk az elméletet a gyakorlati tapasztalattal.

és ez az, ahol a nyílt forráskódú számítógépes látás projektek jönnek. Nem kell költeni egy fillért gyakorolni a számítógépes látás készségek – meg tudod csinálni ül ott, ahol most!

nyílt forráskódú számítógépes látásprojektek

tehát ebben a cikkben összefogtam és létrehoztam egy listát a nyílt forráskódú számítógépes Látásprojektekről, amelyek a számítógépes látás különböző alkalmazásain alapulnak. Van egy csomó, hogy menjen át, és ez elég egy átfogó listát, úgyhogy ásni!

ha teljesen új vagy a számítógépes látás és a mély tanulás terén, és inkább videó formában tanulsz, nézd meg ezt:

  • számítógépes látás mély tanulással 2.0

a 18 nyílt forráskódú számítógépes Látásprojekt ezekre a kategóriákra oszlik:

  • Képosztályozás
  • arcfelismerés
  • neurális Stílusátvitel GANs használatával
  • jelenet szövegfelismerés
  • Objektumérzékelés DETR-rel
  • szemantikai szegmentálás
  • közúti Sávérzékelés autonóm járművekben
  • képaláírás
  • emberi Pózbecslési projektek
  • érzelmek felismerése arckifejezéseken keresztül

nyílt forráskódú számítógépes Látásprojektek a Képosztályozáshoz

a képosztályozás alapvető feladat a számítógépes látásban. Itt a cél egy kép osztályozása egy adott címke hozzárendelésével. Nekünk, embereknek könnyű megérteni és osztályozni azokat a képeket, amelyeket látunk. De a gép esetében nagyon más a helyzet. Nehéz feladat egy gép számára, hogy különbséget tegyen egy autó és egy elefánt között.

íme a két legjelentősebb nyílt forráskódú projekt a képosztályozáshoz:

  1. Cifar 10

    a CIFAR-10 adatkészlet olyan képek gyűjteménye, amelyeket általában a gépi tanulás és a számítógépes látás algoritmusok képzésére használnak. Ez az egyik legnépszerűbb adatkészlet a gépi tanulás kutatásához. 60 000, 32 62 db színes képet tartalmaz 10 különböző osztályban. Az osztályok repülőgépeket, autókat, madarakat, macskákat, szarvasokat, kutyákat, békákat, lovakat, hajókat és teherautókat képviselnek.

  2. ImageNet

    az ImageNet adatkészlet egy nagy vizuális adatbázis a számítógépes látás kutatásában. A projekt több mint 14 millió képet kézzel jegyzetelt, hogy jelezze, milyen tárgyak vannak ábrázolva, és legalább egymillió képen határoló dobozok is rendelkezésre állnak. Az ImageNet több mint 20 000 kategóriát tartalmaz!

kezdőként kezdheti a neurális hálózatot a semmiből a Keras vagy a PyTorch segítségével. A jobb eredmények és a tanulás szintjének növelése érdekében javasolni fogom a transzfer tanulás használatát előre képzett modelleken keresztül, mint például a VGG – 16, A Restnet-50, a Googlenet stb.

 nyílt forráskódú számítógépes látásprojektek -

azt javaslom, hogy olvassa el az alábbi cikket, hogy többet tudjon meg a képosztályozásról:

  • Top 4 előre képzett modellek kép osztályozás Python kód

azt is javaslom, megy keresztül az alábbi papírok jobb megértése kép osztályozás:

  • ImageNet osztályozás mély konvolúciós neurális hálózatokkal
  • mélyebbre menni a Konvolúciókkal
  • mély maradék tanulás a Képfelismeréshez

nyílt forráskódú számítógépes Látásprojektek az arcfelismeréshez

az arcfelismerés a számítógépes látás egyik kiemelkedő alkalmazása. Biztonsági, felügyeleti vagy az eszközök feloldásához használják. A kép vagy videó arcainak azonosítása egy már létező adatbázissal szemben. Mély tanulási módszereket használhatunk az arcok jellemzőinek megismerésére és felismerésére.

ez egy többlépcsős folyamat, amely a következő lépésekből áll:

  1. arcfelismerés: ez az első lépés, amely magában foglalja a bemeneti képen vagy videón jelen lévő egy vagy több arc megtalálását.
  2. Arc Igazítás: az Igazítás normalizálja a bemeneti felületeket, hogy geometriailag összhangban legyenek az adatbázissal.
  3. Feature Extraction: később, funkciók kibontása, hogy lehet használni a felismerési feladat.
  4. Funkciófelismerés: végezze el a bemeneti funkciók illesztését az adatbázishoz.

a következő nyílt forráskódú adatkészletek jó expozíciót biztosítanak az arcfelismeréshez-

  1. MegaFace

    a MegaFace egy nagyszabású nyilvános arcfelismerő képzési adatkészlet, amely a kereskedelmi arcfelismerési problémák egyik legfontosabb referenciaértékeként szolgál. 4 753 320 arcot tartalmaz 672 057 identitásból

  2. címkézett arcok a vadonban

    címkézett arcok a vadonban (LFW) az arcfotók adatbázisa, amelyet a korlátozás nélküli arcfelismerés problémájának tanulmányozására terveztek. 13 233 képet tartalmaz 5749 emberről, amelyeket az internetről fedeztek fel és gyűjtöttek össze. A képen látható emberek közül 1680-nak két vagy több különálló fényképe van az adatkészletben.

ezenkívül a projekt előrehaladott szakaszába lépéséhez használhat előre kiképzett modelleket, például a Facenet-et.

a Facenet egy mély tanulási modell, amely egységes beágyazásokat biztosít az arcfelismeréshez, ellenőrzéshez és fürtözési feladatokhoz. A hálózat az egyes arcképeket az euklideszi térben úgy térképezi fel, hogy a hasonló képek közötti távolság kisebb legyen.

nyílt forráskódú számítógépes látásprojektek-facenet

forrás

könnyen használhatja a Keras és PyTorch – ban elérhető, előre betanított Facenet modelleket, hogy saját arcfelismerő rendszert készítsen.

van még néhány korszerű arcfelismerő modell, amellyel kísérletezhet. A DEEPFACE egy mély CNN alapú hálózat, amelyet a Facebook kutatói fejlesztettek ki. Fontos mérföldkő volt a mély tanulás alkalmazásában az arcfelismerési feladatban.

annak érdekében, hogy jobban megértsük az arcfelismerő technológia fejlődését az elmúlt 30 évben, javasoljuk, hogy olvassa el egy érdekes cikket:

  • mély arcfelismerés: felmérés

nyílt forráskódú számítógépes Látásprojektek idegi Stílusátvitelhez GANs használatával

a neurális stílusátvitel egy számítógépes látástechnológia, amely az egyik kép tartalmát a másik kép stílusában hozza létre. Ez egy generatív kontradiktórius hálózat (Gan) alkalmazása. Itt két képet készítünk-egy tartalomképet és egy stílushivatkozási képet, és összekeverjük őket úgy, hogy a kimeneti kép úgy nézzen ki, mint a referenciakép stílusában festett tartalomkép.

ezt úgy valósítják meg, hogy optimalizálják a kimeneti kép tartalmi statisztikáit a tartalomképhez, a Stílusstatisztikákat pedig a stílushivatkozási képhez.

 nyílt forráskódú számítógépes Látásprojektek-neurális Stílusátvitel GANs használatával

forrás

itt található néhány félelmetes adatkészlet, amelyet gyakorolni kell:

  1. COCO dataset

    “a COCO egy nagyméretű objektumfelismerő, szegmentáló és feliratozó adatkészlet. Az adatkészletben szereplő képek mindennapi tárgyak, amelyeket mindennapi jelenetekből rögzítenek. Ezenkívül több objektumos címkézést, szegmentációs maszk kommentárokat, képaláírást és kulcspont-felismerést biztosít összesen 81 kategóriában, így nagyon sokoldalú és többcélú adatkészlet.

  2. ImageNet

    1. ezt már említettük – az ImageNet hihetetlenül rugalmas!

abban az esetben, ha kíváncsi a stílusátviteli modell megvalósítására, itt van egy TensorFlow bemutató, amely segíthet. Azt is javaslom, hogy olvassa el a következő cikkeket, ha mélyebbre akar ásni a technológiában:

  • a művészi stílus tanult ábrázolása
  • párosítatlan Kép-Kép fordítás Cikluskonzisztens kontradiktórius hálózatok használatával
  • Képstílus átvitel konvolúciós neurális hálózatok segítségével

nyílt forráskódú számítógépes Látásprojektek a jelenet szövegének észleléséhez

a szöveg észlelése bármely adott jelenetben egy másik nagyon érdekes probléma. A jelenet szövege az a szöveg, amely a kamera által kültéri környezetben rögzített képeken jelenik meg. Például autók rendszámtáblái az utakon, hirdetőtáblák az út mentén stb.

a jelenetképeken szereplő szöveg alakja, betűtípusa, színe és pozíciója változó. A jelenet szövegének felismerésének komplikációja tovább növekszik a nem egyenletes megvilágítás és fókuszálás miatt.

 nyílt forráskódú számítógépes Látásprojektek-Jelenetszöveg-észlelés

a következő népszerű adatkészletek segítenek gazdagítani készségeit a Jelenetszöveg-észlelés elemzésében:

  1. SVHN

    a Street View House Numbers (SVHN) adatkészlet az egyik legnépszerűbb nyílt forráskódú adatkészlet. A Google által létrehozott neurális hálózatokban használják, hogy leolvassák a házszámokat, és összehangolják őket a földrajzi helyükkel. Ez egy nagyszerű benchmark adatkészlet játszani, tanulni és vonat modellek, amelyek pontosan azonosítani utcaszámokat. Ez az adatkészlet több mint 600 ezer címkézett valós képeket tartalmaz a Google Street View-ból vett házszámokról.

  2. SceneText Dataset

    a scene text dataset 3000 különböző környezetben készített képet tartalmaz, beleértve a kültéri és beltéri jeleneteket is, különböző fényviszonyok mellett. A képeket nagy felbontású digitális fényképezőgép vagy alacsony felbontású mobiltelefon-kamera segítségével rögzítették. Ezenkívül az összes képet átméretezték 640 680-ra.

továbbá a jelenetszöveg-felismerés egy kétlépcsős folyamat, amely a képben lévő Szövegfelismerésből és a szövegfelismerésből áll. A szövegfelismeréshez találtam egy korszerű mély tanulási módszert Kelet (hatékony pontos Jelenetszöveg-érzékelő). Vízszintes és elforgatott határoló dobozokat talál. Használhatja bármilyen szövegfelismerési módszerrel kombinálva.

itt van néhány más érdekes papírokat jelenet szövegfelismerés:

  • szöveg észlelése természetes képben a Connectionist Text Proposal Network segítségével
  • COCO-Text: adatkészlet és referenciaérték a szöveg észleléséhez és felismeréséhez természetes képekben

nyílt forráskódú számítógépes Látásprojektek OBJEKTUMÉRZÉKELÉSHEZ DETR

az Objektumérzékelés feladata a képen lévő minden érdekes objektum előrejelzése egy határoló dobozon keresztül, a megfelelő címkékkel együtt.

néhány hónappal ezelőtt a Facebook nyílt forráskódú objektum-észlelési keretrendszer – DEtection TRansformer (DETR). A DETR hatékony és innovatív megoldás az objektumfelismerési problémákra. Egyszerűsíti a képzési csővezetéket azáltal, hogy az objektumérzékelést közvetlen előrejelzési problémának tekinti. Ezenkívül transzformátorokon alapuló kódoló-dekóder architektúrát alkalmaz.

nyílt forráskódú számítógépes Látásprojektek-Objektumfelismerés DETR - rel

ha többet szeretne tudni a DERT-ről, itt van a papír és a Colab notebook.

diverzifikálja portfólióját a következő nyílt forráskódú adatkészletek segítségével az objektumok észleléséhez:

  1. képek megnyitása

    az Open Image egy ~9 millió képből álló adatkészlet, amely képszintű címkékkel, objektumhatároló dobozokkal, objektumszegmentációs maszkokkal, vizuális kapcsolatokkal és lokalizált narratívákkal van ellátva. Az adatkészlet egy képzési készletre (9 011 219 kép), egy érvényesítési készletre (41 620 kép) és egy tesztkészletre (125 436 kép) van felosztva.

  2. MS-COCO

    az MS-COCO egy nagyméretű adatkészlet, amelyet népszerűen használnak objektum-észlelési problémákhoz. 330 ezer képből áll, 80 objektumkategóriával, képenként 5 felirattal, 250 000 fő pedig kulcsfontosságú pontokkal.

az Objektumérzékelésről az alábbi források segítségével tudhat meg többet:

  • egy lépésről-lépésre Bevezetés Az alapvető objektum-észlelési algoritmusok
  • Gyakorlati útmutató az objektum-észleléshez a népszerű YOLO keretrendszer használatával
  • a Facebook AI elindítja a DEtection TRansformer (DETR) – transzformátor alapú objektum-észlelési megközelítést!

nyílt forráskódú számítógépes Látásprojektek a szemantikai Szegmentáláshoz

amikor a számítógépes látástechnológia teljes jelenetmegértéséről beszélünk, a szemantikai szegmentáció jön a képbe. A feladat a kép összes képpontjának osztályozása az objektumok megfelelő osztályaiba.

 nyílt forráskódú számítógépes Látásprojektek-szemantikai szegmentálás

az alábbiakban felsoroljuk a nyílt forráskódú adatkészleteket a téma gyakorlásához:

  1. CamVid

    ez az adatbázis az egyik első szemantikailag szegmentált adatkészlet, amelyet kiadtak. Ezt gyakran használják a (valós idejű) szemantikai szegmentációs kutatásokban. Az adatkészlet tartalmazza:

    • 367 képzési Párok
    • 101 validációs Párok
    • 233 tesztpár
  2. Cityscapes

    ez az adatkészlet az eredeti városképek feldolgozott részmintája. Az adatkészlet állókép az eredeti videókból, a szemantikai szegmentációs címkék pedig az eredeti kép mellett képeken jelennek meg. Ez az egyik legjobb adatkészlet a szemantikai szegmentálási feladatokhoz. 2975 képzési képfájlt és 500 érvényesítési képfájlt tartalmaz, amelyek mindegyike 256 612 Pixel

a szemantikai szegmentálásról további információkért a következő cikket ajánlom:

  • szemantikus szegmentálás: Bevezetés a mély tanulási technikába a Google Pixel kamerája mögött!

Íme néhány papír elérhető kód szemantikai szegmentálás:

  • Encoder-dekóder Atrous elválasztható Konvolúcióval a szemantikus kép szegmentálásához
  • DeepLab: Szemantikus Képszegmentálás mély konvolúciós hálókkal, Atrous Konvolúcióval és teljesen összekapcsolt CRF-ekkel

nyílt forráskódú számítógépes Látásprojektek közúti sávok észlelésére autonóm járművekben

az autonóm autó olyan jármű, amely képes érzékelni a környezetét, és emberi beavatkozás nélkül működik. Létrehoznak és fenntartanak egy térképet a környezetükről a különböző érzékelők alapján, amelyek illeszkednek a jármű különböző részeibe.

ezek a járművek radarérzékelőkkel rendelkeznek, amelyek figyelik a közeli járművek helyzetét. Míg a videokamerák észlelik a közlekedési lámpákat, leolvassák az útjelző táblákat, nyomon követik a többi járművet, és a Lidar (light detection and ranging) érzékelők visszaverik a fényimpulzusokat az autó környezetéből a távolságok mérésére, az út széleinek észlelésére és a sávjelzések azonosítására

a Sávérzékelés fontos része ezeknek a járműveknek. A közúti közlekedésben a sáv egy olyan úttest része, amelyet egyetlen járműsor használ a járművezetők irányítására és irányítására, valamint a forgalmi konfliktusok csökkentésére.

ez egy izgalmas projekt, amelyet hozzá kell adni az adattudós önéletrajzához. Az alábbiakban bemutatunk néhány kísérletezhető adatkészletet-

  1. TUsimple

    ez az adatkészlet a Tusimple Lane Detection Challenge része volt. 3626 videoklipet tartalmaz, amelyek mindegyike 1 másodperces időtartamú. Ezen Videoklipek mindegyike 20 képkockát tartalmaz, jegyzetekkel ellátott utolsó képkockával. Képzési és tesztadatkészletekből áll, amelyek 3626 videoklipet, 3626 annotált keretet tartalmaznak a képzési adatkészletben, és 2782 videoklipet tesztelésre.

abban az esetben, ha valamilyen bemutatót keres a projekt fejlesztéséhez, ellenőrizze az alábbi cikket-

  • gyakorlati bemutató a valós idejű Sávérzékelésről az OpenCV (Self-Driving Car Project segítségével!)

nyílt forráskódú számítógépes Látásprojektek Képaláíráshoz

kívántál már valaha olyan technológiát, amely feliratozhatja a közösségi média képeit, mert sem te, sem a barátaid nem képesek hűvös felirattal előállni? A képaláíráshoz szükséges mély tanulás megmentésre kerül.

A képaláírás a kép szöveges leírásának előállítása. Ez egy kombinált feladat a számítógépes látás és a természetes nyelvi feldolgozás (NLP).

a számítógépes látásmód segíti a funkció megértését és kinyerését a bemeneti képekből. Ezenkívül az NLP a képet a szavak helyes sorrendjében szöveges leírássá alakítja.


az alábbiakban bemutatunk néhány hasznos adatkészletet, amelyekkel a képaláírással bepiszkolhatja a kezét:

  1. COCO Caption

    a COCO nagyméretű objektumfelismerés, szegmentálás és feliratozási adatkészlet. 330 ezer képből áll (>200 ezer címkével), 1,5 millió objektumpéldánnyal és 80 objektumkategóriával, képenként 5 felirattal.

  2. Flicker 8k adatkészlet

    ez egy képfelirat korpusz, amely 158 915 tömegből származó feliratból áll, amelyek 31 783 képet írnak le. Ez a Flickr 8k adatkészlet kiterjesztése. Az új képek és feliratok a mindennapi tevékenységeket és eseményeket végző emberekre összpontosítanak.

ha a projekt megvalósítását keresi, javaslom, hogy nézze meg a következő cikket:

  • automatikus Képaláírás a mély tanulás (CNN és LSTM) a PyTorch

is, azt javaslom, hogy menjen át ezt a kiemelkedő papírt Képaláírás.

nyílt forráskódú számítógépes Látásprojektek az emberi Pózbecsléshez

az emberi Pózbecslés a számítógépes látás érdekes alkalmazása. Biztosan hallottál a Posenetről, amely egy nyílt forráskódú modell az emberi póz becsléséhez. Röviden, a póz becslés egy számítógépes látási technika a képen/videóban jelen lévő személy vagy tárgy pózának következtetésére.

mielőtt megvitatnánk a pózbecslés működését, először értsük meg az emberi Pózvázat. A koordináták halmaza határozza meg a személy pózát. Egy pár koordináták egy végtag. Továbbá a póz becslést az emberek pózvázának kulcsfontosságú pontjainak azonosításával, helymeghatározásával és nyomon követésével végezzük egy képen vagy videón.

forrás

az alábbiakban bemutatunk néhány adatkészletet, ha pózbecslési modellt szeretne kidolgozni:

  1. MPII

    az Mpii Human Pose dataset a legkorszerűbb referenciaérték a csuklós emberi pózbecslés értékeléséhez. Az adatkészlet körülbelül 25 ezer képet tartalmaz, amelyek több mint 40 ezer embert tartalmaznak jegyzetekkel ellátott testízületekkel. Összességében az adatkészlet 410 emberi tevékenységet ölel fel, és minden kép tevékenységcímkével rendelkezik.

  2. HUMANEVA

a HumanEva-I adatkészlet 7 kalibrált videó szekvenciát tartalmaz, amelyek szinkronizálva vannak a 3D testhelyzetekkel. Az adatbázis 4 alanyt tartalmaz, akik 6 közös műveletet hajtanak végre (pl. séta, kocogás, intett stb.), amelyek képzési, érvényesítési és tesztelési készletekre vannak felosztva.

találtam Deeppose a Google, mint egy nagyon érdekes kutatási papír segítségével mély tanulási modellek jelentenek becslés. Ezen felül, akkor látogasson el több kutatási papírokat elérhető a póz becslés, hogy jobban megértsük.

nyílt forráskódú számítógépes Látásprojektek az érzelmek felismerésére arckifejezéseken keresztül

az arckifejezések létfontosságú szerepet játszanak a nem verbális kommunikáció folyamatában, valamint egy személy azonosításában. Nagyon fontosak az ember érzelmeinek felismerésében. Következésképpen az arckifejezésekre vonatkozó információkat gyakran használják az érzelmek felismerésének automatikus rendszereiben.

az érzelmek felismerése kihívást jelentő feladat, mivel az érzelmek a környezettől, a megjelenéstől, a kultúrától és az arcreakciótól függően változhatnak, ami kétértelmű adatokhoz vezet.

az arckifejezés-felismerő rendszer egy többlépcsős folyamat, amely arcképfeldolgozásból, funkciókivonásból és osztályozásból áll.

forrás

az alábbiakban egy adatkészlet, amelyen gyakorolhat:

  1. valós affektív arcok adatbázisa

a Real-world Affective Faces Database (RAF-DB) egy nagyszabású arckifejezési adatbázis, amely körülbelül 30 ezer nagyszerű arcképet tartalmaz. Ez áll a 29672 valós képek, 7 dimenziós kifejezés Eloszlás vektor minden kép,

elolvashatja ezeket a forrásokat, hogy növelje a megértést tovább-

  • Frame attention networks for arckifejezés felismerés in videos
  • Region Attention Networks for Pose and Occlusion robusztus arckifejezés felismerés

End Notes

befejezésül, ebben a cikkben 10 érdekes számítógépes látásprojektet tárgyaltunk, amelyeket kezdőként megvalósíthat. Ez nem kimerítő lista. Tehát, ha úgy érzi, hogy hiányzott valami, nyugodtan adja hozzá az alábbi megjegyzéseket!

itt is felsorolok néhány hasznos önéletrajzot, amelyek segítenek felfedezni a mély tanulás és a számítógépes látás világát:

  • itt van a tanulási út a számítógépes látás elsajátításához 2020-ban
  • számítógépes látás a Deep Learning 2.0 tanfolyam segítségével
  • tanúsított Program: Számítógépes látás kezdőknek
  • első lépések a neurális hálózatokkal (ingyenes)
  • konvolúciós neurális hálózatok (CNN) a semmiből (ingyenes)

van egy csomó különbség az adatok tudomány tanulunk tanfolyamok és önálló gyakorlat és az egyik dolgozunk az iparban. Azt javaslom, hogy menjen át ezeken a kristálytiszta ingyenes tanfolyamokon, hogy mindent megértsen az elemzésről, a gépi tanulásról és a mesterséges intelligenciáról:

  1. Bevezetés Az AI / ML ingyenes tanfolyam/mobilalkalmazásba
  2. Bevezetés Az AI | ML-be az üzleti vezetők számára mobilalkalmazás
  3. Bevezetés Az üzleti elemzésbe ingyenes tanfolyam / mobilalkalmazás

remélem hasznosnak találja a vitát. Most rajtad a sor, hogy egyedül kezdd el a számítógépes látás megvalósítását.

azt is olvassa el ezt a cikket a mobil APP Szerezd meg a Google Playen

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.