18 All-Time Classic Open Source Computer Vision Projektů pro Začátečníky
- Přehled
- Úvod
- 18 Open Source Computer Vision Projekty jsou Rozděleny do těchto Kategorií:
- Open-Source Computer Vision Projektů pro Klasifikaci Snímku
- Cifar 10
- ImageNet
- Open-Source Computer Vision Projekty pro Rozpoznávání Tváří,
- MegaFace
- Označené tváří v divoké domů
- Open-Source Computer Vision Projekty pro Neuronové Styl Převod Pomocí GANs
- COCO dataset
- ImageNet
- Open-Source Computer Vision Projekty na Scénu Text Detekce
- SVHN
- SceneText Dataset
- Open-Source Computer Vision Projekty pro Detekci Objektů s DETR
- Otevřít Obrázky
- MS-Coco
- Open-Source Computer Vision Projekty pro Sémantické Segmentace
- CamVid
- městských panoramat
- Open-Source Computer Vision Projektů pro Silniční Varování Detekce v Autonomní Vozidla
- TUsimple
- Open-Source Computer Vision Projekty pro Image Captioning
- COCO Titulek
- Blikání 8k dataset
- Open-Source projekty počítačového vidění pro odhad lidské pózy
- MPII
- HUMANEVA
- Open-Source projekty počítačového vidění pro rozpoznávání emocí pomocí výrazů obličeje
- v Reálném světě Afektivní Tváře Databáze
- Poznámky
Přehled
- , Open source computer vision projekty jsou skvělý segway na přistání roli v hluboké učení průmyslu
- Začít pracovat na těchto 18 populární a all-time klasický open source computer vision projects
Úvod
Počítačové vidění aplikací jsou všudypřítomné teď. Upřímně si nepamatuji, kdy jsem naposledy prošel celý den, aniž bych se setkal nebo interagoval s alespoň jedním případem použití počítačového vidění (Ahoj rozpoznávání obličeje na mém telefonu!).
ale tady je věc-lidé, kteří se chtějí naučit počítačové vidění, mají tendenci uvíznout v teoretických koncepcích. A to je ta nejhorší cesta, kterou se můžete vydat! Abychom se skutečně naučili a zvládli počítačové vidění, musíme kombinovat teorii s praxí.
a to je místo, kde projekty počítačového vidění s otevřeným zdrojovým kódem přicházejí. Nemusíte strávit desetník procvičit své dovednosti počítačového vidění-můžete to udělat sedí přesně tam, kde jste právě teď!
Takže v tomto článku jsem se spojí a vytvořil seznam Open-Source Computer Vision projektů na základě různých aplikací počítačového vidění. Je toho hodně, co projít, a to je docela komplexní seznam, takže pojďme kopat!
pokud jste v počítačovém vidění a hlubokém učení zcela noví a dáváte přednost učení ve formě videa, podívejte se na toto:
- Počítačové Vidění pomocí Hluboké Učení 2.0
18 Open Source Computer Vision Projekty jsou Rozděleny do těchto Kategorií:
- Klasifikaci
- Rozpoznávání Tváří,
- Nervové Styl Převod Pomocí GANs
- Scéna Text Detekce
- Detekce Objektů S DETR
- Sémantické Segmentace
- Silniční Varování Detekce v Autonomní Vozidla
- Obrázek:
- Lidská Představují Odhad Projektů
- Rozpoznávání Emocí prostřednictvím mimiky
Open-Source Computer Vision Projektů pro Klasifikaci Snímku
klasifikace Obrazu je základním úkolem v počítačovém vidění. Zde je cílem klasifikovat obrázek přiřazením konkrétního štítku. Pro nás lidi je snadné pochopit a klasifikovat obrázky, které vidíme. Ale případ je pro stroj velmi odlišný. Pro stroj je obtížné rozlišovat mezi autem a slonem.
Zde jsou dva z nejvýznamnějších open-source projektů pro klasifikaci snímku:
-
Cifar 10
CIFAR-10 datové sady je kolekce obrazů, které jsou běžně používány k vlaku strojového učení a počítačového vidění algoritmy. Je to jeden z nejpopulárnějších datových souborů pro výzkum strojového učení. Obsahuje 60 000, 32×32 barevných obrázků v 10 různých třídách. Třídy představují letadla, auta, ptáci, kočky, jeleni, psi, žáby, koně, lodě, a nákladní automobily.
-
ImageNet
dataset ImageNet je rozsáhlá vizuální databáze pro použití ve výzkumu počítačového vidění. Více než 14 milionů snímky byly ručně anotovány podle projektu uveďte, co jsou objekty na snímku a alespoň jeden milion obrázků, ohraničující boxy jsou také k dispozici. ImageNet obsahuje více než 20 000 kategorií!
jako začátečník můžete začít s neuronovou sítí od nuly pomocí Keras nebo PyTorch. Pro lepší výsledky a zvýšení úrovně učení doporučuji používat Transferové učení prostřednictvím předem vyškolených modelů, jako jsou VGG-16, Restnet-50, Googlenet atd.
doporučuji projít níže uvedený článek, abyste se dozvěděli více o klasifikaci obrázků:
- Top 4 Pre-Vyškoleni Modelů pro Klasifikaci Snímku s Python Kód
já bych také naznačují, prochází pod papíry pro lepší pochopení klasifikace obrazu:
- ImageNet Klasifikace s Hlubokým Konvoluční Neuronové Sítě
- Hlouběji se Závity
- Hluboké Zbytkové Učení pro Rozpoznávání Obrazu
rozpoznávání Obličeje je jedním z předních aplikací počítačového vidění. Používá se pro zabezpečení, dohled nebo při odemykání zařízení. Úkolem je identifikovat tváře v obrázku nebo videu proti již existující databázi. Můžeme použít metody hlubokého učení, abychom se naučili rysy tváří a rozpoznali je.
To je multi-dvoustupňový proces, sestávající z následujících kroků:
- Detekce Obličeje: To je první krok a spočívá v umístění jednoho nebo více obličejů přítomných ve vstupní obrázek nebo video.
- zarovnání obličeje: zarovnání normalizuje vstupní plochy tak, aby byly geometricky konzistentní s databází.
- extrakce funkcí: později jsou extrahovány funkce, které lze použít v rozpoznávací úloze.
- rozpoznávání funkcí: proveďte shodu vstupních funkcí s databází.
následující open-source datové sady vám dobré expozice rozpoznávání obličeje-
-
MegaFace
MegaFace je rozsáhlé veřejné rozpoznávání obličeje školení dataset, která slouží jako jeden z nejdůležitějších kritérií pro komerční rozpoznávání obličeje problémy. To zahrnuje 4,753,320 tváře 672,057 identity
-
Označené tváří v divoké domů
Označené Tváří v Přírodě (LFW) je databáze, fotografie obličeje, určené pro studium na problém neomezené rozpoznávání obličeje. Má 13 233 obrázků 5 749 lidí, které byly detekovány a shromážděny z webu. Taky, 1,680 lidí na snímku mají dvě nebo více odlišných fotografií v datovém souboru.
kromě toho můžete pro posunutí projektu do pokročilé fáze použít předem vyškolené modely, jako je Facenet.
Facenet je hluboké učení model, který poskytuje jednotné embeddings pro rozpoznávání obličeje, ověření a shlukování úkol. Síť mapuje každý obraz obličeje v euklidovském prostoru tak, že vzdálenost mezi podobnými obrazy je menší.
Zdroj
můžete snadno použít pre-vyškoleni Facenet modely jsou k dispozici v Keras a PyTorch, aby se vaše vlastní systém rozpoznávání obličejů.
k dispozici jsou některé další nejmodernější modely rozpoznávání obličeje, se kterými můžete experimentovat. Deepface je hluboká síť založená na CNN vyvinutá výzkumníky Facebook. Byl to významný milník v používání hlubokého učení v úloze rozpoznávání obličeje.
lépe pochopit vývoj v technologii rozpoznávání obličeje v posledních 30 letech, bych povzbudit, abyste si přečetli zajímavý článek s názvem:
- Deep Face Recognition: Průzkum
Open-Source Computer Vision Projekty pro Neuronové Styl Převod Pomocí GANs
Nervové styl transfer je technologie počítačového vidění, který obnoví obsah z jednoho obrazu ve stylu druhého obrazu. Jedná se o aplikaci generativní kontradiktorní sítě (GAN). Zde jsme se dva obrázky – obsah, image a styl, referenční obraz a míchat je dohromady tak, že výstupní obraz vypadá jako obsah obraz maloval ve stylu referenční obraz.
to je realizováno optimalizací statistiky obsahu výstupního obrazu shody s obrázkem obsahu a statistiky stylu s referenčním obrázkem stylu.
Zdroj
Tady je seznam některých super datových souborů do praxe:
-
COCO dataset
“COCO je velký-měřítko detekce objektů, segmentace, a titulky dataset. Obrázky v datovém souboru jsou každodenní předměty zachycené z každodenních scén. Dále poskytuje označování více objektů, anotace segmentační masky, titulky obrázků a detekci klíčových bodů s celkem 81 kategoriemi, což z něj činí velmi univerzální a víceúčelový datový soubor.
-
ImageNet
- už jsme to zmínili výše-ImageNet je neuvěřitelně flexibilní!
v případě, že vás zajímá, jak implementovat model přenosu stylu, zde je návod TensorFlow, který vám může pomoci. Taky, navrhuji, abyste si přečetli následující dokumenty, pokud se chcete hlouběji ponořit do technologie:
- Naučil Zastoupení Pro Umělecký Styl
- Nepárové Image-pro-Image Překlad pomocí Cyklu-v souladu Sporné Sítí
- Obrazový Styl Převod Pomocí Konvoluční Neuronové Sítě
Open-Source Computer Vision Projekty na Scénu Text Detekce
rozpoznání textu v dané scéně je další velmi zajímavý problém. Text scény je text, který se objevuje na snímcích pořízených kamerou ve venkovním prostředí. Například poznávací značky automobilů na silnicích, billboardy na silnici atd.
text v obrazech scény se liší tvarem, písmem, barvou a polohou. Komplikace v rozpoznávání scénického textu se dále zvyšuje nerovnoměrným osvětlením a zaostřením.
tyto populární soubory dat vám pomůže obohatit své dovednosti v analýze Scény Text Detekce:
-
SVHN
Street View Čísla domů (SVHN) dataset je jedním z nejpopulárnějších open source datové soubory tam. Byl použit v neuronových sítích vytvořených společností Google ke čtení čísel domů a jejich přiřazení k jejich geolokacím. To je skvělý benchmark dataset, hrát, učit se a trénovat modely, které přesně identifikovat ulici čísel. Tato datová sada obsahuje více než 600k označené real-world obrazy čísel domů pořízených z Google Street View.
-
SceneText Dataset
scéna, text, datový soubor se skládá z 3000 snímků pořízených v různých prostředích, včetně venkovní a vnitřní scény za různých světelných podmínek. Snímky byly pořízeny buď pomocí digitálního fotoaparátu s vysokým rozlišením nebo fotoaparátu mobilního telefonu s nízkým rozlišením. Kromě toho byly všechny obrázky změněny na velikost 640×480.
detekce textu scény je dále dvoufázový proces spočívající v detekci textu v rozpoznávání obrazu a textu. Pro detekci textu jsem našel nejmodernější metodu hlubokého učení EAST (Efficient Accurate Scene text Detector). Může najít vodorovné a otočené ohraničující krabice. Můžete jej použít v kombinaci s jakoukoli metodou rozpoznávání textu.
Zde jsou některé další zajímavé dokumenty na scénu text, detekce:
- rozpoznání Textu v Přírodní Obraz s Konekcionistické Text Návrhu Sítě
- COCO-Text: Dataset a Měřítko pro Text Detekce a Rozpoznávání v Přírodní Obrazy
Open-Source Computer Vision Projekty pro Detekci Objektů s DETR
detekce Objektů je úkolem předpovídat každý objekt zájmu přítomné v obrazu pomocí vymezovacího rámečku spolu s správné štítky na nich.
před několika měsíci Facebook otevřel svůj object detection framework-DEtection TRansformer (DETR). DETR je efektivní a inovativní řešení problémů detekce objektů. Zefektivňuje tréninkové potrubí zobrazením detekce objektů jako problému přímé predikce sady. Dále přijímá architekturu kodéru-dekodéru založenou na transformerech.
vědět více o DERT, zde je papír a Colab notebook.
Diverzifikovat své portfolio tím, že pracuje na následujících open-source datové sady pro detekci objektů:
-
Otevřít Obrázky
Otevřít Obrázek je soubor údajů o ~9M obrázky komentovaný s obrazem na úrovni štítky, objekt ohraničující boxy, objekt segmentace masky, vizuální vztahy a lokalizované vyprávění. Datový soubor je rozdělen do trénovací množiny (9,011,219 obrázky), validační set (41,620 obrázky), a test set (125,436 obrazy).
-
MS-Coco
MS-Coco je rozsáhlá datová sada populárně používaná pro problémy s detekcí objektů. Skládá se z 330k obrázků s 80 kategoriemi objektů, které mají 5 titulků na obrázek a 250 000 lidí s klíčovými body.
můžete Si přečíst následující zdroje se dozvědět více o Detekci Objektů:
- Krok-za-Krokem Úvod k Základní Detekci Objektů Algoritmy
- Praktický Průvodce k Detekci Objektů pomocí Populární YOLO Rámec
- Facebook AI Spustí Detekce Transformátor (DETR) – Transformátor na základě Detekce Objektu Přístup!
Open-Source Computer Vision Projekty pro Sémantické Segmentace
Když mluvíme o kompletní scénu pochopení počítačového vidění technologie, sémantické segmentace přichází do obrazu. Úkolem je klasifikovat všechny pixely v obraze do příslušných tříd objektů.
Níže je seznam open-source datové sady do praxe toto téma:
-
CamVid
tato databáze je jedním z prvních sémanticky segmentovaných datových souborů, které mají být uvolněny. To se často používá ve výzkumu sémantické segmentace (v reálném čase). Dataset obsahuje:
- 367 školení dvojici
- 101 ověření dvojici
- 233 zkušební páry
-
městských panoramat
Tato datová sada je zpracována podvzorek z původních městských panoramat. Datová sada obsahuje statické obrázky z původních videí a štítky sémantické segmentace jsou zobrazeny na obrázcích vedle původního obrázku. Toto je jeden z nejlepších datových souborů pro úkoly sémantické segmentace. To má 2975 školení, obrázky, soubory a 500 validace obrazové soubory, a každý z 256×512 pixelů
číst dále o sémantické segmentace, já doporučuji následující článek:
- Sémantické Segmentace: Úvod do Hluboké Techniky Učení, Za Google Pixel Fotoaparát!
Tady jsou nějaké dokumenty k dispozici s kódem pro sémantické segmentace:
- Kodér-Dekodér s Atrous Oddělitelné Konvoluce pro Sémantické Segmentace Obrazu
- DeepLab: Sémantické Segmentace Obrazu s Hlubokou Konvoluční Sítě, Atrous Konvoluce, a Plně Připojen kombinované chladničky s mrazničkou,
Open-Source Computer Vision Projektů pro Silniční Varování Detekce v Autonomní Vozidla
autonomní auto je vozidlo schopné snímání jeho prostředí a provozu bez lidské účasti. Vytvářejí a udržují mapu svého okolí na základě různých senzorů, které se vejdou do různých částí vozidla.
tato vozidla mají radarové senzory, které monitorují polohu okolních vozidel. Zatímco video kamery, detekci dopravních světel, čtení dopravních značek, sledování ostatních vozidel a Lidar (light detection and ranging) senzory odrazit pulsy světla z auta, je okolí pro měření vzdálenosti, detekci silniční okraje, a identifikovat značení jízdního pruhu
Varování detekce je důležitou součástí těchto vozidel. V silniční dopravě, pruh je část vozovky, která je určena k být použit pouze jeden řádek vozidel kontrolovat a řídit řidičů a snižování dopravní konflikty.
je to vzrušující projekt, který můžete přidat do životopisu vašeho vědce. Následující jsou některé datové soubory dostupné experimentovat s-
-
TUsimple
Tento dataset byl součástí Tusimple Varování Detekce Výzvu. Obsahuje 3626 videoklipů o délce 1 sekundy. Každý z těchto videoklipů obsahuje 20 snímků s komentovaným posledním snímkem. Skládá se z tréninkových a testovacích datových sad s 3626 videoklipy, 3626 anotovanými snímky v datovém souboru školení a 2782 videoklipů pro testování.
V případě, se díváte na nějaký tutorial pro rozvoj projektu, podívejte se na článek níže-
- Hands-On Kurz na Real-Time Varování Detekce pomocí OpenCV (Self-Driving Car Project!)
Open-Source Computer Vision Projekty pro Image Captioning
přáli jste si někdy, pro některé technologie, které by mohly titulek sociálních médií, obrázky, protože ani vy, ani vaši přátelé jsou schopni přijít s chladnou titulek? Hluboké učení pro titulky obrázků přichází k vaší záchraně.
titulek obrázku je proces generování textového popisu obrázku. Jedná se o kombinovaný úkol počítačového vidění a zpracování přirozeného jazyka (NLP).
metody počítačového vidění pomáhají pochopit a extrahovat funkci ze vstupních obrazů. Dále NLP převede obrázek na textový popis ve správném pořadí slov.
níže jsou uvedeny některé užitečné datové sady, které vám zašpiní ruce pomocí titulků obrázků:
-
COCO Titulek
COCO je velký-měřítko detekce objektů, segmentace, a titulky dataset. Skládá se z of330K obrázků (>200K označených) s 1.5 miliony instancí objektů a 80 kategorií objektů s 5 titulky na obrázek.
-
Blikání 8k dataset
To je obrázek, titulek korpusu skládající se z 158,915 dav-source titulky popisující 31,783 obrázky. Toto je rozšíření datasetu Flickr 8k. Nové obrázky a titulky se zaměřují na lidi, kteří dělají každodenní činnosti a události.
Pokud hledáte pro realizaci projektu, já doporučuji vám podívat se na následující článek:
- Automatic Image Captioning pomocí Hluboké Učení (CNN a LSTM) v PyTorch
Také, doporučuji vám projít si tento prominentní papír na Obrázek Titulky.
Open-Source projekty počítačového vidění pro odhad lidské pózy
odhad lidské pózy je zajímavou aplikací počítačového vidění. Určitě jste slyšeli o Posenetu, což je open-source model pro odhad lidské pózy. Stručně řečeno, pose estimation je technika počítačového vidění, která odvodí pózu osoby nebo objektu přítomného na obrázku / videu.
než budeme diskutovat o práci odhadu pózy, nejprve pochopíme “kostru lidské pózy”. Je to sada souřadnic pro definování pozice osoby. Dvojice souřadnic je končetina. Dále, odhad pozice se provádí identifikací, lokalizace, a sledování klíčových bodů člověka představují kostru v obraze nebo videu.
zdroj
níže jsou uvedeny některé datové sady, pokud chcete vytvořit model odhadu pozice:
-
MPII
MPII Lidské Představovat dataset je nejmodernější standard pro hodnocení kloubové lidských představují odhad. Datová sada obsahuje přibližně 25K obrázků obsahujících více než 40K lidí s komentovanými tělesnými klouby. Celkově datová sada zahrnuje 410 lidských aktivit a každý obrázek má štítek aktivity.
-
HUMANEVA
Na HumanEva-jsem dataset obsahuje 7 kalibrované video sekvence, které jsou synchronizovány s 3D tělo představuje. Databáze obsahuje 4 subjekty provádějící 6 běžných akcí (např. chůzi, jogging, gestikulace atd.).), které jsou rozděleny do tréninkových, validačních a testovacích sad.
Zjistil jsem, že DeepPose společností Google je velmi zajímavý výzkumný dokument využívající modely hlubokého učení pro odhad pozice. Kromě toho můžete navštívit několik výzkumných prací dostupných na odhadu pozice, abyste tomu lépe porozuměli.
výrazy obličeje hrají zásadní roli v procesu neverbální komunikace i při identifikaci osoby. Jsou velmi důležité při rozpoznávání emocí člověka. V důsledku toho se informace o výrazech obličeje často používají v automatických systémech rozpoznávání emocí.
rozpoznávání emocí je náročný úkol, protože emoce se mohou lišit v závislosti na prostředí, vzhledu, kultuře a reakci obličeje, což vede k nejednoznačným údajům.
systém rozpoznávání výrazu obličeje je vícestupňový proces sestávající ze zpracování obrazu obličeje, extrakce funkcí a klasifikace.
zdroj
níže je dataset, na kterém můžete cvičit:
-
v Reálném světě Afektivní Tváře Databáze
v Reálném světě Afektivní Tváře Databáze (RAF-DB) je ve velkém měřítku výraz obličeje databáze s kolem 30K skvělé-různorodé snímky obličeje. Skládá se z 29672 real-svět obrazů, a 7-dimenzionální vyjádření rozložení vektor pro každý obrázek,
můžete Si přečíst tyto zdroje, jak zvýšit své znalosti dále-
- Rám pozornost sítí pro výraz uznání ve videích
- Region Pozornosti Sítí pro Póze a Okluze Robustní Výraz Obličeje Uznání
Poznámky
Na závěr v tomto článku jsme diskutovali o 10 zajímavé počítačové vidění projektů můžete realizovat jako začátečník. Toto není vyčerpávající seznam. Takže pokud máte pocit, že jsme něco zmeškali, neváhejte přidat komentáře níže!
Také, zde jsem seznam dolů některé užitečné CV zdroje, které vám pomohou prozkoumat hluboké učení a Počítačového vidění světa:
- Tady je vaše Učení Cesta do hlavního Počítače Vize v roce 2020
- Počítačové Vidění pomocí Hluboké Učení 2.0 Kurz
- Certifikovaný Program: Počítačové Vidění pro Začátečníky
- začínáme S Neuronové Sítě (Zdarma)
-
Konvoluční Neuronové Sítě (CNN) od Nuly (Zdarma)
Tam je hodně rozdíl v datech vědě se učíme v kurzech a vlastní praxi, a jednou budeme pracovat v průmyslu. Doporučuji vám projít tyto křišťálově čisté bezplatné kurzy, abyste pochopili vše o analytice, strojové učení, a umělá inteligence:
- Úvod do AI/ML Zdarma Kurz | Mobilní aplikace
- Úvod do AI/ML pro Business Leaders Mobile app
- Úvod do Business Analytics Zdarma Kurz | Mobilní aplikace
doufám, že jste našli diskusi užitečné. Nyní je řada na vás, abyste zahájili implementaci počítačového vidění sami.
tento článek si také můžete přečíst v naší mobilní aplikaci