18 All-Time klassiske Open Source Computer Vision projekter for begyndere

oversigt

  • Open source computer vision projekter er en stor segmentvej til landing en rolle i deep learning industrien
  • begynd at arbejde på disse 18 populære og all-time klassiske open source computer vision projekter

introduktion

computer vision applikationer er allestedsnærværende lige nu. Jeg kan ærligt ikke huske sidste gang jeg gik igennem en hel dag uden at støde på eller interagere med mindst en computer vision use case (Hej ansigtsgenkendelse på min telefon!).

men her er sagen – folk, der ønsker at lære computersyn, har tendens til at sidde fast i de teoretiske begreber. Og det er den værste vej du kan gå! For virkelig at lære og mestre computersyn er vi nødt til at kombinere teori med praktisk erfaring.

og det er her open source computer vision projekter kommer ind. Du behøver ikke bruge en krone for at øve dine computervisionskompetencer – du kan gøre det siddende lige hvor du er lige nu!

open source computer vision projects

så i denne artikel har jeg samlet og oprettet en liste over Open Source Computer Vision projekter baseret på de forskellige anvendelser af computer vision. Der er meget at gå igennem, og dette er en ganske omfattende liste, så lad os grave ind!

hvis du er helt ny inden for computersyn og dyb læring og foretrækker at lære i videoform, så tjek dette ud:

  • Computer Vision ved hjælp af dyb læring 2.0

de 18 Open Source Computer Vision projekter er opdelt i disse kategorier:

  • Billedklassificering
  • ansigtsgenkendelse
  • Neural Stiloverførsel ved hjælp af GANs
  • Scenetekstdetektion
  • Objektdetektion med DETR
  • semantisk segmentering
  • detektion af vejbane i autonome køretøjer
  • billedtekst
  • Human pose Estimation projects
  • Følelsesgenkendelse gennem ansigtsudtryk

Open Source Computer Vision projects for image classification

image classification er en grundlæggende opgave i computer vision. Her er målet at klassificere et billede ved at tildele en bestemt etiket til det. Det er nemt for os mennesker at forstå og klassificere de billeder, vi ser. Men sagen er meget anderledes for en maskine. Det er en besværlig opgave for en maskine at skelne mellem en bil og en elefant.

her er to af de mest fremtrædende open source-projekter til billedklassificering:

  1. Cifar 10

    CIFAR-10 datasættet er en samling af billeder, der ofte bruges til at træne maskinindlæring og computersynsalgoritmer. Det er et af de mest populære datasæt til maskinindlæringsforskning. Den indeholder 60.000, 32 liter 32 Farvebilleder i 10 forskellige klasser. Klasserne repræsenterer fly, biler, fugle, katte, hjorte, hunde, frøer, heste, skibe og lastbiler.

  2. ImageNet

    ImageNet datasættet er en stor visuel database til brug i computer vision forskning. Mere end 14 millioner billeder er blevet kommenteret af projektet for at indikere, hvilke objekter der er afbildet, og i mindst en million af billederne er der også afgrænsningsbokse. ImageNet indeholder mere end 20.000 kategorier!

som nybegynder kan du starte med et neuralt netværk fra bunden ved hjælp af Keras eller PyTorch. For bedre resultater og øget læringsniveau vil jeg anbefale at bruge overførselsindlæring gennem præuddannede modeller som VGG-16, Restnet-50, Googlenet osv.

 open source computer vision projekter -

jeg anbefaler at gennemgå nedenstående artikel for at vide mere om billedklassificering:

  • Top 4 Præuddannede modeller til Billedklassificering med Python-kode

jeg vil også foreslå at gennemgå nedenstående papirer for en bedre forståelse af billedklassificering:

  • ImageNet klassifikation med dybe Convolutional neurale netværk
  • går dybere med Convolutions
  • Dyb Restlæring til billedgenkendelse

Open Source Computer Vision projekter til ansigtsgenkendelse

ansigtsgenkendelse er en af de fremtrædende anvendelser af computer vision. Det bruges til sikkerhed, overvågning eller til at låse dine enheder op. Det er opgaven at identificere ansigterne i et billede eller en video mod en allerede eksisterende database. Vi kan bruge dybe læringsmetoder til at lære funktionerne i ansigterne og genkende dem.

det er en flertrinsproces, der består af følgende trin:

  1. ansigtsgenkendelse: det er det første trin og involverer lokalisering af et eller flere ansigter, der findes i inputbilledet eller videoen.
  2. Ansigtsjustering: justering normaliserer inputfladerne for at være geometrisk konsistente med databasen.
  3. Funktionsekstraktion: senere udvindes funktioner, der kan bruges i genkendelsesopgaven.
  4. Funktionsgenkendelse: Udfør matchning af inputfunktionerne til databasen.

følgende open source datasæt giver dig god eksponering for ansigtsgenkendelse-

  1. MegaFace

    MegaFace er et stort offentligt ansigtsgenkendelsesuddannelsesdatasæt, der fungerer som et af de vigtigste benchmarks for kommercielle ansigtsgenkendelsesproblemer. Det inkluderer 4.753.320 ansigter med 672.057 identiteter

  2. mærkede ansigter i vilde hjem

    mærkede ansigter i naturen er en database med ansigtsfotografier designet til at studere problemet med ubegrænset ansigtsgenkendelse. Det har 13.233 billeder af 5.749 mennesker, der blev opdaget og indsamlet fra internettet. 1.680 af de afbildede personer har også to eller flere forskellige fotos i datasættet.

for at tage projektet til et avanceret stadium kan du desuden bruge præuddannede modeller som Facenet.

Facenet er en dyb læringsmodel, der giver ensartede indlejringer til ansigtsgenkendelse, verifikation og klyngeopgave. Netværket kortlægger hvert ansigtsbillede i euklidisk rum, således at afstanden mellem lignende billeder er mindre.

open source computer vision projects-facenet

kilde

du kan nemt bruge præuddannede Facenet – modeller tilgængelige i Keras og PyTorch til at lave dit eget ansigtsgenkendelsessystem.

der er nogle mere avancerede ansigtsgenkendelsesmodeller, du kan eksperimentere med. Deepface er et dybt CNN – baseret netværk udviklet af Facebook-forskere. Det var en vigtig milepæl i brugen af dyb læring i en ansigtsgenkendelsesopgave.

for bedre at forstå udviklingen inden for ansigtsgenkendelsesteknologi i de sidste 30 år vil jeg opfordre dig til at læse et interessant papir med titlen:

  • Dyb ansigtsgenkendelse: en undersøgelse

Open Source Computer Vision projekter til Neural style Transfer ved hjælp af GANs

Neural style transfer er en computer vision teknologi, der genskaber indholdet af et billede i stil med det andet billede. Det er en anvendelse af et generativt kontradiktorisk netværk (GAN). Her tager vi to billeder – et indholdsbillede og et stilreferencebillede og blander dem sammen, så outputbilledet ligner et indholdsbillede malet i stil med referencebilledet.

dette implementeres ved at optimere indholdsstatistikken for outputbillede, der matcher indholdsbilledet og Stilstatistikken til stilreferencebilledet.

 Open Source Computer Vision Projects-Neural Style Transfer Using GANs

Source

her er listen over nogle fantastiske datasæt til praksis:

  1. COCO datasæt

    “COCO er et stort objektdetekterings -, segmenterings-og billedtekstdatasæt. Billederne i datasættet er hverdagsobjekter taget fra hverdagsscener. Yderligere, det giver multi-objekt mærkning, segmentering maske anmærkninger, billedtekst, og nøglepunktsdetektion med i alt 81 kategorier, hvilket gør det til et meget alsidigt og multifunktionelt datasæt.

  2. ImageNet

    1. vi har allerede nævnt dette ovenfor – ImageNet er utroligt fleksibelt!

hvis du spekulerer på, hvordan du implementerer style transfer-modellen, er her en Tensorstrømsvejledning, der kan hjælpe dig. Jeg vil også foreslå, at du læser følgende papirer, hvis du vil grave dybere ned i teknologien:

  • en lært repræsentation for kunstnerisk stil
  • uparret billede-til-billede-oversættelse ved hjælp af Cykluskonsistente kontradiktoriske netværk
  • overførsel af billedstil ved hjælp af indviklede neurale netværk

Open Source Computervisionsprojekter til registrering af Scenetekst

detektion af tekst i en given scene er et andet meget interessant problem. Scenetekst er den tekst, der vises på de billeder, der er taget af et kamera i et udendørs miljø. For eksempel nummerplader af biler på veje, billboards på vejene osv.

teksten i scenebilleder varierer i form, skrifttype, farve og position. Komplikationen i genkendelse af scenetekst øges yderligere ved ikke-ensartet belysning og fokus.

 Open Source Computer Vision Projects-Scene tekst detektion

følgende populære datasæt vil hjælpe dig med at berige dine færdigheder i at analysere Scene tekst detektion:

  1. SVHN

    Gadevisningshusnumrene (SVHN) datasættet er et af de mest populære open source-datasæt derude. Det er blevet brugt i neurale netværk oprettet af Google til at læse husnumre og matche dem til deres geolokationer. Dette er et godt benchmark datasæt at lege med, Lære og træne modeller, der nøjagtigt identificerer gadenumre. Dette datasæt indeholder over 600k mærkede virkelige billeder af husnumre taget fra Google Gadevisning.

  2. Scenetekstdatasæt

    scenetekstdatasættet består af 3000 billeder taget i forskellige miljøer, herunder udendørs og indendørs scener under forskellige lysforhold. Billeder blev taget enten ved brug af et digitalkamera med høj opløsning eller et mobiltelefonkamera med lav opløsning. Desuden er alle billeder blevet ændret til 640 til 480.

desuden er scenetekstdetektering en totrinsproces, der består af Tekstdetektering i billedet og tekstgenkendelse. Til tekstdetektion fandt jeg en avanceret dyb læringsmetode øst (effektiv nøjagtig Scenetekstdetektor). Det kan finde vandrette og roterede afgrænsningsbokse. Du kan bruge den i kombination med enhver tekstgenkendelsesmetode.

her er nogle andre interessante papirer om scenetekstdetektering:

  • registrering af tekst i naturligt billede med Connectionist Tekstforslagsnetværk
  • COCO-tekst: datasæt og Benchmark for Tekstdetektering og genkendelse i naturlige billeder

Open Source Computer Vision projekter til objektdetektering med DETR

objektdetektering er opgaven med at forudsige hvert objekt af interesse, der er til stede i billedet gennem en afgrænsningsboks sammen med korrekte etiketter på dem.

for et par måneder tilbage åbnede Facebook sin objektdetekteringsramme-Detekteringstransformator (detr). DETR er en effektiv og innovativ løsning på objektdetekteringsproblemer. Det strømliner uddannelse pipeline ved at se objekt afsløring som et direkte sæt forudsigelse problem. Endvidere vedtager den en encoder-dekoder arkitektur baseret på trans-formere.

Open Source Computer Vision projekter-objekt detektion med detr

for at vide mere om dert, her er papir og Colab notesbog.

diversificer din portefølje ved at arbejde på følgende åbne datasæt til objektdetektering:

  1. Åbn billeder

    Åbn billede er et datasæt på ~9M billeder kommenteret med etiketter på billedniveau, objektgrænsefelter, objektsegmenteringsmasker, visuelle relationer og lokaliserede fortællinger. Datasættet er opdelt i et træningssæt (9.011.219 billeder), et valideringssæt (41.620 billeder) og et testsæt (125.436 billeder).

  2. MS-COCO

    MS-COCO er et datasæt i stor skala, der populært bruges til objektdetekteringsproblemer. Den består af 330K billeder med 80 objektkategorier med 5 billedtekster pr.billede og 250.000 personer med nøglepunkter.

du kan læse følgende ressourcer for at lære mere om objektdetektering:

  • en trin – for-trin introduktion til de grundlæggende Objektdetekteringsalgoritmer
  • en praktisk Guide til objektdetektering ved hjælp af den populære YOLO-ramme
  • Facebook AI lancerer Detektionstransformator (detr) – en Transformatorbaseret Objektdetekteringsmetode!

Open Source Computer Vision projekter til semantisk segmentering

når vi taler om komplet sceneforståelse i computer vision teknologi, kommer semantisk segmentering ind i billedet. Det er opgaven at klassificere alle billedpunkter i et billede i relevante klasser af objekterne.

 Open Source Computer Vision projekter-semantisk segmentering

nedenfor er listen over open source datasæt til at øve dette emne:

  1. CamVid

    denne database er et af de første semantisk segmenterede datasæt, der frigives. Dette bruges ofte i (real-time)semantisk segmenteringsforskning. Datasættet indeholder:

    • 367 træningspar
    • 101 valideringspar
    • 233 testpar
  2. Cityscapes

    dette datasæt er en behandlet delprøve af originale bybilleder. Datasættet har stillbilleder fra de originale videoer, og de semantiske segmenteringsetiketter vises i billeder sammen med det originale billede. Dette er et af de bedste datasæt til semantiske segmenteringsopgaver. Det har 2975 uddannelse billedfiler og 500 Validering billedfiler hver af 256 kun 512 billedpunkter

for at læse videre om semantisk segmentering vil jeg anbefale følgende artikel:

  • semantisk segmentering: Introduktion til den dybe læringsteknik bag Googles kamera!

her er nogle papirer tilgængelige med kode til semantisk segmentering:

  • Encoder-dekoder med Atrous adskillelig foldning til semantisk Billedsegmentering
  • DeepLab: Semantisk Billedsegmentering med dybe Konvolutionsnet, Atrous konvolution og fuldt tilsluttede CRF ‘ er

Open Source Computervisionsprojekter til detektion af vejbaner i autonome køretøjer

en autonom bil er et køretøj, der er i stand til at registrere sit miljø og fungere uden menneskelig involvering. De opretter og vedligeholder et kort over deres omgivelser baseret på en række sensorer, der passer i forskellige dele af køretøjet.

disse køretøjer har radarsensorer, der overvåger placeringen af nærliggende køretøjer. Mens videokameraerne registrerer trafiklys, læser vejskilte, sporer andre køretøjer og Lidar (light detection and ranging) sensorer springer lysimpulser ud af bilens omgivelser for at måle afstande, registrere vejkanter og identificere banemarkeringer

Banedetektion er en vigtig del af disse køretøjer. I vejtransport er en bane en del af en kørebane, der er udpeget til at blive brugt af en enkelt køretøjslinje til at kontrollere og guide chauffører og reducere trafikkonflikter.

det er et spændende projekt at tilføje i din dataforskers CV. Følgende er nogle datasæt til rådighed til at eksperimentere med-

  1. TUsimple

    dette datasæt var en del af Tusimple Lane Detection Challenge. Den indeholder 3626 videoklip af 1-sek varighed hver. Hvert af disse videoklip indeholder 20 billeder med en kommenteret sidste ramme. Det består af Trænings-og testdatasæt med 3626 videoklip, 3626 annoterede rammer i træningsdatasættet og 2782 videoklip til test.

i tilfælde af at du leder efter en tutorial til udvikling af projektet, tjek artiklen nedenfor-

  • Hands-on Tutorial om Real-Time Lane afsløring ved hjælp af OpenCV (selvkørende bil projekt!)

Open Source Computer Vision projekter til billedtekst

har du nogensinde ønsket noget teknologi, der kunne Billedtekst dine sociale mediebilleder, fordi hverken du eller dine venner er i stand til at komme med en cool billedtekst? Dyb læring til billedtekst kommer til din redning.

billedtekst er processen med at generere en tekstbeskrivelse for et billede. Det er en kombineret opgave med computer vision og natural language processing (NLP).

Computer vision metoder hjælper med at forstå og udtrække funktionen fra inputbillederne. Endvidere konverterer NLP billedet til tekstbeskrivelsen i den rigtige rækkefølge af ord.


følgende er nogle nyttige datasæt for at få dine hænder beskidte med billedtekst:

  1. COCO Caption

    COCO er storskala objektdetektering, segmentering og billedtekst datasæt. Den består af of330K billeder (>200k mærket) med 1,5 millioner objektforekomster og 80 objektkategorier givet 5 billedtekster pr.

  2. Flicker 8k datasæt

    det er et billedtekstkorpus bestående af 158.915 billedtekster, der beskriver 31.783 billeder. Dette er en udvidelse af Flickr 8k datasæt. De nye billeder og billedtekster fokuserer på mennesker, der laver daglige aktiviteter og begivenheder.

hvis du leder efter gennemførelsen af projektet, vil jeg foreslå, at du ser på følgende artikel:

  • automatisk billedtekst ved hjælp af dyb læring (CNN og LSTM) i PyTorch

jeg foreslår også, at du gennemgår dette fremtrædende papir om billedtekst.

Open Source Computer Vision projekter til human Pose estimering

Human Pose estimering er en interessant anvendelse af Computer Vision. Du skal have hørt om Posenet, som er en open source-model til menneskelig positionsestimering. Kort sagt er positionsestimering en computervisionsteknik til at udlede posituren for en person eller et objekt, der er til stede i billedet/videoen.

før vi diskuterer arbejdet med positionsestimering, lad os først forstå ‘Human Pose skelet’. Det er sæt af koordinater til at definere en persons stilling. Et par koordinater er et lem. Yderligere, positionsestimering udføres ved at identificere, lokalisering, og sporing af nøglepunkterne for mennesker udgør skelet i et billede eller en video.

kilde

følgende er nogle datasæt, hvis du vil udvikle en pose estimeringsmodel:

  1. MPII

    MPII Human Pose datasæt er et avanceret benchmark for evaluering af artikuleret human pose estimering. Datasættet indeholder omkring 25k billeder, der indeholder over 40K personer med annoterede kropsled. Samlet set dækker datasættet 410 menneskelige aktiviteter, og hvert billede har en aktivitetsmærke.

  2. HUMANEVA

HumanEva – i-datasættet indeholder 7 kalibrerede videosekvenser, der er synkroniseret med 3D-kropsstillinger. Databasen indeholder 4 emner, der udfører 6 fælles handlinger (f.eks.), der er opdelt i trænings -, validerings-og testsæt.

jeg fandt Deeppose af Google som et meget interessant forskningsartikel ved hjælp af dybe læringsmodeller til positionsestimering. Derudover kan du besøge flere forskningsartikler, der er tilgængelige på positionsestimeringen for at forstå det bedre.

Open Source Computer Vision projekter til Følelsesgenkendelse gennem ansigtsudtryk

ansigtsudtryk spiller en afgørende rolle i processen med ikke-verbal kommunikation såvel som for at identificere en person. De er meget vigtige for at genkende en persons følelser. Derfor bruges information om ansigtsudtryk ofte i automatiske systemer til følelsesgenkendelse.

Følelsesgenkendelse er en udfordrende opgave, fordi følelser kan variere afhængigt af miljø, udseende, Kultur og ansigtsreaktion, hvilket fører til tvetydige data.

ansigtsgenkendelsessystemet er en flertrins proces, der består af ansigtsbilledbehandling, funktionsekstraktion og klassificering.

kilde

nedenfor er et datasæt, du kan øve på:

  1. virkelige verden affektive ansigter Database

virkelige verden Affective Faces Database (RAF-DB) er en storstilet ansigtsudtryk database med omkring 30k store-diverse ansigtsbilleder. Den består af 29672 virkelige billeder og 7-dimensionelle ekspressionsfordelingsvektor for hvert billede,

du kan læse disse ressourcer for at øge din forståelse yderligere-

  • ramme opmærksomhedsnetværk til ansigtsgenkendelse i videoer
  • Region Opmærksomhedsnetværk til positur og okklusion Robust ansigtsgenkendelse

slutnoter

for at konkludere, i denne artikel diskuterede vi 10 interessante computervisionsprojekter, du kan implementere som nybegynder. Dette er ikke en udtømmende liste. Så hvis du føler, at vi gik glip af noget, er du velkommen til at tilføje kommentarerne nedenfor!

også, her er jeg notering ned nogle nyttige CV ressourcer til at hjælpe dig med at udforske den dybe læring og Computer vision verden:

  • her er din læringssti til Master Computer Vision i 2020
  • Computer Vision ved hjælp af Deep Learning 2.0 kursus
  • Certificeret Program: Computer Vision for begyndere
  • Kom godt i gang med neurale netværk (Gratis)
  • Convolutional neurale netværk (CNN) fra bunden (gratis)

der er stor forskel på den datalogi, vi lærer i kurser og selvpraksis, og den, vi arbejder i branchen. Jeg vil anbefale dig at gennemgå disse krystalklare gratis kurser for at forstå alt om analyse, maskinindlæring og kunstig intelligens:

  1. Introduktion til AI / ML gratis kursus / mobil app
  2. Introduktion til AI/ML for virksomhedsledere mobil app
  3. Introduktion til Business Analytics gratis kursus | mobil app

jeg håber du finder diskussionen nyttig. Nu er det din tur at starte implementeringen af computervisionen alene.

du kan også læse denne artikel på vores Mobile APP få det på Google Play

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.