18 All-Time Classic Open Source Computer Vision Prosjekter For Nybegynnere

Oversikt

  • Open source computer vision prosjekter er en stor segway til landing en rolle i deep learning industrien
  • Begynn å jobbe med disse 18 populære og all-time klassiske open source computer vision prosjekter

Innledning

Computer Vision Applikasjoner Er Allestedsnærværende Akkurat Nå. Jeg kan ærlig talt ikke huske sist gang jeg gikk gjennom en hel dag uten å møte eller samhandle med minst en datasynssak (hei ansiktsgjenkjenning på telefonen min!).

men her er tingen – folk som ønsker å lære datasyn har en tendens til å bli sittende fast i de teoretiske konseptene. Og det er den verste veien du kan ta! For å virkelig lære og mestre datasyn, må vi kombinere teori med praktisk erfaring.

og det er her open source computer vision-prosjekter kommer inn. Du trenger ikke å bruke en krone for å øve dine datasyn ferdigheter – du kan gjøre det sitter akkurat der du er akkurat nå!

 open-source computer vision projects

så i denne artikkelen har jeg samlet og opprettet en liste Over Open-Source Computer Vision prosjekter basert på de ulike applikasjonene av computer vision. Det er mye å gå gjennom, og dette er ganske omfattende liste så la oss grave i!

hvis du er helt ny på datasyn og dyp læring og foretrekker å lære i videoform, sjekk dette ut:

  • Datasyn ved Hjelp Av Dyp Læring 2.0

De 18 Open Source Computer Vision-Prosjektene Er Delt inn i disse Kategoriene:

  • Bildeklassifisering
  • Ansiktsgjenkjenning
  • Overføring Av Nevrale Stiler Ved Hjelp Av GANs
  • Scenetekstgjenkjenning
  • Objektgjenkjenning med DETR
  • Semantisk Segmentering
  • Gjenkjenning Av Veibane i Autonome Kjøretøy
  • bildetekst
  • Estimeringsprosjekter For Menneskelige Positurer
  • Følelsesgjenkjenning Gjennom Ansiktsuttrykk

Åpen Kildekode-Datasynsprosjekter For Bildeklassifisering

BILDEKLASSIFISERING er en grunnleggende oppgave i datasyn. Her er målet å klassifisere et bilde ved å tildele en bestemt etikett til den. Det er lett for oss mennesker å forstå og klassifisere bildene vi ser. Men saken er veldig forskjellig for en maskin. Det er en tung oppgave for en maskin å skille mellom en bil og en elefant.

her er to av de mest fremtredende åpen kildekode-prosjekter for bilde klassifisering:

  1. Cifar 10

    cifar-10 datasettet er en samling bilder som ofte brukes til å trene maskinlæring og datasynalgoritmer. Det er et av de mest populære datasettene for maskinlæringsforskning. Den inneholder 60.000, 32×32 fargebilder i 10 forskjellige klasser. Klassene representerer fly, biler, fugler, katter, hjort, hunder, frosker, hester, skip og lastebiler.

  2. ImageNet

    ImageNet-datasettet er en stor visuell database for bruk i datasynsforskning. Mer enn 14 millioner bilder har blitt hånd-annotert av prosjektet for å indikere hvilke objekter som er avbildet og i minst en million av bildene, avgrensningsbokser er også gitt. ImageNet inneholder mer enn 20.000 kategorier!

som nybegynner kan du starte med et nevralt nettverk fra bunnen av Med Keras eller PyTorch. For bedre resultater og øke læringsnivået, vil jeg anbefale å bruke overføringslæring gjennom pre-trente modeller SOM VGG-16, Restnet – 50, Googlenet, etc.

 åpen kildekode datamaskin visjon prosjekter -

jeg anbefaler å gå gjennom artikkelen nedenfor for å vite mer om bildeklassifisering:

  • Topp 4 Pre-Trente Modeller For Bildeklassifisering med Python-Kode

jeg vil også foreslå å gå gjennom underpapirene for bedre forståelse av bildeklassifisering:

  • ImageNet Klassifisering Med Dype Convolutional Nevrale Nettverk
  • Går Dypere Med Convolutions
  • Dyp Gjenværende Læring For Bildegjenkjenning

Open-Source Datamaskin Visjon Prosjekter For Ansiktsgjenkjenning

Ansiktsgjenkjenning er en av de fremtredende anvendelser av datamaskinen visjon. Den brukes for sikkerhet, overvåking, eller i å låse opp enhetene dine. Det er oppgaven med å identifisere ansiktene i et bilde eller en video mot en eksisterende database. Vi kan bruke dype læringsmetoder for å lære funksjonene i ansiktene og gjenkjenne dem.

Det er en flertrinns prosess, bestående av følgende trinn:

  1. Ansiktsgjenkjenning: Det er det første trinnet og innebærer å finne ett eller flere ansikter som er tilstede i inngangsbildet eller videoen.
  2. Ansiktsjustering: Justering normaliserer inngangsflatene for å være geometrisk konsistente med databasen.
  3. Funksjonsutvinning: senere trekkes funksjoner ut som kan brukes i gjenkjenningsoppgaven.
  4. funksjonsgjenkjenning: Utfør matching av inngangsfunksjonene til databasen.

følgende datasett med åpen kildekode gir deg god eksponering for ansiktsgjenkjenning-

  1. MegaFace

    MegaFace er en storskala offentlig ansiktsgjenkjenning trening datasett som fungerer som en av de viktigste benchmarks for kommersielle ansiktsgjenkjenning problemer. Det inkluderer 4,753,320 ansikter av 672,057 identiteter

  2. Merket ansikter i vill hjem

    Merket Ansikter I Vill (LFW) Er en database med ansikt fotografier designet for å studere problemet med ubegrenset ansiktsgjenkjenning. Den har 13.233 bilder av 5.749 personer som ble oppdaget og samlet inn fra nettet. 1680 av personene på bildet har to eller flere distinkte bilder i datasettet.

I tillegg, for å ta prosjektet til et avansert stadium, kan du bruke pre-trente modeller Som Facenet.

Facenet Er en dyp læringsmodell som gir enhetlig innebygging for ansiktsgjenkjenning, verifisering og klyngeoppgave. Nettverket kartlegger hvert ansiktsbilde i euklidisk rom slik at avstanden mellom lignende bilder er mindre.

 open-source datamaskin visjon prosjekter-facenet

Kilde

du kan enkelt bruke pre-trent Facenet modeller tilgjengelig I Keras Og PyTorch å lage din egen ansiktsgjenkjenning system.

det er noen flere toppmoderne ansiktsgjenkjenningsmodeller tilgjengelig du kan eksperimentere med. Deepface er En Dyp cnn basert nettverk utviklet Av Facebook forskere. Det var en viktig milepæl i bruken av dyp læring i en ansiktsgjenkjenningsoppgave.

for bedre å forstå utviklingen i ansiktsgjenkjenningsteknologi de siste 30 årene, vil jeg oppfordre deg til å lese et interessant papir med tittelen:

  • Dyp Ansiktsgjenkjenning: En Undersøkelse

Åpen Kildekode-Datasynsprosjekter For Overføring Av Nevrale Stiler Ved Hjelp Av GANs

Overføring av Nevrale stiler er en datasynteknologi som gjenskaper innholdet i ett bilde i samme stil som Det andre bildet. Det Er en anvendelse Av Et Generativt Adversarial Nettverk (GAN). Her tar vi to bilder-et innholdsbilde og et stilreferansebilde og blander dem sammen slik at utgangsbildet ser ut som et innholdsbilde malt i referansebildets stil.

dette implementeres ved å optimalisere innholdsstatistikken for utgangsbilde som samsvarer med innholdsbildet og Stilstatistikken til stilreferansebildet.

Open-Source Datamaskin Visjon Prosjekter-Neural Stil Overføring Ved Hjelp GANs

Kilde

her er listen over noen awesome datasett å øve:

  1. COCO dataset

    ” COCO ER et datasett for objektgjenkjenning, segmentering og teksting i stor skala. Bildene i datasettet er hverdagsobjekter tatt fra hverdagslige scener. Videre gir det multi-objekt merking, segmentering maske merknader, bildeteksting, og nøkkel-punkt deteksjon med totalt 81 kategorier, noe som gjør det til en svært allsidig og multi-purpose datasett.

  2. ImageNet

    1. Vi har allerede nevnt dette ovenfor – ImageNet er utrolig fleksibelt!

hvis du lurer på hvordan du implementerer stiloverføringsmodellen, er Det en tensorflow-opplæring som kan hjelpe deg. Også, jeg vil foreslå at du leser følgende papirer hvis du vil grave dypere inn i teknologien:

  • En Lært Representasjon For Kunstnerisk Stil
  • Uparret Bilde-Til-Bilde-Oversettelse ved Hjelp Av Sykluskonsistente Adversarial Networks
  • Bildestil Overføring Ved Hjelp Av Convolutional Nevrale Nettverk

Åpen Kildekode Computer Vision Prosjekter For Scene Tekst Deteksjon

Oppdage tekst i en gitt scene er et annet veldig interessant problem. Scenetekst er teksten som vises på bildene tatt av et kamera i et utemiljø. For eksempel nummerskilt av biler på veier, reklametavler på veikanten, etc.

teksten i scenebilder varierer i form, skrift, farge og posisjon. Komplikasjonen i anerkjennelse av scenetekst øker ytterligere ved ujevn belysning og fokus.

 Open-Source Computer Vision Prosjekter-Scene Tekst Deteksjon

følgende populære datasett vil hjelpe deg å berike dine ferdigheter i å analysere Scene Tekst Deteksjon:

  1. SVHN

    Datasettet Street View House Numbers (SVHN) er et av de mest populære datasettene med åpen kildekode der ute. Det har blitt brukt i nevrale nettverk opprettet Av Google for å lese husnumre og matche dem til deres geolokasjoner. Dette er et flott referansedatasett å leke med, lære og trene modeller som nøyaktig identifiserer gatenumre. Dette datasettet inneholder over 600k merket virkelige bilder av husnumre tatt Fra Google Street View.

  2. SceneText Datasett

    scenetekst datasettet består av 3000 bilder tatt i forskjellige miljøer, inkludert utendørs og innendørs scener under forskjellige lysforhold. Bildene ble tatt enten ved bruk av et høyoppløselig digitalkamera eller et lavoppløselig mobiltelefonkamera. Videre har alle bildene blitt endret til 640×480.

videre er scenetekstdeteksjon en to-trinns prosess som består Av Tekstdeteksjon i bildet og tekstgjenkjenning. For tekstdeteksjon fant jeg en toppmoderne dyp læringsmetode ØST (Effektiv Nøyaktig Scenetekstdetektor). Den kan finne horisontale og roterte grensebokser. Du kan bruke den i kombinasjon med en hvilken som helst tekstgjenkjenningsmetode.

Her er noen andre interessante papirer på scene tekst deteksjon:

  • Oppdage Tekst I Naturlig Bilde Med Connectionist Text Proposal Network
  • COCO-Text: Datasett og Referanse For Tekstgjenkjenning Og Gjenkjenning I Naturlige Bilder

Åpen Kildekode-Datasynsprosjekter for Objektdeteksjon med DETR

Objektdeteksjon er oppgaven med å forutsi hvert objekt av interesse som er tilstede i bildet gjennom en markeringsramme sammen med riktige etiketter på dem.

For noen måneder tilbake Åpnet Facebook sin object detection framework-DEtection TRansformer (DETR). DETR er en effektiv og innovativ løsning på objektdeteksjonsproblemer. Det effektiviserer trening rørledningen ved å vise objektdeteksjon som en direkte sett prediksjon problem. Videre vedtar den en encoder-dekoderarkitektur basert på transformers.

Open-Source Computer Vision Prosjekter - Objekt Deteksjon med DETR

for å vite mer OM DERT, her er papir og Colab bærbare.

Diversifiser porteføljen din ved å arbeide på følgende åpne datasett for objektgjenkjenning:

  1. Åpne Bilder

    Åpne Bilder Er et datasett med ~9M bilder annotert med etiketter på bildenivå, objektbegrensningsbokser, objekts segmenteringsmasker, visuelle relasjoner og lokaliserte fortellinger. Datasettet er delt inn i et treningssett (9.011.219 bilder), et valideringssett (41.620 bilder) og et testsett (125.436 bilder).

  2. MS-COCO

    MS-COCO ER en stor skala datasett populært brukt for objekt deteksjon problemer. Den består AV 330k bilder med 80 objektkategorier som har 5 bildetekster per bilde og 250.000 personer med viktige punkter.

du kan lese følgende ressurser for å lære mer Om Objektgjenkjenning:

  • En Trinnvis Introduksjon Til De Grunnleggende Objektdeteksjonsalgoritmene
  • En Praktisk Guide Til Objektdeteksjon ved hjelp Av Det Populære Yolo-Rammeverket
  • Facebook AI Lanserer DEtection TRansformer (DETR) – En Transformatorbasert Objektdeteksjonstilnærming!

Open-Source Datamaskin Visjon Prosjekter For Semantisk Segmentering

når vi snakker om komplett scene forståelse i datamaskinen visjon teknologi, semantisk segmentering kommer inn i bildet. Det er oppgaven med å klassifisere alle pikslene i et bilde i relevante klasser av objektene.

 Open - Source Computer Vision Prosjekter-Semantisk Segmentering

Nedenfor er listen over open-source datasett for å praktisere dette emnet:

  1. CamVid

    denne databasen er et av de første semantisk segmenterte datasettene som skal utgis. Dette brukes ofte i (sanntids)semantisk segmenteringsforskning. Datasettet inneholder:

    • 367 treningspar
    • 101 valideringspar
    • 233 testpar
  2. Bylandskap

    dette datasettet er et bearbeidet underutvalg av originale bylandskap. Datasettet har stillbilder fra de opprinnelige videoene, og de semantiske segmenteringsetikettene vises i bilder sammen med det opprinnelige bildet. Dette er et av de beste datasettene rundt for semantiske segmenteringsoppgaver. Den har 2975 trening bildefiler og 500 validering bildefiler hver av 256×512 piksler

for å lese mer om semantisk segmentering, vil jeg anbefale følgende artikkel:

  • Semantisk Segmentering: Introduksjon Til Den Dype Læringsteknikken Bak Google Pixel Kamera!

her er noen papirer tilgjengelig med kode for semantisk segmentering:

  • Encoder-Dekoder Med Atrous Separerbar Konvolusjon For Semantisk Bildesegmentering
  • DeepLab: Semantisk Bildesegmentering Med Dype Konvolusjonsnett, Atrous Convolution Og Fullt Tilkoblede CRFs

Open-Source Datasynsprosjekter For Road Lane Deteksjon I Autonome Kjøretøy

en autonom bil er et kjøretøy som er i stand til å føle sitt miljø og operere uten menneskelig involvering. De lager og vedlikeholder et kart over omgivelsene basert på en rekke sensorer som passer inn i ulike deler av kjøretøyet.

disse kjøretøyene har radarsensorer som overvåker posisjonen til nærliggende kjøretøy. Mens videokameraene oppdager trafikklys, leser veiskilt, sporer andre kjøretøy og Lidar (light detection and ranging) sensorer spretter lyspulser av bilens omgivelser for å måle avstander, oppdage veikanter og identifisere filmarkeringer

Lane detection er en viktig del av disse kjøretøyene. I veitransport er en kjørefelt en del av en kjørebane som er utpekt til å bli brukt av en enkelt linje med kjøretøy for å kontrollere og veilede drivere og redusere trafikkkonflikter.

det er et spennende prosjekt å legge til i datavitenskapens cv. Følgende er noen datasett tilgjengelig for å eksperimentere med-

  1. TUsimple

    dette datasettet var en del av Tusimple Lane Detection Challenge. Den inneholder 3626 videoklipp av 1 sek varighet hver. Hvert av disse videoklippene inneholder 20 rammer med en annotert siste ramme. Den består av opplærings-og testdatasett med 3626 videoklipp, 3626 annoterte rammer i treningsdatasettet og 2782 videoklipp for testing.

I tilfelle du leter etter noen opplæring for å utvikle prosjektet, sjekk artikkelen under-

  • Hands-On Tutorial På Sanntid Lane Deteksjon Ved Hjelp Av OpenCV (Self-Driving Car Project!)

Open-Source Computer Vision Prosjekter For Bildetekst

Har Du noen gang ønsket noen teknologi som kan bildetekst dine sosiale medier bilder fordi verken du eller dine venner er i stand til å komme opp med en kul bildetekst? Dyp Læring for bildetekst kommer til din redning.

bildeteksting er prosessen med å generere en tekstbeskrivelse for et bilde. Det er en kombinert oppgave med datasyn og naturlig språkbehandling (nlp).

Computer vision metoder hjelpemiddel i å forstå og trekke ut funksjonen fra inngangs bilder. Videre konverterer NLP bildet til tekstbeskrivelsen i riktig rekkefølge av ord.


følgende er noen nyttige datasett for å få hendene skitne med bildetekst:

  1. COCO Caption

    COCO ER datasett for objektgjenkjenning, segmentering og teksting i stor skala. Den består av of330K bilder (> 200k merket) med 1,5 millioner objekt forekomster og 80 objektkategorier gitt 5 bildetekster per bilde.

  2. Flicker 8k datasett

    Det er et bildetekstkorpus bestående av 158 915 crowd-sourced bildetekster som beskriver 31 783 bilder. Dette er en utvidelse Av Flickr 8k Datasett. De nye bildene og bildetekstene fokuserer på folk som gjør hverdagslige aktiviteter og arrangementer.

hvis du er ute etter gjennomføringen av prosjektet, vil jeg foreslå at du ser på følgende artikkel:

  • Automatisk Bildetekst ved Hjelp Av Dyp Læring (Cnn Og LSTM) I PyTorch

jeg foreslår også at du går gjennom dette fremtredende papiret På Bildetekst.

Open-Source Computer Vision Prosjekter For Menneskelig Positur Estimering

Menneskelig Positur Estimering er en interessant anvendelse Av Datasyn. Du må ha hørt Om Posenet, som er en åpen kildekode-modell For Menneskelig positur estimering. Kort sagt, positur estimering er en datamaskin visjon teknikk for å antyde positur av en person eller objekt til stede i bildet / video.

før vi diskuterer arbeidet med positur estimering, la oss først forstå ‘Menneskelig Positur Skjelett’. Det er settet med koordinater for å definere stillingen til en person. Et par koordinater er et lem. Videre utføres positur estimering ved å identifisere, lokalisere og spore de viktigste punktene I Mennesker utgjør skjelett i Et Bilde eller en video.

Kilde

følgende er noen datasett hvis du vil utvikle en positur estimeringsmodell:

  1. MPII

    Mpii Human Pose datasett er en state of the art benchmark for evaluering av artikulert menneskelig positur estimering. Datasettet inneholder rundt 25K bilder som inneholder OVER 40K personer med annoterte kroppsledd. Totalt dekker datasettet 410 menneskelige aktiviteter, og hvert bilde har en aktivitetsmerke.

  2. HUMANEVA

HumanEva-I-datasettet inneholder 7 kalibrerte videosekvenser som er synkronisert MED 3d-kroppsstillinger. Databasen inneholder 4 fag som utfører 6 vanlige handlinger(f. eks gå, jogge, gestikulerer, etc.) som er delt inn i opplærings -, validerings-og testsett.

Jeg fant DeepPose Av Google som en veldig interessant forskning papir ved hjelp av dype læringsmodeller for positur estimering. I tillegg kan du besøke flere forskningsartikler tilgjengelig på positur estimering for å forstå det bedre.

Åpen Kildekode Datasynsprosjekter for Følelsesgjenkjenning Gjennom Ansiktsuttrykk

Ansiktsuttrykk spiller en viktig rolle i prosessen med ikke-verbal kommunikasjon, samt for å identifisere en person. De er svært viktige for å gjenkjenne en persons følelser. Følgelig brukes informasjon om ansiktsuttrykk ofte i automatiske systemer for følelsesgjenkjenning.

Følelsesgjenkjenning er en utfordrende oppgave fordi følelser kan variere avhengig av miljø, utseende, kultur og ansiktsreaksjon som fører til tvetydige data.

ansiktsuttrykksgjenkjenningssystemet er en flertrinns prosess som består av ansiktsbildebehandling, funksjonsutvinning og klassifisering.

kilde

Nedenfor Er et datasett du kan øve på:

  1. Real-world Affective Faces Database

Real-world Affective Faces Database (RAF-DB) Er en storskala ansiktsuttrykk database med rundt 30K stor-mangfoldig ansiktsbilder. Den består av 29672 virkelige bilder, og 7-dimensjonal uttrykksfordelingsvektor for hvert bilde,

Du kan lese disse ressursene for å øke forståelsen ytterligere-

  • Ramme oppmerksomhet nettverk for ansiktsuttrykk anerkjennelse i videoer
  • Region Oppmerksomhet Nettverk For Positur Og Okklusjon Robust Ansiktsuttrykk Anerkjennelse

Slutt Notater

for å konkludere, i denne artikkelen diskuterte vi 10 interessante datamaskinen visjon prosjekter du kan implementere som en nybegynner. Dette er ikke en uttømmende liste. Så hvis du føler at vi savnet noe, vær så snill å legge til i kommentarene nedenfor!

Også her lister jeg ned noen nyttige CV-ressurser for å hjelpe deg med å utforske den dype lærings-og datasynsverdenen:

  • Her Er Din Læringsbane For Å Mestre Datasyn I 2020
  • Datasyn ved Hjelp Av Deep Learning 2.0 Course
  • Sertifisert Program: Datasyn For Nybegynnere
  • Komme I Gang Med Nevrale Nettverk (Gratis)
  • Convolutional Nevrale Nettverk (CNN) fra Bunnen Av (Gratis)

det er stor forskjell i datavitenskapen vi lærer i kurs og selvpraksis og den vi jobber i bransjen. Jeg vil anbefale deg å gå gjennom disse krystallklare gratis kursene for å forstå alt om analyse, maskinlæring og kunstig intelligens:

  1. Introduksjon TIL AI / ML Gratis Kurs /Mobilapp
  2. Introduksjon TIL AI / ML For Bedriftsledere Mobilapp
  3. Introduksjon Til Business Analytics Gratis Kurs / Mobilapp

jeg håper du finner diskusjonen nyttig. Nå er det din tur til å starte implementeringen av datasynet på egen hånd.

du kan også lese denne artikkelen på Vår Mobile APP Få Det På Google Play

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert.