18 klassische Open-Source-Computer-Vision-Projekte für Anfänger
- Übersicht
- Einführung
- Die 18 Open Source Computer Vision Projekte sind in diese Kategorien unterteilt:
- Open-Source-Computer-Vision-Projekte zur Bildklassifizierung
- Cifar 10
- ImageNet
- Open-Source-Computer-Vision-Projekte für die Gesichtserkennung
- MegaFace
- Labeled faces in wild home
- Open-Source-Computer-Vision-Projekte für die Übertragung neuronaler Stile mit GANs
- COCO dataset
- ImageNet
- Open-Source-Computer-Vision-Projekte zur Erkennung von Szenentext
- SVHN
- Szenentext-Datensatz
- Open-Source-Computer-Vision-Projekte für die Objekterkennung mit DETR
- Open Images
- MS-COCO
- Open-Source-Computer-Vision-Projekte für die semantische Segmentierung
- CamVid
- Stadtlandschaften
- Open-Source-Computer-Vision-Projekte zur Fahrspurerkennung in autonomen Fahrzeugen
- TuSimple
- Open-Source-Computer-Vision-Projekte für Bildunterschriften
- COCO Caption
- Flicker 8k dataset
- Open-Source-Computer-Vision-Projekte zur Schätzung der menschlichen Pose
- MPII
- HUMANEVA
- Open-Source-Computer-Vision-Projekte zur Emotionserkennung durch Gesichtsausdrücke
- Datenbank für affektive Gesichter in der realen Welt
- Endnote
Übersicht
- Open-Source-Computer-Vision-Projekte sind ein großartiger Segway, um eine Rolle in der Deep-Learning-Branche zu spielen
- Beginnen Sie mit der Arbeit an diesen 18 beliebten und klassischen Open-Source-Computer-Vision-Projekten
Einführung
Computer Vision-Anwendungen sind derzeit allgegenwärtig. Ich kann mich ehrlich gesagt nicht erinnern, wann ich das letzte Mal einen ganzen Tag durchgemacht habe, ohne mindestens einen Computer-Vision-Anwendungsfall zu treffen oder mit ihm zu interagieren (hallo Gesichtserkennung auf meinem Handy!).
Aber hier ist die Sache – Leute, die Computer Vision lernen wollen, neigen dazu, in den theoretischen Konzepten stecken zu bleiben. Und das ist der schlimmste Weg, den du gehen kannst! Um Computer Vision wirklich zu lernen und zu beherrschen, müssen wir Theorie mit praktischer Erfahrung kombinieren.
Und hier kommen Open Source Computer Vision Projekte ins Spiel. Sie müssen keinen Cent ausgeben, um Ihre Computer-Vision-Fähigkeiten zu üben – Sie können es genau dort tun, wo Sie gerade sind!
In diesem Artikel habe ich eine Liste von Open-Source-Computer-Vision-Projekten erstellt, die auf den verschiedenen Anwendungen von Computer Vision basieren. Es gibt viel zu tun und dies ist eine ziemlich umfassende Liste, also lassen Sie uns eintauchen!
Wenn Sie mit Computer Vision und Deep Learning völlig neu sind und das Lernen in Videoform bevorzugen, schauen Sie sich dies an:
- Computer Vision mit Deep Learning 2.0
Die 18 Open Source Computer Vision Projekte sind in diese Kategorien unterteilt:
- Bildklassifizierung
- Gesichtserkennung
- Neuronale Stilübertragung mit GANs
- Szenentexterkennung
- Objekterkennung Mit DETR
- Semantische Segmentierung
- Fahrspurerkennung in autonomen Fahrzeugen
- Bildunterschrift
- Projekte zur Schätzung der menschlichen Pose
- Emotionserkennung durch Gesichtsausdrücke
Open-Source-Computer-Vision-Projekte zur Bildklassifizierung
Die Bildklassifizierung ist eine grundlegende Aufgabe in der Computer Vision. Hier besteht das Ziel darin, ein Bild zu klassifizieren, indem ihm eine bestimmte Bezeichnung zugewiesen wird. Für uns Menschen ist es einfach, die Bilder, die wir sehen, zu verstehen und zu klassifizieren. Bei einer Maschine ist der Fall jedoch ganz anders. Es ist eine schwierige Aufgabe für eine Maschine, zwischen einem Auto und einem Elefanten zu unterscheiden.
Hier sind zwei der bekanntesten Open-Source-Projekte für die Bildklassifizierung:
-
Cifar 10
Der CIFAR-10-Datensatz ist eine Sammlung von Bildern, die häufig zum Trainieren von Algorithmen für maschinelles Lernen und Computer Vision verwendet werden. Es ist einer der beliebtesten Datensätze für die Forschung zum maschinellen Lernen. Es enthält 60.000, 32 × 32 Farbbilder in 10 verschiedenen Klassen. Die Klassen repräsentieren Flugzeuge, Autos, Vögel, Katzen, Hirsche, Hunde, Frösche, Pferde, Schiffe und Lastwagen.
-
ImageNet
Der ImageNet-Datensatz ist eine große visuelle Datenbank zur Verwendung in der Computer-Vision-Forschung. Mehr als 14 Millionen Bilder wurden vom Projekt von Hand kommentiert, um anzugeben, welche Objekte abgebildet sind, und in mindestens einer Million der Bilder sind auch Begrenzungsrahmen vorgesehen. ImageNet enthält mehr als 20.000 Kategorien!
Als Anfänger können Sie mit Keras oder PyTorch mit einem neuronalen Netzwerk von Grund auf neu beginnen. Für bessere Ergebnisse und eine Erhöhung des Lernniveaus empfehle ich die Verwendung von Transferlernen durch vortrainierte Modelle wie VGG-16, Restnet- 50, Googlenet usw.
Ich empfehle, den folgenden Artikel durchzugehen, um mehr über die Bildklassifizierung zu erfahren:
- Top 4 Vortrainierte Modelle für die Bildklassifizierung mit Python-Code
Ich würde auch vorschlagen, die folgenden Artikel durchzugehen, um die Bildklassifizierung besser zu verstehen:
- ImageNet-Klassifizierung mit Deep Convolutional Neural Networks
- Tiefer gehen mit Windungen
- Deep Residual Learning für die Bilderkennung
Open-Source-Computer-Vision-Projekte für die Gesichtserkennung
Die Gesichtserkennung ist eine der wichtigsten Anwendungen der Computer Vision. Es wird zur Sicherheit, Überwachung oder zum Entsperren Ihrer Geräte verwendet. Es ist die Aufgabe, die Gesichter in einem Bild oder Video anhand einer bereits vorhandenen Datenbank zu identifizieren. Wir können Deep-Learning-Methoden verwenden, um die Merkmale der Gesichter zu lernen und sie zu erkennen.
Es handelt sich um einen mehrstufigen Prozess, der aus folgenden Schritten besteht:
- Gesichtserkennung: Dies ist der erste Schritt und beinhaltet das Auffinden eines oder mehrerer Gesichter im Eingabebild oder Video.
- Gesichtsausrichtung: Die Ausrichtung normalisiert die Eingabeflächen, um geometrisch mit der Datenbank konsistent zu sein.
- Merkmalsextraktion: Später werden Merkmale extrahiert, die in der Erkennungsaufgabe verwendet werden können.
- Merkmalserkennung: Führen Sie einen Abgleich der Eingabe-Features mit der Datenbank durch.
Die folgenden Open-Source-Datensätze geben Ihnen eine gute Exposition gegenüber Gesichtserkennung-
-
MegaFace
MegaFace ist ein groß angelegter öffentlicher Trainingsdatensatz zur Gesichtserkennung, der als einer der wichtigsten Benchmarks für kommerzielle Gesichtserkennungsprobleme dient. Es enthält 4.753.320 Gesichter von 672.057 Identitäten
-
Labeled faces in wild home
Labeled Faces in the Wild (LFW) ist eine Datenbank mit Gesichtsfotos, die zur Untersuchung des Problems der uneingeschränkten Gesichtserkennung entwickelt wurde. Es enthält 13.233 Bilder von 5.749 Personen, die aus dem Internet erkannt und gesammelt wurden. Außerdem haben 1.680 der abgebildeten Personen zwei oder mehr unterschiedliche Fotos im Datensatz.
Darüber hinaus können Sie vortrainierte Modelle wie Facenet verwenden, um das Projekt in ein fortgeschrittenes Stadium zu bringen.
Facenet ist ein Deep-Learning-Modell, das einheitliche Einbettungen für Gesichtserkennungs-, Verifizierungs- und Clustering-Aufgaben bereitstellt. Das Netzwerk bildet jedes Gesichtsbild im euklidischen Raum so ab, dass der Abstand zwischen ähnlichen Bildern geringer ist.
Quelle
Sie können einfach vortrainierte Facenet-Modelle verwenden, die in Keras und PyTorch verfügbar sind, um Ihr eigenes Gesichtserkennungssystem zu erstellen.
Es gibt einige weitere hochmoderne Gesichtserkennungsmodelle, mit denen Sie experimentieren können. Deepface ist ein Deep-LEARNING-basiertes Netzwerk, das von Facebook-Forschern entwickelt wurde. Es war ein wichtiger Meilenstein bei der Verwendung von Deep Learning in einer Gesichtserkennungsaufgabe.
Um die Entwicklung der Gesichtserkennungstechnologie in den letzten 30 Jahren besser zu verstehen, möchte ich Sie ermutigen, ein interessantes Papier mit dem Titel zu lesen:
- Deep Face Recognition: A Survey
Open-Source-Computer-Vision-Projekte für die Übertragung neuronaler Stile mit GANs
Neural Style Transfer ist eine Computer-Vision-Technologie, die den Inhalt eines Bildes im Stil des anderen Bildes neu erstellt. Es ist eine Anwendung eines generativen kontradiktorischen Netzwerks (GAN). Hier nehmen wir zwei Bilder – ein Inhaltsbild und ein Stilreferenzbild – und mischen sie so, dass das Ausgabebild wie ein im Stil des Referenzbilds gemaltes Inhaltsbild aussieht.
Dies wird implementiert, indem die Inhaltsstatistik des Ausgabebildes auf das Inhaltsbild und die Stilstatistik auf das Stilreferenzbild optimiert werden.
Quelle
Hier ist die Liste einiger großartiger Datensätze zum Üben:
-
COCO dataset
“COCO ist ein groß angelegter Datensatz zur Objekterkennung, Segmentierung und Beschriftung. Die Bilder im Datensatz sind Alltagsgegenstände, die aus alltäglichen Szenen aufgenommen wurden. Darüber hinaus bietet es Beschriftungen für mehrere Objekte, Segmentierungsmaskenanmerkungen, Bildunterschriften und die Erkennung von Schlüsselpunkten mit insgesamt 81 Kategorien, was es zu einem sehr vielseitigen und vielseitigen Datensatz macht.
-
ImageNet
- Das haben wir oben schon erwähnt – ImageNet ist unglaublich flexibel!
Falls Sie sich fragen, wie Sie das Stilübertragungsmodell implementieren, finden Sie hier ein TensorFlow-Tutorial, das Ihnen helfen kann. Außerdem schlage ich vor, dass Sie die folgenden Artikel lesen, wenn Sie tiefer in die Technologie eintauchen möchten:
- Eine gelernte Repräsentation für den künstlerischen Stil
- Ungepaarte Bild-zu-Bild-Übersetzung unter Verwendung zykluskonsistenter kontradiktorischer Netzwerke
- Bildstilübertragung unter Verwendung konvolutioneller neuronaler Netze
Open-Source-Computer-Vision-Projekte zur Erkennung von Szenentext
Das Erkennen von Text in einer bestimmten Szene ist ein weiteres sehr interessantes Problem. Szenentext ist der Text, der auf den von einer Kamera in einer Außenumgebung aufgenommenen Bildern angezeigt wird. Zum Beispiel Nummernschilder von Autos auf Straßen, Werbetafeln am Straßenrand usw.
Der Text in Szenenbildern variiert in Form, Schriftart, Farbe und Position. Die Komplikation bei der Erkennung von Szenentext nimmt durch ungleichmäßige Ausleuchtung und Fokussierung weiter zu.
Die folgenden gängigen Datensätze helfen Ihnen, Ihre Fähigkeiten bei der Analyse der Szenentexterkennung zu erweitern:
-
SVHN
Der Datensatz Street View House Numbers (SVHN) ist einer der beliebtesten Open-Source-Datensätze. Es wurde in neuronalen Netzen verwendet, die von Google erstellt wurden, um Hausnummern zu lesen und sie mit ihren Geolokationen abzugleichen. Dies ist ein großartiger Benchmark-Datensatz zum Spielen, Lernen und Trainieren von Modellen, die Straßennummern genau identifizieren. Dieser Datensatz enthält über 600 kb reale Bilder von Hausnummern aus Google Street View.
-
Szenentext-Datensatz
Der Szenentext-Datensatz umfasst 3000 Bilder, die in verschiedenen Umgebungen aufgenommen wurden, einschließlich Außen- und Innenszenen unter verschiedenen Lichtverhältnissen. Die Bilder wurden entweder mit einer hochauflösenden Digitalkamera oder einer niedrig aufgelösten Handykamera aufgenommen. Darüber hinaus wurde die Größe aller Bilder auf 640 × 480 geändert.
Ferner ist die Szenentexterkennung ein zweistufiger Prozess, der aus Texterkennung im Bild und Texterkennung besteht. Für die Texterkennung fand ich eine hochmoderne Deep-Learning-Methode EAST (Efficient Accurate Scene Text Detector). Es kann horizontale und gedrehte Begrenzungsrahmen finden. Sie können es in Kombination mit jeder Texterkennungsmethode verwenden.
Hier sind einige weitere interessante Artikel zur Erkennung von Szenentext:
- Erkennen von Text in natürlichen Bildern mit Connectionist Text Proposal Network
- COCO-Text: Datensatz und Benchmark für die Texterkennung und -erkennung in natürlichen Bildern
Open-Source-Computer-Vision-Projekte für die Objekterkennung mit DETR
Die Objekterkennung ist die Aufgabe, jedes im Bild vorhandene Objekt über einen Begrenzungsrahmen zusammen mit den entsprechenden Beschriftungen vorherzusagen.
Vor ein paar Monaten hat Facebook sein Object Detection Framework- DEtection TRansformer (DETR) – geöffnet. DETR ist eine effiziente und innovative Lösung für Objekterkennungsprobleme. Es rationalisiert die Trainingspipeline, indem die Objekterkennung als direktes Vorhersageproblem betrachtet wird. Darüber hinaus verwendet es eine Encoder-Decoder-Architektur, die auf Transform-formern basiert.
Um mehr über DERT zu erfahren, finden Sie hier das Paper and Colab Notebook.
Diversifizieren Sie Ihr Portfolio, indem Sie an den folgenden Open-Source-Datensätzen zur Objekterkennung arbeiten:
-
Open Images
Open Image ist ein Datensatz von ~ 9 Millionen Bildern, die mit Beschriftungen auf Bildebene, Objektbegrenzungsrahmen, Objektsegmentierungsmasken, visuellen Beziehungen und lokalisierten Erzählungen versehen sind. Der Datensatz ist in einen Trainingssatz (9.011.219 Bilder), einen Validierungssatz (41.620 Bilder) und einen Testsatz (125.436 Bilder) unterteilt.
-
MS-COCO
MS-COCO ist ein groß angelegter Datensatz, der im Volksmund für Objekterkennungsprobleme verwendet wird. Es besteht aus 330K Bildern mit 80 Objektkategorien mit 5 Beschriftungen pro Bild und 250.000 Personen mit Schlüsselpunkten.
Sie können die folgenden Ressourcen lesen, um mehr über die Objekterkennung zu erfahren:
- Eine schrittweise Einführung in die grundlegenden Objekterkennungsalgorithmen
- Ein praktischer Leitfaden zur Objekterkennung mit dem beliebten YOLO-Framework
- Facebook AI startet DEtection TRansformer (DETR) – Einen transformatorbasierten Objekterkennungsansatz!
Open-Source-Computer-Vision-Projekte für die semantische Segmentierung
Wenn wir über das vollständige Szenenverständnis in der Computer-Vision-Technologie sprechen, kommt die semantische Segmentierung ins Spiel. Es ist die Aufgabe, alle Pixel in einem Bild in relevante Klassen der Objekte zu klassifizieren.
Nachfolgend finden Sie die Liste der Open-Source-Datensätze zum Üben dieses Themas:
-
CamVid
Diese Datenbank ist einer der ersten semantisch segmentierten Datensätze, die veröffentlicht wurden. Dies wird häufig in der (Echtzeit-) semantischen Segmentierungsforschung verwendet. Der Datensatz enthält:
- 367 trainingspaare
- 101 Validierungspaare
- 233 Testpaare
-
Stadtlandschaften
Dieser Datensatz ist eine verarbeitete Teilstichprobe der ursprünglichen Stadtlandschaften. Der Datensatz enthält Standbilder aus den Originalvideos, und die semantischen Segmentierungsbeschriftungen werden in Bildern neben dem Originalbild angezeigt. Dies ist einer der besten Datensätze für semantische Segmentierungsaufgaben. Es verfügt über 2975 Trainingsbilddateien und 500 Validierungsbilddateien mit jeweils 256 × 512 Pixel
Um weiter über semantische Segmentierung zu lesen, empfehle ich den folgenden Artikel:
- Semantische Segmentierung: Einführung in die Deep-Learning-Technik hinter der Kamera von Google Pixel!
Hier sind einige Artikel mit Code für die semantische Segmentierung verfügbar:
- Encoder-Decoder mit Atrous trennbarer Faltung zur semantischen Bildsegmentierung
- DeepLab: Semantische Bildsegmentierung mit Deep Convolutional Nets, Atrous Convolution und vollständig verbundenen CRFs
Open-Source-Computer-Vision-Projekte zur Fahrspurerkennung in autonomen Fahrzeugen
Ein autonomes Auto ist ein Fahrzeug, das in der Lage ist, seine Umgebung zu erfassen und ohne menschliches Zutun zu arbeiten. Sie erstellen und pflegen eine Karte ihrer Umgebung basierend auf einer Vielzahl von Sensoren, die in verschiedene Teile des Fahrzeugs passen.
Diese Fahrzeuge verfügen über Radarsensoren, die die Position von Fahrzeugen in der Nähe überwachen. Während die Videokameras Ampeln erkennen, Verkehrszeichen lesen, andere Fahrzeuge verfolgen und Lidar-Sensoren (Light Detection and Ranging) Lichtimpulse von der Umgebung des Fahrzeugs abprallen lassen, um Entfernungen zu messen, Straßenkanten zu erkennen und Fahrbahnmarkierungen zu identifizieren
Die Fahrspurerkennung ist ein wichtiger Bestandteil dieser Fahrzeuge. Im Straßenverkehr ist eine Fahrspur Teil einer Fahrbahn, die von einer einzigen Fahrzeuglinie zur Steuerung und Führung von Fahrern und zur Verringerung von Verkehrskonflikten verwendet werden soll.
Es ist ein aufregendes Projekt, das Sie in den Lebenslauf Ihres Datenwissenschaftlers aufnehmen können. Im Folgenden finden Sie einige Datensätze, mit denen Sie experimentieren können-
-
TuSimple
Dieser Datensatz war Teil der Tusimple Lane Detection Challenge. Es enthält 3626 Videoclips von jeweils 1 Sekunde Dauer. Jeder dieser Videoclips enthält 20 Frames mit einem kommentierten letzten Frame. Es besteht aus Trainings- und Testdatensätzen mit 3626 Videoclips, 3626 annotierten Frames im Trainingsdatensatz und 2782 Videoclips zum Testen.
Falls Sie nach einem Tutorial zur Entwicklung des Projekts suchen, lesen Sie den folgenden Artikel-
- Praktische Anleitung zur Echtzeit-Spurerkennung mit OpenCV (Self-Driving Car Project!)
Open-Source-Computer-Vision-Projekte für Bildunterschriften
Haben Sie sich jemals eine Technologie gewünscht, mit der Sie Ihre Social-Media-Bilder beschriften können, weil weder Sie noch Ihre Freunde eine coole Beschriftung finden können? Deep Learning für Bildunterschriften kommt zu Ihrer Rettung.
Bildunterschrift ist der Prozess der Generierung einer Textbeschreibung für ein Bild. Es ist eine kombinierte Aufgabe von Computer Vision und Natural Language Processing (NLP).
Computer-Vision-Methoden helfen beim Verstehen und Extrahieren des Merkmals aus den Eingabebildern. Außerdem konvertiert NLP das Bild in der richtigen Reihenfolge der Wörter in die Textbeschreibung.
Im Folgenden finden Sie einige nützliche Datensätze, um sich mit Bildunterschriften die Hände schmutzig zu machen:
-
COCO Caption
COCO ist ein Datensatz zur Erkennung, Segmentierung und Beschriftung von Objekten in großem Maßstab. Es besteht aus of330K Bildern (> 200K beschriftet) mit 1,5 Millionen Objektinstanzen und 80 Objektkategorien mit 5 Beschriftungen pro Bild.
-
Flicker 8k dataset
Es ist ein Bildunterschriftenkorpus, der aus 158.915 Crowdsourcing-Bildunterschriften besteht, die 31.783 Bilder beschreiben. Dies ist eine Erweiterung des Flickr 8k-Datensatzes. Die neuen Bilder und Bildunterschriften konzentrieren sich auf Menschen, die alltägliche Aktivitäten und Ereignisse ausführen.
Wenn Sie nach der Implementierung des Projekts suchen, schlage ich vor, dass Sie sich den folgenden Artikel ansehen:
- Automatische Bildunterschrift mithilfe von Deep Learning (CNN und LSTM) in PyTorch
Außerdem empfehle ich Ihnen, dieses Whitepaper zur Bildunterschrift durchzugehen.
Open-Source-Computer-Vision-Projekte zur Schätzung der menschlichen Pose
Die Schätzung der menschlichen Pose ist eine interessante Anwendung der Computervision. Sie müssen von Posenet gehört haben, einem Open-Source-Modell zur Schätzung menschlicher Posen. Kurz gesagt, Pose Estimation ist eine Computer-Vision-Technik, um die Pose einer Person oder eines Objekts im Bild / Video abzuleiten.
Bevor wir die Funktionsweise der Posenschätzung diskutieren, wollen wir zuerst ‘Menschliches Posenskelett’ verstehen. Es ist der Satz von Koordinaten, um die Pose einer Person zu definieren. Ein Koordinatenpaar ist ein Glied. Ferner wird die Posenschätzung durchgeführt, indem die Schlüsselpunkte des menschlichen Posenskeletts in einem Bild oder Video identifiziert, lokalisiert und verfolgt werden.
Quelle
Im Folgenden finden Sie einige Datensätze, wenn Sie ein Posenschätzungsmodell entwickeln möchten:
-
MPII
MPII Human Pose Dataset ist ein Stand der Technik Benchmark für die Bewertung der artikulierten menschlichen Pose Schätzung. Der Datensatz enthält rund 25K Bilder mit über 40K Personen mit kommentierten Körpergelenken. Insgesamt umfasst der Datensatz 410 menschliche Aktivitäten und jedes Bild hat eine Aktivitätsbezeichnung.
-
HUMANEVA
Der HumanEva-I-Datensatz enthält 7 kalibrierte Videosequenzen, die mit 3D-Körperhaltungen synchronisiert sind. Die Datenbank enthält 4 Probanden, die 6 gemeinsame Aktionen ausführen (z. B. Gehen, Joggen, Gestikulieren usw.), die in Trainings-, Validierungs- und Testsets unterteilt sind.
Ich fand DeepPose von Google als eine sehr interessante Forschungsarbeit, die Deep-Learning-Modelle zur Posenschätzung verwendet. Darüber hinaus können Sie mehrere Forschungsarbeiten zur Posenschätzung besuchen, um sie besser zu verstehen.
Open-Source-Computer-Vision-Projekte zur Emotionserkennung durch Gesichtsausdrücke
Gesichtsausdrücke spielen eine wichtige Rolle im Prozess der nonverbalen Kommunikation sowie bei der Identifizierung einer Person. Sie sind sehr wichtig, um die Emotionen einer Person zu erkennen. Folglich werden Informationen über Gesichtsausdrücke häufig in automatischen Systemen zur Emotionserkennung verwendet.
Emotionserkennung ist eine herausfordernde Aufgabe, da Emotionen je nach Umgebung, Aussehen, Kultur und Gesichtsreaktion variieren können, was zu mehrdeutigen Daten führt.
Das Gesichtsausdruckerkennungssystem ist ein mehrstufiger Prozess, der aus Gesichtsbildverarbeitung, Merkmalsextraktion und Klassifizierung besteht.
quelle
Unten finden Sie einen Datensatz, an dem Sie üben können:
-
Datenbank für affektive Gesichter in der realen Welt
Real-World Affective Faces Database (RAF-DB) ist eine groß angelegte Datenbank für Gesichtsausdrücke mit rund 30K großformatigen Gesichtsbildern. Es besteht aus 29672 realen Bildern und einem 7-dimensionalen Expressionsverteilungsvektor für jedes Bild,
Sie können diese Ressourcen lesen, um Ihr Verständnis weiter zu verbessern-
- Frame Attention Networks für die Gesichtsausdruckerkennung in Videos
- Region Attention Networks für Pose und Okklusion Robuste Gesichtsausdruckerkennung
Endnote
Abschließend haben wir in diesem Artikel 10 interessante Computer-Vision-Projekte besprochen, die Sie als Anfänger implementieren können. Dies ist keine erschöpfende Liste. Also, wenn Sie das Gefühl haben, dass wir etwas verpasst haben, fühlen Sie sich frei, in den Kommentaren unten hinzuzufügen!
Außerdem liste ich hier einige nützliche CV-Ressourcen auf, mit denen Sie die Welt des tiefen Lernens und der Computervision erkunden können:
- Hier ist Ihr Lernpfad zum Master Computer Vision im Jahr 2020
- Computer Vision mit Deep Learning 2.0-Kurs
- Zertifiziertes Programm: Computer Vision für Anfänger
- Erste Schritte mit neuronalen Netzen (kostenlos)
-
Convolutional Neural Networks (CNN) von Grund auf neu (kostenlos)
Es gibt einen großen Unterschied zwischen der Datenwissenschaft, die wir in Kursen und in der Selbstpraxis lernen, und der, die wir in der Branche arbeiten. Ich würde Ihnen empfehlen, diese kristallklaren kostenlosen Kurse durchzugehen, um alles über Analytik, maschinelles Lernen und künstliche Intelligenz zu verstehen:
- Einführung in AI / ML Kostenloser Kurs / Mobile App
- Einführung in AI | ML für Führungskräfte Mobile App
- Einführung in Business Analytics Kostenloser Kurs / Mobile App
Ich hoffe, Sie finden die Diskussion nützlich. Jetzt sind Sie an der Reihe, die Implementierung der Computer Vision selbst zu starten.
Sie können diesen Artikel auch in unserer mobilen APP lesen