18 Clássico de Todos os tempos Open Source Computer Vision Projetos para Iniciantes

Visão

  • Open source computer vision projetos são uma grande segway para conseguir um papel no aprendizado profundo da indústria
  • Começar a trabalhar sobre estes 18 popular e clássico de todos os tempos open source computer vision projetos

Introdução

Aplicativos de visão de computador são onipresentes agora. Sinceramente, não me lembro da última vez que passei um dia inteiro sem encontrar ou interagir com pelo menos um caso de uso de visão de computador (Olá reconhecimento facial no meu telefone!).

mas aqui está a coisa – as pessoas que querem aprender a visão de computador tendem a ficar presos nos conceitos teóricos. E esse é o pior caminho que você pode tomar! Para realmente aprender e dominar a visão do computador, precisamos combinar a teoria com a experiência prática.

e é aí que os projetos de visão de computador de código aberto entram. Você não precisa gastar um centavo para praticar suas habilidades de visão de computador – você pode fazê-lo sentado exatamente onde você está agora!

 open-source computer vision projects

so in this article, I have coalesced and created a list of Open-Source Computer Vision projects based on the various applications of computer vision. Há muito por que passar e esta é uma lista bastante abrangente, então vamos cavar!Se você é completamente novo para a visão de computador e aprendizagem profunda e prefere aprender em forma de vídeo, confira isto:

  • visão computorizada utilizando a aprendizagem profunda 2.0

os 18 projetos de visão de computador de código aberto estão divididos nestas categorias:

  • Imagem de Classificação
  • Reconhecimento de Face
  • Neural Estilo de Transferência Usando GANs
  • Cena de Texto de Detecção
  • Detecção de objetos Com DETR
  • Semântico Segmentação
  • Estrada de Pista de Detecção de Veículos Autônomos
  • Imagem codificada
  • Humanos de Estimação da Pose Projetos
  • Emoção Reconhecimento através de Expressões Faciais

Open-Source Computer Vision Projetos para a Imagem de Classificação

Imagem, a classificação é uma tarefa fundamental na visão de computador. Aqui, o objetivo é classificar uma imagem atribuindo-lhe um rótulo específico. É fácil para nós humanos compreender e classificar as imagens que vemos. Mas o caso é muito diferente para uma máquina. É uma tarefa onerosa para uma máquina para diferenciar entre um carro e um elefante.

Aqui estão dois dos mais importantes projetos de código-fonte para a imagem de classificação:

  1. Cifar 10

    O CIFAR-10 conjunto de dados é uma coleção de imagens que são comumente usados para treinar machine learning e algoritmos de visão computacional. É um dos conjuntos de dados mais populares para pesquisa de aprendizado de máquinas. Ele contém 60.000, 32×32 imagens a cores em 10 classes diferentes. As classes representam aviões, carros, pássaros, gatos, veados, cães, rãs, cavalos, navios e caminhões.

  2. ImageNet

    The ImageNet dataset is a large visual database for use in computer vision research. Mais de 14 milhões de imagens foram anotadas à mão pelo projeto para indicar quais objetos são retratados e em pelo menos um milhão das imagens, caixas envolventes também são fornecidas. O ImageNet contém mais de 20.000 categorias!

como iniciante, você pode começar com uma rede neural do zero usando Keras ou PyTorch. Para obter melhores resultados e aumentar o nível de aprendizagem, aconselharei o uso de transferência de aprendizagem através de modelos pré-treinados como VGG-16, Restnet – 50, Googlenet, etc.

open-source computer vision projects -

eu recomendo passar pelo artigo abaixo para saber mais sobre a classificação de imagem:

  • Top 4 Pré-Formados de Modelos para Classificação de Imagem com Código Python

eu também sugiro ir através de abaixo de documentos para uma melhor compreensão da imagem classificação:

  • ImageNet Classificação com Profunda Convolucionais Redes Neurais
  • Indo mais a fundo com Circunvoluções
  • Profundo Residual de Aprendizagem para Reconhecimento de Imagem

Open-Source Computer Vision Projetos para o Reconhecimento facial

reconhecimento de Face é um dos proeminentes aplicações de visão computacional. É usado para segurança, vigilância ou para desbloquear os dispositivos. É a tarefa de identificar os rostos em uma imagem ou vídeo contra um banco de dados pré-existente. Podemos usar métodos de aprendizagem profunda para aprender as características dos rostos e reconhecê-los.

é um processo em várias fases, consistindo nas seguintes etapas::

  1. detecção de Face: é o primeiro passo e envolve a localização de uma ou mais faces presentes na imagem de entrada ou vídeo.
  2. alinhamento facial: o alinhamento normaliza as faces de entrada para serem geometricamente consistentes com a base de dados.
  3. extracção de recursos: mais tarde, os recursos são extraídos que podem ser usados na tarefa de reconhecimento.
  4. reconhecimento de funcionalidades: efectuar a correspondência das funcionalidades de entrada à base de dados.

O seguinte código-fonte aberto conjuntos de dados irá dar-lhe uma boa exposição ao reconhecimento de face-

  1. MegaFace

    MegaFace é um grande público de reconhecimento de rosto conjunto de dados de treinamento, que serve como um dos mais importantes referenciais para comerciais de reconhecimento de rosto problemas. Inclui 4.753.320 faces de 672.057 identidades

  2. faces rotuladas em casa selvagem

    Faces rotuladas em estado selvagem (LFW) é um banco de dados de fotografias de rosto projetado para estudar o problema do reconhecimento de rosto sem restrições. Possui 13.233 imagens de 5.749 pessoas que foram detectadas e coletadas na web. Além disso, 1.680 das pessoas retratadas têm duas ou mais fotos distintas no conjunto de dados.

além disso, para levar o projeto para um estágio avançado, você pode usar modelos pré-treinados como Facenet.

Facenet é um modelo de aprendizagem profunda que fornece incorporações unificadas para reconhecimento facial, verificação e tarefa de agrupamento. A rede mapeia cada imagem de face no espaço euclidiano de tal forma que a distância entre imagens semelhantes é menor.

open-source computer vision projetos - facenet

Fonte

Você pode facilmente usar a pré-formados Facenet modelos disponíveis no Keras e PyTorch para fazer o seu próprio sistema de reconhecimento de rosto.

existem mais alguns modelos de reconhecimento facial de última geração disponíveis com os quais você pode experimentar. Deepface é uma rede baseada na CNN desenvolvida por pesquisadores do Facebook. Foi um marco importante no uso da aprendizagem profunda em uma tarefa de reconhecimento facial.

Para melhor entender o desenvolvimento na tecnologia de reconhecimento facial nos últimos 30 anos, gostaria de incentivar você a ler um interessante artigo intitulado:

  • Profundo Reconhecimento de Face: Um estudo

Open-Source Computer Vision Projetos para Neural Estilo de Transferência Usando GANs

Neural estilo de transferência é de um computador com a tecnologia de visão que recria o conteúdo de uma imagem no estilo de imagem. É uma aplicação de uma rede adversária Gerativa (GAN). Aqui, pegamos duas imagens-uma imagem de Conteúdo e uma imagem de referência de estilo e misturamo-las de modo a que a imagem de saída se pareça com uma imagem de conteúdo pintada no estilo da imagem de referência.

isto é implementado optimizando as estatísticas de conteúdo da imagem de saída que correspondem às estatísticas de imagem de Conteúdo e estilo à imagem de referência de estilo.

Open-Source Computer Vision Projetos - Neural Estilo de Transferência Usando GANs

Fonte

Aqui está a lista de algumas incrível de conjuntos de dados para a prática de:

  1. COCO conjunto de dados

    “COCO é uma grande escala de detecção de objetos, segmentação e legendas conjunto de dados. As imagens no conjunto de dados são objetos do dia-a-dia capturados a partir de cenas do dia-a-dia. Além disso, ele fornece rotações multi-objeto, anotações de máscara de segmentação, Legendas de imagem, e detecção de pontos chave com um total de 81 categorias, tornando-o um conjunto de dados muito versátil e multi-propósito.

  2. ImageNet

    1. já mencionado acima – ImageNet é incrivelmente flexível!

no caso de você estar se perguntando como implementar o modelo de transferência de estilo, aqui está um tutorial TensorFlow que pode ajudá-lo. Além disso, sugiro que leia os seguintes artigos se quiser aprofundar a tecnologia:

  • Um Aprendeu Representação De Estilo Artístico
  • Desemparelhados Imagem-a-Imagem Tradução usando o Ciclo Consistente Contraditório Redes
  • Estilo de Imagem Transferência Usando Convolucionais Redes Neurais

Open-Source Computer Vision Projetos para a Cena de Texto de Detecção

Detecção de texto em qualquer cena é outro problema muito interessante. Texto de cena é o texto que aparece nas imagens capturadas por uma câmera em um ambiente exterior. Por exemplo, matrículas de carros em estradas, cartazes na beira da estrada, etc.

o texto nas imagens de cena varia em forma, fonte, cor e posição. A complicação no reconhecimento do texto de cena aumenta ainda mais por iluminação não uniforme e foco.

Open-Source Computer Vision Projetos - Cena de Texto de Detecção

O seguinte populares conjuntos de dados irá ajudá-lo a enriquecer suas habilidades em analisar a Cena de Texto de Detecção de:

  1. SVHN

    O Street View, Casa de Números (SVHN) conjunto de dados é um dos mais populares open source conjuntos de dados lá fora. Tem sido usado em redes neurais criadas pelo Google para ler números de casa e combiná-los com suas geolocações. Este é um grande conjunto de dados de referência para brincar com, aprender e treinar modelos que identificam com precisão números de rua. Este conjunto de dados contém mais de 600 mil imagens do mundo real de números de casas tiradas do Google Street View.

  2. conjunto de dados de cenários

    o conjunto de dados de texto de cena compreende 3000 imagens captadas em diferentes ambientes, incluindo Ao ar livre e no interior de cenas em diferentes condições de iluminação. As imagens foram captadas pelo uso de uma câmera digital de alta resolução ou uma câmera de celular de baixa resolução. Além disso, todas as imagens foram redimensionadas para 640×480.

além disso, a detecção de texto de cena é um processo de duas etapas que consiste na detecção de texto na imagem e no reconhecimento de texto. Para a detecção de texto, encontrei um método de aprendizagem profunda de ponta leste (eficiente Detector de texto de cena preciso). Pode encontrar caixas envolventes horizontais e rotativas. Você pode usá-lo em combinação com qualquer método de reconhecimento de texto.

Aqui estão alguns outros interessantes artigos em cena de detecção de texto:

  • Detectar Texto na Imagem Natural com Connectionist Texto de Proposta de Rede
  • COCO-Texto: Conjunto de dados e Referência para o Texto de Detecção e Reconhecimento de Imagens Naturais

Open-Source Computer Vision Projetos para a Detecção de objetos com DETR

detecção de objetos é a tarefa de prever cada objeto de interesse presentes na imagem através de uma caixa delimitadora, juntamente com rótulos próprios sobre eles.

alguns meses atrás, Facebook open-sourced its object detection framework-DEtection TRansformer (DETR). A DETR é uma solução eficiente e inovadora para problemas de detecção de objetos. Ela agiliza o pipeline de treinamento ao ver a detecção de objetos como um problema de previsão de conjunto direto. Além disso, adota uma arquitetura codificador-decodificador baseado em Trans-formers.

Open-Source Computer Vision Projects-Object Detection With DETR

to know more about DERT, here is the paper and Colab notebook.Diversificar o seu portfólio trabalhando nos seguintes conjuntos de dados de fonte aberta para detecção de objectos:

  1. imagens abertas

    imagem aberta é um conjunto de dados de ~9M imagens anotadas com etiquetas de nível de imagem, caixas envolventes de objetos, máscaras de segmentação de objetos, relações visuais e narrativas localizadas. O conjunto de dados é dividido em um conjunto de treinamento (9,011,219 imagens), um conjunto de validação (41,620 imagens), e um conjunto de teste (125,436 imagens).

  2. MS-COCO

    MS-COCO é um conjunto de dados de grande escala popularmente usado para problemas de detecção de objetos. Consiste em 330K de imagens com 80 categorias de objetos com 5 legendas por imagem e 250 mil pessoas com pontos-chave.

Você pode ler os seguintes recursos para saber mais sobre a Detecção de objetos:

  • Um Passo-a-Passo de Introdução para o Objeto Básico Algoritmos de Detecção
  • Um Guia Prático para a Detecção de objetos usando o Popular YOLO Framework
  • Facebook AI Lança Detecção de Transformador (DETR) – UM Transformador de Objeto baseado na Detecção de Abordagem!

Open-Source Computer Vision Projects for Semantic Segmentation

When we talk about complete scene understanding in computer vision technology, semantic segmentation comes into the picture. É a tarefa de classificar todos os pixels em uma imagem em classes relevantes dos objetos.

Open-Source Computer Vision Projects-Semantic Segmentation

abaixo está a lista de conjuntos de dados de código aberto para a prática deste tópico:

  1. CamVid

    esta base de dados é um dos primeiros conjuntos de dados semanticamente segmentados a serem lançados. Isto é frequentemente usado na pesquisa de segmentação semântica (em tempo real). O conjunto de dados contém:

    • 367 formação de pares
    • 101 validação de pares
    • 233 teste de pares
  2. paisagens de cidade

    Este conjunto de dados é processado subamostra de original paisagens de cidade. O conjunto de dados ainda tem imagens dos vídeos originais, e as etiquetas de segmentação semântica são mostradas em imagens ao lado da imagem original. Este é um dos melhores conjuntos de dados para tarefas de segmentação semântica. Ele tem 2975 arquivos de imagens de treinamento e 500 arquivos de imagem de validação cada um de 256×512 pixels

para ler mais sobre segmentação semântica, vou recomendar o seguinte artigo:

  • segmentação semântica: Introdução à técnica de aprendizagem profunda por trás da câmera do Google Pixel!

Aqui estão alguns artigos disponíveis com código para segmentação semântica:

  • codificador-descodificador com convolução separável Atrosa para segmentação da imagem semântica
  • DeepLab: Segmentação de imagem semântica com redes convolucionais profundas, convolução Atrosa e CRFs totalmente conectados

projectos de Visão Computacional de código aberto para detecção de vias rodoviárias em veículos autónomos

um veículo autónomo é um veículo capaz de sentir o seu ambiente e de operar sem envolvimento humano. Eles criam e mantêm um mapa de seus arredores com base em uma variedade de sensores que se encaixam em diferentes partes do veículo.

estes veículos têm sensores de radar que monitoram a posição dos veículos próximos. Enquanto as câmeras de vídeo detectam semáforos, ler sinais de estrada, rastrear outros veículos e sensores Lidar (detecção de luz e alcance) ressaltar pulsos de luz fora do ambiente do carro para medir distâncias, detectar bordas de estrada, e identificar marcas de faixa

detecção de faixa é uma parte importante destes veículos. No transporte rodoviário, uma faixa de rodagem faz parte de uma faixa de rodagem destinada a ser utilizada por uma única linha de veículos para controlar e orientar os condutores e reduzir os conflitos de tráfego.

é um projeto emocionante para adicionar no currículo de seu cientista de dados. A seguir estão alguns conjuntos de dados disponíveis para experimentar-

  1. TUsimple

    this dataset was part of the Tusimple Lane Detection Challenge. Ele contém 3626 clipes de vídeo de duração de 1 segundo cada. Cada um destes clipes de vídeo contém 20 frames com uma última moldura anotada. Consiste em conjuntos de dados de treinamento e teste com 3626 clipes de vídeo, 3626 quadros anotados no conjunto de dados de treinamento, e 2782 clipes de vídeo para testes.

No caso, o que você está procurando algum tutorial para desenvolver o projeto, verifique o artigo abaixo-

  • Hands-On Tutorial em Tempo Real Faixa de Detecção usando OpenCV (“Self-Driving Car Projeto!)

projetos de visão de computador de código aberto para Legendas de imagem

você já desejou alguma tecnologia que pudesse captar suas imagens de mídia social porque nem você nem seus amigos são capazes de criar uma legenda legal? O aprendizado profundo para a legenda de imagens vem em seu socorro.

legenda de imagem é o processo de geração de uma descrição textual para uma imagem. É uma tarefa combinada de visão de computador e processamento de linguagem natural (NLP).

Computer vision methods aid in understanding and extracting the feature from the input images. Além disso, NLP converte a imagem na descrição textual na ordem correta das palavras.


a seguir estão alguns conjuntos de dados úteis para sujar as mãos com o título da imagem:

  1. COCO Caption

    COCO is large-scale object detection, segmentation, and captioning dataset. Consiste em imagens de 330K (>200K etiquetadas) com 1,5 milhões de instâncias de objetos e 80 categorias de objetos dadas 5 legendas por imagem.

  2. Flicker 8K dataset

    é um corpo de legenda de imagem que consiste de 158.915 Legendas de origem de multidão descrevendo 31.783 imagens. Esta é uma extensão do Dataset Flickr 8k. As novas imagens e legendas focam nas pessoas que fazem atividades e eventos cotidianos.

Se você está olhando para a implementação do projeto, eu sugiro que você veja o seguinte artigo:

  • Imagem Automático de Legendas utilizando Aprendizagem Profunda (CNN e LSTM) em PyTorch

além disso, eu sugiro que você vá através deste papel de destaque na Imagem Codificada.

Open-Source Computer Vision Projects for Human Pose Estimation

Human Pose Estimation is an interesting application of Computer Vision. Você deve ter ouvido falar sobre Posenet, que é um modelo de código aberto para a estimativa de pose humana. Em resumo, estimativa pose é uma técnica de visão de computador para inferir a pose de uma pessoa ou objeto presente na imagem/vídeo.

antes de discutir o trabalho de estimativa pose, vamos primeiro entender ‘esqueleto Pose humano’. É o conjunto de Coordenadas para definir a pose de uma pessoa. Um par de coordenadas é um membro. Além disso, a estimativa pose é realizada através da identificação, localização e rastreamento dos pontos-chave de humanos pose esqueleto em uma imagem ou vídeo.

fonte

a seguir estão alguns conjuntos de dados se você quiser desenvolver um modelo de estimativa pose:

  1. MPII

    MPII Human Pose dataset é uma referência de última geração para a avaliação da estimativa de pose articulada humana. O conjunto de dados inclui cerca de 25 mil imagens contendo mais de 40 mil pessoas com articulações do corpo anotadas. Globalmente, o conjunto de dados abrange 410 actividades humanas e cada imagem tem um rótulo de actividade.

  2. HUMANEVA

o conjunto de dados HumanEva-I contém 7 sequências de vídeo calibradas que são sincronizadas com poses de corpo 3D. A base de dados contém 4 indivíduos que executam 6 acções comuns (por exemplo, caminhar, correr, gesticular, etc.).) que são divididos em conjuntos de treinamento, validação e testes.

I found DeepPose by Google as a very interesting research paper using deep learning models for pose estimation. Além disso, você pode visitar vários trabalhos de pesquisa disponíveis sobre a estimativa pose para compreendê-lo melhor.

Open-Source Computer Vision Projects for Emotion Recognition through Facial Expressions

Facial expressions play a vital role in the process of non-verbal communication, as well as for identifying a person. São muito importantes para reconhecer as emoções de uma pessoa. Consequentemente, a informação sobre expressões faciais é frequentemente usada em sistemas automáticos de reconhecimento de emoções.O reconhecimento de emoções é uma tarefa desafiadora porque as emoções podem variar dependendo do ambiente, aparência, cultura e reação facial, o que leva a dados ambíguos.

o sistema de reconhecimento de expressão facial é um processo multi-estágio que consiste no processamento de imagem facial, extração de recursos e classificação.

fonte

abaixo encontra-se um conjunto de dados em que pode praticar:

  1. base de dados de rostos afectivos do mundo Real

o Real-world Affective Faces Database (RAF-DB) é um banco de dados de expressão facial de grande escala com cerca de 30K de imagens faciais de grande diversidade. Ele consiste de 29672 imagens do mundo real, e 7-dimensional expressão de distribuição de vetor para cada imagem,

Você pode ler esses recursos para aumentar a sua compreensão mais-

  • Quadro de redes de atenção para o reconhecimento de expressões faciais em vídeos
  • Região de Atenção Redes para Representar e Oclusão Robusto de Reconhecimento de expressões Faciais

Notas Finais

Para concluir, neste artigo discutimos 10 de computador interessante visão de projetos que você pode implementar como um novato. Esta lista não é exaustiva. Portanto, se você sente que perdemos algo, sinta-se à vontade para adicionar nos comentários abaixo!

também, aqui estou listando alguns recursos de CV úteis para ajudá-lo a explorar o mundo de aprendizagem profunda e visão de computador:

  • aqui está o seu caminho de aprendizagem para a visão de computador mestre em 2020
  • visão de computador usando o curso Deep Learning 2.0
  • programa certificado: Visão computacional para iniciantes
  • começar com redes neurais (livre)
  • redes neurais convolucionais (CNN) a partir do zero (livre)

há muita diferença na ciência dos dados que aprendemos em cursos e auto-prática e na que trabalhamos na indústria. Eu recomendaria que você passasse por esses cursos livres cristalinos para entender tudo sobre análise, aprendizagem de máquinas, e inteligência artificial:

  1. Introdução à App de Curso Livre/Móvel AI | ML
  2. Introdução à AI/ML Para Líderes de Negócios app Móvel
  3. Introdução à aplicação de Análise livre de Negócios | app Móvel

espero que considere a discussão útil. Agora é a sua vez de começar a implementação da visão do computador por conta própria.

também pode ler este artigo no nosso aplicativo móvelcoloque-o no Google Play

Deixe uma resposta

O seu endereço de email não será publicado.