Doar para arXiv
Título:CoMIR: Contrastiva Multimodal de Representação da Imagem para o Registo
Download PDF
Resumo: propomos contrastiva de codificação para saber compartilhado, densa representações de imagem,referido como CoMIRs (Contrastiva Multimodal Representações de Imagem). O registo de imagens multimodais em que os métodos de Registo existentes falham muitas vezes devido à falta de estruturas de imagem suficientemente semelhantes.Os CoMIRs reduzem o problema do registo multimodal a um problema monomodal, no qual podem ser aplicados algoritmos de Registo baseados na intensidade geral, bem como em características. O método envolve a formação de uma rede neural por modalidade de imagens alinhadas, usando uma perda contrastiva baseada na estimativa ruído-contrastiva (InfoNCE). Ao contrário de outros métodos de codificação contrastivos, usados para, e.g., classificação, a nossa abordagem gera representações Tipo imagem que contêm a informação partilhada entre as modalidades. Introduzimos uma nova modificação, sem hiperparâmetro, à InfoNCE, a fim de reforçar a equivalência rotacional das representações aprendidas, uma propriedade essencial para a tarefa de Registo.Avaliamos a extensão da equivariância rotacional alcançada e a estabilidade das representações no que diz respeito à inicialização do peso, conjunto de treinamento e configurações de hiperparâmetro, em um conjunto de dados de sensoriamento remoto de RGB e de imagens quase-infravermelhas. Avaliamos as representações aprendidas através do registro de conjunto de dados abiomédicos de microscópias de campo brilhante e de segunda geração harmônica; duas modalidades com muito pouca correlação aparente. A abordagem proposta, baseada em CoMIRs, supera significativamente o registo derepresentações criadas pela tradução imagem-a-imagem baseada em GAN, bem como um método específico de aplicação que tem em conta os conhecimentos adicionais sobre os dados. O código está disponível em: este url https.