Faire un don à arXiv

Titre: CoMIR : Représentation d’Images Multimodales Contrastives pour Enregistrement

Auteurs: Nicolas Pielawski, Elisabeth Wetzer, Johan Öfverstedt, Jiahao Lu, Carolina Wählby, Joakim Lindblad, Nataša Sladoje

Télécharger le PDF

Résumé: Nous proposons un codage contrastif pour apprendre des représentations d’images partagées et denses, appelées CoMIRs (Représentations d’Images Multimodales Contrastives). CoMIRsenable l’enregistrement d’images multimodales où les méthodes d’enregistrement existantes échouent souvent en raison d’un manque de structures d’images suffisamment similaires.Les COMIR réduisent le problème d’enregistrement multimodal à un problème monomodal, dans lequel des algorithmes d’enregistrement généraux basés sur l’intensité, ainsi que sur les fonctionnalités, peuvent être appliqués. Le procédé consiste à entraîner un réseau de neurones par modalité sur des images alignées, en utilisant une perte contrastive basée sur une estimation bruit-contrastive (InfoNCE). Contrairement à d’autres méthodes de codage contrastif, utilisées pour, p.ex., la classification, notre approche génère des représentations imagées qui contiennent les informations partagées entre les modalités. Nous introduisons une nouvelle modification sans hyperparamètre à InfoNCE, pour imposer l’équivoque de rotation des représentations apprises, une propriété essentielle à la tâche d’enregistrement.Nous évaluons l’étendue de l’équivariance rotationnelle atteinte et la stabilité des représentations en ce qui concerne l’initialisation du poids, l’ensemble d’entraînement et les paramètres d’hyperparamètre, sur un ensemble de données de télédétection d’images RVB et quasi-infrarouges. Nous évaluons les représentations apprises par l’enregistrement d’un ensemble de données abiomédicales d’images microscopiques de génération de champ lumineux et de deuxième harmonique; deux modalités avec très peu de corrélation apparente. L’approche proposée basée sur CoMIRs surpasse de manière significative l’enregistrement desreprésentations créées par la traduction image à image basée sur GAN, ainsi qu’une méthode à la pointe de la technologie, spécifique à l’application, qui prend en compte des connaissances supplémentaires sur les données. Le code est disponible à l’adresse suivante : cette URL https.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.