banner

Blog

Nov 08, 2023

Redresser l'IA : comment les chercheurs du MIT comblent le fossé entre la vision humaine et la vision artificielle

Par Adam Zewe, Massachusetts Institute of Technology9 mai 2023

Des chercheurs du MIT ont découvert que la formation de modèles de vision par ordinateur à l'aide d'une formation contradictoire peut améliorer leur rectitude perceptuelle, les rendant plus similaires au traitement visuel humain. La rectitude perceptuelle permet aux modèles de mieux prédire les mouvements d'objets, améliorant potentiellement la sécurité des véhicules autonomes. Les modèles formés de manière contradictoire sont plus robustes, conservant une représentation stable des objets malgré de légers changements dans les images. Les chercheurs visent à utiliser leurs découvertes pour créer de nouveaux programmes de formation et à étudier plus avant pourquoi la formation contradictoire aide les modèles à imiter la perception humaine.

Les chercheurs identifient une propriété qui aide les modèles de vision par ordinateur à apprendre à représenter le monde visuel de manière plus stable et prévisible.

MITMIT is an acronym for the Massachusetts Institute of Technology. It is a prestigious private research university in Cambridge, Massachusetts that was founded in 1861. It is organized into five Schools: architecture and planning; engineering; humanities, arts, and social sciences; management; and science. MIT's impact includes many scientific breakthroughs and technological advances. Their stated goal is to make a better world through education, research, and innovation." data-gt-translate-attributes="[{"attribute":"data-cmtooltip", "format":"html"}]">Les chercheurs du MIT ont découvert que l'entraînement contradictoire améliore la rectitude perceptuelle dans les modèles de vision par ordinateur, les rendant plus similaires au traitement visuel humain et permettant une meilleure prédiction des mouvements d'objets.

Imaginez-vous assis sur un banc de parc, regardant quelqu'un passer. Bien que la scène puisse changer constamment au fur et à mesure que la personne marche, le cerveau humain peut transformer cette information visuelle dynamique en une représentation plus stable au fil du temps. Cette capacité, connue sous le nom de redressement perceptif, nous aide à prédire la trajectoire de la personne qui marche.

Contrairement aux humains, les modèles de vision par ordinateur ne présentent généralement pas de rectitude perceptive, ils apprennent donc à représenter les informations visuelles de manière hautement imprévisible. Mais si les modèles d'apprentissage automatique avaient cette capacité, cela pourrait leur permettre de mieux estimer comment les objets ou les personnes se déplaceront.

Des chercheurs du MIT ont découvert qu'une méthode d'entraînement spécifique peut aider les modèles de vision par ordinateur à apprendre des représentations plus perceptivement droites, comme le font les humains. La formation consiste à montrer à un modèle d'apprentissage automatique des millions d'exemples afin qu'il puisse apprendre une tâche.

Les chercheurs ont découvert que la formation de modèles de vision par ordinateur à l'aide d'une technique appelée formation contradictoire, qui les rend moins réactifs aux petites erreurs ajoutées aux images, améliore la rectitude perceptuelle des modèles.

Les chercheurs du MIT ont découvert qu'une technique de formation spécifique peut permettre à certains types de modèles de vision par ordinateur d'apprendre des représentations visuelles plus stables et prévisibles, qui sont plus similaires à celles que les humains apprennent en utilisant une propriété biologique connue sous le nom de redressement perceptif. Crédit : MIT News avec iStock

L'équipe a également découvert que la rectitude perceptive est affectée par la tâche à laquelle un modèle est entraîné. Les modèles formés pour effectuer des tâches abstraites, comme la classification d'images, apprennent des représentations perceptuellement plus droites que ceux formés pour effectuer des tâches plus fines, comme l'attribution de chaque pixel d'une image à une catégorie.

Par exemple, les nœuds du modèle ont des activations internes qui représentent "chien", ce qui permet au modèle de détecter un chien lorsqu'il voit une image d'un chien. Les représentations perceptuellement droites conservent une représentation "chien" plus stable lorsqu'il y a de petits changements dans l'image. Cela les rend plus robustes.

En acquérant une meilleure compréhension de la rectitude perceptive dans la vision par ordinateur, les chercheurs espèrent découvrir des informations qui pourraient les aider à développer des modèles qui font des prédictions plus précises. Par exemple, cette propriété pourrait améliorer la sécurité des véhicules autonomes qui utilisent des modèles de vision par ordinateur pour prédire les trajectoires des piétons, des cyclistes et d'autres véhicules.

"L'un des messages à retenir ici est que s'inspirer des systèmes biologiques, tels que la vision humaine, peut à la fois vous donner un aperçu de la raison pour laquelle certaines choses fonctionnent comme elles le font et également inspirer des idées pour améliorer les réseaux de neurones", déclare Vasha DuTell. , postdoctorant au MIT et co-auteur d'un article explorant la rectitude perceptuelle dans la vision par ordinateur.

L'auteur principal Anne Harrington, étudiante diplômée au Département de génie électrique et d'informatique (EECS), se joint à DuTell pour l'article ; Ayush Tewari, post-doctorante ; Mark Hamilton, étudiant diplômé; Simon Stent, directeur de recherche chez Woven Planet ; Ruth Rosenholtz, chercheuse principale au Département des sciences du cerveau et cognitives et membre du Laboratoire d'informatique et d'intelligence artificielle (CSAIL); et l'auteur principal William T. Freeman, professeur Thomas et Gerd Perkins de génie électrique et d'informatique et membre du CSAIL. La recherche est présentée à la Conférence internationale sur les représentations de l'apprentissage.

After reading a 2019 paper from a team of New York UniversityFounded in 1831, New York University (NYU) is a private research university based in New York City." data-gt-translate-attributes="[{"attribute":"data-cmtooltip", "format":"html"}]">Des chercheurs de l'Université de New York sur la rectitude perceptuelle chez l'homme, DuTell, Harrington et leurs collègues se sont demandé si cette propriété pourrait également être utile dans les modèles de vision par ordinateur.

Ils ont cherché à déterminer si différents types de modèles de vision par ordinateur redressaient les représentations visuelles qu'ils apprenaient. Ils ont alimenté chaque image modèle d'une vidéo et ont ensuite examiné la représentation à différentes étapes de son processus d'apprentissage.

Si la représentation du modèle change de manière prévisible dans les images de la vidéo, ce modèle se redresse. Au final, sa représentation en sortie devrait être plus stable que la représentation en entrée.

"Vous pouvez considérer la représentation comme une ligne, qui commence très sinueuse. Un modèle qui se redresse peut prendre cette ligne sinueuse de la vidéo et la redresser à travers ses étapes de traitement", explique DuTell.

La plupart des modèles qu'ils ont testés ne se redressaient pas. Parmi les rares qui l'ont fait, ceux qui se sont redressés le plus efficacement avaient été entraînés aux tâches de classification en utilisant la technique connue sous le nom d'entraînement contradictoire.

La formation contradictoire consiste à modifier subtilement les images en modifiant légèrement chaque pixel. Alors qu'un humain ne remarquerait pas la différence, ces changements mineurs peuvent tromper une machine qui classe mal l'image. L'entraînement contradictoire rend le modèle plus robuste, de sorte qu'il ne sera pas trompé par ces manipulations.

Parce que la formation contradictoire apprend au modèle à être moins réactif aux légers changements d'images, cela l'aide à apprendre une représentation plus prévisible dans le temps, explique Harrington.

"Les gens ont déjà eu cette idée que la formation contradictoire pourrait vous aider à faire en sorte que votre modèle ressemble davantage à un humain, et il était intéressant de voir que cela se répercute sur une autre propriété que les gens n'avaient pas testée auparavant", dit-elle.

Mais les chercheurs ont découvert que les modèles entraînés de manière contradictoire n'apprennent à se redresser que lorsqu'ils sont entraînés pour des tâches générales, comme la classification d'images entières en catégories. Les modèles chargés de la segmentation - étiquetant chaque pixel d'une image comme une certaine classe - ne se sont pas redressés, même lorsqu'ils ont été formés de manière contradictoire.

Les chercheurs ont testé ces modèles de classification d'images en leur montrant des vidéos. Ils ont constaté que les modèles qui apprenaient des représentations plus perceptivement droites avaient tendance à classer correctement les objets dans les vidéos de manière plus cohérente.

"Pour moi, il est étonnant que ces modèles formés de manière contradictoire, qui n'ont même jamais vu de vidéo et n'ont jamais été formés sur des données temporelles, montrent encore une certaine quantité de redressement", déclare DuTell.

Les chercheurs ne savent pas exactement ce qui, dans le processus de formation contradictoire, permet à un modèle de vision par ordinateur de se redresser, mais leurs résultats suggèrent que des schémas de formation plus forts entraînent davantage le redressement des modèles, explique-t-elle.

S'appuyant sur ces travaux, les chercheurs veulent utiliser ce qu'ils ont appris pour créer de nouveaux programmes de formation qui donneraient explicitement cette propriété à un modèle. Ils veulent également approfondir la formation contradictoire pour comprendre pourquoi ce processus aide un modèle à se redresser.

"D'un point de vue biologique, l'entraînement contradictoire n'a pas nécessairement de sens. Ce n'est pas la façon dont les humains comprennent le monde. Il y a encore beaucoup de questions sur la raison pour laquelle ce processus d'entraînement semble aider les modèles à agir davantage comme des humains", déclare Harrington.

"Comprendre les représentations apprises par les réseaux de neurones profonds est essentiel pour améliorer des propriétés telles que la robustesse et la généralisation", déclare Bill Lotter, professeur adjoint au Dana-Farber Cancer Institute et à la Harvard Medical School, qui n'a pas participé à cette recherche. "Harrington et al. effectuent une évaluation approfondie de la façon dont les représentations des modèles de vision par ordinateur changent au fil du temps lors du traitement de vidéos naturelles, montrant que la courbure de ces trajectoires varie considérablement en fonction de l'architecture du modèle, des propriétés d'entraînement et de la tâche. Ces résultats peuvent informer le développement de modèles améliorés et offrent également des informations sur le traitement visuel biologique."

"L'article confirme que le redressement des vidéos naturelles est une propriété assez unique affichée par le système visuel humain. Seuls les réseaux formés de manière contradictoire l'affichent, ce qui fournit un lien intéressant avec une autre signature de la perception humaine : sa robustesse aux diverses transformations d'image, qu'elles soient naturelles ou artificielles. ", explique Olivier Hénaff, chercheur à DeepMind, qui n'a pas participé à cette recherche. "Le fait que même les modèles de segmentation de scène entraînés de manière contradictoire ne redressent pas leurs entrées soulève des questions importantes pour les travaux futurs : les humains analysent-ils les scènes naturelles de la même manière que les modèles de vision par ordinateur ? Comment représenter et prédire les trajectoires des objets en mouvement tout en restant sensible à leur détail spatial ? En reliant l'hypothèse de redressement à d'autres aspects du comportement visuel, l'article jette les bases de théories plus unifiées de la perception. »

Référence : "Exploring Perceptual Straightness in Learned Visual Representations" par Anne Harrington, Vasha DuTell, Ayush Tewari, Mark Hamilton, Simon Stent, Ruth Rosenholtz et William T. Freeman, ICLR 2023.PDF

La recherche est financée, en partie, par le Toyota Research Institute, la bourse MIT CSAIL METEOR, la National Science Foundation, le US Air Force Research Laboratory et l'US Air Force Artificial Intelligence Accelerator.

Les chercheurs identifient une propriété qui aide les modèles de vision par ordinateur à apprendre à représenter le monde visuel de manière plus stable et prévisible. Étudier le lissage
PARTAGER