Des chercheurs identifient des machines de train de propriété pour en savoir plus comme les humains

Imaginez-vous assis sur un banc de parc, regardant quelqu'un passer. Bien que la scène puisse changer constamment au fur et à mesure que la personne marche, le cerveau humain peut transformer cette information visuelle dynamique en une représentation plus stable au fil du temps. Cette capacité, connue sous le nom de redressement perceptuel, nous aide à prédire la trajectoire de la personne qui marche. Contrairement aux humains, les modèles de vision par ordinateur ne présentent généralement pas de rectitude perceptive, ils apprennent donc à représenter les informations visuelles de manière hautement imprévisible. Mais si les modèles d'apprentissage automatique avaient cette capacité, cela leur permettrait peut-être de mieux estimer comment les objets ou les personnes se déplaceront. Des chercheurs du MIT ont découvert qu'une méthode de formation spécifique peut aider les modèles de vision par ordinateur à apprendre des représentations plus perceptivement droites, comme le font les humains. La formation consiste à montrer à un modèle d'apprentissage automatique des millions d'exemples afin qu'il puisse apprendre une tâche. Les chercheurs ont découvert que la formation de modèles de vision par ordinateur à l'aide d'une technique appelée formation contradictoire, qui les rend moins réactifs aux petites erreurs ajoutées aux images, améliore la perception rectitude. L'équipe a également découvert que la rectitude perceptuelle est affectée par la tâche à laquelle un modèle est entraîné. Les modèles formés pour effectuer des tâches abstraites, comme la classification d'images, apprennent des représentations perceptuellement plus droites que ceux formés pour effectuer des tâches plus fines, comme l'attribution de chaque pixel d'une image à une catégorie. Par exemple, les nœuds du modèle ont des activations internes qui représentent "chien", ce qui permet au modèle de détecter un chien lorsqu'il voit une image d'un chien. Les représentations perceptuellement droites conservent une représentation "chien" plus stable lorsqu'il y a de petits changements dans l'image. Cela les rend plus robustes. En acquérant une meilleure compréhension de la rectitude perceptive dans la vision par ordinateur, les chercheurs espèrent découvrir des informations qui pourraient les aider à développer des modèles qui font des prédictions plus précises. Par exemple, cette propriété pourrait améliorer la sécurité des véhicules autonomes qui utilisent des modèles de vision par ordinateur pour prédire les trajectoires des piétons, des cyclistes et d'autres véhicules. vision, peut à la fois vous donner un aperçu de la raison pour laquelle certaines choses fonctionnent comme elles le font et également inspirer des idées pour améliorer les réseaux de neurones », déclare Vasha DuTell, postdoctorante au MIT et co-auteur d'un article explorant la rectitude perceptuelle dans la vision par ordinateur. Rejoindre DuTell sur l'article sont l'auteur principal Anne Harrington, étudiante diplômée au Département de génie électrique et d'informatique (EECS); Ayush Tewari, post-doctorante ; Mark Hamilton, étudiant diplômé; Simon Stent, directeur de recherche chez Woven Planet ; Ruth Rosenholtz, chercheuse principale au Département des sciences du cerveau et cognitives et membre du Laboratoire d'informatique et d'intelligence artificielle (CSAIL); et l'auteur principal William T. Freeman, professeur Thomas et Gerd Perkins de génie électrique et d'informatique et membre du CSAIL. La recherche est présentée à la Conférence internationale sur les représentations d'apprentissage. Étudier le redressement Après avoir lu un article de 2019 d'une équipe de chercheurs de l'Université de New York sur la rectitude perceptuelle chez l'homme, DuTell, Harrington et leurs collègues se sont demandé si cette propriété pourrait être utile en vision par ordinateur. modèles, aussi. Ils ont cherché à déterminer si différents types de modèles de vision par ordinateur redressent les représentations visuelles qu'ils apprennent. Ils ont alimenté chaque modèle d'images d'une vidéo, puis ont examiné la représentation à différentes étapes de son processus d'apprentissage. Si la représentation du modèle change de manière prévisible à travers les images de la vidéo, ce modèle se redresse. À la fin, sa représentation de sortie devrait être plus stable que la représentation d'entrée. "Vous pouvez considérer la représentation comme une ligne, qui commence vraiment sinueuse. Un modèle qui se redresse peut prendre cette ligne sinueuse de la vidéo et la redresser à travers ses étapes de traitement », explique DuTell. La plupart des modèles qu'ils ont testés ne se redressaient pas. Parmi les rares qui l'ont fait, ceux qui se sont redressés le plus efficacement avaient été entraînés aux tâches de classification à l'aide de la technique connue sous le nom d'entraînement contradictoire. L'entraînement contradictoire consiste à modifier subtilement les images en modifiant légèrement chaque pixel. Alors qu'un humain ne remarquerait pas la différence, ces changements mineurs peuvent tromper une machine qui classe mal l'image. La formation contradictoire rend le modèle plus robuste, de sorte qu'il ne sera pas trompé par ces manipulations.Parce que la formation contradictoire apprend au modèle à être moins réactif aux légers changements d'images, cela l'aide à apprendre une représentation plus prévisible dans le temps, explique Harrington "Les gens ont déjà eu cette idée que la formation contradictoire pourrait vous aider à faire en sorte que votre modèle ressemble davantage à un humain, et il était intéressant de voir que cela se répercute sur une autre propriété que les gens n'avaient pas testée auparavant", dit-elle. Mais le les chercheurs ont découvert que les modèles entraînés de manière contradictoire n'apprennent à se redresser que lorsqu'ils sont entraînés pour des tâches générales, comme la classification d'images entières en catégories. Les modèles chargés de la segmentation - étiquetant chaque pixel d'une image comme une certaine classe - ne se sont pas redressés, même lorsqu'ils ont été formés de manière contradictoire. Classification cohérente Les chercheurs ont testé ces modèles de classification d'images en leur montrant des vidéos. Ils ont constaté que les modèles qui apprenaient des représentations plus droites sur le plan de la perception avaient tendance à classer correctement les objets dans les vidéos de manière plus cohérente. , montrent toujours une certaine quantité de redressement », dit DuTell. Les chercheurs ne savent pas exactement ce qui, dans le processus de formation contradictoire, permet à un modèle de vision par ordinateur de se redresser, mais leurs résultats suggèrent que des programmes de formation plus forts entraînent un redressement plus important des modèles, explique-t-elle. .En s'appuyant sur ces travaux, les chercheurs veulent utiliser ce qu'ils ont appris pour créer de nouveaux schémas d'entraînement qui conféreraient explicitement cette propriété à un modèle. Ils veulent également approfondir la formation contradictoire pour comprendre pourquoi ce processus aide un modèle à se redresser. "D'un point de vue biologique, la formation contradictoire n'a pas nécessairement de sens. Ce n'est pas la façon dont les humains comprennent le monde. Il y a encore beaucoup de questions sur pourquoi ce processus de formation semble aider les modèles à agir davantage comme des humains », déclare Harrington. « Comprendre les représentations apprises par les réseaux de neurones profonds est essentiel pour améliorer des propriétés telles que la robustesse et la généralisation », déclare Bill Lotter, professeur adjoint au Dana-Farber Cancer Institute and Harvard Medical School, qui n'a pas participé à cette recherche. "Harrington et al. effectuent une évaluation approfondie de la façon dont les représentations des modèles de vision par ordinateur changent au fil du temps lors du traitement de vidéos naturelles, montrant que la courbure de ces trajectoires varie considérablement en fonction de l'architecture du modèle, des propriétés d'entraînement et de la tâche. Ces résultats peuvent informer le développement de modèles améliorés et offrent également des informations sur le traitement visuel biologique." "L'article confirme que le redressement des vidéos naturelles est une propriété assez unique affichée par le système visuel humain. Seuls les réseaux formés de manière contradictoire l'affichent, ce qui fournit un lien intéressant avec une autre signature de la perception humaine : sa robustesse aux diverses transformations de l'image, qu'elles soient naturelles ou artificielles », explique Olivier Hénaff, chercheur à DeepMind, qui n'a pas participé à cette recherche. "Le fait que même les modèles de segmentation de scène entraînés de manière contradictoire ne redressent pas leurs entrées soulève des questions importantes pour les travaux futurs : les humains analysent-ils les scènes naturelles de la même manière que les modèles de vision par ordinateur ? Comment représenter et prédire les trajectoires des objets en mouvement tout en restant sensible à leur En reliant l'hypothèse de redressement à d'autres aspects du comportement visuel, l'article jette les bases de théories plus unifiées de la perception." La recherche est financée, en partie, par le Toyota Research Institute, la bourse MIT CSAIL METEOR, Science Foundation, le laboratoire de recherche de l'US Air Force et l'accélérateur d'intelligence artificielle de l'US Air Force.

Nouvelles

Des chercheurs identifient des machines de train de propriété pour en savoir plus comme les humains