Hervé Jégou : la reconnaissance visuelle à très grande échelle

Hervé Jégou a obtenu en 2014 une bourse du Conseil européen de la recherche (ERC ) pour le projet Viamass, qui s’intéressait à de nouvelles méthodes de découverte automatique de liens visuels entre des images. Il étudiait le changement de paradigme nécessaire pour venir à bout du problème d'échelle qui se pose lorsqu'on tente de croiser toutes les images dans de grandes collections.
Montage - Photo Hervé Jégou ©Inria - Photomontage via Pixabay sous licence CC0

Reconnaître des images dans d'immenses photothèques

Flickr, Tumblr, Twitter... Des milliards d'images se répandent désormais dans nos vies numériques. À eux seuls, les Facebookeurs en ajoutent 3 500 par seconde. Il n'y a pas si longtemps encore, pour chercher, organiser ou comparer ces images, l'utilisateur devait recourir à des mots-clés, mais dorénavant il existe des techniques pour de décrire le contenu visuel d’une image sans utiliser de texte. Pierre angulaire de ces approches : la conversion de l'image en plusieurs milliers de vecteurs qui en constituent une description mathématique. Très vite l'industrie a perçu tout le potentiel de cette avancée et dès 2009, TinEye.com ou Google Images étaient capables de retrouver sur Internet toutes les utilisations d’une image donnée, y compris même des versions modifiées.

Hervé Jégou est l'auteur de méthodes innovantes qui accélèrent de façon spectaculaire les performances de telles recherches dans les grandes bases. Les premières versions d’un moteur qu’il a développé trouvaient les bonnes images parmi 110 millions d'autres en seulement 200 millisecondes. Plus impressionnant encore, elle pouvaient parcourir d’immenses photothèques pour identifier tous les liens visuels pouvant exister entre des images, mais aussi entre des éléments visuels présents d'une image à l'autre. « Pour mettre à jour de tels liens, il n'existe pas actuellement de méthodologie efficace et précise », estimait Hervé Jégou en 2014. « On se heurte tout simplement à un énorme problème d'échelle ». Comparer une image à un milliard d'autres ne pose plus guère de difficulté à l'aune des puissances de calcul désormais disponibles. En revanche, effectuer une comparaison croisée entre toutes ces images pour en découvrir tous les liens visuels tient de la gageure.

« Le coût devient quadratique en fonction du nombre d'images et de descripteurs par image. Au lancement du projet, lier un million d'images requérait environ sept heures. Mais pour un milliard, il aurait fallu sept millions d'heures ! »

Autre mauvaise nouvelle, les résultats ne s'avéraient satisfaisants que pour des récurrences visuelles fréquentes, les meilleurs algorithmes ne détectant pas les similitudes plus rares.

Des représentations d'images radicalement nouvelles

C'est pour tenter de briser ce verrou que le Conseil européen de la recherche avait octroyé au scientifique une bourse de 1,5 million d'euros pour le projet Viamass (Visual Recognition Made Super-Scalable).

« Je suis convaincu que ces travaux ouvriront aussi la voie à de nouvelles applications et de meilleures représentations pour la recherche par requête. » déclarait alors Hervé Jégou.

L’équipe ainsi constituée pour Viamass, au sein de l'IRISA et du centre Inria Bretagne-Atlantique, avait développé trois axes. Le premier consistait à trouver des représentations d'image radicalement nouvelles, afin d’effectuer les tâches de reconnaissance visuelle ambitionnées par le projet. Le deuxième axe portait sur l'identification de sous-ensembles de vecteurs susceptibles de représenter des objets identiques dans différentes images, les algorithmes existants manquant de robustesse ou de capacité à passer l'échelle. Le troisième volet visait à répondre au besoin de nouvelles méthodes de codage afin de représenter et comparer les ensembles de vecteurs dans de grandes collections.

L’excellence des travaux de recherche d’Hervé Jégou n’est pas passé inaperçue. En 2015, il a mis fin au projet Viamass pour rejoindre les équipes de Facebook Artificial Intelligence Researchers (FAIR), où il continue aujourd’hui à développer ses travaux sur les algorithmes de recherche dans de grandes collections de mots ou d’images.