Un aperçu clair du projet ImageNet de Fei-Fei Li : pourquoi il a déclenché la vague d’apprentissage profond et ce qu’il nous a appris sur les données, les biais et l’échelle.

Fei-Fei Li est souvent évoquée quand on parle des percées modernes en IA parce qu’elle a contribué à recentrer le domaine autour d’une conviction simple et puissante : le progrès ne vient pas seulement d’algorithmes plus intelligents — il vient aussi de meilleures données. ImageNet n’était pas un nouveau modèle ni une astuce ingénieuse. C’était une immense photographie étiquetée et soignée du monde visuel qui a donné aux machines quelque chose de concret sur quoi apprendre.
Avant ImageNet, les systèmes de vision par ordinateur s’entraînaient souvent sur des jeux de données plus petits et plus restreints. Cela limitait ce que les chercheurs pouvaient mesurer et ce que les modèles pouvaient raisonnablement apprendre. ImageNet a pris un pari audacieux : si vous rassemblez une collection suffisamment vaste d’images du monde réel et que vous les étiquetez de façon cohérente, vous pouvez entraîner des systèmes à reconnaître bien plus de concepts — et comparer les approches de manière équitable.
Cette approche « axée sur les données » garde toute son importance en 2025 parce qu’elle continue de guider les équipes d’IA : définir la tâche, définir les labels (ou cibles) et mettre à l’échelle les données d’entraînement pour que le modèle soit forcé d’apprendre des motifs significatifs plutôt que de mémoriser un échantillon restreint.
L’impact d’ImageNet n’était pas seulement sa taille ; c’était aussi le moment où il est arrivé. Quand les chercheurs ont combiné :
…les résultats ont basculé de façon spectaculaire. La célèbre victoire de 2012 (AlexNet) n’est pas survenue dans le vide — c’était le moment où ces ingrédients se sont alignés et ont produit un saut de performance.
Cet article examine pourquoi ImageNet est devenu si influent, ce qu’il a permis et ce qu’il a mis en lumière — biais, lacunes de mesure et risque de sur-optimisation pour des benchmarks. Nous nous concentrerons sur l’impact durable d’ImageNet, ses compromis et ce qu’est devenu le « nouveau centre de gravité » pour l’IA après ImageNet.
Le travail de Fei-Fei Li sur ImageNet n’a pas commencé comme une quête pour « battre les humains » en reconnaissance. Il est né d’une conviction plus simple : si nous voulons que les machines comprennent le monde visuel, il faut leur montrer le monde visuel — à grande échelle.
En tant qu’académicienne centrée sur l’intelligence visuelle, Li s’intéressait à la façon dont les systèmes pouvaient dépasser la détection de bords ou de formes simples pour reconnaître de vrais objets et scènes. Mais la recherche en vision butait souvent sur le même mur : le progrès était limité moins par des algorithmes ingénieux que par des jeux de données restreints et étroits.
Les modèles étaient entraînés et testés sur de petites collections — parfois si soigneusement sélectionnées que le succès ne se généralisait pas hors du laboratoire. Les résultats pouvaient sembler impressionnants, mais échouer face à des photos « désordonnées » : éclairage différent, arrière-plans variés, angles de prise de vue ou variétés d’objets.
Li a compris que la recherche en vision avait besoin d’un jeu d’entraînement partagé, à grande échelle et diversifié, pour rendre les comparaisons de performance significatives. Sans cela, les équipes pouvaient « gagner » en adaptant leurs méthodes aux particularités de leurs propres données, et la communauté peinait à mesurer de véritables améliorations.
ImageNet incarnait une approche axée sur les données : construire un jeu de base large avec des étiquettes cohérentes sur de nombreuses catégories, puis laisser la communauté de recherche concourir — et apprendre — par-dessus.
En associant ImageNet à des benchmarks communautaires, le projet a déplacé les incitations de recherche vers le progrès mesurable. Il est devenu plus difficile de se cacher derrière des exemples triés sur le volet et plus simple de récompenser des méthodes qui généralisaient.
Tout aussi important, cela a créé un point de référence commun : quand la précision augmentait, tout le monde pouvait le constater, reproduire et s’appuyer dessus — transformant des expériences dispersées en une trajectoire partagée.
ImageNet est une grande collection de photos organisée pour aider les ordinateurs à apprendre à reconnaître ce qu’il y a dans une image. En termes simples : c’est des millions d’images, chacune classée dans une catégorie nommée — comme « golden retriever », « camion de pompiers » ou « espresso ». Le but n’était pas de faire un bel album photo ; c’était de créer un terrain d’entraînement où les algorithmes pouvaient s’exercer à la reconnaissance visuelle à grande échelle.
Chaque image d’ImageNet possède une étiquette (la catégorie à laquelle elle appartient). Ces catégories sont organisées dans une hiérarchie inspirée de WordNet — pensez-y comme à une arborescence de concepts. Par exemple, « caniche » est sous « chien », qui est sous « mammifère », qui est sous « animal ».
Il n’est pas nécessaire de connaître les mécanismes de WordNet pour saisir la valeur : cette structure facilite l’organisation cohérente d’un grand nombre de concepts et l’extension du jeu de données sans en faire un chaos nominatif.
Les petits jeux de données peuvent faire paraître la vision plus simple qu’elle ne l’est réellement. La taille d’ImageNet introduisait de la variété et de la friction : angles de caméra différents, arrière-plans encombrés, variations d’éclairage, occlusions partielles et exemples inhabituels (« cas limites ») qui apparaissent dans des photos réelles. Avec suffisamment d’exemples, les modèles peuvent apprendre des motifs qui résistent mieux hors d’une démonstration de laboratoire.
ImageNet n’est pas un modèle d’IA unique, et ce n’est pas une garantie de compréhension réelle du monde. Ce n’est pas non plus parfait : les étiquettes peuvent être erronées, les catégories reflètent des choix humains et la couverture est inégale géographiquement. Sa construction a demandé de l’ingénierie, des outils et une coordination à grande échelle — le travail de collecte et d’annotation compte autant que la théorie ingénieuse.
ImageNet n’a pas commencé comme un simple dépôt de photos. Il a été conçu comme une ressource structurée : de nombreuses catégories, beaucoup d’exemples par catégorie et des règles claires pour ce qui « compte ». Cette combinaison — échelle plus cohérence — a constitué le saut.
L’équipe a rassemblé des images candidates sur le web et les a organisées autour d’une taxonomie de concepts (largement alignée sur WordNet). Plutôt que des labels vagues comme « animal » ou « véhicule », ImageNet visait des catégories nommables et précises — pensez « golden retriever » plutôt que « chien ». Cela rendait le jeu de données utile pour mesurer si un modèle pouvait apprendre des distinctions visuelles fines.
Les catégories ont été définies de façon à ce que des personnes puissent étiqueter avec un accord raisonnable. Si une classe est trop vague (« mignon »), l’annotation devient arbitraire ; si elle est trop obscure, on obtient des étiquettes bruitées et des tailles d’échantillon ridicules.
Les annotateurs humains tenaient un rôle central : vérifier si une image contenait réellement l’objet cible, filtrer les résultats non pertinents ou de faible qualité et empêcher le chevauchement des catégories.
Le contrôle qualité ne visait pas la perfection, mais la réduction des erreurs systémiques. Les vérifications communes incluaient des jugements indépendants multiples, des audits ponctuels et des directives clarifiant les cas limites (par exemple, si une version jouet d’un objet devait être comptée).
Les benchmarks ne fonctionnent que lorsque tout le monde est jugé selon la même norme. Si « bicyclette » inclut les motos dans un sous-ensemble mais pas dans un autre, deux modèles peuvent sembler différents simplement parce que les données sont incohérentes. Des règles d’étiquetage claires rendent les résultats comparables entre équipes, années et méthodes.
Une idée reçue est que plus grand rime automatiquement avec meilleur. L’impact d’ImageNet venait de l’échelle assortie d’une structure disciplinée : catégories bien définies, processus d’annotation reproductibles et suffisamment d’exemples pour apprendre. Plus d’images aident, mais une bonne conception des données transforme les images en une véritable mesure.
Les benchmarks paraissent banals : un ensemble de test fixe, une métrique et un score. Mais en apprentissage automatique, ils jouent le rôle d’un livre de règles partagé. Quand tout le monde évalue de la même façon, le progrès devient visible — et les affirmations deviennent plus difficiles à truquer. Un test partagé oblige à la transparence : un modèle améliore la mesure convenue ou il ne l’améliore pas.
L’ImageNet Large Scale Visual Recognition Challenge (ILSVRC) a transformé ImageNet d’un jeu de données en un point d’attache annuel. Les chercheurs ne se contentaient plus de publier des idées ; ils montraient des résultats dans des conditions identiques, sur la même tâche de classification à grande échelle.
Cette cohérence importait. Elle donnait aux laboratoires du monde entier une cible commune, facilitait la comparaison des articles et réduisait les frictions d’adoption : si une technique grimpait au classement, d’autres pouvaient justifier de l’essayer rapidement.
Les classements compressent le cycle de rétroaction. Au lieu d’attendre des mois pour un consensus, les équipes pouvaient itérer — ajustements d’architecture, augmentation de données, astuces d’optimisation — et voir si cela faisait bouger l’aiguille.
Cette boucle compétitive récompensait les améliorations pratiques et a créé un récit clair de progression, aidant à attirer l’attention de l’industrie vers l’apprentissage profond lorsque les gains sont devenus indéniables.
Les benchmarks comportent aussi des risques. Quand un score unique devient l’objectif, les équipes peuvent suradapter — pas forcément en « trichant », mais en ajustant des décisions aux particularités de la distribution de test.
La manière saine de considérer l’ILSVRC (et tout benchmark) est de l’utiliser comme règle de mesure, non comme la définition complète de la « vision ». De bons résultats sont un signal ; ensuite, on valide au-delà du benchmark : nouveaux jeux de données, domaines différents, stress tests et analyses d’erreurs en conditions réelles.
À la fin des années 2000 et au début des années 2010, la plupart des systèmes de vision utilisaient des caractéristiques conçues à la main — des façons élaborées de décrire bords, textures et formes — alimentant des classifieurs standards. Le progrès était réel, mais incrémental.
Les équipes passaient beaucoup de temps à régler des pipelines de caractéristiques, et les résultats plafonnaient quand les images devenaient « désordonnées » : éclairage étrange, arrière-plans encombrés, points de vue inhabituels ou différences subtiles entre catégories.
ImageNet avait déjà relevé la barre en rendant l’apprentissage à partir de beaucoup de données réalisable. Mais beaucoup doutaient encore que les réseaux neuronaux profonds surpassent les systèmes bien conçus de caractéristiques à grande échelle.
En 2012, AlexNet a fait basculer cette croyance de façon qu’une douzaine de petites améliorations n’auraient pas pu faire. Le modèle utilisait un réseau convolutionnel profond entraîné sur ImageNet, les GPUs rendant le calcul pratique et les données à grande échelle rendant l’apprentissage significatif.
Plutôt que de s’appuyer sur des caractéristiques conçues par l’humain, le réseau a appris ses propres représentations directement à partir des pixels. Le résultat a été un saut de précision suffisamment important pour être impossible à ignorer.
Une victoire visible et benchmarkée a redéfini les incitations. Financements, recrutements et priorités de laboratoire se sont inclinés vers l’apprentissage profond parce qu’il offrait une recette reproductible : mettre à l’échelle les données, mettre à l’échelle le calcul et laisser les modèles apprendre automatiquement les caractéristiques.
Après 2012, « état de l’art » pour la vision par ordinateur signifiait de plus en plus : les meilleurs résultats sur des benchmarks partagés, obtenus par des modèles apprenant de bout en bout. ImageNet est devenu le terrain d’épreuve, et AlexNet la preuve que la vision axée sur les données pouvait réécrire les règles du domaine.
La victoire d’AlexNet en 2012 n’a pas seulement amélioré les scores de classification d’images — elle a changé ce que les chercheurs croyaient possible avec suffisamment de données et la bonne recette d’entraînement. Quand un réseau peut reconnaître de façon fiable des milliers d’objets, il était naturel de se demander : la même approche peut-elle localiser des objets, les délimiter et comprendre des scènes ?
L’entraînement à la façon d’ImageNet s’est rapidement étendu à des tâches de vision plus difficiles :
Les équipes ont constaté que les modèles entraînés sur ImageNet n’étaient pas seulement bons pour étiqueter des photos — ils apprenaient des motifs visuels réutilisables (bords, textures, formes) qui se généralisaient à de nombreux problèmes.
Le transfer learning, c’est comme apprendre à conduire dans une petite voiture, puis s’adapter rapidement à un utilitaire. Vous conservez la compétence de base (direction, freinage) et n’ajustez que ce qui change (taille, angles morts).
En termes IA : on part d’un modèle déjà entraîné sur ImageNet (« préentraîné ») puis on le fine-tune sur votre petit jeu de données spécifique — par exemple des défauts en production ou des types de lésions cutanées.
Le préentraînement est devenu standard parce qu’il apporte souvent :
Ce schéma « préentraîner puis affiner » a irrigé des produits consommateurs et entreprises : meilleure recherche et organisation de photos dans les apps, recherche visuelle en retail (« trouver des chaussures similaires »), fonctionnalités d’aide à la conduite détectant piétons, ou systèmes de contrôle qualité détectant dommages et pièces manquantes.
Ce qui avait commencé comme une victoire de benchmark est devenu un flux de travail reproductible pour construire des systèmes réels.
ImageNet n’a pas seulement amélioré la reconnaissance d’images — il a changé ce qu’on considérait comme « bonne recherche ». Avant, beaucoup d’articles de vision pouvaient défendre leur succès avec des jeux de données petits et des caractéristiques finement optimisées. Après ImageNet, les revendications devaient tenir face à un test public et standardisé.
Parce que le jeu de données et les règles du challenge étaient partagés, étudiants et petits laboratoires ont soudainement eu une vraie chance. Il ne fallait pas une collection privée d’images pour commencer ; il suffisait d’une idée claire et de la discipline pour entraîner et évaluer correctement.
Cela a aidé à former une génération de chercheurs ayant appris en concourant sur le même problème.
ImageNet a récompensé les équipes capables de maîtriser quatre volets de bout en bout :
Cette mentalité « pipeline complet » est devenue la norme dans l’apprentissage automatique, bien au-delà de la vision.
Avec un benchmark commun, il est devenu plus simple de comparer les méthodes et reproduire les résultats. Les chercheurs pouvaient écrire « nous avons suivi la recette ImageNet » et les lecteurs savaient ce que cela impliquait.
Au fil du temps, les articles ont de plus en plus inclus détails d’entraînement, hyperparamètres et implémentations de référence — une culture de recherche ouverte qui a rendu le progrès cumulatif plutôt qu’isolé.
La même culture de benchmark a aussi exposé une réalité inconfortable : à mesure que les meilleurs résultats s’alignaient sur des modèles plus gros et des entraînements plus longs, l’accès au calcul a commencé à déterminer qui pouvait réellement concourir.
ImageNet a aidé à démocratiser l’entrée — puis a révélé à quelle vitesse le terrain peut pencher quand le calcul devient l’avantage principal.
ImageNet n’a pas seulement relevé les scores ; il a montré à quel point la mesure dépend de ce que l’on choisit de mesurer. Quand un jeu de données devient la référence, ses décisions de conception orientent discrètement ce que les modèles apprennent bien, ce qu’ils ignorent et ce qu’ils interprètent mal.
Un modèle entraîné à reconnaître 1 000 catégories apprend une vision particulière du monde : quels objets « comptent », à quel point ils doivent être visuellement distincts et quels cas limites sont suffisamment rares pour être écartés.
Si un dataset surreprésente certains environnements (maisons occidentales, produits commerciaux, photographie médiatique), les modèles peuvent exceller dans ces scènes tout en peinant sur des images provenant d’autres régions, contextes socio-économiques ou styles.
Le biais n’est pas une chose unique ; il peut apparaître à plusieurs étapes :
Un score global élevé moyenne les performances sur tous. Cela signifie qu’un modèle peut sembler excellent tout en échouant gravement sur des groupes ou contextes spécifiques — précisément le type d’erreur qui compte dans des produits réels (étiquetage photo, modération de contenu, outils d’accessibilité).
Traitez les jeux de données comme des composants critiques du produit : réalisez des évaluations par sous-groupes, documentez les sources de données et les instructions d’étiquetage, et testez sur des données représentatives de vos utilisateurs réels.
Des « fiches » légères pour les datasets et des audits périodiques peuvent faire surface des problèmes avant le déploiement.
ImageNet a prouvé que l’échelle associée à de bonnes étiquettes peut débloquer des progrès majeurs — mais il a aussi montré combien il est facile de confondre succès de benchmark et fiabilité en production. Trois problèmes reviennent régulièrement : raccourcis, faible généralisation et dérive au fil du temps.
Les images ImageNet sont souvent claires, centrées et prises dans des conditions relativement « propres ». Les déploiements réels ne le sont pas : faible luminosité, flou de mouvement, occlusions partielles, angles inhabituels, arrière-plans encombrés et plusieurs objets se disputant l’attention.
Cet écart compte parce qu’un modèle peut bien performer sur un jeu de test soigné et pourtant échouer une fois en production.
Une haute précision ne garantit pas que le modèle a appris le concept voulu. Un classifieur peut s’appuyer sur des motifs d’arrière-plan (neige pour « luge »), un cadrage typique, des filigranes ou même le style d’appareil photo plutôt que sur l’objet lui-même.
Ces « raccourcis » ressemblent parfois à de l’intelligence lors de l’évaluation mais se brisent quand l’indice disparaît — une des raisons de la fragilité face à de petits changements.
Même si les étiquettes restent correctes, les données évoluent. De nouveaux designs produits apparaissent, les tendances photographiques changent, la compression d’image évolue et les catégories se transforment (ou deviennent ambiguës). Au fil des années, un dataset fixe devient moins représentatif de ce que les gens téléchargent réellement et de ce que capturent les appareils.
Plus de données peut réduire certains erreurs, mais cela ne règle pas automatiquement le décalage, les raccourcis ou la dérive. Les équipes ont aussi besoin de :
L’héritage d’ImageNet est en partie un avertissement : les benchmarks sont puissants, mais ils ne sont pas la ligne d’arrivée.
ImageNet a cessé d’être la seule « boussole » non pas parce qu’il a échoué, mais parce que les ambitions du domaine ont dépassé tout jeu de données unique.
À mesure que les modèles ont grandi, les équipes ont commencé à s’entraîner sur des sources beaucoup plus larges et diverses : mélanges d’images web, photos produit, images extraites de vidéos, données synthétiques et collections spécifiques à un domaine (médical, satellite, retail). L’objectif a glissé de « gagner sur un benchmark » à « apprendre assez largement pour transférer ».
Là où ImageNet mettait l’accent sur la curation et l’équilibre des catégories, les pipelines modernes acceptent parfois un peu de désordre au profit de la couverture. Cela inclut des données faiblement étiquetées (captions, alt-text, texte environnant) et l’apprentissage auto-supervisé qui dépend moins d’étiquettes humaines.
Le challenge ImageNet rendait les progrès lisibles par un nombre. La pratique moderne est plus plurielle : des suites d’évaluation testent la performance à travers domaines, décalages et modes de défaillance — hors-distribution, catégories en longue traîne, tranches d’équité et contraintes opérationnelles comme la latence et la consommation énergétique.
Au lieu de demander « Quel est le top-1 accuracy ? », les équipes demandent « Où ça casse, et avec quelle prévisibilité ? »
Les systèmes multimodaux d’aujourd’hui apprennent des représentations conjointes image–texte, permettant recherche, légendes et question–réponse visuelle avec un seul modèle. Des approches inspirées de l’apprentissage contrastif (appariement image–texte) ont rendu la supervision à l’échelle du web pratique, allant au-delà des labels de type ImageNet.
À mesure que les données d’entraînement s’élargissent et sont souvent récoltées par scraping, les problèmes deviennent autant sociaux que techniques : documenter le contenu des jeux de données, obtenir le consentement quand c’est approprié, gérer les contenus sous copyright et établir des processus de gouvernance pour le retrait et le recours.
Le prochain « centre de gravité » pourrait moins être un dataset unique que l’émergence d’un ensemble de normes.
L’enseignement durable d’ImageNet pour les équipes n’est pas « utilisez des modèles plus gros ». C’est que la performance découle d’un travail discipliné sur les données, d’une évaluation claire et de standards partagés — avant de passer des mois à peaufiner l’architecture.
D’abord, investissez dans la qualité des données comme s’il s’agissait de la qualité produit. Des définitions d’étiquettes claires, des exemples de cas limites et un plan pour les éléments ambigus évitent des « erreurs silencieuses » qui paraissent être des faiblesses du modèle.
Ensuite, considérez l’évaluation comme un artefact de conception. Un modèle n’est « meilleur » que relativement à une métrique, un dataset et un seuil décisionnel. Décidez quelles erreurs comptent (faux positifs vs. faux négatifs) et évaluez en tranches (éclairage, type d’appareil, géographie, segment client).
Troisièmement, construisez des standards communautaires au sein de votre organisation. ImageNet a réussi en partie parce que tout le monde s’accordait sur les règles du jeu. Votre équipe a besoin de la même chose : conventions de nommage, gestion des versions et un benchmark partagé qui ne change pas en cours de trimestre.
Utilisez le transfert d’apprentissage quand votre tâche est proche de concepts visuels courants et que vous avez besoin d’adapter le modèle (données limitées, itération rapide, précision suffisante).
Collectez de nouvelles données quand votre domaine est spécialisé (médical, industriel, faible luminosité, capteurs non standards), quand les erreurs sont coûteuses ou quand vos utilisateurs et conditions diffèrent fortement des jeux publics.
Un changement discret depuis ImageNet est que « le pipeline » est devenu aussi important que le modèle : jeux de données versionnés, runs d’entraînement reproductibles, contrôles de déploiement et plans de rollback. Si vous construisez des outils internes autour de ces workflows, des plateformes comme Koder.ai peuvent aider à prototyper rapidement le produit périphérique — tableaux de bord pour les tranches d’évaluation, files d’attente pour la revue d’annotation ou simples applications internes pour suivre les versions de datasets — en générant des frontends React et des backends Go + PostgreSQL à partir d’un cahier des charges par chat. Pour les équipes rapides, des fonctionnalités comme les snapshots et le rollback peuvent être utiles lors d’itérations sur les données et la logique d’évaluation.
Parcourez plus d’histoires et de guides appliqués dans /blog. Si vous comparez construire ou acheter des outils pour les données et modèles, voyez /pricing pour une première idée des options.
ImageNet a compté parce qu’il a rendu le progrès mesurable à grande échelle : un vaste jeu de données étiqueté de façon cohérente, associé à un benchmark partagé, a permis aux chercheurs de comparer les méthodes de manière équitable et d’obliger les modèles à apprendre des motifs qui se généralisaient au-delà d’échantillons petits et triés.
ImageNet est un grand jeu de données d’images, organisé et étiqueté en de nombreuses catégories (structurées selon une hiérarchie similaire à WordNet). Ce n’est pas un modèle ni un algorithme d’entraînement, et ce n’est pas la preuve d’une « compréhension réelle » : c’est des données pour l’entraînement et l’évaluation.
L’apport central de Fei-Fei Li a été d’identifier que la vision par ordinateur était souvent limitée par des jeux de données trop restreints, et non seulement par des algorithmes. ImageNet a incarné une approche « axée sur les données » : définir des catégories et des règles d’étiquetage claires, puis mettre à l’échelle les exemples pour que les modèles apprennent des représentations visuelles robustes.
L’échelle a apporté de la variété et de la « friction » (variations d’éclairage, angles, arrière-plans encombrés, occlusions, cas limites) que les petits jeux de données ne captent souvent pas. Cette variété pousse les modèles à apprendre des caractéristiques transférables plutôt qu’à mémoriser un petit ensemble d’images.
L’ILSVRC a transformé ImageNet en un livre de règles partagé : même jeu de test, même métrique, comparaisons publiques. Cela a créé des boucles de rétroaction rapides via les classements, réduit l’ambiguïté des revendications et facilité la reproduction et l’extension des améliorations.
AlexNet a combiné trois ingrédients :
Le gain de performance obtenu a été suffisamment spectaculaire pour faire basculer les financements, les recrutements et les croyances industrielles en faveur de l’apprentissage profond.
La préentraînement sur ImageNet a permis aux modèles d’apprendre des caractéristiques visuelles réutilisables (bords, textures, formes). Les équipes pouvaient ensuite affiner ces modèles sur des jeux de données plus petits et spécifiques au domaine pour obtenir une meilleure précision plus rapidement et avec moins d’exemples étiquetés que si elles partaient de zéro.
Le biais peut s’introduire à plusieurs étapes :
Un score moyen élevé peut masquer des échecs sur des contextes ou groupes sous-représentés — d’où la nécessité d’évaluations par sous-groupes et d’une bonne documentation des choix de données.
Trois raisons courantes expliquent pourquoi un bon score sur ImageNet peut échouer en production :
Les victoires sur benchmark doivent être suivies de tests sur le domaine cible, de stress tests et d’un suivi continu.
ImageNet a cessé d’être l’unique « étoile polaire » parce que les ambitions de la recherche ont dépassé tout jeu de données unique. Aujourd’hui on utilise souvent des sources bien plus larges et variées (images web, descriptions textuelles, vidéos, données synthétiques) et des apprentissages auto-supervisés. L’évaluation s’est élargie vers des suites de tests mesurant robustesse, décalage hors distribution, tranches d’équité et contraintes de production.