Een heldere, toegankelijk uitleg van Fei-Fei Li’s ImageNet-project: waarom het de doorbraak van deep learning mogelijk maakte en wat het ons leerde over data, bias en schaal.

Fei-Fei Li wordt vaak genoemd naast moderne AI-doorbraken omdat zij hielp het veld te verschuiven naar een eenvoudige, krachtige overtuiging: vooruitgang komt niet alleen van slimere algoritmes, maar ook van betere data. ImageNet was geen nieuw model of slimme truc. Het was een enorme, zorgvuldig gelabelde momentopname van de visuele wereld die machines iets concreets gaf om van te leren.
Voor ImageNet werden computervisie-systemen vaak getraind op kleinere, smallere datasets. Dat beperkte wat onderzoekers konden meten en wat modellen realistisch konden leren. ImageNet zette een gedurfde weddenschap: als je een grote genoeg verzameling echte afbeeldingen samenbrengt en ze consequent labelt, kun je systemen trainen om veel meer concepten te herkennen — en benaderingen eerlijk te vergelijken.
Die "data-first" insteek blijft in 2025 relevant omdat het nog steeds bepaalt hoe AI-teams werken: definieer de taak, definieer de labels (of doelen), en schaal trainingsdata zodat het model gedwongen wordt betekenisvolle patronen te leren in plaats van een klein monster te onthouden.
De invloed van ImageNet zat niet alleen in de omvang; het zat in het moment. Toen onderzoekers het volgende combineerden:
…verschoof de uitkomst radicaal. De beroemde overwinning in 2012 (AlexNet) gebeurde niet in een vacuüm—het was het moment waarop deze ingrediënten samenkwamen en een sprong in prestaties opleverden.
Dit artikel bekijkt waarom ImageNet zo invloedrijk werd, wat het mogelijk maakte en wat het blootlegde—bias, meetgaten en het risico te veel te optimaliseren voor benchmarks. We focussen op ImageNet’s blijvende impact, de afwegingen en wat het nieuwe zwaartepunt voor AI werd na ImageNet.
Het werk van Fei-Fei Li aan ImageNet begon niet als een queeste om "mensen te verslaan" in herkenning. Het begon met een eenvoudigere overtuiging: als we willen dat machines de visuele wereld begrijpen, moeten we ze die visuele wereld laten zien—op schaal.
Als academicus gericht op visuele intelligentie was Li geïnteresseerd in hoe systemen verder konden gaan dan randen of simpele vormen en echte objecten en scènes konden herkennen. Maar vroege onderzoekswerkzaamheden in computervisie liepen vaak tegen hetzelfde probleem aan: vooruitgang werd minder beperkt door slimme algoritmes en meer door beperkte, enge datasets.
Modellen werden getraind en getest op kleine verzamelingen—soms zo strak gecureerd dat succes buiten het lab niet generaliseerde. Resultaten konden indrukwekkend lijken, maar falen wanneer afbeeldingen rommelig werden: andere belichting, achtergronden, camerahoeken of objectvarianten.
Li zag dat visueel onderzoek een gedeelde, grootschalige, diverse trainingsset nodig had om prestatierapporten betekenisvol te maken. Zonder zo’n set konden teams "winnen" door te tunen op eigenaardigheden in hun eigen data, en zou het veld moeite hebben om echte verbetering te meten.
ImageNet belichaamde een data-first aanpak: bouw een brede fundamentele dataset met consistente labels over veel categorieën, en laat de onderzoeksgemeenschap erop concurreren—en leren.
Door ImageNet te koppelen aan community-benchmarks verschoof het onderzoeksprikkel naar meetbare vooruitgang. Het werd moeilijker om je te verschuilen achter handgekozen voorbeelden en gemakkelijker om methoden die generaliseren te belonen.
Even belangrijk, het creëerde een gemeenschappelijk referentiepunt: wanneer de nauwkeurigheid verbeterde, kon iedereen het zien, reproduceren en erop voortbouwen—waardoor verspreide experimenten een gedeelde lijn van ontwikkeling werden.
ImageNet is een grote, gecureerde verzameling foto’s die ontworpen is om computers te helpen leren wat er in een afbeelding staat. Simpel gezegd: het zijn miljoenen plaatjes, elk georganiseerd in een benoemde categorie—zoals “golden retriever”, “brandweerwagen” of “espresso.” Het doel was geen mooi fotoalbum; het was een trainingsveld waar algoritmes op echte schaal visuele herkenning konden oefenen.
Elke afbeelding in ImageNet heeft een label (de categorie waartoe hij behoort). Die categorieën zijn gerangschikt in een hiërarchie geïnspireerd op WordNet—denk aan een familieboom van concepten. Bijvoorbeeld: “poedel” valt onder “hond”, dat valt onder “zoogdier”, dat weer onder “dier.”
Je hoeft de mechaniek van WordNet niet te kennen om de waarde te begrijpen: deze structuur maakt het makkelijker veel concepten consistent te organiseren en de dataset uit te breiden zonder dat het een naamgevingsvrije val wordt.
Kleine datasets kunnen per ongeluk doen lijken alsof visuele taken eenvoudiger zijn dan ze zijn. De omvang van ImageNet introduceerde variatie en wrijving: verschillende camerahoeken, rommelige achtergronden, belichtingsverschillen, gedeeltelijke occlusies en ongebruikelijke voorbeelden ("randgevallen") die in echte foto’s voorkomen. Met genoeg voorbeelden kunnen modellen patronen leren die buiten een labdemo standhouden.
ImageNet is geen enkel “AI-model”, en het is geen garantie voor begrip in de echte wereld. Het is ook niet perfect: labels kunnen fout zijn, categorieën weerspiegelen menselijke keuzes en de dekking is ongelijk verdeeld over de wereld.
Het bouwen ervan vereiste engineering, tooling en grootschalige coördinatie—zorgvuldige dataverzameling en labeling werkten evenveel als slimme theorie.
ImageNet begon niet als een enkele fotoschijf. Het werd ontworpen als een gestructureerde bron: veel categorieën, veel voorbeelden per categorie en duidelijke regels voor wat "meetelt." Die combinatie—schaal plus consistentie—was de sprong.
Het team verzamelde kandidaatfoto’s van het web en organiseerde ze rond een taxonomie van concepten (grotendeels in lijn met WordNet). In plaats van brede labels zoals “dier” of “voertuig” mikte ImageNet op specifieke, benoembare categorieën—denk “golden retriever” in plaats van “hond.” Dit maakte de dataset nuttig om te meten of een model fijne visuele verschillen kon leren.
Cruciaal was dat categorieën gedefinieerd werden zodat mensen redelijk overeenstemming konden bereiken. Als een klasse te vaag is ("schattig"), wordt annotatie giswerk; als het te obscuur is, krijg je rumoerige labels en kleine steekproeven.
Menselijke annotatoren speelden de hoofdrol: ze verifieerden of een afbeelding daadwerkelijk het doelobject bevatte, filterden irrelevante of slechte resultaten eruit en hielpen voorkomen dat categorieën in elkaar overlopen.
Kwaliteitscontrole ging niet om perfectie—het ging om het verminderen van systematische fouten. Gebruikelijke controles waren meerdere onafhankelijke beoordelingen, steekproefscontroles en richtlijnen die randgevallen verduidelijkten (bijvoorbeeld of een speelgoedversie van een object mee telt).
Benchmarks werken alleen als iedereen op hetzelfde niveau wordt beoordeeld. Als “fiets” in de ene subset ook motorfietsen omvat en in een andere niet, kunnen twee modellen anders presteren simpelweg doordat de data inconsistent is. Duidelijke labelregels maken resultaten vergelijkbaar tussen teams, jaren en methoden.
Een veelvoorkomend misverstand is dat groter automatisch beter betekent. ImageNet’s impact kwam voort uit schaal in combinatie met gedisciplineerde structuur: goed gedefinieerde categorieën, herhaalbare annotatieprocessen en genoeg voorbeelden om van te leren.
Meer afbeeldingen helpen, maar beter datadesign verandert afbeeldingen in een betekenisvolle meetlat.
Benchmarks klinken saai: een vaste testset, een metriek en een score. Maar in machine learning functioneren ze als een gedeeld regelboek. Wanneer iedereen op dezelfde data op dezelfde manier evalueert, wordt vooruitgang zichtbaar—en worden claims moeilijker te manipuleren. Een gedeelde test houdt teams eerlijk, omdat een model ofwel verbetert op de afgesproken maat of niet.
De ImageNet Large Scale Visual Recognition Challenge (ILSVRC) maakte van ImageNet een jaarlijks trefpunt. Onderzoekers publiceerden niet alleen ideeën; ze lieten resultaten zien onder identieke omstandigheden, op dezelfde grootschalige classificatietaak.
Die consistentie deed ertoe. Het gaf laboratoria wereldwijd een gemeenschappelijk doel, maakte papers makkelijker vergelijkbaar en verminderde de frictie van adoptie: als een techniek op de leaderboard klom, konden anderen snel rechtvaardigen om het uit te proberen.
Leaderboards comprimeren de feedbackcyclus. In plaats van maanden te wachten op consensus, konden teams itereren—architectuurwijzigingen, data-augmentatie, optimalisatietrucs—en zien of het iets uitmaakte.
Deze competitieve lus beloonde praktische verbeteringen en creëerde een duidelijk momentumverhaal, wat hielp om de industrie naar deep learning te trekken zodra de winst onmiskenbaar werd.
Benchmarks brengen ook risico’s mee. Wanneer één score het doel wordt, kunnen teams overfitten—niet per se door te "valsspelen", maar door beslissingen af te stemmen op eigenaardigheden van de testverdeling.
De gezonde manier om ILSVRC (en elke benchmark) te behandelen is als meetinstrument, niet als de volledige definitie van "visie." Sterke resultaten zijn een signaal; daarna valideer je buiten de benchmark: nieuwe datasets, andere domeinen, stresstests en foutanalyses in de echte wereld.
In de late jaren 2000 en vroege jaren 2010 waren de meeste computervisie-systemen gebouwd rond handgemaakte features—zorgvuldig ontworpen manieren om randen, texturen en vormen te beschrijven—gevoerd naar redelijk standaard classifiers. Vooruitgang was reëel, maar incrementieel.
Teams besteeden enorme inspanningen aan het afstemmen van feature-pijplijnen, en resultaten liepen vaak vast wanneer afbeeldingen rommelig werden: vreemde belichting, drukke achtergronden, ongebruikelijke perspectieven of subtiele categorieverschillen.
ImageNet had de lat al hoger gelegd door leren van veel diverse data mogelijk te maken. Maar veel onderzoekers twijfelden nog of neurale netwerken—vooral diepe—op schaal beter konden zijn dan goed ontworpen features.
In 2012 veranderde AlexNet dat geloof op een manier die tientallen kleine verbeteringen niet konden. Het model gebruikte een diep convolutioneel neuraal netwerk getraind op ImageNet, met GPU’s die de benodigde rekenkracht haalbaar maakten en grootschalige data die het leren zinvol maakte.
In plaats van te vertrouwen op door mensen ontworpen features, leerde het netwerk zijn eigen representaties rechtstreeks uit pixels. Het resultaat was een sprong in nauwkeurigheid die te groot was om te negeren.
Een zichtbare, gebenchmarked overwinning herschikte prikkels. Financiering, aanwerving en labprioriteiten kantelden naar deep learning omdat het een herhaalbaar recept bood: schaal de data, schaal de rekenkracht en laat modellen features automatisch leren.
Na 2012 betekende "state of the art" in computervisie steeds vaker: de beste resultaten op gedeelde benchmarks, behaald door modellen die end-to-end leren. ImageNet werd het proeftoneel en AlexNet het bewijs dat data-first visie de spelregels van het veld kon herschrijven.
De overwinning van AlexNet in 2012 verbeterde niet alleen classificatiescores—het veranderde wat onderzoekers geloofden dat mogelijk was met genoeg data en het juiste trainingsrecept. Zodra een neuraal netwerk betrouwbaar duizenden objecten kon herkennen, was het logisch om te vragen: kan dezelfde aanpak objecten lokaliseren, afbakenen en scènes begrijpen?
Training in de geest van ImageNet verspreidde zich snel naar moeilijkere visietaken:
Teams ontdekten dat modellen getraind op ImageNet niet alleen goed waren in foto-labeling—ze leerden herbruikbare visuele patronen zoals randen, texturen en vormen die generaliseren naar veel problemen.
Transfer learning is als leren autorijden in een kleine auto en dan snel overstappen naar een bestelbus. Je houdt de kernvaardigheid (sturen, remmen) en past alleen aan wat anders is (grootte, dode hoeken).
In AI-termen: je begint met een model dat al op ImageNet is getraind ("pretrained") en finetunet het daarna op jouw kleinere, specifieke dataset—zoals productafwijkingen op een productielijn of types huidlaesies.
Pretraining werd standaard omdat het vaak betekent:
Dit "pretrain en finetune"-patroon stroomde door naar consumenten- en enterpriseproducten: betere fotosuggesties en organisatie in apps, visuele zoekfuncties in retail ("vind vergelijkbare schoenen"), veiligere rijhulpsystemen die voetgangers detecteren en kwaliteitscontrolesystemen die schade of ontbrekende onderdelen opsporen.
Wat begon als een benchmark-overwinning werd een herhaalbare workflow voor het bouwen van echte systemen.
ImageNet verbeterde niet alleen beeldherkenning—het veranderde ook wat "goed onderzoek" betekende. Eerder konden veel visiepapers succes claimen met kleine datasets en hand-afgestelde features. Na ImageNet moesten claims een publieke, gestandaardiseerde test doorstaan.
Omdat dataset en challengerichtlijnen gedeeld waren, kregen studenten en kleine labs plotseling reële kansen. Je had geen privéverzameling afbeeldingen nodig om te beginnen; je had een duidelijk idee en de discipline om het goed te trainen en evalueren.
Dat hielp een generatie onderzoekers te creëren die leerde door te concurreren op hetzelfde probleem.
ImageNet beloonde teams die vier dingen end-to-end konden beheren:
Die "volledige pijplijn"-mindset werd later standaard in machine learning, ver buiten computervisie.
Met een gemeenschappelijke benchmark werd het makkelijker methoden te vergelijken en resultaten te herhalen. Onderzoekers konden zeggen "we gebruikten het ImageNet-recept" en lezers wisten wat dat impliceerde.
In de loop van de tijd bevatten papers steeds vaker trainingsdetails, hyperparameters en referentie-implementaties—een open onderzoekscultuur die vooruitgang cumulatief maakte in plaats van geïsoleerd.
Dezelfde benchmarkcultuur bracht ook een ongemakkelijke waarheid aan het licht: naarmate topresultaten gekoppeld werden aan grotere modellen en langere trainingsruns, begon toegang tot rekenkracht te bepalen wie kon concurreren.
ImageNet hielp aanvankelijk de instap democratiseren—maar toonde hoe snel het speelveld kan kantelen wanneer rekenkracht het belangrijkste voordeel wordt.
ImageNet verhoogde niet alleen nauwkeurigheid—het toonde hoezeer meting afhangt van wat je kiest te meten. Wanneer een dataset het gedeelde meetlat wordt, vormen de ontwerpkeuzes stilletjes wat modellen goed leren, wat ze negeren en wat ze verkeerd interpreteren.
Een model dat getraind is om 1.000 categorieën te herkennen, leert een specifieke kijk op de wereld: welke objecten "tellen", hoe visueel onderscheidend ze moeten zijn en welke randgevallen zeldzaam genoeg zijn om te negeren.
Als een dataset bepaalde omgevingen oververtegenwoordigt (zoals westerse huizen, productfotografie en mediafotografie), kunnen modellen daar uitstekend in worden en moeite krijgen met beelden uit andere regio’s, sociaaleconomische contexten of stijlen.
Bias is niet één ding; het kan op meerdere stappen ontstaan:
Een enkele top-line nauwkeurigheidswaarde gemiddeld over alles betekent dat een model er "goed" uit kan zien terwijl het ernstig faalt voor specifieke groepen of contexten—precies die fouten die in echte producten tellen (fototagging, contentmoderatie, toegankelijkheidstools).
Behandel datasets als cruciale productcomponenten: voer subgroep-evaluaties uit, documenteer datasources en labelinstructies, en test op representatieve data van je echte gebruikers.
Lichte dataset-"datasheets" en periodieke audits kunnen problemen aan het licht brengen voordat ze live gaan.
ImageNet bewees dat schaal plus goede labels grote vooruitgang kan ontgrendelen—maar het liet ook zien hoe makkelijk het is benchmark-succes te verwarren met productbetrouwbaarheid. Drie terugkerende problemen bij moderne visiesystemen zijn: shortcuts, zwakke generalisatie en drift over tijd.
ImageNet-afbeeldingen zijn vaak duidelijk, gecentreerd en gefotografeerd in relatief "nette" omstandigheden. Reële toepassingen zijn dat niet: weinig licht, bewegingsonscherpte, gedeeltelijke occlusies, ongebruikelijke camerahoeken, drukke achtergronden en meerdere objecten die om aandacht concurreren.
Die kloof doet ertoe omdat een model goed kan scoren op een gecureerde testset maar struikelt wanneer een productteam het inzet in magazijnen, ziekenhuizen, op straat of in user-generated content.
Hoge nauwkeurigheid garandeert niet dat het model het bedoelde concept heeft geleerd. Een classifier kan vertrouwen op achtergrondpatronen (sneeuw voor "slee"), typische framing, watermerken of zelfs camerastijl in plaats van het object zelf.
Deze "shortcuts" kunnen eruitzien als intelligentie tijdens evaluatie maar falen wanneer de cue verdwijnt—een reden waarom modellen broos zijn bij kleine veranderingen.
Zelfs als labels correct blijven, verandert data. Nieuwe productontwerpen verschijnen, fotografietrends schuiven, compressie van afbeeldingen verandert en categorieën evolueren (of worden ambigu). Over jaren wordt een vaste dataset minder representatief voor wat mensen echt uploaden en wat apparaten vastleggen.
Meer data kan sommige fouten verminderen, maar lost mismatch, shortcuts of drift niet automatisch op. Teams hebben ook nodig:
De erfenis van ImageNet is deels een waarschuwing: benchmarks zijn krachtig, maar ze zijn geen eindpunt.
ImageNet verloor zijn rol als enige "noordster" niet omdat het faalde, maar omdat de ambities van het veld elke samengestelde dataset overstegen.
Naarmate modellen schaalden, begonnen teams te trainen op veel grotere en diversere bronnen: mengsels van webafbeeldingen, productfoto’s, videoframes, synthetische data en domeinspecifieke collecties (medisch, satelliet, retail). Het doel verschoof van "winnen op één benchmark" naar "breed genoeg leren om te transfereren."
Waar ImageNet de nadruk legde op zorgvuldige curatie en categoriebalans, ruilen nieuwere pijplijnen soms netheid in voor dekking. Dit omvat zwak gelabelde data (captions, alt-text, omliggende tekst) en self-supervised learning die minder afhankelijk is van menselijke categoriën.
De ImageNet Challenge maakte vooruitgang zichtbaar met één kopregelnummer. Moderne praktijk is pluraler: evaluatiesuites testen prestaties over domeinen, verschuivingen en faalmodi—out-of-distribution data, long-tail categorieën, fairness-slices en praktische beperkingen zoals latentie en energie.
In plaats van te vragen "Wat is de top-1 accuracy?", vragen teams "Waar breekt het en hoe voorspelbaar?"
De multimodale systemen van vandaag leren gezamenlijke representaties van beeld en tekst, waardoor zoeken, captioning en visuele vraagantwoorden met één model mogelijk zijn. Benaderingen die contrastief leren gebruiken (beelden koppelen aan tekst) maakten web-scale supervisie praktisch en gingen voorbij ImageNet-achtige klasselabels.
Naarmate trainingsdata breder en meer gescraped wordt, worden de harde problemen net zozeer sociaal als technisch: documenteren wat in datasets zit, waar relevant toestemming verkrijgen, omgaan met auteursrechtelijk beschermd materiaal en governanceprocessen voor klachten en verwijdering.
Het volgende "zwaartepunt" is misschien minder een dataset—en meer een set normen.
De blijvende les van ImageNet voor teams is niet "gebruik grotere modellen." Het is dat prestaties volgen uit gedisciplineerd datawerk, duidelijke evaluatie en gedeelde standaarden—voordat je maanden besteedt aan het tunen van architectuur.
Ten eerste: investeer in datakwaliteit alsof het productkwaliteit is. Duidelijke labeldefinities, voorbeelden van randgevallen en een plan voor ambigue items voorkomen "stille fouten" die als modelzwaktes kunnen klinken.
Ten tweede: behandel evaluatie als een ontwerpkeuze. Een model is alleen "beter" relatief ten opzichte van een metriek, een dataset en een beslissingsdrempel. Bepaal welke fouten belangrijk zijn (vals alarm versus missen) en evalueer in slices (belichting, apparaattype, geografie, klantsegment).
Ten derde: bouw gemeenschappelijke standaarden binnen je organisatie. ImageNet slaagde deels omdat iedereen het eens was over de spelregels. Je team heeft hetzelfde nodig: naamgevingsconventies, versiebeheer en een gedeelde benchmark die niet midden in het kwartaal verandert.
Gebruik transfer learning wanneer je taak dichtbij algemene visuele concepten ligt en je model vooral moet aanpassen (beperkte data, snelle iteratie, acceptabele nauwkeurigheid).
Verzamel nieuwe data wanneer je domein gespecialiseerd is (medisch, industrieel, weinig licht, niet-standaard sensoren), wanneer fouten duur zijn of wanneer je gebruikers en condities sterk afwijken van publieke datasets.
Een stille verschuiving sinds ImageNet is dat "de pijplijn" net zo belangrijk is geworden als het model: versiebeheer van datasets, reproduceerbare trainingsruns, deploy-checks en rollback-plannen. Als je interne tools rond die workflows bouwt, kan een platform zoals Koder.ai helpen prototypes van het omliggende product snel te maken—dashboards voor evaluatieslices, annotatie-review-queues of simpele interne webapps om datasetversies bij te houden—door React-frontends en Go + PostgreSQL-backends te genereren vanuit een chat-gebaseerde specificatie. Voor teams die snel bewegen, kunnen functies zoals snapshots en rollback nuttig zijn bij iteraties op data en evaluatielogica.
Lees meer over AI-geschiedenis en praktische handleidingen op onze blog. Als je bouw versus koop vergelijkt voor data-/modeltools, bekijk dan de prijsinformatie voor een snel overzicht van opties.
ImageNet was belangrijk omdat het vooruitgang op schaal meetbaar maakte: een grote, consistent gelabelde dataset plus een gedeelde benchmark stelde onderzoekers in staat methoden eerlijk te vergelijken en modellen te pushen om patronen te leren die verder gaan dan kleine, zorgvuldig samengestelde voorbeelden.
ImageNet is een grote, gecureerde dataset met afbeeldingen die in veel categorieën zijn gelabeld (georganiseerd in een WordNet-achtige hiërarchie). Het is geen model, geen trainingsalgoritme en geen bewijs van "echte" begrip—het is trainings- en evaluatiedata.
Fei-Fei Li’s kernbijdrage was het inzicht dat computer vision werd gebottlenecked door beperkte datasets, niet alleen door algoritmes. ImageNet belichaamde een data-first aanpak: definieer duidelijke categorieën en labelregels en schaal dan voorbeelden zodat modellen robuuste visuele representaties kunnen leren.
Schaal voegde variatie en "wrijving" toe (belichting, hoeken, rommel, occlusies, randgevallen) die kleine datasets vaak missen. Die variatie dwingt modellen om overdraagbare features te leren in plaats van een beperkt beeld te memoriseren.
ILSVRC veranderde ImageNet in een gedeelde regelset: dezelfde testset, dezelfde metriek, publieke vergelijkingen. Dat creëerde snelle feedbackloops via leaderboards, verminderde onduidelijkheid in claims en maakte verbeteringen makkelijk reproduceerbaar en bouwbaar.
AlexNet combineerde drie ingrediënten:
Het resultaat was een prestatiesprong groot genoeg om financiering, aanwerving en industrieovertuiging richting deep learning te verschuiven.
Pretraining op ImageNet leerde modellen herbruikbare visuele features (randen, texturen, vormen). Teams konden die modellen vervolgens fine-tunen op kleinere, domeinspecifieke datasets om sneller betere nauwkeurigheid te bereiken met minder gelabelde voorbeelden dan trainen vanaf nul.
Bias kan binnenkomen via wat wordt verzameld, hoe labels worden gedefinieerd en hoe annotatoren randgevallen interpreteren. Een hoge gemiddelde nauwkeurigheid kan nog steeds falen verbergen in ondervertegenwoordigde contexten, geografieën of gebruikersgroepen—dus teams moeten in slices evalueren en data-keuzes documenteren.
Veelvoorkomende problemen zijn:
Benchmark-overwinningen moeten gevolgd worden door domeintests, stress-tests en voortdurende monitoring.
Hedendaagse training gebruikt vaak bredere, minder nette web-scale data (captions/alt-text), self-supervised learning en multimodale doelen. Evaluatie is verschoven van één topline-nummer naar suites die robuustheid, out-of-distribution gedrag, fairness-slices en deployment-constraints testen.