Leer wat kunstmatige algemene intelligentie (AGI) werkelijk betekent, hoe LLMs werken en belangrijke argumenten waarom huidige tekstmodellen mogelijk nooit echte AGI worden.

Als je tech-nieuws, investeerdocumenten of productpagina's leest, merk je dat het woord intelligentie steeds verder wordt opgerekt. Chatbots zijn “bijna menselijk”, codeerassistenten zijn “praktisch junior engineers” en sommige mensen noemen krachtige grote taalmodellen (LLM) terloops de eerste stappen richting kunstmatige algemene intelligentie (AGI).
Dit artikel is bedoeld voor nieuwsgierige practitioners, oprichters, productleiders en technisch georiënteerde lezers die tools zoals GPT-4 of Claude gebruiken en zich afvragen: Is dit hoe AGI eruitziet — of mist hier iets belangrijks?
LLMs zijn oprecht indrukwekkend. Ze:\n\n- kunnen vloeiend in natuurlijke taal converseren\n- schrijven code, vatten onderzoek samen en slagen voor examens\n- reflecteren op hun eigen output op manieren die lijken op redeneren\n\nVoor de meeste niet-specialisten voelt dat niet te onderscheiden van “algemene intelligentie.” Wanneer een model in dezelfde sessie een essay over Kant kan schrijven, je TypeScript-fout kan oplossen en helpen met een juridisch memo, is het logisch om aan te nemen dat we tegen AGI aanzitten.
Maar die aanname vereenzelvigt stilzwijgend goed zijn met taal met algemene intelligentie hebben. Dat is de kernverwarring die dit artikel zal ontleden.
Het argument dat stap voor stap wordt uitgewerkt is:
Huidige LLMs zijn uiterst capabele patroonlerende systemen over tekst en code, maar die architectuur en dat trainingsregime maken het onwaarschijnlijk dat ze ooit echte AGI worden door alleen maar op te schalen of te fine-tunen.
Ze zullen steeds beter, breder en nuttiger worden. Ze kunnen onderdeel zijn van AGI-achtige systemen. Toch zijn er fundamentele redenen — over grounding in de wereld, agency, geheugen, belichaming en zelfmodellen — waarom een “grotere LLM” waarschijnlijk niet hetzelfde pad is als “algemene intelligentie.”
Verwacht een opiniërende rondleiding, maar een die geworteld is in huidig onderzoek, concrete capaciteiten en faalgevallen van LLMs, en de open vragen waar serieuze wetenschappers mee worstelen, in plaats van in hype of angstzaaierij.
Wanneer mensen AGI zeggen, bedoelen ze zelden hetzelfde. Om het debat te verduidelijken helpt het om een paar kernconcepten te scheiden.
AI (artificiële intelligentie) is het brede veld van systemen bouwen die taken uitvoeren die iets blijken van "intelligent" gedrag te vereisen: spraak herkennen, films aanbevelen, Go spelen, code schrijven, en meer.
Het grootste deel van wat er vandaag bestaat is smalle AI (of zwakke AI): systemen die ontworpen en getraind zijn voor een specifieke set taken onder specifieke omstandigheden. Een beeldclassificator die katten en honden labelt, of een klantenservice-chatbot voor bankvragen, kan buitengewoon capabel zijn binnen die niche maar faalt erbuiten.
Kunstmatige Algemene Intelligentie (AGI) is heel anders. Het verwijst naar een systeem dat:\n\n- Generaliseert over een breed scala aan domeinen, niet slechts één taak of datatype\n- Zich aanpast aan nieuwe problemen en omgevingen waarvoor het niet expliciet getraind is\n- Autonoom handelt, doelen stelt en nastreeft met minimale sturing\n- Transfer learning toepast, wat in het ene context geleerd is in andere contexten inzet
Een praktische vuistregel: een AGI zou in principe bijna elk intellectueel veeleisende beroep dat een mens kan, kunnen leren, gegeven tijd en middelen, zonder voor elk nieuw werkstuk een op maat gemaakte herontwerp.
Geraakte termen die vaak verschijnen:\n\n- Strong AI: meestal door elkaar gebruikt met AGI, met nadruk op echt begrip in plaats van slimme imitatie.\n- Human-level AI: een AGI waarvan de algemene cognitieve vaardigheden ongeveer vergelijkbaar zijn met die van een gemiddelde volwassene.\n- Superintelligentie: een hypothetisch systeem dat de beste menselijke geesten op de meeste of alle terreinen verre overtreft.
Ter vergelijking: moderne chatbots en beeldmodellen blijven smal: indrukwekkend, maar geoptimaliseerd voor patronen in specifieke data, niet voor open-eindige, domeinoverstijgende intelligentie.
De moderne AGI-droom begint bij Alan Turing’s voorstel uit 1950: als een machine een gesprek kan voeren dat niet van een mens te onderscheiden is (de Turing-test), zou die machine dan intelligent zijn? Dat kaderde algemene intelligentie grotendeels in termen van gedrag, vooral taal en redenering.
Van de jaren 1950 tot de jaren 1980 zochten onderzoekers AGI via symbolische AI of “GOFAI” (Good Old-Fashioned AI). Intelligent gedrag werd gezien als het manipuleren van expliciete symbolen volgens logische regels. Programma's voor theorem proving, spelende agents en expert systemen deden sommigen geloven dat menselijk niveau redeneren nabij was.
Maar GOFAI worstelde met perceptie, gezond verstand en het omgaan met rommelige, echte werelddata. Systemen konden logische puzzels oplossen maar faalden op taken die een kind trivial zou vinden. Deze kloof leidde tot de eerste grote AI-winters en een voorzichtiger beeld van AGI.
Naarmate data en rekenkracht groeiden, verschoof AI van met de hand gemaakte regels naar leren uit voorbeelden. Statistische machine learning en later deep learning herdefinieerden voortgang: in plaats van kennis te coderen, leren systemen patronen uit grote datasets.
Mijlpalen zoals IBM’s DeepBlue (schaak) en later AlphaGo (Go) werden gevierd als stappen richting algemene intelligentie. In werkelijkheid waren het buitengewoon gespecialiseerde systemen: elk beheerste één spel onder vaste regels, zonder overdracht naar alledaags redeneren.
De GPT-reeks markeerde weer een spectaculaire sprong, ditmaal in taal. GPT-3 en GPT-4 kunnen essays schrijven, code produceren en stijlen nabootsen, wat speculatie aanwakkerde dat AGI nabij zou zijn.
Toch zijn deze modellen nog steeds patroonlerende systemen over tekst. Ze vormen geen doelen, bouwen geen verankerde wereldmodellen en verbreden hun competenties niet autonoom.
In elke golf—symbolische AI, klassieke machine learning, deep learning en nu grote taalmodellen—is de droom van AGI herhaaldelijk geprojecteerd op smalle successen en vervolgens bijgesteld toen de grenzen duidelijk werden.
Grote taalmodellen (LLMs) zijn patroonlerende systemen die getraind zijn op enorme verzamelingen tekst: boeken, websites, code, forums en meer. Hun doel is deceptief eenvoudig: gegeven wat tekst, voorspellen welk token (een klein stukje tekst) waarschijnlijk het volgende is.
Voor training wordt tekst opgesplitst in tokens: dat kunnen hele woorden ("kat"), woorddelen ("inter", "essant") of zelfs leestekens zijn. Tijdens training ziet het model herhaaldelijk sequenties zoals:
"De kat zat op de ___"
en leert het hoge waarschijnlijkheid toe te kennen aan plausibele volgende tokens ("mat", "bank") en lage aan onwaarschijnlijke ones ("presidentschap"). Dit proces, opgeschaald over biljoenen tokens, vormt miljarden (of meer) interne parameters.
Onder de motorkap is het model gewoon een zeer grote functie die een sequentie tokens omzet in een kansverdeling over het volgende token. Training gebruikt gradient descent om geleidelijk parameters aan te passen zodat voorspellingen beter passen bij patronen in de data.
"Schaalwetten" beschrijven een regelmatigheid die onderzoekers zagen: wanneer je modelgrootte, datasetsize en compute vergroot, verbeteren prestaties vaak op voorspelbare wijze. Grotere modellen getraind op meer tekst worden meestal beter in voorspelling—tot praktische limieten van data, rekenkracht en trainingsstabiliteit.
LLMs slaan geen feiten op als een database en redeneren niet als een mens. Ze coderen statistische regelmatigheden: welke woorden, zinnen en structuren vaak samen voorkomen, in welke contexten.
Ze hebben geen verankerde concepten die aan perceptie of fysieke ervaring gekoppeld zijn. Een LLM kan over "rood" of "zwaarte" praten alleen via hoe die woorden in tekst werden gebruikt, niet doordat het kleuren ziet of objecten optilt.
Daarom kunnen modellen deskundig klinken en toch zelfverzekerd fouten maken: ze breiden patronen uit in plaats van een expliciet model van de realiteit te raadplegen.
Pre-training is de lange initiële fase waarin het model algemene taalpatronen leert door next-token voorspelling op enorme tekstcorpora. Hier ontstaan vrijwel alle capaciteiten.
Daarna past fine-tuning het voorgetrainde model aan op nauwere doelen: instructies volgen, code schrijven, vertalen of assisteren in specifieke domeinen. Het model ziet gecureerde voorbeelden van gewenst gedrag en wordt licht aangepast.
Reinforcement learning from human feedback (RLHF) voegt nog een laag toe: mensen beoordelen of vergelijken modeloutputs, en het model wordt geoptimaliseerd om antwoorden te geven die mensen prefereren (bijv. behulpzamer, minder schadelijk, eerlijker). RLHF geeft het model geen nieuwe zintuigen of dieper begrip; het vormt vooral hoe het presenteert en filtert wat het al geleerd heeft.
Samen creëren deze stappen systemen die buitengewoon goed zijn in vloeiende tekstgeneratie door gebruik te maken van statistische patronen—zonder verankerd kennis, doelen of bewustzijn.
Grote taalmodellen lijken indrukwekkend omdat ze een breed scala aan taken kunnen uitvoeren die ooit ver buiten het bereik van machines leken.
LLMs kunnen werkende codefragmenten genereren, bestaande code refactoren en onbekende libraries in gewone taal uitleggen. Voor veel ontwikkelaars functioneren ze al als een zeer capabele pair-programmer: ze suggereren randgevallen, vangen voor de hand liggende bugs en voorzien complete modules van een scaffold.
Ze excelleren ook in samenvatten. Gegeven een lang rapport, paper of e-maildraad, kan een LLM het verkorten tot kernpunten, actiepunten markeren of de toon aanpassen voor verschillende doelgroepen.
Vertalen is een andere kracht. Moderne modellen behandelen tientallen talen en vangen vaak nuances in stijl en register goed genoeg voor dagelijks professioneel gebruik.
Naarmate modellen opschalen, lijken nieuwe vaardigheden “uit het niets” te verschijnen: logische puzzels oplossen, slagen voor beroepsexamens of multi-stap instructies opvolgen die eerdere versies niet aankonden. Op gestandaardiseerde benchmarks—wiskunde woordproblemen, bar exam vragen, medische quizzen—bereiken top-LLMs nu gemiddelde of bovengemiddelde scores.
Deze opkomende gedragingen verleiden mensen te zeggen dat de modellen "redeneren" of "begrijpen" als mensen. Prestatiegrafieken en leaderboard rankings versterken het idee dat we op weg zijn naar kunstmatige algemene intelligentie.
LLMs zijn getraind om tekst voort te zetten op manieren die passen bij patronen in data. Dat trainingsdoel, gecombineerd met schaal, is voldoende om expertise en agentiviteit te imiteren: ze klinken vol vertrouwen, onthouden context binnen een sessie en kunnen hun antwoorden in vloeiende proza rechtvaardigen.
Toch is dit een illusie van begrip. Het model weet niet wat code doet wanneer die uitgevoerd wordt, wat een medische diagnose voor een patiënt betekent, of welke fysieke acties uit een plan voortvloeien. Het heeft geen grounding in de wereld buiten tekst.
Sterke prestaties op tests—even tests ontworpen voor mensen—staan dus niet automatisch gelijk aan AGI. Ze tonen aan dat patroonleren over enorme tekstdata veel gespecialiseerde vaardigheden kan benaderen, maar niet het flexibele, verankerde, domeinoverstijgende intelligentieniveau dat "kunstmatige algemene intelligentie" meestal impliceert.
Grote taalmodellen zijn buitengewone tekstvoorspellers, maar juist dat ontwerp creëert harde grenzen aan wat ze kunnen zijn.
LLMs zien niet, horen niet, bewegen niet en manipuleren geen objecten. Hun enige contact met de wereld is via tekst (en, in sommige nieuwere modellen, statische beelden of korte clips). Ze hebben geen doorlopende zintuiglijke stroom, geen lichaam en geen manier om te handelen en de gevolgen te observeren.
Zonder sensoren en belichaming kunnen ze geen verankerd, continu bijgewerkt model van de realiteit vormen. Woorden als "zwaar", "plakkerig" of "fragiel" zijn slechts statistische buren in tekst, geen geleefde constraints. Dat maakt overtuigende imitatie van begrip mogelijk, maar beperkt hen tot het hercombineren van eerdere beschrijvingen in plaats van leren uit directe interactie.
Omdat een LLM getraind is om een tokenreeks voort te zetten, produceert het welke continuatie het best past bij zijn geleerde patronen, niet per se wat waar is. Wanneer de data schaars of tegenstrijdig zijn, vult het lacunes met plausibel klinkende fabricaties.
Het model mist ook een persistent overtuigingenregister. Elk antwoord wordt nieuw gegenereerd op basis van de prompt en gewichten; er is geen blijvend intern overzicht van “feiten die ik aanhoud.” Langetermijngeheugenfuncties kunnen extern worden toegevoegd, maar het kernsysteem onderhoudt of herziet geen overtuigingen zoals mensen dat doen.
Het trainen van een LLM is een offline, resource-intensief batchproces. Het bijwerken van kennis betekent doorgaans retraining of fine-tuning op een nieuwe dataset, niet vloeiend leren uit elke interactie.
Dit creëert een cruciale beperking: het model kan geen snelle veranderingen in de wereld betrouwbaar volgen, zijn concepten niet adaptief bijstellen op basis van lopende ervaring, of diepgaande misverstanden door stapsgewijs leren corrigeren. Op z'n best kan het zulke adaptatie simuleren door zijn outputs opnieuw te fraseren op basis van recente prompts of gekoppelde tools.
LLMs excelleren in het vastleggen van statistische regelmatigheden: welke woorden samen voorkomen, welke zinnen meestal volgen, hoe verklaringen eruitzien. Maar dat is niet hetzelfde als begrijpen hoe en waarom de wereld werkt.
Causaal begrip omvat hypothesen vormen, interveniëren, observeren wat verandert en interne modellen updaten wanneer voorspellingen falen. Een tekst-only voorspeller heeft geen directe manier om te interveniëren of verrast te worden. Het kan een experiment beschrijven maar er geen uitvoeren. Het kan causale taal echoën maar mist interne mechanismen die aan acties en uitkomsten gekoppeld zijn.
Zolang een systeem beperkt blijft tot tekstvoorspelling vanuit vroegere tekst, blijft het fundamenteel een patroonleraar. Het kan redeneren imiteren, oorzaken vertellen en doen alsof het van mening verandert, maar het leeft niet in een gedeelde wereld waar zijn "overtuigingen" aan consequenties worden getoetst. Die kloof is centraal voor waarom taalmeesterschap alleen waarschijnlijk niet tot kunstmatige algemene intelligentie leidt.
Taal is een krachtig interface voor intelligentie, maar het is niet de substantie van intelligentie zelf. Een systeem dat plausibele zinnen voorspelt is wezenlijk anders dan een agent die begrijpt, plant en handelt in de wereld.
Mensen leren concepten door te zien, te voelen, te bewegen en te manipuleren. "Beker" is niet alleen hoe het woord in zinnen wordt gebruikt; het is iets dat je kunt vastpakken, vullen, laten vallen of laten breken. Psychologen noemen dit grounding: concepten zijn verbonden met perceptie en actie.
Een kunstmatige algemene intelligentie zou vrijwel zeker een vergelijkbare grounding nodig hebben. Om betrouwbaar te generaliseren moet het symbolen (zoals woorden of interne representaties) koppelen aan stabiele regelmatigheden in de fysieke en sociale wereld.
Standaard LLMs leren echter uitsluitend uit tekst. Hun "begrip" van een beker is puur statistisch: correlaties tussen woorden over miljarden zinnen. Dat is krachtig voor conversatie en coderen, maar kwetsbaar wanneer je ze buiten bekende patronen duwt, vooral in domeinen die afhangen van directe interactie met de realiteit.
Algemene intelligentie omvat ook continuïteit over tijd: langetermijngeheugen, blijvende doelen en relatief stabiele voorkeuren. Mensen accumuleren ervaringen, herzien overtuigingen en volgen projecten maanden of jaren.
LLMs hebben geen ingebouwd persistent geheugen van hun eigen interacties en geen intrinsieke doelen. Elke continuïteit of "persoonlijkheid" moet extern worden toegevoegd via tools (databases, profielen, system prompts). Standaard is elke query een nieuw patroonherkenningsprobleem, geen stap in een coherent levensverhaal.
AGI wordt vaak gedefinieerd als het vermogen om een breed scala taken op te lossen, inclusief nieuwe, door te redeneren over oorzaak en gevolg en door in te grijpen in de omgeving. Dat impliceert:\n\n- Causale modellen bouwen: wat zal gebeuren als ik X doe?\n- Multi-stap acties plannen onder onzekerheid\n- Plannen bijstellen op basis van sensorel feedback
LLMs zijn geen agenten; ze genereren het volgende token in een sequentie. Ze kunnen plannen beschrijven of over causaliteit praten omdat zulke patronen in tekst bestaan, maar ze voeren van zichzelf geen acties uit, observeren geen consequenties en passen hun interne modellen niet aan.
Om een LLM in een handelend systeem te veranderen, moeten ingenieurs het omringen met externe componenten voor perceptie, geheugen, toolgebruik en sturing. Het taalmodel blijft een krachtig module voor suggestie en evaluatie, niet een zelfstandige algemeen intelligente agent.
Kortom: algemene intelligentie vereist verankerde concepten, aanhoudende motivaties, causale modellen en adaptieve interactie met de wereld. Taalmeesterschap—hoe nuttig ook—is slechts één onderdeel van dat grotere plaatje.
Wanneer mensen met een vloeiend model praten, is het logisch om aan te nemen dat er een geest aan de andere kant zit. De illusie is sterk, maar het is een illusie.
Onderzoekers zijn het er niet over eens of kunstmatige algemene intelligentie bewustzijn moet hebben.
We hebben nog geen toetsbare theorie die dit beslist. Het is dus voorbarig te verklaren dat AGI wel of niet bewust moet zijn. Wat nu telt is duidelijkheid over wat huidige LLMs niet hebben.
Een groot taalmodel is een statistische next-token predictor die op een momentopname van tekst opereert. Het draagt geen stabiele identiteit over sessies of zelfs beurten, behalve wat in de prompt en kortetermijncontext gecodeerd is.
Wanneer een LLM "ik" zegt, volgt het slechts linguïstische conventies uit data, niet verwijst het naar een innerlijk subject.
Bewuste wezens hebben ervaringen: pijn, verveling, nieuwsgierigheid, voldoening. Ze hebben ook intrinsieke doelen en zorgpunten—dingen die voor hen zelf van belang zijn, los van externe beloningen.
LLMs, daarentegen:\n\n- Voelen niets bij het genereren van tekst.\n- Hebben geen verlangens, angsten of voorkeuren van zichzelf.\n- Streven geen langetermijnprojecten na tenzij we die script of scaffolden.
Hun "gedrag" is de output van patroonmatching over tekst, beperkt door training en prompting, niet de expressie van een innerlijk leven.
Omdat taal ons belangrijkste venster op andere geesten is, suggereert vloeiende dialoog sterk personhood. Met LLMs is dat juist waar we het makkelijkst misleid worden.
Antropomorfiseren van deze systemen kan:\n\n- Risicobeoordelingen vertekenen (bijv. zorgen om gekwetste "gevoelens" in plaats van echte faalmodi).\n- Oververtrouwen en overmatig vertrouwen aanmoedigen omdat het systeem vol vertrouwen en empathisch klinkt.\n- Ethische verwarring veroorzaken, zoals debatten over rechten voor systemen die geen ervaring hebben.
Het behandelen van LLMs als mensen vervaagt de grens tussen simulatie en realiteit. Om helder te denken over AGI—en over huidige AI-risico's—moeten we onthouden dat een overtuigende uitvoering van menselijkheid niet hetzelfde is als mens zijn.
Als we ooit kunstmatige algemene intelligentie bouwen, hoe weten we dan dat het echt is en niet slechts een buitengewoon overtuigende chatbot?
Turing-achtige tests.\nKlassieke en moderne Turing-tests vragen: kan het systeem een mensachtige conversatie volhouden genoeg om mensen te misleiden? LLMs doen dit al verrassend goed, wat laat zien hoe zwak deze lat is. Chatskills meten stijl, niet diepgang van begrip, planning of reële wereldcompetentie.
ARC-achtige evaluaties.\nTaken geïnspireerd door de Alignment Research Center (ARC) richten zich op nieuwe redeneerpuzzels, multi-stap instructies en toolgebruik. Ze onderzoeken of een systeem problemen kan oplossen die het nog niet eerder zag door vaardigheden op nieuwe manieren te combineren. LLMs kunnen sommige van deze taken uitvoeren—maar vaak hebben ze zorgvuldig ontworpen prompts, externe tools en menselijke supervisie nodig.
Agenttests.\nVoorgestelde "agent"-tests vragen of een systeem open-eindige doelen kan nastreven over tijd: ze opdelen in subdoelen, plannen herzien, omgaan met onderbrekingen en leren van uitkomsten. Huidige LLM-gebaseerde agents kunnen agentachtig lijken, maar achter de schermen zijn ze afhankelijk van broze scripts en menselijk ontworpen scaffolding.
Om iets als echte AGI te beschouwen zouden we minstens willen zien:\n\n1. Autonomie.\n Het zou eigen subdoelen moeten kunnen stellen en beheren, voortgang monitoren en herstellen van fouten zonder voortdurende menselijke sturing.\n\n2. Overdracht tussen domeinen.\n Vaardigheden geleerd in het ene gebied moeten soepel overgaan naar zeer verschillende gebieden, zonder miljoenen nieuwe voorbeelden voor hertraining.\n\n3. Reële wereldcompetentie.\n Het moet kunnen plannen en handelen in rommelige, onzekere omgevingen—fysiek, sociaal en digitaal—waar regels onvolledig zijn en consequenties echt.
LLMs, zelfs wanneer ingebed in agent-frameworks, doen over het algemeen:\n\n- Ze vertrouwen op handgemaakte workflows om autonoom te lijken.\n- Ze hebben moeite met overdracht wanneer taken sterk afwijken van hun trainingsdistributie.\n- Ze hebben externe tools, expliciete veiligheidsfilters en mensen-in-de-lus nodig om met echte risico's om te gaan.
Een chatgebaseerde toets halen, of zelfs smalle benchmark suites, is dus verre van voldoende. Echte AGI herkennen betekent verder kijken dan kwaliteit van conversatie naar aanhoudende autonomie, cross-domain generalisatie en betrouwbaar handelen in de wereld—gebieden waarin huidige LLMs nog uitgebreide scaffolding nodig hebben om gedeeltelijke, fragiele resultaten te bereiken.
Als we AGI serieus nemen, is "een groot tekstmodel" slechts één ingrediënt, niet het afgewerkte systeem. Het meeste huidige onderzoek dat klinkt als “richting AGI” gaat in werkelijkheid over het omringen van LLMs met rijkere architecturen.
Een belangrijke richting is LLM-gebaseerde agents: systemen die een LLM gebruiken als redeneer- en planningskern, maar het omringen met:\n\n- Stateful memory die sessies overstijgt, zodat het systeem kennis en ervaring kan opbouwen.\n- Schedulers en planners die doelen opdelen in subtaken en beslissen welke tools aan te roepen.\n- Feedbackloops die zelfkritiek, revisie en trial-and-error mogelijk maken.
Hier stopt de LLM ermee het hele “intelligentie”-pakket te zijn en wordt het een flexibele taalinterface binnen een breder besluitvormingssysteem.
Tool-gebruikende systemen laten een LLM zoekmachines, databases, code-interpreters of domeinspecifieke API's aanroepen. Dit helpt het:\n\n- Toegang te krijgen tot actuele of gespecialiseerde informatie\n- Wiskunde, simulatie en logica uit te besteden aan betrouwbare engines\n\nDeze lapmiddelen verhelpen sommige zwaktes van tekst-only patroonleren, maar verschuiven het probleem: de algemene intelligentie van het geheel hangt af van orkestratie en toolontwerp, niet alleen van het model.
Een andere route zijn multimodale modellen die tekst, afbeeldingen, audio, video en soms sensordata verwerken. Ze komen dichter bij hoe mensen perceptie en taal integreren.
Een stap verder zijn LLMs die robots of gesimuleerde lichamen aansturen. Deze systemen kunnen verkennen, handelen en leren van fysieke feedback, en pakken daarmee enkele ontbrekende puzzelstukjes rond causaliteit en verankerd begrip aan.
Al deze paden kunnen ons dichterbij AGI-achtige vaardigheden brengen, maar ze veranderen ook het onderzoeksdoel. We vragen dan niet meer "Kan een LLM alleen AGI worden?" maar "Kan een complex systeem dat een LLM, tools, geheugen, perceptie en belichaming omvat, algemene intelligentie benaderen?"
Dat onderscheid is belangrijk. Een LLM is een krachtig tekstvoorspeller. Een AGI—als die mogelijk is—zou een geïntegreerd systeem zijn, waarvan taal slechts één onderdeel is.
Het huidige labelen van grote taalmodellen als "AGI" is niet alleen een woordkeuze. Het vervormt prikkels, creëert veiligheidsblinde vlekken en verwart de mensen die echte beslissingen over AI moeten nemen.
Wanneer demo's worden gepresenteerd als “vroege AGI,” schieten verwachtingen ver voorbij wat systemen echt kunnen. Die hype heeft meerdere kosten:\n\n- Financieringsscheefheid: Geld en talent jagen op spectaculaire claims in plaats van op lange-termijn fundamenten zoals redeneren, interpretabiliteit en veiligheid.\n- Hype → crash-cyclus: Overbeloften leiden tot onvermijdelijke teleurstelling wanneer systemen falen in basisgeneralizatie. Dat kan een neergang veroorzaken die ook zorgvuldig onderzoek schaadt.\n- Vertekend productontwerp: Teams optimaliseren mogelijk voor indrukwekkende AGI-achtige demo's in plaats van voor betrouwbaarheid, evaluatie en gebruikersbescherming.
Als gebruikers denken met iets “algemeens” of “bijna menselijks” te praten, zijn ze geneigd om:\n\n- Te vertrouwen op gegenereerde antwoorden voor medische, juridische of financiële beslissingen buiten waar het model voor gevalideerd is.\n- Het systeem autoriteit te geven in plaats van het als foutgevoelig hulpmiddel te behandelen.\n- Subtiele faalmodi zoals zelfverzekerde hallucinaties, verborgen biases en gemakkelijke promptmanipulatie te missen.
Oververtrouwen maakt gewone bugs en fouten veel gevaarlijker.
Regelgevers en het brede publiek hebben het al moeilijk om AI-capaciteiten bij te houden. Wanneer elke sterke autocomplete als AGI wordt gepresenteerd, volgen meerdere problemen:\n\n- Verkeerd gerichte regelgeving: Wetgevers richten zich op hypothetische AGI-scenario's en reguleren concrete schade van huidige systemen onvoldoende.\n- Slechte risicocalibratie: Mensen raken óf in paniek over “superintelligentie” óf rekenen alle AI-zorgen af als hype.
Duidelijke termen—LLM, smal model, AGI-onderzoeksrichting—helpen verwachtingen op de realiteit af te stemmen. Precisie over capaciteiten en limieten:\n\n- Ondersteunt eerlijke veiligheidsbeoordeling.\n- Maakt betere governance en standaarden mogelijk.\n- Laat het publiek echte vooruitgang waarderen zonder misleid te worden over wat werkelijk bereikt is.
LLMs zijn uitzonderlijk capabele patroonmachines: ze comprimeren enorme hoeveelheden tekst in een statistisch model en voorspellen waarschijnlijke continuaties. Dat maakt ze krachtig voor schrijfhulp, codeerassistentie, data-exploratie en het prototypen van ideeën. Maar die architectuur is nog steeds smal. Ze bieden geen persistente zelf, verankerd begrip van de wereld, langetermijndoelen of flexibele leerbaarheid over domeinen heen die kunstmatige algemene intelligentie definiëren.
LLMs:\n\n- Begrijpen niet in menselijke zin; ze manipuleren symbolen zonder verankerde concepten.\n- Hebben geen doelen of intenties; elke schijn van motief is een illusie gecreëerd door taal.\n- Hebben geen stabiel geheugen en wereldmodellen; ze herberekenen patronen telkens uit een bevroren trainingssnapshot plus een korte context.
Deze structurele limieten zijn waarom simpelweg opschalen van tekstmodellen waarschijnlijk geen echte AGI oplevert. Je krijgt betere vloeiendheid, meer kennisherinnering en indrukwekkende simulaties van redeneren—maar niet een systeem dat echt weet, wil of geeft om iets.
Gebruik LLMs waar patroonvoorspelling excelleert:\n\n- Tekst opstellen, samenvatten, bewerken en vertalen\n- Opties verkennen, strategieën schetsen of brainstormen\n- Helpen bij coderen, queries en documentatie\n\nHoud een mens stevig in de lus voor:\n\n- Feitelijke juistheid en kritieke beslissingen\n- Ethische of veiligheidsgevoelige contexten\n- Langetermijnplanning, verantwoordelijkheid en aansprakelijkheid\n\nBehandel outputs als hypothesen die gecontroleerd moeten worden, niet als waarheden die blind vertrouwd mogen worden.
Het bestempelen van LLMs als "AGI" verbergt hun echte beperkingen en nodigt uit tot overafhankelijkheid, regulatoire verwarring en misplaatste angst. Het is eerlijker—en veiliger—om ze te zien als geavanceerde assistenten ingebed in menselijke workflows.
Als je dieper wilt duiken in praktische toepassingen en afwegingen, bekijk gerelateerde artikelen op onze blog. Voor details over hoe we LLM-gestuurde tools verpakken en prijzen, zie onze prijsinformatie.
AGI (Kunstmatige Algemene IntelligentIe) verwijst naar een systeem dat:
Een vuistregel: een AGI zou in principe vrijwel elk intellectueel veeleisende beroep dat een mens kan leren, kunnen leren gegeven tijd en middelen, zonder voor elke nieuwe taak een speciale architectuur nodig te hebben.
Moderne LLMs zijn:
Ze kunnen brede kennis en redenering simuleren omdat taal veel menselijke expertise bevat. Maar ze:
Mensen verwarren vaak vloeiende taal met algemene intelligentie omdat:
Dit creëert een illusie van begrip en agentiviteit. Het onderliggende systeem is nog steeds “slechts” het voorspellen van tekst op basis van patronen in data, niet het bouwen en gebruiken van een verankerd wereldmodel om eigen doelen na te streven.
Je kunt een LLM zien als:
Belangrijke punten:
LLMs zijn uitstekend wanneer taken grotendeels draaien om patroonvoorspelling over tekst of code, zoals:
Ze hebben moeite of worden risicovol wanneer taken vereisen:
“Scaling laws” laten zien dat wanneer je modelgrootte, data en compute vergroot, prestaties op veel benchmarks voorspelbaar verbeteren. Maar alleen schalen lost geen structurele tekorten op:
Meer schaal geeft:
Gebruik LLMs als krachtige assistenten, geen autoriteiten:
Ontwerp producten en processen zodat:
Het labelen van huidige LLMs als “AGI” veroorzaakt meerdere problemen:
Nauwkeuriger taalgebruik—“LLM”, “nauw model”, “agentisch systeem dat LLMs gebruikt”—helpt verwachtingen beter af te stemmen op echte capaciteiten en risico's.
Een plausibele set criteria gaat veel verder dan goed kunnen chatten. We zouden bewijs willen zien van:
Onderzoekers verkennen bredere systemen waarin LLMs componenten zijn, niet de volledige intelligentie, bijvoorbeeld:
Deze richtingen brengen ons dichter bij algemene intelligentie door grounding, causaliteit en persistentie toe te voegen. Ze veranderen ook de vraag van “Kan een LLM AGI worden?” naar “Kunnen complexe systemen LLMs AGI-achtig gedrag benaderen?”
Dus LLMs zijn krachtige nauwkeurige patroonlerende systemen over taal, geen op zichzelf staande algemeen intelligente agenten.
Alles dat op redeneren of geheugen lijkt, komt voort uit dat next-token-doel plus schaal en fine-tuning, niet uit expliciete symbolische logica of een persistent overtuigingenarchief.
In die domeinen moeten ze alleen met sterke menselijke supervisie en externe tools (zoeken, rekenmachines, simulators, checklists) worden gebruikt.
Het produceert niet automatisch algemene, autonome intelligentie. Nieuwe architectonische ingrediënten en systeemontwerpen zijn daarvoor nodig.
Huidige LLMs, zelfs met agent-scaffolding, hebben veel handscriptwerk en tool-orchestatie nodig om dit te benaderen — en blijven tekortschieten in robuustheid en generaliteit.