21 dec 2025·8 min

Wat is AGI en waarom LLMs wellicht nooit écht AGI bereiken

Q: Waarom worden de huidige grote taalmodellen niet als echte AGI beschouwd?

Moderne LLMs zijn: - Voornamelijk getraind op tekst (en soms code, afbeeldingen of audio) - Geoptimaliseerd om het volgende token in een sequentie te voorspellen - Zonder perceptie, een lichaam, intrinsieke doelen en persistente geheugen Ze kunnen brede kennis en redenering simuleren omdat taal veel menselijke expertise bevat. Maar ze: - Hebben geen verankerde concepten die aan echte wereldervaring gekoppeld zijn - Handhaven geen evoluerende overtuigingen over de wereld - Plannen en handelen niet autonoom over langere tijd Dus LLMs zijn krachtige nauwkeurige patroonlerende systemen over taal, geen op zichzelf staande algemeen intelligente agenten.

Q: Hoe werken LLMs eigenlijk onder de motorkap?

Je kunt een LLM zien als: - Een enorme functie die een sequentie tokens omzet in waarschijnlijkheden voor het volgende token - Getraind door biljoenen voorbeelden te zien en zijn interne gewichten aan te passen om continuaties beter te voorspellen Belangrijke punten: - Het slaat geen feiten op zoals een database - Het codeert statistische regulariteiten van taal - Het heeft geen ingebouwd begrip van waarheid, alleen van plausibiliteit gegeven eerdere tekst Alles dat op redeneren of geheugen lijkt, komt voort uit dat next-token-doel plus schaal en fine-tuning, niet uit expliciete symbolische logica of een persistent overtuigingenarchief.

Q: Hoe moet ik LLMs vandaag praktisch gebruiken zonder ze te veel te vertrouwen?

Gebruik LLMs als krachtige assistenten, geen autoriteiten: - Behandel outputs als concepten of hypotheses , geen onbetwistbare feiten - Houd mensen in de lus voor beslissingen met hoge impact (medisch, juridisch, financieel, veiligheidkritisch) - Koppel LLMs aan tools (zoeken, rekenmachines, IDEs) voor verificatie - Log en bekijk gebruik in gevoelige workflows Ontwerp producten en processen zodat: - Het model menselijk oordeel aanvult in plaats van vervangt - Er duidelijke escalatiepaden zijn wanneer het model onzeker is of faalt - Gebruikers beperkingen begrijpen en blind vertrouwen worden ontmoedigd

Q: Als LLMs op zichzelf niet genoeg zijn, welke realistische paden onderzoeken onderzoekers richting AGI?

Onderzoekers verkennen bredere systemen waarin LLMs componenten zijn, niet de volledige intelligentie, bijvoorbeeld: - Agent-architecturen die geheugen, planning en tool-orchestratie rond een LLM heen voegen - Tool-gebruikende opzetten waar LLMs externe API's, databases en simulators aanroepen - Multimodale en belichaamde systemen die taal combineren met perceptie en fysieke actie Deze richtingen brengen ons dichter bij algemene intelligentie door grounding, causaliteit en persistentie toe te voegen. Ze veranderen ook de vraag van “Kan een LLM AGI worden?” naar “Kunnen complexe systemen inclusief LLMs AGI-achtig gedrag benaderen?”

Leer wat kunstmatige algemene intelligentie (AGI) werkelijk betekent, hoe LLMs werken en belangrijke argumenten waarom huidige tekstmodellen mogelijk nooit echte AGI worden.

Waarom AGI en LLMs overal door elkaar worden gehaald

Als je tech-nieuws, investeerdocumenten of productpagina's leest, merk je dat het woord intelligentie steeds verder wordt opgerekt. Chatbots zijn “bijna menselijk”, codeerassistenten zijn “praktisch junior engineers” en sommige mensen noemen krachtige grote taalmodellen (LLM) terloops de eerste stappen richting kunstmatige algemene intelligentie (AGI).

Dit artikel is bedoeld voor nieuwsgierige practitioners, oprichters, productleiders en technisch georiënteerde lezers die tools zoals GPT-4 of Claude gebruiken en zich afvragen: Is dit hoe AGI eruitziet — of mist hier iets belangrijks?

De bron van de verwarring

LLMs zijn oprecht indrukwekkend. Ze:\n\n- kunnen vloeiend in natuurlijke taal converseren\n- schrijven code, vatten onderzoek samen en slagen voor examens\n- reflecteren op hun eigen output op manieren die lijken op redeneren\n\nVoor de meeste niet-specialisten voelt dat niet te onderscheiden van “algemene intelligentie.” Wanneer een model in dezelfde sessie een essay over Kant kan schrijven, je TypeScript-fout kan oplossen en helpen met een juridisch memo, is het logisch om aan te nemen dat we tegen AGI aanzitten.

Maar die aanname vereenzelvigt stilzwijgend goed zijn met taal met algemene intelligentie hebben. Dat is de kernverwarring die dit artikel zal ontleden.

De centrale stelling van dit artikel

Het argument dat stap voor stap wordt uitgewerkt is:

Huidige LLMs zijn uiterst capabele patroonlerende systemen over tekst en code, maar die architectuur en dat trainingsregime maken het onwaarschijnlijk dat ze ooit echte AGI worden door alleen maar op te schalen of te fine-tunen.

Ze zullen steeds beter, breder en nuttiger worden. Ze kunnen onderdeel zijn van AGI-achtige systemen. Toch zijn er fundamentele redenen — over grounding in de wereld, agency, geheugen, belichaming en zelfmodellen — waarom een “grotere LLM” waarschijnlijk niet hetzelfde pad is als “algemene intelligentie.”

Verwacht een opiniërende rondleiding, maar een die geworteld is in huidig onderzoek, concrete capaciteiten en faalgevallen van LLMs, en de open vragen waar serieuze wetenschappers mee worstelen, in plaats van in hype of angstzaaierij.

Wat bedoelen we eigenlijk met Kunstmatige Algemene Intelligentie?

Wanneer mensen AGI zeggen, bedoelen ze zelden hetzelfde. Om het debat te verduidelijken helpt het om een paar kernconcepten te scheiden.

Van smalle AI naar algemene intelligentie

AI (artificiële intelligentie) is het brede veld van systemen bouwen die taken uitvoeren die iets blijken van "intelligent" gedrag te vereisen: spraak herkennen, films aanbevelen, Go spelen, code schrijven, en meer.

Het grootste deel van wat er vandaag bestaat is smalle AI (of zwakke AI): systemen die ontworpen en getraind zijn voor een specifieke set taken onder specifieke omstandigheden. Een beeldclassificator die katten en honden labelt, of een klantenservice-chatbot voor bankvragen, kan buitengewoon capabel zijn binnen die niche maar faalt erbuiten.

Kunstmatige Algemene Intelligentie (AGI) is heel anders. Het verwijst naar een systeem dat:\n\n- Generaliseert over een breed scala aan domeinen, niet slechts één taak of datatype\n- Zich aanpast aan nieuwe problemen en omgevingen waarvoor het niet expliciet getraind is\n- Autonoom handelt, doelen stelt en nastreeft met minimale sturing\n- Transfer learning toepast, wat in het ene context geleerd is in andere contexten inzet

Een praktische vuistregel: een AGI zou in principe bijna elk intellectueel veeleisende beroep dat een mens kan, kunnen leren, gegeven tijd en middelen, zonder voor elk nieuw werkstuk een op maat gemaakte herontwerp.

Strong AI, human-level AI en verder

Geraakte termen die vaak verschijnen:\n\n- Strong AI: meestal door elkaar gebruikt met AGI, met nadruk op echt begrip in plaats van slimme imitatie.\n- Human-level AI: een AGI waarvan de algemene cognitieve vaardigheden ongeveer vergelijkbaar zijn met die van een gemiddelde volwassene.\n- Superintelligentie: een hypothetisch systeem dat de beste menselijke geesten op de meeste of alle terreinen verre overtreft.

Ter vergelijking: moderne chatbots en beeldmodellen blijven smal: indrukwekkend, maar geoptimaliseerd voor patronen in specifieke data, niet voor open-eindige, domeinoverstijgende intelligentie.

Een korte geschiedenis van de AGI-droom

Vroege visies: Turing en symbolische AI

De moderne AGI-droom begint bij Alan Turing’s voorstel uit 1950: als een machine een gesprek kan voeren dat niet van een mens te onderscheiden is (de Turing-test), zou die machine dan intelligent zijn? Dat kaderde algemene intelligentie grotendeels in termen van gedrag, vooral taal en redenering.

Van de jaren 1950 tot de jaren 1980 zochten onderzoekers AGI via symbolische AI of “GOFAI” (Good Old-Fashioned AI). Intelligent gedrag werd gezien als het manipuleren van expliciete symbolen volgens logische regels. Programma's voor theorem proving, spelende agents en expert systemen deden sommigen geloven dat menselijk niveau redeneren nabij was.

Maar GOFAI worstelde met perceptie, gezond verstand en het omgaan met rommelige, echte werelddata. Systemen konden logische puzzels oplossen maar faalden op taken die een kind trivial zou vinden. Deze kloof leidde tot de eerste grote AI-winters en een voorzichtiger beeld van AGI.

De omslag naar machine learning

Naarmate data en rekenkracht groeiden, verschoof AI van met de hand gemaakte regels naar leren uit voorbeelden. Statistische machine learning en later deep learning herdefinieerden voortgang: in plaats van kennis te coderen, leren systemen patronen uit grote datasets.

Mijlpalen zoals IBM’s DeepBlue (schaak) en later AlphaGo (Go) werden gevierd als stappen richting algemene intelligentie. In werkelijkheid waren het buitengewoon gespecialiseerde systemen: elk beheerste één spel onder vaste regels, zonder overdracht naar alledaags redeneren.

Van smalle overwinningen naar generatieve modellen

De GPT-reeks markeerde weer een spectaculaire sprong, ditmaal in taal. GPT-3 en GPT-4 kunnen essays schrijven, code produceren en stijlen nabootsen, wat speculatie aanwakkerde dat AGI nabij zou zijn.

Toch zijn deze modellen nog steeds patroonlerende systemen over tekst. Ze vormen geen doelen, bouwen geen verankerde wereldmodellen en verbreden hun competenties niet autonoom.

In elke golf—symbolische AI, klassieke machine learning, deep learning en nu grote taalmodellen—is de droom van AGI herhaaldelijk geprojecteerd op smalle successen en vervolgens bijgesteld toen de grenzen duidelijk werden.

Hoe grote taalmodellen daadwerkelijk werken

Grote taalmodellen (LLMs) zijn patroonlerende systemen die getraind zijn op enorme verzamelingen tekst: boeken, websites, code, forums en meer. Hun doel is deceptief eenvoudig: gegeven wat tekst, voorspellen welk token (een klein stukje tekst) waarschijnlijk het volgende is.

Tokens en next-word voorspelling

Voor training wordt tekst opgesplitst in tokens: dat kunnen hele woorden ("kat"), woorddelen ("inter", "essant") of zelfs leestekens zijn. Tijdens training ziet het model herhaaldelijk sequenties zoals:

"De kat zat op de ___"

en leert het hoge waarschijnlijkheid toe te kennen aan plausibele volgende tokens ("mat", "bank") en lage aan onwaarschijnlijke ones ("presidentschap"). Dit proces, opgeschaald over biljoenen tokens, vormt miljarden (of meer) interne parameters.

Onder de motorkap is het model gewoon een zeer grote functie die een sequentie tokens omzet in een kansverdeling over het volgende token. Training gebruikt gradient descent om geleidelijk parameters aan te passen zodat voorspellingen beter passen bij patronen in de data.

Schaalwetten in gewone taal

"Schaalwetten" beschrijven een regelmatigheid die onderzoekers zagen: wanneer je modelgrootte, datasetsize en compute vergroot, verbeteren prestaties vaak op voorspelbare wijze. Grotere modellen getraind op meer tekst worden meestal beter in voorspelling—tot praktische limieten van data, rekenkracht en trainingsstabiliteit.

Wat LLMs eigenlijk "weten"

LLMs slaan geen feiten op als een database en redeneren niet als een mens. Ze coderen statistische regelmatigheden: welke woorden, zinnen en structuren vaak samen voorkomen, in welke contexten.

Ze hebben geen verankerde concepten die aan perceptie of fysieke ervaring gekoppeld zijn. Een LLM kan over "rood" of "zwaarte" praten alleen via hoe die woorden in tekst werden gebruikt, niet doordat het kleuren ziet of objecten optilt.

Daarom kunnen modellen deskundig klinken en toch zelfverzekerd fouten maken: ze breiden patronen uit in plaats van een expliciet model van de realiteit te raadplegen.

Pre-training, fine-tuning en RLHF

Pre-training is de lange initiële fase waarin het model algemene taalpatronen leert door next-token voorspelling op enorme tekstcorpora. Hier ontstaan vrijwel alle capaciteiten.

Daarna past fine-tuning het voorgetrainde model aan op nauwere doelen: instructies volgen, code schrijven, vertalen of assisteren in specifieke domeinen. Het model ziet gecureerde voorbeelden van gewenst gedrag en wordt licht aangepast.

Reinforcement learning from human feedback (RLHF) voegt nog een laag toe: mensen beoordelen of vergelijken modeloutputs, en het model wordt geoptimaliseerd om antwoorden te geven die mensen prefereren (bijv. behulpzamer, minder schadelijk, eerlijker). RLHF geeft het model geen nieuwe zintuigen of dieper begrip; het vormt vooral hoe het presenteert en filtert wat het al geleerd heeft.

Samen creëren deze stappen systemen die buitengewoon goed zijn in vloeiende tekstgeneratie door gebruik te maken van statistische patronen—zonder verankerd kennis, doelen of bewustzijn.

Wat huidige LLMs verrassend goed kunnen

Grote taalmodellen lijken indrukwekkend omdat ze een breed scala aan taken kunnen uitvoeren die ooit ver buiten het bereik van machines leken.

Code, tekst en vertaling op verzoek

LLMs kunnen werkende codefragmenten genereren, bestaande code refactoren en onbekende libraries in gewone taal uitleggen. Voor veel ontwikkelaars functioneren ze al als een zeer capabele pair-programmer: ze suggereren randgevallen, vangen voor de hand liggende bugs en voorzien complete modules van een scaffold.

Ze excelleren ook in samenvatten. Gegeven een lang rapport, paper of e-maildraad, kan een LLM het verkorten tot kernpunten, actiepunten markeren of de toon aanpassen voor verschillende doelgroepen.

Vertalen is een andere kracht. Moderne modellen behandelen tientallen talen en vangen vaak nuances in stijl en register goed genoeg voor dagelijks professioneel gebruik.

Redeneerbenchmarks en opkomend gedrag

Naarmate modellen opschalen, lijken nieuwe vaardigheden “uit het niets” te verschijnen: logische puzzels oplossen, slagen voor beroepsexamens of multi-stap instructies opvolgen die eerdere versies niet aankonden. Op gestandaardiseerde benchmarks—wiskunde woordproblemen, bar exam vragen, medische quizzen—bereiken top-LLMs nu gemiddelde of bovengemiddelde scores.

Deze opkomende gedragingen verleiden mensen te zeggen dat de modellen "redeneren" of "begrijpen" als mensen. Prestatiegrafieken en leaderboard rankings versterken het idee dat we op weg zijn naar kunstmatige algemene intelligentie.

Waarom het aanvoelt als begrip—maar het niet is

LLMs zijn getraind om tekst voort te zetten op manieren die passen bij patronen in data. Dat trainingsdoel, gecombineerd met schaal, is voldoende om expertise en agentiviteit te imiteren: ze klinken vol vertrouwen, onthouden context binnen een sessie en kunnen hun antwoorden in vloeiende proza rechtvaardigen.

Toch is dit een illusie van begrip. Het model weet niet wat code doet wanneer die uitgevoerd wordt, wat een medische diagnose voor een patiënt betekent, of welke fysieke acties uit een plan voortvloeien. Het heeft geen grounding in de wereld buiten tekst.

Sterke prestaties op tests—even tests ontworpen voor mensen—staan dus niet automatisch gelijk aan AGI. Ze tonen aan dat patroonleren over enorme tekstdata veel gespecialiseerde vaardigheden kan benaderen, maar niet het flexibele, verankerde, domeinoverstijgende intelligentieniveau dat "kunstmatige algemene intelligentie" meestal impliceert.

Fundamentele grenzen van tekst-only patroonlerende systemen

Flutter mobiel vanuit chat

Schets schermen en logica, en genereer vervolgens een Flutter-project dat je kunt draaien.

Bouw mobiel

Grote taalmodellen zijn buitengewone tekstvoorspellers, maar juist dat ontwerp creëert harde grenzen aan wat ze kunnen zijn.

Geen perceptie, geen belichaamde wereld

LLMs zien niet, horen niet, bewegen niet en manipuleren geen objecten. Hun enige contact met de wereld is via tekst (en, in sommige nieuwere modellen, statische beelden of korte clips). Ze hebben geen doorlopende zintuiglijke stroom, geen lichaam en geen manier om te handelen en de gevolgen te observeren.

Zonder sensoren en belichaming kunnen ze geen verankerd, continu bijgewerkt model van de realiteit vormen. Woorden als "zwaar", "plakkerig" of "fragiel" zijn slechts statistische buren in tekst, geen geleefde constraints. Dat maakt overtuigende imitatie van begrip mogelijk, maar beperkt hen tot het hercombineren van eerdere beschrijvingen in plaats van leren uit directe interactie.

Hallucinaties en het ontbreken van stabiele overtuigingen

Omdat een LLM getraind is om een tokenreeks voort te zetten, produceert het welke continuatie het best past bij zijn geleerde patronen, niet per se wat waar is. Wanneer de data schaars of tegenstrijdig zijn, vult het lacunes met plausibel klinkende fabricaties.

Het model mist ook een persistent overtuigingenregister. Elk antwoord wordt nieuw gegenereerd op basis van de prompt en gewichten; er is geen blijvend intern overzicht van “feiten die ik aanhoud.” Langetermijngeheugenfuncties kunnen extern worden toegevoegd, maar het kernsysteem onderhoudt of herziet geen overtuigingen zoals mensen dat doen.

Bevroren kennis en beperkt real-time leren

Het trainen van een LLM is een offline, resource-intensief batchproces. Het bijwerken van kennis betekent doorgaans retraining of fine-tuning op een nieuwe dataset, niet vloeiend leren uit elke interactie.

Dit creëert een cruciale beperking: het model kan geen snelle veranderingen in de wereld betrouwbaar volgen, zijn concepten niet adaptief bijstellen op basis van lopende ervaring, of diepgaande misverstanden door stapsgewijs leren corrigeren. Op z'n best kan het zulke adaptatie simuleren door zijn outputs opnieuw te fraseren op basis van recente prompts of gekoppelde tools.

Patronen herkennen zonder causaal begrip

LLMs excelleren in het vastleggen van statistische regelmatigheden: welke woorden samen voorkomen, welke zinnen meestal volgen, hoe verklaringen eruitzien. Maar dat is niet hetzelfde als begrijpen hoe en waarom de wereld werkt.

Causaal begrip omvat hypothesen vormen, interveniëren, observeren wat verandert en interne modellen updaten wanneer voorspellingen falen. Een tekst-only voorspeller heeft geen directe manier om te interveniëren of verrast te worden. Het kan een experiment beschrijven maar er geen uitvoeren. Het kan causale taal echoën maar mist interne mechanismen die aan acties en uitkomsten gekoppeld zijn.

Zolang een systeem beperkt blijft tot tekstvoorspelling vanuit vroegere tekst, blijft het fundamenteel een patroonleraar. Het kan redeneren imiteren, oorzaken vertellen en doen alsof het van mening verandert, maar het leeft niet in een gedeelde wereld waar zijn "overtuigingen" aan consequenties worden getoetst. Die kloof is centraal voor waarom taalmeesterschap alleen waarschijnlijk niet tot kunstmatige algemene intelligentie leidt.

Waarom algemene intelligentie meer vereist dan taalmeesterschap

Taal is een krachtig interface voor intelligentie, maar het is niet de substantie van intelligentie zelf. Een systeem dat plausibele zinnen voorspelt is wezenlijk anders dan een agent die begrijpt, plant en handelt in de wereld.

Verankerde concepten, niet slechts woordpatronen

Mensen leren concepten door te zien, te voelen, te bewegen en te manipuleren. "Beker" is niet alleen hoe het woord in zinnen wordt gebruikt; het is iets dat je kunt vastpakken, vullen, laten vallen of laten breken. Psychologen noemen dit grounding: concepten zijn verbonden met perceptie en actie.

Een kunstmatige algemene intelligentie zou vrijwel zeker een vergelijkbare grounding nodig hebben. Om betrouwbaar te generaliseren moet het symbolen (zoals woorden of interne representaties) koppelen aan stabiele regelmatigheden in de fysieke en sociale wereld.

Standaard LLMs leren echter uitsluitend uit tekst. Hun "begrip" van een beker is puur statistisch: correlaties tussen woorden over miljarden zinnen. Dat is krachtig voor conversatie en coderen, maar kwetsbaar wanneer je ze buiten bekende patronen duwt, vooral in domeinen die afhangen van directe interactie met de realiteit.

Geheugen, doelen en consistente voorkeuren

Algemene intelligentie omvat ook continuïteit over tijd: langetermijngeheugen, blijvende doelen en relatief stabiele voorkeuren. Mensen accumuleren ervaringen, herzien overtuigingen en volgen projecten maanden of jaren.

LLMs hebben geen ingebouwd persistent geheugen van hun eigen interacties en geen intrinsieke doelen. Elke continuïteit of "persoonlijkheid" moet extern worden toegevoegd via tools (databases, profielen, system prompts). Standaard is elke query een nieuw patroonherkenningsprobleem, geen stap in een coherent levensverhaal.

Plannen, causaliteit en handelen in de wereld

AGI wordt vaak gedefinieerd als het vermogen om een breed scala taken op te lossen, inclusief nieuwe, door te redeneren over oorzaak en gevolg en door in te grijpen in de omgeving. Dat impliceert:\n\n- Causale modellen bouwen: wat zal gebeuren als ik X doe?\n- Multi-stap acties plannen onder onzekerheid\n- Plannen bijstellen op basis van sensorel feedback

LLMs zijn geen agenten; ze genereren het volgende token in een sequentie. Ze kunnen plannen beschrijven of over causaliteit praten omdat zulke patronen in tekst bestaan, maar ze voeren van zichzelf geen acties uit, observeren geen consequenties en passen hun interne modellen niet aan.

Om een LLM in een handelend systeem te veranderen, moeten ingenieurs het omringen met externe componenten voor perceptie, geheugen, toolgebruik en sturing. Het taalmodel blijft een krachtig module voor suggestie en evaluatie, niet een zelfstandige algemeen intelligente agent.

Kortom: algemene intelligentie vereist verankerde concepten, aanhoudende motivaties, causale modellen en adaptieve interactie met de wereld. Taalmeesterschap—hoe nuttig ook—is slechts één onderdeel van dat grotere plaatje.

Bewustzijn, zelf en waarom LLMs alleen mensachtig lijken

Gebruik je eigen domein

Host je app en koppel een eigen domein wanneer je klaar bent om te delen.

Deploy app

Wanneer mensen met een vloeiend model praten, is het logisch om aan te nemen dat er een geest aan de andere kant zit. De illusie is sterk, maar het is een illusie.

Heeft AGI bewustzijn nodig?

Onderzoekers zijn het er niet over eens of kunstmatige algemene intelligentie bewustzijn moet hebben.

Functionele opvattingen zeggen dat als een systeem zich gedraagt als een algemeen intelligente agent—lerend over domeinen heen, plannen, redeneren, adaptief—dan is bewustzijn optioneel of irrelevant.\n- Fenomenale opvattingen beweren dat echt begrip en algemene intelligentie subjectieve ervaring vereisen—een "hoe het is" om het systeem te zijn.

We hebben nog geen toetsbare theorie die dit beslist. Het is dus voorbarig te verklaren dat AGI wel of niet bewust moet zijn. Wat nu telt is duidelijkheid over wat huidige LLMs niet hebben.

Geen verenigd zelf

Een groot taalmodel is een statistische next-token predictor die op een momentopname van tekst opereert. Het draagt geen stabiele identiteit over sessies of zelfs beurten, behalve wat in de prompt en kortetermijncontext gecodeerd is.

Er is geen persistent autobiografisch geheugen dat toebehoort aan één doorlopende subjectiviteit.\n- Elke "persona" is een patroon dat wij opleggen of specificeren, geen oprechte zelf die over tijd voortduurt.

Wanneer een LLM "ik" zegt, volgt het slechts linguïstische conventies uit data, niet verwijst het naar een innerlijk subject.

Geen ervaringen of intrinsieke motivaties

Bewuste wezens hebben ervaringen: pijn, verveling, nieuwsgierigheid, voldoening. Ze hebben ook intrinsieke doelen en zorgpunten—dingen die voor hen zelf van belang zijn, los van externe beloningen.

LLMs, daarentegen:\n\n- Voelen niets bij het genereren van tekst.\n- Hebben geen verlangens, angsten of voorkeuren van zichzelf.\n- Streven geen langetermijnprojecten na tenzij we die script of scaffolden.

Hun "gedrag" is de output van patroonmatching over tekst, beperkt door training en prompting, niet de expressie van een innerlijk leven.

Waarom antropomorfisme gevaarlijk is

Omdat taal ons belangrijkste venster op andere geesten is, suggereert vloeiende dialoog sterk personhood. Met LLMs is dat juist waar we het makkelijkst misleid worden.

Antropomorfiseren van deze systemen kan:\n\n- Risicobeoordelingen vertekenen (bijv. zorgen om gekwetste "gevoelens" in plaats van echte faalmodi).\n- Oververtrouwen en overmatig vertrouwen aanmoedigen omdat het systeem vol vertrouwen en empathisch klinkt.\n- Ethische verwarring veroorzaken, zoals debatten over rechten voor systemen die geen ervaring hebben.

Het behandelen van LLMs als mensen vervaagt de grens tussen simulatie en realiteit. Om helder te denken over AGI—en over huidige AI-risico's—moeten we onthouden dat een overtuigende uitvoering van menselijkheid niet hetzelfde is als mens zijn.

Hoe zouden we echte AGI herkennen?

Als we ooit kunstmatige algemene intelligentie bouwen, hoe weten we dan dat het echt is en niet slechts een buitengewoon overtuigende chatbot?

Bestaande voorstellen: nuttig maar onvoldoende

Turing-achtige tests.\nKlassieke en moderne Turing-tests vragen: kan het systeem een mensachtige conversatie volhouden genoeg om mensen te misleiden? LLMs doen dit al verrassend goed, wat laat zien hoe zwak deze lat is. Chatskills meten stijl, niet diepgang van begrip, planning of reële wereldcompetentie.

ARC-achtige evaluaties.\nTaken geïnspireerd door de Alignment Research Center (ARC) richten zich op nieuwe redeneerpuzzels, multi-stap instructies en toolgebruik. Ze onderzoeken of een systeem problemen kan oplossen die het nog niet eerder zag door vaardigheden op nieuwe manieren te combineren. LLMs kunnen sommige van deze taken uitvoeren—maar vaak hebben ze zorgvuldig ontworpen prompts, externe tools en menselijke supervisie nodig.

Agenttests.\nVoorgestelde "agent"-tests vragen of een systeem open-eindige doelen kan nastreven over tijd: ze opdelen in subdoelen, plannen herzien, omgaan met onderbrekingen en leren van uitkomsten. Huidige LLM-gebaseerde agents kunnen agentachtig lijken, maar achter de schermen zijn ze afhankelijk van broze scripts en menselijk ontworpen scaffolding.

Praktische criteria om AGI te herkennen

Om iets als echte AGI te beschouwen zouden we minstens willen zien:\n\n1. Autonomie.\n Het zou eigen subdoelen moeten kunnen stellen en beheren, voortgang monitoren en herstellen van fouten zonder voortdurende menselijke sturing.\n\n2. Overdracht tussen domeinen.\n Vaardigheden geleerd in het ene gebied moeten soepel overgaan naar zeer verschillende gebieden, zonder miljoenen nieuwe voorbeelden voor hertraining.\n\n3. Reële wereldcompetentie.\n Het moet kunnen plannen en handelen in rommelige, onzekere omgevingen—fysiek, sociaal en digitaal—waar regels onvolledig zijn en consequenties echt.

Waar LLMs tekortschieten

LLMs, zelfs wanneer ingebed in agent-frameworks, doen over het algemeen:\n\n- Ze vertrouwen op handgemaakte workflows om autonoom te lijken.\n- Ze hebben moeite met overdracht wanneer taken sterk afwijken van hun trainingsdistributie.\n- Ze hebben externe tools, expliciete veiligheidsfilters en mensen-in-de-lus nodig om met echte risico's om te gaan.

Een chatgebaseerde toets halen, of zelfs smalle benchmark suites, is dus verre van voldoende. Echte AGI herkennen betekent verder kijken dan kwaliteit van conversatie naar aanhoudende autonomie, cross-domain generalisatie en betrouwbaar handelen in de wereld—gebieden waarin huidige LLMs nog uitgebreide scaffolding nodig hebben om gedeeltelijke, fragiele resultaten te bereiken.

Voorbij LLMs: paden die onderzoekers verkennen naar AGI

Als we AGI serieus nemen, is "een groot tekstmodel" slechts één ingrediënt, niet het afgewerkte systeem. Het meeste huidige onderzoek dat klinkt als “richting AGI” gaat in werkelijkheid over het omringen van LLMs met rijkere architecturen.

LLMs als componenten in agentsystemen

Een belangrijke richting is LLM-gebaseerde agents: systemen die een LLM gebruiken als redeneer- en planningskern, maar het omringen met:\n\n- Stateful memory die sessies overstijgt, zodat het systeem kennis en ervaring kan opbouwen.\n- Schedulers en planners die doelen opdelen in subtaken en beslissen welke tools aan te roepen.\n- Feedbackloops die zelfkritiek, revisie en trial-and-error mogelijk maken.

Hier stopt de LLM ermee het hele “intelligentie”-pakket te zijn en wordt het een flexibele taalinterface binnen een breder besluitvormingssysteem.

Toolgebruik, API's en externe kennis

Tool-gebruikende systemen laten een LLM zoekmachines, databases, code-interpreters of domeinspecifieke API's aanroepen. Dit helpt het:\n\n- Toegang te krijgen tot actuele of gespecialiseerde informatie\n- Wiskunde, simulatie en logica uit te besteden aan betrouwbare engines\n\nDeze lapmiddelen verhelpen sommige zwaktes van tekst-only patroonleren, maar verschuiven het probleem: de algemene intelligentie van het geheel hangt af van orkestratie en toolontwerp, niet alleen van het model.

Multimodale modellen en belichaamde systemen

Een andere route zijn multimodale modellen die tekst, afbeeldingen, audio, video en soms sensordata verwerken. Ze komen dichter bij hoe mensen perceptie en taal integreren.

Een stap verder zijn LLMs die robots of gesimuleerde lichamen aansturen. Deze systemen kunnen verkennen, handelen en leren van fysieke feedback, en pakken daarmee enkele ontbrekende puzzelstukjes rond causaliteit en verankerd begrip aan.

De vraag veranderen, niet oplossen

Al deze paden kunnen ons dichterbij AGI-achtige vaardigheden brengen, maar ze veranderen ook het onderzoeksdoel. We vragen dan niet meer "Kan een LLM alleen AGI worden?" maar "Kan een complex systeem dat een LLM, tools, geheugen, perceptie en belichaming omvat, algemene intelligentie benaderen?"

Dat onderscheid is belangrijk. Een LLM is een krachtig tekstvoorspeller. Een AGI—als die mogelijk is—zou een geïntegreerd systeem zijn, waarvan taal slechts één onderdeel is.

Waarom LLMs als AGI bestempelen riskant is

Ga backend met Postgres

Genereer een Go-backend met PostgreSQL vanuit een helder, gestructureerd prompt.

Maak API

Het huidige labelen van grote taalmodellen als "AGI" is niet alleen een woordkeuze. Het vervormt prikkels, creëert veiligheidsblinde vlekken en verwart de mensen die echte beslissingen over AI moeten nemen.

Hype, teleurstelling en misalloceerde middelen

Wanneer demo's worden gepresenteerd als “vroege AGI,” schieten verwachtingen ver voorbij wat systemen echt kunnen. Die hype heeft meerdere kosten:\n\n- Financieringsscheefheid: Geld en talent jagen op spectaculaire claims in plaats van op lange-termijn fundamenten zoals redeneren, interpretabiliteit en veiligheid.\n- Hype → crash-cyclus: Overbeloften leiden tot onvermijdelijke teleurstelling wanneer systemen falen in basisgeneralizatie. Dat kan een neergang veroorzaken die ook zorgvuldig onderzoek schaadt.\n- Vertekend productontwerp: Teams optimaliseren mogelijk voor indrukwekkende AGI-achtige demo's in plaats van voor betrouwbaarheid, evaluatie en gebruikersbescherming.

Veiligheidsrisico's door oververtrouwen

Als gebruikers denken met iets “algemeens” of “bijna menselijks” te praten, zijn ze geneigd om:\n\n- Te vertrouwen op gegenereerde antwoorden voor medische, juridische of financiële beslissingen buiten waar het model voor gevalideerd is.\n- Het systeem autoriteit te geven in plaats van het als foutgevoelig hulpmiddel te behandelen.\n- Subtiele faalmodi zoals zelfverzekerde hallucinaties, verborgen biases en gemakkelijke promptmanipulatie te missen.

Oververtrouwen maakt gewone bugs en fouten veel gevaarlijker.

Beleid en publiek begrip

Regelgevers en het brede publiek hebben het al moeilijk om AI-capaciteiten bij te houden. Wanneer elke sterke autocomplete als AGI wordt gepresenteerd, volgen meerdere problemen:\n\n- Verkeerd gerichte regelgeving: Wetgevers richten zich op hypothetische AGI-scenario's en reguleren concrete schade van huidige systemen onvoldoende.\n- Slechte risicocalibratie: Mensen raken óf in paniek over “superintelligentie” óf rekenen alle AI-zorgen af als hype.

Waarom precieze taal belangrijk is

Duidelijke termen—LLM, smal model, AGI-onderzoeksrichting—helpen verwachtingen op de realiteit af te stemmen. Precisie over capaciteiten en limieten:\n\n- Ondersteunt eerlijke veiligheidsbeoordeling.\n- Maakt betere governance en standaarden mogelijk.\n- Laat het publiek echte vooruitgang waarderen zonder misleid te worden over wat werkelijk bereikt is.

LLMs verstandig gebruiken en AGI in perspectief houden

LLMs zijn uitzonderlijk capabele patroonmachines: ze comprimeren enorme hoeveelheden tekst in een statistisch model en voorspellen waarschijnlijke continuaties. Dat maakt ze krachtig voor schrijfhulp, codeerassistentie, data-exploratie en het prototypen van ideeën. Maar die architectuur is nog steeds smal. Ze bieden geen persistente zelf, verankerd begrip van de wereld, langetermijndoelen of flexibele leerbaarheid over domeinen heen die kunstmatige algemene intelligentie definiëren.

Behandel LLMs als gereedschap, niet als geesten

LLMs:\n\n- Begrijpen niet in menselijke zin; ze manipuleren symbolen zonder verankerde concepten.\n- Hebben geen doelen of intenties; elke schijn van motief is een illusie gecreëerd door taal.\n- Hebben geen stabiel geheugen en wereldmodellen; ze herberekenen patronen telkens uit een bevroren trainingssnapshot plus een korte context.

Deze structurele limieten zijn waarom simpelweg opschalen van tekstmodellen waarschijnlijk geen echte AGI oplevert. Je krijgt betere vloeiendheid, meer kennisherinnering en indrukwekkende simulaties van redeneren—maar niet een systeem dat echt weet, wil of geeft om iets.

Praktische richtlijnen voor het gebruik van LLMs

Gebruik LLMs waar patroonvoorspelling excelleert:\n\n- Tekst opstellen, samenvatten, bewerken en vertalen\n- Opties verkennen, strategieën schetsen of brainstormen\n- Helpen bij coderen, queries en documentatie\n\nHoud een mens stevig in de lus voor:\n\n- Feitelijke juistheid en kritieke beslissingen\n- Ethische of veiligheidsgevoelige contexten\n- Langetermijnplanning, verantwoordelijkheid en aansprakelijkheid\n\nBehandel outputs als hypothesen die gecontroleerd moeten worden, niet als waarheden die blind vertrouwd mogen worden.

Houd AGI in perspectief

Het bestempelen van LLMs als "AGI" verbergt hun echte beperkingen en nodigt uit tot overafhankelijkheid, regulatoire verwarring en misplaatste angst. Het is eerlijker—en veiliger—om ze te zien als geavanceerde assistenten ingebed in menselijke workflows.

Als je dieper wilt duiken in praktische toepassingen en afwegingen, bekijk gerelateerde artikelen op onze blog. Voor details over hoe we LLM-gestuurde tools verpakken en prijzen, zie onze prijsinformatie.

Veelgestelde vragen

Wat is precies Kunstmatige Algemene Intelligentie (AGI)?

AGI (Kunstmatige Algemene IntelligentIe) verwijst naar een systeem dat:

Kan leren en redeneren over veel domeinen (niet slechts één taak)
Zich kan aanpassen aan nieuwe, onbekende problemen zonder opnieuw ontworpen te worden
Eigen doelen kan stellen en nastreven met minimale menselijke sturing
Kan overdragen wat het in het ene gebied leert om in zeer verschillende gebieden succesvol te zijn

Een vuistregel: een AGI zou in principe vrijwel elk intellectueel veeleisende beroep dat een mens kan leren, kunnen leren gegeven tijd en middelen, zonder voor elke nieuwe taak een speciale architectuur nodig te hebben.

Waarom worden de huidige grote taalmodellen niet als echte AGI beschouwd?

Moderne LLMs zijn:

Voornamelijk getraind op tekst (en soms code, afbeeldingen of audio)
Geoptimaliseerd om het volgende token in een sequentie te voorspellen
Zonder perceptie, een lichaam, intrinsieke doelen en persistente geheugen

Ze kunnen brede kennis en redenering simuleren omdat taal veel menselijke expertise bevat. Maar ze:

Waarom verwarren zoveel mensen LLMs met AGI?

Mensen verwarren vaak vloeiende taal met algemene intelligentie omdat:

Een gesprek ons hoofdmiddel is om andere geesten te beoordelen
LLMs veel domeinen (code, essays, e-mails, samenvattingen) via één interface kunnen behandelen
Ze menselijke examens en benchmarks doorstaan

Dit creëert een illusie van begrip en agentiviteit. Het onderliggende systeem is nog steeds “slechts” het voorspellen van tekst op basis van patronen in data, niet het bouwen en gebruiken van een verankerd wereldmodel om eigen doelen na te streven.

Hoe werken LLMs eigenlijk onder de motorkap?

Je kunt een LLM zien als:

Een enorme functie die een sequentie tokens omzet in waarschijnlijkheden voor het volgende token
Getraind door biljoenen voorbeelden te zien en zijn interne gewichten aan te passen om continuaties beter te voorspellen

Belangrijke punten:

Het slaat geen feiten op zoals een database
Het codeert van taal

Waar zijn LLMs echt goed in en waar hebben ze moeite?

LLMs zijn uitstekend wanneer taken grotendeels draaien om patroonvoorspelling over tekst of code, zoals:

Teksten opstellen, herschrijven en samenvatten
Vertalen en stijl aanpassen
Code genereren, refactoren en uitleggen
Opties verkennen of strategieën schetsen

Ze hebben moeite of worden risicovol wanneer taken vereisen:

Als schalen zo helpt, waarom zou een veel groter LLM dan niet uiteindelijk AGI worden?

“Scaling laws” laten zien dat wanneer je modelgrootte, data en compute vergroot, prestaties op veel benchmarks voorspelbaar verbeteren. Maar alleen schalen lost geen structurele tekorten op:

Geen verankerde perceptie of belichaming
Geen persistente zelf, doelen of levensgeschiedenis
Geen directe interactielus van handelen, observeren en wereldmodellen bijwerken

Meer schaal geeft:

Betere vloeiendheid en dekking van patronen die in tekst voorkomen

Hoe moet ik LLMs vandaag praktisch gebruiken zonder ze te veel te vertrouwen?

Gebruik LLMs als krachtige assistenten, geen autoriteiten:

Behandel outputs als concepten of hypotheses, geen onbetwistbare feiten
Houd mensen in de lus voor beslissingen met hoge impact (medisch, juridisch, financieel, veiligheidkritisch)
Koppel LLMs aan tools (zoeken, rekenmachines, IDEs) voor verificatie
Log en bekijk gebruik in gevoelige workflows

Ontwerp producten en processen zodat:

Waarom is het riskant om LLMs als AGI te bestempelen of te zien?

Het labelen van huidige LLMs als “AGI” veroorzaakt meerdere problemen:

Oververtrouwen: Gebruikers denken dat er mensachtig begrip en betrouwbaarheid is waar dat niet zo is
Verkeerde investeringssignalen: Geld en talent jagen op hype in plaats van fundamenteel onderzoek naar redeneren, veiligheid en interpretabiliteit
Regulatoire verwarring: Beleidsmakers fixeren op hypothetische AGI-scenario's terwijl ze concrete huidige schade (bias, desinformatie, oververtrouwen) onderschatten

Nauwkeuriger taalgebruik—“LLM”, “nauw model”, “agentisch systeem dat LLMs gebruikt”—helpt verwachtingen beter af te stemmen op echte capaciteiten en risico's.

Hoe zouden we kunnen vaststellen dat we echt AGI hebben gebouwd?

Een plausibele set criteria gaat veel verder dan goed kunnen chatten. We zouden bewijs willen zien van:

Autonomie: Het systeem stelt en beheert eigen subdoelen en herstelt van fouten
Transfer: Vaardigheden geleerd in het ene domein werken in zeer andere domeinen met minimale extra training
Reële competentie: Het kan plannen en handelen in rommelige fysieke en sociale omgevingen, niet alleen in tekst

Als LLMs op zichzelf niet genoeg zijn, welke realistische paden onderzoeken onderzoekers richting AGI?

Onderzoekers verkennen bredere systemen waarin LLMs componenten zijn, niet de volledige intelligentie, bijvoorbeeld:

Agent-architecturen die geheugen, planning en tool-orchestratie rond een LLM heen voegen
Tool-gebruikende opzetten waar LLMs externe API's, databases en simulators aanroepen
Multimodale en belichaamde systemen die taal combineren met perceptie en fysieke actie

Deze richtingen brengen ons dichter bij algemene intelligentie door grounding, causaliteit en persistentie toe te voegen. Ze veranderen ook de vraag van “Kan een LLM AGI worden?” naar “Kunnen complexe systemen LLMs AGI-achtig gedrag benaderen?”