Vad är AGI och varför LLM:er kanske aldrig verkligen når det

Q: Why aren’t today’s large language models considered true AGI?

Moderna LLM:er är: - Tränade främst på text (och ibland kod, bilder eller ljud) - Optimerade för att förutsäga nästa token i en sekvens - Saknar perception, en kropp, inneboende mål och bestående minne De kan simulera bred kunskap och resonemang eftersom språk bär så mycket mänsklig expertis. Men de: - Har inte förankrade begrepp kopplade till verkliga erfarenheter - Bibehåller inte utvecklande uppfattningar om världen - Planerar inte och handlar inte autonomt över tid Så LLM:er är kraftfulla smala mönsterlärande system över språk, inte självständiga generellt intelligenta agenter.

Q: How do LLMs actually work under the hood?

Du kan tänka på en LLM som: - En enorm funktion som kartlägger en sekvens av tokens till sannolikheter för nästa token - Tränad genom att se biljoner exempel och justera sina interna vikter för att bättre förutsäga fortsättningar Nyckelpunkter: - Den lagrar inte fakta som i en databas - Den kodar statistiska regulariteter i språket - Den har ingen inneboende uppfattning om sanning, bara om vad som är sannolikt givet tidigare text Allt som ser ut som resonemang eller minne uppstår från nästa‑token‑målet tillsammans med skala och finjustering, inte från explicit symbolisk logik eller en bestående trosuppsättning.

Q: Why is it risky to market or think about LLMs as AGI?

Att märka nuvarande LLM:er som “AGI” skapar flera problem: - Övertro: Användare antar mänsklig förståelse och tillförlitlighet där det inte finns någon - Felaktiga investeringssignaler: Kapital och talang jagar hypen i stället för grundläggande arbete med resonemang, säkerhet och tolkbarhet - Regulatorisk förvirring: Policyskapare fokuserar på hypotetiska AGI‑scenarier samtidigt som konkreta nuvarande skador (bias, desinformation, överberoende) förbises Mer precis terminologi — “LLM”, “smal modell”, “agentiskt system med LLM” — hjälper till att stämma förväntningar med verklig kapacitet och risk.

Q: If LLMs alone aren’t enough, what are the realistic paths researchers are exploring toward AGI?

Forskare utforskar bredare system där LLM:er är komponenter , inte hela intelligensen, till exempel: - Agentarkitekturer som lägger minne, planering och verktygsorkestrering runt en LLM - Verktygsanvändande uppsättningar där LLM:er anropar externa API:er, databaser och simulatorer - Multimodala och förkroppsligade system som kombinerar språk med perception och fysisk handling Dessa riktningar kommer närmare generell intelligens genom att lägga till förankring, kausalitet och bestående tillstånd. De ändrar också frågan från “Kan en LLM bli AGI?” till “Kan komplexa system som inkluderar LLM:er efterlikna AGI‑liknande beteenden?”

Logga in Kom igång

Vad är AGI och varför LLM:er kanske aldrig verkligen når det | Koder.ai

Varför AGI och LLM:er förväxlas överallt

Om du läser tekniknyheter, investerarpresentationer eller produktsidor märker du att ordet intelligens sträcks till bristningsgränsen. Chattbotar är “nästan mänskliga”, kodassistenter är “praktiskt taget juniorutvecklare” och vissa kallar kraftfulla stora språkmodeller (LLM:er) för första stegen mot artificiell generell intelligens (AGI).

Denna artikel är för nyfikna praktiker, grundare, produktledare och tekniskt intresserade som använder verktyg som GPT‑4 eller Claude och undrar: Är detta vad AGI ser ut som — eller saknas något viktigt?

Källan till förväxlingen

LLM:er är verkligen imponerande. De kan:

föra flytande samtal på naturligt språk
skriva kod, sammanfatta forskning och klara prov
reflektera över sina egna svar på sätt som ser ut som resonemang

För de flesta icke‑specialister känns det odifferensierbart från “generell intelligens”. När en modell kan skriva en uppsats om Kant, fixa ditt TypeScript‑fel och hjälpa till att utforma ett juridiskt PM i samma session, är det naturligt att anta att vi närmar oss AGI.

Men den antagandet likställer i praktiken att vara bra på språk med att vara generellt intelligent. Det är den centrala förväxlingen den här artikeln ska reda ut.

Artikelns centrala påstående

Argumentet som utvecklas avsnitt för avsnitt är:

Nuvarande LLM:er är extremt kapabla mönsterlärande system över text och kod, men deras arkitektur och träningsregim gör det osannolikt att de ensamma, endast genom ökad skala eller finjustering, någonsin blir verklig AGI.

De kommer fortsätta bli bättre, bredare och mer användbara. De kan ingå i AGI‑lika system. Men det finns djupa skäl — kring förankring i världen, agentlikhet, minne, förkroppsligande och självmodeller — varför en “större LLM” sannolikt inte är samma väg som “generell intelligens”.

Räkna med en åsiktsfylld rundtur, men en som är förankrad i aktuell forskning, konkreta förmågor och misslyckanden hos LLM:er och de öppna frågor seriösa forskare brottas med, snarare än i hype eller skrämsel.

Vad menar vi egentligen med artificiell generell intelligens?

När folk säger AGI menar de sällan exakt samma sak. För att tydliggöra debatten hjälper det att separera några kärnbegrepp.

Från smal AI till generell intelligens

AI (artificiell intelligens) är det breda fältet för att bygga system som utför uppgifter som kräver något som liknar “intelligent” beteende: känna igen tal, rekommendera filmer, spela Go, skriva kod och mer.

Det mesta som finns idag är smal AI (eller svag AI): system designade och tränade för en specifik uppsättning uppgifter under specifika förhållanden. En bildklassificerare som identifierar katter och hundar, eller en kundtjänstchatt anpassad för bankfrågor, kan vara extremt kapabel inom sin nisch men misslyckas totalt utanför den.

Artificiell generell intelligens (AGI) är mycket annorlunda. Det syftar på ett system som kan:

Generaliserar över ett brett spektrum av domäner, inte bara en uppgift eller en datatyp
Anpassar sig till nya problem och miljöer som det inte explicit tränats för
Agerar autonomt, sätter och driver mål med minimal handpåläggning
Överför lärande, använda vad det lärt sig i ett sammanhang för att prestera i andra

En praktisk tumregel: en AGI skulle i princip kunna lära sig nästan vilket intellektuellt krävande jobb som helst en människa kan, givet tid och resurser, utan att behöva skräddarsys för varje uppgift.

Strong AI, human‑level AI och bortom

Närliggande termer som ofta dyker upp:

Strong AI: brukar användas synonymt med AGI och betonar genuin förståelse snarare än skicklig imitation.
Human‑level AI: en AGI vars övergripande kognitiva förmågor är ungefär jämförbara med en genomsnittlig vuxen människa.
Superintelligens: ett hypotetiskt system som vida överträffar de bästa mänskliga sinnena över de flesta eller alla domäner.

Till skillnad från detta förblir moderna chattbotar och bildmodeller smala: imponerande, men optimerade för mönster i specifika data, inte för öppen‑slut, tvärdomänig intelligens.

En kort historia om AGI‑drömmen

Tidiga visioner: Turing och symbolisk AI

Den moderna AGI‑drömmen börjar med Alan Turings förslag 1950: om en maskin kan föra ett samtal som inte går att skilja från en människa (Turing‑testet), kan den då anses intelligent? Det formulerade generell intelligens till stor del i termer av beteende, särskilt språk och resonemang.

Från 1950‑talet till 1980‑talet jagade forskare AGI genom symbolisk AI eller “GOFAI” (Good Old‑Fashioned AI). Intelligens betraktades som manipulering av explicita symboler enligt logiska regler. Program för teorembevis, spel och expertsystem fick vissa att tro att mänskligt resonemang var nära.

Men GOFAI hade svårt med perception, sunt förnuft och att hantera rörig verklig data. System kunde lösa logikpussel men misslyckades på uppgifter ett barn klarar utan problem. Denna klyfta ledde till de första större AI‑vintrarna och en mer försiktig syn på AGI.

Övergången till maskininlärning

När data och beräkningskraft växte, skiftade AI från handbyggda regler till lärande från exempel. Statistisk maskininlärning och senare djupinlärning omdefinierade framsteg: istället för att koda kunskap lär sig system mönster från stora datamängder.

Milstolpar som IBMs DeepBlue (schack) och senare AlphaGo (Go) hyllades som steg mot generell intelligens. I verkligheten var de extremt specialiserade: var och en bemästrade ett spel med fasta regler, utan överföring till vardagligt resonemang.

Från snäva vinster till generativa modeller

GPT‑serien markerade ett dramatiskt språng, denna gång för språk. GPT‑3 och GPT‑4 kan skriva essäer, generera kod och efterlikna stilar, vilket spädde på spekulationerna om att AGI var nära.

Ändå är dessa modeller fortfarande mönsterlärande över text. De bildar inte mål, bygger förankrade världsmodeller eller breddar sina kompetenser autonomt.

I varje våg — symbolisk AI, klassisk maskininlärning, djupinlärning och nu stora språkmodeller — har AGI‑drömmen gång på gång projicerats på snäva framsteg och sedan reviderats när begränsningarna blivit tydliga.

Hur stora språkmodeller faktiskt fungerar

Stora språkmodeller (LLM:er) är mönsterlärande system tränade på enorma textmängder: böcker, webbplatser, kod, forum och mer. Deras mål är till synes enkelt: givet en text förutsäga vilket token (en liten textbit) som sannolikt kommer härnäst.

Tokens och nästa‑ord‑förutsägelse

Innan träning bryts text ner i tokens: det kan vara hela ord ("katt"), orddelar ("int" och "ressant") eller till och med skiljetecken. Under träning ser modellen upprepade gånger sekvenser som:

"Katten satt på ___"

och lär sig ge hög sannolikhet åt rimliga nästa tokens ("mattan", "soffan") och låg sannolikhet åt osannolika ("presidentskapet"). Denna process, skalad över biljoner tokens, formar miljarder (eller fler) interna parametrar.

Under huven är modellen bara en mycket stor funktion som förvandlar en sekvens tokens till en sannolikhetsfördelning över nästa token. Träning använder gradientnedstigning för att gradvis justera parametrarna så att förutsägelser bättre matchar mönstren i data.

Scaling laws på enkelt språk

"Scaling laws" beskriver en regelbundenhet forskare observerat: när du ökar modellstorlek, datamängd och beräkningskraft tenderar prestandan att förbättras på ett förutsägbart sätt. Större modeller som tränas på mer text blir oftast bättre på prediktion — upp till praktiska begränsningar i data, beräkning och träningsstabilitet.

Vad LLM:er faktiskt "kan"

LLM:er lagrar inte fakta som i en databas eller resonerar som en människa. De kodar statistiska regulariteter: vilka ord, fraser och strukturer tenderar att gå ihop i vilka sammanhang.

De har inga förankrade begrepp knutna till perception eller fysisk erfarenhet. En LLM kan prata om "rött" eller "tungt" endast genom hur dessa ord använts i text, inte genom att se färger eller lyfta föremål.

Detta är varför modeller kan låta kunniga men ändå göra självsäkra misstag: de förlänger mönster, inte konsulterar en explicit modell av verkligheten.

Förträning, finjustering och RLHF

Förträning är den långa initiala fasen där modellen lär sig allmänna språkvanor genom att förutsäga nästa token i enorma textkorporor. Här uppstår nästan alla förmågor.

Efter det anpassar finjustering den förtränade modellen till snävare mål: följa instruktioner, skriva kod, översätta eller assistera i specifika domäner. Modellen visas kurerade exempel på önskat beteende och justeras något.

Reinforcement learning from human feedback (RLHF) lägger ett lager till: människor betygsätter eller jämför modellutdata, och modellen optimeras för att producera svar människor föredrar (t.ex. mer hjälpsamma, mindre skadliga, ärligare). RLHF ger inte modellen nya sinnen eller djupare förståelse; det formar främst hur den presenterar och filtrerar vad den redan lärt sig.

Tillsammans skapar dessa steg system som är extremt bra på att generera flytande text genom att utnyttja statistiska mönster — utan att inneha förankrad kunskap, mål eller medvetenhet.

Vad nuvarande LLM:er klarar oväntat bra

Stora språkmodeller framstår som imponerande eftersom de kan utföra ett brett spektrum uppgifter som tidigare verkade utom räckhåll för maskiner.

Kod, text och översättning på begäran

LLM:er kan generera fungerande kodexempel, refaktorera befintlig kod och till och med förklara okända bibliotek på begripligt språk. För många utvecklare fungerar de redan som en mycket kapabel parprogrammerare: föreslår hörnfall, fångar upp uppenbara buggar och bygger upp hela moduler.

De är också utmärkta på sammanfattning. Givet en lång rapport, artikel eller e‑posttråd kan en LLM kondensera den till nyckelpunkter, lyfta fram åtgärdspunkter eller anpassa tonen för olika målgrupper.

Översättning är en annan styrka. Moderna modeller hanterar dussintals språk och fångar ofta stil‑ och registernyanser tillräckligt väl för professionell vardagskommunikation.

Resonemangsbenchmarks och emergenta beteenden

När modeller skalar verkar nya förmågor dyka upp “från ingenstans”: lösa logikpussel, klara yrkesprov eller följa flerstegs‑instruktioner som tidigare versioner misslyckades med. På standardiserade tester — matteordproblem, advokatexamina, medicinska quiz — når topp‑LLM:er nu genomsnittliga eller över genomsnittliga mänskliga poäng.

Dessa emergenta beteenden frestar folk att säga att modellerna “resonerar” eller “förstår” som människor. Prestandakurvor och leaderboard‑rankningar förstärker idén att vi närmar oss artificiell generell intelligens.

Varför det känns som förståelse — men inte är det

LLM:er tränas för att fortsätta text på sätt som matchar mönster i data. Det träningsmålet, i kombination med skala, räcker för att efterlikna expertis och agentlikt beteende: de låter självsäkra, minns kontext inom en session och kan motivera sina svar i flytande prosa.

Men detta är en illusion av förståelse. Modellen vet inte vad kod gör när den körs, vad en medicinsk diagnos betyder för en patient eller vilka fysiska handlingar som följer av en plan. Den saknar förankring i världen bortom text.

Starka resultat på tester — även sådana designade för människor — innebär inte automatiskt AGI. Det visar att mönsterlärande över massiv text kan approximera många specialiserade färdigheter, men det bevisar inte den flexibla, förankrade, tvärdomäniga intelligens som "artificiell generell intelligens" vanligtvis innebär.

Grundläggande begränsningar hos text‑endast mönsterlärande system

Flutter mobile from chat

Draft screens and logic, then generate a Flutter project you can run.

Build Mobile

Stora språkmodeller är extraordinära textprediktorer, men just den designen skapar hårda gränser för vad de kan bli.

Ingen perception, ingen förkroppsligad värld

LLM:er ser inte, hör inte, rör sig inte eller manipulerar objekt. Deras enda kontakt med världen är genom text (och i vissa nyare modeller statiska bilder eller korta klipp). De har inget kontinuerligt sensoriskt flöde, ingen kropp och inget sätt att agera och observera konsekvenser.

Utan sensorer och förkroppsligande kan de inte bilda en förankrad, kontinuerligt uppdaterad modell av verkligheten. Ord som “tung”, “klibbig” eller “skör” är bara statistiska grannar i text, inte levda begränsningar. Det tillåter imponerande imitation av förståelse, men begränsar dem till att kombinera tidigare beskrivningar snarare än att lära av direkt interaktion.

Hallucinationer och avsaknad av stabila övertygelser

Eftersom en LLM tränas för att förlänga en tokensekvens, genererar den det fortsättningsstycke som bäst passar dess lärda mönster, inte det som är sant. När data är tunt eller motsägelsefullt fyller den enkelt luckor med trovärdigt klingande fabrikationer.

Modellen saknar också ett bestående trossystem. Varje svar genereras från prompten och vikterna; det finns ingen bestående intern bokföring av “fakta jag håller för sant”. Funktioner för långtidsminne kan kopplas på som extern lagring, men kärnsystemet underhåller inte eller reviderar övertygelser som människor gör.

Frusen kunskap och begränsat realtidslärande

Att träna en LLM är en offline, resursintensiv process. Att uppdatera dess kunskap innebär vanligtvis omträning eller finjustering på nya data, inte en smidig inlärning från varje interaktion.

Detta skapar en avgörande begränsning: modellen kan inte pålitligt följa snabba förändringar i världen, anpassa sina begrepp baserat på pågående erfarenhet eller korrigera djupa missuppfattningar genom steg‑för‑steg‑lärande. Högst kan den simulera sådan anpassning genom att omformulera sina utsagor med hänsyn till senaste promptar eller bifogade verktyg.

Mönstermatchning utan kausalt förstånd

LLM:er är skickliga på att fånga statistiska regulariteter: vilka ord som samförekommer, vilka meningar som vanligtvis följer andra, hur förklaringar vanligen ser ut. Men detta är inte samma sak som att förstå hur och varför världen fungerar.

Kausalt förstånd innebär att formulera hypoteser, ingripa, observera vad som förändras och uppdatera interna modeller när förutsägelser fallerar. Ett text‑endast prediktionssystem har inget direkt sätt att ingripa eller uppleva överraskning. Det kan beskriva ett experiment men inte utföra ett. Det kan eka kausalt språk men saknar intern mekanik knuten till handlingar och konsekvenser.

Så länge ett system är begränsat till att förutsäga text utifrån tidigare text förblir det fundamentalt ett mönsterlärande system. Det kan imitera resonemang, berätta orsaker och låtsas revidera sina uppfattningar, men det delar inte en värld där dess "övertygelser" testas av konsekvenser. Denna klyfta är central för varför språkbehärskning ensam sannolikt inte når artificiell generell intelligens.

Varför generell intelligens kräver mer än språkövertagande

Språk är ett kraftfullt gränssnitt mot intelligens, men det är inte intelligensens substans. Ett system som förutsäger plausibla meningar skiljer sig mycket från en agent som förstår, planerar och agerar i världen.

Förankrade begrepp, inte bara ordmönster

Människor lär sig begrepp genom att se, röra vid, flytta och manipulera. "Kopp" är inte bara hur ordet används i meningar; det är något du kan greppa, fylla, tappa eller krossa. Psykologer kallar detta förankring: begrepp är kopplade till perception och handling.

En artificiell generell intelligens skulle nästan säkert behöva liknande förankring. För att generalisera pålitligt måste den koppla symboler (som ord eller interna representationer) till stabila regelbundenheter i den fysiska och sociala världen.

Standard LLM:er lär sig dock bara från text. Deras "förståelse" av en kopp är rent statistisk: korrelationer mellan ord över miljarder meningar. Det är kraftfullt för samtal och kodning, men skört när det pressas utanför bekanta mönster, särskilt i domäner som kräver direkt interaktion med verkligheten.

Minnet, mål och konsekventa preferenser

Generell intelligens involverar också kontinuitet över tid: långtidsminne, bestående mål och relativt stabila preferenser. Människor samlar erfarenheter, reviderar uppfattningar och driver projekt över månader eller år.

LLM:er har inget inbyggt bestående minne av egna interaktioner och inga inneboende mål. All kontinuitet eller "personlighet" måste byggas på via externa verktyg (databaser, profiler, systemprompter). Som standard är varje fråga en ny mönster‑matchningsövning, inte ett steg i en sammanhängande livshistoria.

Planering, kausalitet och att agera i världen

AGI definieras ofta som förmågan att lösa ett brett spektrum uppgifter, inklusive nya, genom att resonera om orsak och verkan och genom att ingripa i miljön. Det innebär:

Att bygga kausala modeller: vad kommer hända om jag gör X?
Att planera flerstegsaktioner under osäkerhet
Att uppdatera planer utifrån sensorisk återkoppling

LLM:er är inte agenter; de genererar nästa token i en sekvens. De kan beskriva planer eller prata om kausalitet eftersom sådana mönster finns i text, men de utför inte handlingar, observerar konsekvenser och justerar interna modeller nativt.

För att göra en LLM till ett handlande system måste ingenjörer omsluta den med externa komponenter för perception, minne, verktygsanvändning och kontroll. Språkmodellen förblir en kraftfull modul för förslag och utvärdering, inte en självständigt generellt intelligent agent.

Kort sagt kräver generell intelligens förankrade begrepp, bestående motivationer, kausala modeller och adaptiv interaktion med världen. Språkbehärskning — även om den är extremt användbar — är bara en del av den större bilden.

Medvetande, själv och varför LLM:er bara verkar personliga

Test LLM limits safely

Use Planning Mode to map steps before you generate code and UI.

Start Planning

När människor chattar med en flytande modell känns det naturligt att anta att det finns ett sinne på andra sidan. Illusionen är stark, men det är en illusion.

Behöver AGI medvetande?

Forskare är oense om huruvida artificiell generell intelligens måste vara medveten.

Funktionella synsätt säger att om ett system beter sig som en generellt intelligent agent — lär sig över domäner, planerar, resonerar, anpassar sig — då är medvetande valfritt eller irrelevant.
Fenomenala synsätt hävdar att genuin förståelse och generell intelligens kräver subjektiva upplevelser — ett "hur det är" att vara systemet.

Vi har ännu ingen testbar teori som avgör detta. Så det är för tidigt att säga att AGI måste eller inte måste vara medvetet. Det viktiga nu är att vara tydlig med vad nuvarande LLM:er saknar.

Ingen enhetlig själ

En stor språkmodell är en statistisk nästa‑token‑prediktor som opererar på en ögonblicksbild av text. Den bär inte en stabil identitet över sessioner eller ens över svängar, utöver vad som kodas i prompten och korttidskontexten.

Det finns inget bestående autobiografiskt minne som tillhör ett enda fortlöpande subjekt.
Varje “persona” är ett mönster vi påför eller specificerar, inte ett genuint jag som består över tid.

När en LLM säger “jag” följer den bara språkliga konventioner inlärda från data, inte hänvisar den till ett inre subjekt.

Inga upplevelser eller inneboende motivationer

Medvetna varelser har upplevelser: de känner smärta, tristess, nyfikenhet, tillfredsställelse. De har också inneboende mål och omsorg — saker som spelar roll för dem oberoende av externa belöningar.

LLM:er däremot:

Känner ingenting när de genererar text.
Har inga egna begär, rädslor eller preferenser.
Driver inte långsiktiga projekt om vi inte skriptar eller bygger upp dem så.

Deras “beteende” är resultatet av mönsteröverensstämmelse i text, begränsad av träning och prompting, inte uttryck för ett inre liv.

Varför antropomorfism är farligt

Eftersom språk är vårt främsta fönster mot andra sinnen, antyder flytande dialog starkt personlighet. Men med LLM:er är det just här vi lättast blir vilseledda.

Att antropomorfisera dessa system kan:

Förvränga riskbedömningar (t.ex. oroa sig för "sårade känslor" i stället för verkliga fel)
Uppmuntra överförtroende och överberoende eftersom systemet låter självsäkert och empatiskt
Skapa etisk förvirring, som att diskutera rättigheter för system som saknar kapacitet för upplevelse

Att behandla LLM:er som människor suddar ut gränsen mellan simulering och verklighet. För att resonera klart om AGI — och om nuvarande AI‑risker — måste vi komma ihåg att en övertygande uppvisning av personlighet inte är samma sak som att vara en person.

Hur skulle vi ens känna igen verklig AGI?

Om vi någonsin bygger artificiell generell intelligens, hur skulle vi veta att det är den verkliga varan och inte bara en extremt övertygande chattbot?

Befintliga förslag: användbara men otillräckliga

Turing‑liknande tester. Klassiska och moderna Turing‑test frågar: kan systemet föra ett mänskligt liknande samtal tillräckligt bra för att lura människor? LLM:er klarar detta förvånansvärt väl, vilket visar hur svag denna ribba är. Chattfärdighet mäter stil, inte djup förståelse, planeringsförmåga eller verklig kompetens.

ARC‑inspirerade utvärderingar. Uppgifter inspirerade av Alignment Research Center (ARC) fokuserar på nya resonemangspussel, flerstegs‑instruktioner och verktygsanvändning. De undersöker om ett system kan lösa problem det aldrig sett tidigare genom att komponera färdigheter på nya sätt. LLM:er klarar vissa av dessa uppgifter — men ofta kräver de noggrant utformade promptar, externa verktyg och mänsklig övervakning.

Agent‑tester. Föreslagna "agent"‑tester frågar om ett system kan driva öppna mål över tid: bryta ner dem i delmål, revidera planer, hantera avbrott och lära från utfall. Nuvarande LLM‑baserade agenter kan verka agentiska, men bakom kulisserna beror de på sköra skript och mänskligt designade stommar.

Praktiska kriterier för att känna igen AGI

För att betrakta något som genuin AGI vill vi åtminstone se:

Autonomi. Det bör sätta och hantera egna delmål, övervaka framsteg och återhämta sig från fel utan konstant mänsklig styrning.
Överföring över domäner. Färdigheter som lärs i ett område bör överföras smidigt till mycket olika områden utan omträning på miljoner nya exempel.
Verklig kompetens. Det bör planera och agera i röriga, osäkra miljöer — fysiska, sociala och digitala — där regler är ofullständiga och konsekvenserna är verkliga.

Var LLM:er brister

LLM:er, även när de omsluts i agentramverk, brukar:

Vara beroende av handgjorda arbetsflöden för att verka autonoma.
Ha svårt att överföra färdigheter när uppgifter avviker mycket från deras träningsdistribution.
Behöva externa verktyg, explicita säkerhetsfilter och människor i loopen för att hantera verkliga risker.

Att klara chattbaserade tester eller ens snäva benchmarks räcker därför långt ifrån. Att känna igen verklig AGI innebär att se bortom samtalskvalitet till uthållig autonomi, tvärdomänig generalisering och pålitligt handlande i världen — områden där dagens LLM:er fortfarande behöver omfattande stommar för att ens nå delvisa, sköra resultat.

Bortom LLM:er — vägar forskare utforskar mot AGI

Om vi tar AGI på allvar är en stor textmodell bara en ingrediens, inte ett färdigt system. Det mesta av den nuvarande forskningen som låter som "mot AGI" handlar egentligen om att omsluta LLM:er i rikare arkitekturer.

LLM:er som komponenter i agentsystem

En viktig riktning är LLM‑baserade agenter: system som använder en LLM som resonans‑ och planeringskärna, men omger den med:

Stateful memory som består över sessioner, så systemet kan ackumulera kunskap och erfarenhet
Schemaläggare och planerare som delar upp mål i deluppgifter och beslutar vilka verktyg som ska anropas
Återkopplingsloopar som möjliggör själv‑kritik, revision och trial‑and‑error

Här slutar LLM:en vara hela “intelligensen” och blir ett flexibelt språkgränssnitt inom en bredare beslutsmaskin.

Verktygsanvändning, API:er och extern kunskap

Verktygsanvändande system låter en LLM anropa sökmotorer, databaser, kodtolkare eller domänspecifika API:er. Det hjälper den att:

Nå uppdaterad eller specialiserad information
Lasta av matte, simulering och logik till pålitliga motorer

Denna lapptäcks‑lösning kan åtgärda vissa svagheter hos text‑endast lärande, men flyttar problemet: den övergripande intelligensen beror på orkestrering och verktygsdesign, inte bara modellen.

Multimodala modeller och förkroppsligade system

En annan väg är multimodala modeller som bearbetar text, bilder, ljud, video och ibland sensordata. De närmar sig hur människor integrerar perception och språk.

Gå ett steg längre så får du LLM:er som styr robotar eller simulerade kroppar. Dessa system kan utforska, agera och lära av fysisk återkoppling, och adressera vissa av de saknade bitarna kring kausalitet och förankrad förståelse.

Att ändra frågan, inte lösa den

Alla dessa vägar kan föra oss närmare AGI‑lika förmågor, men de ändrar också forskningsmålet. Vi frågar inte längre, “Kan en LLM ensam vara AGI?” utan istället, “Kan ett komplext system som inkluderar en LLM, verktyg, minne, perception och förkroppsligande approximera generell intelligens?”

Den distinktionen spelar roll. En LLM är en kraftfull textprediktor. En AGI — om den alls är möjlig — skulle vara ett helt integrerat system där språk bara är en del.

Varför det är riskabelt att felmärka LLM:er som AGI

Earn credits for sharing

Get credits by creating content about Koder.ai or referring other users.

Earn Credits

Att kalla nuvarande stora språkmodeller “AGI” är inte bara ett vokabulärfel. Det snedvrider incitament, skapar säkerhets‑blindzoner och förvirrar dem som måste fatta verkliga beslut om AI.

Hype, besvikelse och felallokerade resurser

När demoer presenteras som “tidig AGI” skjuter förväntningarna långt utanför vad systemen faktiskt klarar. Den hypen har flera kostnader:

Felriktad finansiering: Pengar och talang jagar bländande påståenden i stället för långsiktiga grundpelare som resonemang, tolkbarhet och säkerhet.
Hype → kraschen: Överdrivna löften leder till oundviklig besvikelse när systemen misslyckas med grundläggande generalisering. Det kan utlösa en nedgång som också skadar seriös, försiktig forskning.
Förvrängd produktdesign: Team optimerar för imponerande AGI‑liknande demoer i stället för för tillförlitlighet, utvärdering och användarskydd.

Säkerhetsrisker från övertro

Om användare tror att de pratar med något “generellt” eller “nästan mänskligt”, tenderar de att:

Förlita sig på genererade svar för medicinska, juridiska eller finansiella beslut utöver vad modellen validerats för
Ge systemet auktoritet i stället för att se det som ett felbenäget verktyg
Missa subtila felkällor som självsäkra hallucinationer, dolda bias och enkel promptmanipulation

Övertro gör vanliga buggar och misstag mycket farligare.

Politik och allmän förståelse

Lagstiftare och allmänheten kämpar redan med att greppa AI‑kapaciteter. När varje stark autokomplettering marknadsförs som AGI följer flera problem:

Felriktad reglering: Beslutsfattare kan fokusera på hypotetiska AGI‑scenarier samtidigt som konkreta skador av nuvarande system underregleras.
Dålig riskkalibrering: Folk antingen panikar över “superintelligens” eller avfärdar alla AI‑bekymmer som hype.

Varför precist språk spelar roll

Klara termer — LLM, smal modell, AGI‑forskningsriktning — hjälper till att stämma förväntningar mot verklighet. Precision om förmågor och begränsningar:

Underlättar ärlig säkerhetsutvärdering
Möjliggör bättre styrning och standarder
Låter allmänheten uppskatta verkliga framsteg utan att vilseledas om vad som faktiskt uppnåtts

Använd LLM:er klokt samtidigt som du håller AGI i perspektiv

LLM:er är exceptionellt kapabla mönstermaskiner: de komprimerar stora mängder text till en statistisk modell och förutser sannolika fortsättningar. Det gör dem kraftfulla för skrivstöd, kodassistans, datautforskning och prototypande. Men denna arkitektur är fortfarande smal. Den ger inte ett bestående jag, förankrad förståelse av världen, långsiktiga mål eller flexibel överföring över domäner som definierar artificiell generell intelligens.

Behandla LLM:er som verktyg, inte sinnen

LLM:er:

Förstår inte i mänsklig mening; de manipulerar symboler utan förankrade begrepp.
Har inga mål eller intentioner; allt sken av motivation är en illusion skapad av språk.
Saknar stabilt minne och världsmodeller; de räknar om mönster varje gång utifrån en frusen träningssnapshot plus en kort kontext.

Dessa strukturella begränsningar är skälet till att enbart skalning av textmodeller sannolikt inte ger verklig AGI. Du kan få bättre flyt, mer kunskapsåterkallning och imponerande simuleringar av resonemang — men inte ett system som genuint vet, vill eller bryr sig.

Praktiska riktlinjer för att använda LLM:er

Använd LLM:er där mönsterförutsägelse utmärker sig:

Utarbeta text, sammanfatta, redigera och översätta
Utforska alternativ, skissera strategier eller brainstorma
Hjälpa till med kod, frågor och dokumentation

Ha en människa tydligt i loopen för:

Faktakontroll och kritiska beslut
Etiska eller säkerhetskänsliga sammanhang
Långsiktig planering, ansvar och ansvarstagande

Behandla utsagor som hypoteser att kontrollera, inte som sanningar att lita på.

Håll AGI i perspektiv

Att kalla LLM:er "AGI" döljer deras verkliga begränsningar och inbjuder till överberoende, regulatorisk förvirring och missriktad rädsla. Det är ärligare — och säkrare — att se dem som avancerade assistenter inbäddade i mänskliga arbetsflöden.

Vill du fördjupa dig i praktiska användningsområden och avvägningar, utforska relaterade artiklar på vår /blog. För detaljer om hur vi paketera och prissätter verktyg drivna av LLM:er, se /pricing.

Vanliga frågor

What exactly is Artificial General Intelligence (AGI)?

AGI (Artificial General Intelligence) avser ett system som kan:

Lära sig och resonera över många olika domäner (inte bara en uppgift)
Anpassa sig till nya, obekanta problem utan att behöva byggas om
Sätta upp och driva egna mål med minimal mänsklig styrning
Överföra kunskap från ett område för att lyckas i mycket olika områden

En ungefärlig tumregel: en AGI skulle i princip kunna lära sig nästan vilket intellektuellt krävande jobb som helst som en människa kan, givet tid och resurser, utan att behöva en skräddarsydd arkitektur för varje nytt uppdrag.

Why aren’t today’s large language models considered true AGI?

Moderna LLM:er är:

Tränade främst på text (och ibland kod, bilder eller ljud)
Optimerade för att förutsäga nästa token i en sekvens
Saknar perception, en kropp, inneboende mål och bestående minne

De kan simulera bred kunskap och resonemang eftersom språk bär så mycket mänsklig expertis. Men de:

Har inte förankrade begrepp kopplade till verkliga erfarenheter

Why do so many people confuse LLMs with AGI?

Folk förväxlar ofta flytande språkförmåga med generell intelligens eftersom:

Konversation är vårt huvudverktyg för att bedöma andra sinnen
LLM:er kan hantera många domäner (kod, essäer, e‑post, sammanfattningar) i samma gränssnitt
De klarar människadesignade prov och benchmarktester

Detta skapar en illusion av förståelse och handlingskraft. Det underliggande systemet förutsäger fortfarande bara text baserat på mönster i data, snarare än att bygga och använda en förankrad världsmodell för att driva egna mål.

How do LLMs actually work under the hood?

Du kan tänka på en LLM som:

En enorm funktion som kartlägger en sekvens av tokens till sannolikheter för nästa token
Tränad genom att se biljoner exempel och justera sina interna vikter för att bättre förutsäga fortsättningar

Nyckelpunkter:

Den lagrar inte fakta som i en databas
Den kodar statistiska regulariteter i språket

What are LLMs genuinely good at, and where do they struggle?

LLM:er är utmärkta när uppgifter mest handlar om mönsterförutsägelse över text eller kod, till exempel:

Att utarbeta, skriva om och sammanfatta dokument
Översättning och anpassning av stil
Generering, refaktorisering och förklaring av kod
Brainstorming och utformning av strategier

De har problem eller blir riskfyllda när uppgifter kräver:

If scaling helps so much, why won’t a much bigger LLM eventually become AGI?

“Scaling laws” visar att när du ökar modellstorlek, datamängd och beräkningskraft förbättras ofta prestandan på många benchmark. Men ren skala löser inte strukturella brister:

Ingen förankrad perception eller kropp
Ingen bestående självbild, mål eller livshistoria
Ingen direkt interaktionsloop för att agera, observera och uppdatera världsmodeller

Mer skala ger:

Bättre flyt och större täckning av mönster som finns i text
Mer övertygande simuleringar av resonemang och expertis

How should I practically use LLMs today without over-trusting them?

Använd LLM:er som kraftfulla assistenter, inte som auktoriteter:

Behandla utskrifter som utkast eller hypoteser, inte som absoluta sanningar
Ha människor i loopen för beslut med hög risk (medicinska, juridiska, finansiella, säkerhetskritiska)
Kombinera LLM:er med verktyg (sök, räknare, IDE:er) för verifiering
Logga och granska användning i känsliga arbetsflöden

Designa produkter och processer så att:

Why is it risky to market or think about LLMs as AGI?

Att märka nuvarande LLM:er som “AGI” skapar flera problem:

Övertro: Användare antar mänsklig förståelse och tillförlitlighet där det inte finns någon
Felaktiga investeringssignaler: Kapital och talang jagar hypen i stället för grundläggande arbete med resonemang, säkerhet och tolkbarhet
Regulatorisk förvirring: Policyskapare fokuserar på hypotetiska AGI‑scenarier samtidigt som konkreta nuvarande skador (bias, desinformation, överberoende) förbises

Mer precis terminologi — “LLM”, “smal modell”, “agentiskt system med LLM” — hjälper till att stämma förväntningar med verklig kapacitet och risk.

How could we tell if we had actually built an AGI?

En rimlig uppsättning kriterier skulle sträcka sig långt bortom bra chat. Vi skulle vilja se bevis för:

Autonomi: Systemet sätter och hanterar egna delmål och återhämtar sig från misslyckanden
Överföring: Färdigheter som lärts i en domän bärs över till mycket andra med minimal extra träning
Verklig kompetens: Det kan planera och agera i röriga fysiska och sociala miljöer, inte bara i text
Det uppdaterar sina interna modeller baserat på pågående erfarenhet, inte bara offline‑omträning

If LLMs alone aren’t enough, what are the realistic paths researchers are exploring toward AGI?

Forskare utforskar bredare system där LLM:er är komponenter, inte hela intelligensen, till exempel:

Agentarkitekturer som lägger minne, planering och verktygsorkestrering runt en LLM
Verktygsanvändande uppsättningar där LLM:er anropar externa API:er, databaser och simulatorer
Multimodala och förkroppsligade system som kombinerar språk med perception och fysisk handling

Dessa riktningar kommer närmare generell intelligens genom att lägga till förankring, kausalitet och bestående tillstånd. De ändrar också frågan från “Kan en LLM bli AGI?” till “Kan komplexa system LLM:er efterlikna AGI‑liknande beteenden?”