인공 일반 지능(AGI)이 무엇인지, LLM이 어떻게 작동하는지, 그리고 왜 현재의 텍스트 기반 모델들이 단순한 스케일링이나 파인튜닝만으로는 진정한 AGI가 되기 어려운지 핵심 논거를 설명합니다.

기술 뉴스, 투자자 자료, 제품 페이지를 보면 ‘지능’이라는 단어가 점점 더 넓게 사용되는 것을 볼 수 있습니다. 챗봇은 “거의 인간 같다”고 불리고, 코딩 어시스턴트는 “사실상 주니어 엔지니어”라고 하며, 일부는 강력한 대형 언어 모델(LLM)을 인공 일반 지능(AGI)에 이르는 첫걸음이라고 여깁니다.
이 글은 GPT-4나 Claude 같은 도구를 사용하며 궁금해하는 실무자, 창업자, 제품 리더, 기술 독자를 위한 것입니다: 이것이 AGI의 모습인가—아니면 중요한 무언가가 빠져 있는가?
LLM은 정말 인상적입니다. 이들은:
비전문가에게는 이것이 ‘일반 지능’과 구분되지 않습니다. 한 세션에서 칸트에 관한 에세이를 쓰고, TypeScript 오류를 고치고, 법률 메모 초안을 도와준다면 우리는 자연스럽게 AGI에 근접했다고 생각하게 됩니다.
하지만 그 가정은 조용히 언어에 능숙함을 일반 지능과 동일시합니다. 이 글이 풀어낼 핵심 혼동은 바로 그것입니다.
다음 섹션들에서 전개할 주장은 다음과 같습니다:
현재의 LLM은 텍스트와 코드에 대한 매우 능숙한 패턴 학습기이지만, 그 아키텍처와 학습 방식 때문에 단순한 스케일 업이나 파인튜닝만으로 진정한 AGI가 될 가능성은 낮다.
LLM은 계속 더 좋아지고, 더 넓어지며, 더 유용해질 것입니다. AGI와 유사한 시스템의 일부가 될 수 있습니다. 그럼에도 불구하고 ‘더 큰 LLM’이 곧 ‘일반 지능’으로 가는 길이 아닐 것이라는 깊은 이유들이 있습니다—세계에 대한 근거(grounding), 행위성(agency), 기억, 구현(embodiment), 자기모델 같은 측면들 때문입니다.
의견이 분명한 투어가 되겠지만, 과장이나 공포 조장 대신 현재 연구, LLM의 구체적 능력과 실패 사례, 진지한 과학자들이 씨름하고 있는 미해결 질문들에 기반할 것입니다.
사람들이 AGI라고 말할 때 같은 의미를 말하는 경우는 드뭅니다. 논의를 명확히 하려면 몇 가지 핵심 개념을 분리하는 것이 도움이 됩니다.
**AI(인공지능)**는 음성 인식, 영화 추천, 바둑, 코드 작성 등 ‘지능 같은’ 행동을 수행하는 시스템을 구축하는 광범위한 분야입니다.
오늘날 존재하는 것의 대부분은 좁은 AI(또는 약한 AI)입니다: 특정 조건 아래 특정 작업을 수행하도록 설계되고 학습된 시스템입니다. 고양이와 개를 구분하는 이미지 분류기나 은행 문의에 맞춘 고객 서비스 챗봇은 그 분야 내에서 매우 능할 수 있지만 바깥에서는 크게 실패합니다.
**인공 일반 지능(AGI)**은 매우 다릅니다. AGI는 다음을 할 수 있는 시스템을 뜻합니다:
실용적 규칙: AGI라면 추가 설계 없이 주어진 시간과 자원으로 인간이 수행하는 거의 모든 지적 업무를 배울 수 있어야 합니다.
관련 용어들:
반대로 현대의 챗봇과 이미지 모델은 좁습니다: 인상적이지만 특정 데이터의 패턴에 최적화되어 있고, 개방형·교차 도메인 지능을 목표로 하지는 않습니다.
현대 AGI의 꿈은 튜링의 1950년 제안에서 시작됩니다: 기계가 인간과 구분되지 않을 만큼 대화를 나눈다면(튜링 테스트), 그 기계는 지능일까? 당시에는 일반 지능을 주로 언어와 추론 같은 행동으로 프레이밍했습니다.
1950년대부터 1980년대까지 연구자들은 기호주의 AI(또는 GOFAI)를 통해 AGI를 추구했습니다. 지능은 명시적 기호를 논리 규칙으로 조작하는 것으로 여겨졌습니다. 정리 증명, 게임 플레이, 전문가 시스템은 인간 수준의 추론이 가깝다고 여겨지게 했습니다.
그러나 GOFAI는 지각, 상식, 지저분한 실제 데이터 처리에서 어려움을 겪었습니다. 시스템은 논리 퍼즐을 풀 수 있지만 어린이가 쉬운 일을 못하는 경우가 많았습니다. 이 격차는 최초의 AI 겨울로 이어졌고 AGI에 대해 더 신중한 관점을 낳았습니다.
데이터와 계산 자원이 늘어나면서 AI는 수작업 규칙에서 예제로부터 학습하는 쪽으로 옮겨갔습니다. 통계적 머신러닝, 이어서 딥러닝이 진보를 재정의했습니다: 지식을 직접 인코딩하는 대신 대규모 데이터에서 패턴을 학습합니다.
IBM의 DeepBlue(체스)와 이후 AlphaGo(바둑) 같은 이정표는 AGI를 향한 발걸음으로 환영받았지만, 사실 이들은 각기 고도로 특화된 시스템이었습니다: 고정된 규칙 아래 하나의 게임만 마스터했을 뿐 일상 추론으로 전이되지 않았습니다.
GPT 시리즈는 이번에 언어 영역에서 극적인 도약을 보여주었습니다. GPT-3와 GPT-4는 에세이를 초안하고, 코드를 작성하며 스타일을 모방해 AGI가 가까워졌다는 추측을 불러일으켰습니다.
그럼에도 이 모델들은 여전히 텍스트 위의 패턴 학습기입니다. 이들은 목표를 형성하지 않으며, 근거 있는 세계 모델을 구축하지 않고, 자율적으로 역량을 넓히지 않습니다.
기호주의, 고전적 머신러닝, 딥러닝, 그리고 지금의 대형 언어 모델에 이르기까지 각 물결마다 AGI의 꿈은 좁은 성취에 투영되었다가 그 한계가 드러나면 수정되어 왔습니다.
대형 언어 모델(LLM)은 책, 웹사이트, 코드, 포럼 등 방대한 텍스트 모음에서 학습하는 패턴 학습기입니다. 목표는 단순해 보입니다: 주어진 텍스트에서 다음에 올 토큰(작은 텍스트 덩어리)을 예측하는 것.
학습 전 텍스트는 토큰으로 분해됩니다: 토큰은 전체 단어(“cat”), 단어 조각(“inter”, “esting”), 혹은 구두점일 수 있습니다. 학습 중 모델은 다음과 같은 시퀀스를 반복적으로 봅니다:
"The cat sat on the ___"
그리고 그 문맥에서 그럴듯한 다음 토큰("mat", "sofa")에 높은 확률을 부여하고, 어색한 토큰("presidency")에는 낮은 확률을 부여하도록 학습합니다. 이 과정은 수조 개의 토큰에 대해 실행되며 수십억(혹은 그 이상의) 내부 파라미터를 형성합니다.
내부적으로 모델은 토큰 시퀀스를 다음 토큰에 대한 확률 분포로 변환하는 아주 큰 함수일 뿐입니다. 학습은 경사 하강법으로 파라미터를 점진적으로 조정하여 예측이 데이터와 더 잘 맞도록 합니다.
“스케일링 법칙”은 연구자들이 관찰한 규칙성입니다: 모델 크기, 데이터 크기, 계산을 늘리면 성능이 예측 가능한 방식으로 개선되는 경향이 있습니다. 더 큰 모델을 더 많은 텍스트로 학습하면 보통 예측 성능이 좋아집니다—데이터, 계산, 학습 안정성의 실용적 한계까지입니다.
LLM은 데이터베이스처럼 사실을 저장하거나 인간처럼 추론하지 않습니다. 이들은 어떤 단어, 구절, 구조가 어떤 맥락에서 함께 나오는지에 대한 통계적 규칙을 인코딩합니다.
이들은 지각이나 신체 경험에 묶인 근거 있는 개념을 갖고 있지 않습니다. LLM이 “빨강”이나 “무거움”에 대해 말할 수 있는 것은 그 단어들이 텍스트에서 어떻게 사용되었는지에 기반할 뿐, 색을 보거나 물건을 들었다는 경험에서 오는 것이 아닙니다.
그래서 모델은 그럴듯하게 보이지만 자신 있게 틀린 답을 할 수 있습니다: 패턴을 확장할 뿐 현실을 직접 확인하는 것이 아니기 때문입니다.
**사전학습(Pre-training)**은 모델이 거대한 텍스트 코퍼스에서 다음 토큰을 예측하며 일반적인 언어 패턴을 학습하는 긴 초기 단계입니다. 거의 모든 능력이 이 단계에서 출현합니다.
그 다음 **파인튜닝(fine-tuning)**은 사전학습된 모델을 지침 준수, 코드 작성, 번역, 특정 도메인 지원 같은 좁은 목표에 맞춰 조정합니다. 모델은 원하는 행동의 예시를 보고 약간 조정됩니다.
**인간 피드백을 이용한 강화학습(RLHF)**은 또 다른 층을 더합니다: 인간이 모델 출력을 평가하거나 비교하고, 모델이 사람들이 선호하는 답변(더 도움이 되고, 덜 유해하고, 더 정직한 답변)을 내도록 최적화합니다. RLHF는 모델에 새로운 감각이나 더 깊은 이해를 주지 않습니다; 주로 이미 학습한 것을 어떻게 제시하고 필터링할지 형태를 다듬습니다.
이 단계들이 결합되어 통계적 패턴을 활용해 유창한 텍스트를 생성하는 매우 능한 시스템을 만듭니다—그러나 근거 있는 지식, 목표, 또는 자각을 소유하지는 않습니다.
LLM은 한때 기계가 도달하기 어려웠던 광범위한 작업을 수행할 수 있기 때문에 인상적입니다.
LLM은 작동하는 코드 스니펫을 생성하고, 기존 코드를 리팩터링하며, 낯선 라이브러리를 평이한 언어로 설명할 수 있습니다. 많은 개발자에게 이들은 이미 매우 유능한 페어 프로그래머 역할을 합니다: 엣지 케이스를 제안하고, 명백한 버그를 잡아주며, 모듈 전체를 스캐폴딩합니다.
또한 긴 보고서, 논문, 이메일 스레드를 핵심 요점으로 응축하고, 행동 항목을 강조하거나 다른 청중을 위한 어조로 바꾸는 요약에 능합니다.
번역도 강점입니다. 최신 모델은 수십 개 언어를 처리하며 일상적인 전문적 커뮤니케이션에 충분한 뉘앙스와 격식을 포착합니다.
모델이 커지면서 새로운 능력이 “불현듯” 나타나는 것처럼 보입니다: 논리 퍼즐을 풀고, 전문 자격 시험을 통과하고, 이전 버전이 실패하던 다단계 지침을 수행합니다. 표준화된 벤치마크—수학 서술 문제, 변호사 시험 문제, 의학 퀴즈—에서 최상위 LLM은 이제 평균 인간 점수에 도달하거나 이를 능가합니다.
이러한 출현적 행동은 사람들로 하여금 모델이 인간처럼 “추론”하거나 “이해”한다고 말하게 만듭니다. 성능 그래프와 리더보드는 AGI에 다가가고 있다는 인상을 강화합니다.
LLM은 텍스트를 데이터에서 본 패턴과 일치하도록 이어가도록 학습됩니다. 그 학습 목표와 스케일의 결합은 전문성과 행위성의 모방에 충분합니다: 자신감 있게 말하고, 세션 내 맥락을 기억하며, 유창한 문장으로 답을 정당화합니다.
그러나 이는 이해의 환영입니다. 모델은 코드를 실행했을 때 어떤 일이 일어날지, 진단이 환자에게 무슨 의미인지, 계획에서 어떤 물리적 행동이 뒤따를지 알지 못합니다. 텍스트를 넘어선 세계와의 근거가 없습니다.
사람용으로 설계된 시험에서의 높은 성적조차 자동적으로 AGI를 의미하지 않습니다. 그것은 대규모 텍스트 데이터에 대한 패턴 학습이 많은 전문 기술을 근사할 수 있다는 것을 보여줄 뿐이며, 일반적으로 기대되는 근거 있고 교차 도메인적인 유연성을 증명하지는 않습니다.
LLM은 탁월한 텍스트 예측기지만, 바로 그 설계가 그들이 될 수 있는 것에 관한 한계들을 만듭니다.
LLM은 보거나 듣거나 움직이거나 물체를 조작하지 않습니다. 이들의 세계와의 유일한 접촉은 텍스트(그리고 일부 최신 모델에서는 정적 이미지나 짧은 클립)에 국한됩니다. 연속적인 감각 스트림도, 신체도, 결과를 관찰하며 행동할 방법도 없습니다.
감각과 구현이 없으면 근거 있는 지속적 세계 모델을 형성할 수 없습니다. “무겁다”, “끈적이다”, “깨지기 쉽다” 같은 단어는 텍스트에서의 통계적 이웃일 뿐, 직접 경험으로부터 오는 제약이 아닙니다. 이는 이해의 흉내를 가능하게 하지만 직접 상호작용을 통한 학습이 아닌 과거 묘사의 재조합에 모델을 제한합니다.
LLM은 시퀀스를 확장하도록 학습되었기 때문에, 학습 데이터가 희박하거나 상충될 때 그럴듯하게 들리는 허구를 채워 넣습니다.
모델은 지속적인 신념 상태를 갖고 있지도 않습니다. 각 응답은 프롬프트와 가중치로부터 새롭게 생성됩니다; 인간이 하는 식의 지속적 ‘사실 장부’가 없습니다. 장기 기억 기능은 외부 저장을 통해 덧붙일 수 있지만, 핵심 시스템은 인간처럼 신념을 유지하거나 수정하지 않습니다.
LLM의 학습은 오프라인, 자원 집약적인 배치 프로세스입니다. 지식을 업데이트하려면 보통 재학습이나 파인튜닝이 필요하며, 각 상호작용으로부터 매끄럽게 배우지는 못합니다.
이것은 중요한 제한을 만듭니다: 모델은 급변하는 세계를 신뢰성 있게 추적하거나 진행 중인 경험에 따라 개념을 적응시키거나 단계적 학습을 통해 깊은 오해를 바로잡을 수 없습니다. 고작하면 최근 프롬프트나 연결된 도구에 비추어 그런 적응을 시뮬레이션할 수 있을 뿐입니다.
LLM은 어떤 단어들이 함께 등장하는지, 어떤 문장이 뒤따르는지 같은 통계적 규칙을 포착하는 데 탁월합니다. 그러나 이것은 세계가 어떻게 그리고 왜 작동하는지 파악하는 것과는 다릅니다.
인과적 이해는 가설을 세우고, 개입을 하고, 무슨 변화가 일어나는지 관찰하며, 예측이 실패할 때 내부 모델을 업데이트하는 것을 포함합니다. 텍스트 전용 예측기는 개입하거나 놀람을 경험할 직접적인 방식이 없습니다. 실험을 설명할 수는 있지만 수행할 수는 없습니다. 인과를 서술하는 언어를 흉내 낼 수 있지만, 행동과 결과에 묶인 내부 기제를 갖고 있지는 않습니다.
시스템이 과거 텍스트로부터 텍스트를 예측하는 데 갇혀 있는 한, 그것은 근본적으로 패턴 학습기에 머뭅니다. 추론을 흉내 내고 원인을 서술하며 자신의 관점을 수정하는 척할 수는 있지만, ‘신념’이 결과로 시험되는 공유된 세계에 실제로 거주하지는 않습니다. 이 격차가 바로 언어 숙달만으로는 AGI에 도달하기 어렵다고 보는 중심 이유입니다.
언어는 지능에 대한 강력한 인터페이스이지만, 지능 그 자체의 본질은 아닙니다. 그럴듯한 문장을 예측하는 시스템과 세계에서 이해하고 계획하며 행동하는 에이전트는 매우 다릅니다.
인간은 보고, 만지고, 움직이며 조작하면서 개념을 학습합니다. “컵”은 문장에서 어떻게 사용되는가 뿐만 아니라 잡고, 채우고, 떨어뜨리고, 깨뜨릴 수 있는 물체입니다. 심리학자들은 이를 근거화(grounding)라고 부릅니다: 개념이 지각과 행동에 연결됩니다.
인공 일반 지능은 유사한 근거가 필요할 가능성이 큽니다. 신뢰할 수 있게 일반화하려면 기호(단어나 내부 표현)를 물리적·사회적 세계의 안정적 규칙성과 연결해야 합니다.
표준 LLM은 텍스트만으로 학습합니다. 컵에 대한 그들의 “이해”는 순전히 통계적입니다: 수십억 문장에 걸친 단어 사이의 상관관계. 대화와 코딩에는 강력하지만, 직접 상호작용에 의존하는 영역에서는 취약합니다.
일반 지능은 시간에 걸친 연속성도 포함합니다: 장기 기억, 지속적인 목표, 비교적 안정된 선호. 인간은 경험을 축적하고 신념을 수정하며 수개월·수년 동안 프로젝트를 추구합니다.
LLM에는 자체 상호작용을 지속적으로 기억하는 내재적 기능이나 내적 목표가 없습니다. 어떤 연속성이나 “개성”은 외부 도구(데이터베이스, 프로필, 시스템 프롬프트)로 덧붙여야 합니다. 기본적으로 각 질의는 새로운 패턴 매칭 연산일 뿐, 일관된 삶의 역사에서 한 단계가 아닙니다.
AGI는 종종 다양한 작업을 해결할 수 있는 능력으로 정의됩니다. 여기엔 인과에 대해 추론하고 환경에 개입하는 능력이 포함됩니다. 이는 다음을 의미합니다:
LLM은 에이전트가 아닙니다; 이들은 시퀀스의 다음 토큰을 생성합니다. 텍스트에 있는 계획을 서술하거나 인과를 논할 수는 있지만, 본래적으로 행동을 실행하고 결과를 관찰하며 내부 모델을 조정하지는 않습니다.
LLM을 행동하는 시스템으로 바꾸려면 인식, 기억, 도구 사용, 제어를 위한 외부 구성 요소로 감싸야 합니다. 언어 모델은 제안과 평가를 위한 강력한 모듈이 되지만, 스스로 완결된 일반 지능 에이전트는 아닙니다.
요약하면, 일반 지능은 근거 있는 개념, 지속적 동기, 인과 모델, 적응적 상호작용을 필요로 합니다. 언어 숙달은 그보다 큰 그림의 한 부분일 뿐입니다.
유창한 모델과 대화하면 반대편에 마음이 있다고 느끼기 쉽습니다. 그 환상은 강력하지만 환상입니다.
연구자들은 AGI가 의식을 가져야 하는지에 대해 의견이 분분합니다.
이 문제를 결정할 만한 검증 가능한 이론은 아직 없습니다. 따라서 AGI가 반드시 의식을 가져야 한다고 선언하기에는 시기상조입니다. 지금 중요한 것은 현재 LLM이 무엇을 결여하는지 명확히 하는 것입니다.
대형 언어 모델은 텍스트 스냅샷에 대해 작동하는 통계적 다음-토큰 예측기입니다. 프롬프트와 단기 문맥에 인코딩된 것을 제외하면 세션 간이나 턴 간에 안정적인 정체성을 지니지 않습니다.
모델이 “나”라고 말할 때, 그것은 데이터에서 학습한 언어 관습을 따르는 것일 뿐 내적 주체를 지칭하는 것이 아닙니다.
의식을 가진 존재는 고통, 지루함, 호기심, 만족 같은 경험을 합니다. 또한 내재적 목표와 관심이 있어 외부 보상과 독립적으로 어떤 것이 중요합니다.
LLM은 다음과 같습니다:
그들의 “행동”은 훈련과 프롬프트에 의해 제약된 패턴 매칭의 결과이지 내적 삶의 표현이 아닙니다.
언어는 다른 마음을 판단하는 우리의 주된 창이기 때문에 유창한 대화는 인격을 있다고 강하게 암시합니다. 하지만 LLM에서는 이것이 오히려 사람들을 가장 쉽게 오도하는 부분입니다.
인간화는 다음과 같은 문제를 낳습니다:
LLM을 사람처럼 다루면 시뮬레이션과 현실 사이의 선이 흐려집니다. AGI와 현재 AI 위험을 명확히 생각하려면, 설득력 있는 ‘사람 흉내’가 실제 사람인 것과 같지 않다는 점을 기억해야 합니다.
만약 우리가 AGI를 만든다면, 그것이 매우 설득력 있는 챗봇이 아니라 실제 AGI라는 것을 어떻게 알 수 있을까요?
튜링식 테스트. 고전적·현대적 튜링 테스트는 시스템이 인간과 구분되지 않을 만큼 대화를 유지할 수 있는지를 묻습니다. LLM은 이미 이 점에서 놀랍도록 잘합니다. 이는 인간 수준의 대화 능력이 깊이 또는 실제 계획 능력을 증명하지 못함을 보여줍니다.
ARC 스타일 평가. Alignment Research Center(ARC)에서 영감을 받은 과제들은 새롭고 다단계인 추론, 도구 사용 등을 중심으로 문제를 제기합니다. 이런 과제는 시스템이 본 적 없는 문제를 기술을 조합해 해결할 수 있는지를 테스트합니다. LLM은 이런 작업을 일부 수행할 수 있지만 보통 정교한 프롬프트, 외부 도구, 인간 감독이 필요합니다.
에이전시(agency) 테스트. 제안된 ‘에이전트’ 테스트는 시스템이 시간에 걸쳐 개방형 목표를 추구할 수 있는지를 묻습니다: 하위 목표로 나누고, 계획을 수정하고, 중단을 처리하며, 결과에서 학습하는 능력입니다. 현재 LLM 기반 에이전트는 에이전트처럼 보일 수 있지만 배후에는 취약한 스크립트와 인간 설계된 발판이 있습니다.
무언가를 진정한 AGI로 취급하려면 최소한 다음을 보고 싶습니다:
자율성. 스스로 하위 목표를 설정·관리하고 인간의 지속적 조정 없이 실패에서 회복할 수 있어야 합니다.
도메인 간 전이. 한 영역에서 학습한 기술이 전혀 다른 영역으로 수백만 개의 새 예시를 필요로 하지 않고 자연스럽게 옮겨져야 합니다.
실세계 역량. 물리적·사회적·디지털 영역의 어수선하고 불확실한 환경에서 계획하고 행동할 수 있어야 합니다.
LLM은 에이전트 프레임워크로 감쌌을 때에도 일반적으로:
따라서 채팅 기반 테스트를 통과하거나 좁은 벤치마크를 잘 해내는 것만으로는 충분하지 않습니다. 진정한 AGI를 인식하려면 대화 품질을 넘어 지속적 자율성, 교차 도메인 일반화, 세계에서의 신뢰할 만한 행동성 등을 살펴야 합니다. 이들은 현재 LLM이 부분적이고 취약한 결과를 얻기 위해서조차 광범위한 발판을 필요로 하는 영역입니다.
AGI를 진지하게 생각한다면 “큰 텍스트 모델”은 하나의 재료일 뿐 완성품이 아닙니다. "AGI를 향해" 들리는 현재 연구의 대부분은 실제로 LLM을 더 풍부한 아키텍처 안에 넣는 작업입니다.
한 주요 방향은 LLM 기반 에이전트입니다: LLM을 추론·계획의 핵심으로 쓰되 주변에 다음을 두는 시스템입니다:
여기서 LLM은 전체 ‘지능’이 아니라 더 넓은 의사결정 기계 안의 유연한 언어 인터페이스가 됩니다.
도구를 쓰는 시스템은 LLM이 검색엔진, 데이터베이스, 코드 인터프리터, 도메인별 API를 호출하게 합니다. 이를 통해:
이러한 임시방편은 텍스트 전용 학습의 약점을 일부 보완하지만, 문제는 전적으로 오케스트레이션과 도구 설계에 달려 있습니다.
또 다른 경로는 텍스트, 이미지, 오디오, 비디오, 센서 데이터를 처리하는 멀티모달 모델입니다. 이들은 인간이 지각과 언어를 통합하는 방식에 더 가깝습니다.
한 걸음 더 나아가 LLM이 로봇이나 시뮬레이션된 몸체를 제어한다면, 이러한 시스템은 물리적 피드백으로부터 탐색하고 행동하며 학습할 수 있어 인과 및 근거화의 일부 결핍을 해소합니다.
이 모든 경로는 우리를 더 가까이 데려다줄 수 있지만 연구 목표를 바꾸기도 합니다. 우리는 더 이상 “LLM 하나가 AGI가 될 수 있나?”가 아니라 “LLM, 도구, 메모리, 지각, 구현을 포함한 복합 시스템이 일반 지능을 근사할 수 있나?”를 묻습니다.
그 차이는 중요합니다. LLM은 강력한 텍스트 예측기입니다. AGI가 가능하다면 언어는 그 큰 통합 시스템의 한 부분일 가능성이 큽니다.
현재의 대형 언어 모델을 ‘AGI’라고 부르는 것은 단순한 용어 실수가 아닙니다. 그것은 인센티브를 왜곡하고 안전의 사각지대를 만들며 결정을 내려야 하는 사람들을 혼란에 빠뜨립니다.
데모가 “초기 AGI”로 포장되면 기대치는 실제 능력을 훨씬 넘어갑니다. 그 과장은 여러 비용을 낳습니다:
사용자가 시스템을 ‘일반적’ 또는 ‘거의 인간’이라고 생각하면:
과신은 평범한 버그와 오류를 훨씬 더 위험하게 만듭니다.
규제자와 일반 대중은 이미 AI 역량을 따라잡기 어렵습니다. 모든 강력한 자동완성을 AGI로 마케팅하면 다음 문제가 생깁니다:
정확한 용어—LLM, 좁은 모델, AGI 연구 방향—은 기대치를 현실에 맞추는 데 도움이 됩니다. 능력과 한계에 대해 정밀하게 말하면:
LLM은 예측적 패턴 기계입니다: 방대한 텍스트를 압축해 통계 모델로 만들고 가능성이 높은 이어짐을 예측합니다. 이 때문에 글쓰기 보조, 코딩 지원, 데이터 탐색, 아이디어 프로토타이핑에 유용합니다. 그러나 그 아키텍처는 여전히 좁습니다. 지속적 자아, 근거 있는 세계 이해, 장기 목표, 교차 도메인에서의 유연한 학습과 같은 AGI를 정의하는 요소들을 제공하지 않습니다.
LLM은:
이러한 구조적 한계 때문에 단순히 텍스트 모델을 확장하는 것만으로는 진정한 AGI가 나올 가능성은 낮습니다. 더 유창해지고 지식 회수가 좋아지며 추론 흉내가 향상될 수는 있지만, 진짜로 알고, 원하고, 신경 쓰는 시스템은 아닙니다.
LLM이 강력한 곳에 쓰라:
다음에는 항상 인간을 끼워 넣어라:
출력을 신뢰할 진리로가 아니라 검증할 가설로 다루어라.
LLM을 “AGI”라고 부르는 것은 그들의 실제 한계를 숨기고 과도한 의존, 규제의 혼선, 잘못된 공포를 초래합니다. 더 정직하고 안전한 관점은 이들을 인간 워크플로에 임베드된 고급 보조자로 보는 것입니다.
더 깊이 들어가 실용적 사용과 트레이드오프를 알고 싶다면 /blog의 관련 글들을 확인하세요. LLM 기반 도구의 포장 및 가격 책정 세부 사항은 /pricing에서 볼 수 있습니다.
AGI(인공 일반 지능)는 다음을 할 수 있는 시스템을 가리킵니다:
간단한 규칙: AGI는 시간과 자원이 주어지면 인간이 수행하는 거의 모든 지적 작업을 별도의 맞춤형 아키텍처 없이 배울 수 있어야 합니다.
현대의 대형 언어 모델(LLM)은:
이들은 언어에 담긴 인간 전문성을 흉내 낼 수 있지만:
따라서 LLM은 자기완결적 일반지능 에이전트가 아닌, 언어에 대한 강력한 좁은 패턴 학습기입니다.
사람들이 LLM을 AGI와 혼동하는 이유는:
이 모든 요소가 이해와 행위의 환상을 만듭니다. 근본적으로 이 시스템은 여전히 데이터의 패턴에 기반해 텍스트를 예측할 뿐이며, 근거 있는 세계 모델을 세워 자신의 목표를 추구하는 것은 아닙니다.
LLM을 다음과 같이 이해할 수 있습니다:
핵심 포인트:
겉보기에 보이는 추론이나 기억은 그 다음-토큰 목표, 규모와 미세조정에서 나타나는 현상일 뿐, 명시적 기호 논리나 지속적 신념 저장소에서 오는 것이 아닙니다.
LLM이 잘하는 영역(패턴 예측 중심) 예:
고전적 약점과 위험한 영역:
스케일링 법칙은 모델 크기, 데이터, 계산을 늘리면 많은 벤치마크에서 성능이 꾸준히 개선된다고 보여줍니다. 하지만 스케일만으로는 구조적 결함을 해결하지 못합니다:
스케일을 늘리면 더 나은 유창성, 더 넓은 패턴 커버리지가 생기고, 추론을 흉내 내는 능력이 좋아지지만, 자동으로 일반적이고 자율적인 지능으로 변하는 것은 아닙니다. AGI를 향하려면 새로운 아키텍처적 요소와 시스템 수준 설계가 필요합니다.
LLM을 권장 방식으로 사용하세요 — 신뢰하지 말고 보조자로 활용:
제품과 프로세스를 설계할 때:
현재 LLM을 “AGI”로 규정하는 것은 여러 문제를 낳습니다:
“LLM”, “좁은 모델”, “LLM을 이용한 에이전트 시스템” 같은 정확한 용어 사용이 기대치와 위험의 정렬에 도움이 됩니다.
AGI가 실제로 만들어졌는지 알아보려면 단순한 대화 능력 이상의 증거가 필요합니다. 다음과 같은 특성이 관찰되어야 합니다:
현재의 LLM과 그에 기반한 에이전트들은 이러한 행동을 흉내 내기 위해 많은 인간 설계와 도구 조율에 의존하며, 견고성과 일반성에서 부족합니다.
연구자들은 LLM을 ‘전체’가 아닌 구성요소로 두는 더 넓은 시스템을 탐구하고 있습니다. 예시:
이들 방향은 근거, 인과, 지속 상태를 더해 AGI와 유사한 능력에 접근하려 하지만, 질문 자체를 바꿉니다: “LLM 하나로 AGI가 될 수 있나?”에서 “LLM을 포함한 복합 시스템이 AGI 유사 행동을 근사할 수 있나?”로요.
이런 경우에는 강한 인간 감독과 외부 도구(검색, 계산기, 시뮬레이터, 체크리스트)를 함께 사용해야 합니다.