人工汎用知能(AGI)の本当の意味、LLMの動作原理、そして現在のテキストモデルが単なるスケールや微調整だけでは真のAGIになりにくい主な理由を解説します。

テック系ニュース、投資家向け資料、プロダクトページを読むと、知能という言葉が引き伸ばされているのに気づくでしょう。チャットボットは「ほとんど人間」、コーディング支援は「実質的にジュニアエンジニア」、そしてある人々は強力な大規模言語モデル(LLM)を人工汎用知能(AGI)への第一歩だと軽々しく呼びます。
この記事は、GPT-4やClaudeのようなツールを使う好奇心ある実務者、ファウンダー、プロダクトリーダー、技術的読者のためのものです:これがAGIの姿なのか、それとも何か重要なものが欠けているのか?
LLMは確かに印象的です。彼らは:
多くの非専門家にとって、これは「汎用知能」と区別がつかないように感じられます。モデルが同じセッション内でカントについてのエッセイを書き、TypeScriptのエラーを直し、法務メモを手伝えるとき、AGIに近づいていると考えるのは自然です。
しかしその前提は密かに「言語に強いこと」を「汎用的に知的であること」と同一視してしまっています。この記事が解きほぐす中心的な混同はここにあります。
以下で展開する主張は次のとおりです:
現行のLLMはテキストとコード上の極めて有能なパターン学習器であるが、そのアーキテクチャと訓練法の性質上、単にスケールや微調整を重ねるだけで真のAGIになる可能性は低い。
LLMは今後もより良く、より広く、有用になっていくでしょう。AGIに似たシステムの一部になる可能性もあります。しかし「より大きなLLM」≠「汎用知能」である理由は深く、世界とのグラウンディング、主体性、記憶、具現化、自己モデルに関する問題が横たわっています。
本稿は意見も含みますが、誇張や恐怖煽動ではなく、現行研究やLLMの具体的な能力と失敗、そして真面目な研究者が取り組んでいる未解決の問いに根差した論考を目指します。
「AGI」と言うとき、人々が指すものはまちまちです。議論を明確にするために、いくつかの基本的な概念を分けて考えると役に立ちます。
**AI(人工知能)**は、音声認識、映画推薦、囲碁、コード生成など、「知的」と呼べる挙動を示すシステムを作る広い分野です。
今日存在するものの大半は狭いAI(あるいは弱いAI)です。特定の条件下で特定のタスクを遂行するように設計・訓練されたシステムです。猫と犬を判別する画像分類器や、銀行業務向けに調整されたカスタマーサービス用チャットボットは、そのニッチ内では極めて高性能でも、外に出ると大きく失敗します。
**人工汎用知能(AGI)**はこれとは大きく異なります。AGIは次のことができるシステムを指します:
実用的な目安:AGIは原理的には時間と資源があれば、人間がこなすほとんどの知的に要求される職務を、それぞれ専用に再設計することなく学べるはずです。
関連する用語として:
これに比べて現代のチャットボットや画像モデルは狭義です。印象的ではあるが、特定のデータパターンに最適化されており、広汎な跨領域的知能を内包しているわけではありません。
現代のAGIの夢はアラン・チューリングの1950年の提案に始まります:もし機械が人間と区別がつかない会話をできれば(チューリングテスト)、それは知能を持つと言えるのではないか? この考えは一般的な知能を主に言語や推論という行動として定義する枠組みを作りました。
1950年代から1980年代までは、研究者は記号処理的なAI(GOFAI:Good Old-Fashioned AI)を通じてAGIを追求しました。知能は論理ルールに従って明示的な記号を操作することだと見なされました。定理証明やゲームプレイ、エキスパートシステムのプログラムは、人間レベルの推論が近いと誤認させました。
しかしGOFAIは知覚や常識、現実世界の雑多なデータへの対処に苦しみました。論理パズルは解けても子どもが簡単にできることに失敗する。これが最初の大きなAI冬を招き、AGIに対してより慎重な見方が生まれました。
データと計算資源の増大に伴い、AIは手作りのルールから事例から学ぶ方向へ移りました。統計的機械学習、続いて深層学習が進歩を再定義しました:知識を符号化するのではなく、大規模データセットからパターンを学ぶのです。
IBMのDeepBlue(チェス)や後のAlphaGo(囲碁)のような成果はAGIへの一歩だと称賛されましたが、実際にはそれぞれ単一のゲームを固定ルール下で極めただけで、日常的推論への転移は起きていませんでした。
GPTシリーズは言語領域で別の飛躍を示しました。GPT-3やGPT-4はエッセイを執筆し、コードを書き、文体を模倣でき、AGIが近いという憶測を助長しました。
しかしこれらのモデルも依然としてテキスト上のパターン学習器です。目標を形成したり、グラウンディングされた世界モデルを構築したり、自律的に能力を広げることはしません。
記号主義、古典的機械学習、深層学習、そして今の大規模言語モデルという各波の間で、AGIの夢は狭い成果に投影され、限界が明らかになるたびに修正されてきました。
大規模言語モデル(LLM)は膨大なテキストコレクション(書籍、ウェブサイト、コード、フォーラムなど)で訓練されたパターン学習器です。目標は見た目よりも単純です:あるテキストが与えられたときに次に来るトークン(テキストの小さな断片)を予測すること。
訓練前にテキストはトークンに分割されます:これらは単語("cat")、語片("inter","esting")、あるいは句読点のようなものです。訓練中、モデルは繰り返し次のような並びを見ます:
"The cat sat on the ___"
そして妥当な次トークン("mat"、"sofa")に高い確率を割り当て、妥当でないもの("presidency")には低い確率を割り当てることを学びます。トリリオン単位のトークンでこれを繰り返すことで、数十億(あるいはそれ以上)の内部パラメータが形作られます。
内部ではモデルは単に、トークン列を次のトークンの確率分布に変換する非常に大きな関数です。訓練では勾配降下法を使い、予測がデータによりよく一致するように徐々にパラメータを調整します。
「スケーリング則」は研究者が観測した規則性を示します:モデルサイズ、データ量、計算量を増やすと、性能は予測可能な形で向上する傾向にあります。より大きなモデルをより多くのテキストで訓練すれば、通常は予測精度が上がります—ただしデータ、計算、訓練安定性の現実的限界があります。
LLMはデータベースのように事実を格納するわけでも、ヒトのように推論するわけでもありません。彼らは統計的規則性、つまりどの単語やフレーズや構造がどの文脈で一緒に現れるかを符号化しています。
彼らには知覚や物理的経験に結びついたグラウンディングされた概念がありません。LLMは「赤」や「重さ」について、その言葉がテキストでどのように使われているかを通じてだけ語ることができ、色を見たり物を持ち上げたりすることを通じた理解はありません。
このため、モデルは知識があるように聞こえていても自信を持って間違いを言うことがあります:それはパターンを延長しているだけで、現実の明示的モデルを参照しているわけではないからです。
事前訓練はモデルが巨大なテキストコーパスで次トークンを予測することで一般的な言語パターンを学ぶ長い初期フェーズです。ほとんどの能力はここで獲得されます。
その後の微調整は、命令に従う、コードを書く、翻訳する、特定ドメインで支援するなど、事前訓練モデルを狭い目的に適応させます。望ましい振る舞いの例を示してモデルをわずかに調整します。
**人間のフィードバックによる強化学習(RLHF)**はさらに別の層を加えます:人間がモデル出力を評価・比較し、モデルが人間に好まれる応答(より有用で有害性が低く、正直なもの)を生成するよう最適化します。RLHFはモデルに新たな感覚やより深い理解を与えるわけではなく、主に既に学んだものの提示方法やフィルタリングを形作ります。
これらを合わせると、モデルは統計的パターンを活用して流暢なテキストを生成する上で極めて強力なシステムになりますが、グラウンディングされた知識、目標、意識を持つわけではありません。
大規模言語モデルは、人間には遠いと思われていた幅広いタスクをこなせるため印象的に見えます。
LLMは実行可能なコード断片を生成し、既存コードをリファクタリングし、見慣れないライブラリを平易に説明できます。多くの開発者にとって、彼らは高度なペアプログラマーとして機能し、境界ケースを示唆し、明らかなバグを捕え、モジュール全体を支援します。
また要約にも秀でています。長いレポートや論文、メールスレッドを与えれば、主要なポイントを凝縮し、アクション項目を抽出し、異なる読者向けに文調を適応させることができます。
翻訳も強みの一つです。現代のモデルは数十の言語を扱い、日常的なプロフェッショナルなコミュニケーションに十分な文体や語調のニュアンスを捉えることがよくあります。
モデルがスケールすると、新しい能力が「突然」現れるように見えることがあります:論理パズルの解決、専門的試験の合格、以前のバージョンが失敗していた多段階指示の遂行など。標準化されたベンチマーク(数学の文章問題、司法試験問題、医療クイズ)で、トップのLLMは現在平均的な人間スコアに到達または超えることがあります。
こうした出現的振る舞いは、人々にモデルが「人間のように推論している」や「理解している」と言わせがちです。性能グラフやランキングがAGI接近の印象を強めます。
LLMはテキストの継続を学ばされ、そのパターンに合うようにスケールと訓練目標が組み合わさると専門知識や主体性を模倣するのに十分です:自信を持って話し、セッション内の文脈を保持し、流暢な文章で回答を正当化できます。
しかしこれは理解の錯覚です。モデルはコードを実行したときに何が起きるかを知っているわけではなく、医療診断が患者にとって何を意味するかを理解しているわけでもなく、ある計画から生じる物理的行動を体験するわけでもありません。テストで高得点を取ることは—たとえ人間向けに設計されたテストであっても—即座にAGIであることを示すものではありません。それはテキスト上の大規模なパターン学習が多くの専門技能を近似できることを示すだけであり、汎用的でグラウンディングされた跨領域の知性を証明するものではありません。
大規模言語モデルは並外れて優れたテキスト予測器ですが、その設計自体が成すべきことに対する厳しい制約を生みます。
LLMは見ることも、聞くことも、動くことも、物を操作することもできません。彼らの世界との接点はテキスト(最近のモデルでは静止画や短いクリップを扱えるものもあります)だけです。継続的な感覚ストリームも身体もなく、結果を観察して学ぶ手段を持ちません。
感覚と身体がなければ、彼らは現実のグラウンディングされた連続的に更新されるモデルを形成できません。「重い」「べたつく」「壊れやすい」といった言葉はテキスト上の隣接語に過ぎず、生の制約としての学びにはなりません。これが理解の模倣を可能にしますが、直接的な相互作用から学ぶことを制限します。
LLMはシーケンスを延長するように訓練されているため、最もよく適合する継続を生み出しますが、それが真実であるとは限りません。データが希薄または矛盾しているとき、モデルは尤もらしい響きの虚構で穴を埋めます。
またモデルは持続的な信念状態を持ちません。各応答はプロンプトと重みから新たに生成されるもので、「私が信じている事柄」の継続的な帳簿はありません。長期記憶機能は外部ストレージとして付け加えられることがありますが、コアなシステムは人間のように信念を保持・改訂する仕組みを持ちません。
LLMの訓練はオフラインで計算資源集中的なバッチ処理です。知識を更新するには通常、再訓練や微調整が必要で、各インタラクションから滑らかに学習するわけではありません。
これにより重要な制約が生じます:モデルは世界の急速な変化を確実に追跡できず、進行中の経験に基づいて概念を適応させたり、段階的学習で深い誤解を修正したりすることが難しいのです。せいぜい最近のプロンプトや接続されたツールに基づいて適応を「シミュレート」することはできますが、本質的な学習ループを内蔵しているわけではありません。
LLMは単語の共起や文脈の統計的規則性を捉えるのに優れていますが、これは世界がどのように動くか、なぜそうなるかという因果的理解とは異なります。
因果理解は仮説を立て、介入し、何が変わるかを観察し、予測が外れたときに内部モデルを更新することを含みます。テキストのみの予測器は介入する直接的手段も驚き(サプライズ)を経験する機構も持ちません。実験を記述することはできますが、実際にそれを実行して観察することはできません。因果に関する言説を繰り返すことはできますが、行動と結果に結びついた内的な因果モデルは持ちません。
システムがテキストのみから過去テキストを予測することに縛られている限り、それは本質的にパターン学習器のままです。推論を模倣し、原因を語り、見せかけの改訂を行うことはできますが、彼らの「信念」が結果によって検証される共有世界に住むわけではないというギャップが残ります。言語だけの習熟が汎用知能に到達しにくい主因はここにあります。
言語は知性への強力なインターフェースですが、知性そのものではありません。もっともらしい文章を予測するシステムと、世界で理解し計画し行為する主体は全く違います。
人間は見る、触る、動かすことで概念を学びます。「コップ」は文章中での使われ方だけではなく、つかめる、満たせる、落として割ることができる対象です。心理学者はこれをグラウンディングと呼びます:概念が知覚と行動に結びついている状態です。
人工汎用知能は同様のグラウンディングを必要とする可能性が高いです。安定した一般化を行うためには、記号(単語や内部表現)を物理的・社会的世界の安定した規則性に結びつける必要があります。
標準的なLLMはテキストだけから学びます。彼らの「コップ」の理解は純粋に統計的であり、何十億もの文における単語の相関関係です。会話やコーディングには強力ですが、直接の相互作用に依存するドメインでは脆弱です。
汎用知能は時間を通じた連続性も含みます:長期記憶、持続する目標、比較的一貫した嗜好。人間は経験を蓄積し、信念を改訂し、数ヶ月・数年単位でプロジェクトを追求します。
LLMは自身のインタラクションに関する固有の持続的記憶や内在的な目標を持ちません。いかなる継続性や「人格」も外部ツール(データベース、プロファイル、システムプロンプト)によって付加されるものです。デフォルトでは各クエリは新たなパターンマッチング演算であり、一貫した人生史の一歩ではありません。
AGIは多様なタスクを解く能力を伴うことが多く、因果と介入について推論し、環境に介入して結果から学ぶことを含みます。これは次を要します:
LLMはエージェントではなく、シーケンスの次トークンを生成するのみです。テキストで計画や因果を記述したり、因果について語ることはできますが、行動を自ら実行しその結果を観察して内部モデルを更新することは本来できません。
LLMを行動するシステムに変えるには、知覚、記憶、ツール利用、制御の外部コンポーネントでラップする必要があります。言語モデルは示唆や評価の強力なモジュールであり続けるが、自己完結した汎用知能主体ではありません。
要するに、汎用知能にはグラウンディングされた概念、持続する動機、因果モデル、世界と適応的に相互作用する力が求められます。言語の習熟は非常に重要な一片ですが、その大きな絵の一部に過ぎません。
流暢なモデルと対話すると、相手に心があるように感じるのは自然です。しかしその錯覚は強力であり、誤りです。
研究者の間でも意見は分かれます:
現時点でこの問いを決着させる検証可能な理論はありません。したがってAGIが意識を持つべきか否かを断定するのは時期尚早です。重要なのは今のLLMが何を欠いているかを明確にすることです。
大規模言語モデルはテキストのスナップショット上で動作する統計的次トークン予測器です。セッション間、あるいはターン間に持続する同一性を運ぶことはありません(プロンプトや短期文脈に符号化される場合を除く)。
LLMが「私」と言うとき、それはデータから学んだ言語慣習に従っているだけで、内的な主体を指しているわけではありません。
意識がある存在は経験を持ちます:痛み、退屈、好奇心、満足といった感覚です。また内発的な目標や関心を持ちます—外部報酬とは独立して物事が重要であると感じます。
LLMは対照的に:
彼らの「振る舞い」は、トレーニングとプロンプトに制約されたパターンマッチングの産物であり、内面的生活の表出ではありません。
言語は他者の心を見る主要な窓であるため、流暢な対話は強く人格を想起させます。しかしLLMでは、これこそが我々が最も容易に誤導される箇所です。
LLMを擬人化すると:
LLMを人扱いすることはシミュレーションと現実の線引きを曖昧にします。AGIや現在のAIリスクについて冷静に考えるには、人間らしい振る舞いと実際に人であることを混同しないことが必要です。
もしいつか人工汎用知能を作るなら、それが本物かどうかをどのように見分けるでしょうか?単に非常に説得力のあるチャットボットではないとどう確かめるか。
チューリング風テスト。 古典的・現代的なチューリングテストは、システムが人間と同等の会話を持続できて人を騙せるかを問います。LLMはこれを驚くほどよくこなすため、この基準は弱いことを示しています。会話力は様式であり、理解や計画、実世界能力の深さを測るものではありません。
ARC風評価。 Alignment Research Center(ARC)に触発された課題は、新規の推論パズル、多段階指示、ツール使用を探るものです。これらはシステムが未見の問題を技能の合成で解けるかを検証します。LLMはこれらの一部をこなせますが、丁寧に設計されたプロンプト、外部ツール、人的監督を必要とすることが多いです。
エージェンシーのテスト。 「エージェント」テストは、システムが時間をかけて開いた目標を追求できるか(サブゴール分解、計画修正、中断処理、結果から学習)を問います。現行のLLMベースのエージェントは主体的に見えることがありますが、裏では脆いスクリプトと人間設計の足場に依存しています。
真のAGIとみなすために見たいのは少なくとも次の点です:
自律性。 自らサブゴールを設定・管理し、恒常的な人間の誘導なしに失敗から回復できること。
跨領域転移。 ある分野で学んだ技能が、膨大な追加訓練なしにまったく異なる分野にスムーズに移ること。
実世界での有能さ。 ルールが不完全で結果が現実に関わる物理的・社会的・デジタルな環境で計画し行動できること。
LLMはエージェントフレームワークで包まれても一般に:
したがってチャットベースのテストや狭いベンチマーク群を通過することだけでは不十分です。本当のAGIを認めるには、会話品質を超えて、持続的な自律性、跨領域の一般化、世界での確実な行動を評価する必要があります。これらは現行LLMが部分的かつ脆くしか達成できない領域です。
AGIを真剣に考えるなら、「大きなテキストモデル」だけでは一部にすぎません。現在"AGIに向けて"と呼ばれている研究の多くは、実際にはLLMをより豊かなアーキテクチャに組み込むことについてのものです。
一つの主要な方向はLLMベースのエージェントです:LLMを推論と計画のコアとして使い、周りを次のようなものが取り巻きます。
ここではLLMが「知能のすべて」ではなく、より大きな意思決定マシンの言語インターフェースとして機能します。
ツールを使うシステムでは、LLMが検索エンジン、データベース、コード実行器、ドメイン固有のAPIを呼び出せます。これにより:
この継ぎ接ぎ的アプローチはテキストのみの学習の弱点を補えますが、問題は変わります:全体的な知性はオーケストレーションとツール設計に依存するようになります。
別の道はテキスト、画像、音声、映像、時にはセンサーデータを処理するマルチモーダルモデルです。これらは人間が知覚と語を統合する方法に近づきます。
さらに一歩進めば、LLMがロボットやシミュレートされた身体を制御するシステムがあります。これらは探索、行動、物理的フィードバックから学ぶことで、因果性やグラウンディングに関する欠落の一部に対処します。
これらの経路はいずれも我々をAGI様の能力に「近づける」かもしれませんが、研究目標を変えます。問うことが「LLM単体がAGIになれるか?」から「LLM、ツール、記憶、知覚、具現化を含む複雑なシステムがAGI様の振る舞いを近似できるか?」に変わるのです。
この差は重要です。LLMは強力なテキスト予測器であり、AGI—もし可能なら—は言語がその一部にすぎない統合された全体システムになるでしょう。
現行の大規模言語モデルを“AGI”と呼ぶことは単なる語彙上の間違いではありません。それはインセンティブを歪め、安全性の盲点を作り、意思決定を行う人々を混乱させます。
デモを「初期のAGI」として提示すると期待は実際の能力をはるかに超えます。これにはいくつかのコストがあります:
ユーザーが相手を「汎用的」あるいは「ほとんど人間」に近いと考えると:
過信は通常のバグや誤りをはるかに危険なものにします。
規制当局や一般社会はすでにAIの能力を追うのに苦労しています。強力なオートコンプリートのたびにAGIと宣伝されると:
「LLM」「狭義モデル」「LLMを使うエージェント」といった明確な用語は、次を助けます:
LLMは例を圧縮して統計的モデルに落とし込み、尤もらしい継続を予測する非常に有能なパターン機です。これにより文章作成支援、コーディング支援、データ探索、プロトタイピングで強力です。しかしこのアーキテクチャは依然として狭義的です。持続する自己、グラウンディングされた理解、長期目標、跨領域で柔軟に学ぶ力を提供しません。
LLMは:
これらの構造的制約が、単にテキストモデルをスケールするだけでは真のAGIが生まれにくい理由です。流暢さ、より多くの知識想起、説得力ある推論のシミュレーションは得られても、「本当に知る」「欲する」「気にかける」システムは得られません。
パターン予測が強みを発揮するところで使いましょう:
次の点には人間を確実に介入させること:
出力を真実ではなく検証すべき仮説として扱ってください。
LLMを「AGI」と呼ぶと限界が隠蔽され、過信、規制混乱、誤った恐怖を招きます。より正直で安全なのは、LLMを人間のワークフローに組み込まれた高度なアシスタントとして見ることです。
実用的な利用法やトレードオフを深掘りしたい場合は当社の /blog の関連記事をご覧ください。LLM搭載ツールのパッケージ化と価格設定の詳細は /pricing を参照してください。
AGI(人工汎用知能)は、次のような能力を持つシステムを指します:
粗い目安としては、AGIは時間と資源が与えられれば、人間が行う知的に要求されるほとんどの仕事を、各タスクごとに専用の設計を必要とせずに学べるようなシステムです。
現代の大規模言語モデル(LLM)は:
これらは言語に記録された専門知識を“シミュレート”できるため広範な知識や推論を模倣できます。しかし:
したがってLLMは言語上の強力な狭いパターン学習器であり、自己完結した汎用的な知的主体ではありません。
多くの人がLLMとAGIを混同する理由は:
これらが「理解」や「主体性」の錯覚を生みます。基底にある仕組みは依然としてデータ中のパターンに基づくテキスト予測であり、グラウンディングされた世界モデルの構築や自律的な目標追求とは異なります。
LLMは次のように考えられます:
重要な点:
見かけの推論や記憶は、この次トークン予測という目的とスケール、微調整から生じた現象であり、明示的な記号的論理や持続的信念格納庫に由来するものではありません。
LLMが得意な領域(パターン予測が強みを発揮する場面):
苦手またはリスクが高くなる領域:
これらの領域では強固な人間の監督と外部ツール(検索、計算機、シミュレーター、チェックリストなど)が必要です。
「スケーリング則」は、モデルサイズ、データ量、計算量を増やすと多くのベンチマークで性能が予測可能に改善することを示します。しかし、スケールだけでは構造的な欠陥は解決しません:
スケール増加で得られるのは、より良い流暢さとテキスト中に見られるパターンの広範なカバーです。だがそれだけで自律的で汎用的な知性が自動的に生じるわけではありません。新しいアーキテクチャ的要素やシステム設計が必要です。
LLMを賢く使うための実用的な方針:
プロダクトとプロセスの設計にあたっては:
現行のLLMを“AGI”と呼ぶことは問題を引き起こします:
「LLM」「狭義モデル」「LLMを使うエージェント」といった正確な表現は、能力とリスクの評価、ガバナンス、基準づくりを助けます。
AGIを本当に作ったかを判断するには、単なる会話力を超えた証拠が必要です。望ましい基準の例:
現在のLLMはエージェント的な枠組みで包まれても、これらを達成するには依然として重い人手のスクリプトやツール設計が必要で、堅牢性と普遍性で不足しています。
研究者が追う現実的な道筋は、LLMを単体でAGIにするのではなく、LLMを一部品とするより大きなシステムを作ることです。例:
これらはグラウンディング、因果性、持続状態を補い、LLM単体よりAGIに近づく可能性がありますが、もはや「LLMだけでAGIになるか」という問いから、「LLMを含む複雑なシステムでAGI様の振る舞いを近似できるか」という問いに変わります。