AGIとは何か — なぜLLMは真のAGIを実現しない可能性が高いのか

Q: 人工汎用知能（AGI）とは具体的に何ですか？

AGI（人工汎用知能）は、次のような能力を持つシステムを指します： - 多くの領域にわたって学び、推論できる（単一タスクに限定されない） - 再設計せずに未知の問題に適応できる - 最小限の人間の介入で自分で目標を設定し追求できる - ある分野で得た知識を別の非常に異なる分野に転用できる 粗い目安としては、AGIは時間と資源が与えられれば、人間が行う知的に要求されるほとんどの仕事を、各タスクごとに専用の設計を必要とせずに学べるようなシステムです。

Q: なぜ今日の大規模言語モデルは真のAGIと見なされないのですか？

現代の大規模言語モデル（LLM）は： - 主にテキスト（場合によってはコードや画像、音声も）で訓練されている - シーケンス内の次のトークンを予測することを最適化している - 知覚、身体、内在的な目標、持続的な記憶を欠いている これらは言語に記録された専門知識を“シミュレート”できるため広範な知識や推論を模倣できます。しかし： - 実世界の経験に結びついたグラウンディングされた概念を持っていない - 世界について進化する信念を維持しない - 時間を跨いで自律的に計画し行動するわけではない したがってLLMは言語上の強力な狭いパターン学習器であり、自己完結した汎用的な知的主体ではありません。

Q: なぜ多くの人がLLMをAGIと混同するのですか？

多くの人がLLMとAGIを混同する理由は： - 会話は他者の心を判断する主要な手段であるため - LLMは一つのインターフェースで（コード、エッセイ、メール、要約など）多領域を扱えるため - 人間が設計した試験やベンチマークに合格するため これらが「理解」や「主体性」の錯覚を生みます。基底にある仕組みは依然としてデータ中のパターンに基づくテキスト予測であり、グラウンディングされた世界モデルの構築や自律的な目標追求とは異なります。

Q: LLMは内部でどのように動いているのですか？

LLMは次のように考えられます： - シーケンス化されたトークンを受け取り、次のトークンの確率分布を出す巨大な関数 - そして数兆の例を見て、内部重みを調整して継続をより良く予測するように訓練される 重要な点： - 事実をデータベースのように格納しているわけではない - 言語の 統計的規則性 を符号化している - 真実性の内在的な概念はなく、過去のテキストに照らした尤もらしさを扱っているにすぎない 見かけの推論や記憶は、この次トークン予測という目的とスケール、微調整から生じた現象であり、明示的な記号的論理や持続的信念格納庫に由来するものではありません。

Q: LLMは本当に何が得意で、どこで苦戦しますか？

LLMが得意な領域（パターン予測が強みを発揮する場面）： - 文書の草案作成、書き直し、要約 - 翻訳や文体の適応 - コード生成、リファクタリング、説明 - アイデア出しや戦略の概略化 苦手またはリスクが高くなる領域： - 最新で検証可能な事実が必要な場合 - 実世界の因果推論や実験が必要な場合 - 長期的な計画で実際の結果を伴う場合 - 倫理的判断や説明責任が求められる場合 これらの領域では強固な人間の監督と外部ツール（検索、計算機、シミュレーター、チェックリストなど）が必要です。

Q: 今日のLLMを過信せずに実用的に使うにはどうすればいいですか？

LLMを賢く使うための実用的な方針： - 出力を 草案や仮説 として扱い、事実確認を行うこと - 医療、法律、金融、あるいは安全に関わる重大な決定では人間を常に介在させること - 検証のために（検索、計算機、IDEなどの）ツールと組み合わせること - 敏感なワークフローではログとレビューを実施すること プロダクトとプロセスの設計にあたっては： - モデルが人間の判断を補強するようにし、置き換えないこと - モデルが不確か、あるいは失敗したときの明確なエスカレーションパスを用意すること - 利用者に制限を理解させ、無条件の信頼を避けさせること

Q: LLMをAGIと称するのはなぜリスクが高いのですか？

現行のLLMを“AGI”と呼ぶことは問題を引き起こします： - 過信 ：人間のような理解や信頼性があると誤解される - 投資の歪み ：推論や解釈可能性、安全性といった基礎研究よりも誇大宣伝にリソースが偏る - 規制の混乱 ：政策立案者が仮想的なAGIシナリオに注目する一方で、現実の害（偏見、誤情報、過信）は放置されがち 「LLM」「狭義モデル」「LLMを使うエージェント」といった正確な表現は、能力とリスクの評価、ガバナンス、基準づくりを助けます。

Q: もし本当にAGIを作ったら、それをどうやって見分けることができますか？

AGIを本当に作ったかを判断するには、単なる会話力を超えた証拠が必要です。望ましい基準の例： - 自律性： システムが自らサブゴールを設定・管理し、失敗から回復すること - 転移能： ある領域で得た技能が極めて異なる領域にほとんど追加訓練なしで応用できること - 実世界での有能さ： 不完全で不確実な物理的・社会的環境で計画し行動できること - 連続的学習： オンラインでの経験に基づき内部モデルを更新できること（オフライン再訓練だけでない） 現在のLLMはエージェント的な枠組みで包まれても、これらを達成するには依然として重い人手のスクリプトやツール設計が必要で、堅牢性と普遍性で不足しています。

ログインはじめる

AGIとは何か — なぜLLMは真のAGIを実現しない可能性が高いのか | Koder.ai

なぜAGIとLLMがそこかしこで混同されるのか

テック系ニュース、投資家向け資料、プロダクトページを読むと、知能という言葉が引き伸ばされているのに気づくでしょう。チャットボットは「ほとんど人間」、コーディング支援は「実質的にジュニアエンジニア」、そしてある人々は強力な大規模言語モデル（LLM）を人工汎用知能（AGI）への第一歩だと軽々しく呼びます。

この記事は、GPT-4やClaudeのようなツールを使う好奇心ある実務者、ファウンダー、プロダクトリーダー、技術的読者のためのものです：これがAGIの姿なのか、それとも何か重要なものが欠けているのか？

混乱の源

LLMは確かに印象的です。彼らは：

自然言語で流暢に会話する
コードを書き、研究を要約し、試験に合格する
出力を吟味するような振る舞いで推論しているように見える

多くの非専門家にとって、これは「汎用知能」と区別がつかないように感じられます。モデルが同じセッション内でカントについてのエッセイを書き、TypeScriptのエラーを直し、法務メモを手伝えるとき、AGIに近づいていると考えるのは自然です。

しかしその前提は密かに「言語に強いこと」を「汎用的に知的であること」と同一視してしまっています。この記事が解きほぐす中心的な混同はここにあります。

本稿の中心主張

以下で展開する主張は次のとおりです：

現行のLLMはテキストとコード上の極めて有能なパターン学習器であるが、そのアーキテクチャと訓練法の性質上、単にスケールや微調整を重ねるだけで真のAGIになる可能性は低い。

LLMは今後もより良く、より広く、有用になっていくでしょう。AGIに似たシステムの一部になる可能性もあります。しかし「より大きなLLM」≠「汎用知能」である理由は深く、世界とのグラウンディング、主体性、記憶、具現化、自己モデルに関する問題が横たわっています。

本稿は意見も含みますが、誇張や恐怖煽動ではなく、現行研究やLLMの具体的な能力と失敗、そして真面目な研究者が取り組んでいる未解決の問いに根差した論考を目指します。

人工汎用知能とは実際に何を意味するのか？

「AGI」と言うとき、人々が指すものはまちまちです。議論を明確にするために、いくつかの基本的な概念を分けて考えると役に立ちます。

狭義のAIから汎用的な知能へ

**AI（人工知能）**は、音声認識、映画推薦、囲碁、コード生成など、「知的」と呼べる挙動を示すシステムを作る広い分野です。

今日存在するものの大半は狭いAI（あるいは弱いAI）です。特定の条件下で特定のタスクを遂行するように設計・訓練されたシステムです。猫と犬を判別する画像分類器や、銀行業務向けに調整されたカスタマーサービス用チャットボットは、そのニッチ内では極めて高性能でも、外に出ると大きく失敗します。

**人工汎用知能（AGI）**はこれとは大きく異なります。AGIは次のことができるシステムを指します：

幅広い領域にわたって一般化できる（単一のタスクやデータ型に限定されない）
未知の問題や環境に適応できる（明示的に訓練されていないものにも対応）
自律的に行動し、最小限の手助けで目標を設定・追求できる
転移学習が可能で、一つの文脈で得た知見を他に移用できる

実用的な目安：AGIは原理的には時間と資源があれば、人間がこなすほとんどの知的に要求される職務を、それぞれ専用に再設計することなく学べるはずです。

強いAI、人間レベルAI、超知能

AGIの夢の簡単な歴史

初期の展望：チューリングと記号主義AI

現代のAGIの夢はアラン・チューリングの1950年の提案に始まります：もし機械が人間と区別がつかない会話をできれば（チューリングテスト）、それは知能を持つと言えるのではないか？この考えは一般的な知能を主に言語や推論という行動として定義する枠組みを作りました。

1950年代から1980年代までは、研究者は記号処理的なAI（GOFAI：Good Old-Fashioned AI）を通じてAGIを追求しました。知能は論理ルールに従って明示的な記号を操作することだと見なされました。定理証明やゲームプレイ、エキスパートシステムのプログラムは、人間レベルの推論が近いと誤認させました。

しかしGOFAIは知覚や常識、現実世界の雑多なデータへの対処に苦しみました。論理パズルは解けても子どもが簡単にできることに失敗する。これが最初の大きなAI冬を招き、AGIに対してより慎重な見方が生まれました。

機械学習への転換

データと計算資源の増大に伴い、AIは手作りのルールから事例から学ぶ方向へ移りました。統計的機械学習、続いて深層学習が進歩を再定義しました：知識を符号化するのではなく、大規模データセットからパターンを学ぶのです。

IBMのDeepBlue（チェス）や後のAlphaGo（囲碁）のような成果はAGIへの一歩だと称賛されましたが、実際にはそれぞれ単一のゲームを固定ルール下で極めただけで、日常的推論への転移は起きていませんでした。

狭い成功から生成モデルへ

GPTシリーズは言語領域で別の飛躍を示しました。GPT-3やGPT-4はエッセイを執筆し、コードを書き、文体を模倣でき、AGIが近いという憶測を助長しました。

しかしこれらのモデルも依然としてテキスト上のパターン学習器です。目標を形成したり、グラウンディングされた世界モデルを構築したり、自律的に能力を広げることはしません。

記号主義、古典的機械学習、深層学習、そして今の大規模言語モデルという各波の間で、AGIの夢は狭い成果に投影され、限界が明らかになるたびに修正されてきました。

大規模言語モデルは実際にどのように動くか

大規模言語モデル（LLM）は膨大なテキストコレクション（書籍、ウェブサイト、コード、フォーラムなど）で訓練されたパターン学習器です。目標は見た目よりも単純です：あるテキストが与えられたときに次に来るトークン（テキストの小さな断片）を予測すること。

トークンと次単語予測

訓練前にテキストはトークンに分割されます：これらは単語（"cat"）、語片（"inter","esting"）、あるいは句読点のようなものです。訓練中、モデルは繰り返し次のような並びを見ます：

"The cat sat on the ___"

そして妥当な次トークン（"mat"、"sofa"）に高い確率を割り当て、妥当でないもの（"presidency"）には低い確率を割り当てることを学びます。トリリオン単位のトークンでこれを繰り返すことで、数十億（あるいはそれ以上）の内部パラメータが形作られます。

内部ではモデルは単に、トークン列を次のトークンの確率分布に変換する非常に大きな関数です。訓練では勾配降下法を使い、予測がデータによりよく一致するように徐々にパラメータを調整します。

スケーリング則を平易に

「スケーリング則」は研究者が観測した規則性を示します：モデルサイズ、データ量、計算量を増やすと、性能は予測可能な形で向上する傾向にあります。より大きなモデルをより多くのテキストで訓練すれば、通常は予測精度が上がります—ただしデータ、計算、訓練安定性の現実的限界があります。

LLMが実際に「知っている」こと

LLMはデータベースのように事実を格納するわけでも、ヒトのように推論するわけでもありません。彼らは統計的規則性、つまりどの単語やフレーズや構造がどの文脈で一緒に現れるかを符号化しています。

彼らには知覚や物理的経験に結びついたグラウンディングされた概念がありません。LLMは「赤」や「重さ」について、その言葉がテキストでどのように使われているかを通じてだけ語ることができ、色を見たり物を持ち上げたりすることを通じた理解はありません。

このため、モデルは知識があるように聞こえていても自信を持って間違いを言うことがあります：それはパターンを延長しているだけで、現実の明示的モデルを参照しているわけではないからです。

事前訓練、微調整、RLHF

事前訓練はモデルが巨大なテキストコーパスで次トークンを予測することで一般的な言語パターンを学ぶ長い初期フェーズです。ほとんどの能力はここで獲得されます。

その後の微調整は、命令に従う、コードを書く、翻訳する、特定ドメインで支援するなど、事前訓練モデルを狭い目的に適応させます。望ましい振る舞いの例を示してモデルをわずかに調整します。

**人間のフィードバックによる強化学習（RLHF）**はさらに別の層を加えます：人間がモデル出力を評価・比較し、モデルが人間に好まれる応答（より有用で有害性が低く、正直なもの）を生成するよう最適化します。RLHFはモデルに新たな感覚やより深い理解を与えるわけではなく、主に既に学んだものの提示方法やフィルタリングを形作ります。

これらを合わせると、モデルは統計的パターンを活用して流暢なテキストを生成する上で極めて強力なシステムになりますが、グラウンディングされた知識、目標、意識を持つわけではありません。

現行LLMが意外にうまくこなすこと

大規模言語モデルは、人間には遠いと思われていた幅広いタスクをこなせるため印象的に見えます。

コード、文章、翻訳をオンデマンドで

LLMは実行可能なコード断片を生成し、既存コードをリファクタリングし、見慣れないライブラリを平易に説明できます。多くの開発者にとって、彼らは高度なペアプログラマーとして機能し、境界ケースを示唆し、明らかなバグを捕え、モジュール全体を支援します。

また要約にも秀でています。長いレポートや論文、メールスレッドを与えれば、主要なポイントを凝縮し、アクション項目を抽出し、異なる読者向けに文調を適応させることができます。

翻訳も強みの一つです。現代のモデルは数十の言語を扱い、日常的なプロフェッショナルなコミュニケーションに十分な文体や語調のニュアンスを捉えることがよくあります。

推論ベンチマークと出現的振る舞い

モデルがスケールすると、新しい能力が「突然」現れるように見えることがあります：論理パズルの解決、専門的試験の合格、以前のバージョンが失敗していた多段階指示の遂行など。標準化されたベンチマーク（数学の文章問題、司法試験問題、医療クイズ）で、トップのLLMは現在平均的な人間スコアに到達または超えることがあります。

こうした出現的振る舞いは、人々にモデルが「人間のように推論している」や「理解している」と言わせがちです。性能グラフやランキングがAGI接近の印象を強めます。

理解に見えるが実際は違う理由

LLMはテキストの継続を学ばされ、そのパターンに合うようにスケールと訓練目標が組み合わさると専門知識や主体性を模倣するのに十分です：自信を持って話し、セッション内の文脈を保持し、流暢な文章で回答を正当化できます。

しかしこれは理解の錯覚です。モデルはコードを実行したときに何が起きるかを知っているわけではなく、医療診断が患者にとって何を意味するかを理解しているわけでもなく、ある計画から生じる物理的行動を体験するわけでもありません。テストで高得点を取ることは—たとえ人間向けに設計されたテストであっても—即座にAGIであることを示すものではありません。それはテキスト上の大規模なパターン学習が多くの専門技能を近似できることを示すだけであり、汎用的でグラウンディングされた跨領域の知性を証明するものではありません。

テキストのみのパターン学習器の根本的な限界

まずは無料で始めて、必要に応じて拡張

無料プランで始め、プロジェクトが必要になったらアップグレードする。

始める

大規模言語モデルは並外れて優れたテキスト予測器ですが、その設計自体が成すべきことに対する厳しい制約を生みます。

知覚がないこと、身体性がないこと

LLMは見ることも、聞くことも、動くことも、物を操作することもできません。彼らの世界との接点はテキスト（最近のモデルでは静止画や短いクリップを扱えるものもあります）だけです。継続的な感覚ストリームも身体もなく、結果を観察して学ぶ手段を持ちません。

感覚と身体がなければ、彼らは現実のグラウンディングされた連続的に更新されるモデルを形成できません。「重い」「べたつく」「壊れやすい」といった言葉はテキスト上の隣接語に過ぎず、生の制約としての学びにはなりません。これが理解の模倣を可能にしますが、直接的な相互作用から学ぶことを制限します。

幻想（ハルシネーション）と安定した信念の欠如

LLMはシーケンスを延長するように訓練されているため、最もよく適合する継続を生み出しますが、それが真実であるとは限りません。データが希薄または矛盾しているとき、モデルは尤もらしい響きの虚構で穴を埋めます。

またモデルは持続的な信念状態を持ちません。各応答はプロンプトと重みから新たに生成されるもので、「私が信じている事柄」の継続的な帳簿はありません。長期記憶機能は外部ストレージとして付け加えられることがありますが、コアなシステムは人間のように信念を保持・改訂する仕組みを持ちません。

固定された知識とリアルタイム学習の制限

LLMの訓練はオフラインで計算資源集中的なバッチ処理です。知識を更新するには通常、再訓練や微調整が必要で、各インタラクションから滑らかに学習するわけではありません。

これにより重要な制約が生じます：モデルは世界の急速な変化を確実に追跡できず、進行中の経験に基づいて概念を適応させたり、段階的学習で深い誤解を修正したりすることが難しいのです。せいぜい最近のプロンプトや接続されたツールに基づいて適応を「シミュレート」することはできますが、本質的な学習ループを内蔵しているわけではありません。

因果理解を欠いたパターンマッチ

LLMは単語の共起や文脈の統計的規則性を捉えるのに優れていますが、これは世界がどのように動くか、なぜそうなるかという因果的理解とは異なります。

因果理解は仮説を立て、介入し、何が変わるかを観察し、予測が外れたときに内部モデルを更新することを含みます。テキストのみの予測器は介入する直接的手段も驚き（サプライズ）を経験する機構も持ちません。実験を記述することはできますが、実際にそれを実行して観察することはできません。因果に関する言説を繰り返すことはできますが、行動と結果に結びついた内的な因果モデルは持ちません。

システムがテキストのみから過去テキストを予測することに縛られている限り、それは本質的にパターン学習器のままです。推論を模倣し、原因を語り、見せかけの改訂を行うことはできますが、彼らの「信念」が結果によって検証される共有世界に住むわけではないというギャップが残ります。言語だけの習熟が汎用知能に到達しにくい主因はここにあります。

なぜ汎用知能は言語習熟以上を要求するか

言語は知性への強力なインターフェースですが、知性そのものではありません。もっともらしい文章を予測するシステムと、世界で理解し計画し行為する主体は全く違います。

単なる語パターンでなく、グラウンディングされた概念が必要

人間は見る、触る、動かすことで概念を学びます。「コップ」は文章中での使われ方だけではなく、つかめる、満たせる、落として割ることができる対象です。心理学者はこれをグラウンディングと呼びます：概念が知覚と行動に結びついている状態です。

人工汎用知能は同様のグラウンディングを必要とする可能性が高いです。安定した一般化を行うためには、記号（単語や内部表現）を物理的・社会的世界の安定した規則性に結びつける必要があります。

標準的なLLMはテキストだけから学びます。彼らの「コップ」の理解は純粋に統計的であり、何十億もの文における単語の相関関係です。会話やコーディングには強力ですが、直接の相互作用に依存するドメインでは脆弱です。

記憶、目標、そして一貫した嗜好

汎用知能は時間を通じた連続性も含みます：長期記憶、持続する目標、比較的一貫した嗜好。人間は経験を蓄積し、信念を改訂し、数ヶ月・数年単位でプロジェクトを追求します。

LLMは自身のインタラクションに関する固有の持続的記憶や内在的な目標を持ちません。いかなる継続性や「人格」も外部ツール（データベース、プロファイル、システムプロンプト）によって付加されるものです。デフォルトでは各クエリは新たなパターンマッチング演算であり、一貫した人生史の一歩ではありません。

計画、因果性、世界での行動

AGIは多様なタスクを解く能力を伴うことが多く、因果と介入について推論し、環境に介入して結果から学ぶことを含みます。これは次を要します：

因果モデルの構築：もしXをすれば何が起きるか？
不確実性の下での多段階計画
感覚からのフィードバックで計画を更新すること

LLMはエージェントではなく、シーケンスの次トークンを生成するのみです。テキストで計画や因果を記述したり、因果について語ることはできますが、行動を自ら実行しその結果を観察して内部モデルを更新することは本来できません。

LLMを行動するシステムに変えるには、知覚、記憶、ツール利用、制御の外部コンポーネントでラップする必要があります。言語モデルは示唆や評価の強力なモジュールであり続けるが、自己完結した汎用知能主体ではありません。

要するに、汎用知能にはグラウンディングされた概念、持続する動機、因果モデル、世界と適応的に相互作用する力が求められます。言語の習熟は非常に重要な一片ですが、その大きな絵の一部に過ぎません。

意識、自己、そしてなぜLLMは人のように見えるだけなのか

LLMの限界を安全に試す

Planning Modeで、コードやUI生成前に手順を設計する。

計画を開始

流暢なモデルと対話すると、相手に心があるように感じるのは自然です。しかしその錯覚は強力であり、誤りです。

AGIに意識は必要か？

研究者の間でも意見は分かれます：

機能主義的見方では、システムが跨領域で学び計画し推論・適応するなら、意識は必須ではなく、場合によっては重要でないとされます。
現象的見方では、真の理解や汎用知能には主観的経験（「〜であること」があること）が必要だと考えます。

現時点でこの問いを決着させる検証可能な理論はありません。したがってAGIが意識を持つべきか否かを断定するのは時期尚早です。重要なのは今のLLMが何を欠いているかを明確にすることです。

統一された自己がない

大規模言語モデルはテキストのスナップショット上で動作する統計的次トークン予測器です。セッション間、あるいはターン間に持続する同一性を運ぶことはありません（プロンプトや短期文脈に符号化される場合を除く）。

継続する自伝的記憶を持つ一人の主体は存在しません。
いかなる「人格」も我々が与えたり指定したパターンに過ぎず、時間を超えて持続する本物の自己ではありません。

LLMが「私」と言うとき、それはデータから学んだ言語慣習に従っているだけで、内的な主体を指しているわけではありません。

経験も内発的動機もない

意識がある存在は経験を持ちます：痛み、退屈、好奇心、満足といった感覚です。また内発的な目標や関心を持ちます—外部報酬とは独立して物事が重要であると感じます。

LLMは対照的に：

テキストを生成しても何かを感じるわけではない
独自の欲求や恐れ、嗜好を持たない
我々がスクリプト化し支援したり足場を作らなければ長期的なプロジェクトを追求しない

彼らの「振る舞い」は、トレーニングとプロンプトに制約されたパターンマッチングの産物であり、内面的生活の表出ではありません。

擬人化は危険である理由

言語は他者の心を見る主要な窓であるため、流暢な対話は強く人格を想起させます。しかしLLMでは、これこそが我々が最も容易に誤導される箇所です。

LLMを擬人化すると：

リスク評価がゆがむ（例：「感情」を傷つけることを心配して実際の故障モードを見落とす）
システムが自信を持って共感的に話すために過剰な信頼と依存を招く
体系的な混乱を生み、経験能力のないシステムに権利を認めるような倫理議論を呼ぶことがある

LLMを人扱いすることはシミュレーションと現実の線引きを曖昧にします。AGIや現在のAIリスクについて冷静に考えるには、人間らしい振る舞いと実際に人であることを混同しないことが必要です。

真のAGIを我々はどうやって識別するか？

もしいつか人工汎用知能を作るなら、それが本物かどうかをどのように見分けるでしょうか？単に非常に説得力のあるチャットボットではないとどう確かめるか。

既存の提案：有用だが不十分

チューリング風テスト。 古典的・現代的なチューリングテストは、システムが人間と同等の会話を持続できて人を騙せるかを問います。LLMはこれを驚くほどよくこなすため、この基準は弱いことを示しています。会話力は様式であり、理解や計画、実世界能力の深さを測るものではありません。

ARC風評価。 Alignment Research Center（ARC）に触発された課題は、新規の推論パズル、多段階指示、ツール使用を探るものです。これらはシステムが未見の問題を技能の合成で解けるかを検証します。LLMはこれらの一部をこなせますが、丁寧に設計されたプロンプト、外部ツール、人的監督を必要とすることが多いです。

エージェンシーのテスト。 「エージェント」テストは、システムが時間をかけて開いた目標を追求できるか（サブゴール分解、計画修正、中断処理、結果から学習）を問います。現行のLLMベースのエージェントは主体的に見えることがありますが、裏では脆いスクリプトと人間設計の足場に依存しています。

AGIを識別する実務的な基準

真のAGIとみなすために見たいのは少なくとも次の点です：

自律性。 自らサブゴールを設定・管理し、恒常的な人間の誘導なしに失敗から回復できること。
跨領域転移。 ある分野で学んだ技能が、膨大な追加訓練なしにまったく異なる分野にスムーズに移ること。
実世界での有能さ。 ルールが不完全で結果が現実に関わる物理的・社会的・デジタルな環境で計画し行動できること。

LLMが足りない点

LLMはエージェントフレームワークで包まれても一般に：

自律性を装うために手作りのワークフローに依存している
タスクが訓練分布から大きく外れると技能の転移に苦労する
実世界のリスクに対処するために外部ツール、安全フィルタ、人間の介在を必要とする

したがってチャットベースのテストや狭いベンチマーク群を通過することだけでは不十分です。本当のAGIを認めるには、会話品質を超えて、持続的な自律性、跨領域の一般化、世界での確実な行動を評価する必要があります。これらは現行LLMが部分的かつ脆くしか達成できない領域です。

LLMを超えて：研究者がAGIに向けて探る道

AGIを真剣に考えるなら、「大きなテキストモデル」だけでは一部にすぎません。現在"AGIに向けて"と呼ばれている研究の多くは、実際にはLLMをより豊かなアーキテクチャに組み込むことについてのものです。

LLMをコンポーネントとするエージェント

一つの主要な方向はLLMベースのエージェントです：LLMを推論と計画のコアとして使い、周りを次のようなものが取り巻きます。

状態を持つ記憶：セッションを跨いで知識と経験を蓄積できる
スケジューラやプランナー：目標をサブタスクに分解し、どのツールを呼ぶか決定する
フィードバックループ：自己批評、修正、試行錯誤を可能にする

ここではLLMが「知能のすべて」ではなく、より大きな意思決定マシンの言語インターフェースとして機能します。

ツール使用、API、外部知識

ツールを使うシステムでは、LLMが検索エンジン、データベース、コード実行器、ドメイン固有のAPIを呼び出せます。これにより：

最新または専門的な情報にアクセスできる
数学やシミュレーション、論理処理を確実なエンジンに委ねられる

この継ぎ接ぎ的アプローチはテキストのみの学習の弱点を補えますが、問題は変わります：全体的な知性はオーケストレーションとツール設計に依存するようになります。

マルチモーダルモデルと具現化システム

別の道はテキスト、画像、音声、映像、時にはセンサーデータを処理するマルチモーダルモデルです。これらは人間が知覚と語を統合する方法に近づきます。

さらに一歩進めば、LLMがロボットやシミュレートされた身体を制御するシステムがあります。これらは探索、行動、物理的フィードバックから学ぶことで、因果性やグラウンディングに関する欠落の一部に対処します。

問いを変えること、解くことではない

これらの経路はいずれも我々をAGI様の能力に「近づける」かもしれませんが、研究目標を変えます。問うことが「LLM単体がAGIになれるか？」から「LLM、ツール、記憶、知覚、具現化を含む複雑なシステムがAGI様の振る舞いを近似できるか？」に変わるのです。

この差は重要です。LLMは強力なテキスト予測器であり、AGI—もし可能なら—は言語がその一部にすぎない統合された全体システムになるでしょう。

LLMをAGIと誤表記することが危険な理由

実際のソースコードをエクスポート

ソースコードをいつでもエクスポートして、自分のワークフローで開発を続ける。

コードをエクスポート

現行の大規模言語モデルを“AGI”と呼ぶことは単なる語彙上の間違いではありません。それはインセンティブを歪め、安全性の盲点を作り、意思決定を行う人々を混乱させます。

誇大宣伝、失望、リソースの誤配分

デモを「初期のAGI」として提示すると期待は実際の能力をはるかに超えます。これにはいくつかのコストがあります：

資金の偏り： 資金と人材が派手な主張に流れ、推論、解釈可能性、安全性といった長期的基盤研究が軽視される
誇大→崩壊サイクル： 過大な約束が実際の一般化失敗を招き失望を生み、真面目で慎重な研究までも傷つける可能性
歪んだプロダクト設計： チームが信頼性や評価、ユーザー保護よりも印象的なAGI風デモを最適化してしまう

過信による安全リスク

ユーザーが相手を「汎用的」あるいは「ほとんど人間」に近いと考えると：

検証されていない生成回答を医療・法律・金融の意思決定に用いる
システムに権限を与え、人間の監督を減らす
自信満々の誤情報、潜在的なバイアス、プロンプト操作の脆弱性に気づかない

過信は通常のバグや誤りをはるかに危険なものにします。

政策と一般理解への影響

規制当局や一般社会はすでにAIの能力を追うのに苦労しています。強力なオートコンプリートのたびにAGIと宣伝されると：

規制の焦点のずれ： 立法者が仮定のAGIシナリオに注目し、現実のハーム（偏見、誤情報、過信）を見落とす
リスク評価の誤差： 人々が「超知能」を恐れてパニックになるか、あるいは全てのAI懸念を誇大広告として無視するかのどちらかになる

正確な言語が重要な理由

「LLM」「狭義モデル」「LLMを使うエージェント」といった明確な用語は、次を助けます：

正直な安全性評価
より良いガバナンスと基準作り
実際の進歩を誤解なく一般に伝えること

AGIの視点を保ちながらLLMを賢く使う

LLMは例を圧縮して統計的モデルに落とし込み、尤もらしい継続を予測する非常に有能なパターン機です。これにより文章作成支援、コーディング支援、データ探索、プロトタイピングで強力です。しかしこのアーキテクチャは依然として狭義的です。持続する自己、グラウンディングされた理解、長期目標、跨領域で柔軟に学ぶ力を提供しません。

LLMを道具として扱い、心として扱わないこと

LLMは：

人間的な意味で理解しているわけではない。記号をグラウンディングされた概念無しに操作しているにすぎない。
目標や意図を持たない。動機のように見えるものは言語が生む錯覚だ。
固有の安定した記憶や世界モデルを欠く。各応答は学習済み重みと短期文脈から再計算される。

これらの構造的制約が、単にテキストモデルをスケールするだけでは真のAGIが生まれにくい理由です。流暢さ、より多くの知識想起、説得力ある推論のシミュレーションは得られても、「本当に知る」「欲する」「気にかける」システムは得られません。

LLMを使う際の実務ガイドライン

パターン予測が強みを発揮するところで使いましょう：

文書の草案作成、要約、編集、翻訳
選択肢を探る、戦略の輪郭を描く、ブレインストーミング
コード支援、クエリ作成、ドキュメンテーション

次の点には人間を確実に介入させること：

事実の正確性と重大な意思決定
倫理的・安全性に関わる文脈
長期的計画、責任、説明可能性

出力を真実ではなく検証すべき仮説として扱ってください。

AGIを相対化しておくこと

LLMを「AGI」と呼ぶと限界が隠蔽され、過信、規制混乱、誤った恐怖を招きます。より正直で安全なのは、LLMを人間のワークフローに組み込まれた高度なアシスタントとして見ることです。

実用的な利用法やトレードオフを深掘りしたい場合は当社の /blog の関連記事をご覧ください。LLM搭載ツールのパッケージ化と価格設定の詳細は /pricing を参照してください。

よくある質問

人工汎用知能（AGI）とは具体的に何ですか？

AGI（人工汎用知能）は、次のような能力を持つシステムを指します：

多くの領域にわたって学び、推論できる（単一タスクに限定されない）
再設計せずに未知の問題に適応できる
最小限の人間の介入で自分で目標を設定し追求できる
ある分野で得た知識を別の非常に異なる分野に転用できる

粗い目安としては、AGIは時間と資源が与えられれば、人間が行う知的に要求されるほとんどの仕事を、各タスクごとに専用の設計を必要とせずに学べるようなシステムです。

なぜ今日の大規模言語モデルは真のAGIと見なされないのですか？

現代の大規模言語モデル（LLM）は：

主にテキスト（場合によってはコードや画像、音声も）で訓練されている
シーケンス内の次のトークンを予測することを最適化している
知覚、身体、内在的な目標、持続的な記憶を欠いている

これらは言語に記録された専門知識を“シミュレート”できるため広範な知識や推論を模倣できます。しかし：

実世界の経験に結びついたグラウンディングされた概念を持っていない
世界について進化する信念を維持しない
時間を跨いで自律的に計画し行動するわけではない

したがってLLMは言語上の強力な狭いパターン学習器であり、自己完結した汎用的な知的主体ではありません。

なぜ多くの人がLLMをAGIと混同するのですか？

多くの人がLLMとAGIを混同する理由は：

会話は他者の心を判断する主要な手段であるため
LLMは一つのインターフェースで（コード、エッセイ、メール、要約など）多領域を扱えるため
人間が設計した試験やベンチマークに合格するため

これらが「理解」や「主体性」の錯覚を生みます。基底にある仕組みは依然としてデータ中のパターンに基づくテキスト予測であり、グラウンディングされた世界モデルの構築や自律的な目標追求とは異なります。

LLMは内部でどのように動いているのですか？

LLMは次のように考えられます：

シーケンス化されたトークンを受け取り、次のトークンの確率分布を出す巨大な関数
そして数兆の例を見て、内部重みを調整して継続をより良く予測するように訓練される

重要な点：

事実をデータベースのように格納しているわけではない
言語の統計的規則性を符号化している
真実性の内在的な概念はなく、過去のテキストに照らした尤もらしさを扱っているにすぎない

見かけの推論や記憶は、この次トークン予測という目的とスケール、微調整から生じた現象であり、明示的な記号的論理や持続的信念格納庫に由来するものではありません。

LLMは本当に何が得意で、どこで苦戦しますか？

LLMが得意な領域（パターン予測が強みを発揮する場面）：

文書の草案作成、書き直し、要約
翻訳や文体の適応
コード生成、リファクタリング、説明
アイデア出しや戦略の概略化

苦手またはリスクが高くなる領域：

最新で検証可能な事実が必要な場合
実世界の因果推論や実験が必要な場合
長期的な計画で実際の結果を伴う場合

スケールが有効なら、もっと大きなLLMがいつかAGIになるのでは？

「スケーリング則」は、モデルサイズ、データ量、計算量を増やすと多くのベンチマークで性能が予測可能に改善することを示します。しかし、スケールだけでは構造的な欠陥は解決しません：

グラウンディングされた知覚や身体性は得られない
持続する自己や目標、人生史は得られない
行動・観察・更新のループを直接持たない

スケール増加で得られるのは、より良い流暢さとテキスト中に見られるパターンの広範なカバーです。だがそれだけで自律的で汎用的な知性が自動的に生じるわけではありません。新しいアーキテクチャ的要素やシステム設計が必要です。

今日のLLMを過信せずに実用的に使うにはどうすればいいですか？

LLMを賢く使うための実用的な方針：

出力を草案や仮説として扱い、事実確認を行うこと
医療、法律、金融、あるいは安全に関わる重大な決定では人間を常に介在させること
検証のために（検索、計算機、IDEなどの）ツールと組み合わせること
敏感なワークフローではログとレビューを実施すること

プロダクトとプロセスの設計にあたっては：

LLMをAGIと称するのはなぜリスクが高いのですか？

現行のLLMを“AGI”と呼ぶことは問題を引き起こします：

過信：人間のような理解や信頼性があると誤解される
投資の歪み：推論や解釈可能性、安全性といった基礎研究よりも誇大宣伝にリソースが偏る
規制の混乱：政策立案者が仮想的なAGIシナリオに注目する一方で、現実の害（偏見、誤情報、過信）は放置されがち

「LLM」「狭義モデル」「LLMを使うエージェント」といった正確な表現は、能力とリスクの評価、ガバナンス、基準づくりを助けます。

もし本当にAGIを作ったら、それをどうやって見分けることができますか？

AGIを本当に作ったかを判断するには、単なる会話力を超えた証拠が必要です。望ましい基準の例：

自律性： システムが自らサブゴールを設定・管理し、失敗から回復すること
転移能： ある領域で得た技能が極めて異なる領域にほとんど追加訓練なしで応用できること
実世界での有能さ： 不完全で不確実な物理的・社会的環境で計画し行動できること
連続的学習： オンラインでの経験に基づき内部モデルを更新できること（オフライン再訓練だけでない）

現在のLLMはエージェント的な枠組みで包まれても、これらを達成するには依然として重い人手のスクリプトやツール設計が必要で、堅牢性と普遍性で不足しています。

LLMだけで不十分なら、研究者はAGIに向けてどんな現実的な道を探っていますか？

研究者が追う現実的な道筋は、LLMを単体でAGIにするのではなく、LLMを一部品とするより大きなシステムを作ることです。例：

メモリ、計画、ツールのオーケストレーションを追加したエージェントアーキテクチャ
LLMが外部APIやデータベース、シミュレータを呼び出すツール使用型の設計
言語と知覚を統合するマルチモーダルモデルや、ロボットなどを用いた具現化（embodiment）

これらはグラウンディング、因果性、持続状態を補い、LLM単体よりAGIに近づく可能性がありますが、もはや「LLMだけでAGIになるか」という問いから、「LLMを含む複雑なシステムでAGI様の振る舞いを近似できるか」という問いに変わります。