Поймите, что на самом деле означает искусственный общий интеллект (AGI), как работают большие языковые модели и ключевые аргументы в пользу того, почему современные текстовые модели, возможно, никогда не станут настоящим AGI.

Если вы читаете технологические новости, презентации для инвесторов или страницы продуктов, вы заметите, как слово интеллект растягивают до предела. Чат‑боты «почти как люди», помощники по кодированию — «почти младшие инженеры», и некоторые люди невозмутимо называют мощные большие языковые модели (LLM) первыми шагами к искусственному общему интеллекту (AGI).
Эта статья для любопытных практиков, основателей, продуктовых лидеров и технических читателей, которые используют инструменты вроде GPT‑4 или Claude и задаются вопросом: Похоже ли это на AGI — или чему‑то важному здесь не хватает?
LLM действительно впечатляют. Они:
Для большинства неспециалистов это кажется неотличимым от «общего интеллекта». Когда модель за одну сессию может написать эссе о Канте, исправить ошибку в TypeScript и помочь составить юридическое заключение, естественно предположить, что мы близки к AGI.
Но это предположение тихо приравнивает умение работать с языком к общему интеллекту. В этом заключается основная путаница, которую мы разберём в статье.
Аргумент, который будет развёрнут по разделам, таков:
Современные LLM — крайне способные обучатели шаблонов по тексту и коду, но их архитектура и режим обучения делают маловероятным достижение ими истинного AGI просто путём масштабирования или дообучения.
Они будут становиться лучше, шире и полезнее. Они могут быть частью систем, похожих на AGI. Но есть глубокие причины — связанные с заякоренностью в мире, агентностью, памятью, воплощением и самомоделью — по которым «большая LLM» вряд ли эквивалентна «общему интеллекту».
Ожидайте опинионированного обзора, но основанного на текущих исследованиях, конкретных возможностях и провалах LLM и открытых вопросах, с которыми серьёзные учёные борются, а не на хайпе или запугивании.
Когда говорят AGI, редко имеют в виду одно и то же. Чтобы прояснить дебаты, полезно разделить несколько ключевых концептов.
ИИ (искусственный интеллект) — широкая область создания систем, выполняющих задачи, требующие некоего «интеллектуального» поведения: распознавание речи, рекомендации фильмов, игра в го, написание кода и многое другое.
Большая часть того, что существует сегодня, — это узкий ИИ (или слабый ИИ): системы, разработанные и обученные для конкретного набора задач в заданных условиях. Классификатор изображений, маркирующий кошек и собак, или чат‑бот для банковских вопросов могут быть чрезвычайно эффективны в своей нише, но провалиться вне её.
Искусственный общий интеллект (AGI) — совсем другое. Речь о системе, которая может:
Практическое правило: AGI, в принципе, мог бы освоить почти любую интеллектуально требовательную работу человека, при наличии времени и ресурсов, без необходимости штучно переделывать систему под каждую задачу.
Похожие термины часто используются взаимозаменяемо:
По сравнению с этим современные чат‑боты и модели изображений остаются узкими: впечатляющими, но оптимизированными под паттерны в конкретных данных, а не для открытого, междоменного интеллекта.
Современная мечта об AGI начинается с предложения Алана Тьюринга 1950 года: если машина может вести разговор, неотличимый от человеческого (тест Тьюринга), может ли она быть умна? Это определило общий интеллект в терминах поведения, особенно языка и рассуждений.
С 1950‑х по 1980‑е исследователи шли путём символического ИИ или «GOFAI» (Good Old‑Fashioned AI). Интеллект рассматривался как манипулирование явными символами по логическим правилам. Программы для доказательства теорем, игры и экспертные системы внушали надежду, что человеческое рассуждение близко.
Но GOFAI плохо справлялся с восприятием, здравым смыслом и «мусорными» реальными данными. Системы могли решать логические головоломки, но терпеть неудачу в задачах, которые ребёнок решает легко. Этот разрыв привёл к первым «зимам ИИ» и более осторожному взгляду на AGI.
С ростом данных и вычислительных мощностей ИИ сместился от вручную прописанных правил к обучению на примерах. Статистическое машинное обучение, затем глубокое обучение, переосмыслили прогресс: вместо кодирования знаний системы учатся шаблонам из больших наборов данных.
Вехи вроде DeepBlue (шахматы) и позднее AlphaGo (го) восхищали как шаги к общему интеллекту. На деле они были исключительно специализированными: каждая система овладела одной игрой в фиксированных правилах, без переноса на повседневные рассуждения.
Серия GPT стала ещё одним драматическим скачком, на этот раз в языке. GPT‑3 и GPT‑4 могут сочинять тексты, писать код и имитировать стили, что подпитывало спекуляции о близости AGI.
Тем не менее эти модели остаются обучателями шаблонов по тексту. Они не формируют целей, не строят заякоренные модели мира и не расширяют компетенции автономно.
На каждом витке — символический ИИ, классическое машинное обучение, глубокое обучение и теперь большие языковые модели — мечта об AGI неоднократно переносилась на узкие достижения, а затем пересматривалась, когда выяснялись их пределы.
Большие языковые модели (LLM) — это обучатели шаблонов, работающие на огромных коллекциях текста: книги, сайты, код, форумы и многое другое. Их цель обманчиво проста: предсказать, какой токен (небольшой кусочек текста) скорее всего идёт следующим.
Перед обучением текст разбивается на токены: это могут быть целые слова ("cat"), части слов ("inter", "esting") или даже знаки препинания. Во время обучения модель многократно видит последовательности вроде:
"The cat sat on the ___"
и учится присваивать высокую вероятность правдоподобным продолжениям ("mat", "sofa") и низкую — неправдоподобным ("presidency"). Этот процесс, масштабируемый на триллионы токенов, формирует миллиарды (и более) внутренних параметров.
По сути модель — очень большая функция, которая превращает последовательность токенов в распределение вероятностей следующего токена. Обучение использует градиентный спуск, чтобы постепенно подгонять параметры под паттерны данных.
"Законы масштабирования" описывают регулярность: при увеличении размера модели, объёма данных и вычислений производительность обычно улучшается предсказуемым образом. Большие модели, обученные на большем количестве текста, как правило, лучше предсказывают — до практических ограничений данных, вычислений и стабильности обучения.
LLM не хранят факты как база данных и не рассуждают как человек. Они кодируют статистические закономерности: какие слова, фразы и структуры обычно идут вместе в каких контекстах.
У них нет заякоренных понятий, связанных с восприятием или физическим опытом. LLM может говорить о "красном" или "тяжести" лишь через то, как эти слова использовались в тексте, а не через видение цвета или поднятие предметов.
Поэтому модели могут звучать знающими, но совершать уверенные ошибки: они расширяют паттерны, а не сверяются с явной моделью реальности.
Предобучение — длинная начальная фаза, где модель учит общие языковые паттерны, предсказывая следующие токены на огромных корпусах текста. Именно здесь возникают большинство способностей.
После этого дообучение адаптирует предобученную модель к более узким целям: следовать инструкциям, писать код, переводить или помогать в специфичных областях. Модель показывают на отобранных примерах желаемого поведения и слегка корректируют.
Reinforcement learning from human feedback (RLHF) добавляет ещё один слой: люди оценивают или сравнивают ответы модели, и модель оптимизируется так, чтобы выдавать ответы, которые люди предпочитают (более полезные, менее вредные, более честные). RLHF не даёт модели новых органов чувств или глубинного понимания; он в основном формирует то, как она представляет и фильтрует уже выученное.
Вместе эти шаги создают системы, чрезвычайно хорошие в генерации беглого текста на основе статистических паттернов — без обладания заякоренными знаниями, целями или самосознанием.
Большие языковые модели впечатляют, потому что они способны выполнять широкий набор задач, которые когда‑то казались недостижимыми для машин.
LLM могут генерировать рабочие фрагменты кода, рефакторить существующий код и даже объяснять незнакомые библиотеки простым языком. Для многих разработчиков они уже выступают как весьма способный напарник по программированию: предлагают крайние случаи, находят очевидные баги и строят каркас модулей.
Они также отлично справляются с суммаризацией. Имея длинный отчёт, статью или цепочку писем, LLM может сократить её до ключевых пунктов, выделить действия или адаптировать тон под разную аудиторию.
Перевод — ещё одна сильная сторона. Современные модели поддерживают десятки языков, часто уловив нюансы стиля и регистров достаточно для профессионального общения.
С ростом масштабов появляются новые способности, казалось бы, "из ниоткуда": решение логических задач, сдача профессиональных экзаменов или выполнение многошаговых инструкций, с которыми раньше модели не справлялись. По стандартным тестам — математические задачи, вопросы на бар‑экзамен, медицинские квизы — лучшие LLM теперь достигают или превосходят средние человеческие баллы.
Эти возникающие поведения соблазняют говорить, что модели "рассуждают" или "понимают" как люди. Графики производительности и рейтинги таблиц лидеров укрепляют идею, что мы приближаемся к AGI.
LLM обучены продолжать текст так, чтобы он соответствовал обнаруженным в данных паттернам. Эта цель обучения в сочетании с масштабом достаточно, чтобы имитировать экспертность и агентность: модели звучат уверенно, запоминают контекст в сессии и могут аргументировать ответы связной прозой.
Тем не менее это иллюзия понимания. Модель не знает, что произойдёт при исполнении кода, что значит медицинский диагноз для пациента или какие физические действия последуют из плана. У неё нет заякоренности в мире вне текста.
Сильные результаты в тестах — даже в тех, что созданы для людей — не равнозначны AGI. Они показывают, что обучение паттернам на гигантских текстовых данных может аппроксимировать множество специализированных навыков, но не демонстрируют гибкий, заякоренный, междоменный интеллект, который обычно вкладывают в понятие "искусственный общий интеллект".
Большие языковые модели — выдающиеся предсказатели текста, но именно такой дизайн создаёт жёсткие ограничения на то, чем они могут быть.
LLM не видят, не слышат, не двигаются и не манипулируют объектами. Их единой связью с миром является текст (и, в некоторых новых моделях, статические изображения или короткие клипы). У них нет непрерывного сенсорного потока, тела и способов действовать и наблюдать последствия.
Без сенсоров и воплощения они не могут сформировать заякоренную, постоянно обновляемую модель реальности. Слова вроде "тяжёлый", "липкий" или "хрупкий" — лишь статистические соседи в тексте, а не прожитые ограничения. Это позволяет впечатляюще имитировать понимание, но ограничивает их перенастройку к комбинации описаний вместо обучения от прямого взаимодействия.
Поскольку LLM обучена продолжать последовательность токенов, она выдаёт то продолжение, которое лучше всего соответствует выученным паттернам, а не то, что истинно. Если данные ограничены или противоречивы, модель просто заполняет пробелы правдоподобной на вид выдумкой.
У модели также нет устойчивого состояния убеждений. Каждый ответ генерируется заново на основе промпта и весов; нет внутреннего «реестра фактов», который она постоянно ведёт. Возможности долговременной памяти подключаются как внешние хранилища, но ядро системы не поддерживает и не пересматривает убеждения так, как это делает человек.
Обучение LLM — это офлайн, ресурсоёмкий пакетный процесс. Обновление её знаний обычно означает переобучение или дообучение на новом наборе данных, а не плавное обучение от каждого взаимодействия.
Это создаёт ключевое ограничение: модель не может надёжно отслеживать быстро меняющийся мир, адаптировать концепции на основе непрерывного опыта или исправлять глубинные непонимания через постепенное обучение. В лучшем случае она умеет симулировать такую адаптацию, перефразируя ответы в свете недавних подсказок или подключённых инструментов.
LLM превосходно улавливают статистические регулярности: какие слова совпадают, какие предложения обычно следуют друг за другом, как выглядят объяснения. Но это не то же самое, что понимание причин и следствий.
Причинное понимание предполагает выдвижение гипотез, вмешательство, наблюдение изменений и обновление внутренних моделей при несоответствии предсказаний. Текстовый предиктор не имеет прямого способа вмешаться или испытать сюрприз. Он может описать эксперимент, но не выполнить его. Может эхоить причинную лексику, но лишён внутреннего механизма, привязанного к действиям и результатам.
Пока система ограничена предсказанием текста по прошлому тексту, она остаётся в корне обучателем шаблонов. Она может имитировать рассуждение, рассказывать о причинах и притворяться, что пересматривает взгляды, но не «живет» в общем мире, где её "убеждения" проверяются последствиями. Этот разрыв центральный для понимания, почему владение языком само по себе вряд ли приведёт к истинному AGI.
Язык — мощный интерфейс к интеллекту, но он не есть сама суть интеллекта. Система, предсказывающая правдоподобные предложения, отличается от агента, который понимает, планирует и действует в мире.
Люди усваивают концепты, видя, трогая, двигаясь и манипулируя. "Чашка" — это не только то, как слово используется в предложениях; это предмет, который можно взять, наполнить, уронить или разбить. Психологи называют это заякоренностью: концепты связаны с восприятием и действием.
Искусственный общий интеллект почти наверняка потребует схожей заякоренности. Чтобы надёжно обобщать, он должен связать символы (слова или внутренние представления) с устойчивыми регулярностями в физическом и социальном мире.
Стандартные большие языковые модели же учатся только по тексту. Их "понимание" чашки — чисто статистическое: корреляции слов в миллиардах предложений. Это мощно для диалога и кодирования, но хрупко при выходе за знакомые паттерны, особенно в областях, требующих прямого взаимодействия с реальностью.
Общий интеллект также включает непрерывность во времени: долговременную память, устойчивые цели и относительно стабильные предпочтения. Люди аккумулируют опыт, корректируют убеждения и ведут проекты месяцами и годами.
LLM не имеют собственной встроенной устойчивой памяти и внутренних целей. Любая непрерывность или «личность» подключается извне через базы данных, профили или системные подсказки. По умолчанию каждый запрос — это новое упражнение по сопоставлению шаблонов, а не шаг в когерентной жизненной истории.
AGI часто определяется как способность решать широкий круг задач, включая новые, рассуждая о причинах и вмешиваясь в окружение. Это подразумевает:
LLM не являются агентами; они генерируют следующий токен в последовательности. Они могут описать план или рассказать о причинности, потому что такие паттерны есть в тексте, но изначально не выполняют действий, не наблюдают последствий и не корректируют внутренние модели.
Чтобы превратить LLM в систему, действующую в мире, инженерам нужно обернуть её внешними компонентами для восприятия, памяти, использования инструментов и контроля. Языковая модель остаётся мощным модулем для выдвижения предложений и оценки, а не автономным агентом с общим интеллектом.
В общем, общий интеллект требует заякоренных концептов, устойчивой мотивации, причинных моделей и адаптивного взаимодействия с миром. Владение языком — хоть и очень важная часть — всего лишь один фрагмент этой более широкой картины.
Когда люди общаются со связной моделью, легко предположить, что по ту сторону есть ум. Иллюзия сильна, но это иллюзия.
Учёные расходятся во мнениях, обязательно ли искусственный общий интеллект должен быть сознателен.
У нас пока нет проверяемой теории, которая бы это решила. Поэтому преждевременно утверждать, что AGI обязан или не обязан быть сознательным. Важнее ясно понимать, чего именно лишены современные LLM.
Большая языковая модель — это статистический предиктор следующего токена, работающий с срезом текста. У неё нет стабильной идентичности между сессиями или даже между ходами, кроме того, что закодировано в подсказке и краткосрочном контексте.
Когда LLM говорит «я», она следует лишь языковым конвенциям, выученным из данных, а не ссылается на внутренний субъект.
Сознательные существа испытывают переживания: боль, скуку, любопытство, удовлетворение. У них также есть внутренние цели и заботы — вещи, которые имеют значение для них независимо от внешних вознаграждений.
LLM, напротив:
Их «поведение» — результат сопоставления шаблонов в тексте, ограниченного обучением и подсказками, а не выражение внутренней жизни.
Поскольку язык — наш главный окно в чужие умы, беглая беседа сильно намекает на личность. Но с LLM это именно то место, где нас проще всего обмануть.
Антропоморфизм может:
Отождествление LLM с людьми стирает границу между симуляцией и реальностью. Чтобы здраво мыслить об AGI и рисках текущих ИИ, нужно помнить: убедительная демонстрация личностности — не то же самое, что реальная личность.
Если мы когда‑либо построим искусственный общий интеллект, как понять, что это настоящее, а не чрезвычайно убедительный чат‑бот?
Тесты в духе Тьюринга. Классические и современные тесты Тьюринга спрашивают: может ли система поддерживать человеческое общение настолько хорошо, чтобы вводить людей в заблуждение? LLM уже делают это удивительно хорошо, что показывает, насколько слаб этот критерий. Навыки беседы измеряют стиль, а не глубину понимания, планирования или реальной компетенции.
Оценки в духе ARC. Задачи, вдохновлённые Alignment Research Center (ARC), фокусируются на новых головоломках, многошаговых инструкциях и использовании инструментов. Они проверяют, может ли система решить проблему, которой она никогда не видела, комбинируя навыки по‑новому. LLM справляются с некоторыми такими задачами — но часто требуют тщательно продуманных подсказок, внешних инструментов и человеческого надзора.
Тесты на агентность. Предлагают проверять, может ли система преследовать открытые цели во времени: делить их на подцели, пересматривать планы, справляться с прерываниями и учиться на исходах. Современные агентские системы на базе LLM могут выглядеть агентными, но под капотом они зависят от хрупких скриптов и человеко‑заданной опоры.
Чтобы считать систему подлинным AGI, мы хотели бы увидеть как минимум:
Автономность. Система должна ставить и управлять собственными подпроектами, отслеживать прогресс и восстанавливаться от ошибок без постоянного человеческого управления.
Переносимость между доменами. Навыки, приобретённые в одной области, должны плавно переноситься в очень разные области без многомиллионной дообучки.
Компетентность в реальном мире. Она должна планировать и действовать в грязных, неопределённых средах — физических, социальных и цифровых — где правила неполны и последствия реальны.
LLM, даже в составе агентских оболочек, обычно:
Прохождение тестов на разговор или даже узких наборов бенчмарков далеко не достаточны. Признание настоящего AGI требует смотреть дальше качества диалога — на устойчивую автономность, междоменную генерализацию и надёжные действия в мире, где современные LLM всё ещё требуют обширной опоры, чтобы давать частичные, хрупкие результаты.
Если серьёзно воспринимать AGI, то «большая текстовая модель» — лишь один компонент, а не готовая система. Большая часть нынешних исследований «в сторону AGI» на самом деле о том, чтобы обернуть LLM в более богатые архитектуры.
Одно из основных направлений — агентские системы на основе LLM: системы, которые используют LLM как ядро для рассуждений и планирования, но окружают её:
Здесь LLM перестаёт быть всей «интеллектуальностью» и становится гибким языковым интерфейсом внутри более широкой машины принятия решений.
Системы‑с‑инструментами позволяют LLM вызывать поисковые движки, базы данных, интерпретаторы кода или специализированные API. Это помогает:
Такой мозговой швейный патч может устранить некоторые слабости текстового предиктора, но смещает проблему: общая интеллектуальность теперь зависит от оркестрации и дизайна инструментов, а не только от модели.
Ещё один путь — мультимодальные модели, которые обрабатывают текст, изображения, звук, видео и порой данные сенсоров. Они приближаются к тому, как люди интегрируют восприятие и язык.
Ещё дальше идут LLM, управляющие роботами или симулированными телами. Такие системы могут исследовать, действовать и учиться из физической обратной связи, закрывая некоторые пробелы вокруг причинности и заякоренного понимания.
Все эти пути могут приблизить к способностям, похожим на AGI, но при этом меняют цель исследования. Мы уже не спрашиваем «может ли LLM сама по себе стать AGI?», а спрашиваем «может ли сложная система, включающая LLM, инструменты, память, восприятие и воплощение, приблизиться к общему интеллекту?"
Это различие важно. LLM — мощный текстовый предиктор. AGI — если он возможен — был бы целой интегрированной системой, в которой язык — лишь одна часть.
Называть текущие большие языковые модели «AGI» — это не просто словесная ошибка. Это искажает стимулы, создаёт пробелы в безопасности и вводит в заблуждение тех, кто принимает реальные решения об ИИ.
Когда демонстрации подаются как «ранний AGI», ожидания вырастают далеко за пределы реальных возможностей систем. Этот хайп несёт несколько издержек:
Если пользователи думают, что имеют дело с чем‑то «общим» или «почти человеком», они склонны:
Чрезмерное доверие делает обычные баги и ошибки значительно опаснее.
Регуляторы и широкая общественность уже испытывают трудности с оценкой возможностей ИИ. Когда каждое мощное автозавершение рекламируют как AGI, это приводит к:
Чёткие термины — LLM, узкая модель, направление исследований AGI — помогают согласовать ожидания с реальностью. Точность в описании возможностей и ограничений:
AGI (Artificial General Intelligence, искусственный общий интеллект) — это система, которая может:
Простое правило: AGI в принципе мог бы научиться практически любой интеллектуально требовательной профессии человека, при наличии времени и ресурсов, без необходимости создавать для каждой новой задачи отдельную систему.
Современные большие языковые модели (LLM):
Они могут симулировать широкие знания и рассуждения, потому что язык содержит много человеческой экспертизы. Но они:
Люди часто путают беглость речи с общим интеллектом, потому что:
Это создаёт иллюзию понимания и агентности. На самом деле система всё ещё «лишь» предсказывает текст на основе шаблонов в данных, а не строит заякоренную модель мира и не преследует собственные цели.
Представьте LLM как:
Ключевые моменты:
LLM превосходны там, где задача — предсказать шаблон в тексте или коде, например:
Они испытывают трудности или становятся рискованными, когда задача требует:
«Законы масштабирования» показывают: при увеличении размера модели, объёма данных и вычислений производительность на многих задачах стабильно растёт. Но масштаб сам по себе не исправляет структурные пробелы:
Больше масштаба даёт:
Используйте LLM как мощных помощников, а не как авторитетов:
Проектируйте продукты так, чтобы:
Называть текущие LLM «AGI» приводит к нескольким проблемам:
Более точные термины — «LLM», «узкая модель», «системы-агенты с LLM» — помогают согласовать ожидания с реальными возможностями и рисками.
Набор критериев, выходящий за рамки качественного общения:
Исследователи создают более сложные системы, где LLM — компонент, а не вся интеллектуальная система. Реалистичные направления:
Эти направления приближают к заякоренному причинному пониманию и устойчивому состоянию, но меняют сам вопрос — теперь вопрос не «станет ли LLM AGI?» а «могут ли сложные системы с LLM вести себя как AGI?»
Поэтому LLM — это мощные узкие алгоритмы распознавания шаблонов в языке, а не автономные агенты с общим интеллектом.
Всё, что выглядит как рассуждение или память, возникает из задачи предсказания следующего токена плюс масштаб и дообучение, а не из явной символической логики или устойчивого хранилища убеждений.
В таких областях требуется жёсткий человеческий контроль и внешние инструменты (поиск, калькуляторы, симуляторы, чек-листы).
Но это не гарантирует появление общей автономной интеллекта. Для этого нужны новые архитектурные элементы и системные дизайны.
Современные LLM даже в составе агентских систем требуют большого вмешательства человека и оркестрации инструментов, чтобы приблизиться к этим характеристикам — и всё ещё остаются хрупкими и ограниченными.