Ноам Шазеер и архитектура трансформера, стоящая за LLM

Q: Почему трансформеры заменили RNN и LSTM во многих задачах NLP?

RNN и LSTM обрабатывают текст по одному токену за раз , что затрудняет параллелизацию обучения и создаёт узкое место для долгосрочных зависимостей. Трансформеры используют внимание, чтобы напрямую связывать удалённые токены, и при обучении могут одновременно вычислять множество взаимодействий между токенами — поэтому их проще масштабировать с большими данными и вычислительными ресурсами.

Q: Что такое «внимание» и как его представлять?

Внимание — это механизм для ответа на вопрос: «Какие другие токены наиболее важны для понимания этого токена прямо сейчас?» Можно представить его как внутренний поиск по предложению: - запрос (query) — что нужно текущему токену - ключи (keys) — что предлагает каждый токен - значения (values) — информация, которую можно смешать при совпадении На выходе получается взвешенная смесь релевантных токенов, дающая контекстно-зависимое представление для каждой позиции.

Q: В чём разница между attention и self-attention?

Само-внимание означает, что токены в последовательности обращаются к другим токенам в той же последовательности . Это основной инструмент, который помогает модели разрешать кореференцию (например, на что ссылается «оно»), отношения субъект–предикат через целые фразы и зависимости, находящиеся далеко друг от друга, — и всё это без «проталкивания» информации через единое рекуррентное состояние.

Q: Зачем трансформерам многоголовое внимание?

Многоголовое внимание запускает несколько независимых расчётов внимания параллельно , и каждая голова может специализироваться на разных паттернах. На практике разные головы часто фокусируются на разных отношениях (синтаксис, дальние связи, разрешение местоимений, тематические сигналы). Модель затем объединяет эти виды, чтобы одновременно представлять несколько типов структуры.

Q: Что ещё находится в блоке трансформера, кроме внимания?

Блок трансформера обычно сочетает в себе: - Внимание : перемещает информацию между токенами - FFN/MLP : обрабатывает информацию внутри каждого токена - Резидуальные связи : помогают градиентам и позволяют слоям вносить небольшие корректировки - Нормализация слоёв : стабилизирует активации при глубокой стэкинге Слои чередуются, чтобы модель могла поочерёдно «общаться» и «думать» над полученным контекстом.

Q: Энкодер–декодер или только декодер: что используют LLM?

Оригинальный трансформер — это энкодер–декодер : - энкодер читает вход двунаправленно и создаёт представления - декодер генерирует выход по одному токену, используя кросс-внимание к энкодеру Большинство современных LLM — только декодеры . Их обучают предсказывать следующий токен с помощью маскированного (каузального) само-внимания, что соответствует пошаговой генерации слева направо и хорошо масштабируется при обучении на огромных корпусах.

Q: Какую роль сыграл Ноам Шазир в создании трансформера?

Noam Shazeer был соавтором статьи 2017 года «Attention Is All You Need», которая ввела архитектуру трансформера. Правильно считать его ключевым участником, но архитектура была создана командой в Google, и её влияние также обусловлено множеством последующих улучшений со стороны сообщества и индустрии.

Войти Начать

FAQ

Что такое трансформер простыми словами?

Трансформер — это архитектура нейронной сети для последовательных данных, которая использует само-внимание чтобы соотносить каждый токен со всеми остальными токенами в одном входе.

Вместо того чтобы переносить информацию шаг за шагом (как в RNN/LSTM), он строит контекст, решая на что обращать внимание по всему фрагменту входа — это улучшает понимание дальнодействующих связей и делает обучение более параллельным.

Почему трансформеры заменили RNN и LSTM во многих задачах NLP?

RNN и LSTM обрабатывают текст по одному токену за раз, что затрудняет параллелизацию обучения и создаёт узкое место для долгосрочных зависимостей.

Трансформеры используют внимание, чтобы напрямую связывать удалённые токены, и при обучении могут одновременно вычислять множество взаимодействий между токенами — поэтому их проще масштабировать с большими данными и вычислительными ресурсами.

Что такое «внимание» и как его представлять?

Внимание — это механизм для ответа на вопрос: «Какие другие токены наиболее важны для понимания этого токена прямо сейчас?»

Можно представить его как внутренний поиск по предложению:

запрос (query) — что нужно текущему токену
ключи (keys) — что предлагает каждый токен
значения (values) — информация, которую можно смешать при совпадении

На выходе получается взвешенная смесь релевантных токенов, дающая контекстно-зависимое представление для каждой позиции.

В чём разница между attention и self-attention?

Само-внимание означает, что токены в последовательности обращаются к другим токенам в той же последовательности.

Это основной инструмент, который помогает модели разрешать кореференцию (например, на что ссылается «оно»), отношения субъект–предикат через целые фразы и зависимости, находящиеся далеко друг от друга, — и всё это без «проталкивания» информации через единое рекуррентное состояние.

Зачем трансформерам многоголовое внимание?

Многоголовое внимание запускает несколько независимых расчётов внимания параллельно, и каждая голова может специализироваться на разных паттернах.

На практике разные головы часто фокусируются на разных отношениях (синтаксис, дальние связи, разрешение местоимений, тематические сигналы). Модель затем объединяет эти виды, чтобы одновременно представлять несколько типов структуры.

Если внимание смотрит на всё, как модель узнаёт порядок слов?

Само-внимание само по себе не даёт информации о порядке токенов — без позиционной информации переставленные слова могут выглядеть одинаково.

Позиционные кодировки/встраивания вводят сигнал «где я в последовательности», чтобы модель могла выучить паттерны вроде «слово сразу после не важно» или «подлежащее обычно стоит перед сказуемым».

Распространённые варианты: синусоидальные (фиксированные), обучаемые абсолютные позиции и относительные/ротационные методы.

Что ещё находится в блоке трансформера, кроме внимания?

Блок трансформера обычно сочетает в себе:

Внимание: перемещает информацию между токенами
FFN/MLP: обрабатывает информацию внутри каждого токена
Резидуальные связи: помогают градиентам и позволяют слоям вносить небольшие корректировки
Нормализация слоёв: стабилизирует активации при глубокой стэкинге

Слои чередуются, чтобы модель могла поочерёдно «общаться» и «думать» над полученным контекстом.

Энкодер–декодер или только декодер: что используют LLM?

Оригинальный трансформер — это энкодер–декодер:

энкодер читает вход двунаправленно и создаёт представления
декодер генерирует выход по одному токену, используя кросс-внимание к энкодеру

Большинство современных LLM — только декодеры. Их обучают предсказывать следующий токен с помощью маскированного (каузального) само-внимания, что соответствует пошаговой генерации слева направо и хорошо масштабируется при обучении на огромных корпусах.

Какую роль сыграл Ноам Шазир в создании трансформера?

Noam Shazeer был соавтором статьи 2017 года «Attention Is All You Need», которая ввела архитектуру трансформера.

Правильно считать его ключевым участником, но архитектура была создана командой в Google, и её влияние также обусловлено множеством последующих улучшений со стороны сообщества и индустрии.

Почему большие окна контекста дорогие и что с этим можно сделать?

При длинных входах стандартное само-внимание становится дорогостоящим, потому что число сравнений растёт примерно пропорционально квадрату длины последовательности, что увеличивает требования к памяти и вычислениям.

Практические подходы команд:

выбирать модели с большим нативным окном контекста
применять RAG (извлекать релевантные куски вместо того, чтобы класть всё во вход)
использовать варианты с длинным контекстом (разреженное/эффективное внимание)
измерять реальные компромиссы: задержка, стоимость токенов и точность на ваших рабочих нагрузках

Почему трансформер до сих пор важен

Почему вы постоянно встречаете трансформеры

Что вы узнаете в этой статье

Чего ожидать (и чего не ожидать)

Роль Ноама Шазеера в истории трансформера

Что изменил документ 2017 года

От научной идеи к элементу продуктовой инженерии

Точность в распределении заслуг

Что было до: RNN, LSTM и их ограничения

Краткая картинка их работы

Почему дальние зависимости даются с трудом

Проблемы обучения и масштабирования

Мотивация для более параллельного подхода

Внимание, объяснённое без математики

Идея «поиска и извлечения»

Оценки релевантности → веса внимания

Простой пример (местоимения и грамматика)

Само-внимание: основной механизм

Токены смотрят на токены

Как строится контекст

Почему обучение может быть параллельным

Почему это хорошо для дальних зависимостей

Многоголовое внимание: много взглядов на одно предложение

Почему одного взгляда может быть недостаточно

Что делают множественные головы

Как комбинируются головы

Позиционная кодировка: обучение порядку слов

Как позиционные сигналы вводят порядок

Почему это важно для задач с большим контекстом

Блок трансформера: внимание + MLP + стабилизаторы

После внимания: что делает FFN/MLP

Почему блоки чередуют внимание и FFN

Резидуальные связи: «полосы-обходы»

Нормализация слоёв: удержание сигналов в пределах

Энкодер–декодер против декодерного подхода: что питает LLM?

Энкодер–декодер: «сначала читать, затем писать»

Декодерный подход: одна модель, которая просто продолжает предсказывать

Где применяются энкодерные модели

Почему трансформеры масштабируются до больших языковых моделей

Параллельное обучение — скрытая суперсила

«Окно контекста» и почему это важно

Ключевое ограничение: стоимость внимания растёт с длиной

Масштабирование открыло универсальное поведение

Современные варианты, построенные на той же основе

Частые улучшения, которые вы встретите

Подходы к длинному контексту (в общих чертах)

Mixture-of-Experts (MoE): больше ёмкости без линейного роста стоимости

Как проверять заявления о новых вариантах

Что это означает для команд, строящих системы на LLM

Выбор модели или провайдера: четыре компромисса

Когда эмбеддинги лучше генерации

Где это проявляется в рабочих процессах

Практический чек‑лист для внедрения

FAQ