Феномен "самовнимания" в transformer архитектурах

Феномен «самовнимания» в transformer архитектурах

Механизм самовнимания (self-attention), также известный как внутреннее внимание, является вычислительным ядром архитектуры Transformer, предложенной в 2017 году в работе «Attention Is All You Need». Этот механизм позволяет модели обрабатывать последовательности данных, устанавливая контекстные зависимости между всеми элементами последовательности независимо от их расстояния друг от друга. В отличие от рекуррентных (RNN) и сверточных (CNN) сетей, которые обрабатывают данные последовательно или локально, самовнимание обеспечивает глобальное восприятие контекста за один вычислительный шаг.

Математические основы механизма самовнимания

Для входной последовательности векторов X = [x₁, x₂, …, xₙ], где каждый xᵢ ∈ ℝᵈ, механизм самовнимания проецирует их в три пространства:

Запросы (Queries, Q): Q = XWᵠ, где Wᵠ ∈ ℝᵈˣᵈₖ — обучаемая матрица весов.
Ключи (Keys, K): K = XWₖ, где Wₖ ∈ ℝᵈˣᵈₖ.
Значения (Values, V): V = XWᵥ, где Wᵥ ∈ ℝᵈˣᵈᵥ.

Обычно размерности dₖ и dᵥ выбираются равными d/ℎ, где ℎ — количество голов внимания. Далее вычисляется матрица весов внимания, которая определяет степень влияния каждого элемента последовательности на каждый другой элемент:

Attention(Q, K, V) = softmax( (QKᵀ) / √dₖ ) V

Операция масштабирования (деление на √dₖ) предотвращает чрезмерно большие значения скалярных произведений, которые могут привести к исчезающим градиентам в функции softmax. Функция softmax применяется к каждой строке матрицы, обеспечивая нормализацию весов внимания для каждого запроса.

Многоголовое внимание (Multi-Head Attention)

Для повышения выразительности модели используется многоголовое внимание. Вместо одного набора матриц Q, K, V создается ℎ независимых наборов (голов), каждый со своими обучаемыми матрицами проекций. Это позволяет модели совместно обрабатывать информацию из разных подпространств представлений.

Вычисление для каждой головы i: headᵢ = Attention(XWᵢᵠ, XWᵢₖ, XWᵢᵥ)

Результаты всех голов конкатенируются и проецируются обратно в исходное пространство размерности d:

MultiHead(X) = Concat(head₁, …, headₕ)Wᴼ, где Wᴼ ∈ ℝʰ·dᵥˣᵈ

Архитектурный контекст в Transformer

Блок самовнимания является частью энкодера и декодера Transformer. В энкодере блок самовнимания позволяет каждому токену кодировочной последовательности взаимодействовать со всеми другими токенами этой последовательности. В декодере используется маскированное многоголовое внимание, которое предотвращает «подглядывание» в будущие токены во время генерации, и перекрестное внимание (cross-attention), где запросы приходят из декодера, а ключи и значения — из выхода энкодера.

**Сравнение механизмов обработки последовательностей**
Архитектура	Принцип обработки	Временная сложность (на слой)	Параллелизуемость	Длина контекста
RNN/LSTM	Последовательная, состояние зависит от предыдущего шага.	O(n·d²)	Низкая (последовательная зависимость).	Ограничена проблемой затухания градиента.
CNN (1D)	Локальная, скользящее окно фиксированного размера.	O(k·n·d²)	Высокая (в пределах окна).	Ограничена размером ядра k.
Transformer (Self-Attention)	Глобальная, все элементы взаимодействуют со всеми.	O(n²·d)	Полная (матричные операции).	Теоретически не ограничена, но O(n²) сложность памяти и вычислений накладывает практические ограничения.

Ключевые преимущества самовнимания

Глобальная контекстуализация: Каждый элемент напрямую связан с любым другим элементом последовательности, что эффективно для моделирования дальних зависимостей.
Высокая параллелизуемость: Отсутствие рекуррентных связей позволяет вычислять внимание для всех пар элементов одновременно, что критически важно для ускорения обучения на GPU/TPU.
Интерпретируемость: Веса внимания часто можно визуализировать, чтобы понять, на какие части входных данных модель «смотрит» при принятии решения (например, при переводе или анализе тональности).
Гибкость представлений: Многоголовое внимание позволяет модели фокусироваться на разных типах отношений (синтаксических, семантических, анафорических) одновременно.

Проблемы и ограничения

Квадратичная сложность: Вычисление матрицы внимания размера n×n требует O(n²) операций по памяти и времени, что делает обработку очень длинных последовательностей (например, длинные документы, видео) вычислительно непосильной.
Позиционное кодирование: Поскольку механизм сам по себе инвариантен к порядку, информацию о позиции элемента необходимо добавлять искусственно через синусоидальные или обучаемые позиционные эмбеддинги.
Чувствительность к инициализации и масштабированию: Дисперсия выходов внимания может сильно влиять на стабильность обучения.

Эволюция и оптимизации

Для преодоления квадратичной сложности были предложены многочисленные эффективные варианты внимания:

Sparse Attention: Модель (например, Sparse Transformer, Longformer) вычисляет внимание только для избранных пар токенов, используя заранее заданные разреженные шаблоны (окно, страйды, глобальные токены).
Linearized Attention: Подходы (Performer, Linear Transformer) переформулируют вычисление внимания через ядра (kernel), чтобы представить его в виде линейной по n последовательности операций.
Memory Compressed Attention: Уменьшение размерности ключей и значений (например, через свертку) для снижения вычислительных затрат.
Recurrence over Attention: Архитектуры, такие как Transformer-XL, вводят сегментную рекуррентность, позволяя информации передаваться между сегментами длинной последовательности.

Практические применения и влияние

Механизм самовнимания лег в основу революционных моделей в NLP (BERT, GPT, T5), компьютерном зрении (Vision Transformer, DETR), обработке аудио (WaveNet) и мультимодальных задачах (CLIP, DALL-E). Его способность моделировать сложные зависимости в данных любого типа сделала его универсальным строительным блоком современного глубокого обучения.

Ответы на часто задаваемые вопросы (FAQ)

Чем самовнимание принципиально отличается от обычного внимания?

Обычное (перекрестное) внимание вычисляет взаимодействия между элементами двух разных последовательностей (например, выход декодера и вход энкодера в seq2seq-моделях). Самовнимание вычисляет взаимодействия внутри одной и той же последовательности, создавая ее обогащенное контекстуальное представление.

Почему квадратичная сложность является проблемой и как с ней борются в больших моделях?

Квадратичная сложность O(n²) означает, что для последовательности длиной 1000 токенов нужно обработать 1 млн пар, а для 10000 токенов — уже 100 млн пар. Это быстро исчерпывает память GPU даже при умеренных длинах. В больших моделях, таких как GPT-3 или GPT-4, используют комбинацию методов: эффективные реализации (FlashAttention), блочные вычисления, а иногда и архитектурные модификации (например, локальное внимание в сочетании с глобальным) для обработки контекстов в десятки и сотни тысяч токенов.

Как именно позиционные эмбеддинги интегрируются в механизм внимания?

Позиционные эмбеддинги (синусоидальные или обучаемые) добавляются к векторным представлениям токенов до их проецирования в Q, K, V. Таким образом, запрос и ключ для каждого токена содержат информацию как о его содержании (семантика), так и о его позиции в последовательности. При вычислении скалярного произведения Qᵢ·Kⱼ результат будет зависеть как от семантической близости токенов i и j, так и от их относительного позиционного сдвига.

Можно ли визуализировать веса внимания и что это дает?

Да, матрицу весов A = softmax((QKᵀ)/√dₖ) можно визуализировать как тепловую карту размера n×n. Это позволяет интерпретировать, на какие слова или части изображения модель «обращает внимание» при генерации или классификации. Например, при переводе предложения часто видно, что веса внимания выстраиваются вдоль диагонали, отражая выравнивание слов, или фокусируются на служебных словах, которые влияют на грамматику.

В чем разница между самовниманием в энкодере и маскированным самовниманием в декодере?

В энкодере каждый токен может «видеть» все остальные токены входной последовательности. В декодере, который генерирует последовательность авторегрессионно (по одному токену), маскированное внимание предотвращает доступ текущего генерируемого токена к будущим, еще не созданным токенам. Это реализуется путем добавления маски (обычно верхней треугольной матрицы из -∞) к матрице logits перед softmax, что обнуляет соответствующие веса.

Как многоголовое внимание улучшает производительность модели?

Разные головы могут специализироваться на разных типах отношений. Эмпирические исследования показывают, что одни головы могут отслеживать синтаксические связи (например, связь между существительным и зависимым прилагательным), другие — анафорические ссылки (местоимения и их antecedents), третьи — фокус на соседних словах. Это аналогично использованию нескольких фильтров в сверточных сетях для обнаружения различных признаков.

Применим ли механизм самовнимания только к тексту?

Нет, это общий механизм для работы с любыми данными, имеющими структуру набора элементов (последовательность, сетка, граф). В компьютерном зрении патчи изображения представляются как последовательность векторов. В обработке аудио — сегменты спектрограммы. В рекомендательных системах — последовательность взаимодействий пользователя. Универсальность самовнимания и стала причиной его широкого распространения.

Феномен «самовнимания» в transformer архитектурах