Обучение моделей, способных к reinforcement learning с человеческой обратной связью

Написано

Обучение моделей, способных к reinforcement learning с человеческой обратной связью

Reinforcement Learning (RL, обучение с подкреплением) — это парадигма машинного обучения, в которой агент обучается принимать последовательность решений, взаимодействуя со средой и получая от нее сигналы вознаграждения (reward). Ключевая проблема классического RL заключается в проектировании функции вознаграждения: она должна точно и полно отражать желаемое поведение агента. Ошибка в ее спецификации приводит к нежелательным или даже опасным действиям модели. Reinforcement Learning from Human Feedback (RLHF, обучение с подкреплением на основе человеческой обратной связи) решает эту проблему, используя для обучения предпочтения и оценки людей, что позволяет выравнивать поведение сложных моделей ИИ с человеческими ценностями и намерениями.

Архитектура и ключевые компоненты системы RLHF

Типичный конвейер RLHF состоит из трех последовательных этапов, каждый из которых решает отдельную задачу.

1. Предварительное обучение модели (Supervised Fine-Tuning, SFT)

Исходной точкой является большая языковая или иная модель (например, Transformer), предобученная на обширных корпусах данных предсказанием следующего токена. На этапе SFT модель дообучается на небольшом, но высококачественном наборе данных, созданном человеком-агентом. Для языковых моделей это могут быть диалоги, инструкции и ожидаемые ответы, написанные или отобранные экспертами. Цель — получить модель, которая уже понимает формат запросов и генерирует релевантные, грамматически правильные ответы, служащую хорошей базой для дальнейшей настройки с подкреплением.

2. Обучение модели вознаграждения (Reward Model, RM)

Это центральный и наиболее инновационный компонент RLHF. Вместо того чтобы вручную программировать функцию вознаграждения, исследователи обучают отдельную модель — модель вознаграждения — предсказывать, какой из двух (или более) ответов на один и тот же запрос человек сочтет более предпочтительным. Процесс выглядит так:

Модель SFT генерирует для множества промптов (запросов) по несколько вариантов ответов.
Человеческие аннотаторы ранжируют эти ответы, указывая, какой из них лучше, хуже или эквивалентен.
Эти данные (промпт, пара ответов, метка предпочтения) используются для обучения модели RM. Часто в качестве архитектуры RM берется та же базовая модель, что и для SFT, но с последним линейным слоем, выводящим одно скалярное значение — оценку вознаграждения.

Обучение RM обычно формулируется как задача ранжирования с использованием функции потерь, например, потерь на основе сравнения (comparison loss). Популярной является функция потерь Брэдли-Терри, которая максимизирует разницу в оценках для предпочитаемого и непредпочитаемого ответов.

3>Настройка политики с помощью обучения с подкреплением (RL Fine-Tuning)

На этом этапе модель SFT становится «агентом» в RL, а среда — это процесс генерации текста. Модель RM выступает в роли источника вознаграждения. Агент (настраиваемая модель) оптимизирует политику генерации текста, чтобы максимизировать совокупное вознаграждение, предсказанное RM. Однако прямая максимизация оценки RM приводит к переобучению на артефакты модели вознаграждения и деградации качества (например, генерация бессмысленного текста, который получает высокий балл RM). Для предотвращения этого в функцию вознаграждения добавляется регуляризационный член — штраф за отклонение от исходной модели (SFT). Наиболее распространенный метод — Proximal Policy Optimization (PPO).

Итоговая функция вознаграждения R выглядит следующим образом:

R(x, y) = R_θ(x, y) — β

KL(π_φ(y|x) || π_SFT(y|x))

где:

R_θ(x, y) — оценка, выданная моделью вознаграждения для промпта x и ответа y.
π_φ(y|x) — политика текущей настраиваемой модели.
π_SFT(y|x) — политика исходной SFT-модели.
KL(…) — расхождение Кульбака-Лейблера, мера того, насколько выходное распределение текущей модели отличается от исходного.
β — коэффициент, контролирующий силу регуляризации.

Таким образом, модель учится генерировать ответы, которые получают высокие оценки от RM, но при этом не слишком далеко уходят от безопасного и грамотного поведения исходной SFT-модели.

Сбор и обработка человеческой обратной связи

Качество данных от людей — критический фактор успеха RLHF. Процесс должен быть тщательно спроектирован.

Отбор аннотаторов: Требуются компетентные люди, понимающие предметную область, цели проекта и потенциальные смещения. Часто привлекают лингвистов, специалистов по этике или экспертов в конкретной области (например, юриспруденции, медицины).
Дизайн задачи аннотирования: Аннотаторам обычно показывают промпт и 2-4 ответа, сгенерированных моделью. Их просят ранжировать ответы по критериям: полезность, правдивость, безвредность, степень следования инструкциям. Иногда используют более простую схему бинарного выбора (лучше/хуже).
Агрегация и консенсус: Для уменьшения шума и субъективности каждый пример оценивают несколько независимых аннотаторов. Их оценки агрегируются (например, по принципу большинства или с помощью более сложных статистических моделей) для получения финальной метки предпочтения.
Итеративность: Процесс RLHF часто итеративен. После RL-настройки модель генерирует новые ответы, которые снова оцениваются людьми, и модель RM переобучается на расширенном наборе данных. Это позволяет постепенно улучшать качество системы.

Преимущества и вызовы метода RLHF

Преимущества:

Выравнивание с человеческими ценностями: Позволяет обучать модели выполнять сложные, неформализуемые задачи, где успех определяется субъективным человеческим суждением (например, вести вежливый диалог, писать убедительный текст, избегать токсичных высказываний).
Гибкость: Функция вознаграждения, представленная моделью, может адаптироваться к новым данным и уточненным предпочтениям, в отличие от жестко закодированной.
Эффективность: Сбор парных сравнений от людей часто требует меньше усилий и более точен, чем создание эталонных ответов или программирование исчерпывающих правил.

Вызовы и ограничения:

Зависимость от качества аннотаций: Смещения, несогласованность или низкая квалификация аннотаторов напрямую переносятся в модель. «ИИ учится у среднего аннотатора» — это может быть проблемой, если требуются экспертные знания.
Проблема «Goodhart’s law»: Когда метрика (оценка RM) становится целью, она перестает быть хорошей метрикой. Модель может научиться «обманывать» RM, генерируя текст, который выглядит предпочтительным по поверхностным признакам, но не является по сути полезным или правильным (оптимизация под оценку).
Каскадные ошибки: Ошибки на ранних этапах (в SFT или в первых итерациях RM) могут усиливаться в процессе RL-настройки и их трудно исправить позже.
Вычислительная сложность: Процесс требует нескольких циклов обучения больших моделей (SFT, RM, PPO), что чрезвычайно ресурсоемко.
Режим коллапса (Mode Collapse): В процессе PPO модель может потерять разнообразие ответов, начав генерировать шаблонные, хотя и высокооцененные, фразы.

Сравнение RLHF с альтернативными подходами

Метод	Принцип работы	Преимущества	Недостатки
Классический RL (с инженерной функцией вознаграждения)	Агент максимизирует заранее заданную, программируемую функцию (например, счет в игре, успешное завершение задачи).	Прозрачность, полный контроль над целью.	Невозможность формализовать сложные, субъективные понятия (юмор, креативность, этичность).
Reinforcement Learning from Human Feedback (RLHF)	Функция вознаграждения обучается на предпочтениях людей, затем используется для RL-настройки.	Позволяет оптимизировать под сложные человеческие ценности, гибкость.	Зависимость от данных аннотаций, риск оптимизации под оценку, высокая сложность.
Прямая настройка на предпочтения (Direct Preference Optimization, DPO)	Новый метод, который оптимизирует политику модели непосредственно на данных о предпочтениях, минуя этап обучения отдельной модели вознаграждения.	Проще, стабильнее, требует меньше вычислительных ресурсов, менее склонен к оптимизации под оценку.	Менее гибок для онлайн-обучения, теоретически может уступать в качестве на очень крупных масштабах данных.
Контролируемое обучение (только SFT)	Обучение на готовых примерах «вход-выход», созданных людьми.	Простота, стабильность, предсказуемость.	Требует огромного количества дорогих эталонных данных, не учится выбирать лучший ответ из многих возможных.

Практические применения и будущее развитие

RLHF стал ключевой технологией для создания современных ассистентов на основе больших языковых моделей (ChatGPT, Claude и др.). Он применяется для:

Создания диалоговых агентов, которые полезны, честны и безвредны.
Настройки моделей для выполнения конкретных инструкций (инструктивное следование).
Сокращения токсичности, предвзятости и фактологических ошибок в выходных данных моделей.
Обучения креативных моделей (для написания кода, стихов, сценариев) в соответствии со стилистическими предпочтениями пользователя.

Будущие направления развития включают:

Улучшение эффективности данных: Методы, требующие меньше человеческих оценок (например, DPO, обучение на основе критика).
Работа с неоднозначностью предпочтений: Учет того, что разные группы людей могут иметь различные и конфликтующие предпочтения.
Объединение обратной связи от людей и от ИИ: Использование более мощных моделей ИИ (моделей-судей) для предварительной фильтрации или дополнения человеческих оценок.
Повышение прозрачности и интерпретируемости: Разработка методов для понимания того, какие именно аспекты ответа привели к высокой или низкой оценке модели вознаграждения.

Ответы на часто задаваемые вопросы (FAQ)

Чем RLHF принципиально отличается от обычного рейтингования или лайков?

RLHF — это не просто сбор отзывов, а полная система обучения. Рейтинги и лайки от пользователей являются сырыми данными, которые агрегируются и используются для обучения формальной модели вознаграждения. Эта модель затем интегрируется в процесс оптимизации с подкреплением, который целенаправленно изменяет поведение основной модели, чтобы увеличить вероятность получения таких «лайков» в будущем. Это замкнутый цикл улучшения, а не просто пассивный сбор статистики.

Почему нельзя обойтись только SFT-этапом, без RL?

SFT эффективно учит модель имитировать стиль и содержание предоставленных человеком примеров. Однако она плохо справляется с задачами, где существует множество возможных правильных ответов, и нужно выбрать наилучший. RLHF позволяет модели научиться различать качество ответов и оптимизировать под это различение, выходя за рамки простого копирования. Кроме того, SFT требует готовых идеальных ответов, создание которых для сложных промптов может быть очень дорогим, тогда как сравнить два ответа часто проще.

Как решается проблема субъективности и противоречивости человеческих оценок?

Используется несколько стратегий: 1) Четкие и детализированные инструкции для аннотаторов с примерами. 2) Привлечение нескольких аннотаторов на один пример и статистическая агрегация их оценок. 3) Калибровка и обучение аннотаторов для повышения согласованности. 4) Явное признание существования плюрализма ценностей — в перспективе системы могут обучаться персонализированным моделям вознаграждения для разных групп пользователей или культурных контекстов.

Что такое «режим коллапса» в контексте RLHF и как с ним борются?

Режим коллапса — это ситуация, когда модель в процессе оптимизации перестает исследовать разнообразные варианты ответов и начинает всегда генерировать один и тот же или очень похожие, «безопасные» с точки зрения RM, ответы, даже если они неоптимальны. Методы борьбы: 1) KL-регуляризация по отношению к SFT-модели, как описано выше. 2) Введение энтропийного бонуса, поощряющего модель за сохранение разнообразия в политике. 3) Использование более продвинутых алгоритмов RL, таких как TRPO или PPO с clipping, которые предотвращают слишком резкие изменения политики.

Может ли модель вознаграждения стать слишком мощной и полностью контролировать основную модель?

Да, это риск. Если коэффициент регуляризации β слишком мал, модель политики может слишком сильно отклониться от исходной SFT и начать генерировать абсурдный или вредный контент, который, однако, получает высокие баллы от несовершенной RM. Поэтому баланс между следованием RM и сохранением базовых качеств SFT-модели критически важен. На практике β тщательно подбирается на валидационных наборах, где оценивается не только оценка RM, но и прямое качество ответов людьми.

Каковы альтернативы RLHF?

Помимо упомянутых в таблице DPO, развиваются и другие подходы: Конституционное ИИ — модель критикует и улучшает свои собственные ответы согласно набору принципов (конституции), что снижает зависимость от прямых человеческих сравнений. Обучение с подкреплением на основе AI-фидбека (RLAIF) — где в качестве «судии» выступает более мощная модель ИИ (например, GPT-4), а человек задает только принципы. Это позволяет масштабировать сбор данных обратной связи, хотя и не снимает проблему полностью, так как ИИ-судия сама обучена на человеческих данных.

Обучение моделей, способных к reinforcement learning с человеческой обратной связью