Обучение моделей, способных к hierarchical reinforcement learning с разными уровнями абстракции
Hierarchical Reinforcement Learning (HRL, Иерархическое обучение с подкреплением) представляет собой направление в машинном обучении, призванное решить фундаментальные проблемы классического RL: разреженность вознаграждения, сложность исследования пространства действий и неспособность к переносу навыков и долгосрочному планированию в сложных средах. Ключевая идея HRL заключается в декомпозиции сложной задачи на иерархию более простых подзадач, управляемых на разных временных масштабах и уровнях абстракции. Обучение таких моделей требует специальных архитектур, алгоритмов и механизмов для формирования, выделения и использования абстракций.
Фундаментальные принципы и архитектуры HRL
В основе HRL лежит принцип «разделяй и властвуй». Вместо того чтобы изучать монолитную политику, отображающую состояния на примитивные действия, система обучает несколько взаимосвязанных политик. Высокоуровневая политика (менеджер, контроллер) оперирует абстрактными целями или подзадачами на протяженных временных интервалах. Низкоуровневая политика (работник, модуль исполнения) отвечает за достижение этих целей, выполняя последовательности примитивных действий в среде. Уровней может быть больше двух, образуя глубокую иерархию.
Критическим компонентом является понятие опции (option). Опция формализует идею временно расширенного действия или навыка. Она определяется тремя компонентами: политикой исполнения π, условием инициализации I (когда опция может быть запущена) и условием завершения β (когда опция заканчивается). Высокоуровневая политика выбирает опции, а не примитивные действия. Это создает два уровня абстракции: уровень выбора опций и уровень их исполнения.
Ключевые подходы к обучению с разными уровнями абстракции
Современные методы HRL можно классифицировать по способу формирования иерархии и обучения уровней.
1. Предзаданная иерархия
Архитектура и цели уровней задаются инженером. Например, высокоуровневая политика планирует маршрут по ключевым точкам, а низкоуровневая учится двигаться между ними. Обучение часто происходит раздельно или совместно, но структура жестко фиксирована. Этот подход эффективен для узких задач, но не решает проблему автоматического обнаружения абстракций.
2. Энд-ту-энд обучение с совместной оптимизацией
Модель обучается целиком, максимизируя совокупное внешнее вознаграждение. Иерархия возникает как промежуточное представление. К этому классу относятся методы на основе градиентов, такие как FeUdal Networks и другие.
- FeUdal Networks: Используют два уровня. Менеджер на шагах высокого уровня ставит абстрактную цель в виде вектора направления в латентном пространстве. Работник получает награду за то, насколько его действия приближают состояние к этой цели, и обучается с помощью внутреннего вознаграждения. Менеджер обучается на основе градиента от итогового внешнего вознаграждения.
- HIRO (Hierarchical Reinforcement Learning with Off-policy Correction): Позволяет обучать высокоуровневую политику на полностью офф-полисных данных, что критически важно для эффективности. Для этого вводится коррекция целей высокого уровня при обучении на старых данных.
- DIAYN (Diversity is All You Need): Алгоритм выделяет навыки, максимизируя взаимную информацию между идентификатором навыка и состояниями, которых он достигает, при этом делая навык неразличимым по состоянию, в котором он был запущен. Это порождает набор разнообразных примитивных поведений (например, «идти вправо», «прыгать на месте»).
- Варрантовая иерархия (Option-Critic): Архитектура, которая обучает одновременно и политики внутри опций, и политику над опциями, используя теорему градиента политики для опций. Все компоненты обучаются энд-ту-энд для максимизации внешнего вознаграждения.
- Архитектура нейронных сетей: Обычно используют отдельные сети для каждого уровня иерархии. Часто между ними существует связь: скрытое состояние работника может инициализироваться целью от менеджера или они могут иметь общий энкодер состояния.
- Внутреннее вознаграждение (Intrinsic Reward): Ключевой механизм для обучения низкого уровня. Часто определяется как косинусное сходство между достигнутым изменением в латентном пространстве состояний и целевым направлением, заданным менеджером.
- Тренировочный режим: Часто применяют чередующееся обучение: замораживают веса одного уровня, пока обучается другой, чтобы снизить нестационарность. В HIRO оба уровня обучаются офф-политично одновременно.
- Среда: HRL наиболее эффективно демонстрирует преимущества в средах с разреженным вознаграждением, требующих долгосрочного планирования и состоящих из естественных подзадач (например, лабиринты, многоэтапные игры, роботизированные манипуляции).
- Ray RLlib: Обладает хорошей масштабируемостью и поддержкой сложных архитектур, включая иерархические.
- Stable Baselines3: Предоставляет надежные реализации базовых алгоритмов, на которых можно строить HRL.
- Dopamine: Фреймворк от Google, часто содержит исследовательские реализации новых алгоритмов, включая HRL.
- TorchRL: Библиотека от PyTorch, предлагающая гибкость для создания кастомных архитектур, таких как HRL.
3. Обучение на основе обнаружения навыков (Skill Discovery)
Этот подход фокусируется на автоматическом выделении полезных низкоуровневых навыков (опций) без явного внешнего вознаграждения, а затем их использовании для решения задач. Методы часто используют максимизацию разнообразия навыков или информационные теоретические принципы.
Таблица: Сравнение основных подходов в HRL
| Метод/Подход | Принцип формирования иерархии | Уровни абстракции | Преимущества | Недостатки |
|---|---|---|---|---|
| Предзаданная иерархия | Ручное проектирование | Задаются явно (например, навигация -> локомоция) | Прозрачность, контроль, стабильность обучения | Негибкость, требует экспертных знаний, не универсально |
| FeUdal Networks | Совместная оптимизация с внутренним вознаграждением | Менеджер (цели), Работник (действия) | Энд-ту-энд обучение, переносимость навыков работника | Сложность настройки, чувствительность к гиперпараметрам |
| HIRO | Совместная оптимизация с коррекцией целей | Высокий уровень (цели), Низкий уровень (действия) | Высокая эффективность данных (офф-политичность), стабильность | Сложность реализации, необходимость хранения и пересчета целей |
| Option-Critic | Совместная оптимизация политик и завершения опций | Мета-политика (выбор опции), Внутри опции (действия) | Полная дифференцируемость, автоматическое определение завершения опций | Склонность к вырождению (опции могут становиться слишком короткими/длинными) |
| DIAYN (Skill Discovery) | Беспризорное выделение навыков, затем их использование | Навыки (примитивные поведения), Политика над навыками | Не требует вознаграждения для выделения навыков, разнообразие, переносимость | Навыки могут быть нерелевантны для конечной задачи |
Технические вызовы и решения
Обучение HRL-моделей сопряжено с рядом специфических проблем.
Проблема нестационарности
С точки зрения низкоуровневой политики, высокоуровневая политика является частью среды. Когда высокоуровневая политика обучается и меняется, она меняет среду для низкоуровневой политики, делая ее нестационарной. Решения: использование методов, устойчивых к нестационарности (например, HIRO с коррекцией целей), или медленное обучение высокого уровня относительно низкого.
Проблема кредитного присвоения на разных временных масштабах
Сложно определить, привело ли решение высокого уровня (например, «исследовать комнату») к конечному успеху (нахождению ключа). Используются методы, работающие с задержанным вознаграждением, такие как TD(λ), или введение внутренних вознаграждений, которые оценивают прогресс в достижении подцели.
Исследование (Exploration) в иерархическом пространстве
Иерархия может как улучшить, так и ухудшить исследование. Хорошо выделенные навыки позволяют исследовать на высоком уровне (перебирать навыки), а не на уровне примитивных действий, что эффективнее. Однако плохая иерархия может завести в тупик. Методы вроде DIAYN изначально создают разнообразный набор навыков, что является формой исследования.
Выбор временного горизонта и гранулярности абстракции
Как долго должна выполняться опция? Насколько абстрактной должна быть цель? Это гиперпараметры, которые могут настраиваться эмпирически или адаптивно. В Option-Critic, условие завершения β обучается. В других работах длительность опции задается фиксированным интервалом или определяется достижением некоторого подмножества состояний.
Практические аспекты реализации
При реализации HRL-системы необходимо учитывать следующие элементы:
Заключение
Hierarchical Reinforcement Learning с разными уровнями абстракции является мощным парадигматическим сдвигом в обучении с подкреплением, направленным на преодоление фундаментальных ограничений плоского RL. Современные методы, от FeUdal Networks и HIRO до алгоритмов обнаружения навыков вроде DIAYN, предлагают различные компромиссы между автоматизмом, стабильностью обучения и эффективностью. Несмотря на сохраняющиеся вызовы — нестационарность, сложность кредитного присвоения и настройки гиперпараметров — прогресс в этой области является критически важным для создания ИИ-систем, способных к сложному многоэтапному поведению, переносу знаний и обучению в реальном мире, где абстракция и иерархия являются неотъемлемыми свойствами задач.
Ответы на часто задаваемые вопросы (FAQ)
В чем главное преимущество HRL перед обычным Deep RL?
Главное преимущество — способность эффективно справляться с разреженным и задержанным вознаграждением. Разбивая задачу на подзадачи, HRL создает более частые и релевантные внутренние цели, что ускоряет обучение и улучшает планирование на длительных горизонтах. Это также способствует повторному использованию и переносу навыков.
Всегда ли HRL обучается быстрее и лучше, чем плоский RL?
Нет, не всегда. В простых задачах с плотным вознаграждением и небольшим пространством действий введение избыточной иерархии может усложнить модель, замедлить обучение и привести к субоптимальным результатам из-за дополнительных проблем оптимизации. HRL проявляет силу именно в сложных, составных доменах.
Как выбирать количество уровней иерархии и их временные масштабы?
Это остается открытой проблемой и часто решается эмпирически, исходя из структуры среды. Общее эвристическое правило: уровни должны соответствовать естественным подзадачам. Временной масштаб высокого уровня должен быть достаточно большим, чтобы низкоуровневая политика могла достичь подцели, но не настолько большим, чтобы терялся смысл абстракции. Некоторые современные методы пытаются обучать эти параметры (например, условие завершения опции).
Можно ли использовать предобученные низкоуровневые навыки в HRL?
Да, это распространенная и эффективная стратегия. Например, можно с помощью методов обнаружения навыков (DIAYN) или обучения с внутренним вознаграждением предобучить библиотеку низкоуровневых навыков. Затем зафиксировать их и обучать только высокоуровневую политику, которая комбинирует эти навыки для решения новых задач. Это ускоряет обучение и улучшает переносимость.
В чем разница между HRL и многоагентным RL (MARL)?
Это принципиально разные парадигмы. В HRL один агент имеет иерархическую внутреннюю структуру, и все уровни работают на достижение единой цели. В MARL есть несколько отдельных агентов, каждый со своей политикой, которые могут иметь общую, противоречащие или смешанные цели. Уровни в HRL не являются независимыми агентами — они жестко связаны общей функцией ценности и вознаграждением.
Какие программные фреймворки лучше всего подходят для экспериментов с HRL?
Большинство современных HRL-алгоритмов реализованы на базе общих фреймворков для Deep RL. Наиболее популярны:
Специализированных «коробочных» фреймворков для HRL мало, так как область активно развивается, и архитектуры сильно варьируются.
Добавить комментарий