Обучение моделей, способных к hierarchical reinforcement learning с абстрактными действиями

Hierarchical Reinforcement Learning (HRL), или иерархическое обучение с подкреплением, представляет собой методологию, направленную на преодоление фундаментальных проблем классического RL в сложных средах с большими пространствами состояний и редкими вознаграждениями. Ключевая идея заключается в декомпозиции общей задачи на иерархию подзадач, где решения на верхних уровнях управляют активацией политик на нижних уровнях в течение продолжительных временных интервалов. Центральным элементом современных подходов HRL является использование абстрактных действий (options, skills, macro-actions), которые инкапсулируют целые последовательности примитивных действий для достижения подцелей.

Архитектурные парадигмы иерархического обучения с подкреплением

Существует несколько устоявшихся архитектурных парадигм для реализации HRL с абстрактными действиями. Каждая из них определяет способ взаимодействия между уровнями иерархии и механизм выбора абстракций.

1. Парадигма «Options Framework»

Формализм Options, введенный Саттоном и др., рассматривает абстрактное действие (option) как тройку (I, π, β), где I — множество состояний инициации, π — внутренняя политика option (отображение состояний в примитивные действия), а β — функция завершения, определяющая вероятность остановки option в каждом состоянии. Мета-политика (policy-over-options) выбирает, какую option запустить, основываясь на текущем состоянии. Обучение происходит через специализированные варианты алгоритмов временных разностей (например, Intra-option Q-learning), которые обновляют как политику над options, так и внутренние политики самих options.

2. Парадигма «Менеджер-Работник» (Manager-Worker)

В этой архитектуре два уровня: Менеджер и Работник. Менеджер работает на более низкой временной частоте. В момент времени t он наблюдает состояние s_t и выдает абстрактную цель g_t (например, вектор в embedding-пространстве). Работник, в свою очередь, получает и текущее состояние, и эту цель, и его задача — выбирать примитивные действия, чтобы достичь заданной цели. Работник получает внутреннее вознаграждение, основанное на приближении к цели (например, косинусное сходство между достигнутым и желаемым изменениями состояния). Менеджер получает внешнее вознаграждение от среды и обучается ставить такие цели, которые в долгосрочной перспективе максимизируют его возврат.

3. Парадигма «HiPPO» (Hierarchical Proximal Policy Optimization) и сквозное обучение

Современные подходы часто используют сквозное дифференцируемое обучение всей иерархии. Например, высший уровень может выдавать не просто идентификатор option, а параметризованную цель или контекстный вектор, который через общую нейронную сеть модулирует политику нижнего уровня. Градиенты от внешнего вознаграждения могут распространяться через всю цепочку, используя методы вроде PPO или A3C, при условии, что функция завершения options дифференцируема.

Ключевые методы обучения абстрактных действий

Обучение в HRL сталкивается с проблемой совместного обучения: необходимо одновременно обучать политику выбора абстрактных действий и их внутренние политики, что ведет к нестационарности и проблеме кредитного присвоения на длинных горизонтах. Для решения этих проблем применяются следующие методы.

1. Предобучение навыков (Skill Pre-training)

Перед основным обучением иерархии проводится этап открытия и обучения библиотеки абстрактных действий. Это позволяет стабилизировать последующее обучение высокого уровня.

Методы, основанные на разнообразии (Diversity-driven): Алгоритмы, такие как DIAYN (Diversity is All You Need), обучают набор навыков, максимизируя взаимную информацию между идентификатором навыка и состояниями, которых он достигает, при этом делая навык неразличимым по исходному состоянию. Формула внутреннего вознаграждения: r(s, z) = log q_φ(z|s) — log p(z), где z — идентификатор навыка, q_φ — дискриминатор, предсказывающий z по s.
Методы, основанные на достижении целей (Goal-reaching): Навыки обучаются достигать случайно сэмплированных целей в определенном пространстве. Например, в латентном пространстве, сформированном автокодировщиком состояний.

2. Внутреннее вознаграждение и постановка подцелей

Для обучения нижнего уровня (работника) используется сконструированное внутреннее вознаграждение, которое направляет его к достижению подцели, поставленной верхним уровнем.

Тип внутреннего вознаграждения	Формула / Описание	Преимущества	Недостатки
Евклидово расстояние до цели	r_int = -\|\|f(s_{t+k}) — g_t\|\|	Простота вычисления	Требует осмысленного пространства целей; масштабирование
Косинусная близость изменений	r_int = cos( f(s_{t+k}) — f(s_t), g_t )	Инвариантно к величине изменения, только направление	Не поощряет за величину прогресса
Достижимость (регрессия)	r_int = R_ψ(s_t, g_t, s_{t+1}), где R — нейросеть, предсказывающая достижимость цели	Может моделировать сложные отношения	Риск эксплуатации ошибок предсказателя

3. Стратегии исследования на высоком уровне

Мета-политика, выбирающая абстрактные действия, также нуждается в эффективном исследовании. Поскольку каждое абстрактное действие длится много шагов, исследование методом ε-жадности неэффективно. Вместо этого используют:

Исследование на основе неопределенности: Выбор option, для которой оценка Q-value имеет наибольшую неопределенность (дисперсию).
Исследование через постановку новых целей: Менеджер может ставить цели в областях пространства, которые редко посещались (например, на основе счетчиков посещения).
Взвешенное исследование по навыкам: В парадигме предобученных навыков — сэмплирование навыка пропорционально его редкости или неожиданности его исходов.

Практические архитектуры и реализации

Рассмотрим две современные архитектуры, демонстрирующие применение описанных принципов.

Архитектура 1: FuN (FeUdal Networks)

FeUdal Networks явно разделяют менеджера и работника. Менеджер наблюдает состояние каждые k шагов и выдает направление в скрытом пространстве (goal embedding). Работник получает на вход текущее наблюдение и goal от менеджера, преобразованный через линейный слой. Внутреннее вознаграждение работника — косинусное сходство между goal и фактическим переходом в скрытом пространстве состояний (кодируемым специальной сетью). Менеджер обучается для максимизации дисконтированного внешнего вознаграждения, а его цели подвергаются градиентному stop-gradient, чтобы работник трактовал их как фиксированные цели.

Архитектура 2: HIRO (Data-Efficient Hierarchical Reinforcement Learning)

HIRO решает проблему нестационарности для менеджера. Поскольку политика работника постоянно меняется, цель, выданная менеджером в прошлом, может стать невыполнимой или неоптимальной для нового работника. HIRO использует ретрейсинг целей (goal re-labeling): при обучении на опыте из буфера, высокоуровневая цель в прошлом переходе пересчитывается (релебелится) так, чтобы она была совместима с текущей политикой работника и вела к тому же конечному состоянию. Это позволяет повторно использовать опыт и стабилизирует обучение.

Оценка, метрики и проблемы

Оценка моделей HRL является многогранной задачей. Ключевые метрики включают:

Финальная производительность: Среднее кумулятивное вознаграждение за эпизод на целевых задачах.
Скорость обучения: Количество взаимодействий со средой (образцов), необходимых для достижения заданного уровня производительности.
Обобщающая способность: Производительность на новых, незнакомых задачах или окружениях с использованием той же библиотеки навыков.
Качество абстракций: Измеримость может быть косвенной: согласованность траекторий, порождаемых одним абстрактным действием; интерпретируемость латентного пространства целей; разнообразие достигнутых конечных состояний.

Основные проблемы и направления исследований:

Проблема	Описание	Потенциальные пути решения
Нестационарность	Изменение политики нижнего уровня делает опыт высокого уровня устаревшим.	Ретрейсинг целей (HIRO), регуляризация, консервативное обновление политик.
Кредитное присвоение на высоком уровне	Определение, какое абстрактное действие ответственно за успех/неудачу через длинный промежуток времени.	Использование методов RL с длинным кредитным присвоением (PGT, N-step returns), внимания.
Автоматическое определение гранулярности	Как выбрать временной масштаб и уровень абстракции для действий?	Методы, основанные на информационном bottleneck, вариационные автоэнкодеры для обнаружения переходных состояний.
Исследование	Исследование в пространстве абстрактных действий может быть еще более сложным, чем в примитивном.	Внутреннее любопытство на высоком уровне, поощрение за разнообразие выбираемых options.

Заключение

Обучение моделей для hierarchical reinforcement learning с абстрактными действиями представляет собой активно развивающуюся область, направленную на создание интеллектуальных агентов, способных к долгосрочному планированию и повторному использованию знаний. Современные подходы, сочетающие предобучение разнообразных навыков, механизмы внутреннего вознаграждения и сквозное дифференцируемое обучение, демонстрируют прогресс в решении сложных задач с разреженными вознаграждениями. Однако ключевые вызовы, такие как совместная нестационарность уровней, эффективное исследование в пространстве абстракций и автоматическое построение иерархии, остаются открытыми проблемами, определяющими направления будущих исследований. Успешное решение этих задач приблизит нас к созданию систем, способных к настоящему абстрактному мышлению и переносу навыков в рамках RL.

Ответы на часто задаваемые вопросы (FAQ)

В чем основное преимущество HRL перед плоским RL?

Основное преимущество — преодоление проблем масштаба и разреженности вознаграждений. HRL позволяет агенту оперировать на более высоком уровне абстракции, планируя последовательность подцелей, а не отдельных действий. Это резко сокращает горизонт планирования на верхнем уровне, облегчает кредитное присвоение и способствует повторному использованию и переносу обученных модулей (навыков) между различными задачами.

Чем абстрактное действие (option) отличается от просто последовательности примитивных действий?

Абстрактное действие является формализованной, обучаемой единицей. Оно определяется не как фиксированная последовательность, а как политика (π), которая может по-разному себя вести в зависимости от конкретного состояния, в котором была запущена. Кроме того, оно имеет условие завершения (β), что делает его гибким и адаптивным. В отличие от жесткой макрокоманды, option может завершиться досрочно при изменении условий.

Как выбирается временной масштаб для абстрактных действий?

Выбор временного масштаба (длительности option) является гиперпараметром и предметом исследований. Его можно задать фиксированным (например, менеджер действует каждые N шагов), сделать частью обучения (функция завершения β обучается предсказывать, когда подцель достигнута), или вывести его из данных, например, сегментируя траектории на семантически осмысленные части с помощью методов обнаружения изменений в латентном пространстве.

Можно ли применять HRL в полностью непрерывных пространствах действий и состояний?

Да, современные архитектуры, такие как FuN или HIRO, изначально разработаны для работы в непрерывных пространствах. Абстрактные действия на выходе менеджера часто представляют собой непрерывные векторы целей, а работник реализует стохастическую политику, параметризованную глубокой нейронной сетью, выдающую распределение над непрерывными примитивными действиями.

Как оценить качество самостоятельно обнаруженных навыков без внешней задачи?

Качество библиотеки навыков оценивается по косвенным метрикам: 1) Coverage — насколько разнообразные состояния достигаются разными навыками; 2) Дискретность — насколько траектории разных навыков отличаются друг от друга; 3) Постоянство — насколько последовательны конечные состояния при запуске одного навыка из близких начальных состояний; 4) Интерпретируемость — можно ли человеку присвоить навыку семантический ярлык (например, «открыть дверь», «подойти к объекту»).

Какие программные фреймворки лучше всего подходят для экспериментов с HRL?

Наиболее гибкими являются фреймворки, обеспечивающие низкоуровневый контроль над обучением, такие как Ray RLlib (поддержка пользовательских моделей и распределенного обучения), Stable Baselines3 (для кастомных сред и алгоритмов) и Django (для research-oriented разработки). Многие современные алгоритмы (HIRO, DIAYN) имеют открытые реализации на PyTorch и TensorFlow, которые можно использовать в качестве основы.

Обучение моделей, способных к hierarchical reinforcement learning с абстрактными действиями