Обучение в условиях multi-objective reinforcement learning с несколькими критериями оптимальности

Обучение в условиях Multi-Objective Reinforcement Learning с несколькими критериями оптимальности

Multi-Objective Reinforcement Learning (MORL) — это область машинного обучения, которая расширяет классический Reinforcement Learning (RL) на задачи, где оптимальность поведения агента определяется не одним, а несколькими, зачастую конфликтующими, критериями или целями. В классическом RL цель агента — максимизировать единую скалярную награду (reward), что подразумевает существование единственного оптимального решения. Однако в реальных задачах, таких как управление роботом (скорость vs. энергопотребление), беспилотным автомобилем (время пути vs. безопасность vs. комфорт) или распределением ресурсов (справедливость vs. эффективность), необходимо находить компромиссы между различными целями. Именно MORL предоставляет формальный аппарат и методы для поиска таких компромиссов.

Формальная постановка задачи Multi-Objective Reinforcement Learning

Задача MORL формализуется как Multi-Objective Markov Decision Process (MOMDP). MOMDP определяется кортежем (S, A, P, γ, R), где:

S — множество состояний среды.
A — множество действий агента.
P(s’|s, a) — функция перехода, определяющая вероятность перехода в состояние s’ из состояния s при выполнении действия a.
γ — коэффициент дисконтирования, 0 ≤ γ < 1.
R — векторная функция награды: R(s, a, s’) = [r₁(s, a, s’), r₂(s, a, s’), …, r_d(s, a, s’)]^T, где d — количество целей (критериев). Каждый компонент r_i соответствует награде по i-му критерию.

Цель в MORL — не найти единственную оптимальную политику π (отображение состояний в действия), а найти множество политик, оптимальных по Парето. Возвращаемая ценность (value) политики π также является вектором: V^π = E[∑_t=0^∞ γ^t R_t | π].

Концепция оптимальности по Парето и множество компромиссов

Ключевое понятие в MORL — оптимальность по Парето. Вектор ценностей V^π доминирует по Парето вектор V^π’, если V^π не хуже по всем критериям и строго лучше хотя бы по одному. Политика π

называется оптимальной по Парето, если не существует другой политики, которая доминировала бы ее. Множество всех оптимальных по Парето векторов ценностей называется Парето-фронтом (Pareto front). Соответствующее множество политик — множество Парето.

Задача MORL, таким образом, сводится к нахождению репрезентативного набора политик, аппроксимирующих Парето-фронт, чтобы лицо, принимающее решение (ЛПР), могло выбрать окончательный компромисс на основе своих предпочтений.

Основные подходы и алгоритмы в MORL

Методы MORL можно классифицировать по моменту учета предпочтений ЛПР: до, во время или после процесса обучения.

1. Априорные методы (A priori)

Предпочтения (веса, приоритеты целей) задаются до обучения. Многокритериальная задача сводится к однокритериальной путем скаляризации векторной награды.

Взвешенная сумма (Linear Scalarization): r_scalar = w^T · R = ∑_i=1^d w_i
r_i, где w — вектор весов, w_i ≥ 0, ∑w_i = 1. Недостаток: не может найти точки на вогнутых участках Парето-фронта.
Метод Чебышева (Chebyshev Scalarization): r_scalar = max_i [ w_i |r_i — r_i| ], где r
— точка утопии. Эффективен для нахождения точек на любых участках фронта при варьировании весов.

После скаляризации применяются стандартные алгоритмы RL (Q-learning, Policy Gradient).

2. Апостериорные методы (A posteriori)

Цель — найти аппроксимацию всего множества Парето за один запуск алгоритма, отложив выбор предпочтений на потом.

Методы на основе множества (Set-based): Алгоритм поддерживает и обновляет множество кандидатов (политик или векторов ценностей). Пример: Envelope MOQ-learning, который обобщает Q-learning, храня для каждого состояния и действия множество Q-векторов.
Методы на основе модификации алгоритмов эволюционных вычислений: NSGA-II, NSGA-III, адаптированные для RL. Они работают с популяцией политик, оценивая их по векторным наградам и используя понятие парето-доминирования для отбора и скрещивания.

3. Интерактивные методы (Interactive)

Предпочтения ЛПР уточняются в интерактивном режиме в процессе обучения. Агент постепенно сужает область поиска вокруг наиболее релевантных для ЛПР компромиссов. Пример: методы, использующие пороги допустимости (thresholds) для каждого критерия, которые могут динамически меняться.

Таблица сравнения основных подходов MORL

Подход	Момент учета предпочтений	Основные методы	Преимущества	Недостатки
Априорный	До обучения	Линейная скаляризация, Чебышева скаляризация	Простота, сводится к классическому RL, низкие вычислительные затраты.	Требует точных предпочтений заранее. Один запуск — одна точка фронта. Линейная скаляризация неэффективна для вогнутого фронта.
Апостериорный	После обучения	Envelope MOQ-learning, MORL с эволюционными алгоритмами (NSGA-II, III)	Предоставляет полную картину компромиссов. Гибкость для ЛПР.	Высокая вычислительная сложность. Проблема масштабируемости при большом числе целей.
Интерактивный	В процессе обучения	Методы с порогами, запросы к ЛПР	Фокусирует ресурсы на релевантных решениях. Учитывает меняющиеся предпочтения.	Требует постоянного участия ЛПР. Сложность реализации.

Вызовы и современные направления исследований в MORL

Проклятие многомерности (Many-Objective RL): При количестве целей d > 3 почти все политики становятся несравнимыми (недоминируемыми), что резко снижает эффективность алгоритмов, основанных на доминировании по Парето. Решения: использование метрик качества (например, гиперобъем), агрегирование целей, выделение ключевых.
Исследование (Exploration) в многомерном пространстве наград: Стратегии exploration (ε-greedy, UCB) должны учитывать многокритериальную природу, чтобы эффективно исследовать все аспекты Парето-фронта.
Глубокий MORL (Deep MORL): Интеграция глубоких нейронных сетей для аппроксимации векторных Q-значений или политик. Основная сложность — стабильное обучение и хранение множества аппроксимируемых векторов.
Передача знаний (Transfer Learning): Использование знаний, полученных при обучении с одними весами/предпочтениями, для ускорения обучения с другими, что позволяет быстрее строить весь Парето-фронт.
Интерпретируемость и доверие: Объяснение поведения политик, лежащих в разных точках Парето-фронта, критически важно для внедрения в ответственных приложениях (медицина, финансы).

Практические приложения Multi-Objective Reinforcement Learning

Робототехника и управление: Планирование движения мобильного робота с компромиссом между временем достижения цели, энергопотреблением и безопасностью (избегание препятствий).
Автономные транспортные средства: Принятие решений с балансом между безопасностью пассажиров и других участников движения, соблюдением ПДД, комфортом поездки и эффективностью использования топлива.
Управление ресурсами и энергосистемами: Распределение вычислительных ресурсов в дата-центре (производительность vs. энергозатраты vs. охлаждение) или управление энергосетью (надежность vs. стоимость vs. доля ВИЭ).
Экономика и финансы: Портфельная оптимизация с учетом баланса доходности, риска и ликвидности.
Здравоохранение: Персонализированные схемы лечения, балансирующие эффективность терапии, побочные эффекты и стоимость.

Заключение

Multi-Objective Reinforcement Learning представляет собой мощный и необходимый инструментарий для решения реальных задач искусственного интеллекта, где простое максимизирование одной метрики неприменимо. Переход от скалярной к векторной награде фундаментально меняет задачу: вместо поиска единственного оптимума агент должен исследовать пространство компромиссов. Несмотря на значительные успехи, область сталкивается с серьезными вызовами, такими как масштабируемость на задачи с многими целями и интеграция с глубоким обучением. Будущие исследования, вероятно, будут сосредоточены на повышении эффективности, устойчивости и интерпретируемости алгоритмов MORL, что откроет путь для их широкого внедрения в сложные системы, требующие сбалансированных решений в условиях конкурирующих целей.

Ответы на часто задаваемые вопросы (FAQ)

Чем MORL принципиально отличается от классического RL?

В классическом RL функция награды скалярна, что подразумевает существование полного порядка на множестве политик и единственной оптимальной политики. В MORL награда векторна, что создает частичный порядок на множестве политик (отношение Парето-доминирования). Результатом обучения в MORL является, как правило, множество политик (Парето-фронт), а не одна.

Всегда ли нужно искать весь Парето-фронт?

Не всегда. Если предпочтения ЛПР известны и стабильны (априорный подход), достаточно найти одну точку, соответствующую этим предпочтениям. Поиск всего фронта ресурсоемок и необходим, когда предпочтения не определены, могут измениться или когда нужно проанализировать весь спектр возможных компромиссов.

Как выбрать метод скаляризации?

Линейная скаляризация проста, но находит только точки на выпуклых участках Парето-фронта. Если есть подозрение или знание о невыпуклости фронта, следует использовать нелинейные методы, такие как скаляризация по Чебышеву или адаптивные схемы взвешивания. Экспериментальный анализ простых сред может помочь понять форму фронта.

С каким количеством целей (d) может справиться MORL?

Традиционные методы, основанные на Парето-доминировании, начинают резко терять эффективность при d > 3-4 (проблема many-objective). Для большего числа целей применяются методы редукции размерности (например, выделение главных компонент), агрегирования в супер-критерии или используются метрики, такие как гиперобъем, которые лучше работают в многомерных пространствах.

Как оценивать качество алгоритма MORL?

Для апостериорных методов, которые находят множество решений, используются метрики:

Гиперобъем (Hypervolume): Объем пространства, доминируемый найденным множеством относительно заданной реперной точки. Чем больше, тем лучше. Учитывает как сходимость, так и разнообразие решений.
Метрика расстояния до эталонного Парето-фронта (если известен).
Разнообразие множества (например, расстояние между соседними решениями).

Для априорных методов оценивается скалярная ценность найденной политики.

Существуют ли готовые библиотеки для MORL?

Да, но их меньше, чем для классического RL. Некоторые фреймворки RL, такие как Ray RLLib и OpenAI Gym (через пользовательские среды), могут быть адаптированы. Специализированные исследовательские реализации часто публикуются в виде исходного кода на GitHub. Также существуют библиотеки для многокритериальной оптимизации, такие как PyMOO, которые можно комбинировать с RL-алгоритмами.

Обучение в условиях multi-objective reinforcement learning с несколькими критериями оптимальности