Обучение в условиях multi-agent reinforcement learning с неполной информацией

Обучение в условиях Multi-Agent Reinforcement Learning с неполной информацией

Multi-Agent Reinforcement Learning (MARL) — это раздел машинного обучения, изучающий, как несколько автономных агентов обучаются принимать решения в общей среде. Каждый агент стремится максимизировать свой собственный совокупный выигрыш (reward), при этом его действия влияют как на среду, так и на процесс обучения других агентов. Ситуация значительно усложняется в условиях неполной информации (Imperfect Information), когда у агентов нет полного доступа к состоянию среды или к приватной информации других агентов. Это создает фундаментальные проблемы, связанные с нестационарностью, координацией, конкуренцией и необходимостью вывода о скрытых состояниях.

Формальная постановка задачи: POSG и расширения

Наиболее общей моделью для MARL с неполной информацией является Частично Наблюдаемый Стохастический Игра (Partially Observable Stochastic Game, POSG). Она обобчает как Dec-POMDP (для кооперативных агентов), так и собственно POSG для смешанных сценариев.

POSG определяется кортежем: <S, A¹,…,A^N, P, R¹,…,R^N, Ω¹,…,Ω^N, O, γ>, где:

S — множество состояний среды.
Aⁱ — множество действий агента i.
P(s’|s, a¹,…,a^N) — функция перехода состояний.
Rⁱ(s, a¹,…,a^N, s’) — функция вознаграждения агента i.
Ωⁱ — множество частных наблюдений агента i.
O(o¹,…,o^N | s, a¹,…,a^N, s’) — функция наблюдений.
γ — коэффициент дисконтирования.

На каждом шаге агент i получает частное наблюдение oⁱ∈Ωⁱ, коррелированное с состоянием s, и выбирает действие aⁱ. Его цель — максимизировать ожидаемую дисконтированную сумму своих вознаграждений. Ключевая сложность в том, что агент не знает состояния s и наблюдений/намерений других агентов, что делает среду нестационарной с его точки зрения.

Ключевые вызовы и проблемы

1. Нестационарность (Non-Stationarity)

В одноагентном RL среда считается стационарной: функция перехода P(s’|s,a) и вознаграждения R(s,a) не меняются со временем. В MARL с точки зрения одного агента другие агенты являются частью среды, и по мере их обучения среда меняется, нарушая предположение о стационарности. Это делает неэффективными алгоритмы, напрямую заточенные под стационарные среды (например, стандартный Q-learning).

2. Проклятие размерности (Curse of Dimensionality)

Пространство совместных действий A = A¹ × … × A^N растет экспоненциально с числом агентов. Это делает невозможным прямое обобщение методов, оперирующих с Q(s, a) для совместного действия a. Требуются методы для факторизации или аппроксимации.

3. Частичная наблюдаемость и вывод о состоянии (State Inference)

Агент должен поддерживать внутреннее представление (belief state) о текущем состоянии среды и, возможно, о типах или стратегиях других агентов, основываясь на истории своих наблюдений и действий. Это требует элементов планирования и обучения с памятью.

4. Проблема кредитного присвоения (Credit Assignment)

В кооперативных сценариях, когда агенты получают общее вознаграждение, сложно определить, какие именно действия каждого агента привели к успеху или неудаче. Эта проблема усугубляется неполной информацией, так как цепочка причинно-следственных связей еще более скрыта.

5. Исследование (Exploration) в многомерном пространстве

Координация исследовательских усилий между агентами становится критически важной. Наивное независимое исследование может быть неэффективным, а в соревновательных сценариях — приводить к преждевременной конвергенции к неоптимальным равновесиям.

Основные классы алгоритмов и подходы

1. Алгоритмы на основе Ценностной функции (Value-Based Methods)

Эти методы пытаются обобстить Q-learning на многопользовательский случай. Основная идея — обучение Q-функции, которая зависит от наблюдений и действий агента, возможно, с учетом информации о других агентах.

Independent Q-Learning (IQL): Агенты обучаются независимо, рассматривая других как часть среды. Просто, но нестационарность среды часто приводит к нестабильности.
QMIX (кооперативный случай): Использует централизованное обучение (Centralized Training) и децентрализованное исполнение (Decentralized Execution, CTDE). Индивидуальные Q-функции смешиваются через нелинейную (монотонную) функцию от общего состояния, что позволяет оценивать совместные действия, но исполнять политики локально. Для работы с частичной наблюдаемостью агенту часто подается рекуррентная нейросеть (RNN).

**Сравнение Value-Based алгоритмов для MARL с неполной информацией**
Алгоритм	Тип сценария	Подход к нестационарности	Обработка неполной информации	Недостатки
IQL	Любой	Игнорирует	RNN в истории наблюдений	Нестабильность, отсутствие координации
QMIX	Кооперативный	CTDE: стационарность на этапе обучения	Индивидуальные RNN, общее состояние в обучении	Только кооперация, монотонное смешение
VDN	Кооперативный	CTDE	Аналогично QMIX	Аддитивное смешение Q-функций (частный случай QMIX)

2. Алгоритмы на основе Политик (Policy-Based Methods)

Эти методы напрямую оптимизируют параметризованную политику агента.

MAPPO (Multi-Agent PPO): Многопользовательское расширение алгоритма Proximal Policy Optimization. Использует парадигму CTDE: централизованная функция ценности (critic) использует глобальную информацию на этапе обучения, в то время как политика (actor) использует только локальные наблюдения агента. Критик помогает снизить дисперсию градиентов и стабилизировать обучение.
MADDPG: Алгоритм для смешанных (кооперативно-конкурентных) сценариев. Каждый агент имеет свой актор (децентрализованная политика, использующая только его собственные наблюдения) и критика, который на этапе обучения имеет доступ к наблюдениям и действиям всех агентов. Это делает среду стационарной для критика, что облегчает обучение.

3. Подходы с выводом о моделях других агентов (Model-Based & Theory of Mind)

Для эффективного взаимодействия в условиях неполной информации агенты могут явно моделировать намерения, цели или политики других агентов.

Learning with Opponent Modeling (LOLA): Агенты не только обучаются, но и моделируют градиенты обучения оппонентов, пытаясь предвидеть и адаптироваться к их будущим изменениям, чтобы достичь более выгодных для себя равновесий.
Belief Learning: Агент поддерживает belief (убеждение) о типе или стратегии других агентов, обновляя его на основе их наблюдаемых действий, и планирует свои действия с учетом этого убеждения. Это сближает MARL с методами решения частично наблюдаемых игр из теории игр.

4. Коммуникационные протоколы (Communication Protocols)

В некоторых задачах агентам разрешено обмениваться ограниченными сообщениями для компенсации неполной информации. Задача алгоритма — научиться не только действиям, но и тому, что и когда передавать. Обучение часто строится на принципах дифференцируемой коммуникации с backpropagation через коммуникационный канал.

Парадигма Centralized Training with Decentralized Execution (CTDE)

Этот подход стал краеугольным камнем современных алгоритмов MARL. Его суть:

Централизованное обучение (Training): В процессе обучения доступна глобальная информация (полное состояние среды s, действия всех агентов). Это позволяет использовать мощные централизованные функции-критики (как в MADDPG, MAPPO) или смешивающие сети (как в QMIX), которые стабилизируют обучение и решают проблему кредитного присвоения.
Децентрализованное исполнение (Execution): При тестировании и применении каждый агент принимает решения исключительно на основе своей локальной истории наблюдений oⁱ_t. Это соответствует реалистичным сценариям и требованиям масштабируемости.

CTDE эффективно разделяет проблемы обучения сложной совместной стратегии и ограничений на информацию во время исполнения.

Практические аспекты и инструменты

Для реализации MARL с неполной информацией используются фреймворки и среды:

Среды: StarCraft II (SMAC), Multi-Agent Particle Environment, Hanabi Challenge, Pommerman, Poker AI (No-Limit Texas Hold’em).
Фреймворки: PyMARL (на базе PyTorch), RLlib (на базе Ray), EPyMARL.

При обучении критически важна правильная постановка эксперимента: использование множества случайных seed’ов, оценка как средней производительности, так и ее дисперсии, тестирование на отдельном наборе карт или конфигураций.

Ответы на часто задаваемые вопросы (FAQ)

В чем принципиальная разница между MARL с полной и неполной информацией?

При полной информации (полностью наблюдаемая среда) каждый агент видит полное состояние среды s. Это снимает проблему вывода о состоянии и часто позволяет использовать более простые алгоритмы, основанные на марковских свойствах. Неполная информация требует от агента работы с историями наблюдений, что принципиально меняет задачу, делая ее не-Markovian с точки зрения агента, и требует механизмов памяти или поддержания belief state.

Всегда ли CTDE — лучший подход?

CTDE является мощным и популярным подходом, но он не всегда применим. Он требует возможности доступа к глобальной информации на этапе обучения, что может быть невозможно в некоторых распределенных системах с приватными данными. В таких случаях приходится использовать полностью децентрализованные методы (как IQL), которые часто менее стабильны и требуют более тщательной настройки.

Как MARL с неполной информацией связан с теорией игр?

MARL, особенно в конкурентных или смешанных сценариях, тесно связан с теорией игр. POSG — это обобщение динамических игр с неполной информацией. Цели обучения в MARL часто формулируются как поиск равновесий (например, Nash Equilibrium). Алгоритмы, такие как LOLA или методы на основе no-regret learning, прямо заимствуют концепции из теории игр для достижения более устойчивых решений.

Какие основные метрики используются для оценки алгоритмов MARL?

Средний совокупный возврат (Average Episode Return): Основная метрика, особенно в кооперативных средах.
Процент побед (Win Rate): В конкурентных средах против фиксированных оппонентов или самоигры.
Скорость обучения (Sample Efficiency): Количество эпизодов или взаимодействий со средой, необходимое для достижения заданного уровня производительности.
Устойчивость (Robustness): Производительность против разнообразных, невиданных во время обучения, стратегий оппонентов.
Справедливость (Fairness): В смешанных средах — отсутствие эксплуатации одних агентов другими.

Каковы главные нерешенные проблемы в этой области?

Масштабируемость до большого числа агентов: Большинство алгоритмов плохо масштабируются за пределы десятков агентов из-за взрыва размерности.
Обобщение на новых агентов и динамические составы команд: Агенты, обученные для работы в команде из N агентов, часто не могут эффективно взаимодействовать в команде из M агентов или с новыми, незнакомыми партнерами.
Поиск общего равновесия, а не локальных оптимумов: Алгоритмы часто сходятся к субоптимальным равновесиям, особенно в сложных игровых средах с множеством агентов.
Интерпретируемость и безопасность: Понимание того, чему научились агенты, и гарантии безопасности их совместного поведения в критических приложениях.

Обучение в условиях multi-agent reinforcement learning с неполной информацией