Обучение в условиях Multi-Agent Reinforcement Learning с неполной информацией
Multi-Agent Reinforcement Learning (MARL) — это раздел машинного обучения, изучающий, как несколько автономных агентов обучаются принимать решения в общей среде. Каждый агент стремится максимизировать свой собственный совокупный выигрыш (reward), при этом его действия влияют как на среду, так и на процесс обучения других агентов. Ситуация значительно усложняется в условиях неполной информации (Imperfect Information), когда у агентов нет полного доступа к состоянию среды или к приватной информации других агентов. Это создает фундаментальные проблемы, связанные с нестационарностью, координацией, конкуренцией и необходимостью вывода о скрытых состояниях.
Формальная постановка задачи: POSG и расширения
Наиболее общей моделью для MARL с неполной информацией является Частично Наблюдаемый Стохастический Игра (Partially Observable Stochastic Game, POSG). Она обобчает как Dec-POMDP (для кооперативных агентов), так и собственно POSG для смешанных сценариев.
POSG определяется кортежем: <S, A1,…,AN, P, R1,…,RN, Ω1,…,ΩN, O, γ>, где:
- S — множество состояний среды.
- Ai — множество действий агента i.
- P(s’|s, a1,…,aN) — функция перехода состояний.
- Ri(s, a1,…,aN, s’) — функция вознаграждения агента i.
- Ωi — множество частных наблюдений агента i.
- O(o1,…,oN | s, a1,…,aN, s’) — функция наблюдений.
- γ — коэффициент дисконтирования.
- Independent Q-Learning (IQL): Агенты обучаются независимо, рассматривая других как часть среды. Просто, но нестационарность среды часто приводит к нестабильности.
- QMIX (кооперативный случай): Использует централизованное обучение (Centralized Training) и децентрализованное исполнение (Decentralized Execution, CTDE). Индивидуальные Q-функции смешиваются через нелинейную (монотонную) функцию от общего состояния, что позволяет оценивать совместные действия, но исполнять политики локально. Для работы с частичной наблюдаемостью агенту часто подается рекуррентная нейросеть (RNN).
- MAPPO (Multi-Agent PPO): Многопользовательское расширение алгоритма Proximal Policy Optimization. Использует парадигму CTDE: централизованная функция ценности (critic) использует глобальную информацию на этапе обучения, в то время как политика (actor) использует только локальные наблюдения агента. Критик помогает снизить дисперсию градиентов и стабилизировать обучение.
- MADDPG: Алгоритм для смешанных (кооперативно-конкурентных) сценариев. Каждый агент имеет свой актор (децентрализованная политика, использующая только его собственные наблюдения) и критика, который на этапе обучения имеет доступ к наблюдениям и действиям всех агентов. Это делает среду стационарной для критика, что облегчает обучение.
- Learning with Opponent Modeling (LOLA): Агенты не только обучаются, но и моделируют градиенты обучения оппонентов, пытаясь предвидеть и адаптироваться к их будущим изменениям, чтобы достичь более выгодных для себя равновесий.
- Belief Learning: Агент поддерживает belief (убеждение) о типе или стратегии других агентов, обновляя его на основе их наблюдаемых действий, и планирует свои действия с учетом этого убеждения. Это сближает MARL с методами решения частично наблюдаемых игр из теории игр.
- Централизованное обучение (Training): В процессе обучения доступна глобальная информация (полное состояние среды s, действия всех агентов). Это позволяет использовать мощные централизованные функции-критики (как в MADDPG, MAPPO) или смешивающие сети (как в QMIX), которые стабилизируют обучение и решают проблему кредитного присвоения.
- Децентрализованное исполнение (Execution): При тестировании и применении каждый агент принимает решения исключительно на основе своей локальной истории наблюдений oit. Это соответствует реалистичным сценариям и требованиям масштабируемости.
- Среды: StarCraft II (SMAC), Multi-Agent Particle Environment, Hanabi Challenge, Pommerman, Poker AI (No-Limit Texas Hold’em).
- Фреймворки: PyMARL (на базе PyTorch), RLlib (на базе Ray), EPyMARL.
- Средний совокупный возврат (Average Episode Return): Основная метрика, особенно в кооперативных средах.
- Процент побед (Win Rate): В конкурентных средах против фиксированных оппонентов или самоигры.
- Скорость обучения (Sample Efficiency): Количество эпизодов или взаимодействий со средой, необходимое для достижения заданного уровня производительности.
- Устойчивость (Robustness): Производительность против разнообразных, невиданных во время обучения, стратегий оппонентов.
- Справедливость (Fairness): В смешанных средах — отсутствие эксплуатации одних агентов другими.
- Масштабируемость до большого числа агентов: Большинство алгоритмов плохо масштабируются за пределы десятков агентов из-за взрыва размерности.
- Обобщение на новых агентов и динамические составы команд: Агенты, обученные для работы в команде из N агентов, часто не могут эффективно взаимодействовать в команде из M агентов или с новыми, незнакомыми партнерами.
- Поиск общего равновесия, а не локальных оптимумов: Алгоритмы часто сходятся к субоптимальным равновесиям, особенно в сложных игровых средах с множеством агентов.
- Интерпретируемость и безопасность: Понимание того, чему научились агенты, и гарантии безопасности их совместного поведения в критических приложениях.
На каждом шаге агент i получает частное наблюдение oi∈Ωi, коррелированное с состоянием s, и выбирает действие ai. Его цель — максимизировать ожидаемую дисконтированную сумму своих вознаграждений. Ключевая сложность в том, что агент не знает состояния s и наблюдений/намерений других агентов, что делает среду нестационарной с его точки зрения.
Ключевые вызовы и проблемы
1. Нестационарность (Non-Stationarity)
В одноагентном RL среда считается стационарной: функция перехода P(s’|s,a) и вознаграждения R(s,a) не меняются со временем. В MARL с точки зрения одного агента другие агенты являются частью среды, и по мере их обучения среда меняется, нарушая предположение о стационарности. Это делает неэффективными алгоритмы, напрямую заточенные под стационарные среды (например, стандартный Q-learning).
2. Проклятие размерности (Curse of Dimensionality)
Пространство совместных действий A = A1 × … × AN растет экспоненциально с числом агентов. Это делает невозможным прямое обобщение методов, оперирующих с Q(s, a) для совместного действия a. Требуются методы для факторизации или аппроксимации.
3. Частичная наблюдаемость и вывод о состоянии (State Inference)
Агент должен поддерживать внутреннее представление (belief state) о текущем состоянии среды и, возможно, о типах или стратегиях других агентов, основываясь на истории своих наблюдений и действий. Это требует элементов планирования и обучения с памятью.
4. Проблема кредитного присвоения (Credit Assignment)
В кооперативных сценариях, когда агенты получают общее вознаграждение, сложно определить, какие именно действия каждого агента привели к успеху или неудаче. Эта проблема усугубляется неполной информацией, так как цепочка причинно-следственных связей еще более скрыта.
5. Исследование (Exploration) в многомерном пространстве
Координация исследовательских усилий между агентами становится критически важной. Наивное независимое исследование может быть неэффективным, а в соревновательных сценариях — приводить к преждевременной конвергенции к неоптимальным равновесиям.
Основные классы алгоритмов и подходы
1. Алгоритмы на основе Ценностной функции (Value-Based Methods)
Эти методы пытаются обобстить Q-learning на многопользовательский случай. Основная идея — обучение Q-функции, которая зависит от наблюдений и действий агента, возможно, с учетом информации о других агентах.
| Алгоритм | Тип сценария | Подход к нестационарности | Обработка неполной информации | Недостатки |
|---|---|---|---|---|
| IQL | Любой | Игнорирует | RNN в истории наблюдений | Нестабильность, отсутствие координации |
| QMIX | Кооперативный | CTDE: стационарность на этапе обучения | Индивидуальные RNN, общее состояние в обучении | Только кооперация, монотонное смешение |
| VDN | Кооперативный | CTDE | Аналогично QMIX | Аддитивное смешение Q-функций (частный случай QMIX) |
2. Алгоритмы на основе Политик (Policy-Based Methods)
Эти методы напрямую оптимизируют параметризованную политику агента.
3. Подходы с выводом о моделях других агентов (Model-Based & Theory of Mind)
Для эффективного взаимодействия в условиях неполной информации агенты могут явно моделировать намерения, цели или политики других агентов.
4. Коммуникационные протоколы (Communication Protocols)
В некоторых задачах агентам разрешено обмениваться ограниченными сообщениями для компенсации неполной информации. Задача алгоритма — научиться не только действиям, но и тому, что и когда передавать. Обучение часто строится на принципах дифференцируемой коммуникации с backpropagation через коммуникационный канал.
Парадигма Centralized Training with Decentralized Execution (CTDE)
Этот подход стал краеугольным камнем современных алгоритмов MARL. Его суть:
CTDE эффективно разделяет проблемы обучения сложной совместной стратегии и ограничений на информацию во время исполнения.
Практические аспекты и инструменты
Для реализации MARL с неполной информацией используются фреймворки и среды:
При обучении критически важна правильная постановка эксперимента: использование множества случайных seed’ов, оценка как средней производительности, так и ее дисперсии, тестирование на отдельном наборе карт или конфигураций.
Ответы на часто задаваемые вопросы (FAQ)
В чем принципиальная разница между MARL с полной и неполной информацией?
При полной информации (полностью наблюдаемая среда) каждый агент видит полное состояние среды s. Это снимает проблему вывода о состоянии и часто позволяет использовать более простые алгоритмы, основанные на марковских свойствах. Неполная информация требует от агента работы с историями наблюдений, что принципиально меняет задачу, делая ее не-Markovian с точки зрения агента, и требует механизмов памяти или поддержания belief state.
Всегда ли CTDE — лучший подход?
CTDE является мощным и популярным подходом, но он не всегда применим. Он требует возможности доступа к глобальной информации на этапе обучения, что может быть невозможно в некоторых распределенных системах с приватными данными. В таких случаях приходится использовать полностью децентрализованные методы (как IQL), которые часто менее стабильны и требуют более тщательной настройки.
Как MARL с неполной информацией связан с теорией игр?
MARL, особенно в конкурентных или смешанных сценариях, тесно связан с теорией игр. POSG — это обобщение динамических игр с неполной информацией. Цели обучения в MARL часто формулируются как поиск равновесий (например, Nash Equilibrium). Алгоритмы, такие как LOLA или методы на основе no-regret learning, прямо заимствуют концепции из теории игр для достижения более устойчивых решений.
Комментарии