Обучение в условиях Multi-Agent Reinforcement Learning с неполной информацией

Multi-Agent Reinforcement Learning (MARL) — это раздел машинного обучения, изучающий, как несколько автономных агентов обучаются принимать решения в общей среде. Каждый агент стремится максимизировать свой собственный совокупный выигрыш (reward), при этом его действия влияют как на среду, так и на процесс обучения других агентов. Ситуация значительно усложняется в условиях неполной информации (Imperfect Information), когда у агентов нет полного доступа к состоянию среды или к приватной информации других агентов. Это создает фундаментальные проблемы, связанные с нестационарностью, координацией, конкуренцией и необходимостью вывода о скрытых состояниях.

Формальная постановка задачи: POSG и расширения

Наиболее общей моделью для MARL с неполной информацией является Частично Наблюдаемый Стохастический Игра (Partially Observable Stochastic Game, POSG). Она обобчает как Dec-POMDP (для кооперативных агентов), так и собственно POSG для смешанных сценариев.

POSG определяется кортежем: <S, A1,…,AN, P, R1,…,RN, Ω1,…,ΩN, O, γ>, где:

    • S — множество состояний среды.
    • Ai — множество действий агента i.
    • P(s’|s, a1,…,aN) — функция перехода состояний.
    • Ri(s, a1,…,aN, s’) — функция вознаграждения агента i.
    • Ωi — множество частных наблюдений агента i.
    • O(o1,…,oN | s, a1,…,aN, s’) — функция наблюдений.
    • γ — коэффициент дисконтирования.

    На каждом шаге агент i получает частное наблюдение oi∈Ωi, коррелированное с состоянием s, и выбирает действие ai. Его цель — максимизировать ожидаемую дисконтированную сумму своих вознаграждений. Ключевая сложность в том, что агент не знает состояния s и наблюдений/намерений других агентов, что делает среду нестационарной с его точки зрения.

    Ключевые вызовы и проблемы

    1. Нестационарность (Non-Stationarity)

    В одноагентном RL среда считается стационарной: функция перехода P(s’|s,a) и вознаграждения R(s,a) не меняются со временем. В MARL с точки зрения одного агента другие агенты являются частью среды, и по мере их обучения среда меняется, нарушая предположение о стационарности. Это делает неэффективными алгоритмы, напрямую заточенные под стационарные среды (например, стандартный Q-learning).

    2. Проклятие размерности (Curse of Dimensionality)

    Пространство совместных действий A = A1 × … × AN растет экспоненциально с числом агентов. Это делает невозможным прямое обобщение методов, оперирующих с Q(s, a) для совместного действия a. Требуются методы для факторизации или аппроксимации.

    3. Частичная наблюдаемость и вывод о состоянии (State Inference)

    Агент должен поддерживать внутреннее представление (belief state) о текущем состоянии среды и, возможно, о типах или стратегиях других агентов, основываясь на истории своих наблюдений и действий. Это требует элементов планирования и обучения с памятью.

    4. Проблема кредитного присвоения (Credit Assignment)

    В кооперативных сценариях, когда агенты получают общее вознаграждение, сложно определить, какие именно действия каждого агента привели к успеху или неудаче. Эта проблема усугубляется неполной информацией, так как цепочка причинно-следственных связей еще более скрыта.

    5. Исследование (Exploration) в многомерном пространстве

    Координация исследовательских усилий между агентами становится критически важной. Наивное независимое исследование может быть неэффективным, а в соревновательных сценариях — приводить к преждевременной конвергенции к неоптимальным равновесиям.

    Основные классы алгоритмов и подходы

    1. Алгоритмы на основе Ценностной функции (Value-Based Methods)

    Эти методы пытаются обобстить Q-learning на многопользовательский случай. Основная идея — обучение Q-функции, которая зависит от наблюдений и действий агента, возможно, с учетом информации о других агентах.

    • Independent Q-Learning (IQL): Агенты обучаются независимо, рассматривая других как часть среды. Просто, но нестационарность среды часто приводит к нестабильности.
    • QMIX (кооперативный случай): Использует централизованное обучение (Centralized Training) и децентрализованное исполнение (Decentralized Execution, CTDE). Индивидуальные Q-функции смешиваются через нелинейную (монотонную) функцию от общего состояния, что позволяет оценивать совместные действия, но исполнять политики локально. Для работы с частичной наблюдаемостью агенту часто подается рекуррентная нейросеть (RNN).
    Сравнение Value-Based алгоритмов для MARL с неполной информацией
    Алгоритм Тип сценария Подход к нестационарности Обработка неполной информации Недостатки
    IQL Любой Игнорирует RNN в истории наблюдений Нестабильность, отсутствие координации
    QMIX Кооперативный CTDE: стационарность на этапе обучения Индивидуальные RNN, общее состояние в обучении Только кооперация, монотонное смешение
    VDN Кооперативный CTDE Аналогично QMIX Аддитивное смешение Q-функций (частный случай QMIX)

    2. Алгоритмы на основе Политик (Policy-Based Methods)

    Эти методы напрямую оптимизируют параметризованную политику агента.

    • MAPPO (Multi-Agent PPO): Многопользовательское расширение алгоритма Proximal Policy Optimization. Использует парадигму CTDE: централизованная функция ценности (critic) использует глобальную информацию на этапе обучения, в то время как политика (actor) использует только локальные наблюдения агента. Критик помогает снизить дисперсию градиентов и стабилизировать обучение.
    • MADDPG: Алгоритм для смешанных (кооперативно-конкурентных) сценариев. Каждый агент имеет свой актор (децентрализованная политика, использующая только его собственные наблюдения) и критика, который на этапе обучения имеет доступ к наблюдениям и действиям всех агентов. Это делает среду стационарной для критика, что облегчает обучение.

    3. Подходы с выводом о моделях других агентов (Model-Based & Theory of Mind)

    Для эффективного взаимодействия в условиях неполной информации агенты могут явно моделировать намерения, цели или политики других агентов.

    • Learning with Opponent Modeling (LOLA): Агенты не только обучаются, но и моделируют градиенты обучения оппонентов, пытаясь предвидеть и адаптироваться к их будущим изменениям, чтобы достичь более выгодных для себя равновесий.
    • Belief Learning: Агент поддерживает belief (убеждение) о типе или стратегии других агентов, обновляя его на основе их наблюдаемых действий, и планирует свои действия с учетом этого убеждения. Это сближает MARL с методами решения частично наблюдаемых игр из теории игр.

    4. Коммуникационные протоколы (Communication Protocols)

    В некоторых задачах агентам разрешено обмениваться ограниченными сообщениями для компенсации неполной информации. Задача алгоритма — научиться не только действиям, но и тому, что и когда передавать. Обучение часто строится на принципах дифференцируемой коммуникации с backpropagation через коммуникационный канал.

    Парадигма Centralized Training with Decentralized Execution (CTDE)

    Этот подход стал краеугольным камнем современных алгоритмов MARL. Его суть:

    • Централизованное обучение (Training): В процессе обучения доступна глобальная информация (полное состояние среды s, действия всех агентов). Это позволяет использовать мощные централизованные функции-критики (как в MADDPG, MAPPO) или смешивающие сети (как в QMIX), которые стабилизируют обучение и решают проблему кредитного присвоения.
    • Децентрализованное исполнение (Execution): При тестировании и применении каждый агент принимает решения исключительно на основе своей локальной истории наблюдений oit. Это соответствует реалистичным сценариям и требованиям масштабируемости.

    CTDE эффективно разделяет проблемы обучения сложной совместной стратегии и ограничений на информацию во время исполнения.

    Практические аспекты и инструменты

    Для реализации MARL с неполной информацией используются фреймворки и среды:

    • Среды: StarCraft II (SMAC), Multi-Agent Particle Environment, Hanabi Challenge, Pommerman, Poker AI (No-Limit Texas Hold’em).
    • Фреймворки: PyMARL (на базе PyTorch), RLlib (на базе Ray), EPyMARL.

    При обучении критически важна правильная постановка эксперимента: использование множества случайных seed’ов, оценка как средней производительности, так и ее дисперсии, тестирование на отдельном наборе карт или конфигураций.

    Ответы на часто задаваемые вопросы (FAQ)

    В чем принципиальная разница между MARL с полной и неполной информацией?

    При полной информации (полностью наблюдаемая среда) каждый агент видит полное состояние среды s. Это снимает проблему вывода о состоянии и часто позволяет использовать более простые алгоритмы, основанные на марковских свойствах. Неполная информация требует от агента работы с историями наблюдений, что принципиально меняет задачу, делая ее не-Markovian с точки зрения агента, и требует механизмов памяти или поддержания belief state.

    Всегда ли CTDE — лучший подход?

    CTDE является мощным и популярным подходом, но он не всегда применим. Он требует возможности доступа к глобальной информации на этапе обучения, что может быть невозможно в некоторых распределенных системах с приватными данными. В таких случаях приходится использовать полностью децентрализованные методы (как IQL), которые часто менее стабильны и требуют более тщательной настройки.

    Как MARL с неполной информацией связан с теорией игр?

    MARL, особенно в конкурентных или смешанных сценариях, тесно связан с теорией игр. POSG — это обобщение динамических игр с неполной информацией. Цели обучения в MARL часто формулируются как поиск равновесий (например, Nash Equilibrium). Алгоритмы, такие как LOLA или методы на основе no-regret learning, прямо заимствуют концепции из теории игр для достижения более устойчивых решений.

    Какие основные метрики используются для оценки алгоритмов MARL?

    • Средний совокупный возврат (Average Episode Return): Основная метрика, особенно в кооперативных средах.
    • Процент побед (Win Rate): В конкурентных средах против фиксированных оппонентов или самоигры.
    • Скорость обучения (Sample Efficiency): Количество эпизодов или взаимодействий со средой, необходимое для достижения заданного уровня производительности.
    • Устойчивость (Robustness): Производительность против разнообразных, невиданных во время обучения, стратегий оппонентов.
    • Справедливость (Fairness): В смешанных средах — отсутствие эксплуатации одних агентов другими.

    Каковы главные нерешенные проблемы в этой области?

    • Масштабируемость до большого числа агентов: Большинство алгоритмов плохо масштабируются за пределы десятков агентов из-за взрыва размерности.
    • Обобщение на новых агентов и динамические составы команд: Агенты, обученные для работы в команде из N агентов, часто не могут эффективно взаимодействовать в команде из M агентов или с новыми, незнакомыми партнерами.
    • Поиск общего равновесия, а не локальных оптимумов: Алгоритмы часто сходятся к субоптимальным равновесиям, особенно в сложных игровых средах с множеством агентов.
    • Интерпретируемость и безопасность: Понимание того, чему научились агенты, и гарантии безопасности их совместного поведения в критических приложениях.

Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Войти

Зарегистрироваться

Сбросить пароль

Пожалуйста, введите ваше имя пользователя или эл. адрес, вы получите письмо со ссылкой для сброса пароля.