MAPF-GPT: Имитационное обучение для многоагентного поиска путей.MAPF-GPT – это …
MAPF-GPT – это метод решения задачи планирования движения агентов (MAPF) с помощью обучения с подкреплением. Он включает в себя четыре основных этапа: создание сценариев MAPF, генерацию решений, токенизацию решений и выполнение основного цикла обучения.
Практическая ценность MAPF-GPT – его способность решать задачи многоагентного планирования маршрутов в децентрализованном режиме, без необходимости в дополнительных модулях коммуникации или планирования.
Эти способности делают MAPF-GPT перспективным решением для реальных секторов: склады и логистические центры, транспортные системы, железнодорожная диспетчеризация и другие сферы, где требуется координация движения множества агентов в общем пространстве.
Для создания сценариев MAPF используется инструмент POGEMA (Probabilistic Obstacle Generation and Environment Modeling Algorithm), который позволяет генерировать карты с препятствиями и создавать экземпляры задачи MAPF. Для обучения моделей было создано 3,75 миллиона экземпляров задачи MAPF на картах размером от 17×17 до 21×21 с 16, 24 или 32 агентами.
За генерацию решений отвечает алгоритм La-CAM (Learning-based Constraint Acquisition and Modeling), – один из лучших решателей задачи MAPF. Алгоритм генерирует планы движения для каждого агента, которые затем используются для создания пар “наблюдение-действие”.
Токенизация решений преобразует пары “наблюдение-действие” в последовательность специальных символов, которые затем используются для обучения модели. Модель состоит из 256 токенов, которые кодируют местное наблюдение агента. Первая часть наблюдения включает в себя информацию о карте в окрестности агента, а вторая часть включает в себя информацию об агенте и ближайших агентах.
Всего в словаре используется 67 различных токенов, включая токены для числовых значений (стоимость пути), и токены для буквальных значений (действия).
Диапазон числовых значений составляет [-20. .. 20], в соответствии с размерами карт, используемых в наборе данных для обучения.
Командой разработки метода представлены 3 модели: