MAPF-GPT: Имитационное обучение для многоагентного поиска путей.MAPF-GPT – это …

MAPF-GPT: Имитационное обучение для многоагентного поиска путей.MAPF-GPT - это ...

🌟 MAPF-GPT: Имитационное обучение для многоагентного поиска путей.

MAPF-GPT – это метод решения задачи планирования движения агентов (MAPF) с помощью обучения с подкреплением. Он включает в себя четыре основных этапа: создание сценариев MAPF, генерацию решений, токенизацию решений и выполнение основного цикла обучения.

Практическая ценность MAPF-GPT – его способность решать задачи многоагентного планирования маршрутов в децентрализованном режиме, без необходимости в дополнительных модулях коммуникации или планирования.

Эти способности делают MAPF-GPT перспективным решением для реальных секторов: склады и логистические центры, транспортные системы, железнодорожная диспетчеризация и другие сферы, где требуется координация движения множества агентов в общем пространстве.

Для создания сценариев MAPF используется инструмент POGEMA (Probabilistic Obstacle Generation and Environment Modeling Algorithm), который позволяет генерировать карты с препятствиями и создавать экземпляры задачи MAPF. Для обучения моделей было создано 3,75 миллиона экземпляров задачи MAPF на картах размером от 17×17 до 21×21 с 16, 24 или 32 агентами.

За генерацию решений отвечает алгоритм La-CAM (Learning-based Constraint Acquisition and Modeling), – один из лучших решателей задачи MAPF. Алгоритм генерирует планы движения для каждого агента, которые затем используются для создания пар “наблюдение-действие”.

Токенизация решений преобразует пары “наблюдение-действие” в последовательность специальных символов, которые затем используются для обучения модели. Модель состоит из 256 токенов, которые кодируют местное наблюдение агента. Первая часть наблюдения включает в себя информацию о карте в окрестности агента, а вторая часть включает в себя информацию об агенте и ближайших агентах.

Всего в словаре используется 67 различных токенов, включая токены для числовых значений (стоимость пути), и токены для буквальных значений (действия).
Диапазон числовых значений составляет [-20. .. 20], в соответствии с размерами карт, используемых в наборе данных для обучения.

Командой разработки метода представлены 3 модели:

🟢MAPF-GPT-2M. 2 млн. параметров, время обучения 12 часов, самая компактная и эффективная по ресурсам. Подходит для простых задач;

🟢MAPF-GPT-6M. 6 млн. параметров, время обучения – 50 часов, баланс между точностью и производительностью;

🟢MAPF-GPT-85M. 85 млн. параметров, время обучения – 85 часов, самая крупная и лучшая по качеству решений модель в наборе.

📌Лицензирование : MIT License.

🟡Arxiv
🟡Набор моделей
🖥Github

@ai_machinelearning_big_data

#AI #ML #MAPF #MIPT

View Source

+1
0
+1
0
+1
0
+1
0
+1
0

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *