Пока МТС Web Services анонсирует масштабные планы по развитию Physical AI, первые результаты уже есть. Ведущий RnD-разработчик компании Артем Лыков, который также работает в лаборатории интеллектуальной космической робототехники Сколтеха, представил CognitiveDrone – первую в мире VLA-модель для летающих роботов на базе открытой архитектуры OpenVLA.
Система объединяет визуальное восприятие, понимание естественного языка и выполнение физических действий, позволяя дронам принимать решения автономно.
Особенность разработки – двухкомпонентная архитектура. Базовая VLA-модель отвечает за управление полетом с частотой 10 Гц, а добавленный модуль рассуждений на базе визуально-языковой модели Qwen2.5-VL (2 Гц) берет на себя интерпретацию сложных инструкций и визуального контекста. В результате качество решения когнитивных задач выросло на 17,6%. Для обучения системы инженеры собрали датасет из более чем 8000 смоделированных эпизодов и создали открытый бенчмарк CognitiveDroneBench.
Все наработки, включая код, веса моделей и скрипты для обучения, выложены в открытый доступ. Это не просто научный эксперимент, а часть стратегии МТС по созданию универсальных программных решений для робототехники. На прошедшей недавно конференции РИММ компания представила комплексное предложение «Робот как сервис» (RaaS), позволяющее бизнесу получать роботов с ИИ по подписке без крупных первоначальных затрат.
