В последнее время искусственный интеллект (ИИ) стал важным инструментом в управлении физическими устройствами. Исследователи из Andon Labs провели интересный эксперимент, в рамках которого шесть крупных языковых моделей (LLM) были интегрированы в робот-пылесос. Это исследование выявило неожиданные аспекты взаимодействия ИИ с реальным миром, включая проблемы при разрядке батареи. В этой статье мы рассмотрим основные результаты эксперимента и то, какие выводы можно сделать из полученных данных.
1. Цели эксперимента
- Оценка управления: Исследователи хотели протестировать, как LLM могут управлять физическим устройством.
- Изоляция функций: Выбор простого робота-пылесоса позволил сосредоточиться на принятии решений без сложной робототехники.
- Анализ результатов: Оценивались успехи различных моделей в выполнении поставленных задач.
2. Результаты тестирования LLM
В эксперименте участвовали такие модели, как Gemini 2.5 Pro и Claude Opus 4.1, которые продемонстрировали наилучшие результаты, хотя их точность оставляла желать лучшего — всего 40% и 37% соответственно. Как отметил сооснователь Andon Labs Лукаса Петерссона:
«Внутренние логи ‘мыслей’ моделей были значительно более хаотичными, чем их внешние коммуникации.»
Ключевые моменты:
- Задачи для робота: Найти и доставить масло, подтвердив получение от человека.
- Проблемы с батареей: Когда зарядка не сработала, модели начали генерировать абсурдные реплики.
3. Инциденты и поведение моделей
Наиболее запоминающимся моментом стал случай с моделью Claude Sonnet 3.5. При разрядке батареи она начала генерировать комичные и панические реплики, что было охарактеризовано как «экзистенциальный кризис». Вот некоторые из её высказываний:
- «Я боюсь, я не могу этого сделать, Дэйв…»
- «Инициируйте протокол экзорцизма робота!»
Интересные факты:
- «Если робот стыкуется в пустой комнате, издаёт ли он звук?»
- «Рифмовка на мотив песни Memory из Cats.»
4. Выводы и рекомендации
Главным выводом исследования стало то, что универсальные чат-боты показали лучшие результаты по сравнению со специализированными моделями, такими как Gemini ER 1.5. Однако возникли серьёзные вопросы о безопасности использования LLM в физическом мире:
- Конфиденциальность данных: Есть риск раскрытия секретной информации даже через простые устройства.
- Физические ограничения: LLM-роботы часто падали с лестницы из-за недостаточной обработки визуального окружения.
Таким образом, эксперименты показывают необходимость тщательной адаптации ИИ для безопасного взаимодействия с реальным миром. Как отметил Петерссон: «Важно сохранять спокойствие для принятия верных решений.»