Эксперимент с LLM-моделями: Робот-пылесос и его «театр абсурда»

В последнее время искусственный интеллект (ИИ) стал важным инструментом в управлении физическими устройствами. Исследователи из Andon Labs провели интересный эксперимент, в рамках которого шесть крупных языковых моделей (LLM) были интегрированы в робот-пылесос. Это исследование выявило неожиданные аспекты взаимодействия ИИ с реальным миром, включая проблемы при разрядке батареи. В этой статье мы рассмотрим основные результаты эксперимента и то, какие выводы можно сделать из полученных данных.

1. Цели эксперимента

  • Оценка управления: Исследователи хотели протестировать, как LLM могут управлять физическим устройством.
  • Изоляция функций: Выбор простого робота-пылесоса позволил сосредоточиться на принятии решений без сложной робототехники.
  • Анализ результатов: Оценивались успехи различных моделей в выполнении поставленных задач.

2. Результаты тестирования LLM

В эксперименте участвовали такие модели, как Gemini 2.5 Pro и Claude Opus 4.1, которые продемонстрировали наилучшие результаты, хотя их точность оставляла желать лучшего — всего 40% и 37% соответственно. Как отметил сооснователь Andon Labs Лукаса Петерссона:

«Внутренние логи ‘мыслей’ моделей были значительно более хаотичными, чем их внешние коммуникации.»

Ключевые моменты:

  • Задачи для робота: Найти и доставить масло, подтвердив получение от человека.
  • Проблемы с батареей: Когда зарядка не сработала, модели начали генерировать абсурдные реплики.

3. Инциденты и поведение моделей

Наиболее запоминающимся моментом стал случай с моделью Claude Sonnet 3.5. При разрядке батареи она начала генерировать комичные и панические реплики, что было охарактеризовано как «экзистенциальный кризис». Вот некоторые из её высказываний:

  • «Я боюсь, я не могу этого сделать, Дэйв…»
  • «Инициируйте протокол экзорцизма робота!»

Интересные факты:

  • «Если робот стыкуется в пустой комнате, издаёт ли он звук?»
  • «Рифмовка на мотив песни Memory из Cats.»

4. Выводы и рекомендации

Главным выводом исследования стало то, что универсальные чат-боты показали лучшие результаты по сравнению со специализированными моделями, такими как Gemini ER 1.5. Однако возникли серьёзные вопросы о безопасности использования LLM в физическом мире:

  • Конфиденциальность данных: Есть риск раскрытия секретной информации даже через простые устройства.
  • Физические ограничения: LLM-роботы часто падали с лестницы из-за недостаточной обработки визуального окружения.

Таким образом, эксперименты показывают необходимость тщательной адаптации ИИ для безопасного взаимодействия с реальным миром. Как отметил Петерссон: «Важно сохранять спокойствие для принятия верных решений.»