Исследование Microsoft: Почему ИИ-боты теряют эффективность в длительных диалогах

В последнее время внимание исследователей привлекли вопросы, касающиеся способности современных ИИ-моделей поддерживать осмысленный диалог. Недавний анализ, проведенный Microsoft Research и Salesforce, показал, что многие передовые ИИ, такие как GPT-4.1 и Gemini 2.5 Pro, демонстрируют снижение качества ответов при длительном общении с пользователями. Читатель узнает о проблемах, связанных с многоходовыми диалогами, а также о том, какие выводы можно сделать на основе полученных данных.

Проблема «оглупления» моделей

Одной из основных проблем является то, что ИИ-боты начинают «теряться в разговоре». Это приводит к:

Снижению точности ответов: Изначально модели могут показывать 90% точность на отдельных запросах, но это число падает до 65% в длительных диалогах.
Использованию неверных ответов: Модели могут базировать последующие ответы на ошибочных данных, что усугубляет ситуацию.

Это явление подчеркивает важность контекста в общении с ИИ.

Раздувание ответов и его последствия

Исследование также выявило интересный факт — ответы моделей становятся значительно длиннее при участии в многоходовых диалогах. Это приводит к:

Увеличению длины ответов: Ответы могут удлиняться на 20-300%, что создает дополнительные предположения.
Повышению вероятности галлюцинаций: Более длинные ответы увеличивают риск возникновения недостоверной информации.

Таким образом, раздувание ответов не всегда является положительным явлением.

Надежность и предвзятость моделей

Авторы исследования отметили также снижение надежности больших языковых моделей (LLM) на целых 112%. Это связано с:

Преждевременной генерацией ответов: Модели пытаются предоставить ответ до завершения чтения запроса.
Сложностью в обработке многослойных вопросов: Долгие беседы ставят модели перед сложными вызовами в интерпретации контекста.

Важно понимать, что ИИ все еще находится на этапе развития и не достиг своего пика.

Изменение отношения пользователей к ИИ-сервисам

Несмотря на указанные проблемы, наблюдается изменение отношения пользователей к ИИ-инструментам. В частности:

Рост популярности ИИ-обзоров: Инструменты вроде «ИИ-обзоров Google» становятся всё более востребованными.
Риски использования ИИ вместо традиционных поисковых систем: Пользователи должны быть осторожны с потенциально недостоверной информацией.

Microsoft ранее указывала на проблемы с качеством вводимых пользователями запросов как одной из причин недостатков работы моделей.

В итоге, исследование поднимает важные вопросы о будущем взаимодействия человека и искусственного интеллекта, указывая на необходимость дальнейших улучшений и адаптации технологий для обеспечения их надежности и точности в долгосрочной перспективе.

Похожее