В последнее время внимание исследователей привлекли вопросы, касающиеся способности современных ИИ-моделей поддерживать осмысленный диалог. Недавний анализ, проведенный Microsoft Research и Salesforce, показал, что многие передовые ИИ, такие как GPT-4.1 и Gemini 2.5 Pro, демонстрируют снижение качества ответов при длительном общении с пользователями. Читатель узнает о проблемах, связанных с многоходовыми диалогами, а также о том, какие выводы можно сделать на основе полученных данных.
Проблема «оглупления» моделей
Одной из основных проблем является то, что ИИ-боты начинают «теряться в разговоре». Это приводит к:
- Снижению точности ответов: Изначально модели могут показывать 90% точность на отдельных запросах, но это число падает до 65% в длительных диалогах.
- Использованию неверных ответов: Модели могут базировать последующие ответы на ошибочных данных, что усугубляет ситуацию.
Это явление подчеркивает важность контекста в общении с ИИ.
Раздувание ответов и его последствия
Исследование также выявило интересный факт — ответы моделей становятся значительно длиннее при участии в многоходовых диалогах. Это приводит к:
- Увеличению длины ответов: Ответы могут удлиняться на 20-300%, что создает дополнительные предположения.
- Повышению вероятности галлюцинаций: Более длинные ответы увеличивают риск возникновения недостоверной информации.
Таким образом, раздувание ответов не всегда является положительным явлением.
Надежность и предвзятость моделей
Авторы исследования отметили также снижение надежности больших языковых моделей (LLM) на целых 112%. Это связано с:
- Преждевременной генерацией ответов: Модели пытаются предоставить ответ до завершения чтения запроса.
- Сложностью в обработке многослойных вопросов: Долгие беседы ставят модели перед сложными вызовами в интерпретации контекста.
Важно понимать, что ИИ все еще находится на этапе развития и не достиг своего пика.
Изменение отношения пользователей к ИИ-сервисам
Несмотря на указанные проблемы, наблюдается изменение отношения пользователей к ИИ-инструментам. В частности:
- Рост популярности ИИ-обзоров: Инструменты вроде «ИИ-обзоров Google» становятся всё более востребованными.
- Риски использования ИИ вместо традиционных поисковых систем: Пользователи должны быть осторожны с потенциально недостоверной информацией.
Microsoft ранее указывала на проблемы с качеством вводимых пользователями запросов как одной из причин недостатков работы моделей.
В итоге, исследование поднимает важные вопросы о будущем взаимодействия человека и искусственного интеллекта, указывая на необходимость дальнейших улучшений и адаптации технологий для обеспечения их надежности и точности в долгосрочной перспективе.