Тесты подтвердили: Mythos от Anthropic — лидер в поиске уязвимостей, но с недостатками

Искусственный интеллект Mythos от компании Anthropic зарекомендовал себя как один из лучших инструментов для обнаружения программных уязвимостей. Однако, несмотря на свои сильные стороны, модель демонстрирует неоднозначные результаты в других областях. В данной статье мы рассмотрим результаты независимых тестов, проведённых компанией XBOW, и выясним, какую информацию может извлечь читатель о возможностях и ограничениях данного инструмента.

Эффективность поиска уязвимостей

  • Сравнение с конкурентами: Mythos Preview продемонстрировала значительное превосходство над существующими моделями по многим параметрам.
  • Слабые места: При анализе кода изолированно модель сталкивается с трудностями, что требует более глубокого понимания архитектуры системы.
  • Цитата эксперта: Гэри Макгроу отметил, что ошибки программ возникают на пересечении багов и архитектурных изъянов, что подтверждает требования к высокому уровню анализа.

Качество оценок и точность

  • Отсев ложных срабатываний: Mythos успешно фильтрует ложные уязвимости лучше своих предшественников, но иногда пропускает реальные угрозы.
  • Критерии оценки: Модель требует четко сформулированных запросов для достижения лучших результатов.
  • Практическое применение: При анализе нативного кода и реверс-инжиниринге Mythos показала выдающиеся результаты.

Интерактивность и пользовательский интерфейс

  • Работа с визуальным интерфейсом: Хотя точность выбора элементов на экране оставляет желать лучшего, выбор действий в браузере осуществляется эффективно.
  • Примеры использования: Модель уверенно определяет нужный элемент и осуществляет клики в правильных местах интерфейса.

Стоимость и доступность

  • Cравнение стоимости: Mythos Preview будет стоить в пять раз дороже модели Opus, что вызывает вопросы о целесообразности инвестиций.
  • Альтернативные решения: Более дешевые модели могут быть сопоставимы по точности при увеличении времени обработки.
  • Выводы XBOW: При фиксированном бюджете Mythos превосходит Opus 4.6, но уступает GPT5.5 в поиске веб-уязвимостей.

В заключение следует отметить, что Mythos Preview является мощным инструментом для аудита исходного кода и отлично справляется с задачами веб-безопасности. Тем не менее, пользователям стоит учитывать её ограничения при выборе подходящего решения для поиска уязвимостей.