На этой неделе китайская компания Tencent анонсировала свою новую открыто-исходную ИИ-модель HunyuanWorld-Voyager. Эта инновационная технология позволяет пользователям генерировать 3D-видеоряд всего на основе одного изображения, управляя движением камеры для «изучения» виртуальных сцен. В данной статье рассматриваются основные особенности и возможности модели, а также ее ограничения.
Что такое HunyuanWorld-Voyager?
- Инновационный алгоритм: HunyuanWorld-Voyager генерирует видео в формате RGB и информацию о глубине (RGB-D), позволяя создавать 3D-реконструкции без традиционного моделирования.
- Эффект 3D: Хотя модель не создает настоящие 3D-модели, она генерирует 2D-видеокадры с пространственной согласованностью, создавая иллюзию реального 3D-пространства.
По данным Tencent, модель может создавать видеосеквенции продолжительностью до нескольких минут, сохраняя положение объектов при перемещении камеры.
Технология генерации видео
- Процесс генерации: Алгоритм создает 49 кадров за раз, что соответствует примерно двум секундам видео. Эти кадры могут объединяться в более длинные последовательности.
- Данные о глубине: Генерация включает карту глубины, которая может быть преобразована в 3D-облака точек для дальнейшей реконструкции.
Каждый кадр создается на основе заданной пользователем траектории движения камеры, что позволяет пользователю выбирать направление и скорость движения.
Особенности архитектуры модели
- Обучение на больших данных: Для обучения HunyuanWorld-Voyager использовались более 100 тыс. видеоклипов, включая сцены из Unreal Engine, что позволило алгоритму имитировать движение камер в видеоиграх.
- Пространственная согласованность: В отличие от других генераторов, модель способна поддерживать пространственную согласованность благодаря добавлению обратной геометрической связи.
«HunyuanWorld-Voyager обучен распознавать и воспроизводить закономерности пространственной согласованности.»
Ограничения и возможности
- Проблемы с обобщением: Основным ограничением всех ИИ-моделей является их способность обобщать паттерны только на основе данных обучения, что затрудняет применение в новых ситуациях.
- Геометрические ограничения: Модель может сохранять согласованность в течение нескольких минут, но имеет сложности с поворотами на 360°, где ошибки могут накапливаться.
Tencent рекомендует использовать значительные вычислительные мощности для эффективной работы HunyuanWorld-Voyager: минимум 60 Гбайт видеопамяти для разрешения 540p или 80 Гбайт для повышенного качества.
«Модель является частью более масштабной экосистемы Tencent Hunyuan, включающей алгоритмы для генерации 3D-объектов и видео.»
В заключение, HunyuanWorld-Voyager представляет собой значительный шаг вперед в области генерации контента с использованием искусственного интеллекта. Эта модель открывает новые горизонты для разработчиков игр и специалистов по визуализации.