Tencent представляет HunyuanWorld-Voyager: ИИ для создания 3D-миров из изображений

На этой неделе китайская компания Tencent анонсировала свою новую открыто-исходную ИИ-модель HunyuanWorld-Voyager. Эта инновационная технология позволяет пользователям генерировать 3D-видеоряд всего на основе одного изображения, управляя движением камеры для «изучения» виртуальных сцен. В данной статье рассматриваются основные особенности и возможности модели, а также ее ограничения.

Что такое HunyuanWorld-Voyager?

Инновационный алгоритм: HunyuanWorld-Voyager генерирует видео в формате RGB и информацию о глубине (RGB-D), позволяя создавать 3D-реконструкции без традиционного моделирования.
Эффект 3D: Хотя модель не создает настоящие 3D-модели, она генерирует 2D-видеокадры с пространственной согласованностью, создавая иллюзию реального 3D-пространства.

По данным Tencent, модель может создавать видеосеквенции продолжительностью до нескольких минут, сохраняя положение объектов при перемещении камеры.

Технология генерации видео

Процесс генерации: Алгоритм создает 49 кадров за раз, что соответствует примерно двум секундам видео. Эти кадры могут объединяться в более длинные последовательности.
Данные о глубине: Генерация включает карту глубины, которая может быть преобразована в 3D-облака точек для дальнейшей реконструкции.

Каждый кадр создается на основе заданной пользователем траектории движения камеры, что позволяет пользователю выбирать направление и скорость движения.

Особенности архитектуры модели

Обучение на больших данных: Для обучения HunyuanWorld-Voyager использовались более 100 тыс. видеоклипов, включая сцены из Unreal Engine, что позволило алгоритму имитировать движение камер в видеоиграх.
Пространственная согласованность: В отличие от других генераторов, модель способна поддерживать пространственную согласованность благодаря добавлению обратной геометрической связи.

«HunyuanWorld-Voyager обучен распознавать и воспроизводить закономерности пространственной согласованности.»

Ограничения и возможности

Проблемы с обобщением: Основным ограничением всех ИИ-моделей является их способность обобщать паттерны только на основе данных обучения, что затрудняет применение в новых ситуациях.
Геометрические ограничения: Модель может сохранять согласованность в течение нескольких минут, но имеет сложности с поворотами на 360°, где ошибки могут накапливаться.

Tencent рекомендует использовать значительные вычислительные мощности для эффективной работы HunyuanWorld-Voyager: минимум 60 Гбайт видеопамяти для разрешения 540p или 80 Гбайт для повышенного качества.

«Модель является частью более масштабной экосистемы Tencent Hunyuan, включающей алгоритмы для генерации 3D-объектов и видео.»

В заключение, HunyuanWorld-Voyager представляет собой значительный шаг вперед в области генерации контента с использованием искусственного интеллекта. Эта модель открывает новые горизонты для разработчиков игр и специалистов по визуализации.

Похожее