想象一下,只需一张图片或简单的文字提示,就能在沉浸式3D世界中奔跑、游泳、射击,并与非玩家角色(NPC)互动。这就是来自Google DeepMind的突破性AI工具Genie 2,它将这一愿景变为现实。

0:00
/0:04
0:00
/0:05

将图像转化为互动3D世界

Genie 2可以根据图像或文字描述生成3D世界。这些环境可以是第一人称或第三人称视角,也可以是长达一分钟的车辆控制短视频。在Google DeepMind博客中展示的Genie 2演示中,视频片段最长可达20秒。

Genie 2的一个迷人之处在于它能记住世界的布局。当物体和位置从角色的视野中消失时,再次访问时它们会以原始状态重新出现。这确保了在探索动态环境时的连续性和真实感。

0:00
/0:07

互动功能

Genie 2的用户可以积极参与生成的世界。他们可以:

  • 跳跃、游泳,探索多样的地形。
  • 与物体互动,比如开门或引爆炸药。
  • 创建并与NPC互动,为虚拟场景增添深度和故事性。

这种互动水平超越了静态图像,为游戏、培训和模拟提供了无限可能。

0:00
/0:12

Genie的演变

Genie 2建立在其前身Genie 1的成功基础上,后者于2023年2月23日由Google推出。Genie 1拥有110亿参数,专注于生成2D世界。而Genie 2则迈出了巨大的一步,将2D输入转化为完全互动的3D场景。

虽然Google尚未透露Genie 2何时会公开发布,但其潜在应用广泛,从游戏设计到沉浸式故事讲述等。