谷歌再下重注：世界模型将迎来“ChatGPT时刻”

xinwen.mobi · 发表于 2025-11-24 10:23:46

谷歌再下重注：世界模型将迎来“ChatGPT时刻”
谷歌DeepMind首席执行官戴密斯·哈萨比斯指着计算机屏幕上实时生成的3D虚拟世界，语气中充满确信：“这就是未来。”

“世界模型是目前我投入最多时间的领域。”谷歌DeepMind首席执行官戴密斯·哈萨比斯（Demis Hassabis）在近期采访中直言，世界模型是通往AGI（通用人工智能）的关键部分。

当被问及世界模型是否会迎来“ChatGPT时刻”时，他给出了肯定的回答。

就在本月，谷歌刚刚发布了备受好评的Gemini 3模型，以1501分登顶LMArena全球排行榜，创下综合能力评估新纪录。

然而，哈萨比斯的视线已经投向更远的方向——世界模型。这位天才科学家、诺贝尔化学奖得主正带领团队投身于AI下一个前沿阵地的探索。

01 何为世界模型：AI的“认知革命”
从本质上来说，世界模型触及的是AI最核心、最本质的分歧——想实现真正的AGI，是应该让AI通过文字“读懂”世界，还是让AI“看懂”世界？

“读懂派”代表如OpenAI，认为只要堆砌的数据资料足够多，智能就能自动涌现。

而“看懂派”则认为大语言模型充其量只是一个强大的文本数据库，记住了海量文本，却完全不理解文本背后的物理世界。

世界模型并非简单的数据存储系统，而是AI对现实世界或虚拟环境的动态理解框架。

它具备三个核心特征：空间认知能力、因果推理能力和时序建模能力。

正如人类大脑构建认知地图一样，世界模型让AI从“空无猜想”变为“活灵活现”，能够在虚拟空间中“预演”各种可能性。

用斯坦福大学教授李飞飞的话来说，世界模型能让“看见”晋升为“推理”，让“感知”转化为“行动”，让“想象”落地为“创造”。

02 谷歌的布局：从Genie到SIMA
哈萨比斯提到的Genie，是谷歌世界模型的“代表作”。短短一年半时间里，DeepMind就将Genie从2D一路升级至能实时生成交互式3D环境的Genie 3。

只需一句话，Genie 3就能在720p分辨率下创造一个用户可以边走边看的动态世界，场景细节能在长达一分钟的记忆中保持连贯。

这种长期一致性维护能力，堪称AI的“记忆宫殿”。

Genie 3最重要的创新是“涌现物理理解”——无需硬编码物理引擎，通过观察学习实现真实的物理模拟。

这意味着AI系统能够像人类大脑一样，不仅“看到”房间里的物体，还能理解它们的空间关系、使用方法，甚至预测移动某个物体会产生什么连锁反应。

除了Genie，谷歌还在开发其他世界模型项目。

哈萨比斯在采访中提到SIMA 2（谷歌一款基于Gemini技术的3D虚拟世界AI智能体）时表示：“我有时候会把它称作‘在Genie思维中玩的SIMA’。”

目前，谷歌内部已将世界模型用于训练其他智能体及机器人，哈萨比斯认为，世界模型会有很多内部研究用例，也将出现一些出色的外部应用。

03 技术挑战：成本与一致性的瓶颈
尽管前景广阔，世界模型的发展仍面临重大挑战。

哈萨比斯预测世界模型将迎来一个“ChatGPT时刻”，但最大的障碍是成本和当前的技术难题。

“我们很想让更多人用上Genie，但它的成本太高了，”哈萨比斯解释道，“基本上，使用它的用户就相当于在创造另一个它。”

他进一步指出，在实现规模化之前，还必须解决诸如“让它的稳定性维持超过一分钟”等挑战。

与“读懂派”交出的ChatGPT、Sora等已引发全球轰动的模型相比，世界模型领域目前确实缺乏现象级消费产品，谷歌的Genie几乎是唯一表现惊艳的案例。

在这种情况下，这条路难免面临“雷声大、雨点小”的质疑声，甚至被部分舆论判定为“皇帝的新衣”。

但哈萨比斯认为，只有解决了高昂的推理/服务成本瓶颈，并实现保持长时间一致性的能力之后，世界模型才能迎来真正的爆发时刻。

04 行业趋势：硅谷研究一线的蔓延
世界模型的追求正迅速在硅谷研究一线中蔓延，成为AI领域新的竞争焦点。

Meta公司首席人工智能科学家、图灵奖得主杨立昆（Yann LeCun）在本周三正式官宣，将于年底从Meta离职。

他计划创立一家专注于“世界模型”技术的初创公司，该技术旨在突破网络数据的局限，通过分析更广泛的信息来更准确地呈现物理世界及其特性。

“AI教母”李飞飞同样也是世界模型的拥趸，其创业公司WorldLabs在一周前推出了首款产品Marble。

这个被其称为“构建空间智能未来的基础”的产品，能从一张图片、一段视频或一句话中构建持久的3D世界。

英伟达此前也已推出世界基础模型开发平台Cosmos，可以帮助开发者直接生成合成数据，用于自动驾驶和机器人研究训练中。

05 战略意义：AGI之路的关键拼图
虽然Genie 3本身并非完整的AGI系统，但它为AGI构建了关键的基础设施。

世界模型技术让AI从传统的逐帧图像生成转向世界状态的构建与演化建模，代表了AI发展的重要里程碑。

这种转变的意义在于认知模式的升级——AI不再是简单的模式匹配，而是具备了对世界的结构化理解能力。

在创意领域，Genie 3正在模糊现实与想象的边界。

它能够构建发光的蘑菇森林、异想天开的树屋村庄、充满活力的彩虹桥等奇幻场景，为游戏原型开发、影视预览制作、交互式叙事提供了全新可能。

除了娱乐和创意产业，世界模型在教育和培训领域同样具有广阔应用前景。

它创造了全新的学习和体验方式，让用户能够“走进”历史，比如站在公元80年的罗马斗兽场观众席上，感受古代角斗士比赛的壮观场面。

谷歌的Genie 3已能够从文本、图像、照片或草图生成可操作的虚拟场景，用户只需提供一张手绘草图，就能生成完整的2D游戏环境。

但在哈萨比斯看来，这仅仅是个开始。

“我们就像是整个谷歌和Alphabet的‘发动机舱’，”哈萨比斯在描述其团队角色时表示，“我们不仅正在构建核心的Gemini模型，还开发包括视频模型、交互式世界模型在内的多种AI模型。”

世界模型是否真的将迎来“ChatGPT时刻”，或许只有时间能给出答案。

但毫无疑问的是，谷歌已经为此押下了重注。

		自动登录	找回密码
密码			立即注册

谷歌再下重注：世界模型将迎来“ChatGPT时刻”

相关帖子