找回密码
 立即注册
搜索

谷歌再下重注:世界模型将迎来“ChatGPT时刻”

[复制链接]
xinwen.mobi 发表于 2025-11-24 10:23:46 | 显示全部楼层 |阅读模式
谷歌再下重注:世界模型将迎来“ChatGPT时刻”
谷歌DeepMind首席执行官戴密斯·哈萨比斯指着计算机屏幕上实时生成的3D虚拟世界,语气中充满确信:“这就是未来。”

“世界模型是目前我投入最多时间的领域。”谷歌DeepMind首席执行官戴密斯·哈萨比斯(Demis Hassabis)在近期采访中直言,世界模型是通往AGI(通用人工智能)的关键部分。

当被问及世界模型是否会迎来“ChatGPT时刻”时,他给出了肯定的回答。

就在本月,谷歌刚刚发布了备受好评的Gemini 3模型,以1501分登顶LMArena全球排行榜,创下综合能力评估新纪录。

然而,哈萨比斯的视线已经投向更远的方向——世界模型。这位天才科学家、诺贝尔化学奖得主正带领团队投身于AI下一个前沿阵地的探索。

01 何为世界模型:AI的“认知革命”
从本质上来说,世界模型触及的是AI最核心、最本质的分歧——想实现真正的AGI,是应该让AI通过文字“读懂”世界,还是让AI“看懂”世界?

“读懂派”代表如OpenAI,认为只要堆砌的数据资料足够多,智能就能自动涌现。

而“看懂派”则认为大语言模型充其量只是一个强大的文本数据库,记住了海量文本,却完全不理解文本背后的物理世界。

世界模型并非简单的数据存储系统,而是AI对现实世界或虚拟环境的动态理解框架。

它具备三个核心特征:空间认知能力、因果推理能力和时序建模能力。

正如人类大脑构建认知地图一样,世界模型让AI从“空无猜想”变为“活灵活现”,能够在虚拟空间中“预演”各种可能性。

用斯坦福大学教授李飞飞的话来说,世界模型能让“看见”晋升为“推理”,让“感知”转化为“行动”,让“想象”落地为“创造”。

02 谷歌的布局:从Genie到SIMA
哈萨比斯提到的Genie,是谷歌世界模型的“代表作”。短短一年半时间里,DeepMind就将Genie从2D一路升级至能实时生成交互式3D环境的Genie 3。

只需一句话,Genie 3就能在720p分辨率下创造一个用户可以边走边看的动态世界,场景细节能在长达一分钟的记忆中保持连贯。

这种长期一致性维护能力,堪称AI的“记忆宫殿”。

Genie 3最重要的创新是“涌现物理理解”——无需硬编码物理引擎,通过观察学习实现真实的物理模拟。

这意味着AI系统能够像人类大脑一样,不仅“看到”房间里的物体,还能理解它们的空间关系、使用方法,甚至预测移动某个物体会产生什么连锁反应。

除了Genie,谷歌还在开发其他世界模型项目。

哈萨比斯在采访中提到SIMA 2(谷歌一款基于Gemini技术的3D虚拟世界AI智能体)时表示:“我有时候会把它称作‘在Genie思维中玩的SIMA’。”

目前,谷歌内部已将世界模型用于训练其他智能体及机器人,哈萨比斯认为,世界模型会有很多内部研究用例,也将出现一些出色的外部应用。

03 技术挑战:成本与一致性的瓶颈
尽管前景广阔,世界模型的发展仍面临重大挑战。

哈萨比斯预测世界模型将迎来一个“ChatGPT时刻”,但最大的障碍是成本和当前的技术难题。

“我们很想让更多人用上Genie,但它的成本太高了,”哈萨比斯解释道,“基本上,使用它的用户就相当于在创造另一个它。”

他进一步指出,在实现规模化之前,还必须解决诸如“让它的稳定性维持超过一分钟”等挑战。

与“读懂派”交出的ChatGPT、Sora等已引发全球轰动的模型相比,世界模型领域目前确实缺乏现象级消费产品,谷歌的Genie几乎是唯一表现惊艳的案例。

在这种情况下,这条路难免面临“雷声大、雨点小”的质疑声,甚至被部分舆论判定为“皇帝的新衣”。

但哈萨比斯认为,只有解决了高昂的推理/服务成本瓶颈,并实现保持长时间一致性的能力之后,世界模型才能迎来真正的爆发时刻。

04 行业趋势:硅谷研究一线的蔓延
世界模型的追求正迅速在硅谷研究一线中蔓延,成为AI领域新的竞争焦点。

Meta公司首席人工智能科学家、图灵奖得主杨立昆(Yann LeCun)在本周三正式官宣,将于年底从Meta离职。

他计划创立一家专注于“世界模型”技术的初创公司,该技术旨在突破网络数据的局限,通过分析更广泛的信息来更准确地呈现物理世界及其特性。

“AI教母”李飞飞同样也是世界模型的拥趸,其创业公司WorldLabs在一周前推出了首款产品Marble。

这个被其称为“构建空间智能未来的基础”的产品,能从一张图片、一段视频或一句话中构建持久的3D世界。

英伟达此前也已推出世界基础模型开发平台Cosmos,可以帮助开发者直接生成合成数据,用于自动驾驶和机器人研究训练中。

05 战略意义:AGI之路的关键拼图
虽然Genie 3本身并非完整的AGI系统,但它为AGI构建了关键的基础设施。

世界模型技术让AI从传统的逐帧图像生成转向世界状态的构建与演化建模,代表了AI发展的重要里程碑。

这种转变的意义在于认知模式的升级——AI不再是简单的模式匹配,而是具备了对世界的结构化理解能力。

在创意领域,Genie 3正在模糊现实与想象的边界。

它能够构建发光的蘑菇森林、异想天开的树屋村庄、充满活力的彩虹桥等奇幻场景,为游戏原型开发、影视预览制作、交互式叙事提供了全新可能。

除了娱乐和创意产业,世界模型在教育和培训领域同样具有广阔应用前景。

它创造了全新的学习和体验方式,让用户能够“走进”历史,比如站在公元80年的罗马斗兽场观众席上,感受古代角斗士比赛的壮观场面。

谷歌的Genie 3已能够从文本、图像、照片或草图生成可操作的虚拟场景,用户只需提供一张手绘草图,就能生成完整的2D游戏环境。

但在哈萨比斯看来,这仅仅是个开始。

“我们就像是整个谷歌和Alphabet的‘发动机舱’,”哈萨比斯在描述其团队角色时表示,“我们不仅正在构建核心的Gemini模型,还开发包括视频模型、交互式世界模型在内的多种AI模型。”

世界模型是否真的将迎来“ChatGPT时刻”,或许只有时间能给出答案。

但毫无疑问的是,谷歌已经为此押下了重注。

回复

使用道具 举报

QQ|周边二手车|手机版|标签|新闻魔笔科技XinWen.MoBi - 海量语音新闻! ( 粤ICP备2024355322号-1|粤公网安备44090202001230号 )

GMT+8, 2025-12-14 15:28 , Processed in 0.049496 second(s), 18 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表