谷歌云发布最强自研TPU:十年研发,性能四倍于前代
人工智能芯片战场硝烟再起,谷歌用一款名为“Ironwood”的第七代TPU芯片,向整个行业宣告了其算力野心。
谷歌云近日正式宣布,其第七代TPU(张量处理器)芯片“Ironwood” 将在未来几周内上市,为云客户提供强大的AI计算能力。
这款由谷歌自主设计的芯片专为处理最严苛的AI工作负载而生,从大规模模型训练到高容量、低延迟的AI推理,都能轻松胜任。
与第六代TPU(Trillium)相比,Ironwood在训练和推理工作负载下的单芯片性能提升至4倍以上,成为谷歌迄今为止性能最强大、能效最高的定制芯片。
01 十年磨一剑:TPU的进化之路
谷歌研发TPU已历时整整十年。
这一坚持反映了谷歌对AI计算未来的长远布局。
从最初的实验性产品到今天能与业界顶尖AI芯片一较高下的Ironwood,谷歌的TPU走过了一条持续创新的道路。
在人工智能蓬勃发展的今天,TPU已不再是单纯的加速器,而成为谷歌云与竞争对手较量的核心武器。
谷歌云业务在最近一个季度交出了收入151.5亿美元、同比增长34% 的亮眼成绩。
这一增长势头背后,正是包括TPU在内的AI基础设施产品的强劲需求在推动。
02 性能突破:不止于纸面的飞跃
Ironwood的性能提升不仅体现在单一的指标上。
与TPU v5p相比,Ironwood的峰值性能提升了10倍。
而对标前代TPU v6e(Trillium),其单芯片在训练和推理工作负载下的性能均提升至4倍以上。
这种跨越式的性能进步,使得Ironwood成为了谷歌性能最强大、能效最高的定制芯片。
更为重要的是,Ironwood在设计上特别优化了能效表现。
根据谷歌的研究,早前的TPU v4就已被证明比NVIDIA A100 GPU快1.2至1.7倍,同时还能节省1.3至1.9倍的功率。
03 架构革新:超级集群的突破
Ironwood的真正威力在于其可扩展性。
新一代Ironwood TPU可在单个集群中连接多达9,216颗芯片,通过9.6 Tb/s的高速互联和1.77 petabytes的共享高带宽内存(HBM),彻底消除了复杂模型中的数据瓶颈。
这种设计让客户能够运行并扩展当前世界上最大、数据量最密集的模型。
谷歌将这一架构称为“AI超算”(AI Hypercomputer),它统一了计算、存储和网络管理,通过可重构的光路交换技术,能够在硬件中断时自动重新路由,维持高性能和连续运行。
04 应用场景:从训练到推理的时代转变
Ironwood的设计兼顾了AI训练和推理两大类任务。
但谷歌特别强调,当前AI行业的关注点正从训练模型转向与模型之间高效、响应迅速的交互。
谷歌将这一新阶段称为 “推理时代” (age of inference)。
在这一时代,组织的工作重点从训练AI模型转向使用这些模型执行有用的任务。
AI代理(Agentic AI)——当前行业的热词——本质上只是一连串的AI推理任务。
Ironwood特别适合高容量、低延迟的AI推理工作负载,包括实时聊天机器人和AI智能体运行等各种任务。
05 客户背书:Anthropic的百万TPU计划
在AI芯片领域,客户的选择最能说明产品的竞争力。
Anthropic,作为Claude系列模型的创造者,已长期使用谷歌的TPU,并且最近扩大了与谷歌的合作,计划部署超过100万个新的TPU。
Anthropic计算负责人James Bradbury表示:“我们的客户,从财富500强公司到初创企业,都依赖Claude完成最关键的工作。随着需求继续呈指数级增长,我们正在增加计算资源,以推动AI研究和产品开发的边界。”
这一大规模部署充分显示了对谷歌TPU技术性能和成本效益的认可。
除了Anthropic,印度跨国集团信实(Reliance)最近也推出了其最新企业“信实智能”(Reliance Intelligence),将使用运行在TPU上的谷歌云基础设施。
06 市场竞争:挑战英伟达霸主地位
当前,大部分大型语言模型和AI运算仍依赖英伟达的GPU。
但谷歌的TPU在成本、性能与能效方面都可能具有优势。
如果谷歌最终在谷歌云之外提供TPU作为硬件系统,行业专家认为它可能为GPU市场(包括英伟达和AMD等玩家)带来严峻竞争。
根据OC3D的分析,与英伟达的Blackwell GB300 NVL72系统相比,谷歌的Superpods拥有更多内存、更多计算资源和更快的互连。
在云计算领域,谷歌正与微软、亚马逊、Meta等竞争对手展开一场高风险AI基础设施军备竞赛。
除了新芯片外,谷歌还同步推出一系列升级,旨在让其云服务更便宜、更快、更灵活,以便与亚马逊AWS和微软Azure竞争。
07 未来展望:AI基础设施的长期增长
AI基础设施市场展现出巨大的长期增长潜力。
研调机构集邦科技(TrendForce)已将2025年全球8大主要云服务提供商的资本支出总额年增率从61%上修至65%。
预计2026年合计资本支出将进一步增至6000亿美元以上,年增40%。
为满足激增的需求,谷歌已将今年资本支出上限从850亿美元上调至930亿美元。
谷歌CEO桑达尔·皮查伊(Sundar Pichai)在财报电话会上表示:“我们看到对AI基础设施产品的强劲需求,包括基于TPU和GPU的解决方案。这已成为过去一年推动公司增长的关键动力之一。”
谷歌的十年TPU研发之路,恰似人工智能算力发展的一个缩影。
从实验室到规模化商用,从单一功能到训练推理全覆盖,TPU的进化见证了AI产业的成熟。
随着Ironwood在未来几周的全面上市,AI算力市场可能将从英伟达一家独大走向多元竞争的新格局。
对于谷歌而言,Ironwood不仅是技术里程碑,更是其在云计算市场追赶亚马逊AWS和微软Azure的核心筹码。
|
|