小金库钱包官网CUDA被撕开第一道口子!谷歌TPUv7干翻英伟达|渡濑晶|
【新智元导读】当谷歌不再只满足于「TPU自己用」✿◈★✿★,TPU摇身一变成了英伟达王座下最锋利的一把刀小金库钱包官网✿◈★✿★!CUDA护城河还能守住吗?读完这篇SemiAnalysis的分析✿◈★✿★,你或许会第一次从「算力账本」的视角渡濑晶✿◈★✿★,看懂谷歌暗藏的杀招✿◈★✿★。
尤其是TPUv7更是人们讨论关注的焦点✿◈★✿★,这款专门为AI设计的芯片是否能够打破英伟达多年来的GPU形成的垄断?
众所周知✿◈★✿★,SemiAnalysis是一家在科技界渡濑晶✿◈★✿★,尤其是半导体和人工智能领域极具影响力的精品研究与咨询公司✿◈★✿★。
它以硬核✿◈★✿★、深度的数据分析著称✿◈★✿★,不同于泛泛而谈的科技媒体✿◈★✿★,它更像是一个服务于华尔街投资者✿◈★✿★、芯片巨头和AI从业者的「行业智库」✿◈★✿★。
谷歌打破长期以来的内部自用惯例✿◈★✿★,开始向Anthropic等外部客户大规模出售TPU硬件及算力✿◈★✿★,后者已部署超过1GW的TPU集群✿◈★✿★。
尽管在单芯片理论参数上TPU未必碾压英伟达小金库钱包官网小金库钱包官网✿◈★✿★,但谷歌凭借卓越的系统级工程(如ICI互联和光路交换)实现了极高的实际模型算力利用率(MFU)✿◈★✿★,且总体拥有成本(TCO)比英伟达GB200系统低约30%-40%✿◈★✿★。
谷歌正通过支持PyTorch原生环境和vLLM等开源生态✿◈★✿★,积极修补软件短板✿◈★✿★,试图从根基上瓦解CUDA的护城河✿◈★✿★。
目前✿◈★✿★,世界上最顶尖的两个模型——Anthropic的Claude 4.5 Opus✿◈★✿★,以及谷歌的Gemini 3✿◈★✿★,它们绝大部分训练和推理基础设施✿◈★✿★,都运行在谷歌的TPU和亚马逊的Trainium上✿◈★✿★。
英伟达还专门为此发布了一条官方推文✿◈★✿★,恭喜谷歌在AI领域的进展渡濑晶✿◈★✿★,同时不忘强调自己依然遥遥领先✿◈★✿★。
在推文中✿◈★✿★,英伟达强调自己仍在持续向谷歌供应硬件✿◈★✿★,并表示自己依然领先行业一代小金库钱包官网✿◈★✿★,是唯一能够运行所有AI模型✿◈★✿★、并能在各种计算场景中使用的平台✿◈★✿★。
同时✿◈★✿★,强调GPU比专用芯片(ASIC)在性能✿◈★✿★、通用性和可替代性上更强✿◈★✿★,这句话明显是对谷歌TPU✿◈★✿★、AWS Trainium等专用芯片的回应✿◈★✿★。
在过去的几个月里✿◈★✿★,谷歌DeepMind的Gemini 3✿◈★✿★、谷歌云以及TPU综合体✿◈★✿★,赚足了眼球✿◈★✿★,也将谷歌母公司Alphabet的市值推高至接近4万亿美元✿◈★✿★。
TPU产量大幅上调✿◈★✿★,Anthropic✿◈★✿★、Meta监控系统✿◈★✿★,✿◈★✿★、SSI✿◈★✿★、xAI✿◈★✿★、OAI等TPU的客户名单正在不断扩大✿◈★✿★,这些推动了谷歌和TPU供应链的大幅重新评级✿◈★✿★,无疑也将压制以英伟达GPU为重点的供应链✿◈★✿★。
除了面对TPU的压力✿◈★✿★,英伟达还面临着通过「循环经济」造成AI泡沫的质疑✿◈★✿★,许多质疑者认为英伟达通过资助烧钱的AI初创公司✿◈★✿★,本质上是将钱从一个口袋转移到另一个口袋✿◈★✿★。
英伟达旨在通过股权投资而非降价来保护其在基础实验室的主导地位——降价将拉低毛利率并引发投资者普遍恐慌渡濑晶✿◈★✿★。
虽然OpenAI目前尚未部署TPU✿◈★✿★,但仅凭「转向TPU」这一可能渡濑晶✿◈★✿★,就已在其英伟达集群成本上节省约30%✿◈★✿★。
简单来说✿◈★✿★,OpenAI并没有真的把谷歌的TPU芯片插进服务器里跑任务✿◈★✿★,而是把「我随时可能改用TPU」作为一个巨大的谈判筹码✿◈★✿★,迫使英伟达为了留住这个大客户✿◈★✿★,变相给予了巨额优惠小金库钱包✿◈★✿★,✿◈★✿★。
在过去的几个月里✿◈★✿★,谷歌已经动员了整个堆栈的努力✿◈★✿★,通过谷歌云平台或作为商用供应商销售完整的TPU系统✿◈★✿★,开启了TPU大规模商用的步伐✿◈★✿★。
与此同时✿◈★✿★,谷歌的顶级客户Anthropic也在继续推动摆脱对英伟达单一依赖✿◈★✿★,两者在采用TPU上一拍即合✿◈★✿★。
TPUv7 Ironwood是一个优秀系统内的强大芯片✿◈★✿★,即使芯片在参数上落后于英伟达渡濑晶✿◈★✿★,谷歌的系统级工程也使得TPU堆栈在性能和成本效率方面都能与英伟达相匹配✿◈★✿★。
与英伟达通过GB200扩展其GPU生态一样✿◈★✿★,谷歌自2017年TPUv2以来小金库✿◈★✿★,✿◈★✿★,也一直在机架内和跨机架扩展TPU✿◈★✿★。
自2024年5月GPT-4o以来✿◈★✿★,OpenAI的顶尖研究人员尚未完成广泛用于新前沿模型的成功全规模预训练运行✿◈★✿★,而TPU平台则通过了这一测试✿◈★✿★。
对于谷歌来说✿◈★✿★,在最具挑战性的硬件问题之一中悄悄挤入并建立性能领先地位✿◈★✿★,确实是一个令人印象深刻的壮举✿◈★✿★。
虽然谷歌一直在推动系统和网络设计的边界✿◈★✿★,但从一开始✿◈★✿★,谷歌在芯片方面的设计理念相对于英伟达就更为保守✿◈★✿★。
第二个原因✿◈★✿★,直到2023年✿◈★✿★,谷歌的主要AI工作负载是为其核心搜索和广告资产提供动力的推荐系统模型✿◈★✿★。
与大模型工作负载相比✿◈★✿★,RecSys工作负载的算术强度要低得多✿◈★✿★,这意味着相对于传输的每一位数据✿◈★✿★,需要的FLOPs更少✿◈★✿★。
商用GPU提供商希望为其芯片营销尽可能好的性能规格✿◈★✿★,这激励他们将营销的FLOPs提高到尽可能高的数字✿◈★✿★。
TPUv7 Ironwood是下一次迭代✿◈★✿★,谷歌在FLOPs✿◈★✿★、内存和带宽方面几乎完全缩小了与相应英伟达旗舰GPU的差距渡濑晶✿◈★✿★,尽管全面上市比Blackwell晚了1年✿◈★✿★。
虽然谷歌通过Broadcom采购TPU并支付高额利润✿◈★✿★,但这明显低于英伟达不仅在他们销售的GPU上✿◈★✿★,而且在整个系统(包括CPU✿◈★✿★、交换机✿◈★✿★、NIC✿◈★✿★、系统内存✿◈★✿★、布线和连接器)上赚取的利润超高清视频✿◈★✿★。
英伟达的优势源于CUDA护城河和开箱即用的广泛开源库✿◈★✿★,帮助工作负载高效运行✿◈★✿★,实现高FLOPs和内存带宽✿◈★✿★。
相比较之下✿◈★✿★,TPU软件堆栈开箱即用的性能较弱✿◈★✿★,然而Anthropic拥有强大的工程资源和前谷歌编译器专家✿◈★✿★,他们既了解TPU堆栈✿◈★✿★,也很好地理解自己的模型架构✿◈★✿★。
他们可以投资自定义内核以驱动高TPU效率✿◈★✿★,这使得他们可以达到比采用其他商用GPU更高的MFU(模型FLOPs利用率)和更好的每PFLOP成本性能($/PFLOP)✿◈★✿★。
谷歌此后修改了针对外部客户的软件战略✿◈★✿★,并已经对其TPU团队的KPI以及他们如何为AI/ML生态系统做出贡献做出了重大改变✿◈★✿★。
谷歌在软件战略方面仍然处理不当的一个地方是✿◈★✿★,他们的XLA图编译器小金库钱包官网✿◈★✿★、网络库和TPU运行时仍然没有开源✿◈★✿★,也没有很好的文档记录✿◈★✿★。
就像PyTorch或Linux开源迅速增加了采用率一样✿◈★✿★,为了加速用户的采用渡濑晶✿◈★✿★,谷歌或许应该将其开源✿◈★✿★,用户采用率的增加将超过他们公开和免费提供的所有软件IP✿◈★✿★。
公众号
视频号