美股投资网获悉,国联民生证券发布研报称,地产供需双弱下,住所、租金相关的通胀难以掀起风浪,上半年美国经济的内生动力会出现一个由强走弱的过程;下半年随着新主席上任,降息空间可能更大(特朗普任命的鸽派代表),可能会出现一波长端利率的阶段性下行,带动一定的地产需求回暖,下半年租金通胀可能重新抬头,但是程度取决于美联储降息的幅度,当然在没有衰退的情况下,并不是越多越好,否则容易带来通胀预期、激活市场和经济的自我调节机制。
国联民生证券主要观点如下
K型分化是全球公共卫生事件后美国经济的主旋律——复苏的时候是K型复苏,衰退的时候是K型衰退。制造业尤其是高端制造业的投资如火如荼,在经济增长中发挥着越来越重要的作用,这主要仰仗AI投资的市场叙事,而另一方面地产则表现低迷,这一点在股市上也体现得淋漓尽致。
不过,对于特朗普2.0而言,地产无疑是他的一块重要政策拼图无论是从特朗普自己的老本行来看,还是从地产对于民生和民意的重要意义而言。11月纽约市长选举,民主党候选人就是以控制住房租金等民生措施一举夺魁,也给特朗普敲响了警钟。
无疑,对于明年美国地产最大的期待来自于美联储降息。按照以往的经验,降息无疑是利多地产,从年度数据来看,降息的刺激作用会在1至2年内体现在地产投资、开工、销售等数据上,而房价因为和供需更加直接相关,和货币政策的关系相对就不是那么紧密一般降息周期的开始后的6至18个月,房价会出现明显的上涨。那么降息的逻辑能不能走通?
首先,回顾本轮美国地产下行周期。和历史相比,本次调整最大的不同是持续的时间比较长,从2021年11月以来已经持续4年了,虽然二手房销售下降的幅度能够和2008年金融危机前后相比,但比较特殊的是,同期新房销售却表现出异常的韧性,而房价更是明显上涨。
症结和难题在哪?本轮周期的复杂性在于周期性和结构性因素交织。周期性方面,降息的过程极其不顺畅,利率保持高位、30年抵押贷款利率依旧在6%以上,而且存量房贷中固定利率贷款占主导,这部分贷款受到降息的影响较小;结构性问题上,2008年以来的建造不足问题开始体现,叠加高利率和高关税,地产商也比较谨慎,这就带来高利率、高房价的核心问题。
外加存量房贷利率偏低,居民不愿买也不愿卖。截至2025年第二季度,美国存量房贷中,超过52%的居民手中的房贷利率不及4%,这意味着除非利率大幅下降,居民并不乐意去置换。这会导致二手房的交易萎缩,因为供给减少。
那么是否可以缩短期限?毕竟短期限的房贷利率相对会低一些。但也相对困难,因为缩短期限往往意味着月供也会相应的上升,而当前美国购房者面临的另一个“拦路虎”就是可负担性难题——高房价+高利率让月供负担有点高根据全美地产经纪商协会最新数据,2025年第三季度月供占月收入的平均比例是24.8%,而对于首次购房者而言,这一比例高达37.4%,也让人望而却步。
高利率、高房价约束了需求,但美国地产的缺口依旧保持在历史高位。根据美国普查数据,截至2023年美国的住房缺口约为470万套(供给340万套空置、可供出售/出租的房屋VS 需求810万个家庭与没有血缘关系的人合住)。这是什么概念?2024年是2008年金融危机后住房完工最多的一年——163万套(预计今年的完工量不如去年),同时美国每年新增的家庭一般在100万个左右(最近十年均值,不含2020年)。
住房的这个缺口就变成房价和租金的压力。所以看到美国新房交易并不差,新开工在本轮下行周期中也保持着韧性;同时住房需求转变成了租房需求,租金也是居高不下。
如果不考虑政府给予居民大量的收入支持和住房补贴,按照以往和节奏,快速解决当前美国地产问题的方式是来一场“衰退”。再平衡的途径主要是两条房贷利率(长端)的大幅下降,和房价大幅下跌(或者两者兼而有之)。衰退给大幅降息提供环境,并且能够比较顺畅地传递到长端。
那么没有衰退,能不能强行大幅降息来破局?这个很难,难点在于从短端向长端的传导。首先基准情形下明年美国衰退的概率偏低(毕竟明年是中期选举年)。20世纪90年代以来,在不衰退的年份,美联储降息幅度通常不会超过100bp,而且由于经济底子往往不错,降息的时间一般也不长(六个月之内),把降息前后3个月作为一个完整的周期来看,这个周期中30年房贷利率的下降幅度往往是要小于降息幅度。唯一的期间下降幅度比较大的例子是1995年中至1996年,但是当时的特殊背景是美元进入升值周期,以及克林顿总统时期美国财政是偏紧缩的。
再往前,里跟总统时期也曾经出现过无衰退大幅降息。1984年至1986年美联储累计降息超过500bp,房贷利率相应大幅下降,期间房价上涨超过23%,成屋销量大增36%。但当时也是有特殊背景1)里根政府开始逐步收缩财政赤字;2)美元处于强势升值周期。这些都使得经济增速承受压力,通胀则持续回落。
因此,从需求端去看“逆风局”中美国地产的问题,缓解当前的高房价、高利率的问题,其实是需要美国偏悲观的经济基本面和预期,以此带来超过100bp甚至200bp的大幅降息,并将其比较顺利地传导至长端利率。
从更中长期的角度,特朗普的政策思路已经点明了方向用时间换空间,注重供给侧改革,让居民加杠杆。通过解除供给端的约束、减少限制性的政策和监管来促进房屋供给,考虑推出类似50年期房贷(降低月供)来引导居民加杠杆。但这个过程需要时间,尤其是当前美国地产商还面临着关税挤压和需求偏弱的双重挤压。
对于明年,可以做出以下几个展望
首先,从供给端看,增量不会太明显。今年地产供给的表现要弱于去年,明年的情况应该会有所改善(降息刺激)。但是建造商普遍比较谨慎,以全美最大的房屋建造商(D. R. Horton)为例,今年预计交付8.5至8.55万套住宅,其最新财报显示2026年计划交付8.6万至8.8万套,增速在1%至3%。今年,居民负担重、关税冲击成本直接反噬地产商,它们不仅不能提价,还得通过降低首付、免费升级等促销手段拉动销售,毛利率普遍下降,因此对于明年普遍持认为降本增效更重要。
其次,需求端,房价短期难以看到大跌,降息及其传导很重要。结合哈佛大学的测算,以及最近几年家庭收入的增长,在房价基本保持不变的情况下房贷利率要下降300bp以上,家庭月供相对收入的负担才能回到2020年的水平。
第三,对于明年的经济和政策节奏,该行倾向于是上半年搭台,下半年唱戏。在没有衰退、通胀处于较高位置的情况下,美联储的降息必然是“唯唯诺诺”。该行认为,地产供需双弱下,住所、租金相关的通胀难以掀起风浪,上半年美国经济的内生动力会出现一个由强走弱的过程;下半年随着新主席上任,降息空间可能更大(特朗普任命的鸽派代表),可能会出现一波长端利率的阶段性下行,带动一定的地产需求回暖,下半年租金通胀可能重新抬头,但是程度取决于美联储降息的幅度,当然在没有衰退的情况下,并不是越多越好,否则容易带来通胀预期、激活市场和经济的自我调节机制。
比较微妙的可能是财政政策,尽管减税法案会逐步生效,但是在其他财政支出上,特朗普未必能很“大方”一是顾忌不堪重负的债务,二是也害怕在激发经济内生动力上“画蛇添足”。对于特朗普2.0,要解决美国国内的问题,更多地还是向外寻找答案,比如国际贸易政策、海外投资等。
但目前需要注意的是,在越来越多的底层人民“支付危机”的新闻占据主流媒体,民主党乘机用更有针对性的财政政策吸引选民。民生类问题会成为明年中选的一个重要议题,如果特朗普的支持率进一步下降,不排除硬着头皮退出新的提升底层人民支付能力的财政政策。那将会更大程度的利空美元和美债。
风险提示美国经贸政策大幅变动;海外投资超预期落地,导致明年美国经济表现超预期。
最专业的美股资讯推荐美股大数据 https://Stockwe.com/
如何识别美股市场异常波动?美国机构主力资金买卖情况,出货和吸筹,使用美股投资网VIP会员,2008年成立于美国硅谷,由前纽约证券交易所分析师Ken创立,联合多位摩根斯坦利分析师,谷歌 Meta工程师利用AI和大数据,配合十多年美股实战经验和业内量化模型,建立了一个股市数据库 https://StockWe.com/ 每天处理千万级股票数据:捕捉期权大单,实时主力资金流向、机构持仓变化、川普突发新闻,精准交易信号第一时间发到您手机APP!
美股投资网获悉,谷歌(GOOG,GOOGL)周五表示,已撤回其向欧盟委员会针对微软(MSFT)云计算业务提出的反垄断投诉。此举发生在欧盟依据《数字市场法案》(DMA)正式对微软云服务展开新一轮调查之后。
谷歌在2024年9月向欧盟委员会提交投诉,指控微软在其Azure云计算服务中采取不公平的许可政策。然而,本月早些时候,欧盟监管机构已启动对微软与亚马逊(AMZN)在云计算领域市场力量的正式调查,此举使得谷歌选择撤回投诉。
根据《数字市场法案》的框架,欧盟共启动三项调查。前两项将评估亚马逊AWS与微软Azure是否应被认定为云计算领域的“守门人”,即充当企业与消费者之间的重要数字服务入口。值得注意的是,这两项服务目前尚未达到DMA所设定的规模、用户数量与市场地位门槛,但监管机构仍认为有必要进一步审查其影响力。
第三项调查将关注DMA是否足以解决云计算行业中阻碍竞争或不公平的商业行为。欧盟委员会指出,调查内容包括云服务之间的互操作性障碍、企业用户在数据访问方面受限或受条件限制、服务捆绑销售,以及合同条款可能存在的不对等性等。
按照市场研究机构Synergy Research的数据,亚马逊、微软与谷歌合计占据约70%的欧洲云计算市场份额,行业集中度极高。
欧盟委员会计划在12个月内完成调查,并在18个月内发布最终报告。一旦认定亚马逊或微软确属“守门人”并违反DMA规定,两家公司将有6个月时间进行整改,以确保其云计算业务符合法规要求。
这一系列监管行动标志着欧盟对云计算行业竞争格局、技术壁垒及数据控制权的审查力度进一步升级,三大科技巨头在欧洲市场的商业策略或将受到深远影响。
最专业的美股资讯推荐美股大数据 https://Stockwe.com/
如何识别美股市场异常波动?美国机构主力资金买卖情况,出货和吸筹,使用美股投资网VIP会员,2008年成立于美国硅谷,由前纽约证券交易所分析师Ken创立,联合多位摩根斯坦利分析师,谷歌 Meta工程师利用AI和大数据,配合十多年美股实战经验和业内量化模型,建立了一个股市数据库 https://StockWe.com/ 每天处理千万级股票数据:捕捉期权大单,实时主力资金流向、机构持仓变化、川普突发新闻,精准交易信号第一时间发到您手机APP!
美股投资网获悉,印度反垄断监管机构向新德里法院表示,苹果公司(AAPL)正试图通过挑战印度的反垄断罚款法律来拖延对其进行的反垄断诉讼程序。此次表态是对这家科技公司所提出法律挑战的回应。
上个月,苹果对印度一项反垄断罚款法律提出质疑,该法律允许监管机构在计算针对滥用市场支配地位企业的罚款时,将其全球营业额纳入考量范围。根据该法,苹果公司可能面临高达 380 亿美元的罚款。
自2022年以来,Tinder母公司Match(MTCH)和印度的初创企业一直在印度竞争委员会(CCI)与苹果公司进行反垄断纠纷。
去年7月有报道称,CCI的一项调查发现,苹果在 iOS 应用商店市场占据主导地位,存在“滥用行为和做法”。据该报道,苹果否认所有不当行为,CCI尚未就该案作出最终决定,包括是否处罚。
最专业的美股资讯推荐美股大数据 https://Stockwe.com/
如何识别美股市场异常波动?美国机构主力资金买卖情况,出货和吸筹,使用美股投资网VIP会员,2008年成立于美国硅谷,由前纽约证券交易所分析师Ken创立,联合多位摩根斯坦利分析师,谷歌 Meta工程师利用AI和大数据,配合十多年美股实战经验和业内量化模型,建立了一个股市数据库 https://StockWe.com/ 每天处理千万级股票数据:捕捉期权大单,实时主力资金流向、机构持仓变化、川普突发新闻,精准交易信号第一时间发到您手机APP!
摩根士丹利(Morgan Stanley)现在预计,谷歌( $GOOG )将在 2027 年部署约 500 万颗 TPU,2028 年部署约 700 万颗,两年合计 1200 万颗,而此前 4 年仅为 790 万颗。
他们估算,每增加 50 万颗 TPU 的销售量,大约可带来 130 亿美元的收入,并增加 0.40 美元的每股收益(EPS)。
在 1GW 规模下,TPU 的年度总拥有成本(TCO)约为 7亿美元,比英伟达( $NVDA )GPU 机架便宜约 30%。【消息来源美股大数据 https://Stockwe.com/】
美股投资网获悉,英特尔(INTC)股价周五大涨逾10%,此前,有“地表最强苹果分析师”之称的天风国际证券分析师郭明錤表示,英特尔有望成为苹果(AAPL)部分M系列处理器的先进制程代工供应商,为这家芯片巨头带来重要利好。
郭明錤在社交平台X发文称,最新产业链调查显示,英特尔成为苹果先进制程供应商的可能性近期显著提升。苹果此前已与英特尔签署保密协议(NDA),并获取了英特尔先进制程18AP的PDK 0.9.1GA(制程设计套件)。关键模拟及研发项目目前均按预期推进。
苹果正等待英特尔于2026年第一季度按计划推出PDK 1.0 / 1.1。若进展符合预期,苹果计划最早在2027年第二至第三季度,让英特尔开始代工其最低端M系列处理器,采用18AP制程。不过最终量产时间仍取决于PDK 1.0/1.1发布后的开发进度。
目前最低端的M系列芯片主要用于MacBook Air及iPad Pro,预计今年合计出货量约为2000万台。
郭明錤指出,潜在的合作对苹果与英特尔均具战略意义。对苹果而言,这将显示其对特朗普政府“美国制造”政策的强力支持;对英特尔而言,拿下苹果的先进制程订单,其意义将远超直接营收与利润贡献。
“尽管英特尔在未来几年仍难以在先进制程上与台积电竞争,这一迹象显示英特尔代工业务最艰难的时期可能已接近尾声。”郭明錤表示。“展望未来,英特尔的14A及更先进制程有望获得来自苹果及其他一线大厂的更多订单,英特尔的长期前景将因此转向更加积极。”
最专业的美股资讯推荐美股大数据 https://Stockwe.com/
如何识别美股市场异常波动?美国机构主力资金买卖情况,出货和吸筹,使用美股投资网VIP会员,2008年成立于美国硅谷,由前纽约证券交易所分析师Ken创立,联合多位摩根斯坦利分析师,谷歌 Meta工程师利用AI和大数据,配合十多年美股实战经验和业内量化模型,建立了一个股市数据库 https://StockWe.com/ 每天处理千万级股票数据:捕捉期权大单,实时主力资金流向、机构持仓变化、川普突发新闻,精准交易信号第一时间发到您手机APP!
2025年的AI芯片市场,正处于一个微妙的转折点。
一方面,英伟达依然凭借Blackwell维持着技术和市场份额的绝对领先;但另一方面,谷歌TPU的全面商业化,让英伟达看似牢不可破的定价权,正在发生松动。
据半导体行业研究机构SemiAnalysis测算,OpenAI仅凭“威胁购买TPU”这一筹码,就迫使英伟达生态链做出了实质性让步,使其计算集群的总拥有成本(TCO)下降了约30%。
随着Anthropic高达1GW的TPU采购细节曝光,谷歌正式撕下了“云服务商”的面具,转型为一家直接向外部出售高性能芯片与系统的“商用芯片供应商”。
当OpenAI可以用“威胁购买TPU”来换取30%的折扣,当Anthropic可以用TPU训练出超越GPT-4的模型,当谷歌愿意开放软件生态并提供金融杠杆时,英伟达高达75%的毛利率神话便不再牢不可破。
对于英伟达来说,那个曾经最大的客户,现在变成了最懂的对手。
(图表每百万输入和输出代币的成本)
谷歌“主动出击”
长期以来,谷歌的TPU就像其搜索算法一样,是深藏不露的内部核武器。但SemiAnalysis获取的供应链情报显示,这一策略已发生根本性逆转。
最直接的案例来自Anthropic。作为能在前沿模型上媲美OpenAI抗衡的大模型公司,Anthropic已确认将部署超过100万颗TPU。这笔交易的结构极具破坏力,它揭示了谷歌“混合销售”的新模式
在这100万颗芯片中,首批约40万颗最新的TPUv7 "Ironwood"将不再通过云租赁,而是由博通直接出售给Anthropic,价值约100亿美元。博通作为TPU的长期联合设计方,在此次交易中从幕后走向台前,成为了这场算力转移的隐形赢家。
而剩余的60万颗TPUv7,则通过谷歌云进行租赁。据估算,这部分交易涉及高达420亿美元的剩余履约义务(RPO),直接支撑了谷歌云近期积压订单的暴涨。
这一动作的信号极为明确谷歌不再吝啬于将最先进的算力外售。除了Anthropic,Meta、SSI、xAI等顶级AI实验室也出现在了潜在客户名单中。
面对这一突如其来的攻势,英伟达罕见地展现出防御姿态,其财务团队近期不得不针对“循环经济”(即投资初创公司购买自家芯片)的质疑发布长文辩解。这种对市场情绪的敏感反应,恰恰说明谷歌的攻势已经触及了英伟达的神经。
成本是硬道理
客户倒戈的理由很纯粹在AI军备竞赛中,性能是入场券,但TCO(总拥有成本)决定生死。
SemiAnalysis的模型数据显示,谷歌TPUv7在成本效率上对英伟达构成了碾压优势。
从谷歌内部视角看,TPUv7服务器的TCO比英伟达GB200服务器低约44%。即便加上谷歌和博通的利润,Anthropic通过GCP使用TPU的TCO,仍比购买GB200低约30%。
这种成本优势并非仅靠压低芯片价格实现,而是源于谷歌独特的金融工程创新——“超级云厂商兜底”。
在AI基础设施建设中,存在一个巨大的期限错配GPU集群的经济寿命仅为4-5年,而数据中心场地的租赁合约通常长达15年以上。这种错配让Fluidstack、TeraWulf等新兴算力服务商难以获得融资。
谷歌通过一种“资产负债表外”的信贷支持(IOU)解决了这一难题谷歌承诺,如果中间商无法支付租金,谷歌将介入兜底。
这一金融工具直接打通了加密货币矿工(拥有电力和场地)与AI算力需求之间的堵点,构建了一个独立于英伟达体系之外的低成本基础设施生态。
不仅是芯片,还有系统
如果说价格战是战术层面的对垒,那么系统工程则是谷歌战略层面的护城河。
之前,业界素有“系统重于微架构”的观点。如今,这一论断在TPUv7上得到了验证。虽然单颗TPUv7在理论峰值算力(FLOPs)上略逊于英伟达的Blackwell,但谷歌通过极致的系统设计抹平了差距。
现在,TPUv7 "Ironwood"在内存带宽和容量上已大幅缩小与英伟达旗舰芯片的差距。更重要的是,它采用了更务实的设计哲学——不追求不可持续的峰值频率,而是通过更高的模型算力利用率(MFU)来提升实际产出。
而谷歌真正的杀手锏,是其独步天下的光互连(ICI)技术。不同于英伟达依赖昂贵的NVLink和InfiniBand/Ethernet交换机,谷歌利用自研的光路交换机(OCS)和3D Torus拓扑结构,构建了名为ICI的片间互连网络。
这一架构允许单个TPUv7集群(Pod)扩展至惊人的9,216颗芯片,远超英伟达常见的64或72卡集群。OCS允许通过软件定义网络,动态重构拓扑结构。
这意味着如果某部分芯片故障,网络可以毫秒级绕过故障点,重新“切片”成完整的3D环面,极大地提升了集群的可用性。且光信号在OCS中无需进行光电转换,直接物理反射,大幅降低了功耗和延迟。
Gemini 3和Claude 4.5 Opus这两大全球最强模型均完全在TPU上完成预训练,这本身就是对TPU系统处理“前沿模型预训练”这一最高难度任务能力的终极背书。
拆除最后的围墙软件生态的改变
长期以来,阻碍外部客户采用TPU的最大障碍是软件——谷歌固守JAX语言,而全球AI开发者都在使用PyTorch和CUDA。
但在巨大的商业利益面前,谷歌终于放下了傲慢。
SemiAnalysis报告指出,谷歌软件团队的KPI已发生重大调整,从“服务内部”转向“拥抱开源”。
此前,谷歌“超级队长” Robert Hundt已明确宣布,将全力支持PyTorch Native在TPU上的运行。
谷歌不再依赖低效的Lazy Tensor转换,而是通过XLA编译器直接对接PyTorch的Eager Execution模式。这意味着Meta等习惯使用PyTorch的客户,可以几乎无缝地将代码迁移到TPU上。
同时,谷歌开始向vLLM和SGLang等开源推理框架大量贡献代码,打通了TPU在开源推理生态中的任督二脉。
这一转变意味着英伟达最坚固的“CUDA护城河”,正在被谷歌用“兼容性”填平。
而这场“硅谷王座”的争夺战,才刚刚开始。
全文翻译
以下是SemiAnalysis本次报告的全文翻译部分(由AI翻译)
TPUv7谷歌向王者挥拳
CUDA 护城河的终结?Anthropic 签下 1GW+ TPU 采购大单;Meta/SSI/xAI/OAI/Anthro 购买的 TPU 越多,节省的 GPU 资本支出(Capex)就越多;下一代 TPUv8AX 和 TPUv8X 将正面对决 Vera Rubin。
当今世界最顶尖的两个模型——Anthropic 的 Claude 4.5 Opus 和谷歌的 Gemini 3,其绝大部分训练和推理基础设施都运行在谷歌的 TPU 和亚马逊的 Trainium 上。如今,谷歌正打破常规,开始向多家企业直接出售物理 TPU 硬件。这是 Nvidia 统治终结的序章吗?
AI 时代的黎明已至,至关重要的是要理解,AI 驱动的软件其成本结构与传统软件截然不同。芯片微架构和系统架构在这些创新型软件的开发和扩展中扮演着决定性角色。与早期软件时代开发人员成本占比较高的情况相比,AI 软件运行的硬件基础设施对资本支出(Capex)和运营支出(Opex)——进而对毛利率——有着显著更大的影响。因此,为了能够部署 AI 软件,投入大量精力优化 AI 基础设施变得前所未有的关键。在基础设施方面拥有优势的公司,在部署和扩展 AI 应用的能力上也必将占据高地。
早在 2006 年,谷歌就曾兜售过构建 AI 专用基础设施的理念,但这个问题在 2013 年达到了沸点。他们意识到,如果想要以任何规模部署 AI,就需要将现有的数据中心数量翻倍。因此,他们开始为 TPU 芯片奠定基础,并于 2016 年投入生产。有趣的是,亚马逊在同一年也意识到需要构建定制芯片。2013 年,亚马逊启动了 Nitro 项目,专注于开发芯片以优化通用 CPU 计算和存储。两家截然不同的公司针对不同的计算时代和软件范式,优化了各自的基础设施路径。
我们长期以来一直认为,TPU 是世界上用于 AI 训练和推理的最佳系统之一,与“丛林之王” Nvidia 并驾齐驱。2.5 年前,我们写过关于“TPU 霸权”的文章,这一论点已被时间证明是非常正确的。
TPU 的成绩不言自明Gemini 3 是世界上最好的模型之一,且完全在 TPU 上训练。在本报告中,我们将深入探讨谷歌战略的巨大转变——即适当地将 TPU 商业化以供外部客户使用,使其成为 Nvidia 最新且最具威胁的商用芯片(Merchant Silicon)挑战者。
本报告计划
(重新)告诉我们的客户和新读者,让他们了解外部 TPU 客户的商业成功正在迅速增长,从 Anthropic 开始,延伸到 Meta、SSI、xAI 甚至潜在的 OpenAI……
展示核心逻辑 你购买的 TPU 越多,你节省的 Nvidia GPU 资本支出就越多!OpenAI 甚至还没有部署 TPU,就已经通过竞争威胁获得了约 30% 的计算集群折扣,从而提高了每 TCO(总拥有成本)的性能。
解释 AI 基础设施的“循环经济”交易。
重访我们原本的 TPU 深度分析,从芯片到软件层对 TPU 硬件堆栈进行全面更新。
涵盖开放软件生态系统方面的积极进展,以及谷歌使 TPU 生态系统成为 CUDA 护城河的可行挑战者所缺失的关键要素开源他们的 XLA:TPU 编译器、运行时(runtime)和多 Pod“MegaScaler”代码。
在付费墙内容中,我们将讨论这对 Nvidia 护城河的影响,并将 Vera Rubin 与下一代 TPUv8AX/8X(又名 Sunfish/Zebrafish)进行比较。
还将涵盖对 Nvidia 的长期威胁。
首先,让我们谈谈这则新闻对生态系统的影响。TPU 的性能显然引起了竞争对手的注意。Sam Altman 承认,由于 Gemini 抢了 OpenAI 的风头,OpenAI 正面临“倍感压力(rough vibes)”的局面。Nvidia 甚至发布了一份令人宽慰的公关稿,告诉大家保持冷静并继续前进——声称自己仍遥遥领先于竞争对手。
我们理解其中的原因。过去几个月对于 Google Deepmind、GCP(谷歌云平台)和 TPU 综合体来说是一个接一个的胜利。TPU 产量的大幅上调、Anthropic 超过 1GW 的 TPU 扩建、在 TPU 上训练的 SOTA(最先进)模型 Gemini 3 和 Opus 4.5,以及现在正在扩大的目标客户名单(Meta、SSI、xAI、OAI)排队等待 TPU。这推动了谷歌和 TPU 供应链的巨大价值重估,而代价是 Nvidia GPU 供应链的损失。虽然谷歌和 TPU 供应链的“突然”崛起让许多人感到惊讶,但 SemiAnalysis 的机构产品订阅者在过去一年中早已预料到了这一点。
(图表TPU、Trainium、Nvidia 风险敞口的基础设施篮子对比)
Nvidia 处于守势的另一个原因是,越来越多的怀疑论者认为该公司正在通过资助烧钱的 AI 初创公司来支撑一种“循环经济”,本质上是用额外的步骤将钱从一个口袋转移到另一个口袋。我们认为这种观点是有失偏颇的,但这显然触动了 Nvidia 内部的神经。财务团队发布了一份详细的回应,转载如下。
循环融资是一种不可持续的商业行为
指控 NVIDIA 参与了一个价值 610 亿美元的循环融资计划,即 NVIDIA 投资 AI 初创公司,初创公司承诺云支出,云服务商(CSPs)和初创公司购买 NVIDIA 硬件,NVIDIA 确认收入,但现金从未完成循环,因为基础经济活动——产生利润的 AI 应用——仍然不足。
回应 首先,NVIDIA 的战略投资仅占 NVIDIA 收入的一小部分,在全球私募资本市场每年筹集的约 1 万亿美元中占比更小。在第三季度和年初至今,NVIDIA 对私营公司的投资分别为 37 亿美元和 47 亿美元,分别占收入的 7% 和 3%。NVIDIA 战略投资组合中的公司主要从第三方融资提供商筹集资金,而不是从 NVIDIA。
其次,NVIDIA 对战略投资完全透明,这些投资在资产负债表中作为长期资产和有价证券报告,在损益表中作为其它收入和支出(OI&E)报告,在现金流量表中作为投资活动的现金流报告。
第三,NVIDIA 战略投资组合中的公司正在迅速增加自己的收入,表明其盈利之路和对 AI 应用的强劲潜在客户需求。NVIDIA 战略投资组合中的公司主要从第三方客户产生收入,而不是从 NVIDIA。
我们认为更现实的解释是,Nvidia 旨在通过提供股权投资而不是降价来保护其在**基础实验室(Foundation Labs)**的主导地位,因为降价会降低毛利率并引起广泛的投资者恐慌。下面,我们概述了 OpenAI 和 Anthropic 的安排,以展示前沿实验室如何通过购买或威胁购买 TPU 来降低 GPU TCO。
(表格你买的 TPU 越多,你省下的 GPU 费用就越多) 来源SemiAnalysis TCO 模型,Anthropic 和 OpenAI
OpenAI 甚至还没有部署 TPU,他们就已经在整个实验室范围内的 NVIDIA 舰队上节省了约 30%。这证明了 TPU 的每 TCO 性能优势是如此强大,以至于你甚至在开启一台 TPU 之前就已经获得了采用 TPU 的收益。
我们的加速器行业模型、数据中心行业模型和核心研究订阅者在这一消息宣布并成为市场共识之前很久就看到了行业影响。8 月初,我们与加速器模型客户分享了我们看到供应链中 Broadcom / Google TPU 订单在 2026 年的大规模上调。我们还透露,这些订单增加的原因是谷歌将开始向多个客户外部销售系统。9 月初,我们透露其中一个大的外部客户将是 Anthropic,需求至少为 100 万个 TPU。这在 10 月份得到了 Anthropic 和谷歌的正式确认。我们还在 11 月 7 日指出 Meta 是一个大的 TPU 客户,比其他人早了几周。此外,我们也讨论了其他客户。
结果,我们的机构客户对 AI 交易中迄今为止最大的**性能分化(Performance Dispersion)**有了充分的预期。SemiAnalysis 是第一个披露所有这些见解的公司,因为没有其他研究公司能够将从晶圆厂到供应链,再通过数据中心到实验室的点连接起来。
言归正传。
谷歌的大规模 TPU 外部化推进与 Anthropic 交易
TPU 堆栈长期以来一直与 Nvidia 的 AI 硬件相媲美,但它主要支持谷歌的内部工作负载。按照谷歌的一贯作风,即使在 2018 年向 GCP 客户提供 TPU 后,它也从未将其完全商业化。这种情况正在开始改变。在过去的几个月里,谷歌动员了整个堆栈的力量,通过 GCP 将 TPU 带给外部客户,或者作为商业供应商销售完整的 TPU 系统。这家搜索巨头正在利用其强大的内部芯片设计能力,成为一家真正差异化的云提供商。此外,这与旗舰客户(Marquis Customer) Anthropic 继续推动摆脱对 NVDA 依赖的战略相一致。
(图表Anthropic FLOP 组合)
Anthropic 的交易标志着这一推进的一个重要里程碑。我们了解到 GCP CEO Thomas Kurian 在谈判中发挥了核心作用。谷歌很早就承诺积极投资 Anthropic 的融资轮次,甚至同意放弃投票权并将所有权上限设定为 15%,以将 TPU 的使用扩展到谷歌内部之外。前 DeepMind TPU 人才在基础实验室的存在促进了这一战略的实施,导致 Anthropic 在包括 TPU 在内的多种硬件上训练 Sonnet 和 Opus 4.5。谷歌已经为 Anthropic 建立了一个实质性的设施,如下所示,这是我们“逐个建筑追踪 AI 实验室”项目的一部分。
(图片数据中心行业模型)
除了通过 GCP 租用谷歌数据中心的容量外,Anthropic 还将在其自己的设施中部署 TPU,这使谷歌能够作为真正的商用硬件供应商直接与 Nvidia 竞争。
关于 100 万个 TPU 的拆分
交易的第一阶段涵盖 40 万个 TPUv7 Ironwood,价值约 100 亿美元的成品机架,Broadcom 将直接销售给 Anthropic。Anthropic 是 Broadcom 最近一次财报电话会议中提到的第四个客户。Fluidstack,一家金牌 ClusterMax Neocloud 提供商,将处理现场设置、布线、老化测试(burn-in)、验收测试和远程协助工作,因为 Anthropic 将管理物理服务器的工作外包。数据中心基础设施将由 TeraWulf (WULF) 和 Cipher Mining (CIFR) 提供。
剩余的 60 万个 TPUv7 单元将通过 GCP 租赁,我们估计这笔交易的**剩余履约义务(RPO)**为 420 亿美元,占 GCP 第三季度报告的 490 亿美元积压订单增加额的大部分。
我们相信,未来几个季度与 Meta、OAI、SSI 和 xAI 的额外交易可能会为 GCP 提供额外的 RPO + 直接硬件销售。
尽管内部和外部需求巨大,但谷歌未能按其希望的速度部署 TPU。尽管与仍需“讨好” Jensen(黄仁勋)的其他超大规模厂商相比,谷歌对其硬件供应有更多的控制权,但谷歌的主要瓶颈是电力。
当其他超大规模厂商扩大自己的站点并获得大量托管容量时,谷歌的行动较为缓慢。我们认为核心问题是合同和行政方面的。每个新的数据中心供应商都需要一份主服务协议(MSA),这些是数十亿美元、多年的承诺,自然涉及一些官僚主义。然而,谷歌的流程特别慢,从最初的讨论到签署 MSA 通常需要长达三年的时间。
谷歌的变通方案对寻求转向 AI 数据中心基础设施的 Neocloud 提供商和加密货币矿工具有重大影响。谷歌不直接租赁,而是提供信用兜底(credit backstop),即如果 Fluidstack 无法支付其数据中心租金,谷歌将介入支付,这是一张资产负债表外的“借条(IOU)”。
(图表Fluidstack 交易概览)
像 Fluidstack 这样的 Neocloud 灵活敏捷,使他们更容易与像“转型后的加密矿工”这样的新数据中心供应商打交道。这种机制一直是我们看好加密采矿行业的关键——值得注意的是,我们在今年年初股价大幅降低时就点名了包括 IREN 和 Applied Digital 在内的众多公司。
矿工的机会在于一个简单的动态数据中心行业面临严重的电力限制,而加密矿工通过其购电协议(PPA)和现有的电力基础设施已经控制了容量。我们预计未来几周和几个季度将有更多协议达成。
谷歌如何重塑 Neocloud 市场
在 Google/Fluidstack/TeraWulf 交易之前,我们在 Neocloud 市场从未见过任何仅凭资产负债表外“借条”达成的交易。交易之后,我们认为它已成为新的事实上的标准融资模板。这解决了 Neocloud 寻求确保数据中心容量并发展业务的一个关键难题
GPU 集群的有用和经济寿命为 4-5 年。
大型数据中心租赁通常为 15 年以上,典型的投资回收期约为 8 年。
这种期限错配使得 Neocloud 和数据中心供应商为项目融资变得非常复杂。但随着“超大规模厂商兜底”的兴起,我们相信融资问题已得到解决。我们预计 Neocloud 行业将迎来新一波增长。查看我们的加速器和数据中心模型以了解主要的受益者。这些是 Anthropic 交易背后的方式和原因,现在让我们进入硬件部分。
此外,拥有 Jensen 作为投资者的 Neocloud,如 CoreWeave、Nebius、Crusoe、Together、Lambda、Firmus 和 Nscale,都有明显的动机不采用其数据中心内的任何竞争技术TPU、AMD GPU 甚至 Arista 交换机都是禁区!这在 TPU 托管市场留下了一个巨大的缺口,目前由加密矿工 + Fluidstack 填补。在接下来的几个月里,我们预计会看到更多的 Neocloud 在追求不断增长的 TPU 托管机会和确保最新最棒的 Nvidia Rubin 系统分配之间做出艰难的决定。
TPUv7 Ironwood – 为什么 Anthropic 和其他客户想要 TPU?
答案很简单。这是一个优秀的系统中的强大芯片,这种组合为 Anthropic 提供了令人信服的性能和 TCO。2.5 年前,我们写过关于谷歌计算基础设施优势的文章。即使芯片在纸面上落后于 Nvidia,谷歌的系统级工程也允许 TPU 堆栈在性能和成本效率上与 Nvidia 匹敌。
我们当时认为“系统比微架构更重要”,过去两年的情况加强了这一观点。Anthropic 的大规模 TPU 订单是对该平台技术实力的直接验证。GPU 生态系统也向前迈进了一步。Nvidia 的 GB200 代表了一个巨大的飞跃,推动 Nvidia 成为一家真正的系统公司,设计完整的服务器而不仅仅是内部的芯片封装。
当我们谈论 GB200 在机架级互连方面的巨大创新时,一个被低估的点是,自 2017 年 TPU v2 以来,谷歌一直在机架内和跨机架纵向扩展(Scaling up) TPU!在报告的后面,我们将对谷歌的 ICI 扩展网络进行深入分析,这是 Nvidia NVLink 的唯一真正竞争对手。
谷歌最近的 Gemini 3 模型现在被视为最先进的前沿 LLM。像所有早期版本的 Gemini 一样,它完全在 TPU 上训练。这一结果为 TPU 能力和谷歌更广泛的基础设施优势提供了具体证明。
今天的注意力通常集中在推理和后训练的硬件上,但预训练前沿模型仍然是 AI 硬件中最困难和资源最密集的挑战。TPU 平台已经果断地通过了这一测试。这与竞争对手形成鲜明对比OpenAI 的领先研究人员自 2024 年 5 月的 GPT-4o 以来尚未完成广泛用于新前沿模型的成功全规模预训练运行,突显了谷歌 TPU 舰队已成功克服的重大技术障碍。
新模型的一个关键亮点包括在工具调用和代理能力方面的显著提升,特别是在具有经济价值的长期任务上。Vending Bench 是一项旨在衡量模型在长期内经营业务的能力的评估,通过将它们置于模拟自动售货机业务的所有者位置,Gemini 3 摧毁了竞争对手。
(图表Vending-Bench 资金随时间变化)
这次发布不仅带来了能力的提升,还带来了新产品。Antigravity,一个源于收购前 Windsurf CEO Varun Mohan 及其团队的产品,是谷歌对 OpenAI Codex 的回应,正式让 Gemini 进入了“直觉式编程(vibe coding)”的代币消耗战。
对于谷歌来说,悄悄地介入并在最具挑战性的硬件问题之一上建立性能领先地位,对于一家核心业务不是——或者我们应该说,曾经不是——硬件业务的公司来说,确实是一个令人印象深刻的壮举。
微架构仍然很重要Ironwood 接近 Blackwell
“系统比微架构更重要”的推论是,虽然谷歌一直在推动系统和网络设计的边界,但 TPU 芯片本身并不是太具突破性。从那时起,TPU 芯片在最新几代中取得了巨大进步。
从一开始,谷歌的设计理念相对于 Nvidia 在芯片上就更为保守。历史上,TPU 的峰值理论 FLOPs 明显较少,内存规格也低于相应的 Nvidia GPU。
这有 3 个原因。首先,谷歌对其基础设施的“RAS”(可靠性、可用性和可维护性)给予了很高的内部重视。谷歌宁愿牺牲绝对性能来换取更高的硬件正常运行时间。将设备运行到极限意味着更高的硬件死亡率,这对系统停机时间和热备件方面的 TCO 有实际影响。毕竟,你无法使用的硬件相对于性能来说具有无限的 TCO。
第二个原因是,直到 2023 年,谷歌的主要 AI 工作负载是为其核心搜索和广告资产提供动力的推荐系统模型。与 LLM 工作负载相比,RecSys 工作负载的**算术强度(arithmetic intensity)**要低得多,这意味着相对于传输的每一位数据,所需的 FLOPs 更少。
(图表Reco vs. LLM)
第三点归结为被营销的“峰值理论 FLOPs”数字的效用以及它们如何被操纵。像 Nvidia 和 AMD 这样的商用 GPU 提供商希望为其芯片营销最佳的性能规格。这激励他们将营销的 FLOPs 拉伸到尽可能高的数字。实际上,这些数字是无法维持的。另一方面,TPU 主要面向内部,在外部夸大这些规格的压力要小得多。这具有我们将进一步讨论的重要含义。客气的看法是 Nvidia 更擅长 DVFS(动态电压频率调整),因此乐于仅报告峰值规格。
在我们进入 LLM 时代后,谷歌的 TPU 设计理念发生了明显的转变。我们可以看到,在 LLM 之后设计的最新两代 TPUTPUv6 Trillium (Ghostlite) 和 TPUv7 Ironwood (Ghostfish) 反映了这种变化。我们可以在下面的图表中看到,对于 TPUv4 和 v5,计算吞吐量远低于当时的 Nvidia 旗舰产品。TPUv6 在 FLOPs 上非常接近 H100/H200,但它比 H100 晚了 2 年。随着 TPU v7 的推出,差距进一步缩小,服务器仅晚几个季度可用,同时提供几乎相同水平的峰值理论 FLOPs。
(图表TPU 与 Nvidia 的 TFLOPs 和系统可用性对比 (BF16 Dense))
是什么推动了这些性能提升?部分原因是谷歌开始在 TPU 投入生产时宣布它们,而不是在下一代部署后才宣布。此外,TPU v6 Trillium 采用与 TPU v5p 相同的 N5 节点制造,硅面积相似,但能够提供惊人的 2 倍峰值理论 FLOPs 增加,且功耗显著降低!对于 Trillium,谷歌将每个**脉动阵列(systolic array)**的大小从 128 x 128 增加到 256 x 256 tiles,翻了两番,这种阵列大小的增加带来了计算能力的提升。
(表格谷歌 TPU 芯片规格)
Trillium 也是最后一个“E”(lite)SKU,这意味着它仅配备了 2 个 HBM3 站点。虽然 Trillium 在计算上缩小了与 Hopper 的差距,但在内存容量和带宽上远低于 H100/H200,仅有 2 堆栈 HBM3,而后者分别为 5 和 6 堆栈 HBM3 和 HBM3E。这使得新手使用起来很痛苦,但如果你正确地对模型进行**分片(shard)**并利用所有那些廉价的 FLOPS,Trillium 实现的性能 TCO 是无与伦比的。
(图表TPU v6 (Trillium) vs H100 (SXM) 比较)
TPU v7 Ironwood 是下一次迭代,谷歌在 FLOPs、内存和带宽方面几乎完全缩小了与相应 Nvidia 旗舰 GPU 的差距,尽管全面上市时间比 Blackwell 晚 1 年。与 GB200 相比,FLOPs 和内存带宽仅有轻微的短缺,容量与 8-Hi HBM3E 相同,当然这与拥有 288GB 12-Hi HBM3E 的 GB300 相比有显著差距。
(图表TPU v7 (Ironwood) vs GB200/GB300 比较)
理论绝对性能是一回事,但真正重要的是每总拥有成本 (TCO) 的真实世界性能。
虽然谷歌通过 Broadcom 采购 TPU 并支付高额利润,但这远低于 Nvidia 不仅在销售 GPU 上,而且在包括 CPU、交换机、NIC、系统内存、布线和连接器在内的整个系统上赚取的利润。从谷歌的角度来看,这导致全 3D 环面(3D Torus)配置的每 Ironwood 芯片的全包 TCO 比 GB200 服务器的 TCO 低约 44%。
这足以弥补峰值 FLOPs 和峰值内存带宽约 10% 的短缺。这是从谷歌的角度以及他们采购 TPU 服务器的价格来看的。
(表格Nvidia vs TPU SKU 每 TCO 性能比较)
那么当谷歌加上他们的利润后,对于外部客户来说呢?我们假设在谷歌向外部客户租赁 TPU 7 赚取利润的情况下,每小时 TCO 仍然可以比 GB200 的成本低约 30%,比 GB300 的成本低约 41%。我们认为这反映了 Anthropic 通过 GCP 的定价。
(图表每小时总成本比较 (USD/hr/GPU))
为什么 Anthropic 押注 TPU
比较理论 FLOPs 只能说明部分情况。重要的是有效 FLOPs,因为峰值数字在实际工作负载中几乎从未达到。
实际上,一旦考虑到通信开销、内存停顿、功率限制和其他系统效应,Nvidia GPU 通常只能达到其理论峰值的一小部分。训练的一个经验法则是 30%,但利用率也因工作负载而异。差距的很大一部分归结为软件和编译器效率。Nvidia 在这方面的优势源于 CUDA 护城河和开箱即用的广泛开源库,帮助工作负载高效运行,实现高 FLOPs 和内存带宽利用率。
TPU 软件堆栈并不那么容易使用,尽管这正在开始改变。在谷歌内部,TPU 受益于优秀的内部工具,这些工具不对外部客户开放,这使得开箱即用的性能较弱。然而,这只适用于小型和/或懒惰的用户,而 Anthropic 两者都不是。
Anthropic 拥有强大的工程资源和前谷歌编译器专家,他们既了解 TPU 堆栈,也深入了解自己的模型架构。他们可以投资定制内核以推动高 TPU 效率。结果,他们可以达到大幅更高的 MFU 和更好的每 PFLOP 性能价格比。
我们相信,尽管营销的峰值 FLOPs 较低,TPU 可以达到比 Blackwell 更高的已实现模型 FLOP 利用率 (MFU),这意味着 Ironwood 的有效 FLOPs 更高。一个主要原因是 Nvidia 和 AMD 营销的 GPU FLOPs 明显被夸大了。即使在旨在通过 GEMM 最大化吞吐量的测试中(形状远非实际工作负载),Hopper 仅达到峰值的约 80%,Blackwell 落在 70% 左右,而 AMD 的 MI300 系列在 50%-60% 之间。
限制因素是电力传输。这些芯片无法维持峰值数学运算中使用的时钟速度。Nvidia 和 AMD 实施动态电压和频率缩放 (DVFS),这意味着芯片的时钟频率根据功耗和热量动态调整,而不是可以实际维持的稳定时钟频率。Nvidia 和 AMD 然后选择可能交付的最高时钟频率(即使是非常间歇性的)用于计算峰值理论 FLOPs(每个周期的操作数/ALU x ALU 数量 x 每秒周期数,即时钟频率)。
还有其他技巧被使用,比如在零填充张量(zero-filled tensors)上运行 GEMM,因为 0x0=0,晶体管不需要从 0 切换到 1,从而降低了每次操作的功耗。当然,在现实世界中,零填充张量不会相乘。
当我们结合低得多的 TCO 和更高的有效 FLOPs 利用率时,从谷歌的角度来看,每有效 FLOP 的美元成本变得便宜得多,约 15% 的 MFU 是与 30% MFU 的 GB300 的盈亏平衡点。这意味着如果谷歌(或 Anthropic)设法达到 GB300 FLOPs 利用率的一半,他们仍然能打平。当然,凭借谷歌的精英编译器工程师团队和对自己模型的深刻理解,他们在 TPU 上实现的 MFU 可能达到 40%。那将是每有效训练 FLOP 成本惊人的约 62% 的降低!
(图表不同 MFU 下的 TCO / 有效训练 Dense FP8 PFLOP ($/hr per Eff PFLOP))
然而,当观察 60 万个租赁的 TPU 时,当我们将 Anthropic 支付的较高 TCO(即包括谷歌的利润叠加)纳入此分析时,我们估计 Anthropic 从 GCP 获得的成本为每 TPU 小时 1.60 美元,缩小了 TCO 优势。我们相信 Anthropic 可以在 TPU 上实现 40% 的 MFU,这归功于他们对性能优化的关注以及 TPU 营销的 FLOPs 本质上更现实。这为 Anthropic 提供了比 GB300 NVL72 低惊人的约 52% 的每有效 PFLOP TCO。与 GB300 基准相比,每有效 FLOP TCO 相同的平衡点在于 Anthropic 提取的 MFU 低至 19%。这意味着 Anthropic 可以承受相对于基准 GB300 相当大的性能短缺,而训练 FLOPs 的性能/TCO 最终仍与基准 Nvidia 系统相同。
(图表不同 MFU 下的 TCO / 有效训练 Dense FP8 PFLOP)
FLOPs 并不是性能的全部,内存带宽对于推理非常重要,特别是在带宽密集的解码步骤中。毫不奇怪,TPU 的每内存带宽美元成本也比 GB300 便宜得多。有重要证据表明,在小消息大小(如 16MB 到 64MB,加载单层的专家)下,TPU 甚至实现了比 GPU 更高的内存带宽利用率。
(图表TCO / 内存带宽 ($/hr per TB/s))
所有这些都转化为训练和服务模型的高效计算。Anthropic 发布的 Opus 4.5 继续其一贯的编码重点,创下了新的 SWE-Bench 记录。主要的惊喜是 API 价格降低了约 67%。这种降价加上模型比 Sonnet 更低的冗余度和更高的代币效率(达到 Sonnet 最佳分数所需的代币减少 76%,超过其 4 分所需的代币减少 45%),意味着 Opus 4.5 是编码用例的最佳模型,并且可以有效地提高 Anthropic 的实际token定价,因为 Sonnet 目前占代币组合的 90% 以上。
(图表Anthropic API 定价)
(图表SWE-Bench 分数 vs 所需总输出Tokens)
谷歌在利润率上穿针引线
在为外部客户定价时,谷歌需要“穿针引线”,以平衡自身的盈利能力,同时为客户提供有竞争力的主张。我们对 Anthropic 定价的估计处于我们听到的外部定价范围的低端。对于像 Anthropic 这样的旗舰客户,他们将为软件和硬件路线图提供宝贵的输入,同时订购大量产品,我们预计会有优惠定价(sweetheart pricing)。虽然 Nvidia 令人瞠目结舌的 4 倍加价(约 75% 的毛利率)提供了很大的定价灵活性,但 Broadcom 吸走了大量的氧气。Broadcom 作为 TPU 的联合设计者,在芯片上赚取高额利润,这是系统 BOM(物料清单)的最大组成部分。尽管如此,这仍为谷歌留下了很大的空间来赚取非常可观的利润。
我们可以通过将 GCP Anthropic 交易与其他大型基于 GPU 的云交易进行比较来看出这一点。请注意,这是针对正在租赁的 60 万个 TPU,其余 40 万个 TPU v7 芯片由 Anthropic 预付购买。
在这些假设下,TPU v7 的经济效益显示出比我们观察到的其他大型基于 GPU 的云交易更优越的息税前利润率(EBIT margins),只有 OCI-OpenAI 接近。即使有 Broadcom 在芯片级 BOM 上的利润叠加,谷歌仍然可以获得比更加商品化的 GPU 交易优越得多的利润和回报。这就是 TPU 堆栈允许 GCP 成为真正差异化的 CSP(云服务提供商)的地方。与此同时,像 Microsoft Azure 这样的人,其 ASIC 计划正在挣扎,仅限于在仅仅租赁商业硬件的业务中赚取更多平庸的回报。
(表格主要 AI 云合同对比)
TPU 系统和网络架构
到目前为止,我们已经讨论了 TPU 与 Nvidia GPU 在单芯片规格和不足之处的比较。现在,让我们回到系统讨论,这是 TPU 能力真正开始分化的地方。TPU 最显著的特征之一是通过 ICI 协议实现的极大**纵向扩展(Scale-up)**世界规模(World Size)。TPU pod 的世界规模达到 9216 个 Ironwood TPU,大 pod 尺寸早在 2017 年的 TPUv2 就已成为特征,扩展到完整的 256 个 1024 芯片集群大小。让我们从机架级别开始,这是每个 TPU 超级 pod 的基本构建块。
Ironwood 机架架构
(图片机架子系统)
TPU 机架在过去几代中采用了类似的设计。每个机架由 16 个 TPU 托盘、16 或 8 个主机 CPU 托盘(取决于冷却配置)、一个 ToR 交换机、电源单元和 BBU 组成。
(图表TPU v7 Ironwood 机架)
每个 TPU 托盘由 1 个 TPU 板组成,上面安装了 4 个 TPU 芯片封装。每个 Ironwood TPU 将有 4 个 OSFP 笼用于 ICI 连接,以及 1 个 CDFP PCIe 笼用于连接主机 CPU。
谷歌自 2018 年 TPU v3 以来一直实施液冷 TPU 机架,但中间仍有一些 TPU 代次设计为风冷。液冷和风冷机架的主要区别在于,风冷机架的 TPU 托盘与主机 CPU 托盘的比例为 2 比 1,而液冷机架的比例为 1 比 1。
TPU 液冷的一个创新设计是冷却剂的流速由阀门主动控制。这使得冷却更加高效,因为流量可以根据每个芯片在任何给定时间的工作负载量进行调整。谷歌的 TPU 长期以来也采用垂直供电,其中 TPU 的 VRM 模块位于 PCB 板的另一侧。这些 VRM 模块也需要冷板进行冷却。
总体而言,TPU 机架设计比 Nvidia Oberon NVL72 设计简单得多,后者密度更高,并利用背板连接 GPU 以扩展交换机。TPU 托盘之间的扩展连接全部通过外部铜缆或光学器件进行,这将在下面的 ICI 部分解释。TPU 托盘和 CPU 托盘之间的连接也是通过 PCIe DAC 电缆进行的。
芯片间互连 (ICI) – 扩展 Scale-Up 世界规模的关键
谷歌 TPUv7 的 ICI 扩展网络的构建块是一个由 64 个 TPU 组成的 4x4x4 3D 环面(3D Torus)。每个 64 个 TPU 的 4x4x4 立方体映射到一个 64 TPU 的物理机架。这是一个理想的尺寸,因为所有 64 个 TPU 都可以相互电气连接,并且仍然适合在一个物理机架中。
(图表TPU v7 - 64 TPU 4x4x4 立方体逻辑配置)
TPU 以 3D 环面配置相互连接,每个 TPU 连接总共 6 个邻居——X、Y 和 Z 轴各 2 个逻辑上相邻的 TPU。每个 TPU 始终通过计算托盘内的 PCB 走线连接到 2 个其他 TPU,但根据 TPU 在 4x4x4 立方体内的位置,它将通过直接连接铜缆 (DAC) 或光收发器连接到 4 个其他邻居。
4x4x4 立方体内部的连接通过铜缆进行,而 4x4x4 立方体外部的连接(包括环绕回到立方体另一侧的连接以及与相邻 4x4x4 立方体的连接)将使用光收发器和 OCS(光路交换机)。在下图中,我们看到这是一个 3D 环面网络TPU 2,3,4(在 Z+ 面上)使用 800G 光收发器并通过 OCS 路由,具有环绕连接回到对面的 Z 轴面 TPU 2,3,1(在 Z- 面上)。
(图表TPU 单元连接)
如上所述,除了始终通过 PCB 走线连接的 2 个相邻 TPU 外,TPU 还将使用 DAC、收发器或两者的混合连接到 4 个其他邻居,具体取决于它们在 4x4x4 立方体中的位置。
4x4x4 立方体内部的 TPU 将仅使用 DAC 连接到 4 个其他邻居,立方体面上的 TPU 将通过 3 个 DAC 和 1 个光收发器连接,立方体边缘的 TPU 将通过 2 个光收发器和 2 个 DAC 连接,而角落的 TPU 将通过 1 个 DAC 和 3 个光收发器连接。你可以通过查看给定 TPU 有多少个面朝向立方体的“外部”来记住它将使用多少个收发器。
(图表4x4x4 立方体内的 TPU 位置)
上图以及下表总结了 TPU 的各个位置类型的数量,可用于推导出 TPU v7 每个 TPU 1.5 个光收发器的配比。这些收发器连接到光路交换机 (OCS),从而实现 4x4x4 立方体之间的连接——下一节将详细介绍。
(表格谷歌 TPU v7 3D 环面连接配比)
用于 ICI 的光学器件
谷歌采用软件定义网络方法来管理通过光路交换机 (OCS) 的网络路由。NxN OCS 基本上是一个拥有 N 条进轨道和 N 条出轨道的巨大火车站。任何进来的火车都可以转移到任何出去的火车,但这必须在车站重新配置。火车不能“环回”或送回另一条 N 进轨道,它们必须仅路由到 N 条出轨道之一。
这种方法的好处是,网络可以组装较小的逻辑 TPU 切片(slices)——针对不同的工作负载,从 ICI 网络层中 9,216 个芯片的理论最大值中切分。通过切分更大的集群,围绕网络中的故障重新路由 ICI 路径,集群可用性得到提高。
与电子数据包交换 (EPS) 交换机(如 Arista Tomahawk 5,其中固定的总带宽进一步拆分为几个较小带宽的端口)不同,OCS 允许任何带宽的光纤连接到其端口。OCS 的延迟也比 EPS 低,因为进入 OCS 的光信号只是从输入端口反弹到输出端口。对于 EPS,光信号在进入交换机时必须转换为电信号——这是 OCS 通常比 EPS 更节能的一个关键原因。EPS 还允许将数据包从任何端口路由到任何端口,而 OCS 仅允许你将“输入”端口路由到任何其他“输出”端口。
(图片OCS 内部结构)
OCS 端口仅路由单根光纤束。这对于标准双工收发器来说是一个挑战,因为带宽是通过多根光纤束传输的,这降低了 OCS 的有效基数(radix)和带宽。为了解决这个问题,使用 FR 光收发器将所有波长整合到一根光纤束上以连接到 1 个 OCS 端口。Apollo 项目通过两个步骤创新地实现了这一点。首先,8 个波长——每个 100G 通道 1 个波长——通过粗波分复用 (CWDM8) 复用,通过单对光纤传输 800G,而不是 8 对光纤。其次,**光环形器(optical circulator)**集成在波分复用 (WDM) 收发器上以实现全双工数据流,将需求从 1 对光纤减少到仅 1 根光纤束。
(图片环形器原理)
环形器通过将收发器处的 Tx 和 Rx 光纤束组合成发送到 OCS 交换机的单根光纤束,形成双向链路。
连接多个 64 TPU 立方体
谷歌的 ICI 扩展网络独特之处在于,它允许将多个 64 TPU 4x4x4 立方体以 3D 环面配置连接在一起,以创建巨大的世界规模。TPUv7 具有 9,216 个 TPU 的最大世界规模,但今天,谷歌支持将 TPU 配置为多个不同的切片大小,从 4 个 TPU 一直到 2,048 个 TPU。
(表格支持的配置)
虽然谷歌可以创新地实现令人印象深刻的 9,216 个 TPU 的扩展集群,但在任何时间点在高达约 8,000 个 TPU 的增量较大块大小上运行训练工作负载的好处会减少。这是因为较大的块大小更容易发生故障和中断,从而降低切片可用性,切片可用性定义为 ICI 集群能够形成连续 3D 环面切片的时间比例。
(图表有效吞吐量 (Goodput) vs CPU 主机可用性 有/无 OCS)
对于可以完全容纳在 4x4x4 立方体内的切片,我们可以简单地使用机架内的铜互连以及立方体面/边缘/角落上的光收发器来切出这些切片,以便在需要时环绕并完成 3D 环面。
为了了解环绕和立方体间连接是如何进行的,让我们看看我们如何在 4x4x4 拓扑中创建一个 64 TPU 切片。我们可以使用对应于一个物理 64 TPU 机架的 64 TPU 单位 4x4x4 立方体来构建此拓扑。4x4x4 立方体内部的所有 8 个 TPU 都可以使用铜缆完全连接到所有 6 个邻居。如果 TPU 在给定轴上没有内部邻居,它将环绕并连接到立方体另一侧的 TPU。例如,TPU 4,1,4 在 Z+ 方向上没有内部邻居,因此它将使用一个 800G 光收发器连接到分配给 Z 轴的 OCS,并将 OCS 配置为将此连接引导到立方体的 Z- 侧,连接到 TPU 4,1,1。在 Y- 方向上,TPU 1,1,1 将使用光收发器连接到 Y 轴 OCS 以链接到 TPU 1,4,1 的 Y+ 侧,依此类推。
(图表TPU v7 - 64 TPU 切片 4x4x4 拓扑)
4x4x4 立方体的每个面将通过 16 个不同的 OCS 连接——每个面上的每个 TPU 一个 OCS。
例如,在下图中,在 X+ 面上,TPU 4,3,2 连接到 OCS X,3,2 的输入侧。OCS X,3,2 的输入侧也将连接到 9,216 TPU 集群中所有 144 个 4x4x4 立方体的 X+ 面上的相同 TPU 索引 (4,3,2)。OCS X,3,2 的输出侧随后将连接到集群中每个立方体的相同 TPU 索引,只是这次是在 X- 面上——因此它将连接到集群所有 144 个立方体上的 TPU 1,3,2。下图说明了立方体 A X+ 面上的所有 16 个 TPU 如何通过 16 个 OCS 连接到立方体 B X- 上的 16 个 TPU。
这些连接允许任何立方体的任何“+”面连接到任何其他立方体的“-”面,从而在形成切片时实现立方体的完全可替代性。
有两个限制需要简要指出。首先,给定面上一个索引的 TPU 永远不能直接连接到不同的索引——因此 TPU 4,3,2 永远无法配置为连接到 TPU 1,2,3。其次,由于 OCS 本质上充当配线架——连接在输入侧的 TPU 不能“环回”连接到也连接在 OCS 输入侧的任何其他 TPU——例如,TPU 4,3,2 永远无法连接到 TPU 4,3,3。因此——任何“+”面上的 TPU 永远无法连接到任何其他立方体的“+”面,任何“-”面上的 TPU 永远无法连接到任何其他立方体的“-”面。
(图表TPU v7 连接到 OCS)
让我们做大一点,看看如何设置 4x4x8 拓扑。在此配置中,我们通过沿 Z 轴连接两个 64 TPU 4x4x4 立方体来扩展切片。在这种情况下,OCS 将重新配置 TPU 4,1,4 连接的光端口,使其现在连接到 TPU 4,1,5,而不是像独立 4x4x4 拓扑那样环绕回 TPU 4,1,1。以此类推,我们将有 16 个光连接从两个 4x4x4 TPU 立方体的 Z- 和 Z+ 面延伸,总共 64 根光纤束连接到 16 个 Z 轴 OCS。
重要的是要提醒读者,下面描绘的立方体 A 和立方体 B 不一定物理上位于彼此旁边。相反,它们通过 OCS 连接,它们可能各自位于数据中心完全不同的位置。
(图表TPU v7 - 128 TPU 切片 4x4x8 拓扑)
我们现在将移动到一个更大的拓扑——16x16x16 拓扑,这将我们带到 4,096 个 TPU。在这个拓扑中,我们总共使用 48 个 OCS 来连接 64 个各含 64 TPU 的立方体。在下图中,每个多色立方体代表一个 64 TPU 4x4x4 立方体。以右下角的 4x4x4 立方体为例——这个立方体通过 OCS 连接到沿 Y 轴的相邻立方体。
9,216 个 TPU 的最大世界规模是使用 144 个 4x4x4 立方体构建的,每个立方体需要 96 个光连接,总需求为 13,824 个端口。将此总端口需求除以 288(每个 OCS 144 个输入和 144 个输出端口)意味着我们需要 48 个 144x144 OCS 来支持这个最大世界规模。
(图表TPU v7 4,096 TPU 切片 16x16x16 拓扑)
为什么要使用谷歌的 ICI 3D 环面架构?
除了可以花费无数小时绘制所有花哨的立方体图之外,谷歌独特的 ICI 扩展网络有什么好处?
世界规模 最明显的好处是 TPUv7 Ironwood 支持的非常大的 9,216 TPU 最大世界规模。即使由于**有效吞吐量(goodput)**降低的缺点,9,216 的最大切片大小可能很少使用,但数千个 TPU 的切片可以并且经常被使用。这远大于商业加速器市场和其他定制芯片提供商常见的 64 或 72 GPU 世界规模。
可重构性和可替代性 OCS 的使用意味着网络拓扑本质上支持网络连接的重新配置,以支持大量不同的拓扑——理论上有数千种拓扑。谷歌的文档网站列出了 10 种不同的组合(本节前面的图片),但这只是最常见的 3D 切片形状——还有更多可用的形状。
即使是相同大小的切片也可以进行不同的重新配置。在下面图示的扭曲 2D 环面(Twisted 2D Torus)的简单示例中,我们看到如何跨越到不同 X 坐标的索引而不是相同 X 坐标的索引,可以减少最坏情况下的跳数和最坏情况下的对分带宽(bisection bandwidth)。这有助于提高所有对所有的集体吞吐量。TPUv7 集群将在 4x4x4 立方体级别扭曲。
(图表常规 vs 扭曲 2D 环面)
可重构性也为广泛的多样化并行性打开了大门。在 64 或 72 GPU 世界规模中,不同的并行性组合通常限于 64 的因子。当涉及到 ICI 扩展网络时,实施拓扑以精确匹配所需的数据并行、张量并行和管道并行组合的可能性是丰富的。
OCS 允许人们将任何立方体的任何“+”面连接到任何其他立方体的“-”面的事实意味着立方体具有完全的可替代性。切片可以由任何一组立方体组成。因此,如果有任何故障或用户需求或使用情况的变化,这不会阻碍新拓扑切片的形成。
(图表TPUv4 电路交换可重构性)
更低的成本 谷歌的 ICI 网络成本低于大多数交换式扩展网络。虽然由于使用环形器,所使用的 FR 光学器件可能稍贵,但网状网络减少了所需的交换机和端口的总数,并消除了交换机之间连接产生的成本。
(表格扩展网络成本比较)
低延迟和更好的局部性 TPU 之间直接链路的使用意味着对于物理位置彼此靠近或重新配置为直接相互连接的 TPU,可以实现低得多的延迟。彼此靠近的 TPU 也具有更好的数据局部性。
数据中心网络 (DCN) – 扩展超过 9,216 个 TPU
数据中心网络 (DCN) 是独立于 ICI 的网络,充当典型后端和前端网络的角色。它连接甚至更大的域——在 TPUv7 集群的情况下为 14.7 万个 TPU。
正如我们在之前关于 Apollo 任务的文章中所讨论的,谷歌提议用 Paloma 光路交换机 (OCS) 取代传统“Clos”架构中包含电子数据包交换 (EPS) 的脊层(spine layer),谷歌的 DCN 由光学交换的数据中心网络互连 (DCNI) 层组成,该层结合了几个聚合块,每个聚合块连接几个 9,216 TPU ICI 集群。
2022 年,谷歌的 Apollo 项目提出了一个 DCN 架构,描述了为 TPUv4 pod 使用 136x136 OCS 交换机,pod 大小为 4,096 个 TPU。DCNI 层的 OCS 交换机被组织成 4 个 Apollo 区域,每个区域包含最多 8 个机架的 8 个 OCS 交换机,总共 256 个 OCS 交换机。当涉及到 Ironwood 时,为了在同一网络上支持多达 147 个 TPUv7,我们假设 OCS 上的端口数量将几乎翻倍,而不是增加 OCS 交换机的最大数量。
下图说明了使用 32 个机架容纳 256 个 300x300 OCS 交换机的 Ironwood DCN 网络可能是什么样子。假设每个聚合块的脊层之间没有超额订阅,DCN 中最多可以连接 16 个 ICI pod,其中 4 个聚合块各连接 4 个 ICI pod——总共 147,456 个 TPU。
DCNI 层连接 4 个聚合块——在下图中描绘为顶层。与 ICI 一样,FR 光学器件用于连接到 OCS 以最大化每个 OCS 端口的带宽。
(图表147,456 DCN 拓扑)
虽然现有的 Ironwood 集群可能只有 1 或 2 个聚合块,但谷歌 DCN 的独特架构允许在无需大量重新布线的情况下将新的 TPU 聚合块添加到网络中。
通过将 OCS 用于 DCNI 层,DCN 结构的大小可以增量扩展,并且可以**重新条带化(re-striped)**网络以支持新的聚合块。此外,聚合块的带宽可以升级,而无需更改 DCN 层的构成。这允许现有聚合块的链路速度得到刷新,而无需改变网络本身的基本架构。结构扩展的过程不能无限期地进行下去——在巨大的规模下,重新布线网络变得难以管理。
(图表使用 OCS 链路的 AB 扩展)
TPU 软件战略 – 另一个巨大的转变
传统上,TPU 软件和硬件团队一直是面向内部的。这带来了优势,例如没有营销团队施加压力来夸大陈述的理论 FLOPs。
只面向内部的另一个优势是 TPU 团队极大地优先考虑内部功能请求和优化内部工作负载。缺点是他们不太关心外部客户或工作负载。TPU 生态系统中的外部开发人员数量远低于 CUDA 生态系统。这是 TPU 的主要弱点之一,所有非 Nvidia 加速器也是如此。
谷歌此后修改了针对面向外部客户的软件战略,并已经对 TPU 团队的 KPI 以及他们如何为 AI/ML 生态系统做出贡献做出了重大改变。我们将讨论 2 个主要变化
在 PyTorch TPU“原生”支持上的大规模工程努力
在 vLLM/SGLang TPU 支持上的大规模工程努力
通过查看谷歌对各种 TPU 软件仓库的贡献数量,可以清楚地看到这种外部化战略。我们可以看到从 3 月开始 vLLM 贡献显着增加。然后从 5 月开始,创建了“tpu-inference”仓库,这是官方的 vLLM TPU 统一后端,从那时起就有一系列活动。
(图表谷歌按仓库每月的贡献)
传统上,谷歌仅对 Jax/XLA:TPU 堆栈(以及 TensorFlow/TF-Mesh,安息吧)提供一等支持,但将 TPU 上的 PyTorch 视为二等公民。它依赖于通过 PyTorch/XLA 进行的惰性张量图捕获(lazy tensor graph capture),而不是拥有一流的急切执行(eager execution)模式。此外,它不支持 PyTorch 原生分布式 API (torch.distributed.*) 或支持 PyTorch 原生并行 API (DTensor, FSDP2, DDP 等),而是依赖于奇怪的树外 XLA SPMD API (torch_xla.experimental.spmd_fsdp, torch_xla.distributed.spmd 等)。这导致了对于习惯于 GPU 上的原生 PyTorch CUDA 后端并试图切换到 TPU 的外部用户来说,非原生体验不佳。
(代码示例XLA)
10 月,谷歌的“Captain Awesome” Robert Hundt 在 XLA 仓库中悄悄宣布,他们将从非原生惰性张量后端转向“原生”TPU PyTorch 后端,该后端将默认支持急切执行,并与 torch.compile、DTensor 和 torch.distributed API 等集成。他们将通过使用 PrivateUse1 TorchDispatch 键来做到这一点。这主要是为了 Meta 做的,Meta 对购买 TPU 重新产生了兴趣,并且不想转移到 JAX。这也将使喜欢 PyTorch 而不喜欢 JAX 的人也可以使用 TPU。
此前从 2020 年到 2023 年,Meta FAIR 的几个团队大量在 TPU 上使用 PyTorch XLA,但并未被广泛采用,因此 Meta 领导层最终在 2023 年取消了合同。TPU 上的 PyTorch XLA 不是一种有趣的体验。当时的 Meta FAIR GCP TPU 甚至使用 SLURM 运行,而不是你在 TPU 堆栈上通常会找到的任何东西,如 GKE/Xmanager/borg 等。
(图片GitHub RFC)
这种新的 PyTorch <> TPU 将为习惯于 GPU 上 PyTorch 的 ML 科学家创造一个更平滑的过渡,以切换到 TPU 上的 PyTorch 并利用 TPU 上更高的每 TCO 性能。
Pallas 是用于为 TPU 编写自定义内核的内核创作语言(类似于 cuTile 或 Triton 或 CuTe-DSL)。Meta 和谷歌也已开始致力于支持 Pallas 内核作为 Torch Dynamo/Inductor 编译堆栈的代码生成目标。这将允许与 PyTorch 的原生 torch.compile API 进行原生 TPU 集成,并允许最终用户将自定义 pallas 操作注册到 PyTorch 中。
除了核心的树内 PyTorch 原生 API 外,幕后还有关于将 TPU pallas 内核语言集成为 Helion 的代码生成目标的工作。你可以将 Helion 视为一种用于用高级语言编写性能尚可的内核的高级语言。用户可以将 Helion 视为低级 Aten 算子,而不是高级 Triton/Pallas,因为它与原生 PyTorch Aten 算子的相似性更接近。
CUDA 生态系统至高无上的另一个领域是开放生态系统推理。历史上,vLLM 和 SGLang 支持 CUDA 作为一等公民(ROCm 作为二等公民)。现在谷歌想要进入 vLLM 和 SGlang 开放推理生态系统,并宣布通过非常“独特”的集成对 vLLM 和 SGLang 提供 beta 版 TPU v5p/v6e 支持。
vLLM 和 SGLang 目前通过将 PyTorch 建模代码**下译(lowering)**到 JAX 并利用现有的成熟 JAX TPU 编译流程来做到这一点。未来一旦 PyTorch XLA RFC #9684(即原生 TPU PyTorch 后端)实施,vLLM 和 SGLang 计划评估是否切换到使用该后端,而不是通过 TorchAX 将建模从 PyTorch 翻译到 JAX。
谷歌和 vLLM 声称这种下译到 jax 的路径不需要对 PyTorch 建模代码进行任何更改,但鉴于 vLLM TPU 目前支持的模型很少,我们对此表示怀疑。
此外,谷歌已经开源并将他们的一些 TPU 内核集成到 vLLM 中,例如 TPU 优化的分页注意力内核、计算-通信重叠 GEMM 内核以及其他几个量化 matmul 内核。他们还没有 MLA 友好的 TPU 内核。一旦 Inductor Pallas TPU 代码生成集成更加成熟,看看是否可以将内核融合和模式匹配集成到现有的 vLLM PassManager 中将会很有趣。SGLang 也在考虑实施 torch.compile PassManager,以使许多模型的内核融合管理更易于维护。
对于参差分页注意力(Ragged Paged Attention)v3,TPU 的处理方式与 vLLM GPU 截然不同。vLLM 使用类似于虚拟内存和分页的技术管理 KV 缓存。然而,这种技术需要获取动态地址并执行**分散(scatter)**操作,这是 TPU 不擅长的。因此,TPU 内核利用细粒度的操作流水线。具体来说,TPU 的分页注意力内核预取下一个序列的查询和 KV 块,因此内存加载与计算重叠。
在现有的 vLLM MoE 内核中,我们按专家 ID 对代币进行排序,将代币分发到具有相应专家的设备,执行组矩阵乘法,并将来自专家的代币组合回原始设备。然而,该内核表现不佳有两个原因TPU 在执行排序操作方面很慢,并且内核无法将通信与计算重叠。
为了解决这个问题,谷歌开发人员设计了全融合 MoE(All-fused MoE)。全融合 MoE 一次为每个设备分发一个专家的代币,同时重叠 MoE 分发和 MoE 组合通信,并避免按专家 ID 对代币进行排序。使用全融合 MoE,谷歌工程师报告比现有内核有 3-4 倍的加速。
(图表时间步长示意图)
此外,TPU 中的另一个硬件单元是 SparseCore (SC),用于加速嵌入查找和更新。SC 配备标量于核 SparseCore Sequencer (SCS) 和多个矢量子核 SparseCore Tiles (SCT)。SCT 支持以更细粒度的 4 字节或 32 字节粒度进行本地和远程直接内存访问,相比之下 TPU TensorCore 为 512 字节加载。这使得 SC 能够执行**收集/分散(gather/scatter)**操作和 ICI 通信,同时与 TensorCore 操作重叠。
在 JAX DevLabs,我们了解到 SparseCore 的可编程性正在进行中。我们可以期待 Mosaic(TPU 自定义内核编译器)以 MPMD 方式编译,其中 SCS 和 SCT 执行不同的内核,不同的 SparseCore 可以运行不同的程序。我们怀疑一旦可编程性赶上,TPU MoE 内核将能够以类似于 GPU 的方式执行分发和组合操作,而不是按专家 ID 分发。
(图表SparseCore 结构)
在**分离式预填充解码(disaggregated prefill decode)**方面,我们在 AMD 2.0 文章中深入描述了这一点,谷歌在 vLLM 上对单主机分离 PD 提供了实验性支持,注意他们尚不支持多主机 wideEP 分离预填充或 MTP。这些推理优化对于降低每百万代币的 TCO 以及提高每美元性能和每瓦性能至关重要。此外,他们尚未将 TPU vLLM 推理支持集成到流行的 RL 框架(如 VERL 等)中。谷歌在如何接近开放 AI/ML 生态系统方面正慢慢朝着正确的方向前进,特别是对于他们的“原生”TPU 后端。
vLLM TPU 基准测试尚不相关
本周,TPUv6e 上发布了一个新的推理基准测试,声称 TPUv6e 的每美元性能比 NVIDIA GPU 差 5 倍。我们不同意,主要有两个原因。首先,这个基准测试是在 TPU 上的 vLLM 上进行的,该版本仅发布了几个月,因此尚未具有优化的性能。谷歌内部的 Gemini 工作负载和 Anthropic 工作负载运行在内部自定义推理堆栈上,其每 TCO 性能优于 NVIDIA GPU。
其次,Artificial Analysis 的每百万代币成本使用的是 TPUv6e 的标价 2.7 美元/小时/芯片。鉴于 BOM 只是 H100 的一小部分,没有 TPU 的主要客户会为 TPUv6e 支付接近那么高的价格。众所周知,大多数云都有一个虚高的标价,以便他们的客户销售主管可以采用**“汽车推销员”式的战术(高标价、大折扣)**,让客户认为他们得到了一笔好交易。SemiAnalysis AI TCO 模型跟踪所有各种合同长度(1 个月、1 年、3 年等)的 TPU 实际市场租赁价格。
(图表每百万输入和输出代币的成本)
TPU 软件战略的关键缺失部分
谷歌在软件战略上仍然处理不当的一个部分是,他们的 XLA 图编译器和网络库以及 TPU 运行时仍然没有开源,也没有很好的文档记录。这导致了从高级用户到普通用户的各种用户感到沮丧,无法调试代码出了什么问题。此外,他们用于多 pod 训练的 MegaScale 代码库也不是开源的。
我们坚信,为了加速采用,谷歌应该将其开源,用户采用的增加将超过他们将公开和免费的所有软件 IP。就像 PyTorch 或 Linux 开源迅速增加了采用率一样,开源 XLA:TPU 和 TPU 运行时及网络库也将迅速加速这一点。
本文转载自”美股投资网“,作者高智谋;美股投资网财经编辑刘家殷。
最专业的美股资讯推荐美股大数据 https://Stockwe.com/
如何识别美股市场异常波动?美国机构主力资金买卖情况,出货和吸筹,使用美股投资网VIP会员,2008年成立于美国硅谷,由前纽约证券交易所分析师Ken创立,联合多位摩根斯坦利分析师,谷歌 Meta工程师利用AI和大数据,配合十多年美股实战经验和业内量化模型,建立了一个股市数据库 https://StockWe.com/ 每天处理千万级股票数据:捕捉期权大单,实时主力资金流向、机构持仓变化、川普突发新闻,精准交易信号第一时间发到您手机APP!
英伟达依然凭借Blackwell维持着技术和市场份额的绝对领先;但另一方面,谷歌TPU的全面商业化,让英伟达看似牢不可破的定价权,正在发生松动。
据半导体行业研究机构SemiAnalysis测算,OpenAI仅凭“威胁购买TPU”这一筹码,就迫使英伟达生态链做出了实质性让步,使其计算集群的总拥有成本(TCO)下降了约30%。
随着Anthropic高达1GW的TPU采购细节曝光,谷歌正式撕下了“云服务商”的面具,转型为一家直接向外部出售高性能芯片与系统的“商用芯片供应商”。
当OpenAI可以用“威胁购买TPU”来换取30%的折扣,当Anthropic可以用TPU训练出超越GPT-4的模型,当谷歌愿意开放软件生态并提供金融杠杆时,英伟达高达75%的毛利率神话便不再牢不可破。
对于英伟达来说,那个曾经最大的客户,现在变成了最懂的对手。
(图表:每百万输入和输出代币的成本)
谷歌“主动出击”
长期以来,谷歌的TPU就像其搜索算法一样,是深藏不露的内部核武器。但SemiAnalysis获取的供应链情报显示,这一策略已发生根本性逆转。
最直接的案例来自Anthropic。作为能在前沿模型上媲美OpenAI抗衡的大模型公司,Anthropic已确认将部署超过100万颗TPU。这笔交易的结构极具破坏力,它揭示了谷歌“混合销售”的新模式:
在这100万颗芯片中,首批约40万颗最新的TPUv7 "Ironwood"将不再通过云租赁,而是由博通直接出售给Anthropic,价值约100亿美元。博通作为TPU的长期联合设计方,在此次交易中从幕后走向台前,成为了这场算力转移的隐形赢家。
而剩余的60万颗TPUv7,则通过谷歌云进行租赁。据估算,这部分交易涉及高达420亿美元的剩余履约义务(RPO),直接支撑了谷歌云近期积压订单的暴涨。
这一动作的信号极为明确:谷歌不再吝啬于将最先进的算力外售。除了Anthropic,Meta、SSI、xAI等顶级AI实验室也出现在了潜在客户名单中。
面对这一突如其来的攻势,英伟达罕见地展现出防御姿态,其财务团队近期不得不针对“循环经济”(即投资初创公司购买自家芯片)的质疑发布长文辩解。这种对市场情绪的敏感反应,恰恰说明谷歌的攻势已经触及了英伟达的神经。
成本是硬道理
客户倒戈的理由很纯粹:在AI军备竞赛中,性能是入场券,但TCO(总拥有成本)决定生死。
SemiAnalysis的模型数据显示,谷歌TPUv7在成本效率上对英伟达构成了碾压优势。
从谷歌内部视角看,TPUv7服务器的TCO比英伟达GB200服务器低约44%。即便加上谷歌和博通的利润,Anthropic通过GCP使用TPU的TCO,仍比购买GB200低约30%。
这种成本优势并非仅靠压低芯片价格实现,而是源于谷歌独特的金融工程创新——“超级云厂商兜底”。
美股投资网https://Tradesmax.com/ 了解到在AI基础设施建设中,存在一个巨大的期限错配:GPU集群的经济寿命仅为4-5年,而数据中心场地的租赁合约通常长达15年以上。这种错配让Fluidstack、TeraWulf等新兴算力服务商难以获得融资。
谷歌通过一种“资产负债表外”的信贷支持(IOU)解决了这一难题:谷歌承诺,如果中间商无法支付租金,谷歌将介入兜底。
这一金融工具直接打通了加密货币矿工(拥有电力和场地)与AI算力需求之间的堵点,构建了一个独立于英伟达体系之外的低成本基础设施生态。
不仅是芯片,还有系统
如果说价格战是战术层面的对垒,那么系统工程则是谷歌战略层面的护城河。
之前,业界素有“系统重于微架构”的观点。如今,这一论断在TPUv7上得到了验证。虽然单颗TPUv7在理论峰值算力(FLOPs)上略逊于英伟达的Blackwell,但谷歌通过极致的系统设计抹平了差距。
现在,TPUv7 "Ironwood"在内存带宽和容量上已大幅缩小与英伟达旗舰芯片的差距。更重要的是,它采用了更务实的设计哲学——不追求不可持续的峰值频率,而是通过更高的模型算力利用率(MFU)来提升实际产出。
而谷歌真正的杀手锏,是其独步天下的光互连(ICI)技术。不同于英伟达依赖昂贵的NVLink和InfiniBand/Ethernet交换机,谷歌利用自研的光路交换机(OCS)和3D Torus拓扑结构,构建了名为ICI的片间互连网络。
这一架构允许单个TPUv7集群(Pod)扩展至惊人的9,216颗芯片,远超英伟达常见的64或72卡集群。OCS允许通过软件定义网络,动态重构拓扑结构。
这意味着如果某部分芯片故障,网络可以毫秒级绕过故障点,重新“切片”成完整的3D环面,极大地提升了集群的可用性。且光信号在OCS中无需进行光电转换,直接物理反射,大幅降低了功耗和延迟。
Gemini 3和Claude 4.5 Opus这两大全球最强模型均完全在TPU上完成预训练,这本身就是对TPU系统处理“前沿模型预训练”这一最高难度任务能力的终极背书。
拆除最后的围墙:软件生态的改变
长期以来,阻碍外部客户采用TPU的最大障碍是软件——谷歌固守JAX语言,而全球AI开发者都在使用PyTorch和CUDA。
但在巨大的商业利益面前,谷歌终于放下了傲慢。
SemiAnalysis报告指出,谷歌软件团队的KPI已发生重大调整,从“服务内部”转向“拥抱开源”。
此前,谷歌“超级队长” Robert Hundt已明确宣布,将全力支持PyTorch Native在TPU上的运行。
谷歌不再依赖低效的Lazy Tensor转换,而是通过XLA编译器直接对接PyTorch的Eager Execution模式。这意味着Meta等习惯使用PyTorch的客户,可以几乎无缝地将代码迁移到TPU上。
同时,谷歌开始向vLLM和SGLang等开源推理框架大量贡献代码,打通了TPU在开源推理生态中的任督二脉。
这一转变意味着英伟达最坚固的“CUDA护城河”,正在被谷歌用“兼容性”填平。
而这场“硅谷王座”的争夺战,才刚刚开始。
最专业的美股资讯推荐美股大数据 https://Stockwe.com/vip
如何识别美股市场异常波动?美国机构主力资金买卖情况,出货和吸筹,使用美股投资网VIP会员,2008年成立于美国硅谷,由前纽约证券交易所分析师Ken创立,联合多位摩根斯坦利分析师,谷歌 Meta工程师利用AI和大数据,配合十多年美股实战经验和业内量化模型,建立了一个股市数据库 https://StockWe.com/ 每天处理千万级股票数据:捕捉期权大单,实时主力资金流向、机构持仓变化、川普突发新闻,精准交易信号第一时间发到您手机APP!
华尔街本周给那些心存疑虑的投资者上了一堂代价高昂的课:在市场狂热中选择“谨慎”,往往意味着错失行情。
更关键的是,这次反弹不只是价格层面的上扬,而是结构性、系统性的“重定价”。它代表着资金、流动性、系统性仓位、美联储预期与科技创新周期的多线共振。
风险偏好全面回归
不同资产之间的联动强度,反映出这并非某一板块的超跌反弹,而是风险偏好的整体回归。
Bitcoin 自 11 月低点反弹超过 7%,加蜜货币作为“散户情绪晴雨表”的意义在于:只有资金真正愿意承担更高波动,它才会率先上涨。
与此同时,一批被大量做空的股.票出现快速回补,从 meme 股到垃圾债,各类高贝塔资产的波动率明显下行。这是市场“重新愿意冒险”的标志。
美债收益率同步回落也推动了资产估值的重新舒展。两年期美债收益率跌至 3.5%,意味着市场在提前定价美联储可能在 12 月甚至明年一季度降息。
更重要的是,这种组合式的修复并不常见:
股.票上涨、债券上涨、Bitcoin 上涨、大宗商品上涨这意味着风险偏好的扩散,而不是局部修复。
AI 再次成为驱动市场的核心逻辑
这轮反弹最关键的催化剂来自谷歌。
新一代 AI 模型的发布,重新点燃了市场对科技板块的信心,也压住了此前最具杀伤力的疑问:“AI 是不是有泡沫?”
科技股上涨并非单纯估值扩张,而是修复“创新周期”预期。从十月到十一月上旬,市场对 AI 的争论集中在两个问题:
1)估值是否过高?
2)创新速度是否放缓?
谷歌的模型展示让机构看到:AI 的创新曲线远未放缓,而是进入下一阶段。科技巨头重新巩固“增长锚”的位置,也解释了为什么标普500 在本周录得六个月来最佳表现。
美股大数据获悉,谷歌本周上涨近7%,带领科技板块集体回升。科技周期本身具备“叙事驱动力”,只要创新仍在推进,修正就不会成为趋势性的顶部。
高盛数据揭示行情反弹的“硬底层”
情绪回暖只是表象,系统性仓位清洗才是真正有力量的转折点。
1)市场广度从 -150 到 +150
高盛交易部门指出,11 月初,标普500成份股上涨家数减去下跌家数的五日均值曾跌至 -150。这意味着指数虽然跌幅不算巨大,但“表面之下”的结构压力在快速积累。
而到了感恩节前,该指标回升至 +150,完成了罕见的“超强反转”——这是一种深度排压后的广度修复。
换句话说:不是只有少数科技股在涨,而是市场大部分资产都开始参与。
2)波动性恐慌指数回落至 5:压力被系统性释放
高盛的波动性恐慌指数目前约为 5,远低于 11 月初的高点,也低于疫情后多年的均值。这反映出:市场对风险的感受正在快速回归正常区间。
3)系统性策略抛售 160 亿美元,现已被完全吸收
过去一个月,系统性策略(CTA、风险平价等)被迫削减仓位,抛售规模估算约 160 亿美元。这也是 11 月初市场回调的直接推手。
随着这些卖盘被市场完全吸收,杠杆水平和拥挤度同步下降,前期累积的连锁性压力得到释放,持仓结构重新回到更为中性的区间。
进入 12 月,市场在缺乏强制性抛压干扰的情况下,呈现出一个相对更“干净”的起点,后续走势也更容易由新的预期和主动买盘来主导。
4)高盛:12 月系统性仓位转为净买入 47 亿美元
这是本轮反弹最有力量的一项数据。
高盛预计,系统性策略在 12 月将从净卖出转向净买入,规模预计约 47 亿美元这意味着结构性资金的方向已经反转,并将成为推动行情的“第二波力量”。
高盛策略师 Lee Coppersmith 写道:“进入 12 月,市场在缺乏强制性抛压干扰的情况下,呈现出一个相对更“干净”的起点,后续走势也更容易由新的预期和主动买盘来主导。”
标普强势反攻
标普500 本周上涨 3.7%,为六个月以来最强单周表现。Bitcoin 重返 90,000 美元上方;两年期美债收益率下行;大宗商品反弹同步加强。这是典型的“趋势恢复型反弹”,而非短期脉冲。
因为多个资产、多个板块、多个因子同时上行,说明资金正在重新布局风险资产,而不是单纯回补空单。
正如巴克莱策略师 Emmanuel Cau 所言:“不要与美联储作对,不要与 AI 作对,这是本周市场的核心信息。”
看空者溃败
今年表现最差的交易之一,就是做空美股。
这种快速、大规模的反弹走势,与近期的多个历史周期如出一辙:每一次看似严重的市场动荡,最终都被证明是多头“结构性买点”。
Cboe 波动率指数(VIX)两周前曾触及今年 4 月以来的高位,但即便在波动加剧阶段,资金也从未真正停止流入风险资产。
管理规模高达 8,200 亿美元的 Vanguard S&P 500 ETF 今年流入资金已达约 1,250 亿美元,该基金年内涨幅约 17%,有望再次创下年度资金流入纪录。
即便只是简单配置美债,今年的总回报率也接近 7%,是 2020 年以来表现最好的一年。高收益债在本周重新录得上涨,投资级信贷和垃圾债的波动性指标也明显回落。
数据显示,看空策略损失惨重。与标普500 挂钩的杠杆看空工具今年已累计损失超过 80%。高盛追踪的一篮子“被做空最多的公司”今年累计上涨约 28%,而那些三倍反向做空美股市场的 ETF 则暴跌了约 84%。
美联储鸽派预期的强化
美联储预期的变化,是本周行情反转的“深层逻辑”。
白宫国家经济委员会主任 Kevin Hassett 被视为下一任美联储主席热门人选;美联储理事 Stephen Miran 再次强调美国经济需要更大幅度降息;劳动力数据持续走弱,进一步提升了市场对 12 月降息的预期。
更换主席的讨论,让市场意识到:
未来两年大概率是鸽派周期,而不是鹰派周期。
Mizuho 宏观策略师 Jordan Rochester 指出:“2026 年 5 月可能上任的新主席,让市场难以因为强数据而做空。”
宏观交易员 James Athey 补充:“要让股.票出现持续显著的下行,需要多个悲观叙事共振,而当前的流动性环境不支持这种情况。”
美股投资网认为,这意味着,美股的下行风险受到结构性限制,风险资产拥有“预期之锚”。
综上所述,华尔街的这场“感恩节反攻”绝非昙花一现的短期反弹,而是一次由“AI创新续命”、“美联储鸽派预期强化”和“系统性仓位排压完成”三股力量推动的结构性重定价。
美股投资网认为,12月大概率会降息,从而推动美股上涨!
美国感恩节黑五VIP会员特大优惠 https://StockWe.com/vip
新会员凡是订阅半年VIP额外多送1个月
订阅1年多送2个月,价值300美元
美股投资网获悉,博通(AVGO)股价今年迄今为止已上涨超过 66%,市值向2 万亿美元迈进。高盛分析师James Schneider刚刚上调了该股的目标价,并重申了买入评级。他认为博通公司或许是人工智能热潮中最重要的“军火商” 。然而,伴随这种势头而来的是一种新的压力。他也明确表示,市场对第四季度的预期依然极高。投资者希望公司业绩大幅超出预期,并上调业绩指引,其中人工智能销售额需超过预期的110亿美元。
因此,尽管博通可能在人工智能硬件竞赛中获胜,但高盛的报告强调了未来的挑战,即当股票涨势如此强劲时,即使业绩出色也可能令人失望。
押注博通的人工智能引擎
Schneider将博通的目标价从 380 美元上调至 435 美元,因为博通进入第四季度时,其发展势头强劲,不容忽视。
他在报告中谈到了投资者最关心的三个领域。其中包括该公司对 2026 年 AI 收入的预期、谷歌和 OpenAI的销售贡献,以及随着其定制 XPU 业务继续以惊人的速度增长,该公司能否保持其高利润率。
此外,Schneider提到,人们的期望仍然很高,尤其是考虑到同行们的强劲表现,特别是谷歌最新发布的 Gemini 3,它大量采用了博通设计的 TPU。
值得一提的是,博通股价上涨后,目前的市销率超过 28 倍,市现率超过 55 倍。不过,高盛认为博通与其说是人工智能炒作的受益者,不如说是少数几家构建其他公司赖以生存的硬件基础的企业之一。
市场对博通的高预期
博通进入第四季度,市场预期其业绩将继续保持稳健增长,这主要得益于快速增长的人工智能半导体业务。普遍预期显示,每股收益约为 1.87 美元,销售额为 170 亿至 174 亿美元。
博通公司自身给出的174亿美元的营收指引接近该区间的上限。当然,这家科技巨头的AI芯片业务是其最重要的增长动力,预计第四季度营收将达到62亿美元,同比增长66%,占总销售额的三分之一以上。以 VMware 为首的基础设施软件预计也将增加67 亿美元,增长率高达15%。
此外,凭借创纪录的 1100 亿美元积压订单,以及新披露的“第四大人工智能客户”下了超过 100 亿美元的订单,投资者认为强劲的增长势头将持续到明年。
博通的人工智能故事讲述的是它如何悄然构建了企业的工程基础架构,从而有效地定义了人工智能竞赛的格局。其核心是谷歌和 OpenAI,这两家超大规模数据中心公司都选择博通作为其开发定制 AI 加速器(称为XPU)的首选 ASIC 设计合作伙伴。从这个角度来看,这些功能强大的新芯片目前占该公司人工智能产品销售额的惊人65%。
谷歌在这一扩张过程中扮演了重要角色。博通公司是为新款Gemini机型提供动力的硅芯片合作伙伴,负责这些芯片的设计和生产,并推出了采用新型张量处理单元 (TPU) 的芯片。
据报道,鉴于博通作为领先的 TPU 承包商的角色,Meta Platforms可能会在 2026-2027 年采用谷歌的 TPU 设计,这将为其带来新的发展动力。
OpenAI 又增添了第二个催化剂。据报道,该公司正与博通合作开发高性能定制加速器,使 OpenAI 有望从 2026 财年开始成为关键贡献者。
而投资者们似乎仍未充分意识到博通的未来在多大程度上取决于谷歌和OpenAI能否加速推进定制芯片的研发。如果这两家公司的发展速度超出预期,博通可能会悄然从英伟达手中夺取大量AI市场份额。
最专业的美股资讯推荐美股大数据 https://Stockwe.com/
如何识别美股市场异常波动?美国机构主力资金买卖情况,出货和吸筹,使用美股投资网VIP会员,2008年成立于美国硅谷,由前纽约证券交易所分析师Ken创立,联合多位摩根斯坦利分析师,谷歌 Meta工程师利用AI和大数据,配合十多年美股实战经验和业内量化模型,建立了一个股市数据库 https://StockWe.com/ 每天处理千万级股票数据:捕捉期权大单,实时主力资金流向、机构持仓变化、川普突发新闻,精准交易信号第一时间发到您手机APP!
美股投资网获悉,高盛重申对液化天然气生产商Cheniere Energy(LNG)的“买入”评级,但将目标价从2780美元下调至275美元。此次目标价下调是对该公司因原料气质量问题导致季度业绩表现被该投行称为“疲软”的回应。
Cheniere Energy第三季度营收为44.4亿美元,低于市场预期的48.9亿美元;每股收益为4.75美元,优于市场预期的2.92美元。在业绩表现喜忧参半的情况下,管理层重申了全年EBITDA指引,这与市场预期可能下调相反。
高盛在重申其“买入”评级的同时,也强调了Cheniere Energy对股东价值的承诺。该公司在本季度回购了10亿美元的股票,并暗示将持续进行高水平回购活动。此外,该投行认为公司的EBITDA前景蕴含显著价值。
资料显示,Cheniere Energy 是美国领先的液化天然气生产商和出口商,为全球能源市场提供供给。该公司在墨西哥湾沿岸运营着两座大型液化天然气液化与出口设施位于路易斯安那州的萨宾帕斯设施和位于德克萨斯州的科珀斯克里斯蒂设施。
最专业的美股资讯推荐美股大数据 https://Stockwe.com/
如何识别美股市场异常波动?美国机构主力资金买卖情况,出货和吸筹,使用美股投资网VIP会员,2008年成立于美国硅谷,由前纽约证券交易所分析师Ken创立,联合多位摩根斯坦利分析师,谷歌 Meta工程师利用AI和大数据,配合十多年美股实战经验和业内量化模型,建立了一个股市数据库 https://StockWe.com/ 每天处理千万级股票数据:捕捉期权大单,实时主力资金流向、机构持仓变化、川普突发新闻,精准交易信号第一时间发到您手机APP!