游戏百科

OpenAI官宣自研造芯,巨头们为何都要搞AI基建?

近期,OpenAI官宣联手芯片巨头博通下场造AI芯片,计划在2029年底前部署高达10GW的算力基础设施。这家以软件见长

近期,OpenAI官宣联手芯片巨头博通下场造AI芯片,计划在2029年底前部署高达10GW的算力基础设施。这家以软件见长的AI巨头,正在硬件领域展现出前所未有的野心。

如果你仔细观察,会发现OpenAI在芯片和数据中心领域的布局只是冰山一角。它一方面自研芯片,另一方面又与英伟达、AMD、Oracle等公司紧密合作,全力推动新一代AI基础设施建设。

为什么软件巨头纷纷涉足硬件?芯片和数据中心对AI究竟意味着什么?自研芯片的真正挑战在哪里?当前的芯片热潮是泡沫吗?

AI 芯片公司Groq创始人Jonathan Ross在近期的一次深度访谈中,揭示了这些问题背后的真相。

算力:AI增长的核心引擎

Jonathan直言不讳地指出,“如果现在给OpenAI的推理算力翻一倍,给Anthropic的推理算力翻一倍,那么在一个月之内,他们的收入几乎会翻倍。”

这一观点揭示了AI行业当前最根本的现实:AI应用的增长受限于算力的供给。

在需求近乎无限的市场中,最稀缺的不是“最好的产品”,而是“可获得的产品”。谁能获得更多算力,谁就能服务更多用户,赚取更多收入。

AI与以往的技术革命有着本质区别。其增长几乎不受单一要素的制约。AI的三要素——数据、算法、算力,形成了一个独特的增长飞轮:只要提升其中任意一项,AI的整体表现就会改善。而在实践中,最容易调整、见效最快的,就是算力。

传统观念认为,产品的护城河在于技术专利、品牌或网络效应。但在AI时代,一个差异化且高效的供应链本身就是一条极深的护城河。

在算力稀缺的时代,交付能力的重要程度远超一切,能够稳定、快速地提供产品本身,就构成了强大的竞争优势。

自研芯片:难以逾越的护城河

科技巨头纷纷“造芯”的背后,并非单纯为了在性能上超越英伟达,而是为了“掌控自己的命运”。关键在于供应链的博弈和议价权。

Jonathan表示,“我认为不会有太多人能真正成功进入芯片领域。很多人把TPU看作一个巨大成功,但他们没意识到,当时Google其实有大约三个芯片项目在同时进行,只有一个最终超越了GPU。”

制造芯片的难度被外界严重低估。芯片的成功不仅在于硬件设计本身,而是其背后极为复杂的软件生态、持续的工程优化和对整个技术生态演进节奏的精准把握。

“你要是说我自己做一颗AI芯片来和英伟达竞争,这就好比说Google搜索挺好用的,我来复制一个吧。这几乎是疯狂的,因为里面涉及的优化、设计和工程深度极其复杂,几乎不可能复制成功。”

那么,为什么巨头们仍前仆后继地投入芯片自研?Ross用他在Google的经历揭示了真相:“实验室里有1万台基于AMD芯片的服务器,工程师把服务器从机架里抽出来,直接把AMD芯片撬下来丢进垃圾桶。”

“那为什么Google还要做1万台AMD服务器?因为他们想借此从英特尔那里拿到更大的折扣。”到了这种规模,Google为适配AMD去设计主板、做整机和测试所花的成本,和最终从英特尔拿到的折扣相比,还是划算的。

自研芯片的真正价值,不仅在于有了自己的芯片,更是拿回对自己命运的主导权。

HBM:算力战争的隐形战场

一个反直觉的现实是,市场上依然有大量接近五年前发布的英伟达H100 GPU在被高价租用,并且其产生的收入远高于运营成本。整个市场的算力供给远不应求。

这背后的关键瓶颈之一,是HBM(高带宽内存)。HBM是GPU的超级显存,而英伟达实际上对HBM具有买方垄断的地位。

买方垄断与卖方垄断相反:当市场上只有极少数大买家,而HBM的产能又很有限时,就会出现这种格局。如果只看GPU核心,英伟达一年生产5000万颗并非不可能,但现实中今年大概只能生产550万块整机GPU。原因就在HBM和承载它的中介层产能有限。

“由于产能就是有限的,自研芯片真正带来的,不仅是有了自己的芯片,更是拿回对自己命运的主导权。这才是自研芯片的独特价值所在。”Jonathan解释道。

在AI需求迅猛飙升的背景下,即便英伟达现金流充沛,也很难完全提前覆盖未来的超大需求,因此供给瓶颈仍会存在。这不仅仅是买方垄断的问题,还有资本开支巨大,内存厂商普遍保守等原因。

再者,HBM的毛利很高,谁都不愿意轻易扩产,因为一旦供给增加,利润率就会下滑。

速度:被低估的竞争要素

在AI交互中,速度的重要性常常被低估。许多人认为,他们可以输入一个提示,然后去做别的事情,等回来时结果就出来了。这种观点在Jonathan看来是完全错误的。

“我们来看一下快消品。如果按利润率来排序,排在最上面的是烟草,接下来是嚼烟,然后是软饮料,再往下才是水和其他类似的产品。”Jonathan分析道,“在快消品行业里,高利润率最相关的因素是什么?就是成分对人起作用的速度。”

多巴胺循环有多快被触发,决定了人们对品牌的依赖。 当一种产品能带来快速反应时,你会对它产生强烈的品牌联想,进而形成品牌价值。

这也是Google为什么那么强调速度,Facebook为什么也强调速度的原因。历史数据表明,每当网页速度提升100毫秒,转化率大约会提高8%。

“人类在判断什么因素会影响参与度、影响结果方面,其实很不敏感。我们从早期互联网公司建设中就已经深有体会。”Ross指出。

当Groq刚开始优化芯片速度时,人们看了演示视频后会问:为什么要比人类阅读速度还快?

Jonathan的回答是:那网页为什么要比人类阅读速度加载得更快呢?这里存在一种思维错位,很多人并没有在直觉层面真正明白速度有多重要。

回本周期与算力价值

在算力投资领域,传统的会计思维可能需要调整。Jonathan提出了一个关键洞察:芯片的价值分成两个阶段。

“第一是我是否愿意买来部署;第二是我是否愿意持续运行。两者的计算完全不同:部署时要覆盖资本支出;持续运行时只要覆盖运营成本。”

也就是说,今天把芯片部署上线,必须把资本支出赚回来并且获得回报。而只要能覆盖运营成本,就会让它继续运行。也就是说可以接受芯片的价值随时间下滑。

“大家真正押注的是:新芯片出来后,旧芯片的可创造价值不会低到连运营成本都覆盖不了。”

以当前的H100为例,这批芯片都快五年了,依然跑得不错,而且收入远高于运营成本。今天不会再去新部署H100,但让它们继续运行仍是赚钱的。只要算力短缺还在,这种情况就会持续。

在近乎无限的算力需求面前,供应能力本身就成了最稀缺的资源。

开源模型的成本误区

市场上存在一个普遍误解:开源模型的运行成本更低。Jonathan对此进行了澄清。

“当中国的模型出来时,大家的反应都是:天哪,他们把模型训练出来了,几乎赶上美国的模型了。刚开始连我自己都有点被带偏了,会想这些模型运行成本是不是更低。”

“现在我更了解大家在用的基础模型和中国模型之间的差别后,我的结论是并不更便宜,运行成本大概高出十倍。”

具体来说,以最近发布的GPT开源模型为例,它的优化方向和中国模型不同,但质量很高,就其专注的领域而言,明显优于中国的模型。而这个开源模型的运行成本大约只有中国模型的十分之一。

那为什么很多人定价更低呢?因为当某个模型在一个被锁定的市场里,用户只想要这个模型,而且只有一个提供方时,它就能把价格抬到十倍。也就是说,价格被抬高了,但大家把成本和价格混淆了。

中国的模型更偏向把训练做得更便宜,而不是把推理运行做得更便宜。

能源:算力的终极瓶颈

随着AI算力需求的爆炸式增长,能源供应已成为不可忽视的瓶颈。要满足这波算力浪潮的能源需求,是否只有核电这一条路?

Jonathan认为不止核电。“核电高效且成本可控,可再生能源同样高效且成本可控。”

他提出了一个简单的解决方案:美国及其盟友只要愿意把算力中心建在能源便宜的地方,就能获得比中国更多的可用能源。

以欧洲和美国对比。美国相比欧洲,更厌恶风险。但关键是分清风险类型:一种是作为性错误,做了错事;另一种是不作为性错误,该做的不做。

在高速增长的经济里,错过机会往往比做错一件事代价更昂贵。 而欧洲对不作为的风险反而更能接受。

“如果欧洲真想在AI上竞争,其实可以这样做:比如让挪威部署大量风电。挪威风电的可利用率大约有80%,同时挪威水电富足,如果把风电装机扩到水电的5倍,挪威一国提供的电力就能接近美国全国水平,而且能稳定供给。”

欧洲的一个国家就有如此潜力,更不用说全球范围内还有多少非核能的潜力可以被释放出来。

Jonathan强调,“谁掌握算力,谁就掌控AI;而没有能源,就不可能有算力。”

算力没有上限的经济学

与其他技术革命不同,AI算力的增长几乎没有理论上限。

Jonathan指出,只要增加算力,产品就会更好。从可用规模上看,算力没有上限。这和工业革命不一样。工业革命时期,只有先有机器才能用上能源,而且要先把机器造出来,这需要时间。

AI 不是这样。没错,把模型做得更好,的确可以在同样算力下做更多事;但如果把算力翻倍,用户数会翻倍,模型质量也会提升。这很不一样。

只要给社会配上更多可用的计算能力,整体经济活动就会随之变强。 以往从没出现过这种状况,不再被某个环节卡住;只要把其中一个关键要素加大投入,整体表现就会随之一起提升。

Jonathan预测,AI会带来三件事:

第一是强烈的通缩压力。咖啡会更便宜,住房会更便宜,很多东西都会更便宜,这意味着人们所需的钱会更少。

随之而来,第二点是人们可以减少工作:每周工作时长更少、工作天数更少、职业生涯更短,能更早退休,因为用更少的工作就能维持生活。

第三点是会出现全新的岗位、公司和产业,这些现在还不存在。

“一百年前最著名的预测是什么?说人类会大饥荒,因为无法养活自己。事实是,每次技术进步,人们总是低估经济会发生的深刻变化。”

护城河与供应链博弈

在AI算力市场,传统的护城河概念正在被重新定义。

Jonathan认为,英伟达的真正护城河并非其软件生态,尤其是在推理领域。“在训练阶段这点成立,但在推理阶段并不成立。我们现在平台上注册的开发者有220万了。”

对于新兴的芯片公司,时间本身就是一条护城河。“VC常问怎么防止别人抄袭?答案是就算照抄,也会比我们晚三年,这还是在一切顺利、从设计到量产只需三年的理想情况下。”

Groq已经做了三款量产芯片,全部都是一次流片成功。但行业里首版成功率只有14%,也就是说有86%的概率需要重转一次。

在算力极度短缺的市场中,供应链的稳定性和交付速度本身就成为最强的竞争优势。

Jonathan透露,Groq的交付周期仅为6个月,与行业常见的18个月形成鲜明对比。这种快速的响应能力,在技术迭代日新月异的AI时代具有不可估量的价值。

结语

在访谈的最后,Jonathan用一个深刻的比喻描述了AI的意义:“大多数人害怕的事,恰恰让我兴奋。大家担心AI会带来什么,我觉得可以用伽利略做比喻。”

“几百年前,伽利略让望远镜普及,为此惹了大麻烦。因为望远镜让我们看到了真相,宇宙比想象中更辽阔,于是我们感到自身渺小。后来我们发现,人类很小,宇宙却广阔而动人。”

“我认为大模型是心智的望远镜。它们现在让我们觉得自己很渺小,但一百年后,我们会意识到智能的广阔超乎想象,而那同样是美的。”

在算力战争的硝烟背后,是人类认知边界的又一次重大扩展。谁能为这一扩展提供坚实的基础设施,谁就将在未来的智能时代占据领先地位。

当前的算力竞赛只是开始,真正的AI革命还在后头。