20萬(wàn)顆GPU“燒出”Grok3：業(yè)界稱“大力出奇跡”仍可行，算力仍是護(hù)城河

2025-02-20 19:52:47 澎湃新聞

　　20萬(wàn)顆GPU“燒出”Grok3：業(yè)界稱“大力出奇跡”仍可行，算力仍是護(hù)城河

　　Grok 3表明依靠算力堆積的“大力出奇跡”路徑目前依舊可行。

　　2月18日，特斯拉創(chuàng)始人埃隆·馬斯克旗下xAI推出最新大模型Grok 3。據(jù)介紹，雖然Grok起步較晚，但MMLU(大規(guī)模多任務(wù)語(yǔ)言理解基準(zhǔn)測(cè)試)得分已追上ChatGPT，Grok 3和輕量化的Grok 3 mini在多個(gè)性能上都超過(guò)或媲美Gemini、DeepSeek和GPT-4o等對(duì)手。

　　Grok 3在xAI位于孟菲斯的Colossus超算中心進(jìn)行訓(xùn)練。xAI透露，這一超算中心的算力已經(jīng)翻倍，擁有的英偉達(dá)GPU數(shù)量已達(dá)到20萬(wàn)顆。

　　本以為是馬斯克又在虛張聲勢(shì)，但這次Grok 3的確沒(méi)有令人失望。

　　基于Grok 3的優(yōu)秀表現(xiàn)，不少業(yè)內(nèi)人士再度表露了對(duì)算力堆積這種“大力出奇跡”路徑的認(rèn)可。更有分析人士指出，Grok 3證明了縮放法則(scaling law)在達(dá)到上限之前仍有發(fā)展空間——這對(duì)整個(gè)行業(yè)來(lái)說(shuō)是一個(gè)令人鼓舞的信號(hào)。

　　AI大牛、前OpenAI 研究員、前特斯拉AI負(fù)責(zé)人Andrej Karpathy在成為Grok 3首批用戶后，在社交媒體上發(fā)布了一份詳細(xì)的測(cè)評(píng)總結(jié)。他稱贊了Grok 3 的邏輯推理能力，并指出其性能可與OpenAI的o1-pro模型相媲美，后者的月度費(fèi)用為200美元。他還認(rèn)為，Grok 3的推理能力略優(yōu)于DeepSeek-R1、谷歌的Gemini 2.0 Flash Thinking。

　　不過(guò)，他也指出了Grok 3的一些局限性，包括搜索功能DeepSearch中偶爾出現(xiàn)的幻覺(jué)和事實(shí)錯(cuò)誤。

　　“考慮到該團(tuán)隊(duì)大約1年前才從零開(kāi)始，這真是令人難以置信，他們以前所未有的速度達(dá)到了幾乎業(yè)內(nèi)最高水平�！盞arpathy表示。

　　不少科技領(lǐng)域的分析人士表明，Grok 3的成功，在很大程度上就是依靠算力堆積。

　　人工智能服務(wù)網(wǎng)站Maginative創(chuàng)始人兼主編Chris McKay認(rèn)為，xAI自成立以來(lái)，僅用了一年多的時(shí)間就迅速開(kāi)發(fā)出了具有競(jìng)爭(zhēng)力的AI技術(shù)，其成功很大程度上得益于創(chuàng)新的計(jì)算基礎(chǔ)設(shè)施和對(duì)大量計(jì)算資源的訪問(wèn)。隨著更多超算集群的規(guī)劃，xAI似乎有望繼續(xù)提升模型能力。

　　沃頓商學(xué)院人工智能教授Ethan Mollick認(rèn)為Grok 3完全符合預(yù)期。他指出，人工智能仍在加速發(fā)展，速度和算力都是護(hù)城河，“人才和芯片就是打造前沿模型的公開(kāi)秘訣”。

　　“護(hù)城河可能不深，但足以淹死初創(chuàng)企業(yè)�！毖┏谴髮W(xué)公共傳播學(xué)院教授、咨詢公司The Palmer Group首席執(zhí)行官Shelly Palmer評(píng)論說(shuō)。在他看來(lái)，Grok 3的護(hù)城河“已經(jīng)被金錢填滿”。英偉達(dá)H100 GPU的價(jià)格在3萬(wàn)至4萬(wàn)美元之間，即使馬斯克拿到了折扣，這仍然是一項(xiàng)30億到50億美元的龐大投資。

　　公開(kāi)信息顯示，OpenAI訓(xùn)練GPT-4用了大約2.5萬(wàn)張A100 GPU，而H100的訓(xùn)練吞吐量遠(yuǎn)高于A100；據(jù)DeepSeek公布的信息，DeepSeek-V3模型預(yù)訓(xùn)練費(fèi)用僅為557.6萬(wàn)美元，在2048塊英偉達(dá)H800 GPU(針對(duì)中國(guó)市場(chǎng)的低配版GPU)集群上耗時(shí)55天完成。

　　隨著DeepSeek的橫空出世，不少人提出縮放法則(scaling law)可能會(huì)失效或者不再完全適用�？s放法則是AI研究中的一個(gè)重要指導(dǎo)原則，它認(rèn)為，在大多數(shù)情況下，增加規(guī)模(模型參數(shù)、數(shù)據(jù)量、算力)都能提高模型的表現(xiàn)，但效益遞減。

　　科技領(lǐng)域博主Zain Kahn表示，近幾個(gè)月來(lái)，有觀點(diǎn)認(rèn)為，向大模型投入更多數(shù)據(jù)和算力將不再奏效，但Grok 3證明了這種懷疑并不正確。xAI才進(jìn)入這個(gè)領(lǐng)域兩年，就已經(jīng)與頂尖公司展開(kāi)了激烈競(jìng)爭(zhēng)，甚至擊敗了頂尖公司。

　　Kahn強(qiáng)調(diào)說(shuō)，xAI龐大的Colossus超算集群將大模型推向了新的高度，“預(yù)訓(xùn)練縮放法則在達(dá)到上限之前仍有發(fā)展空間——這對(duì)整個(gè)行業(yè)來(lái)說(shuō)是一個(gè)令人鼓舞的信號(hào)�！�

　　機(jī)構(gòu)也對(duì)算力的作用給出了肯定，指出算力堆積仍是模型進(jìn)步的關(guān)鍵變量。

　　華泰證券在2月20日發(fā)布的研報(bào)中提出，Grok 3證明預(yù)訓(xùn)練在算力提升下仍能突破。雖然目前在預(yù)訓(xùn)練數(shù)據(jù)上存在瓶頸，但是合成數(shù)據(jù)、RL(強(qiáng)化學(xué)習(xí))數(shù)據(jù)、工程能力優(yōu)化，甚至Transformer架構(gòu)迭代，或能逐步打破瓶頸，Grok 3已經(jīng)證明預(yù)訓(xùn)練依然有突破空間。

　　國(guó)泰君安也提到，xAI算力資源儲(chǔ)備與開(kāi)源策略的平衡，凸顯算力與算法的同等重要性。高昂的算力投入已經(jīng)形成了顯著的技術(shù)門檻。

　　中信證券指出，Grok 3作為全球首個(gè)在十萬(wàn)卡集群上訓(xùn)練的大模型，綜合能力較前代模型Grok 2提升顯著，意味著算力堆積仍是模型進(jìn)步的關(guān)鍵變量之一。

　　記者吳遇利

來(lái)源：澎湃新聞

編輯：熊思怡

廣告等商務(wù)合作，請(qǐng)點(diǎn)擊這里

本文為轉(zhuǎn)載內(nèi)容，授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人

中新經(jīng)緯版權(quán)所有，未經(jīng)書面授權(quán)，任何單位及個(gè)人不得轉(zhuǎn)載、摘編或以其它方式使用。

關(guān)注中新經(jīng)緯微信公眾號(hào)(微信搜索“中新經(jīng)緯”或“jwview”)，看更多精彩財(cái)經(jīng)資訊。

今日推薦