2024年末,一個(gè)中國AI小廠,憑借過硬的技術(shù),獲得了全球鋪天蓋地的關(guān)注。
圣誕節(jié)過后,海外社交媒體以及技術(shù)論壇Github都在討論一個(gè)最新發(fā)布的開源大模型,DeepSeek-V3。它被外國網(wǎng)友冠以名號(hào)——“來自東方的神秘力量”。
多個(gè)評(píng)測(cè)報(bào)告里,DeepSeek-V3在世界開源模型之中處在第一梯隊(duì),超過扎克伯格的LLaMa3.1。拿它比GPT-4o以及Claude3.5兩個(gè)最頂尖大模型也毫不遜色,甚至,其在數(shù)學(xué)推理、代碼生成和長文本處理等指標(biāo)上,表現(xiàn)更強(qiáng)。
這還不是中國AI公司DeepSeek(中文名:深度求索)全部的“拿手好戲”。更讓美國硅谷等同行摸不著頭腦的是,DeepSeek公布的53頁技術(shù)報(bào)告顯示,其訓(xùn)練頂尖大模型只用了2048張H100的GPU集群,花費(fèi)53天,共計(jì)耗費(fèi)557.6萬美元。有專業(yè)人員指出,同等水平之下,世界AI大廠至少要用1.6萬張以上的GPU,有的甚至需要10萬張GPU并行訓(xùn)練。
OpenAI早期成員安德烈·卡帕西感慨,DeepSeek-V3的出現(xiàn)意味著,今后也許不需要大型GPU集群來訓(xùn)練前沿的大語言模型了。ScaleAI的華裔CEO亞歷山大·王更感慨道,DeepSeek-V3帶給美國最大的教訓(xùn)是,“當(dāng)美國人休息時(shí),中國正在努力工作,最終以更低的成本、更快的速度迎頭趕上,變得更強(qiáng)”。
這一以低成本聞名的小團(tuán)隊(duì)顛覆了國外AI巨頭發(fā)展的固定范式,是被外界認(rèn)為最像(早期)OpenAI的開源機(jī)構(gòu)。事實(shí)上,這家小廠位于杭州,創(chuàng)始人從浙江大學(xué)畢業(yè),2015年創(chuàng)立了公司幻方量化,幾年之間,成為中國少有的突破千億規(guī)模的量化私募機(jī)構(gòu)。
一家金融公司搞出了一個(gè)最有氣質(zhì)的AI大模型公司,本身已經(jīng)令人稱奇。與此同時(shí),DeepSeek堅(jiān)持技術(shù)開源,每次模型發(fā)布后,都會(huì)公布細(xì)節(jié)滿滿的技術(shù)報(bào)告。多年來,他們?cè)贏I大模型領(lǐng)域默默斬棘,不談商業(yè)化,不發(fā)布新產(chǎn)品,對(duì)外保持低調(diào)。
“神秘的東方力量”,到底想做什么?
2024年末,一則“雷軍千萬年薪挖角‘95后’AI天才少女”的熱帖火遍全網(wǎng)。人們驚訝地發(fā)現(xiàn),名為羅福莉的天才少女,此前供職于在公眾面前寂寂無聞的AI公司——DeepSeek深度求索。
事實(shí)上,早在這之前,成立剛滿一年的DeepSeek就已經(jīng)在AI業(yè)內(nèi)出了圈。半年多前,2024年5月,DeepSeek發(fā)布開源第二代MoE大模型DeepSeek-V2。這是它進(jìn)入業(yè)界主流視野的標(biāo)志事件。
在這個(gè)誠意到位的開源大模型中,DeepSeek-V2沒有沿用國際主流的“類LLaMA的Dense結(jié)構(gòu)”和“類Mistral的Sparse結(jié)構(gòu)”,而是對(duì)模型框架進(jìn)行創(chuàng)新,采用MLA(Multi-headLatentAttention,多頭潛在注意力)架構(gòu)。
創(chuàng)新提高了計(jì)算效率,降低了AI運(yùn)行的高昂成本。作為開源大模型,DeepSeek同時(shí)公布了使用其API的價(jià)目表:每百萬tokens輸入1元、輸出2元(32K上下文)。作為對(duì)比,GPT-4Turbo每百萬tokens的輸入、輸出價(jià)格分別為72元、217元。
“真正的國產(chǎn)之光出現(xiàn)了?!盇I圈內(nèi)人士驚喜地評(píng)價(jià)。從此,DeepSeek有了“AI界拼多多”的外號(hào)。
如此低的價(jià)格,令國內(nèi)AI巨頭紛紛降價(jià)。
與“高大上”的實(shí)力形成鮮明反差的是,幻方量化內(nèi)部人員對(duì)南風(fēng)窗透露,DeepSeek管理“非常扁平”,以技術(shù)人員為主。
誰也沒能預(yù)料到的是,這個(gè)重塑業(yè)界生態(tài)的AI公司,背后是一家量化基金公司?!拔覀兊脑瓌t是不貼錢,也不賺取暴利。這個(gè)價(jià)格也是在成本之上稍微有點(diǎn)利潤?!被梅搅炕瘜?shí)控人、DeepSeek創(chuàng)始人梁文鋒在受訪時(shí)解釋。
這是深度求索在2024年第一次引發(fā)AI行業(yè)震動(dòng)。OpenAI前政策主管、Anthropic聯(lián)合創(chuàng)始人JackClark評(píng)價(jià):“(DeepSeek)雇傭了一批高深莫測(cè)的奇才?!?/p>
主要操盤手梁文鋒,來自廣東五線城市,“80后”,畢業(yè)于浙江大學(xué)電子工程系人工智能方向。2015年,他成立了量化基金公司幻方量化,創(chuàng)始成員多來自浙大。他們共同堅(jiān)信,利用AI進(jìn)行風(fēng)險(xiǎn)對(duì)沖,計(jì)算機(jī)也可以像人類一樣投資。
梁文鋒曾為“量化投資之父”西蒙斯的傳記作序。他寫道:“每當(dāng)在工作中遇到困難時(shí),我都想起西蒙斯說的,‘一定有辦法對(duì)價(jià)格建?!!?018年,量化私募因高頻交易策略在股市迅速崛起,幻方成為了中國“量化四大天王”之一,一度管理資金規(guī)模超過千億。
對(duì)AI大模型的堅(jiān)定部署,來自創(chuàng)始人對(duì)AI技術(shù)的相信,也源于現(xiàn)實(shí)業(yè)務(wù)的需要。2020年,幻方聯(lián)合創(chuàng)始人徐進(jìn)在知乎發(fā)招募帖,回顧了幻方AI的發(fā)展歷程:早在2008年開始,幻方創(chuàng)始團(tuán)隊(duì)通過AILab招募全球頂尖人工智能專家,在經(jīng)濟(jì)金融領(lǐng)域開展研究。
隨著數(shù)據(jù)量的爆發(fā)式增長,模型越來越龐大,傳統(tǒng)的計(jì)算集群已經(jīng)很難適應(yīng)大型神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練的需求。
2020年3月,幻方量化推出了超級(jí)計(jì)算機(jī)“螢火一號(hào)”,占地面積相當(dāng)于一個(gè)籃球場(chǎng),由一個(gè)存儲(chǔ)集群和一個(gè)計(jì)算集群組成,并開出百萬年薪招聘深度學(xué)習(xí)工程師。
一年后,2021年,幻方推出了“螢火二號(hào)”,投資增加到10億元,搭載了約1萬張英偉達(dá)顯卡。這一大手筆的投入后來被外界認(rèn)為,是幻方最有前瞻性的部署之一。
畢竟,僅僅一年后,2022年8月,美國宣布其停止向中國出口A100和H100兩款芯片。成立于2023年的DeepSeek,成為了除字節(jié)跳動(dòng)、商湯科技等大廠以外,少有的擁有萬卡集群的中國公司。
與“高大上”的實(shí)力形成鮮明反差的是,幻方量化內(nèi)部人員對(duì)南風(fēng)窗透露,DeepSeek管理“非常扁平”,以技術(shù)人員為主。公司沒有正式的公關(guān)人員,也沒有對(duì)外“融過錢”。創(chuàng)始人梁文鋒基本不接受采訪,公司也沒有對(duì)外公關(guān)的需求。
團(tuán)隊(duì)也秉承著小而美的設(shè)計(jì)?!霸然梅搅炕蟾庞袃砂偃俗笥?,(DeepSeek)其實(shí)財(cái)務(wù)、法務(wù)、行政都是幻方量化支持的,大模型團(tuán)隊(duì)算法工程團(tuán)隊(duì)有八九十人?!痹搩?nèi)部人士介紹。
是時(shí)候看一看這個(gè)驚艷國內(nèi)外的全新開源大模型了。
南風(fēng)窗記者通過實(shí)測(cè)發(fā)現(xiàn),DeepSeek-V3在數(shù)學(xué)、編程領(lǐng)域展示出較好的答題能力,打破過去人們對(duì)“AI不擅長數(shù)學(xué)”的印象。除了傳統(tǒng)的文本對(duì)話,DeepSeek-V3有一個(gè)相比其他AI大模型更特別的功能——“深度思考”。意思是,在AI生成正式答案之前,DeepSeek-V3會(huì)展示機(jī)器進(jìn)行推理、“思考”的過程。
例如,對(duì)著DeepSeek-V3,記者輸入了問題:“請(qǐng)給我影響人們工作積極性的分析框架,并提出面對(duì)職業(yè)倦怠的解決方案?!?/p>
DeepSeek在11秒間生成了答案的思考過程:“嗯。首先,我得想想工作積極性受哪些因素影響??赡苡袃?nèi)部因素和外部因素吧。內(nèi)部因素比如個(gè)人的興趣、價(jià)值觀、情緒狀態(tài)等。外部因素包括工作環(huán)境、薪酬福利、晉升機(jī)會(huì)、同事關(guān)系、領(lǐng)導(dǎo)風(fēng)格……”
這些“思考”頗具人類的思維過程。它繼續(xù)生成道:“我記得馬斯洛的需求層次理論,生理、安全、社交、尊重和自我實(shí)現(xiàn)需求,都可能影響工作積極性。還有赫茲伯格的雙因素理論,區(qū)分了保健因素和激勵(lì)因素。保健因素如工資、工作條件,如果不好會(huì)引起不滿,但即使好也不會(huì)直接激勵(lì);激勵(lì)因素如認(rèn)可、責(zé)任、成長機(jī)會(huì),這些才能真正提升工作積極性……”
經(jīng)歷這番“思考”后,DeepSeek-V3生成了八個(gè)方面的內(nèi)容,供人參考。其中也不乏套話,也有些給人靈感的內(nèi)容。比如,它寫道:“‘生活不是我們活過的日子,而是我們記住的日子?!R爾克斯提醒著我們,生活的意義在于我們?nèi)绾钨x予它意義。工作亦是如此?!?/p>
涌現(xiàn)的智能不只是大參數(shù)暴力美學(xué)的體現(xiàn),更重要的是,這是一個(gè)效率奇高、由眾多前所未有的設(shè)計(jì)組合而成的超級(jí)工程。
簡單而言,DeepSeek實(shí)現(xiàn)降本增效,并沒有提出前所未有的新技術(shù),而是首次成功將各個(gè)技術(shù),通過巧妙地設(shè)計(jì)與優(yōu)化,完美地搭配并實(shí)現(xiàn)落地。這是一次來自工程層面的勝利。
人們閱讀一篇文章時(shí),眼睛和大腦會(huì)自然地關(guān)注文章中的關(guān)鍵句和段落,忽略不那么重要的信息。多層注意力機(jī)制在AI中的作用也非常類似。在模型處理大量數(shù)據(jù)時(shí),它能夠更加有效地識(shí)別和處理關(guān)鍵信息和特征。
用該團(tuán)隊(duì)自己的話來解釋,幫助DeepSeek-V3實(shí)現(xiàn)降本的方法無非兩個(gè),一是算力需求降低,二是訓(xùn)練AI時(shí)間減少。
所謂算力需求降低,一個(gè)主要的辦法是在訓(xùn)練模型時(shí),對(duì)數(shù)據(jù)進(jìn)行壓縮。壓縮之后,運(yùn)算單元(GPU和CPU)進(jìn)行運(yùn)算的數(shù)據(jù)量就會(huì)減少,運(yùn)算速率也會(huì)提升。為此,DeepSeek運(yùn)用的一個(gè)主要辦法是——MLA多層注意力架構(gòu)。
簡單的一個(gè)例子是,人們閱讀一篇文章時(shí),眼睛和大腦會(huì)自然地關(guān)注文章中的關(guān)鍵句和段落,忽略不那么重要的信息。多層注意力機(jī)制在AI中的作用也非常類似。在模型處理大量數(shù)據(jù)時(shí),它能夠更加有效地識(shí)別和處理關(guān)鍵信息和特征。一旦AI確定了關(guān)鍵特征,它就可以將特征壓縮成一個(gè)更小的向量,從而節(jié)省運(yùn)算需求。
除此之外,據(jù)騰訊科技報(bào)道,DeepSeek-V3還引入了一種名叫FP8混合精度訓(xùn)練的框架,并首次在超大模型上驗(yàn)證了其有效性。
所謂FP8,就是用8個(gè)二進(jìn)制位來表示數(shù)字的格式,相比傳統(tǒng)的32位(FP32)和16位(FP16)格式,精度低了很多,但是占用空間小,計(jì)算快。
而在節(jié)約計(jì)算時(shí)間上,DeepSeek也很有一手。DeepSeek-V3的預(yù)訓(xùn)練階段僅需要266.4萬個(gè)GPU小時(shí)。相較之下,LLaMa3405B的大模型預(yù)訓(xùn)練花費(fèi)了共計(jì)3080萬個(gè)GPU小時(shí),大約是DeepSeek-V3的11倍。
這其中的一個(gè)創(chuàng)新在于,DeepSeek克服了傳統(tǒng)GPU運(yùn)算中的“計(jì)算氣泡”。所謂氣泡,是指GPU在流水線并行處理中,不同的神經(jīng)網(wǎng)絡(luò)層有不同的處理時(shí)間。當(dāng)一個(gè)階段完成其計(jì)算任務(wù)后,如果另一個(gè)階段還在運(yùn)算,沒準(zhǔn)備好接收數(shù)據(jù),就會(huì)產(chǎn)生等待時(shí)間,即“氣泡”?!坝?jì)算氣泡”會(huì)導(dǎo)致GPU資源的浪費(fèi)。
而DeepSeek采用了DualPipe跨節(jié)點(diǎn)通信優(yōu)化流水線流程,簡單而言,便是通過雙重流水線的并行設(shè)計(jì),讓多個(gè)計(jì)算任務(wù)同時(shí)進(jìn)行,計(jì)算氣泡大大減少。
DeepSeek一系列操作,仿佛一個(gè)本身成績不錯(cuò)的尖子生,在一些無人在意但重要的細(xì)節(jié)上,追求極致,死磕到底。最終,經(jīng)過全方位的小步提升,它的水平又上了一個(gè)新臺(tái)階,如同DeepSeek在官方微信號(hào)上的介紹:“不做中庸的事?!?/p>
憑借硬實(shí)力,DeepSeek正吸引著全球的目光與關(guān)注。前英偉達(dá)機(jī)器學(xué)習(xí)專家BojanTunguz公開評(píng)價(jià),DeepSeek讓人可以看到,所有針對(duì)高端半導(dǎo)體的出口禁令,實(shí)際上可能以可以想象到的“最壞”方式產(chǎn)生了反效果。“它們似乎迫使中國研究人員變得比正常情況下更加聰明和資源高效?!?/p>
一位AI從業(yè)人員告訴南風(fēng)窗,DeepSeek最驚人的是讓AI業(yè)界認(rèn)識(shí)到,大模型的ScalingLaw(規(guī)模效應(yīng))不完全意味著燒錢堆資源,通過不算太復(fù)雜的優(yōu)化之后,1/10的開銷就能做出大模型。
“所以現(xiàn)在(多數(shù)AI大廠)訓(xùn)大語言模型(LLM)的資源利用率是很低的,優(yōu)化一下,就有機(jī)會(huì)以相同的開銷把規(guī)模再擴(kuò)大10倍。”
小廠的實(shí)力,讓Meta、谷歌、xAI等不缺資源、不缺顯卡的超級(jí)大廠相形見絀。2024年,多家硅谷大廠都進(jìn)入了AI算力的軍備競賽之中。
“大部分中國公司習(xí)慣follow,而不是創(chuàng)新。中國創(chuàng)新缺的不是資本,而是缺乏信心以及不知道怎么組織高密度的人才。”
2024年10月,馬斯克在田納西州僅耗時(shí)19天,就建設(shè)了史上最大超級(jí)計(jì)算機(jī)廠,內(nèi)部配備了10萬塊液冷英偉達(dá)芯片。而早在2024年3月,微軟和OpenAI聯(lián)合宣布,將建造一臺(tái)名為“星門”的超級(jí)計(jì)算機(jī),預(yù)計(jì)將使用數(shù)百萬專用服務(wù)器芯片,總投資高達(dá)1000億美元。
這些資金充足、“儲(chǔ)備”同樣充足的頭部公司,在AI的進(jìn)程上理應(yīng)先人一步。而事實(shí)上,它們中許多陷入了表現(xiàn)為效率低下、內(nèi)部混亂的“大公司病”之中。
扎克伯格的Meta是其中最典型的例證。2023年,Meta的首席技術(shù)官(CTO)約翰·卡馬克辭任前,在公司的內(nèi)部信中大篇幅地傾吐了對(duì)小扎管理的不滿。他說,Meta效率低下,只有“5%的GPU利用率”;內(nèi)斗嚴(yán)重,即便他“在這擁有最高等級(jí)的聲音”,依舊力不從心。
相比之下,對(duì)于中國AI初創(chuàng)公司而言,資源匱乏已經(jīng)是板上釘釘。在有限的GPU和芯片集群中,他們中很多只能將資源與研究重心,放在第一重要的事情上。
只是,不同于多數(shù)中國公司強(qiáng)調(diào)商業(yè)化、做爆款產(chǎn)品,DeepSeek創(chuàng)始人梁文鋒在接受“暗涌wave”采訪時(shí)說:“我們覺得現(xiàn)在最重要的是,參與到全球創(chuàng)新的浪潮里去?!?/p>
他強(qiáng)調(diào),團(tuán)隊(duì)希望實(shí)現(xiàn)的是一種原始性創(chuàng)新。
“過去很多年,中國公司習(xí)慣了別人做技術(shù)創(chuàng)新,我們拿過來做應(yīng)用變現(xiàn),但這并非是一種理所當(dāng)然。這一波浪潮里,我們的出發(fā)點(diǎn),就不是趁機(jī)賺一筆,而是走到技術(shù)的前沿,去推動(dòng)整個(gè)生態(tài)發(fā)展?!绷何匿h說。
這個(gè)保持低調(diào)和神秘的創(chuàng)新團(tuán)隊(duì),鮮少對(duì)外發(fā)聲,只在開源大模型公布時(shí),發(fā)布了技術(shù)細(xì)節(jié)報(bào)告和人才招攬?zhí)?。但?chuàng)始人梁文鋒透露,在DeepSeek團(tuán)隊(duì)里,“并沒有什么高深莫測(cè)的奇才,都是一些Top高校的應(yīng)屆畢業(yè)生、沒畢業(yè)的博四、博五實(shí)習(xí)生,還有一些畢業(yè)才幾年的年輕人”。團(tuán)隊(duì)沒有海外回來的人,員工都是本土的人才。
而據(jù)科技媒體《量子位》爆料,DeepSeek的員工很多都是畢業(yè)于清華北大的應(yīng)屆生,“最大的特點(diǎn)是年輕”。
“大部分中國公司習(xí)慣follow,而不是創(chuàng)新。中國創(chuàng)新缺的不是資本,而是缺乏信心以及不知道怎么組織高密度的人才。前50名頂尖人才可能不在中國,但也許,我們能自己打造這樣的人?!彼f。
年輕的團(tuán)隊(duì)將如何實(shí)現(xiàn)AGI夢(mèng)想?這一次,是中國小廠開始讓人期待了。