編者按: 在“人工智能時(shí)代的加速與世界的未來”這個(gè)充滿張力的命題下,兩篇看似悖反的文章構(gòu)成了極具啟示性的對話。黃欣榮教授的《學(xué)習(xí)、優(yōu)化、超越:DeepSeek技術(shù)創(chuàng)新的中國模式》一文揭示了DeepSeek現(xiàn)象所展現(xiàn)的中國AI發(fā)展的獨(dú)特方法論。在技術(shù)追趕階段,通過學(xué)習(xí)借鑒實(shí)現(xiàn)快速迭代;在創(chuàng)新突破階段,以優(yōu)化“算力—算法—數(shù)據(jù)”完成彎道超車;在應(yīng)用落地階段,用“低成本普惠”策略實(shí)現(xiàn)突圍。這種“學(xué)習(xí)—優(yōu)化—超越”的三級跳,既遵循技術(shù)發(fā)展的一般規(guī)律,又彰顯了中國場景的特殊性。在算力資源約束與開源生態(tài)構(gòu)建的辯證關(guān)系中,我們看到的不僅是技術(shù)路徑的選擇,更是一種發(fā)展哲學(xué)的智慧:在資源稟賦有限的情況下,通過系統(tǒng)創(chuàng)新實(shí)現(xiàn)戰(zhàn)略突圍,這正是中國式現(xiàn)代化在科技領(lǐng)域的生動展現(xiàn)。但技術(shù)躍遷的凱歌中,哲學(xué)詰問和省思如影隨行而來,徐英瑾教授的《框架問題、文學(xué)創(chuàng)作與DeepSeek等大語言模型——從“偶然性哲學(xué)”的角度看》一文指出,大語言模型在文學(xué)創(chuàng)作中暴露的“框架問題”,實(shí)則是智能系統(tǒng)認(rèn)知局限的隱喻。九鬼周造的“偶然性哲學(xué)”提示我們,當(dāng)AI在詞向量矩陣中追逐新奇性時(shí),恰恰遺忘了常識推理的“可能性之球”。這種結(jié)構(gòu)性缺陷,暴露出深度學(xué)習(xí)范式在知識表征與邏輯推理層面的根本性矛盾。主流大模型在反轉(zhuǎn)劇情設(shè)置上的集體失靈,不是算力不足的表現(xiàn),而是認(rèn)知架構(gòu)的先天痼疾。這場對話的交織,勾勒出人工智能時(shí)代的深層悖論:技術(shù)加速度正在突破認(rèn)知的舒適區(qū),而智能系統(tǒng)本身卻困在常識的迷宮里。這種張力恰恰構(gòu)成了文明演進(jìn)的新坐標(biāo):當(dāng)算法能生成詩歌卻難以區(qū)分“唐風(fēng)與漢風(fēng)”,當(dāng)模型能推演復(fù)雜棋局卻難以把握“常識推理難題”,我們不得不直面技術(shù)理性與人文價(jià)值的對話困境。DeepSeek等大模型的開拓創(chuàng)新之路,既需要持續(xù)的技術(shù)攻堅(jiān)和創(chuàng)新,更需要建立“算法—人文”的雙向?qū)υ挋C(jī)制。當(dāng)技術(shù)加速度與哲學(xué)沉思形成共振,人工智能時(shí)代的春天才會真正來臨。
摘 " 要: DeepSeek是中國AI大模型的典型代表。在基礎(chǔ)層面,DeepSeek繼承并學(xué)習(xí)了其他大模型的理論和技術(shù),在算力、算法和數(shù)據(jù)三方面走的是一條學(xué)習(xí)借鑒之路。在技術(shù)層面,它對芯片算力進(jìn)行了深度挖掘,對算法模型進(jìn)行了優(yōu)化改進(jìn),并對數(shù)據(jù)資源進(jìn)行了篩選和優(yōu)化,從而走出了一條優(yōu)化創(chuàng)新之路。在應(yīng)用層面,它通過降低成本、落地應(yīng)用、開源普及,用盡可能小的資金和算力投入,開發(fā)出了功能強(qiáng)大的大模型;同時(shí),通過開源普及贏得了廣泛的信任,為自己的未來技術(shù)生態(tài)打下了堅(jiān)實(shí)的基礎(chǔ)。這是一條當(dāng)前最切合中國國情的技術(shù)創(chuàng)新之路,是中國式現(xiàn)代化在科技創(chuàng)新領(lǐng)域的生動實(shí)踐,對中國的技術(shù)創(chuàng)新具有普遍性的理論和現(xiàn)實(shí)意義。
關(guān)鍵詞: DeepSeek;中國式現(xiàn)代化;生成式人工智能;大模型;中國式創(chuàng)新
中圖分類號:TP18 " 文獻(xiàn)標(biāo)識碼:A 文章編號:1004-8634(2025)02-0005-(11)
DOI:10.13852/J.CNKI.JSHNU.2025.02.001
近年來,由于大數(shù)據(jù)和深度學(xué)習(xí)的推動,人工智能領(lǐng)域發(fā)展得風(fēng)生水起,熱點(diǎn)頻出,特別是美國的OpenAI等公司,更是出盡了風(fēng)頭。然而,奮起直追的中國人工智能同樣創(chuàng)造出奇跡,走出了一條具有中國特色的創(chuàng)新之路。其中,2025年1月20日震驚世界的AI大模型DeepSeek-R1,就是人工智能中國式創(chuàng)新的典范。1 在硬件條件缺乏優(yōu)勢的前提下,中國人工智能為什么能夠緊跟甚至超越作為人工智能“領(lǐng)頭羊”的美國,從而在國際人工智能界引起轟動呢?國內(nèi)外學(xué)者對DeepSeek的技術(shù)創(chuàng)新及其成功之路進(jìn)行了多視角的分析。本文從技術(shù)哲學(xué),特別是技術(shù)創(chuàng)新理論的角度,來剖析DeepSeek的創(chuàng)新之路,并由此探討在中國式現(xiàn)代化進(jìn)程中技術(shù)創(chuàng)新的中國模式。
一、基礎(chǔ)層面走學(xué)習(xí)借鑒之路
讓機(jī)器來模仿人類的思維模式以便減輕人類腦力勞動的沉重負(fù)擔(dān),是千百年來人類的夢想。這一探索歷程在計(jì)算機(jī)出現(xiàn)之前就已經(jīng)開始。計(jì)算機(jī)問世后,科學(xué)家們迅速意識到要讓計(jì)算機(jī)變得更加智能,不僅要讓它具備科學(xué)計(jì)算的能力,還要讓它能夠進(jìn)行思考和創(chuàng)新。于是,在1956年夏天,7位來自計(jì)算機(jī)、電子、數(shù)學(xué)等領(lǐng)域的科學(xué)家在美國達(dá)特茅斯聚集,經(jīng)過一個(gè)多月的熱烈討論,他們創(chuàng)造了“人工智能”這一名稱,創(chuàng)建了該學(xué)科,2 開始踏上人工智能理論與實(shí)踐的艱難探索之路。
人的思維是如何實(shí)現(xiàn)的呢?人工智能專家們通過分析人類大腦結(jié)構(gòu)及其思維方式后發(fā)現(xiàn),人類思維的實(shí)現(xiàn)依賴于三大要素:一是作為思維物質(zhì)基礎(chǔ)的大腦,二是作為思維精神基礎(chǔ)的思維方式,三是作為思維加工對象的經(jīng)驗(yàn)素材。因此,要人工實(shí)現(xiàn)人類大腦的思維,需要硬件基礎(chǔ)的算力、體現(xiàn)思維規(guī)律的算法以及作為思維對象的數(shù)據(jù)。算力的發(fā)展伴隨著微電子技術(shù)和芯片的發(fā)展而不斷演進(jìn),算法的研究與腦科學(xué)、數(shù)學(xué)、心理學(xué)等學(xué)科緊密相關(guān),而數(shù)據(jù)的采集、存儲、處理、傳輸也與芯片和計(jì)算機(jī)的發(fā)展密切相關(guān)。如今,人們將人工智能的三大要素稱為算力、算法和數(shù)據(jù),也就是說,人工智能的發(fā)展離不開算力、算法和數(shù)據(jù)的支撐。
人工智能的研發(fā)突破是理論先行,需要在理論上探索其可行性,并提出理論框架結(jié)構(gòu)和模型。隨后,利用計(jì)算機(jī)、芯片等技術(shù)手段來實(shí)現(xiàn)這些理論構(gòu)想,這主要涉及機(jī)器模型的構(gòu)思和建造。最后,在技術(shù)可行的前提下進(jìn)行產(chǎn)業(yè)化,將人工智能的成果轉(zhuǎn)化為具體的產(chǎn)品和產(chǎn)業(yè),讓人工智能真正融入人類學(xué)習(xí)、工作與生活之中,影響生產(chǎn)和生活方式。理論探索是人工智能發(fā)展的基石,技術(shù)實(shí)現(xiàn)是人工智能發(fā)展的關(guān)鍵環(huán)節(jié),而產(chǎn)業(yè)落地則是人工智能發(fā)展的目標(biāo)和歸宿。在基礎(chǔ)理論層面的研究是從0到1的顛覆性創(chuàng)新的思想源泉,歷史上的人工智能創(chuàng)新都是理論先行,而且只有基礎(chǔ)理論的重大突破才能帶來真正的顛覆性進(jìn)展。作為后起之秀的中國人工智能,在基礎(chǔ)理論和硬件技術(shù)方面難以迅速取得突破,因此采取了學(xué)習(xí)借鑒策略,充分學(xué)習(xí)、消化和利用國外已有的理論框架和技術(shù)框架來推進(jìn)自己的人工智能研發(fā)計(jì)劃。因此,我們可以從算力、算法和數(shù)據(jù)三大要素來分析DeepSeek在基礎(chǔ)理論和基礎(chǔ)技術(shù)上學(xué)習(xí)借鑒國外的策略。
1.DeepSeek的算力借鑒
算力是人工智能的硬件基礎(chǔ),它負(fù)責(zé)采集、存儲、處理和傳輸信息,同時(shí)也是歸納、推理和決策的基礎(chǔ)。在人工智能的三大要素中,算力扮演著基礎(chǔ)端的角色,它決定了人工智能的生產(chǎn)能力,即智能生產(chǎn)力。一個(gè)優(yōu)秀的人工智能系統(tǒng),必須具備強(qiáng)大的算力,這相當(dāng)于擁有一身好力氣,才能擁有強(qiáng)大的生產(chǎn)力。構(gòu)成算力最重要的構(gòu)件是芯片,其中,中央處理器(CPU)負(fù)責(zé)數(shù)據(jù)的集中處理,而圖形處理器(GPU)則主要負(fù)責(zé)圖像信息處理。隨著分布參數(shù)的不斷增加,負(fù)責(zé)邊緣計(jì)算的GPU的重要性日益凸顯,甚至在某些情況下已經(jīng)超越了CPU,占據(jù)了主導(dǎo)地位。3
作為計(jì)算機(jī)和人工智能的發(fā)源地,歐美國家在芯片研發(fā)和制造方面已經(jīng)先行一步,無論是CPU還是GPU,其研發(fā)和生產(chǎn)處于全球領(lǐng)先地位。因此,我國在發(fā)展人工智能時(shí),目前只能建立在英特爾、AMD的CPU和英偉達(dá)的GPU等國外廠商的基礎(chǔ)上,這意味著我國人工智能的算力基礎(chǔ)在現(xiàn)階段只能采取學(xué)習(xí)借鑒的策略。
在算力硬件方面,DeepSeek同樣采取了學(xué)習(xí)借鑒的策略。為了實(shí)現(xiàn)深度學(xué)習(xí)和推理決策等功能,DeepSeek除了需要使用最基礎(chǔ)的CPU之外,還必須使用GPU集群和邊緣計(jì)算設(shè)備。1 在DeepSeek的深度學(xué)習(xí)模型訓(xùn)練和推理過程中,GPU可以提供強(qiáng)大的并行處理能力和加速計(jì)算能力。DeepSeek還可能通過FPGA(現(xiàn)場可編程門陣列)或TPU(張量處理單元)等硬件來加速和優(yōu)化算力效率,但其核心訓(xùn)練框架仍依賴英偉達(dá)的GPU。2 關(guān)于DeepSeek具體使用了哪些芯片,哪些是國產(chǎn)芯片,哪些是國外芯片,DeepSeek并未公開相關(guān)信息。但從已有信息來看,它確實(shí)使用了英偉達(dá)的H100以及H800等GPU芯片。3 盡管通過結(jié)構(gòu)優(yōu)化等手段,DeepSeek所使用的GPU芯片數(shù)量相比于GPT等大模型有大幅度減少,甚至導(dǎo)致了英偉達(dá)公司股價(jià)的一度下跌,但它仍然無法擺脫對英偉達(dá)的GPU芯片的依賴。
由此可見,在當(dāng)前我國高端芯片尚不能完全自給自足的情況下,包括DeepSeek在內(nèi)的人工智能研發(fā)項(xiàng)目只能暫時(shí)采取學(xué)習(xí)借鑒的策略,使用最新的芯片處理器來構(gòu)建更強(qiáng)大的算力。
2.DeepSeek的算法借鑒
算法類似于人類的思維方式,是人工智能能夠模擬人類處理信息的核心。它將作為經(jīng)驗(yàn)的數(shù)據(jù)與作為“大腦”的芯片連接起來,使芯片硬件能夠類似人類的思維快速處理這些數(shù)據(jù),從而實(shí)現(xiàn)人工智能的思考功能。人類在面對進(jìn)入大腦的海量信息時(shí),通過加工處理才能產(chǎn)生認(rèn)知。同樣,人工智能在面對海量的數(shù)據(jù)信息時(shí),也需要通過一定的算法來快速理出頭緒,這就需要一方面理解人類的自然語言以把握人類的意圖,另一方面又能輸出人類能夠理解的自然語言。
人類認(rèn)知主要依靠兩種基本方法:一種是歸納,它通過梳理、歸納碎片化的特殊現(xiàn)象或經(jīng)驗(yàn),使其上升為具有普遍性的認(rèn)知或知識;另一種是演繹方法,它從普遍性的認(rèn)知或知識推演出具有特殊性的現(xiàn)象,從而解釋已有現(xiàn)象或預(yù)測未來現(xiàn)象。然而,機(jī)器要實(shí)現(xiàn)人類的這兩種認(rèn)知方法并不容易。人工智能專家從零開始在黑暗中摸索了數(shù)十年,逐漸掌握了人類的思維方法,并用芯片技術(shù)再現(xiàn)其思維過程。
在人工智能早期,由于算力的限制,數(shù)據(jù)的采集、存儲和處理都十分困難,因此主要利用演繹方法,以人工投喂給機(jī)器的人類知識為前提進(jìn)行演繹推理,這就是符號主義路徑。符號主義的推理方法經(jīng)過20世紀(jì)50年代到90年代的曲折發(fā)展,取得了不少成績,如幾何定理的機(jī)器證明、專家系統(tǒng)、棋類博弈等。4
僅靠演繹推理無法涌現(xiàn)出新知識,人類的新知識也是通過實(shí)踐經(jīng)驗(yàn)的學(xué)習(xí)、總結(jié)才逐漸涌現(xiàn)生成的。因此,人工智能要像人類那樣思維,還必須具備學(xué)習(xí)歸納的能力。這種學(xué)習(xí)歸納能力的研究經(jīng)歷了漫長的探索階段,這條路線被稱為機(jī)器學(xué)習(xí)或聯(lián)結(jié)主義路徑。機(jī)器學(xué)習(xí)在1959年就已經(jīng)被提出來,后來經(jīng)過約翰·霍普菲爾德(John Hopfield)等人1982年提出的循環(huán)(遞歸)神經(jīng)網(wǎng)絡(luò)(RNN),以及杰弗里·辛頓(Geoffrey Hinton)等人1986年提出的反向傳播算法(BP)等幾個(gè)不同的階段。辛頓于2006年提出深度學(xué)習(xí)(DL)方法,即利用多隱層的人工神經(jīng)網(wǎng)絡(luò)優(yōu)異的特征學(xué)習(xí)能力,找到數(shù)據(jù)的特征,從而實(shí)現(xiàn)對數(shù)據(jù)的分類,再從分類中歸納提煉出具有一般性的知識。5 2017年底,谷歌機(jī)器翻譯團(tuán)隊(duì)重磅發(fā)文,提出了極其重要的“自我注意力”這一概念,并構(gòu)建了能夠處理自然語言的算法模型Transformer,這是人工智能算法研究的革命性突破。隨后,生成式人工智能突飛猛進(jìn),都得益于Transformer的貢獻(xiàn)。6 2022年底,OpenAI公司利用Transformer推出了震驚世界的ChatGPT,隨后美國的谷歌、Meta,以及國內(nèi)的阿里、騰訊、百度等公司都利用Transformer來建立自己的大模型。
DeepSeek公司成立于2023年7月,之所以能夠在這么短的時(shí)間里研發(fā)出讓世界震驚的大模型,在算法上也采取了學(xué)習(xí)借鑒策略,即緊跟國外已有的算法理論及其技術(shù)架構(gòu)。DeepSeek像ChatGPT等國外的AI大模型那樣,采用了自然語言處理、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等技術(shù),特別是Transformer的算法框架。從基本算法來說,國內(nèi)各種大模型,包括DeepSeek在內(nèi),基本上都學(xué)習(xí)借鑒了國外已經(jīng)過長期研究并實(shí)踐證明可行的各種算法,特別是Transformer算法模型。1 DeepSeek在多模態(tài)任務(wù)中還可能采用了CNN/LSTM/GRU,但其核心大語言模型仍基于Transformer。2 雖然在研發(fā)實(shí)踐中會有所優(yōu)化和改進(jìn),但總體來說,學(xué)習(xí)借鑒仍是其重要的策略。
3.DeepSeek的數(shù)據(jù)借鑒
數(shù)據(jù)是建立大模型的基本養(yǎng)料,相當(dāng)于人類的經(jīng)驗(yàn)素材。人類之所以越來越聰明,就是因?yàn)槟軌蛟谏a(chǎn)、生活等實(shí)踐活動的經(jīng)驗(yàn)中不斷學(xué)習(xí)、總結(jié)和提煉,從而得到一些具有普遍性的經(jīng)驗(yàn)規(guī)律,然后再抽象為更有普適性的一般知識或規(guī)律。如果說算力是生產(chǎn)力,算法是生產(chǎn)工具,那么數(shù)據(jù)就是生產(chǎn)資料。
隨著大數(shù)據(jù)時(shí)代的來臨,數(shù)據(jù)的采集、存儲、傳輸?shù)葐栴}迎來了智能化時(shí)代。從互聯(lián)網(wǎng)興起開始,數(shù)據(jù)就在網(wǎng)絡(luò)中存儲、傳輸。特別是各種智能設(shè)備的廣泛使用和各種網(wǎng)絡(luò)平臺的廣泛興起,使得人類生活的各類數(shù)據(jù)都被徹底數(shù)字化,并以數(shù)字化的形式存儲在網(wǎng)絡(luò)云端。人工智能所能夠使用的數(shù)據(jù)最終都必須被轉(zhuǎn)化為數(shù)字化的數(shù)據(jù),只有數(shù)字化的數(shù)據(jù)才能夠被智能機(jī)器用來學(xué)習(xí)、建模和決策等。
中國在數(shù)字化方面緊跟國外的數(shù)字化大潮,在大數(shù)據(jù)時(shí)代并未落后太多。雖然大數(shù)據(jù)、數(shù)字化等基本概念和基本理論大多由國外學(xué)者或企業(yè)率先提出,但中國學(xué)者或企業(yè)也緊隨其后,作出自己的貢獻(xiàn)。國內(nèi)目前的各類大模型在數(shù)據(jù)采集、存儲、處理方面的理論和實(shí)踐,主要采取的是學(xué)習(xí)借鑒策略。DeepSeek公司也是在學(xué)習(xí)國內(nèi)外大模型的基礎(chǔ)上,建構(gòu)了自己的大模型;特別是利用了國內(nèi)外已有大模型的相關(guān)理論和成功經(jīng)驗(yàn),才能夠在短期內(nèi)建立自己的大語言模型語料數(shù)據(jù)庫。
我們從語料庫建設(shè)和數(shù)據(jù)處理技術(shù)兩方面來看DeepSeek在數(shù)據(jù)資源方面的學(xué)習(xí)借鑒。語料數(shù)據(jù)庫是所有大模型的生產(chǎn)原料,DeepSeek公司要想建設(shè)大模型,不可能完全白手起家,一定會盡可能地借鑒、利用世界上所有的語料數(shù)據(jù)庫,包括國內(nèi)外已有語料數(shù)據(jù)庫。當(dāng)然,這些數(shù)據(jù)庫更多地存儲在云端,且大部分是公共資源,DeepSeek完全可以拿來為其所用。有了語料數(shù)據(jù)庫,還需要從數(shù)據(jù)庫中挖掘、尋找出自己需要的信息,這就需要借助一系列數(shù)據(jù)庫技術(shù)。這些技術(shù)大部分是國外已經(jīng)成熟的技術(shù),DeepSeek也可以直接學(xué)習(xí)和利用。其中DeepSeek的技術(shù)棧可能包含數(shù)據(jù)管理和存儲技術(shù)(如PostgreSQL和MySQL)、數(shù)據(jù)處理框架(如Apache Spark)、數(shù)據(jù)分析工具(如Pandas和Matplotlib)、機(jī)器學(xué)習(xí)框架(如PyTorch和Scikit-learn),以及數(shù)據(jù)增強(qiáng)庫(如Albumentations)。其云計(jì)算基礎(chǔ)設(shè)施可能基于多云環(huán)境(AWS、GCP、Azure),并遵循數(shù)據(jù)匿名化等隱私保護(hù)措施。3 這些國外創(chuàng)造并成熟應(yīng)用的技術(shù)在DeepSeek公司建構(gòu)大模型過程中得到了綜合的應(yīng)用,不過部分技術(shù)細(xì)節(jié)需結(jié)合開源代碼(如DeepSeek-Data倉庫)進(jìn)一步驗(yàn)證。
總之,在基礎(chǔ)層面,無論是作為生產(chǎn)力的算力,或作為生產(chǎn)工具的算法,還是作為生產(chǎn)資料的數(shù)據(jù),我們在原創(chuàng)性方面暫時(shí)還沒有重大突破。這些基礎(chǔ)理論和硬件技術(shù)的顛覆性突破,即從0到1的原創(chuàng),我們尚在路上,我們更多還是站在巨人肩膀上,采取學(xué)習(xí)借鑒的策略。DeepSeek雖然一出現(xiàn)就震驚世界,但從基礎(chǔ)理論和硬件技術(shù)層次來說,主要還屬于技術(shù)借鑒階段。當(dāng)然,任何理論和技術(shù)都是人類的共同財(cái)富,不可能完全由某個(gè)國家獨(dú)自貢獻(xiàn)和單獨(dú)壟斷。我們完全可以共享這些理論和技術(shù),共享人類的知識財(cái)富。而且我們作為后起之秀,暫時(shí)學(xué)習(xí)借鑒無疑是實(shí)現(xiàn)科技趕超的一個(gè)重要策略。
二、技術(shù)層面走優(yōu)化創(chuàng)新之路
AI大模型的科學(xué)理論創(chuàng)新需要諸多技術(shù)的支持才能夠?qū)崿F(xiàn),技術(shù)支持是人工智能研發(fā)的中間層次。中國人工智能研發(fā)雖然在基礎(chǔ)層面目前還缺乏從0到1的顛覆性創(chuàng)新,但在技術(shù)層面卻走出了自己的優(yōu)化創(chuàng)新之路。DeepSeek之所以能夠引起世界性的轟動,就是因?yàn)樗诩夹g(shù)層面進(jìn)行了許多重要的優(yōu)化創(chuàng)新,使原有的理論和技術(shù)得到了顯著提升。雖然這種優(yōu)化并非從0到1的顛覆性理論創(chuàng)新,但它仍然是在既有基礎(chǔ)上進(jìn)行的實(shí)質(zhì)性改進(jìn),屬于優(yōu)化性技術(shù)創(chuàng)新。
所謂技術(shù)優(yōu)化,就是在他人創(chuàng)新成果的基礎(chǔ)上進(jìn)行改進(jìn),在要素、結(jié)構(gòu)、功能、成本等方面作出更加有效的提升,如用簡單要素實(shí)現(xiàn)原本需要復(fù)雜要素才能實(shí)現(xiàn)的功能,或者對原有的復(fù)雜結(jié)構(gòu)進(jìn)行簡化,或者探索出更廣泛的應(yīng)用場景等。就人工智能大模型而言,無論是提高算力效率、用有限的算力實(shí)現(xiàn)強(qiáng)大的功能,還是簡化算法流程、用軟件算法彌補(bǔ)硬件算力的不足,以及在數(shù)據(jù)采集、存儲、處理等方面作出改進(jìn),都屬于優(yōu)化創(chuàng)新的范疇。用相同的算力實(shí)現(xiàn)更強(qiáng)大的功能,或者用更小的算力達(dá)到同樣的效果,都是對AI大模型技術(shù)的優(yōu)化創(chuàng)新和技術(shù)進(jìn)步。
中國當(dāng)前的AI大模型,包括DeepSeek,之所以選擇優(yōu)化之路,有兩方面的原因。一是基礎(chǔ)理論創(chuàng)新的難度較高:因?yàn)榛A(chǔ)理論的突破需要深厚的研究基礎(chǔ)和長期的艱苦努力,因而不可能在短期內(nèi)取得重大成果。二是基礎(chǔ)算力受到一定限制:由于國內(nèi)芯片特別是GPU的制造水平暫時(shí)還跟不上,而先進(jìn)的GPU又受到進(jìn)口限制,因此在基礎(chǔ)算力上中國AI公司無法與美國等國的AI公司動輒數(shù)萬塊甚至數(shù)十萬塊GPU的規(guī)模相抗衡。面對這樣的現(xiàn)實(shí)條件,中國AI公司只能尋求換道超車,通過優(yōu)化技術(shù)來提升競爭力。美國AI公司由于算力資源相對充裕,不需要在優(yōu)化上投入過多精力,而中國AI公司則需要在用有限的算力實(shí)現(xiàn)最強(qiáng)功能上精打細(xì)算,盡量節(jié)省算力資源。
其實(shí),國外人工智能系統(tǒng)在算力、算法和數(shù)據(jù)三個(gè)方面本就有不少優(yōu)化創(chuàng)新的空間,因此DeepSeek公司作為一家中國小型初創(chuàng)企業(yè),選擇走上了一條技術(shù)優(yōu)化的創(chuàng)新之路。DeepSeek在哪些方面對國外的技術(shù)做出了重要的優(yōu)化創(chuàng)新呢?我們依然從算力、算法和數(shù)據(jù)三個(gè)方面來分析其優(yōu)化創(chuàng)新之路。
1.通過硬件重構(gòu)來優(yōu)化算力
算力需要強(qiáng)大的芯片等硬件來支持。例如,馬斯克公司最新的Grok3竟然使用了20萬塊英偉達(dá)最先進(jìn)的H100 GPU,號稱形成了目前世界上最強(qiáng)大的算力。作為一個(gè)2023年才創(chuàng)立、靠自有資金運(yùn)營且只有一百多人的初創(chuàng)小公司,DeepSeek公司不可能建構(gòu)如此強(qiáng)大的算力。一方面,20萬塊H100 GPU需要一筆龐大的資金,這是初創(chuàng)小公司無法承受的;另一方面,即使在資金充足的情況下,由于目前美國對中國AI行業(yè)的各種封鎖,也不可能購得如此多的高端芯片。DeepSeek公司僅靠先前購買并儲存的少量H100 GPU以及數(shù)量有限、被減配的H800 GPU來構(gòu)成其基本算力。雖然DeepSeek公司目前并未公布其芯片硬件的具體構(gòu)成,但可以想見的是,其算力資源根本無法與OpenAI、谷歌、馬斯克的xAI等國外大公司相提并論。
為了在缺少算力資源的條件下研發(fā)出具有世界競爭力的大模型,DeepSeek公司采取了重構(gòu)算力系統(tǒng)、優(yōu)化算力結(jié)構(gòu)等方式來減少對算力的依賴,以提高現(xiàn)有算力的效率。
首先,加速硬件性能。DeepSeek充分利用專用硬件如FPGA或TPU等硬件加速器來提高算力,加快深度學(xué)習(xí)的運(yùn)算速度。通過這兩種專用芯片,DeepSeek可能采取了提高并行處理能力、實(shí)現(xiàn)定制化架構(gòu)、降低延遲和功耗以及優(yōu)化算法等舉措。1
其次,重構(gòu)數(shù)據(jù)流架構(gòu)。數(shù)據(jù)流的架構(gòu)影響著數(shù)據(jù)管理策略,并最終影響運(yùn)算性能。DeepSeek可能通過軟件層面的流水線優(yōu)化(如數(shù)據(jù)預(yù)取策略)提升GPU利用率,如使用數(shù)據(jù)預(yù)處理與批處理、高效的數(shù)據(jù)傳輸協(xié)議、層次化的數(shù)據(jù)存儲、數(shù)據(jù)流圖優(yōu)化、計(jì)算與數(shù)據(jù)存儲的緊耦合、實(shí)時(shí)數(shù)據(jù)調(diào)度和使用緩存機(jī)制等優(yōu)化策略,以減少對英偉達(dá)高端芯片的依賴。1
最后,采用并行計(jì)算。并行計(jì)算是加速數(shù)據(jù)處理的重要途徑。DeepSeek利用多核處理器和GPU進(jìn)行并行計(jì)算,優(yōu)化了模型訓(xùn)練和推理過程。這包括將深度學(xué)習(xí)模型進(jìn)行任務(wù)分解與并行處理,將任務(wù)副本分布在多個(gè)GPU上并行處理,將模型分解并行處理以及優(yōu)化內(nèi)存管理、進(jìn)行異步計(jì)算、采用優(yōu)化計(jì)算圖和充分利用深度學(xué)習(xí)框架等。2 通過這些優(yōu)化措施,DeepSeek能夠充分利用多核處理器和GPU的計(jì)算能力,大幅提高深度學(xué)習(xí)模型訓(xùn)練和推理的速度與效率。
更為重要的是,DeepSeek公司在使用英偉達(dá)的GPU訓(xùn)練模型時(shí),將原本用于計(jì)算功能的部分流式處理器(如132個(gè)中的20個(gè))修改為負(fù)責(zé)服務(wù)器間的通信傳輸,從而繞開了硬件對通信速度的限制。DeepSeek還利用更底層的匯編語言TPX直接處理數(shù)據(jù),而不是利用高級語言CUDA。這樣做減少了層級之間的通信傳輸開銷,使得較低級的H800 GPU能夠?qū)崿F(xiàn)接近高級H100 GPU 的強(qiáng)大功能。3
2.通過簡化過程來優(yōu)化算法
算法作為處理大模型海量數(shù)據(jù)并從中生成認(rèn)知的工具,對人工智能硬件效率的優(yōu)化提升具有關(guān)鍵性作用。相較于硬件優(yōu)化,算法優(yōu)化的難度可能稍低,且路徑更為多樣。在GPU等硬件受限的情況下,中國的AI大模型更多地采用算法優(yōu)化來彌補(bǔ)GPU等硬件的不足。因此,中國人工智能的突破重點(diǎn)放在了算法優(yōu)化這條路徑上。通過優(yōu)化算法,即使使用較低級的硬件,也能讓AI大模型發(fā)揮出和使用較高級的硬件同樣的功能,甚至超越國外大模型。
當(dāng)前國內(nèi)外主流的大模型算法都是基于Transformer實(shí)現(xiàn)的,而Transformer具有復(fù)雜的結(jié)構(gòu)和流程。該模型的核心在于融入了注意力機(jī)制,并通過預(yù)訓(xùn)練、模型微調(diào)、基于人類的強(qiáng)化學(xué)習(xí)(RL)、模型壓縮技術(shù)、安全與隱私保護(hù)技術(shù)等一系列技術(shù)來實(shí)現(xiàn)深度學(xué)習(xí)和自然語言處理等復(fù)雜過程。4 DeepSeek對Transformer的優(yōu)化主要包括采取結(jié)構(gòu)改進(jìn)、模型壓縮、訓(xùn)練策略優(yōu)化、自適應(yīng)注意力機(jī)制、性能調(diào)優(yōu)等一系列措施,旨在強(qiáng)化算法功能、提升算法效率。
從結(jié)構(gòu)改進(jìn)來看,DeepSeek在注意力機(jī)制上做了重要改進(jìn),引入了原生稀疏注意力(NSA)、局部注意力等新機(jī)制,并減少了Transformer的層數(shù)和寬度,從而優(yōu)化了算法的效率和性能。DeepSeek公司的團(tuán)隊(duì)發(fā)文對此進(jìn)行了詳細(xì)論述。5原生稀疏注意力和局部注意力模仿了人類的思考方式,從根本上解決了長文本消耗巨大算力的問題。它們能夠壓縮信息,關(guān)注信息的關(guān)鍵詞,去除無用修飾詞,從而把握全局。這樣,DeepSeek可以將長文本切成小塊,自動生成每塊的摘要,然后進(jìn)行動態(tài)篩選、精準(zhǔn)挖掘。這種“邊篩選邊學(xué)習(xí)”的策略,使文本處理速度實(shí)現(xiàn)了飛躍,能力大幅提升,而成本則大幅降低。
從模型壓縮來看,DeepSeek主要采用了模型蒸餾、剪枝和參數(shù)共享等技術(shù),以減少模型的參數(shù)量,提高計(jì)算速度,同時(shí)保留模型的核心性能。模型蒸餾是利用其他大型、復(fù)雜的模型作為“教師模型”來訓(xùn)練一個(gè)更小的“學(xué)生模型”,從而節(jié)省訓(xùn)練難度和時(shí)間。剪枝則是剪除一些非關(guān)鍵參數(shù)。通過這些技術(shù),復(fù)雜的Transformer得到了極大壓縮,提高了數(shù)據(jù)處理效率。6
從訓(xùn)練策略來看,DeepSeek使用了MoE模型,沒有完全遵循Transformer原有的逐步訓(xùn)練策略,而是采取了漸進(jìn)式或跨越式訓(xùn)練方式,特別是跳過其他訓(xùn)練過程直接進(jìn)行強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練。例如,在開發(fā)R1之前,DeepSeek公司先制作了一個(gè)名為R1-zero的版本。R1-zero沒有進(jìn)行預(yù)訓(xùn)練和監(jiān)督微調(diào),而是直接采用了RL訓(xùn)練。然后,在R1-zero的基礎(chǔ)上,使用少量的高質(zhì)量標(biāo)注數(shù)據(jù)再次進(jìn)行RL訓(xùn)練,從而得出了R1。1
此外,DeepSeek還引入了自適應(yīng)注意力權(quán)重的計(jì)算,使模型能夠動態(tài)調(diào)整注意力范圍,提高信息捕捉的靈活性和效率;利用更高效的激活函數(shù)或正則化等優(yōu)化策略,進(jìn)一步提升模型的表現(xiàn),減少過擬合的風(fēng)險(xiǎn);并采用多模態(tài)數(shù)據(jù)處理和模型調(diào)整策略,以優(yōu)化多模型處理能力。
3.通過中文特色數(shù)據(jù)來優(yōu)化數(shù)據(jù)
作為AI大模型的生產(chǎn)資料,數(shù)據(jù)的優(yōu)劣直接影響大模型的生產(chǎn)能力和生產(chǎn)效率。數(shù)據(jù)的規(guī)??赡苡绊懘竽P偷纳赡芰椭悄芩?,而數(shù)據(jù)的質(zhì)量則直接影響大模型的生成質(zhì)量和生成效率。在算力硬件不占優(yōu)勢的情況下,我國的大模型,包括DeepSeek在內(nèi),除了需要在算法優(yōu)化方面下足功夫之外,還必須對數(shù)據(jù)進(jìn)行全面優(yōu)化,這樣才能夠用最少的算力達(dá)到甚至超越國外大模型的功能。為此,DeepSeek采取了在數(shù)據(jù)處理方法上加強(qiáng)數(shù)據(jù)優(yōu)化、在數(shù)據(jù)特色上加強(qiáng)中文數(shù)據(jù)的收集和整理、在數(shù)據(jù)應(yīng)用上強(qiáng)化推理能力等一系列優(yōu)化措施。
第一,優(yōu)化通用數(shù)據(jù)。
國內(nèi)外大模型的數(shù)據(jù)通常都非常龐大,但國外模型在規(guī)模上往往更大,因?yàn)樗鼈兊乃懔Ω鼜?qiáng),可以處理更大規(guī)模的數(shù)據(jù)。同時(shí),由于國家眾多,國外數(shù)據(jù)在多樣性方面也更具優(yōu)勢。國內(nèi)大模型要在算力不足、數(shù)據(jù)規(guī)模相對較小的情況下取得同樣的效果,就必須對大模型的數(shù)據(jù)進(jìn)行預(yù)先優(yōu)化處理。在數(shù)據(jù)準(zhǔn)備和處理方面,DeepSeek采取了數(shù)據(jù)預(yù)處理、數(shù)據(jù)增強(qiáng)、樣本選擇優(yōu)化、多模態(tài)數(shù)據(jù)集成、高質(zhì)量數(shù)據(jù)收集以及制定收集標(biāo)準(zhǔn)等數(shù)據(jù)優(yōu)化措施,以提升模型訓(xùn)練的效果。2
網(wǎng)絡(luò)云端數(shù)據(jù)復(fù)雜多樣,處理難度巨大。如果不進(jìn)行數(shù)據(jù)預(yù)處理,大模型的運(yùn)行效率可能會受到影響。為此,DeepSeek首先對數(shù)據(jù)進(jìn)行了清洗,去除噪聲和不相關(guān)數(shù)據(jù),確保訓(xùn)練數(shù)據(jù)的質(zhì)量,從而提高模型的學(xué)習(xí)效果;清洗之后,還進(jìn)行了標(biāo)準(zhǔn)化和歸一化處理,以提高模型的收斂性和穩(wěn)定性。
DeepSeek還使用了數(shù)據(jù)增強(qiáng)技術(shù),對數(shù)據(jù)進(jìn)行旋轉(zhuǎn)、縮放、翻轉(zhuǎn)、噪聲添加等操作,以擴(kuò)充訓(xùn)練數(shù)據(jù)集,增加模型的魯棒性。 DeepSeek通過StyleGAN2架構(gòu)與對抗損失函數(shù)優(yōu)化,可生成超分辨率圖像,修復(fù)低質(zhì)量輸入,并開源基于擴(kuò)散模型的圖像修復(fù)工具DeepSeek-DiffusionFix,以優(yōu)化在數(shù)據(jù)不足的場景下依賴此類模型生成的合成數(shù)據(jù)。3 為了使大模型具備處理多模態(tài)數(shù)據(jù)的能力,在算力和數(shù)據(jù)源都不足的情況下,DeepSeek采取了多模態(tài)數(shù)據(jù)集成的優(yōu)化技術(shù),以整合不同數(shù)據(jù)來源,并提取和融合多模態(tài)特征,從而捕捉更豐富的信息。4
為了提高模型的訓(xùn)練精度和速度,DeepSeek采取了構(gòu)建大型高質(zhì)量數(shù)據(jù)集、動態(tài)更新數(shù)據(jù)等優(yōu)化措施,強(qiáng)化了數(shù)據(jù)標(biāo)注的質(zhì)量;同時(shí),利用已有的數(shù)據(jù)進(jìn)行半監(jiān)督學(xué)習(xí)或遷移學(xué)習(xí),以減少對大量標(biāo)注數(shù)據(jù)的依賴。
這些優(yōu)化措施有助于確保DeepSeek能夠在有效和高質(zhì)量的數(shù)據(jù)支持下進(jìn)行訓(xùn)練,從而提高模型在實(shí)際應(yīng)用中的性能。
第二,強(qiáng)化中文數(shù)據(jù)。
國外大模型雖然在數(shù)據(jù)規(guī)模和多樣性上具有顯著優(yōu)勢,但在中文數(shù)據(jù)處理方面卻存在明顯局限。例如,ChatGPT等國外大模型在英文對話中表現(xiàn)出色,回答質(zhì)量高,但在中文對話中,其回答質(zhì)量卻明顯下降。這主要是因?yàn)閲獯竽P腿狈ψ銐虻闹形臄?shù)據(jù),導(dǎo)致其在中文處理和學(xué)習(xí)方面經(jīng)驗(yàn)不足,難以適應(yīng)中國市場的實(shí)際需求。然而,以DeepSeek為代表的國內(nèi)大模型在中文數(shù)據(jù)方面具有得天獨(dú)厚的優(yōu)勢。
DeepSeek的中文數(shù)據(jù)優(yōu)勢體現(xiàn)在數(shù)據(jù)規(guī)模和領(lǐng)域覆蓋上(如互聯(lián)網(wǎng)中文內(nèi)容占比達(dá)60%以上)。中國作為一個(gè)擁有十四億多人口和五千年悠久歷史的大國,為AI大模型提供了豐富的中文數(shù)據(jù)資源。如今,中國人基本上都生活在數(shù)字世界中,特別是中國的網(wǎng)絡(luò)社交和網(wǎng)絡(luò)支付系統(tǒng)發(fā)達(dá),每天產(chǎn)生龐大而復(fù)雜的中文數(shù)據(jù)。這些數(shù)據(jù)因?yàn)殡[私和安全等原因不會被國外大模型所使用,而且國外大模型在中文數(shù)據(jù)處理和學(xué)習(xí)方面也存在經(jīng)驗(yàn)不足等問題。相比之下,國內(nèi)大模型可以方便地利用這些海量中文數(shù)據(jù),這是中國AI大模型取之不盡、用之不竭的學(xué)習(xí)資源。中國的人口紅利在AI領(lǐng)域轉(zhuǎn)化為了大模型的數(shù)據(jù)紅利。此外,中國豐富的歷史數(shù)據(jù)也為AI大模型提供了寶貴的學(xué)習(xí)資源。這些數(shù)據(jù)蘊(yùn)含著中國先人的獨(dú)特智慧,是國外大模型所難以獲取的。DeepSeek等國內(nèi)大模型通過學(xué)習(xí)五千年中華文化,獲得了中華文明的才華和智慧,因此更加聰明、更加適合中國國情。這些豐富的中文數(shù)據(jù)在數(shù)據(jù)層面極大地補(bǔ)充、豐富和優(yōu)化了中國AI大模型的中國化數(shù)據(jù)資源。
在過去,由于科技落后和計(jì)算機(jī)技術(shù)的限制,中文在編程、輸入等方面確實(shí)存在一些不便之處。一些人甚至提出中文拉丁化的主張,認(rèn)為象形方塊字不適合數(shù)字時(shí)代。然而,隨著人工智能特別是生成式人工智能時(shí)代的來臨,人們逐漸發(fā)現(xiàn)中文在語義豐富性、符號識別容易度以及理解簡單性方面具有一些獨(dú)特優(yōu)勢。DeepSeek充分發(fā)揮了漢字在智能時(shí)代的這些優(yōu)勢,在大模型學(xué)習(xí)、推理和決策中充分利用象形漢字的特點(diǎn),從而實(shí)現(xiàn)了硬件投入少、投資成本低而學(xué)習(xí)能力、智慧能力不輸國外模型的目標(biāo)。也許,DeepSeek的成功實(shí)踐證明了中文可能更適合模式識別和智能學(xué)習(xí)、推理,而豐富的中文數(shù)據(jù)則是中國AI大模型的先天優(yōu)勢所在。
第三,突出推理應(yīng)用。
人類具備從經(jīng)驗(yàn)中學(xué)習(xí)歸納的能力,以及基于歸納出的一般知識進(jìn)行演繹的能力。然而,人工智能在追求這兩種能力的過程中經(jīng)歷了漫長的探索。
在人工智能發(fā)展早期,由于算力不足、算法缺乏以及數(shù)據(jù)采集和存儲的困難,尚不具備從數(shù)據(jù)經(jīng)驗(yàn)中學(xué)習(xí)歸納的條件和能力。因此,研發(fā)人工智能的先行者們走上了符號主義之路,其核心在于發(fā)揮演繹推理的優(yōu)勢,主要讓AI輔助人類進(jìn)行演繹推理和判斷決策。幾何定理的機(jī)器證明、專家系統(tǒng)以及棋類博弈等,都是20世紀(jì)在演繹推理路徑下取得的杰出的人工智能成果。但值得注意的是,演繹推理必須建立在正確的邏輯前提之下,而智能機(jī)器無法自行獲取這些前提知識,只能依賴人類的梳理和投喂。因此,智能機(jī)器對人工的依賴性極強(qiáng)。這也是其被稱為“人工智能”的原因。
隨著生成式人工智能的興起,各類大模型開始將重點(diǎn)放在生成能力上,更加關(guān)注算力的大小、模型的大小以及能否生成更多的知識。1 因此,國外大模型動輒采用數(shù)十萬塊的GPU、數(shù)千億的參數(shù)規(guī)模,旨在生成更多的知識。自生成式人工智能誕生以來,人工智能領(lǐng)域逐漸從重演繹推理轉(zhuǎn)向重歸納學(xué)習(xí)。然而,歸納學(xué)習(xí)的最終目的仍是推理應(yīng)用,解決問題。遺憾的是,國外不少AI大模型卻偏離了這一初衷。
鑒于算法和數(shù)據(jù)的限制,DeepSeek在重視算法優(yōu)化的同時(shí),更加注重生成知識的推理應(yīng)用。除了關(guān)注生成能力外,DeepSeek還將側(cè)重點(diǎn)放在了生成知識的應(yīng)用上。它將學(xué)習(xí)歸納得來的知識作為推理前提,用于推理演繹、解釋現(xiàn)象以及解決具體問題。這一創(chuàng)新性舉措拓展了AI大模型的性能,使大模型既擅長歸納學(xué)習(xí)又精于演繹推理,從而具備了更類人的智能和實(shí)現(xiàn)了更廣泛的應(yīng)用。2 因此,盡管DeepSeek在歸納學(xué)習(xí)能力上可能并不比其他大模型更強(qiáng),但其演繹推理和解決問題的能力卻更為卓越。DeepSeek改變了大模型重歸納生成、輕演繹推理的慣性,推動了未來AI大模型更加重視歸納生成和演繹推理的辯證統(tǒng)一。
總之,根據(jù)技術(shù)創(chuàng)新理論,從0到1的顛覆性創(chuàng)新是創(chuàng)新,但從1開始的優(yōu)化同樣也屬于創(chuàng)新,可稱其為優(yōu)化創(chuàng)新,而且它是技術(shù)進(jìn)步的重要動力。創(chuàng)新理論的提出者熊彼特認(rèn)為,創(chuàng)新包括產(chǎn)品創(chuàng)新、工藝創(chuàng)新、市場創(chuàng)新、供應(yīng)鏈創(chuàng)新和生產(chǎn)組織創(chuàng)新五種典型形式。任何對原有技術(shù)的改進(jìn)和推動,只要相比之前有所進(jìn)步,都屬于創(chuàng)新性活動,對技術(shù)進(jìn)步都有貢獻(xiàn)。3 DeepSeek對算力的極致挖掘和改進(jìn)、對算法的一系列優(yōu)化、對數(shù)據(jù)的優(yōu)化補(bǔ)充,以及將大模型從重歸納生成轉(zhuǎn)向歸納生成與演繹推理并重等舉措,都是對以往大模型的優(yōu)化改進(jìn)。因此,這些完全屬于技術(shù)創(chuàng)新,即從1開始的優(yōu)化創(chuàng)新。
三、應(yīng)用層面走大膽超越之路
國外的AI大模型雖然算力強(qiáng)大、算法先進(jìn),在理論上展現(xiàn)出強(qiáng)大的原創(chuàng)性,技術(shù)上也確實(shí)領(lǐng)先一步。然而,在開發(fā)應(yīng)用層面,它們的表現(xiàn)卻不盡如人意。這主要是因?yàn)閲獾娜斯ぶ悄苎邪l(fā)者更傾向于從零起步的原創(chuàng)性探索,雖然取得了許多顛覆性的成果,但在將這些成果轉(zhuǎn)化為實(shí)際應(yīng)用方面,卻顯得不夠積極和務(wù)實(shí)。有人早就預(yù)言,人工智能的“原創(chuàng)之花”可能在美國綻放,但真正落地、開花、結(jié)果,可能會在中國這片大地上實(shí)現(xiàn)。中國的大模型開發(fā)者更多地以問題為導(dǎo)向,為實(shí)際應(yīng)用而研發(fā)。因此,盡管美國的AI大模型在理論和技術(shù)上領(lǐng)先一步,但在應(yīng)用方面,中國并未落后。DeepSeek正是完美地詮釋了中國AI大模型應(yīng)用優(yōu)先的務(wù)實(shí)研發(fā)路徑,代表中國AI大模型在應(yīng)用層面走出了一條大膽超越的道路。
DeepSeek是如何在應(yīng)用層面實(shí)現(xiàn)超越的呢?它主要通過降低成本、落地應(yīng)用以及開源普及這三大創(chuàng)新手段,成功地在應(yīng)用層面走出了一條低成本、易落地、開源化的中國式超越之路。這不僅提升了AI技術(shù)的普及程度,還促進(jìn)了AI技術(shù)在各個(gè)領(lǐng)域的廣泛應(yīng)用和發(fā)展。
1.降低成本
研發(fā)成本和應(yīng)用成本高低是決定一項(xiàng)技術(shù)能否廣泛研發(fā)并大面積推廣使用的關(guān)鍵因素。美國AI大模型的研發(fā)和應(yīng)用成本門檻極高,動輒耗費(fèi)幾百億甚至上千億美元,這使得只有微軟、谷歌和類似馬斯克旗下公司的超級大公司才有能力進(jìn)行研發(fā),其他中小公司往往難以躋身其中,這無疑限制了許多有創(chuàng)意的初創(chuàng)公司和研發(fā)者參與創(chuàng)新、推動AI發(fā)展的機(jī)會。
DeepSeek打破了AI大模型被超級大公司壟斷的局面,創(chuàng)造了低成本研發(fā)AI大模型的奇跡。DeepSeek公司的團(tuán)隊(duì)成員均來自本土高校,包括本科、碩士、博士學(xué)歷的年輕人才,他們年齡多在二三十歲,部分成員甚至還在實(shí)習(xí)階段。DeepSeek通過算法優(yōu)化、數(shù)據(jù)管理與處理、云計(jì)算與基礎(chǔ)設(shè)施的優(yōu)化,以及資源共享與協(xié)作等技術(shù)與策略,有效優(yōu)化了硬件、算法和流程,從而大大降低了研發(fā)和應(yīng)用成本。據(jù)DeepSeek-V3技術(shù)報(bào)告顯示,其研發(fā)經(jīng)費(fèi)僅為560萬美元左右,是國外大公司的1/20左右。1 這在世界上是首次以如此少的經(jīng)費(fèi)開發(fā)出功能如此強(qiáng)大的AI大模型。
一項(xiàng)新技術(shù)如果需要耗費(fèi)億萬資金才能研發(fā)和應(yīng)用,那么它將很難實(shí)現(xiàn)落地普及。只有將研發(fā)成本降至合理且可接受的程度,該項(xiàng)技術(shù)才能真正遍地開花、惠及大眾。因此,創(chuàng)新理論的奠基人熊彼特和管理學(xué)大師德魯克都把降低成本視為一項(xiàng)重要的技術(shù)創(chuàng)新。2 DeepSeek首次打破了AI大模型的算力壁壘和資金壁壘,讓小公司、小企業(yè)也能參與到研發(fā)AI大模型的競賽中來,讓充滿活力的年輕人能在技術(shù)創(chuàng)新活動中貢獻(xiàn)更多的力量。更為重要的是,研發(fā)成本的降低可大大降低應(yīng)用成本,使得AI大模型得以全面落地,不再僅僅是某些科研人員的競賽項(xiàng)目,這是DeepSeek的一項(xiàng)超越式創(chuàng)新。
2.落地應(yīng)用
落地應(yīng)用是新技術(shù)得以傳播并產(chǎn)生社會影響的重要手段。一項(xiàng)新技術(shù)如果僅停留在實(shí)驗(yàn)室里,不能實(shí)現(xiàn)產(chǎn)業(yè)化,不走向社會,不惠及民生,那么即使技術(shù)再先進(jìn),其實(shí)際用處也會大打折扣。不少技術(shù)由于費(fèi)用高昂、技術(shù)復(fù)雜、體積龐大等問題,只能被某些機(jī)構(gòu)壟斷,難以落地普及。例如,第一臺計(jì)算機(jī)ENIAC體積巨大、操作復(fù)雜,難以復(fù)制推廣。隨后的IBM公司制造的大型計(jì)算機(jī)同樣體積龐大,需要專門場地和專業(yè)人員操作,因此也主要局限于在大型機(jī)構(gòu)中使用。直到臺式電腦、筆記本電腦、平板電腦和手機(jī)出現(xiàn),實(shí)現(xiàn)了計(jì)算機(jī)的微型化和實(shí)用化,才真正讓計(jì)算機(jī)無處不在,廣泛應(yīng)用于社會各個(gè)領(lǐng)域。在DeepSeek之前,AI大模型規(guī)模龐大,僅GPU芯片就需數(shù)十萬塊,耗費(fèi)巨大且使用不便,因此只能被少數(shù)超大公司所壟斷,難以廣泛落地應(yīng)用。
DeepSeek在AI大模型的落地應(yīng)用上作出重大貢獻(xiàn),打破了其高高在上的神話,使得AI大模型能夠更加順利地落地推廣。雖然DeepSeek公司在顛覆性創(chuàng)新上可能無法與OpenAI、谷歌等巨頭相媲美,但它采取了一系列創(chuàng)新性舉措,使得AI大模型更易于落地應(yīng)用。首先是輕量化、小型化。AI大模型不再依賴大量的芯片堆積,大算力也不再是必要條件,從而實(shí)現(xiàn)了AI大模型的輕量化和小型化,為落地應(yīng)用打下了堅(jiān)實(shí)的基礎(chǔ)。其次是界面友好、易于使用。DeepSeek簡化了用戶界面,降低了使用難度。最后是留出擴(kuò)展功能,允許他人在其基礎(chǔ)上進(jìn)行擴(kuò)展性開發(fā)應(yīng)用。
從技術(shù)創(chuàng)新發(fā)展的角度來看,落地應(yīng)用同樣是重要的創(chuàng)新環(huán)節(jié)。熊彼特和德魯克都充分肯定了應(yīng)用普及對技術(shù)創(chuàng)新的推動作用,并將其視為創(chuàng)新活動的重要環(huán)節(jié)。1
3.開源普及
以往的很多技術(shù)創(chuàng)新,包括AI大模型,在被少數(shù)機(jī)構(gòu)壟斷后往往被嚴(yán)格保密,不輕易讓他人知曉、研發(fā)。這種將新技術(shù)藏于黑箱的行為嚴(yán)重阻礙了技術(shù)的進(jìn)步和應(yīng)用推廣,導(dǎo)致新技術(shù)成為某些人謀取私利的工具。然而,DeepSeek選擇開源。因此,開源是DeepSeek又一項(xiàng)具有超越性的創(chuàng)新舉措。
DeepSeek公司自公布之日起就采取了多項(xiàng)開源措施,一方面增強(qiáng)了透明度和可信性,另一方面促進(jìn)了社區(qū)合作和技術(shù)進(jìn)步。DeepSeek公司的開源措施主要包括:(1)開源部分模型與工具:發(fā)布輕量級模型或工具鏈(如CV工具包),供開發(fā)者和研究人員使用和改進(jìn)。(2)開發(fā)社區(qū)建設(shè):在GitHub等平臺創(chuàng)建開源項(xiàng)目,吸引開發(fā)者貢獻(xiàn)代碼、報(bào)告問題和提出改進(jìn)建議,提升社區(qū)活躍度。(3)共享數(shù)據(jù)集:發(fā)布用于訓(xùn)練和測試的開源數(shù)據(jù)集,促進(jìn)研究者和開發(fā)者在相關(guān)領(lǐng)域的探索和驗(yàn)證。(4)提供教程和文檔:提供詳細(xì)的使用文檔、示例代碼和教程,幫助社區(qū)成員快速上手DeepSeek的技術(shù)。(5)參與開源活動:積極參與開源會議、“黑客松”和社區(qū)活動,推動技術(shù)交流與合作。2 DeepSeek公司這些開源舉措,能夠加速人工智能的進(jìn)步和創(chuàng)新,讓更多機(jī)構(gòu)和個(gè)人參與到人工智能的大開發(fā)、大競賽之中,從而創(chuàng)造更加活躍的創(chuàng)新環(huán)境。
AI大模型因數(shù)據(jù)海量、算法復(fù)雜,其信任問題一直備受關(guān)注,人們擔(dān)心可能存在數(shù)據(jù)造假或算法偏見。而以往的閉源黑箱模式更加劇了這種懷疑。DeepSeek公司的開源策略增加了AI大模型的透明度,提高了公眾的信任度。同時(shí),開源還吸引了更多的開發(fā)者和研究者參與其中,共創(chuàng)、共建與共享,共同推動人工智能的進(jìn)步,構(gòu)建出一個(gè)更加良好的AI技術(shù)生態(tài),促進(jìn)AI技術(shù)的持續(xù)發(fā)展。
德魯克認(rèn)為,像技術(shù)新應(yīng)用、開拓新市場、創(chuàng)造新效率、降低成本等對原有事物有所改進(jìn)、提高,都可以被視為一種創(chuàng)新。從技術(shù)層面來看,應(yīng)用新技術(shù)、開發(fā)新產(chǎn)品或改進(jìn)現(xiàn)有產(chǎn)品、改變產(chǎn)品用途、提高產(chǎn)品性能和生產(chǎn)效率等,皆可被稱為技術(shù)創(chuàng)新。這種創(chuàng)新不僅包括科學(xué)技術(shù)的突破,還涉及商業(yè)模式、管理方式和市場營銷手段的創(chuàng)新。3 因此,DeepSeek在降低成本、落地應(yīng)用和開源普及方面的努力,無疑屬于技術(shù)創(chuàng)新,是應(yīng)用層面的超越式創(chuàng)新。
四、結(jié)語
DeepSeek公司的AI大模型以其低廉的成本和卓越的性能驚動了世界,成為中國AI大模型的典范,這是中國式現(xiàn)代化在AI領(lǐng)域的一次成功實(shí)踐。通過理論、技術(shù)、應(yīng)用三個(gè)層次的深入分析,可以發(fā)現(xiàn),DeepSeek公司之所以能在短期內(nèi)憑借小資金、小團(tuán)隊(duì)成功撬動AI大模型市場并取得驚人成就,主要得益于其對基礎(chǔ)理論的學(xué)習(xí)借鑒、技術(shù)層面的優(yōu)化創(chuàng)新以及應(yīng)用層面的大膽超越。這一系列舉措不僅體現(xiàn)了DeepSeek公司在AI領(lǐng)域呈現(xiàn)的“中國模式”,更使其走出了一條具有中國特色的AI創(chuàng)新之路,為中國AI發(fā)展贏得了世界的贊譽(yù),使中國AI站在了世界前沿方陣之中。當(dāng)然,盡管以DeepSeek為代表的中國AI大模型已經(jīng)取得了階段性的成功,展現(xiàn)了中國式現(xiàn)代化在科技創(chuàng)新方面的潛力,但從長遠(yuǎn)來看,中國仍有許多不足之處。為了在AI領(lǐng)域持續(xù)領(lǐng)先,實(shí)現(xiàn)更高水平的中國式現(xiàn)代化,中國必須在從0到1的顛覆性創(chuàng)新上狠下功夫,敢于顛覆傳統(tǒng),勇于原創(chuàng),無論在理論基礎(chǔ)還是技術(shù)基礎(chǔ)上都要爭取有自己的獨(dú)到之處。在優(yōu)化創(chuàng)新和應(yīng)用創(chuàng)新方面,要敢于站在巨人的肩膀上,充分利用中國的獨(dú)特優(yōu)勢,突出中國特色,堅(jiān)定不移地走出一條符合中國國情、具有中國特色的創(chuàng)新之路,進(jìn)一步豐富和完善“中國模式”在AI領(lǐng)域的應(yīng)用。
Learning, Optimizing and Surpassing: The Chinese Model of Technological
Innovation in DeepSeek
HUANG Xinrong
Abstract: DeepSeek is a representative example of China’s large AI models. It has achieved world-shaking results in a short time, carving out a path of innovation with distinct Chinese characteristics, especially in the field of AI and large models. Such success is built on three core pillars: learning and drawing on the wisdom of predecessors at the foundational level, innovating through technological optimization, and boldly surpassing boundaries in application. At the foundational level, DeepSeek inherits and learns from the theories and technologies of other large models, following a path of learning and adaptation in computing power, algorithms, and data. At the technological level, it has deeply explored chip computing power, optimized algorithmic models, and refined data resources, forging a path of optimization and innovation. In terms of application, DeepSeek has built a powerful large model with minimal financial and computational input by lowering operational costs, promoting implementation, and promoting open-source initiatives, rapidly achieving real-world applications. Meanwhile, it has won widespread trust through its open-source initiatives, laying a solid foundation for its future technological ecosystem. This model suggests the path of technological innovation that best suits China’s national conditions. It effectively exemplifies Chinese-style modernization in the field of scientific and technological innovation, providing significant theoretical and practical implications for China’s technological innovation.
Keywords: DeepSeek; Chinese-style modernization; generative artificial intelligence; large language models; Chinese-style innovation
(責(zé)任編輯:蘇建軍)