人類擁有極其復(fù)雜且高度發(fā)達(dá)的語言系統(tǒng),可以運(yùn)用口語、文字等抽象符號進(jìn)行溝通,這也是人類區(qū)別于其他絕大部分生物的顯著特征之一。因此,能理解豐富的詞匯和復(fù)雜的語法,以及擁有強(qiáng)大的表意能力,是人類高級思維的重要體現(xiàn)。
自然語言處理(Natural Language Processing,簡稱NLP)是通過計(jì)算機(jī)實(shí)現(xiàn)語言分析,研究人機(jī)交互并進(jìn)行有效通信的理論與技術(shù)。它旨在使計(jì)算機(jī)能夠理解、處理和生成人類的語言,實(shí)現(xiàn)人機(jī)之間的有效交流。這需要將數(shù)學(xué)、語言學(xué)、計(jì)算機(jī)科學(xué)等多學(xué)科的理論與方法進(jìn)行融合,是人工智能的重要研究方向。
1947年,沃倫·韋弗(Warren Weaver,美國數(shù)學(xué)家,被譽(yù)為“機(jī)器翻譯之父”)提出“計(jì)算機(jī)語言自動翻譯”理念。
機(jī)器翻譯(machine translation)是自然語言處理最早的研究領(lǐng)域。經(jīng)歷了一系列技術(shù)進(jìn)步,現(xiàn)在發(fā)展到了基于自注意力機(jī)制(Self-Attention)的Transformer模型(ChatGPT和DeepSeek都是基于Transformer模型開發(fā)的)。
自注意力機(jī)制是Transformer模型的核心創(chuàng)新點(diǎn)之一,它可以讓模型在處理序列數(shù)據(jù)時,動態(tài)地關(guān)注輸入序列的不同部分,計(jì)算每個位置與其他位置之間的關(guān)聯(lián)程度,從而更好地捕捉文本中的長距離依賴關(guān)系。
簡單來說,你可以把訓(xùn)練DeepSeek等大模型的過程看成一個“猜謎大師”的養(yǎng)成過程。在訓(xùn)練時,它會被“投喂”海量文本,但它不記憶具體知識,而是學(xué)習(xí)詞語之間的關(guān)聯(lián)規(guī)律,比如“狗喜歡吃……”后面大概率出現(xiàn)的詞匯是“骨頭”或“肉”,而不是“草”。隨著訓(xùn)練量增大,它可以不斷提高自己產(chǎn)生結(jié)果的概率和合理性,例如“地道”后面是“戰(zhàn)”還是“美食”,它會根據(jù)上下文語境做出判斷。
在對話階段,Transformer模型主要采取邊聽邊猜并不斷優(yōu)化的模式進(jìn)行。例如,當(dāng)你輸入“為什么天空看起來是藍(lán)色的”時,Transformer模型會利用自注意力機(jī)制拆解關(guān)鍵詞,找到“天空”“藍(lán)色”等關(guān)鍵詞,然后根據(jù)在訓(xùn)練階段掌握的規(guī)律找到“光的散射”和“大氣層”等知識片段,再逐詞生成完整的回答。在生成答案的過程中,它還可以根據(jù)反饋不斷調(diào)整和優(yōu)化結(jié)果。
許多預(yù)訓(xùn)練語言模型都是通過增大訓(xùn)練參數(shù)規(guī)模來提高模型訓(xùn)練的效果的,但這樣會對數(shù)據(jù)和算力有很高的要求,使得訓(xùn)練和部署模型的成本巨大。
DeepSeek的突出創(chuàng)新點(diǎn)之一在于,它主要是通過優(yōu)化算法來達(dá)成較好的模型訓(xùn)練效果的,因此需求的訓(xùn)練數(shù)據(jù)相對較少、訓(xùn)練算力相對較低。在這一過程中,它使用的混合專家模型(Mixture of Experts,MoE)起到了突出作用。
為了更好地理解混合專家模型的工作機(jī)制,我們可以舉個例子:一間準(zhǔn)備裝修的毛坯房,想要將它裝好,需要20個泥瓦工、20個木工和10個油漆工,其他大模型會在整個施工期間都“養(yǎng)”著這50名工人,而DeepSeek則會根據(jù)施工需要,在特定的時段“雇傭”特定的工人,所以DeepSeek的訓(xùn)練成本更低。
此外,DeepSeek對圖形處理器(GPU)和芯片進(jìn)行了深度優(yōu)化,進(jìn)一步降低了模型訓(xùn)練和部署的成本。
同時,DeepSeek是開源的,它公布了自己的模型參數(shù)和訓(xùn)練工具鏈,吸引廣大二次開發(fā)者對其應(yīng)用和優(yōu)化,迅速形成了自己的開發(fā)生態(tài),從而進(jìn)一步滿足模型在醫(yī)學(xué)、法律等特定領(lǐng)域的需求。
一次次的工業(yè)革命告訴我們,被迭代的始終是工具,大語言模型替代的是工具性技能,而非人類的能力——提出問題、定義價值、賦予意義。它無法取代人類“不理性”的價值、“無意義”的探索和“不完美”的聯(lián)結(jié)。真正的危機(jī)或許不是“機(jī)器太過強(qiáng)大”,而是“人類太像機(jī)器”。如何對待疾速發(fā)展的人工智能技術(shù),正是我們亟待解決的命題。
(責(zé)任編輯 / 牛一名 美術(shù)編輯 / 周游)