亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

DeepSeek：計(jì)算機(jī)如何從“鸚鵡學(xué)舌”到“對答如流”？

2025-03-24 00:00:00楊屹律原

知識就是力量 2025年3期

讓機(jī)器“說話”

人類擁有極其復(fù)雜且高度發(fā)達(dá)的語言系統(tǒng)，可以運(yùn)用口語、文字等抽象符號進(jìn)行溝通，這也是人類區(qū)別于其他絕大部分生物的顯著特征之一。因此，能理解豐富的詞匯和復(fù)雜的語法，以及擁有強(qiáng)大的表意能力，是人類高級思維的重要體現(xiàn)。

自然語言處理（Natural Language Processing，簡稱NLP）是通過計(jì)算機(jī)實(shí)現(xiàn)語言分析，研究人機(jī)交互并進(jìn)行有效通信的理論與技術(shù)。它旨在使計(jì)算機(jī)能夠理解、處理和生成人類的語言，實(shí)現(xiàn)人機(jī)之間的有效交流。這需要將數(shù)學(xué)、語言學(xué)、計(jì)算機(jī)科學(xué)等多學(xué)科的理論與方法進(jìn)行融合，是人工智能的重要研究方向。

不斷更新的“語言理解”算法

1947年，沃倫·韋弗（Warren Weaver，美國數(shù)學(xué)家，被譽(yù)為“機(jī)器翻譯之父”）提出“計(jì)算機(jī)語言自動翻譯”理念。

機(jī)器翻譯（machine translation）是自然語言處理最早的研究領(lǐng)域。經(jīng)歷了一系列技術(shù)進(jìn)步，現(xiàn)在發(fā)展到了基于自注意力機(jī)制（Self-Attention）的Transformer模型（ChatGPT和DeepSeek都是基于Transformer模型開發(fā)的）。

自注意力機(jī)制是Transformer模型的核心創(chuàng)新點(diǎn)之一，它可以讓模型在處理序列數(shù)據(jù)時，動態(tài)地關(guān)注輸入序列的不同部分，計(jì)算每個位置與其他位置之間的關(guān)聯(lián)程度，從而更好地捕捉文本中的長距離依賴關(guān)系。

“猜謎大師”養(yǎng)成記

簡單來說，你可以把訓(xùn)練DeepSeek等大模型的過程看成一個“猜謎大師”的養(yǎng)成過程。在訓(xùn)練時，它會被“投喂”海量文本，但它不記憶具體知識，而是學(xué)習(xí)詞語之間的關(guān)聯(lián)規(guī)律，比如“狗喜歡吃……”后面大概率出現(xiàn)的詞匯是“骨頭”或“肉”，而不是“草”。隨著訓(xùn)練量增大，它可以不斷提高自己產(chǎn)生結(jié)果的概率和合理性，例如“地道”后面是“戰(zhàn)”還是“美食”，它會根據(jù)上下文語境做出判斷。

在對話階段，Transformer模型主要采取邊聽邊猜并不斷優(yōu)化的模式進(jìn)行。例如，當(dāng)你輸入“為什么天空看起來是藍(lán)色的”時，Transformer模型會利用自注意力機(jī)制拆解關(guān)鍵詞，找到“天空”“藍(lán)色”等關(guān)鍵詞，然后根據(jù)在訓(xùn)練階段掌握的規(guī)律找到“光的散射”和“大氣層”等知識片段，再逐詞生成完整的回答。在生成答案的過程中，它還可以根據(jù)反饋不斷調(diào)整和優(yōu)化結(jié)果。

更優(yōu)秀的大語言模型之路

許多預(yù)訓(xùn)練語言模型都是通過增大訓(xùn)練參數(shù)規(guī)模來提高模型訓(xùn)練的效果的，但這樣會對數(shù)據(jù)和算力有很高的要求，使得訓(xùn)練和部署模型的成本巨大。

DeepSeek的突出創(chuàng)新點(diǎn)之一在于，它主要是通過優(yōu)化算法來達(dá)成較好的模型訓(xùn)練效果的，因此需求的訓(xùn)練數(shù)據(jù)相對較少、訓(xùn)練算力相對較低。在這一過程中，它使用的混合專家模型（Mixture of Experts，MoE）起到了突出作用。

為了更好地理解混合專家模型的工作機(jī)制，我們可以舉個例子：一間準(zhǔn)備裝修的毛坯房，想要將它裝好，需要20個泥瓦工、20個木工和10個油漆工，其他大模型會在整個施工期間都“養(yǎng)”著這50名工人，而DeepSeek則會根據(jù)施工需要，在特定的時段“雇傭”特定的工人，所以DeepSeek的訓(xùn)練成本更低。

此外，DeepSeek對圖形處理器（GPU）和芯片進(jìn)行了深度優(yōu)化，進(jìn)一步降低了模型訓(xùn)練和部署的成本。

同時，DeepSeek是開源的，它公布了自己的模型參數(shù)和訓(xùn)練工具鏈，吸引廣大二次開發(fā)者對其應(yīng)用和優(yōu)化，迅速形成了自己的開發(fā)生態(tài)，從而進(jìn)一步滿足模型在醫(yī)學(xué)、法律等特定領(lǐng)域的需求。

一次次的工業(yè)革命告訴我們，被迭代的始終是工具，大語言模型替代的是工具性技能，而非人類的能力——提出問題、定義價值、賦予意義。它無法取代人類“不理性”的價值、“無意義”的探索和“不完美”的聯(lián)結(jié)。真正的危機(jī)或許不是“機(jī)器太過強(qiáng)大”，而是“人類太像機(jī)器”。如何對待疾速發(fā)展的人工智能技術(shù)，正是我們亟待解決的命題。