亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        突圍戰(zhàn),中國AI又迭代了

        2025-06-26 00:00:00榮智慧
        看世界 2025年13期
        關(guān)鍵詞:深度模型

        AI創(chuàng)意圖(制作/郭嘉亮)

        近期,DeepSeek-R1模型完成一次版本迭代。這次“小更新”引發(fā)了大量關(guān)注,測評顯示,其整體性能逼近目前頂級模型OpenAIo3和谷歌Gemini2.5-Pro。

        同一時間,華為推出參數(shù)規(guī)模7180億的盤古UltraMoE大模型,全流程在昇騰AI計算平臺訓(xùn)練。

        可以說,中國人工智能大模型的新賽季從此開啟,一邊是深度求索的開源低成本模式,一邊是華為全棧自研的“可控閉源”模式。

        當(dāng)OpenAI和谷歌強化“更大參數(shù)”和“更強通用性”時,中國AI大模型逐漸進(jìn)入“拼軟件”或者“拼硬件”的“極致性價比”時代。按照歷史經(jīng)驗,無論技術(shù)由誰開創(chuàng),只要進(jìn)入“性價比”競爭階段,中國企業(yè)的優(yōu)勢總是一騎絕塵。

        話又說回來,到底是“軟件定義AI”還是“硬件定義AI”,可能正決定著大模型的未來形態(tài)。

        R2還沒來,R1先迭代

        千呼萬喚的R2模型沒出現(xiàn),只有R1的迭代版本給大家“望梅止渴”。

        5月29日,深度求索宣布其R1模型成功完成版本迭代,新版本為DeepSeek-R1-0528。這個版本依然基于2024年12月推出的DeepSeekV3Base模型,在后期訓(xùn)練階段增加了算力投入,增強了模型的思維深度和推理能力。

        此次升級后,模型的響應(yīng)質(zhì)量提升,在復(fù)雜推理、多步驟計算方面更準(zhǔn)確,長文理解和生成更連貫,數(shù)學(xué)和編程等專業(yè)性輸出更可靠;響應(yīng)速度也有相應(yīng)提升,在網(wǎng)頁端、App和API接口中反應(yīng)更快,處理超長文本輸入時,延遲有所降低;對話的穩(wěn)定性增強,減少了“遺忘設(shè)定”或“離題”的情況;API和接口兼容性保持穩(wěn)定,升級后,用戶無需調(diào)整現(xiàn)有集成就可以無縫使用新版本。

        最明顯的變化是“思維鏈”—像谷歌的Gemini一樣進(jìn)行深度推理,寫作的效果更加自然。

        華為Atlas 900 AI 集群

        在性能方面,首先是模型的智能水平提升,在AIME2024(數(shù)學(xué)競賽,+21分)、LiveCodeBench(代碼生成,+15分)、GPQADiamond(科學(xué)推理,+10分)和《人類最后考卷》(推理與知識,+6分)等多個方面實現(xiàn)進(jìn)步;其次是編程能力提升,在ArtificialAnalysis編程能力指數(shù)中,R1已追平Gemini2.5Pro,僅次于o4-mini(高水準(zhǔn)版)和o3模型。

        不過,Token的消耗量也大幅度增加。R1-0528在完成ArtificialAnalysis智能指數(shù)評估時消耗了9900萬Token,比初代R1的7100萬Token多出40%—也就是說,新版R1的“思考”時間更長。

        當(dāng)然,消耗量也看跟誰比。同一個測試,Gemini2.5Pro的Token消耗量比R1-0528還要多30%。

        雖然R1升級效果已經(jīng)“很強”,但對于被R2吊足了胃口的人們來說,還不夠。

        根據(jù)之前各方透露的消息,DeepSeekR2模型基于華為昇騰芯片訓(xùn)練,1.2萬億參數(shù)規(guī)模,97%的成本降幅,以及實現(xiàn)多模態(tài)融合—文本、圖像和代碼聯(lián)合推理。

        特別是成本斷崖式下降,有希望讓中小開發(fā)者首次觸達(dá)頂級AI能力,達(dá)成“AI普惠”的中國方案。

        網(wǎng)友的普遍想法是,R1的小版本更新已經(jīng)很驚艷,R2到底強大成什么樣子?是不是得等到國慶節(jié)才能看到?

        硬核自研,國產(chǎn)“定心丸”

        華為習(xí)慣走那條最難走的路—全棧自研。在算力封鎖下,硬是用自己的芯片訓(xùn)練出7180億參數(shù)的MoE模型。

        2021年盤古大模型正式立項,隸屬于華為云部門。盤古包含E、P、U、S四大系列,E系列用于平板電腦、手機和PC設(shè)備,參數(shù)規(guī)模十億級;P系列參數(shù)規(guī)模百億級,適合低延遲、低成本推理;U系列的Ultra,參數(shù)規(guī)模千億級,能夠處理復(fù)雜任務(wù);S系列也叫“超級盤古”,參數(shù)規(guī)模萬億級,管理跨域或多任務(wù)應(yīng)用等高級AI技術(shù)場景。

        5月29日,盤古大模型UltraMoE正式發(fā)布,該模型在模型架構(gòu)和訓(xùn)練方法進(jìn)行了創(chuàng)新設(shè)計,在昇騰NPU上實現(xiàn)MoE模型的全流程訓(xùn)練。

        換個說法,就是華為“打個樣兒”,提供一套不用GPU訓(xùn)練千億級大模型的方法。

        在模型架構(gòu)上,其采用了Depth-ScaledSandwich-Norm(DSSN)穩(wěn)定架構(gòu)和TinyInit小初始化的方法,在昇騰平臺進(jìn)行了超過18TB數(shù)據(jù)的長期穩(wěn)定訓(xùn)練。

        此外,團隊也提出EPgrouploss負(fù)載優(yōu)化方法,不僅保證了各個專家之間負(fù)載均衡,也提升了專家的領(lǐng)域特化能力。

        同時,盤古UltraMoE使用了業(yè)界先進(jìn)的MLA和MTP架構(gòu),在預(yù)訓(xùn)練和后訓(xùn)練階段都使用了Dropless訓(xùn)練策略,實現(xiàn)了超大規(guī)模MoE架構(gòu)在模型效果與效率之間的平衡。

        在訓(xùn)練方法上,華為團隊首次披露在昇騰CloudMatrix384超節(jié)點上,打通大稀疏比MoE強化學(xué)習(xí)后訓(xùn)練框架的關(guān)鍵技術(shù)。

        華為在當(dāng)天發(fā)布的論文中指出,該系統(tǒng)設(shè)計的關(guān)鍵在于兩個部分:一是迭代難例挖掘。模型階段性更新后,從初始的數(shù)據(jù)池中進(jìn)行多回復(fù)推理,選取回復(fù)通過率在(0,1)的數(shù)據(jù)組成強化訓(xùn)練數(shù)據(jù)池,以保持推理效率最大化。

        二是多能力項獎勵系統(tǒng)。為了確保模型多能力項協(xié)同提升,數(shù)學(xué)和代碼均采用了基于規(guī)則的獎勵,通用獎勵模型則使用LLM-as-a-judge的方法對生成的回復(fù)質(zhì)量進(jìn)行評分,并對最終的獎勵進(jìn)行歸一化處理,保證了模型在多個能力項的綜合表現(xiàn)。

        極致突圍,軟硬大戰(zhàn)?

        華為盤古和深度求索常?!袄墶背鍪?。比如馬來西亞購買中國的AI基礎(chǔ)設(shè)施,核心裝備就是3000臺華為昇騰AI計算平臺,搭載深度求索的開源模型。

        但是以大模型產(chǎn)品作為分析對象時,二者是競爭關(guān)系,免不了有技術(shù)性的比較。

        從底層架構(gòu)看,深度求索主打“動態(tài)優(yōu)化”,華為盤古主打“全棧自研”。

        深度求索的核心競爭力就在于極致的工程優(yōu)化,其模型架構(gòu)不追求最大參數(shù)量,而是通過動態(tài)推理優(yōu)化,讓同一套模型在不同任務(wù)中自動調(diào)整計算資源分配。比如,在代碼生成案例中,R1可以自動識別代碼片段的關(guān)鍵部分(循環(huán)、條件判斷),動態(tài)分配計算資源,錯誤率也更低。

        華為盤古大模型走的是全棧自研的路徑,從芯片到模型都是“自己的”。其訓(xùn)練完全基于昇騰910系列芯片,采用DSSN架構(gòu)。比如,在礦山設(shè)備故障檢測任務(wù)中,盤古大模型能在低光照、高噪聲環(huán)境下穩(wěn)定運行,穩(wěn)定性和可靠性更強。

        從計算效率看,深度求索的撒手锏是超低成本推理,華為盤古更看重訓(xùn)練效率。

        深度求索采用稀疏化計算和動態(tài)計算圖優(yōu)化方法,模型僅在運行時激活必要的神經(jīng)元,推理速度提升3倍,而成本僅為GPT-4的五分之一。華為盤古更關(guān)注讓模型在有限資源下達(dá)到最佳性能,像TinyInit小初始化技術(shù),據(jù)悉可以讓700億參數(shù)的模型性能媲美千億模型。

        從應(yīng)用場景看,深度求索更適合極客,做的是“開發(fā)者工具”;華為盤古做的是“行業(yè)AI”,適配很多工業(yè)場景,比如礦山、電力、制造、氣象、流體力學(xué)、核能、衛(wèi)星圖像優(yōu)化等等。

        深度求索的瓶頸在于,長文本和多模態(tài)能力依然有待加強,也許R2可以解決這一問題,另外從“工具”升級到“平臺”,生態(tài)的搭建面臨很大的挑戰(zhàn)。

        而華為盤古還要繼續(xù)打磨硬件,單個昇騰910芯片性能無法匹敵英偉達(dá)H200的情況下,集成的性能總有達(dá)到天花板的時候,那之后又該如何提升?

        可能深度求索和華為正好代表了中國人工智能大模型的兩個方向,前者是軟件定義AI,用算法彌補算力的不足;后者是硬件定義AI,用自研芯片及優(yōu)化集成拉高算力。

        它們雖然是兩種方向,實質(zhì)是同一場突圍:中國人工智能在性價比戰(zhàn)爭中依然有不可小覷的優(yōu)勢。

        猜你喜歡
        深度模型
        一半模型
        深度理解一元一次方程
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        深度觀察
        深度觀察
        深度觀察
        深度觀察
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        久久国产精品美女厕所尿尿av| 中文字幕精品亚洲人成| 欧美日韩免费一区中文字幕| 国产一区二区在三区在线观看| 白白在线视频免费观看嘛| 久久精品无码一区二区三区免费| 国产成人无码aⅴ片在线观看| 一区二区无码精油按摩| 天堂丝袜美腿在线观看| 午夜裸体性播放| 人妻人人澡人人添人人爽人人玩| 国产精品国产三级国产an| 亚洲精品偷拍自综合网| 国产青榴视频在线观看| 日韩久久一级毛片| 亚洲一区二区三区av色婷婷| 手机看片久久第一人妻| 毛片内射久久久一区| 久热香蕉精品视频在线播放| 少妇高潮精品正在线播放| 色狠狠色狠狠综合天天| 亚洲欧美日韩综合久久| 超清无码AV丝袜片在线观看| 日本人妻精品有码字幕| 亚洲精品久久久久久久久久吃药| 国产日韩在线播放观看| 天堂av中文在线官网| 完整版免费av片| 久久久精品欧美一区二区免费| 91热视频在线观看| 日本视频一区二区三区观看| 白丝兔女郎m开腿sm调教室| 国产成人一区二区三中文| 日本小视频一区二区三区| 免费无遮挡无码永久在线观看视频| 131美女爱做视频| 无码无在线观看| 极品尤物精品在线观看| 中文字幕一区二区三区人妻少妇| 精精国产xxx在线视频app| 亚洲精品国产av日韩专区|