亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        谷歌開發(fā)語言模型 在數(shù)學(xué)考試中可達到人類平均水準

        2022-09-22 09:45:42
        海外星云 2022年17期
        關(guān)鍵詞:定量錯誤人員

        近日,谷歌開發(fā)了一個名為“麥內(nèi)瓦”的自然語言處理(NLP)模型,能夠回答微分方程、化學(xué)、狹義相對論等高難度學(xué)科問題。

        據(jù)了解,現(xiàn)在已有的NLP模型(如Open AI的GPT-3、Deep Mind的Gopher等)可以較好地執(zhí)行總結(jié)、翻譯、寫作等各類文本處理任務(wù)。但目前,這類神經(jīng)網(wǎng)絡(luò)模型在解決所謂的定量推理問題(如數(shù)學(xué)問題)方面的能力還有不足。

        “定量推理是語言模型仍然遠遠低于人類水平表現(xiàn)的一個領(lǐng)域,”研究人員在谷歌官方博文中解釋說,“通常認為,用機器學(xué)習(xí)解決定量推理問題需要模型架構(gòu)和訓(xùn)練技術(shù)的重大進步。”

        其中還提到,數(shù)學(xué)等復(fù)雜學(xué)科問題的解決需要使用自然語言和數(shù)學(xué)公式解析問題,以及生成數(shù)值計算的分步解決方法等多種技能的組合。

        由于這些挑戰(zhàn),谷歌打造了“麥內(nèi)瓦”這種可以解決定量推理問題的人工智能模型。

        2022年6月29日,相關(guān)論文以《用語言模型解決定量推理問題》為題提交在arXiv上。

        據(jù)了解,麥內(nèi)瓦建立在PaLM(5400億參數(shù)模型,谷歌2022年4月發(fā)布)基礎(chǔ)之上,并在一個118GB數(shù)據(jù)集(包括科學(xué)論文和含有數(shù)學(xué)表達式的網(wǎng)頁)上進行訓(xùn)練。

        研究人員還提到,他們沒有刪除這些數(shù)據(jù)中對數(shù)學(xué)表達式的語義意義至關(guān)重要的符號和格式。因此,麥內(nèi)瓦學(xué)會了如何使用標準數(shù)學(xué)符號來表達它生成的答案。并在博文中補充道:“為實現(xiàn)STEM(Science、Technology、Engineering、Mathematics)推理任務(wù)的最先進性能,麥內(nèi)瓦結(jié)合了小樣本提示、思維鏈或暫存器提示以及多數(shù)投票等提示和評估技術(shù)?!?/p>

        比如通過思維鏈提示,研究人員不僅可以讓麥內(nèi)瓦回答問題,還可以嘗試讓它解釋是如何計算答案的。在某些情況下,這種方法使神經(jīng)網(wǎng)絡(luò)能夠解決過于復(fù)雜的問題。

        “麥內(nèi)瓦”對兩個數(shù)學(xué)問題的輸出解答

        另外,在解答數(shù)學(xué)問題時,該模型可以找到多種計算相同結(jié)果的方法,然后,對生成的不同解決方案進行比較,根據(jù)多數(shù)投票原則選擇最有可能成為正確答案的解決方案。

        值得一提的是,用戶還可以使用谷歌推出的交互式網(wǎng)頁試用麥內(nèi)瓦的輸出效果。

        為了測試“麥內(nèi)瓦”的準確性,研究人員讓其回答跨越多個領(lǐng)域的問題,難度從小學(xué)水平到研究生水平,涵蓋小學(xué)和高中數(shù)學(xué)競賽、大規(guī)模多任務(wù)語言理解基準子集MMLU-STEM、麻省理工學(xué)院開放課件等中的各種問題。620億參數(shù)的麥內(nèi)瓦在波蘭國家數(shù)學(xué)考試(每年參加人數(shù)約有27萬名)中達到了57%的分數(shù),這恰好是2021年該國的平均水平,而5400億參數(shù)版本實現(xiàn)了65%的分數(shù)。

        麥內(nèi)瓦示例瀏覽網(wǎng)站

        研究人員表示,在所有情況中,相較之下,麥內(nèi)瓦都能獲得最先進的結(jié)果。但值得注意的是,麥內(nèi)瓦還是會犯不少錯誤,其中計算錯誤和推理錯誤約各占50%,這些錯誤大都比較容易解釋。而結(jié)果正確,推理過程錯誤的情況被研究者稱為“誤報”,誤報率相對較低,620億參數(shù)的麥內(nèi)瓦在數(shù)學(xué)上產(chǎn)生的誤報率低于8%。

        谷歌對這些錯誤樣本進行了分析,以確定模型后續(xù)需要改進的地方。以下是模型犯的兩個示例錯誤。

        計算錯誤

        由于麥內(nèi)瓦并沒有使用底層數(shù)學(xué)結(jié)構(gòu)來回答問題,這使其無法自動驗證答案,因而檢測不到“誤報”情況。該模型還無法利用計算器或Python解釋器等外部工具。因此,它進行需要復(fù)雜數(shù)值計算的定量推理任務(wù)的能力有限。麥內(nèi)瓦模型的性能目前與人類的表現(xiàn)還有不小差距。

        總的來說,通過在大量定量推理數(shù)據(jù)上訓(xùn)練大模型,并采用一流的人工智能技術(shù),從而讓麥內(nèi)瓦在多類定量推理任務(wù)上實現(xiàn)較高的提升。

        最后,機器學(xué)習(xí)模型已在許多科學(xué)學(xué)科中發(fā)揮重要作用,但它們通常局限于解決特定范圍的任務(wù)。像麥內(nèi)瓦這類能夠進行定量推理的模型有許多潛在的應(yīng)用,包括作為研究人員的輔助工具、為學(xué)生提供新的學(xué)習(xí)機會等?!拔覀兿M鉀Q定量推理問題的通用模型能夠有助于推動科學(xué)和教育的進一步發(fā)展。麥內(nèi)瓦已經(jīng)朝這個方向邁出一步。”研究人員表示。

        猜你喜歡
        定量錯誤人員
        靈活就業(yè)人員參保如何繳費
        工會博覽(2024年8期)2024-03-31 03:53:14
        在錯誤中成長
        顯微定量法鑒別林下山參和園參
        讓刑滿釋放人員找到家的感覺
        當歸和歐當歸的定性與定量鑒別
        中成藥(2018年12期)2018-12-29 12:25:44
        10 種中藥制劑中柴胡的定量測定
        中成藥(2017年6期)2017-06-13 07:30:35
        慢性HBV感染不同狀態(tài)下HBsAg定量的臨床意義
        不犯同樣錯誤
        急救人員已身心俱疲
        《錯誤》:怎一個“美”字了得
        短篇小說(2014年11期)2014-02-27 08:32:41
        综合久久给合久久狠狠狠97色| 亚洲一区二区三区国产| 国产人成视频在线视频| 国产精品一区二区久久乐下载 | 欧美亚洲日韩国产人成在线播放| 亚洲成人av一区二区| 欧洲女人与公拘交酡视频| 青草国产精品久久久久久| 国产一级淫片免费大片| 偷偷夜夜精品一区二区三区蜜桃| 精品免费国产一区二区三区四区| 越猛烈欧美xx00动态图| 人妖另类综合视频网站| 色婷婷在线一区二区三区| 国产综合色在线精品| 丰满人妻妇伦又伦精品国产 | 国产xxxx99真实实拍| 日本a在线播放| 蜜桃网站入口可看18禁| 国产成人a∨激情视频厨房| 中文字幕精品无码一区二区| 国产高清天干天天视频| 国产一区二区三区在线男友| 99久久超碰中文字幕伊人| xxxx国产视频| 国产精品一区二区三区黄片视频| 精品亚洲麻豆1区2区3区| 亚洲国产精品日韩av不卡在线| a观看v视频网站入口免费| 精品国产3p一区二区三区| 国产精品无码一区二区三区在| 亚洲视频一区| 日本一区二区三区中文字幕视频| 日韩人妻系列在线观看| 极品少妇一区二区三区四区| 亚洲AV综合久久九九| 国产亚洲日本精品二区| 成熟丰满熟妇av无码区| 99精品视频免费热播| 日韩av一区二区三区在线观看 | 一卡二卡国产av熟女|