亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        谷歌開發(fā)語言模型 在數(shù)學(xué)考試中可達(dá)到人類平均水準(zhǔn)

        2022-09-22 09:45:42
        海外星云 2022年17期
        關(guān)鍵詞:定量錯(cuò)誤人員

        近日,谷歌開發(fā)了一個(gè)名為“麥內(nèi)瓦”的自然語言處理(NLP)模型,能夠回答微分方程、化學(xué)、狹義相對(duì)論等高難度學(xué)科問題。

        據(jù)了解,現(xiàn)在已有的NLP模型(如Open AI的GPT-3、Deep Mind的Gopher等)可以較好地執(zhí)行總結(jié)、翻譯、寫作等各類文本處理任務(wù)。但目前,這類神經(jīng)網(wǎng)絡(luò)模型在解決所謂的定量推理問題(如數(shù)學(xué)問題)方面的能力還有不足。

        “定量推理是語言模型仍然遠(yuǎn)遠(yuǎn)低于人類水平表現(xiàn)的一個(gè)領(lǐng)域,”研究人員在谷歌官方博文中解釋說,“通常認(rèn)為,用機(jī)器學(xué)習(xí)解決定量推理問題需要模型架構(gòu)和訓(xùn)練技術(shù)的重大進(jìn)步?!?/p>

        其中還提到,數(shù)學(xué)等復(fù)雜學(xué)科問題的解決需要使用自然語言和數(shù)學(xué)公式解析問題,以及生成數(shù)值計(jì)算的分步解決方法等多種技能的組合。

        由于這些挑戰(zhàn),谷歌打造了“麥內(nèi)瓦”這種可以解決定量推理問題的人工智能模型。

        2022年6月29日,相關(guān)論文以《用語言模型解決定量推理問題》為題提交在arXiv上。

        據(jù)了解,麥內(nèi)瓦建立在PaLM(5400億參數(shù)模型,谷歌2022年4月發(fā)布)基礎(chǔ)之上,并在一個(gè)118GB數(shù)據(jù)集(包括科學(xué)論文和含有數(shù)學(xué)表達(dá)式的網(wǎng)頁)上進(jìn)行訓(xùn)練。

        研究人員還提到,他們沒有刪除這些數(shù)據(jù)中對(duì)數(shù)學(xué)表達(dá)式的語義意義至關(guān)重要的符號(hào)和格式。因此,麥內(nèi)瓦學(xué)會(huì)了如何使用標(biāo)準(zhǔn)數(shù)學(xué)符號(hào)來表達(dá)它生成的答案。并在博文中補(bǔ)充道:“為實(shí)現(xiàn)STEM(Science、Technology、Engineering、Mathematics)推理任務(wù)的最先進(jìn)性能,麥內(nèi)瓦結(jié)合了小樣本提示、思維鏈或暫存器提示以及多數(shù)投票等提示和評(píng)估技術(shù)?!?/p>

        比如通過思維鏈提示,研究人員不僅可以讓麥內(nèi)瓦回答問題,還可以嘗試讓它解釋是如何計(jì)算答案的。在某些情況下,這種方法使神經(jīng)網(wǎng)絡(luò)能夠解決過于復(fù)雜的問題。

        “麥內(nèi)瓦”對(duì)兩個(gè)數(shù)學(xué)問題的輸出解答

        另外,在解答數(shù)學(xué)問題時(shí),該模型可以找到多種計(jì)算相同結(jié)果的方法,然后,對(duì)生成的不同解決方案進(jìn)行比較,根據(jù)多數(shù)投票原則選擇最有可能成為正確答案的解決方案。

        值得一提的是,用戶還可以使用谷歌推出的交互式網(wǎng)頁試用麥內(nèi)瓦的輸出效果。

        為了測(cè)試“麥內(nèi)瓦”的準(zhǔn)確性,研究人員讓其回答跨越多個(gè)領(lǐng)域的問題,難度從小學(xué)水平到研究生水平,涵蓋小學(xué)和高中數(shù)學(xué)競(jìng)賽、大規(guī)模多任務(wù)語言理解基準(zhǔn)子集MMLU-STEM、麻省理工學(xué)院開放課件等中的各種問題。620億參數(shù)的麥內(nèi)瓦在波蘭國家數(shù)學(xué)考試(每年參加人數(shù)約有27萬名)中達(dá)到了57%的分?jǐn)?shù),這恰好是2021年該國的平均水平,而5400億參數(shù)版本實(shí)現(xiàn)了65%的分?jǐn)?shù)。

        麥內(nèi)瓦示例瀏覽網(wǎng)站

        研究人員表示,在所有情況中,相較之下,麥內(nèi)瓦都能獲得最先進(jìn)的結(jié)果。但值得注意的是,麥內(nèi)瓦還是會(huì)犯不少錯(cuò)誤,其中計(jì)算錯(cuò)誤和推理錯(cuò)誤約各占50%,這些錯(cuò)誤大都比較容易解釋。而結(jié)果正確,推理過程錯(cuò)誤的情況被研究者稱為“誤報(bào)”,誤報(bào)率相對(duì)較低,620億參數(shù)的麥內(nèi)瓦在數(shù)學(xué)上產(chǎn)生的誤報(bào)率低于8%。

        谷歌對(duì)這些錯(cuò)誤樣本進(jìn)行了分析,以確定模型后續(xù)需要改進(jìn)的地方。以下是模型犯的兩個(gè)示例錯(cuò)誤。

        計(jì)算錯(cuò)誤

        由于麥內(nèi)瓦并沒有使用底層數(shù)學(xué)結(jié)構(gòu)來回答問題,這使其無法自動(dòng)驗(yàn)證答案,因而檢測(cè)不到“誤報(bào)”情況。該模型還無法利用計(jì)算器或Python解釋器等外部工具。因此,它進(jìn)行需要復(fù)雜數(shù)值計(jì)算的定量推理任務(wù)的能力有限。麥內(nèi)瓦模型的性能目前與人類的表現(xiàn)還有不小差距。

        總的來說,通過在大量定量推理數(shù)據(jù)上訓(xùn)練大模型,并采用一流的人工智能技術(shù),從而讓麥內(nèi)瓦在多類定量推理任務(wù)上實(shí)現(xiàn)較高的提升。

        最后,機(jī)器學(xué)習(xí)模型已在許多科學(xué)學(xué)科中發(fā)揮重要作用,但它們通常局限于解決特定范圍的任務(wù)。像麥內(nèi)瓦這類能夠進(jìn)行定量推理的模型有許多潛在的應(yīng)用,包括作為研究人員的輔助工具、為學(xué)生提供新的學(xué)習(xí)機(jī)會(huì)等。“我們希望解決定量推理問題的通用模型能夠有助于推動(dòng)科學(xué)和教育的進(jìn)一步發(fā)展。麥內(nèi)瓦已經(jīng)朝這個(gè)方向邁出一步?!毖芯咳藛T表示。

        猜你喜歡
        定量錯(cuò)誤人員
        靈活就業(yè)人員參保如何繳費(fèi)
        在錯(cuò)誤中成長
        顯微定量法鑒別林下山參和園參
        讓刑滿釋放人員找到家的感覺
        當(dāng)歸和歐當(dāng)歸的定性與定量鑒別
        中成藥(2018年12期)2018-12-29 12:25:44
        10 種中藥制劑中柴胡的定量測(cè)定
        中成藥(2017年6期)2017-06-13 07:30:35
        慢性HBV感染不同狀態(tài)下HBsAg定量的臨床意義
        不犯同樣錯(cuò)誤
        急救人員已身心俱疲
        《錯(cuò)誤》:怎一個(gè)“美”字了得
        短篇小說(2014年11期)2014-02-27 08:32:41
        亚洲色欲在线播放一区| 中文成人无码精品久久久不卡| 97超碰精品成人国产| 午夜被窝精品国产亚洲av香蕉 | 日本高清在线一区二区三区 | 日本丰满熟妇videossex一| 久久www色情成人免费观看| 久久久久亚洲精品无码网址| 久久免费大片| 91精品国产闺蜜国产在线| 国产日韩精品视频一区二区三区| 日本a级片一区二区三区| 亚洲一区二区在线观看网址| 国产成人无码av| 久久久精品人妻一区二区三区四 | 高清国产一级毛片国语| 久久久亚洲欧洲日产国码是AV| 日韩精品一区二区三区视频| 国产精品国产自产拍高清| 国产av无码专区亚洲版综合| 果冻传媒2021精品一区| 激情偷乱人伦小说视频在线| a级福利毛片| 国产人成在线免费视频| 国产夫妻精品自拍视频| 久久天天躁夜夜躁狠狠85麻豆| 日韩中文字幕免费视频| 亚洲 欧美 激情 小说 另类| 亚洲精品99久久久久久| 日本刺激视频一区二区| 天天躁夜夜躁av天天爽| 无码骚夜夜精品| 欧美自拍丝袜亚洲| 成人国产一区二区三区精品不卡| 亚洲一区免费视频看看| 日韩精品中文一区二区三区在线 | 成年女人a级毛片免费观看| 亚洲精品无码成人a片| 国产高清国内精品福利99久久| 亚洲一区极品美女写真在线看| 日韩少妇人妻中文视频|