亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        谷歌打造開(kāi)放源碼庫(kù)RLiable讓機(jī)器強(qiáng)化學(xué)習(xí)評(píng)估更可靠

        2021-01-19 09:14:55
        海外星云 2021年23期
        關(guān)鍵詞:最優(yōu)性配置文件中位數(shù)

        強(qiáng)化學(xué)習(xí)作為機(jī)器學(xué)習(xí)的三大基本范式之一,被用在諸多學(xué)科,如信息理論、基于仿真的優(yōu)化、多智能體系統(tǒng)、群體智能、統(tǒng)計(jì)學(xué)等。

        強(qiáng)化學(xué)習(xí)通過(guò)從經(jīng)驗(yàn)中學(xué)習(xí)來(lái)解決決策任務(wù),其重點(diǎn)是在探索未知領(lǐng)域和開(kāi)發(fā)現(xiàn)有知識(shí)之間找到平衡,涉及智能代理應(yīng)如何在環(huán)境中采取行動(dòng),以最大限度地提高累積獎(jiǎng)勵(lì)。

        強(qiáng)化學(xué)習(xí)已在電子游戲、平流層飛行氣球和設(shè)計(jì)硬件芯片等復(fù)雜的任務(wù)上取得了可觀的實(shí)驗(yàn)結(jié)果。然而,谷歌認(rèn)為現(xiàn)行的強(qiáng)化學(xué)習(xí)經(jīng)驗(yàn)評(píng)估標(biāo)準(zhǔn)越來(lái)越表現(xiàn)出一些問(wèn)題,可能會(huì)給人一種機(jī)器學(xué)習(xí)在快速進(jìn)步的錯(cuò)覺(jué),同時(shí)會(huì)減慢強(qiáng)化學(xué)習(xí)領(lǐng)域的發(fā)展速度。

        針對(duì)這個(gè)問(wèn)題,谷歌在NeurIPS 2021上的一份口頭報(bào)告《基于統(tǒng)計(jì)邊緣的深度化學(xué)習(xí)》中,深入探討了如何在只使用少量訓(xùn)練的情況下,考慮結(jié)果的統(tǒng)計(jì)不確定性,并使深度強(qiáng)化學(xué)習(xí)的評(píng)估更可靠。

        谷歌提出了一個(gè)更嚴(yán)格的強(qiáng)化學(xué)習(xí)評(píng)估方法,并發(fā)布了多種統(tǒng)計(jì)工具,包括分層引導(dǎo)置信區(qū)間、性能概況、四分位數(shù)均值和最優(yōu)性差距, 同時(shí)還發(fā)布了一個(gè)開(kāi)放源碼庫(kù)RLiable。

        強(qiáng)化學(xué)習(xí)中的經(jīng)驗(yàn)研究依賴(lài)于評(píng)估一系列不同任務(wù)的表現(xiàn),例如,使用Atari 100k游戲來(lái)評(píng)估進(jìn)展。大多數(shù)深度強(qiáng)化學(xué)習(xí)算法是以比較海量任務(wù)上的相對(duì)性能進(jìn)行評(píng)估的,它們得出的結(jié)果比較了總體表現(xiàn)的點(diǎn)估計(jì)值,如任務(wù)的平均值和中位數(shù)。

        但不同訓(xùn)練運(yùn)行的得分具有隨機(jī)性,因此只報(bào)告點(diǎn)估計(jì)值并不能表明新的獨(dú)立運(yùn)行也會(huì)得到相似的結(jié)果。少量的訓(xùn)練運(yùn)行,再加上深度強(qiáng)化學(xué)習(xí)算法性能的高可變性,往往導(dǎo)致此類(lèi)點(diǎn)估計(jì)的統(tǒng)計(jì)不確定性很大。

        隨著基準(zhǔn)測(cè)試逐漸復(fù)雜,任務(wù)的解決需要更多的計(jì)算和數(shù)據(jù),對(duì)多次運(yùn)行的評(píng)估將變得越來(lái)越困難。

        因此,要想減小在計(jì)算要求高的基準(zhǔn)上的統(tǒng)計(jì)不確定性,評(píng)估更多的運(yùn)行不是一個(gè)可行的解決方案。

        雖然以前將統(tǒng)計(jì)顯著性測(cè)試作為一種解決辦法, 但這種測(cè)試本質(zhì)上是“ 二分法”的, 也就是要么“ 顯著” , 要么“ 不顯著”,而簡(jiǎn)單地認(rèn)為不顯著的結(jié)果表明“沒(méi)有關(guān)聯(lián)”是毫無(wú)根據(jù)的,它們通常缺乏產(chǎn)生有意義的見(jiàn)解所需的“粒度”。

        下面簡(jiǎn)單介紹下谷歌對(duì)強(qiáng)化學(xué)習(xí)進(jìn)行更可靠評(píng)估所使用的工具。

        任何基于有限次數(shù)運(yùn)行的綜合指標(biāo)都是一個(gè)隨機(jī)變量??紤]到這一點(diǎn),谷歌建議使用報(bào)告分層的引導(dǎo)置信區(qū)間。這能夠預(yù)測(cè)在不同運(yùn)行中重復(fù)同一個(gè)實(shí)驗(yàn)時(shí)可能出現(xiàn)的聚合度量值。

        在統(tǒng)計(jì)中,CIs是未知參數(shù)的一系列估計(jì)值,它可使我們理解結(jié)果的統(tǒng)計(jì)不確定性和再現(xiàn)性。

        例如,在Atari 100k上對(duì)3個(gè)運(yùn)行進(jìn)行評(píng)估,每個(gè)運(yùn)行包含26個(gè)任務(wù),產(chǎn)生了78個(gè)用于不確定性評(píng)估的樣本分?jǐn)?shù)。在每個(gè)任務(wù)中,彩色球表示不同運(yùn)行時(shí)的得分。

        大多數(shù)深度強(qiáng)化學(xué)習(xí)算法在某些任務(wù)和訓(xùn)練運(yùn)行中表現(xiàn)得更好,但是總體性能度量標(biāo)準(zhǔn)可能會(huì)掩蓋這種變化,可參見(jiàn)下圖。

        谷歌對(duì)此推薦使用性能配置文件,其通常用于比較優(yōu)化軟件的解決時(shí)間。使用這些配置文件可以一目了然地對(duì)分?jǐn)?shù)進(jìn)行定性比較,當(dāng)一個(gè)算法的曲線高于另一個(gè)算法時(shí),就意味著這個(gè)算法要更好。

        盡管性能配置文件對(duì)定性比較有用,但在算法方面卻稍遜一籌,以致它們的圖像經(jīng)常相交。因此,為了更好地進(jìn)行定量比較,需要總體性能指標(biāo)。

        然而, 現(xiàn)有的度量標(biāo)準(zhǔn)存在一些局限性,比如,單個(gè)高績(jī)效任務(wù)可能支配任務(wù)平均得分;近一半任務(wù)的中位數(shù)不受零得分的影響,并且在較小的統(tǒng)計(jì)不確定性下需要大量的訓(xùn)練運(yùn)行。

        為了解決上述問(wèn)題,谷歌想了兩個(gè)基于穩(wěn)健統(tǒng)計(jì)學(xué)的替代方案,四分位數(shù)均值和最優(yōu)性差距,兩者表示的區(qū)域如下圖所示。

        作為中位數(shù)和平均數(shù)的替代,四分位數(shù)均值對(duì)應(yīng)于所有任務(wù)中50%的運(yùn)行總和的平均得分。它對(duì)異常值比平均值更有效,是比中位數(shù)更好的總體性能指標(biāo),并且導(dǎo)致較小的CIs,也需要較少的運(yùn)行來(lái)改進(jìn)。平均數(shù)的另一種替代方法最優(yōu)性差距,測(cè)量的是算法達(dá)到最優(yōu)性能的距離。

        為了直接比較兩種算法,還需要考慮一個(gè)改進(jìn)的平均概率指標(biāo),這個(gè)指標(biāo)描述了改進(jìn)超過(guò)基線的可能性,其計(jì)算使用的是曼—惠特尼U統(tǒng)計(jì)。

        運(yùn)用上述評(píng)估工具,谷歌在對(duì)現(xiàn)有廣泛用于強(qiáng)化學(xué)習(xí)的算法進(jìn)行重新審查,還發(fā)現(xiàn)這些評(píng)估算法中有一些自相矛盾的地方。例如, 在廣泛認(rèn)可的強(qiáng)化學(xué)習(xí)基準(zhǔn)Arcad eLearning Environment(ALE)中,算法的性能排名隨聚合度量的選擇而變化。而在連續(xù)控制基準(zhǔn)DM Control中,大多數(shù)算法的平均標(biāo)準(zhǔn)化分?jǐn)?shù)在95%的CIs中存在大量重疊。

        最后,谷歌希望研究人員能夠通過(guò)開(kāi)源庫(kù)RLiable整合這些評(píng)估工具,以避免不可靠結(jié)果對(duì)強(qiáng)化學(xué)習(xí)的影響。

        猜你喜歡
        最優(yōu)性配置文件中位數(shù)
        提示用戶(hù)配置文件錯(cuò)誤 這樣解決
        二維Mindlin-Timoshenko板系統(tǒng)的穩(wěn)定性與最優(yōu)性
        DC復(fù)合優(yōu)化問(wèn)題的最優(yōu)性條件
        不確定凸優(yōu)化問(wèn)題魯棒近似解的最優(yōu)性
        搭建簡(jiǎn)單的Kubernetes集群
        互不干涉混用Chromium Edge
        忘記ESXi主機(jī)root密碼怎么辦
        中位數(shù)計(jì)算公式及數(shù)學(xué)性質(zhì)的新認(rèn)識(shí)
        2015年中考數(shù)學(xué)模擬試題(五)
        2015年中考數(shù)學(xué)模擬試題(二)
        欧美另类人妖| 亚洲色精品三区二区一区| 丁香五月缴情在线| 97人伦色伦成人免费视频| 少妇性荡欲视频| 日本少妇人妻xxxxx18| 91呻吟丰满娇喘国产区| 中文字幕一区二区三区精彩视频| 少妇太爽了在线观看免费视频| 亚洲AV成人无码国产一区二区| 亚洲色欲色欲欲www在线| 白色白色在线视频播放平台| 久久精品亚洲国产av网站| 国产精品一区二区三久久不卡 | 男女搞黄在线观看视频| 亚洲中文字幕一区精品| 青青草骚视频在线观看| 久久97久久97精品免视看 | 午夜亚洲www湿好爽| 欧洲综合色| 精品丝袜国产在线播放| 国产精品视频白浆免费视频| 人妻丰满熟妇aⅴ无码| 欧美人与禽z0zo牲伦交| 97超级碰碰人妻中文字幕| 亚洲av成人一区二区三区网址 | 中文字幕亚洲综合久久| 亚洲精品国偷自产在线99正片| 亚洲国产午夜精品乱码| 无码流畅无码福利午夜| 一区二区三区亚洲免费| 精品精品久久宅男的天堂| 又色又爽又高潮免费视频观看| 免费人成视频x8x8| 99在线视频精品费观看视| 婷婷色在线视频中文字幕| 亚洲一区二区三区日韩在线观看| 又粗又硬又大又爽免费视频播放| 国产成人精品成人a在线观看| 人妻av一区二区三区av免费| 日本激情一区二区三区|