亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        優(yōu)化AUC兩遍學(xué)習(xí)算法

        2018-07-20 07:13:28欒尋高尉
        智能系統(tǒng)學(xué)報(bào) 2018年3期
        關(guān)鍵詞:二階梯度損失

        欒尋,高尉

        (南京大學(xué) 計(jì)算機(jī)軟件新技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室, 南京 210023)

        曲線ROC下的面積(簡(jiǎn)稱AUC)是機(jī)器學(xué)習(xí)中一種重要的性能評(píng)價(jià)準(zhǔn)則[1-5],廣泛應(yīng)用于類別不平衡學(xué)習(xí)、代價(jià)敏感學(xué)習(xí)、信息檢索等諸多學(xué)習(xí)任務(wù)。例如,在郵件協(xié)調(diào)過(guò)濾或人臉識(shí)別中,某些類別的數(shù)據(jù)顯著多于其他類別,而類別不平衡性比例[6]可能為106之多。對(duì)AUC的研究可以追溯至20世紀(jì)70年代的雷達(dá)信號(hào)探測(cè)分析,之后AUC被用于心理學(xué)、醫(yī)學(xué)檢測(cè)以及機(jī)器學(xué)習(xí)。直觀而言,AUC用于衡量一種學(xué)習(xí)算法將訓(xùn)練數(shù)據(jù)中正類數(shù)據(jù)排在負(fù)類數(shù)據(jù)之前的概率。

        由于AUC的廣泛實(shí)際應(yīng)用,出現(xiàn)了很多優(yōu)化AUC學(xué)習(xí)方法,如支持向量機(jī)方法[7-8]、集成學(xué)習(xí)boosting算法[9-10],以及梯度下降算法[11]。這些方法需要存儲(chǔ)整個(gè)訓(xùn)練數(shù)據(jù)集,算法在運(yùn)行時(shí)需要掃描數(shù)據(jù)多遍,因此難以解決大規(guī)模學(xué)習(xí)任務(wù)。在理論方面,AGARWAL和ROTH[12]給出了優(yōu)化AUC可學(xué)習(xí)性的充分條件和必要條件,而GAO和ZHOU[13]則根據(jù)穩(wěn)定性給出了可學(xué)習(xí)性的充要條件。

        針對(duì)大規(guī)模AUC優(yōu)化學(xué)習(xí),ZHAO等[14]于2011年提出優(yōu)化AUC的在線學(xué)習(xí)算法,該方法借助于輔助存儲(chǔ)器,隨機(jī)采取正樣本與負(fù)樣本。而輔助存儲(chǔ)器的大小與數(shù)據(jù)規(guī)模密切相關(guān),因此很難應(yīng)用于大規(guī)模數(shù)據(jù)或不斷增加的數(shù)據(jù)。為此,GAO等[3]于2013年提出優(yōu)化AUC的單遍學(xué)習(xí)方法,該算法僅需遍歷數(shù)據(jù)一次,通過(guò)存儲(chǔ)一階與二階統(tǒng)計(jì)量?jī)?yōu)化AUC學(xué)習(xí)。

        在實(shí)際應(yīng)用中,存儲(chǔ)與計(jì)算二階統(tǒng)計(jì)量依舊需要較高的存儲(chǔ)與計(jì)算開(kāi)銷。因此,本文提出了一種新的優(yōu)化AUC兩遍學(xué)習(xí)算法TPAUC (two-pass AUC optimization)。該算法遍歷數(shù)據(jù)兩遍:第一遍統(tǒng)計(jì)正負(fù)樣本均值,第二遍通過(guò)隨機(jī)梯度方法進(jìn)行優(yōu)化AUC學(xué)習(xí)。新算法只需計(jì)算與存儲(chǔ)一階統(tǒng)計(jì)量,而不需要存儲(chǔ)二階統(tǒng)計(jì)量,從而有效地提高效率,最后本文通過(guò)實(shí)驗(yàn)驗(yàn)證了該算法的有效性。

        1 TPAUC學(xué)習(xí)方法

        設(shè)示例空間 X ?Rd和 Y分別表示樣本的輸入空間和輸出空間,本文關(guān)注二分類問(wèn)題, 于是有Y={+1,?1}。 假設(shè)D表示空間 X ×Y上潛在的聯(lián)合分布。假設(shè)訓(xùn)練數(shù)據(jù)集為

        其中每個(gè)訓(xùn)練樣本是根據(jù)分布 D 獨(dú)立同分布采樣所得。進(jìn)一步假設(shè)分類器 f :X→R為一個(gè)實(shí)值函數(shù)。給定樣本S和函數(shù) f, A UC(f,S)定義為

        式中: I [·]為指示函數(shù),如果判定為真,其返回值為1,否則為0;分別表示訓(xùn)練集中正、負(fù)類樣本的樣本數(shù)。

        直接優(yōu)化AUC往往等價(jià)于NP難問(wèn)題,從而導(dǎo)致計(jì)算不可行。在實(shí)際應(yīng)用中,一種可行的方法是對(duì)優(yōu)化表達(dá)式(1)進(jìn)行一種替代損失函數(shù):

        式中 l :R→R+是一個(gè)連續(xù)的凸函數(shù),常用的函數(shù)包括指數(shù)損失函數(shù)、Hinge損失函數(shù)、Logistic損失函數(shù)等。由于損失函數(shù)定義于一對(duì)正樣本和負(fù)樣本之間,該替代函數(shù)又被稱為“成對(duì)替代損失函數(shù)(pairwise surrogate loss)”。

        借鑒于優(yōu)化AUC單遍學(xué)習(xí)算法[3],本文采用最小二乘損失函數(shù),即在式(2)中有

        為簡(jiǎn)潔起見(jiàn),不妨假設(shè)樣本總數(shù)為 T,其中正樣本數(shù)為 T+, 負(fù)樣本數(shù)為 T?,以及設(shè)優(yōu)化函數(shù)為

        設(shè)正、負(fù)樣例的協(xié)方差矩陣分別為

        以及設(shè)正樣例與負(fù)樣例的均值分別為

        因此表達(dá)式 L (w)可以進(jìn)一步化簡(jiǎn)、分解為

        當(dāng) yt=1時(shí),有

        當(dāng) yt=?1時(shí),有

        考慮在損失函數(shù)中加入正則項(xiàng),以防止模型過(guò)擬合。本文采用隨機(jī)梯度下降方法[15-19],因此

        只需得到關(guān)于 wt?1的梯度表達(dá)式,而梯度只需對(duì)式(3)中 Lt(w)表達(dá)式直接求導(dǎo)可得。

        本文方法的基本流程可以分為兩步:第1步遍歷數(shù)據(jù),統(tǒng)計(jì)正樣本和負(fù)樣本均值和;第2步遍歷將利用數(shù)據(jù)的均值計(jì)算得到梯度, 然后利用隨機(jī)梯度下降法更新 w而完成優(yōu)化AUC的學(xué)習(xí),并在實(shí)驗(yàn)中取得很好的效果。

        2 實(shí)驗(yàn)驗(yàn)證

        本文將在標(biāo)準(zhǔn)真實(shí)數(shù)據(jù)集和高維數(shù)據(jù)集實(shí)驗(yàn)驗(yàn)證所提方法的有效性,其中8個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集分別為diabetes、fourclass、german、splice、usps、letter、magic04、a9a。數(shù)據(jù)集中樣本數(shù)量從768~32 561不等,樣本維度的范圍從8~256。所有數(shù)據(jù)集的特征都被規(guī)范到[-1, 1],多分類問(wèn)題被轉(zhuǎn)變?yōu)閮煞诸悊?wèn)題,隨機(jī)將類別劃分成兩類。

        TPAUC算法的學(xué)習(xí)率參數(shù) η和正則化參數(shù) λ范圍都為 {2?10,2?9,2?8,···,2,4}。首先將數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集,參數(shù)的選擇通過(guò)在訓(xùn)練集上進(jìn)行五折交叉驗(yàn)證來(lái)確定。選定參數(shù)后,再在測(cè)試集上進(jìn)行5遍五折交叉驗(yàn)證,將這25次的結(jié)果取平均值作為最終的測(cè)試結(jié)果。

        本文比較了如下5種算法:

        1) OPAUC:優(yōu)化AUC單遍學(xué)習(xí)算法[3]。

        2) OAMseq:優(yōu)化AUC的在線學(xué)習(xí)算法[14]。

        3) OAMgra:優(yōu)化AUC的在線學(xué)習(xí)算法[14]。

        4) Online Uni-Exp:優(yōu)化加權(quán)單變量指數(shù)損失函數(shù)[20]。

        5) Online Uni-Squ:優(yōu)化加權(quán)單變量平方損失函數(shù)[20]。

        實(shí)驗(yàn)結(jié)果如表1所示,不難發(fā)現(xiàn),本文提出的優(yōu)化AUC兩遍學(xué)習(xí)方法TPAUC性能與OPAUC相當(dāng), 但明顯優(yōu)于 OAMseq、OAMgra、Online Uni-Exp以及Online Uni-Squ。

        本文選用8個(gè)高維稀疏數(shù)據(jù)集,分別為realsim、rcv、rcv1v2、sector、sector.lvr、news20、ecml2012、news20.b。數(shù)據(jù)集中樣本數(shù)量從9 619~456 886不等。特征維度的范圍為20 985~1 355 191。實(shí)驗(yàn)設(shè)置與標(biāo)準(zhǔn)數(shù)據(jù)集相似, 實(shí)驗(yàn)結(jié)果如表2所示。可以發(fā)現(xiàn),TPAUC算法在高維稀疏數(shù)據(jù)上與其他算法的效果具有可比性或性能更優(yōu)。

        表1 TPAUC在低維數(shù)據(jù)集上性能比較Table 1 Comparisons of TPAUC on low-dim. datasets

        表2 TPAUC在高維數(shù)據(jù)集上性能比較Table 2 Comparisons of TPAUC on high-dim. datasets

        3 結(jié)束語(yǔ)

        ROC曲線下的面積(簡(jiǎn)稱AUC)是機(jī)器學(xué)習(xí)中一種重要的性能評(píng)價(jià)準(zhǔn)則,由于AUC定義于正負(fù)樣本之間,傳統(tǒng)方法需存儲(chǔ)整個(gè)數(shù)據(jù)而不能適用于大數(shù)據(jù)。為此Gao等提出優(yōu)化AUC的單遍學(xué)習(xí)算法,該算法僅需遍歷數(shù)據(jù)一次,通過(guò)存儲(chǔ)一階與二階統(tǒng)計(jì)量來(lái)進(jìn)行優(yōu)化AUC學(xué)習(xí)。本文致力于減少二階統(tǒng)計(jì)量的計(jì)算與存儲(chǔ)開(kāi)銷,提出一種新的優(yōu)化AUC兩遍學(xué)習(xí)算法TPAUC。新提出的算法只需計(jì)算與存儲(chǔ)一階統(tǒng)計(jì)量,而不需要存儲(chǔ)二階統(tǒng)計(jì)量,從而有效地提高效率,最后本文通過(guò)實(shí)驗(yàn)驗(yàn)證了該算法的有效性。

        猜你喜歡
        二階梯度損失
        少問(wèn)一句,損失千金
        一個(gè)改進(jìn)的WYL型三項(xiàng)共軛梯度法
        胖胖損失了多少元
        一種自適應(yīng)Dai-Liao共軛梯度法
        一類二階迭代泛函微分方程的周期解
        一類二階中立隨機(jī)偏微分方程的吸引集和擬不變集
        一類扭積形式的梯度近Ricci孤立子
        玉米抽穗前倒伏怎么辦?怎么減少損失?
        二階線性微分方程的解法
        一類二階中立隨機(jī)偏微分方程的吸引集和擬不變集
        一区二区三区高清视频在线| 国产亚洲av人片在线观看| 欧美video性欧美熟妇| 无码精品a∨在线观看十八禁 | 久久久久成人精品免费播放网站| 日韩成人高清不卡av| 久久精品第九区免费观看| 久久无码字幕中文久久无码| 久久久久亚洲av成人无码| 国内精品九九久久久精品| 亚洲女同同性少妇熟女| 尤物国产一区二区三区在线观看| 蜜桃成熟时在线观看免费视频| 日夜啪啪一区二区三区| 亚洲国产一区在线二区三区| 美女高潮流白浆视频在线观看| 亚洲国产综合一区二区| 国产特级毛片aaaaaa高潮流水| 久久国产亚洲高清观看| 国产乱人伦av在线无码| 亚洲精品国产二区三区在线| 中文字幕你懂的一区二区| 国产主播性色av福利精品一区| 亚洲欧美色一区二区三区| 国产精品嫩草影院av| 99视频这里有精品| 精品一区二区三区在线观看l| 中文字幕一区二区人妻性色av| 又硬又粗进去好爽免费| 一本色道久久88综合日韩精品 | 久久天堂av综合合色| 国产剧情av麻豆香蕉精品| 久久精品中文字幕大胸| 国产农村妇女毛片精品久久久| 亚洲欧美v国产蜜芽tv| 亚洲日本精品一区二区三区 | 免费av在线视频播放| 日本xxxx色视频在线观看| 国产人在线成免费视频| 国产成人AⅤ| 亚洲国产精品日韩av专区|