劉艷芳 李文斌 高 陽
1(計(jì)算機(jī)軟件新技術(shù)國家重點(diǎn)實(shí)驗(yàn)室(南京大學(xué)) 南京 210023) 2(龍巖學(xué)院數(shù)學(xué)與信息工程學(xué)院 福建龍巖 364012)
在線學(xué)習(xí)[1-3]作為一種增量式的機(jī)器學(xué)習(xí)技術(shù),能夠?qū)δP瓦M(jìn)行實(shí)時(shí)增量更新,學(xué)習(xí)過程中隨時(shí)都可以使用當(dāng)前學(xué)到的模型對(duì)未知樣本進(jìn)行預(yù)測(cè),一旦對(duì)樣本處理完畢,不需要對(duì)其進(jìn)行存儲(chǔ)和再訪問.在線學(xué)習(xí)非常適用于處理大規(guī)模流數(shù)據(jù),不僅可以處理流數(shù)據(jù)帶來的樣本無限量和實(shí)時(shí)分析的挑戰(zhàn),還不依賴于樣本獨(dú)立同分布的假設(shè)[4-5].正因?yàn)槿绱?,此研究領(lǐng)域得到快速發(fā)展,涌現(xiàn)出豐富的算法.
在線梯度下降(online gradient descent, OGD)[6]是最簡單也是最流行的一階在線學(xué)習(xí)方法,在學(xué)習(xí)的每一輪總是沿著瞬時(shí)損失函數(shù)的負(fù)梯度方向修正模型,然后再將修正后的模型投影到可行域內(nèi).被動(dòng)-主動(dòng)算法(passive-aggressive learning, PA)[7]采用了OGD中根據(jù)瞬時(shí)損失函數(shù)的負(fù)梯度方向更新模型,同時(shí),在學(xué)習(xí)過程中考慮了預(yù)測(cè)的置信水平,即樣本到當(dāng)前決策邊界的間距,更新模型時(shí)每個(gè)樣本上的學(xué)習(xí)步長與該樣本被分類的置信水平相關(guān).作為PA的一種拓展算法,置信度加權(quán)學(xué)習(xí)(confidence-weighted, CW)[8-9]是一個(gè)二階在線學(xué)習(xí)方法,不僅使用了瞬時(shí)損失函數(shù)的函數(shù)值和次梯度信息,還使用了瞬時(shí)損失函數(shù)的二階導(dǎo)數(shù)信息,即Hessian矩陣信息.自適應(yīng)權(quán)重正則化方法(adaptive regularization of weights, AROW)[10]將CW算法中的約束放松,轉(zhuǎn)換為正則化項(xiàng)加到KL散度函數(shù)中,從而算法在每次學(xué)習(xí)中只需求解一個(gè)無約束的優(yōu)化問題,從而提高了對(duì)噪聲的魯棒性.
然而,已有的在線學(xué)習(xí)往往假設(shè)每個(gè)流數(shù)據(jù)擁有相同且固定不變的特征空間.在實(shí)際應(yīng)用中,流數(shù)據(jù)的特征空間往往是隨時(shí)間變化的,具有動(dòng)態(tài)性和未知性.因此,梯形特征空間的在線學(xué)習(xí)、演化特征空間的在線學(xué)習(xí)和任意特征空間的在線學(xué)習(xí)被相繼提出和研究.
梯形特征空間(trapezoidal feature space)[11]是隨著數(shù)據(jù)的到來特征空間呈遞增狀態(tài),同時(shí)滿足新到來的樣本中至少擁有前一個(gè)樣本的特征空間.例如,在文本分類和聚類中的無限詞匯主題模型[12],文檔和文本詞匯的數(shù)量都隨著時(shí)間的推移而增加,從而需要更新模型以便捕獲新增加術(shù)語的重要性.稀疏梯形流數(shù)據(jù)學(xué)習(xí)(sparse trapezoidal streaming data, STSD)[11,13],將特征空間分為2部分:已有特征(existing features)和新特征(new features),根據(jù)PA的原則,如果預(yù)測(cè)錯(cuò)誤則更新分類器,使得損失最小化,并且接近當(dāng)前的分類器;如果在學(xué)習(xí)過程中出現(xiàn)了新的特征,也根據(jù)結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則更新新特征對(duì)應(yīng)的分類器權(quán)值.
在現(xiàn)實(shí)應(yīng)用中,原有的特征空間(又稱舊特征集)消失,新的特征空間出現(xiàn),這種現(xiàn)象稱為特征演化,即演化特征空間(evolvable feature space)[14].例如,已有傳感器因?yàn)殡姵貕勖⒂布p壞等原因被新的傳感器取代,傳感器收集的數(shù)據(jù)特征將發(fā)生變化.假設(shè)傳感器電池用完的時(shí)間是可以預(yù)先知道的,則通常會(huì)在舊傳感器用完之前放置一組新的傳感器,因此就會(huì)有重疊時(shí)間段:舊特征集和新特征集共同存在.那么如何利用重疊周期挖掘新舊特征之間的關(guān)系,并且在只有新特征可用的情況下如何利用舊特征學(xué)習(xí)的模型?特征演化流學(xué)習(xí)(feature evolvable streaming learning, FESL)[14-15]運(yùn)用OGD作為模型更新策略,通過重疊時(shí)期的樣本來學(xué)習(xí)新特征到舊特征的映射,即從新特征中重建出舊特征,從而繼續(xù)利用舊特征學(xué)習(xí)的模型,進(jìn)而針對(duì)新舊模型提出了組合預(yù)測(cè)和當(dāng)前最優(yōu)預(yù)測(cè)2種集成方法.一遍增量和遞減學(xué)習(xí)(one-pass incremental and decremental learning, OPID)[16]將演化特征空間分為2個(gè)階段:壓縮階段(C-階段)和擴(kuò)展階段(E-階段),并在C-階段提出了一遍壓縮學(xué)習(xí)方法,在E-階段提出了一種新的學(xué)習(xí)方法來繼承C-階段的分類結(jié)果.在線演化度量學(xué)習(xí)(online evolving metric learning, EML)[17]在度量學(xué)習(xí)領(lǐng)域來研究演化特征空間.值得說明的是,文獻(xiàn)[16-17]處理的是沒有重疊時(shí)期但有重疊特征的情況.對(duì)于有重疊時(shí)期的特征演化空間,特征演化可能是不可預(yù)測(cè)的,這意味著特征可能會(huì)消失或任意出現(xiàn),從而導(dǎo)致重疊時(shí)期參差不齊.為了解決這個(gè)問題,具有不可預(yù)測(cè)特征演化的預(yù)測(cè)學(xué)習(xí)(prediction with unpredictable feature evolution, PUFE)[18]通過矩陣補(bǔ)全的方法來修補(bǔ)重疊時(shí)期的特征.同時(shí),在演化特征空間中,數(shù)據(jù)分布有可能發(fā)生變化,針對(duì)這個(gè)問題,特征和分布演化流學(xué)習(xí)(feature and distribution evolving stream learning, FDESL)[19]提出了一種針對(duì)特征空間和數(shù)據(jù)分布均發(fā)生變化的數(shù)據(jù)差異度量方法——演化差異(evolving discrepancy),并給出了良好的理論保證,特別是對(duì)泛化性能的理論保證.已有的演化特征學(xué)習(xí)中往往假設(shè)每個(gè)樣本預(yù)測(cè)后都會(huì)揭示其真實(shí)的類別標(biāo)簽,而在實(shí)際應(yīng)用中這個(gè)假設(shè)大都不滿足,因?yàn)榇蠖鄶?shù)樣本是沒有類別標(biāo)簽的,同時(shí)人工標(biāo)注類別標(biāo)簽是非常耗時(shí)且昂貴.為了解決這一問題,適宜存儲(chǔ)的演化特征學(xué)習(xí)(storage-fit feature-evolvable streaming learning, SF2EL)[20]運(yùn)用流形正則化技術(shù),利用以往相似的數(shù)據(jù),協(xié)助改進(jìn)在線模型.
現(xiàn)有的在線學(xué)習(xí)方法假設(shè)的固定特征空間、梯形特征空間和演化特征空間都遵循著明確的規(guī)律而變化,這都限制了在動(dòng)態(tài)環(huán)境中的適用性,因?yàn)樵趧?dòng)態(tài)環(huán)境中流數(shù)據(jù)的特征空間是反復(fù)無常、任意變化的,即任意特征空間(capricious feature space)[21].基于任意特征流的在線學(xué)習(xí)(online learning from capricious data streams, OCDS)[21-22]在全局性的特征空間上提出了一個(gè)生成圖模型(generative graphical model)來建立已有特征和新特征的關(guān)系,使在已有特征空間上學(xué)習(xí)的模型可以應(yīng)用到新特征空間.與此同時(shí),基于多樣化特征空間的在線學(xué)習(xí)(online learning from varying feature spaces, OLVF)[23]對(duì)樣本和特征空間分別進(jìn)行分類,其中,為了對(duì)樣本進(jìn)行分類,動(dòng)態(tài)地將樣本分類器和訓(xùn)練集投影到它們的共享特征子空間上,特征空間分類器預(yù)測(cè)給定特征空間的投影置信度,最后,樣本分類器根據(jù)投影置信度對(duì)約束強(qiáng)度進(jìn)行縮放,進(jìn)而根據(jù)經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化原則進(jìn)行分類器更新.
無論是固定特征空間、梯形特征空間、演化特征空間,還是任意特征空間,在現(xiàn)實(shí)應(yīng)用中均有對(duì)應(yīng)的應(yīng)用場(chǎng)景.因此,基于這4種類型的在線學(xué)習(xí)方法研究均具有很大的應(yīng)用意義.
在本文中,我們將重點(diǎn)放在演化特征空間的在線學(xué)習(xí)方法研究上.文獻(xiàn)[14-15]提出的特征演化流學(xué)習(xí)(FESL)算法運(yùn)用了最簡單的OGD作為模型更新策略,同時(shí),在新舊特征重疊階段只研究了重建舊特征.本文提出了一種基于被動(dòng)-主動(dòng)更新策略的特征演化學(xué)習(xí)算法(passive-aggressive learning with feature evolvable streams, PAFE).該算法采用了PA作為模型更新策略,其中,PA在學(xué)習(xí)過程中不僅采用了OGD中根據(jù)瞬時(shí)損失函數(shù)的負(fù)梯度方向更新模型,同時(shí)考慮了與樣本相關(guān)的置信水平.在新舊特征重疊階段,本文不僅從新特征重建了舊特征,同時(shí)從舊特征表示了新特征,為新特征的模型學(xué)習(xí)提供了合理的模型初始化.繼而該算法從新特征空間和被恢復(fù)的舊特征空間中學(xué)習(xí)了2個(gè)基模型,并研究了2種集成算法:組合預(yù)測(cè)和當(dāng)前最優(yōu)預(yù)測(cè).最后,在合成數(shù)據(jù)集和真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果驗(yàn)證了所提算法的有效性.
本文主要研究演化特征空間下的在線二分類任務(wù).在每一輪的學(xué)習(xí)中,分類器會(huì)接收到一個(gè)樣本并給出預(yù)測(cè)結(jié)果,一旦給出預(yù)測(cè)結(jié)果,則揭示該樣本的真實(shí)標(biāo)簽,進(jìn)而得到分類器的瞬時(shí)損失,該損失反映了預(yù)測(cè)標(biāo)簽與真實(shí)標(biāo)簽之間的差異,根據(jù)該損失信息,算法可以改進(jìn)其分類器模型,以便在下一輪中做出更好的預(yù)測(cè).
在本文中,采用大寫粗體表示矩陣,小寫粗體表示向量.其中,對(duì)于任意的矩陣M∈d×n,矩陣的轉(zhuǎn)置表示為MT.對(duì)于任意的方陣A∈n×n,可逆矩陣表示為A-1.表示向量v∈d的2-范數(shù),向量v的轉(zhuǎn)置表示vT.
用(xt,yt)表示每輪接收到的數(shù)據(jù)實(shí)例,其中xt∈d是具有d維特征空間的樣本,yt∈{-1,+1}是其對(duì)應(yīng)的真實(shí)標(biāo)簽.PA算法[7]將預(yù)測(cè)模型約束為線性模型wt∈d,通過預(yù)測(cè)當(dāng)前樣本的標(biāo)簽,表示為與樣本相關(guān)的置信度,并采用hinge損失作為損失函數(shù),即(wTx,y)=max(0,1-ywTx).PA算法的目標(biāo)函數(shù)具體為
(1)
其中,ξ≥0是松弛變量,(ft,yt)≤ξ,且C≥0是平衡松弛項(xiàng)對(duì)目標(biāo)函數(shù)的影響.式(1)擁有閉式解:
wt+1=wt+τtytxt,
(2)
Fig. 1 Illustration that how data stream comes圖1 演化流數(shù)據(jù)產(chǎn)生過程說明圖
演化特征空間表現(xiàn)為原有的特征空間消失,新的特征空間出現(xiàn),也就是說每一個(gè)周期過程中僅包含2個(gè)特征空間,因此,我們只需要關(guān)注一個(gè)周期,就很容易拓展到很多周期的情況.圖1展現(xiàn)了文獻(xiàn)[15]中給出的一個(gè)周期內(nèi)的演化流數(shù)據(jù)產(chǎn)生過程,可以總結(jié)如下:
將PA算法應(yīng)用到演化特征空間中,則有:
(3)
在本節(jié)中,我們首先介紹所提基于PA更新策略的特征演化學(xué)習(xí)算法PAFE的基本思想,然后引入到2個(gè)集成方法中.
基于演化特征空間的在線學(xué)習(xí)主要局限性[14-15]是在新特征空間S2的情況下,無法再接收具有特征空間S1的數(shù)據(jù),從而會(huì)忽略S1中已經(jīng)學(xué)習(xí)得到的模型,同時(shí),忽略了已學(xué)到的模型對(duì)S2中模型的初始化.為了解決這個(gè)問題,假設(shè)新舊特征空間存在2種映射關(guān)系φ:d2→d1,ψ:d1→d2,即其中,來恢復(fù)S1中的數(shù)據(jù),d2用S1來模擬S2中的數(shù)據(jù),M1,M2是線性映射的系數(shù)矩陣.我們繼續(xù)沿用文獻(xiàn)[14-15]中提出的線性映射來近似這2種關(guān)系.則在新舊特征重疊時(shí)刻T1-B+1,T1-B+2,…,T1有:
(4)
(5)
式(4)和(5)的最優(yōu)解為
(6)
(7)
① 初始化:隨機(jī)初始化w1,1∈d1,A1=A2=B1=B2=0;
② fort=1:T1
⑤ 揭示樣本真實(shí)標(biāo)簽:yt∈{-1,+1};
⑧ 用式(3)更新模型;
⑨ end if
⑩ ift>T1-B
組合預(yù)測(cè)即在第t輪的預(yù)測(cè)是基模型預(yù)測(cè)的加權(quán)平均值,如式(8)所示:
pt=a1,tf1,t+a2,tf2,t,
(8)
其中,ai,t是第i個(gè)基模型預(yù)測(cè)的權(quán)重.權(quán)重的更新如式(9)所示:
ai,t+1=vi,t/(v1,t+v2,t),i=1,2,
(9)
其中,vi,t=ai,te-η (fi,t,yt),且具體來說,當(dāng)時(shí),定理1[14-15]給出了組合預(yù)測(cè)的損失界限,繼而說明在舊特征空間的幫助下性能將得到改善.首先,我們給出在T1+1,T1+2,…,T1+T2階段中的3種累積損失LS1,LS2,LS12,其中是2個(gè)基模型下的累積損失,是組合預(yù)測(cè)模型下的累積損失.
關(guān)于基模型的組合預(yù)測(cè)具體過程如算法2所示.
算法2.組合預(yù)測(cè)(PAFE-c).
① 初始化:a1,T1=a2,T1=1/2,η=(8(ln 2)/T2)1/2;
④w1,T1+1=w1,T1;
⑥ fort=T1+1:T1+T2
⑨ 用式(8)計(jì)算pt;
⑩ 揭示樣本真實(shí)標(biāo)簽:yt∈{-1,+1};
通常情況下,組合預(yù)測(cè)比只選擇一個(gè)基模型的效果好[24],但要求每個(gè)基模型的性能不能太差[25].而在PAFE問題中w1,t在特征空間S2下可能會(huì)變得越來越差.因此,本文引用另一個(gè)集成方法:當(dāng)前最優(yōu)預(yù)測(cè)[14-15],它以較高的概率選擇權(quán)重較大的基模型.我們通過權(quán)重的分布來選擇當(dāng)前最優(yōu)的基模型,具體表示為
ui,t+1=ai,t/(a1,t+a2,t),i=1,2.
(10)
權(quán)重的更新如式(11)所示:
ai,t+1=δΔt/2+(1-δ)vi,t,i=1,2,
(11)
其中,H(x)=-xlnx-(1-x)ln(1-x)是在x∈(0,1)下的熵函數(shù),η=(8/T2(2ln 2+(T2-1)H(1/(T2-1))))1/2,vi,t=ai,te-η (fi,t,yt),i=1,2,Δt=v1,t+v2,t,δ=1/(T2-1).為了從理論上保證所提算法當(dāng)前最優(yōu)預(yù)測(cè)的性能,定理2[14-15]給出了其累積損失的上界.
定理2[14-15].對(duì)于T2>1,在t=T1+1,T1+2,…,T1+T2下,當(dāng)η=(8/T2(2ln 2+(T2-1)H(1/(T2-1))))1/2,δ=1/(T2-1),則當(dāng)前最優(yōu)預(yù)測(cè)模型下的累積損失LS12滿足如下性質(zhì):
選擇當(dāng)前最優(yōu)預(yù)測(cè)的過程具體如算法3所示.
算法3.當(dāng)前最優(yōu)預(yù)測(cè)(PAFE-s).
① 初始化:a1,T1=a2,T1=1/2,η=(8/T2(2ln 2+(T2-1)H(1/(T2-1))))1/2;
④w1,T1+1=w1,T1;
⑥ fort=T1+1:T1+T2
⑨ 用式(10)選擇當(dāng)前最優(yōu)模型wi,t;
⑩ 計(jì)算:pt=fi,t;
本節(jié)我們首先介紹對(duì)比算法,其次給出實(shí)驗(yàn)數(shù)據(jù)集并分析其結(jié)果.
我們將本文所提算法PAFE-c,PAFE-s和過程中產(chǎn)生的4個(gè)算法進(jìn)行對(duì)比,同時(shí)與文獻(xiàn)[15]中所提算法FESL-c,FESL-s進(jìn)行對(duì)比,并和其過程中涉及的3個(gè)算法進(jìn)行對(duì)比.值得說明的是,對(duì)比的時(shí)間段為在舊特征空間已經(jīng)消失,新特征空間出現(xiàn)到消失,即被最新特征空間出現(xiàn)之前.
① NOGD[15].只考慮新特征空間的模型通過OGD進(jìn)行更新;
② ROGD-u[15].通過線性映射,得到舊特征空間,進(jìn)而繼續(xù)用OGD更新原有舊特征空間學(xué)習(xí)到的模型;
③ ROGD-f[15].盡管通過新特征空間恢復(fù)得到舊特征空間,但用已經(jīng)學(xué)習(xí)到的舊模型,且不再更新;
④ FESL-c[15].2個(gè)基模型NOGD和ROGD-u的組合預(yù)測(cè);
⑤ FESL-s[15].2個(gè)基模型NOGD和ROGD-u的選擇當(dāng)前最優(yōu)預(yù)測(cè);
⑥ NPA-r.只考慮新特征空間的模型通過PA進(jìn)行更新,模型的初始化為隨機(jī)數(shù)值;
⑦ NPA-d.盡管只考慮新特征空間的模型通過PA進(jìn)行更新,但模型的初始化是通過重疊時(shí)刻舊特征到新特征的映射得到的;
⑧ RPA-u.通過恢復(fù)得到舊特征空間,繼續(xù)用PA更新原有舊特征空間已學(xué)習(xí)到的模型;
⑨ RPA-f.舊特征空間已學(xué)到的模型不再更新,直接應(yīng)用至恢復(fù)的舊特征空間;
⑩ PAFE-c.2個(gè)基模型NPA-d和RPA-u的組合預(yù)測(cè);
實(shí)驗(yàn)選用了和文獻(xiàn)[15]中相同的24個(gè)二分類數(shù)據(jù)集,包含8個(gè)合成數(shù)據(jù)集和16個(gè)來自Reuters的數(shù)據(jù)集(1)http://www.lamda.nju.edu.cn/code_FESL.ashx,其中,合成數(shù)據(jù)集是通過隨機(jī)高斯矩陣將原始數(shù)據(jù)集人為地映射到另一個(gè)特征空間,然后獲得來自特征空間S1和S2的數(shù)據(jù);Reuters的每個(gè)數(shù)據(jù)集都有2個(gè)視圖,分別代表2種不同的語言,將2個(gè)視圖視為2個(gè)特征空間.24個(gè)數(shù)據(jù)集的詳細(xì)信息如表1所示,其中,前4行的數(shù)據(jù)集是合成數(shù)據(jù)集,剩余8行的數(shù)據(jù)集是來自Reuters的數(shù)據(jù)集.
Table 1 Detail Description of Datasets
我們將本文所提算法與文獻(xiàn)[15]中所提算法進(jìn)行對(duì)比,其中文獻(xiàn)[15]所提算法的結(jié)果是直接使用文獻(xiàn)中的結(jié)果.因此,為了算法對(duì)比的公平性,本文中設(shè)置的和文獻(xiàn)[15]中的設(shè)置是一樣的:對(duì)于合成數(shù)據(jù)集,所有算法的分類精度是通過10次獨(dú)立運(yùn)行的平均結(jié)果得出的,重疊時(shí)刻B的大小設(shè)置為5或者10,新舊特征空間的交替時(shí)刻T1和T2均設(shè)置為樣本個(gè)數(shù)的二分之一.本文所提算法PAFE-c,PAFE-s中的超參C設(shè)置如下:
① Australian,Credit-g,German:C=0.02;
② Credit-a,Svmguide3:C=0.05;
③ Diabetes:C=0.09;
④ Kr-vs-kp,Splice:C=0.005.
表2給出了在合成數(shù)據(jù)集上所有對(duì)比算法的分類精度,其中,表2用“·”標(biāo)記每個(gè)網(wǎng)格中較好的結(jié)果,用粗體標(biāo)注最好的結(jié)果.
Table 2 Accuracy of the Compared Algorithms on Synthetic Datasets表2 在合成數(shù)據(jù)集上所有對(duì)比算法的分類精度對(duì)比
從表2可以看出,所提算法PAFE-c和PAFE-s均在5個(gè)數(shù)據(jù)集上優(yōu)于其他對(duì)比算法,尤其是在Kr-vs-kp數(shù)據(jù)集上,分類精度比FESL-c和FESL-s高出0.102,而在數(shù)據(jù)集Credit-g和Splice上,F(xiàn)ESL-c和FESL-s僅比本文所提算法高出0.008以內(nèi).NPA-d是用了舊特征空間已學(xué)到的模型進(jìn)行初始化,所以分類精度比NPA-r的高,甚至高出0.105.同時(shí),用恢復(fù)的舊特征空間繼續(xù)更新的模型RPA-u的分類精度比RPA-f的高.然而,NOGD在6個(gè)數(shù)據(jù)集上的效果優(yōu)于NPA-d,而RPA-u/RPA-f在6個(gè)數(shù)據(jù)集上的效果優(yōu)于ROGD-u/ROGD-f,這個(gè)現(xiàn)象說明了PA更新策略更適合于數(shù)量較多的流數(shù)據(jù).
對(duì)于數(shù)據(jù)規(guī)模較大的Reuters數(shù)據(jù)集,所有算法的分類精度是通過3次獨(dú)立運(yùn)行的平均結(jié)果得出的,重疊時(shí)刻B的大小均設(shè)置為50,新舊特征空間的交替時(shí)刻T1和T2也設(shè)置為樣本個(gè)數(shù)的二分之一.本文所提算法PAFE-c,PAFE-s中的超參C設(shè)置如下:
① r.EN-FR,r.EN-GR,r.EN-IT,r.EN-SP,r.FR-IT,r.FR-SP,r.IT-FR,r.IT-SP:C=10-3;
② 剩余的8個(gè)Reuters數(shù)據(jù)集:C=10-4.
表3給出了在Reuters數(shù)據(jù)集上所有對(duì)比算法的分類精度,其中,表3用“·”標(biāo)記每個(gè)網(wǎng)格中較好的結(jié)果,用粗體標(biāo)注最好的結(jié)果.從表3可以看出,所提算法PAFE-s在15個(gè)數(shù)據(jù)集上優(yōu)于其他對(duì)比算法,PAFE-c的分類精度均不高于PAFE-s,但在14個(gè)數(shù)據(jù)上優(yōu)于其他對(duì)比算法.基本與表2的結(jié)果一致,RPA-u的分類精度比RPA-f的高,而NPA-d在大部分Reuters數(shù)據(jù)集上的分類精度比NPA-r僅高出0.005以內(nèi),這說明隨著流數(shù)據(jù)的增多,模型的初始值對(duì)基于PA策略的模型更新影響越小.與表2表現(xiàn)不同的是,NPA-d在15個(gè)數(shù)據(jù)集上的效果優(yōu)于NOGD,而ROGD-u在11個(gè)數(shù)據(jù)集上的效果優(yōu)于RPA-u,這個(gè)現(xiàn)象再次驗(yàn)證了PA更新策略更適合演化特征空間中的模型學(xué)習(xí).表3給出了在Reuters數(shù)據(jù)集上所有對(duì)比算法的分類精度.從表3可以看出,所提算法PAFE-s在15個(gè)數(shù)據(jù)集上優(yōu)于其他對(duì)比算法,PAFE-c的分類精度均不高于PAFE-s,但在14個(gè)數(shù)據(jù)上優(yōu)于其他對(duì)比算法.基本與表2的結(jié)果一致,RPA-u的分類精度比RPA-f的高,而NPA-d在大部分Reuters數(shù)據(jù)集上的分類精度比NPA-r僅高出0.005以內(nèi),這說明隨著流數(shù)據(jù)的增多,模型的初始值對(duì)基于PA策略的模型更新影響越小.與表2表現(xiàn)不同的是,NPA-d在15個(gè)數(shù)據(jù)集上的效果優(yōu)于NOGD,而ROGD-u在11個(gè)數(shù)據(jù)集上的效果優(yōu)于RPA-u,這個(gè)現(xiàn)象再次驗(yàn)證了PA更新策略更適合演化特征空間中的模型學(xué)習(xí).
Table 3 Accuracy of the Compared Algorithms on Reuters Datasets表3 在Reuters數(shù)據(jù)集上所有對(duì)比算法的分類精度對(duì)比
圖2中(a)~(d)和(e)~(i)分別是所提算法在合成數(shù)據(jù)集和Reuters數(shù)據(jù)集上的平均累積損失趨勢(shì),且平均累積損失越小越好.從圖2可以看出,隨著到來樣本數(shù)量的增加,平均累積損失收斂到一個(gè)相對(duì)穩(wěn)定的數(shù)值.同時(shí),從圖2中的結(jié)果中可以再次驗(yàn)證如下結(jié)論:1)在合成數(shù)據(jù)集上NPA-d的趨勢(shì)是迅速下降,而在數(shù)據(jù)規(guī)模較大的Reuters數(shù)據(jù)集上,NPA-r的下降趨勢(shì)比NPA-d更快,說明在較大的數(shù)據(jù)集上通過重疊階段的映射用已學(xué)的舊特征模型為新特征模型初始化是非常有意義的.2)基于PA更新策略的演化特征空間學(xué)習(xí),在數(shù)據(jù)規(guī)模較小時(shí),組合預(yù)測(cè)PAFE-c比當(dāng)前最優(yōu)預(yù)測(cè)的下降趨勢(shì)更為明顯,相對(duì)于規(guī)模較大的數(shù)據(jù)集Reuters,當(dāng)前最優(yōu)預(yù)測(cè)PAFE-S的下降趨勢(shì)則更為明顯.
Fig. 2 The trend of loss with four baseline methods and the proposed methods on some synthetic and Reuters data圖2 4個(gè)基模型與所提算法在部分合成和Reuters數(shù)據(jù)集上的平均累積損失趨勢(shì)
本文提出了一種基于PA更新策略的特征演化學(xué)習(xí)算法(PAFE).PA在學(xué)習(xí)過程中不僅采用了OGD中根據(jù)瞬時(shí)損失函數(shù)的負(fù)梯度方向更新模型,同時(shí)考慮了與樣本相關(guān)的置信水平.尤其,在新舊特征重疊階段,本文不僅重建了舊特征,同時(shí)通過已獲得的舊特征模型來初始化新特征的模型,進(jìn)而獲得更高的算法性能.繼而從新特征空間和被恢復(fù)的舊特征空間中學(xué)習(xí)了2個(gè)基模型,并研究了2種集成算法:組合預(yù)測(cè)和當(dāng)前最優(yōu)預(yù)測(cè).實(shí)驗(yàn)表明,本文所提算法可以得到更好的分類效果.而無論本文還是文獻(xiàn)[15]都是用一階在線學(xué)習(xí)方法更新的模型,接下來可以從二階信息的角度研究演化特征空間下的學(xué)習(xí),也許可以獲得更高的分類性能或者加速平均累積損失的下降速度.