呂宗磊 陳國(guó)明
(1.中國(guó)民航信息技術(shù)科研基地 天津 300300)(2.中國(guó)民航大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 天津 300300)
?
基于觀察學(xué)習(xí)的概率分布預(yù)測(cè)模型研究*
呂宗磊1,2陳國(guó)明2
(1.中國(guó)民航信息技術(shù)科研基地天津300300)(2.中國(guó)民航大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院天津300300)
論文結(jié)合松弛屬性約束和生成虛擬數(shù)據(jù)的思想,提出了基于觀察學(xué)習(xí)的概率分布預(yù)測(cè)模型。傳統(tǒng)上觀察學(xué)習(xí)主要用于單點(diǎn)預(yù)測(cè)和分類問題,論文將觀察學(xué)習(xí)機(jī)制應(yīng)用到小樣本集下的概率分布預(yù)測(cè)問題。該模型利用松弛屬性約束分離出數(shù)據(jù)子集,三次樣條插值的方法構(gòu)建基學(xué)習(xí)器,并借助虛擬數(shù)據(jù)使各基學(xué)習(xí)器達(dá)成一致。為了更好地應(yīng)用模型,給出了信任度設(shè)定方法,完善了算法的退出機(jī)制。在人工數(shù)據(jù)和UCI公共數(shù)據(jù)集的相關(guān)實(shí)驗(yàn)表明,基于觀察學(xué)習(xí)的概率分布預(yù)測(cè)模型解決了小樣本集下的概率分布預(yù)測(cè)問題,且優(yōu)化置信度后的算法具有更好的泛化能力和更高的精度。
觀察學(xué)習(xí)算法; 概率分布; 小樣本問題; 虛擬數(shù)據(jù)生成
Class NumberTP311
如何預(yù)測(cè)概率分布是機(jī)器學(xué)習(xí)領(lǐng)域中常遇到的一類問題,與單點(diǎn)預(yù)測(cè)相比,概率分布預(yù)測(cè)可以更精確地刻畫數(shù)字特征,如置信度、置信區(qū)間等。概率分布是描述隨機(jī)變量的一個(gè)有效工具,廣泛應(yīng)用于各領(lǐng)域,如雷電流幅值[1]、風(fēng)速趨勢(shì)檢測(cè)[2]、生物多聚體系統(tǒng)[3]等。通常樣本集足夠大時(shí),分組統(tǒng)計(jì)頻次可近似替代概率分布函數(shù)。然而在一些新興領(lǐng)域,數(shù)據(jù)本身不足或者獲取數(shù)據(jù)的代價(jià)過高,不可避免地在小樣本集上研究概率分布。
小樣本問題(Small Sample Size Problem,SSSP)是一個(gè)廣泛存在的問題,在人臉識(shí)別[4]、語(yǔ)音情感識(shí)別[5]和3D動(dòng)態(tài)手勢(shì)個(gè)性化交互[6]等領(lǐng)域備受關(guān)注,也是當(dāng)前學(xué)術(shù)研究熱點(diǎn)之一。許多領(lǐng)域的研究結(jié)果表明,松弛屬性約束條件[7]和生成虛擬數(shù)據(jù)[8]是克服小樣本問題的有效思路。Li Der-Chiang等綜合考慮松弛屬性約束和生成虛擬數(shù)據(jù)的方法提出了基于遺傳算法的虛擬數(shù)據(jù)生成方法[9]。Zhang Cuicui等提出了一種基于泛化學(xué)習(xí)的集成框架,該框架基于泛化分布產(chǎn)生新數(shù)據(jù)以緩解小樣本問題的影響[10]。Jang Min等提出觀察學(xué)習(xí)算法[11],該算法生成的虛擬數(shù)據(jù)既用于擴(kuò)充樣本集,又促使各學(xué)習(xí)器之間互相學(xué)習(xí)并達(dá)成一致,最終提高了算法的泛化能力。但這些方法主要針對(duì)數(shù)值預(yù)測(cè),并不能直接作用于概率分布。
為了預(yù)測(cè)小樣本集的概率分布問題,本文采用松弛屬性約束的思想擴(kuò)充有效樣本,采用改進(jìn)的三次樣條擬合的概率分布作為基學(xué)習(xí)器。將觀察學(xué)習(xí)機(jī)制拓展到概率分布集成問題上,完善了概率分布預(yù)測(cè)模型的參數(shù)設(shè)置和退出機(jī)制。
觀察學(xué)習(xí)(Observational Learning)概念最早來(lái)自于1971年Bandura的社會(huì)學(xué)習(xí)理論[12],其核心思想是觀察者可以僅通過觀察榜樣的行為而自己不需要實(shí)際模仿,就能夠在日后表現(xiàn)出新的行為。1999年Jang Min將該思想引入到集成學(xué)習(xí)領(lǐng)域并提出了觀察學(xué)習(xí)算法(Observational Learning Algorithm,OLA)[11]。OLA采用生成虛擬數(shù)據(jù)的方式模擬觀察者學(xué)習(xí)榜樣的過程,這些虛擬數(shù)據(jù)中隱含了達(dá)到學(xué)習(xí)目標(biāo)的輔助規(guī)則信息。隨后將觀察學(xué)習(xí)應(yīng)用到多儲(chǔ)層滲透率預(yù)測(cè)[13],在訓(xùn)練數(shù)據(jù)不充足的情況下仍然取得了良好的應(yīng)用效果。2002年,Jang Min在原始的觀察學(xué)習(xí)的基礎(chǔ)上,進(jìn)一步優(yōu)化了虛擬數(shù)據(jù)生成策略并分析了虛擬數(shù)據(jù)提高回歸算法泛化能力的原理。同時(shí)得出結(jié)論,OLA在集成的多樣性和平均誤差方面均優(yōu)于其他集成學(xué)習(xí)算法[14]。
觀察學(xué)習(xí)主要包括準(zhǔn)備過程(P-step)、訓(xùn)練過程(T-step)和觀察過程(O-step)。以回歸模型為例,原始的觀察學(xué)習(xí)采用BP神經(jīng)網(wǎng)絡(luò)作為其基學(xué)習(xí)器。在P-step設(shè)定學(xué)習(xí)器的數(shù)目k并采用Bootstrapping方法從數(shù)據(jù)集D中提取出相應(yīng)子集D1,D2,…,Dk。在T-step通過子集Di訓(xùn)練選定的學(xué)習(xí)器模型Li(如BP神經(jīng)網(wǎng)路);由于各個(gè)學(xué)習(xí)器并沒有強(qiáng)制要求類型相同,因此觀察學(xué)習(xí)機(jī)制也能拓展到異構(gòu)集成學(xué)習(xí)問題。在O-step,實(shí)質(zhì)是各個(gè)學(xué)習(xí)器Li提取其他學(xué)習(xí)生成虛擬數(shù)據(jù)的過程。在回歸模型中學(xué)習(xí)器先進(jìn)行“-i”集成,即不含學(xué)習(xí)器Li的組合[14]。然后在真實(shí)樣本附近增加服從正態(tài)分布的隨機(jī)數(shù),由集成后的模型生成虛擬樣本,并添加到子集Di為新一輪訓(xùn)練做準(zhǔn)備。最后不斷重復(fù)訓(xùn)練-觀察-再訓(xùn)練過程,直至結(jié)束。
原始觀察學(xué)習(xí)并沒有規(guī)定停止訓(xùn)練的條件,只是經(jīng)過充分大的訓(xùn)練次數(shù)G后,停止觀察學(xué)習(xí),將不同的新學(xué)習(xí)器按照一定比例(通常相同比例)組合成最終模型并輸出結(jié)果。其基本訓(xùn)練框架如算法1所示,其中Step1~Step3是準(zhǔn)備過程,Step4是準(zhǔn)備過程,Step5~Step6是觀察過程。
算法1觀察學(xué)習(xí)集成框架
輸入:數(shù)據(jù)集D,基學(xué)習(xí)器模型L1,L2,…,Lk輸出:最終模型LGStep1:Li,i=1,2,…,k表示集成學(xué)習(xí)框架中的k個(gè)基學(xué)習(xí)器模型。Step2:Di,i=1,2,…,k表示用bootstrapping方法從原始數(shù)據(jù)集D中抽取的子集。Step3:G表示不斷訓(xùn)練觀察的次數(shù),t=0Step4:對(duì)于每一個(gè)學(xué)習(xí)器Li,i=1,2,…,k,根據(jù)子集Di訓(xùn)練學(xué)習(xí)器Li的參數(shù)。參數(shù)由各自基學(xué)習(xí)器類型不同,形式有所不同,但在集成模型中必須有相同的目標(biāo)輸出。Step5:對(duì)于每一個(gè)學(xué)習(xí)器Li,i=1,2,…,k,虛擬數(shù)據(jù)產(chǎn)生方式如下:Lt-i=∑kj=1,j≠iβijLtj其中Ltj表示第j個(gè)學(xué)習(xí)器在第t次迭代時(shí)的模型;βij表示第j個(gè)學(xué)習(xí)器對(duì)第i個(gè)學(xué)習(xí)器的虛擬數(shù)據(jù)生成的影響因子;Lt-i表示第t次迭代后的“-i”集成的模型。第t次循環(huán)生成的虛擬數(shù)據(jù)Dti結(jié)合相應(yīng)的輸出由Lt-i根據(jù)某種虛擬數(shù)據(jù)生成策略生成本次迭代的虛擬數(shù)據(jù)Dti。Step6:更新子集Di=Di∪Dti,t=t+1Step7:如果t?G,返回Step4;否則,執(zhí)行Step8。Step8:輸出LG=∑ki=1αiLGi,算法結(jié)束。
在Jang Min工作的基礎(chǔ)上,Yu Fan等將觀察學(xué)習(xí)機(jī)制從同構(gòu)集成模型推廣到了異構(gòu)集成模型,并分析了觀察學(xué)習(xí)提高分類性能的原因[15]。陳曦等提出了一種“基于學(xué)習(xí)成果優(yōu)異度加權(quán)”的觀察學(xué)習(xí)算法,克服了機(jī)場(chǎng)噪聲監(jiān)測(cè)點(diǎn)關(guān)聯(lián)預(yù)測(cè)中小樣本引起的欠擬合問題[16]。但這些預(yù)測(cè)并不涉及對(duì)概率分布的集成。文獻(xiàn)[17]將觀察學(xué)習(xí)拓展到預(yù)測(cè)概率分布,并分析了異構(gòu)集成學(xué)習(xí)下的該概率分布預(yù)測(cè)模型同樣適用,但其置信度的設(shè)置依賴經(jīng)驗(yàn)并不通用,且多學(xué)習(xí)器退出機(jī)制理論并不完善。
小樣本集下的概率分布預(yù)測(cè)問題主要研究在一組約束條件下目標(biāo)屬性的概率分布問題。所謂小樣本并不單純指樣本總數(shù)少,而是指滿足約束條件,與研究目標(biāo)相關(guān)的有效樣本少。出現(xiàn)這種情況也容易理解:之前收集的數(shù)據(jù)并不是針對(duì)當(dāng)前研究的。因此,面對(duì)一個(gè)有效樣本少、相關(guān)數(shù)據(jù)豐富,同時(shí)存在無(wú)關(guān)數(shù)據(jù)的樣本集不可避免。針對(duì)此,提出了一種可行的概率分布預(yù)測(cè)算法。
3.1準(zhǔn)備過程
數(shù)據(jù)集是條件屬性和目標(biāo)屬性的笛卡爾積的子集,即D=A1×A2×…×As×T,其中s為條件屬性個(gè)數(shù),T為目標(biāo)屬性。條件集C是約束條件的集合,預(yù)測(cè)概率分布實(shí)質(zhì)是研究滿足特定條件集下的概率分布函數(shù)。
定義1有效集
數(shù)據(jù)集D中選擇所有滿足條件集C的記錄,其目標(biāo)屬性值構(gòu)成的集合稱為有效集,記作σC(D)。
其中有效集是多重集,允許有重復(fù)元素。例如表1數(shù)據(jù)集D在條件集C={A1=a,A2=b,A3=c}下的有效集σC(D)={2,2,4}。
表1 數(shù)據(jù)集D
當(dāng)條件集C下的有效集足夠大時(shí),采用傳統(tǒng)方法擬合概率分布函數(shù),然而有時(shí)有效集很小,無(wú)法滿足算法要求。數(shù)據(jù)集一方面有效樣本少,另一方面存在大量相關(guān)樣本,松弛屬性約束的目標(biāo)在于如何利用這些“不太有效”樣本。
松弛屬性約束的本質(zhì)是犧牲一定的精度,增強(qiáng)算法的泛化能力。以條件集C為例,同時(shí)滿足三個(gè)約束條件的樣本小于閾值ξ時(shí),可以降低要求,選取同時(shí)滿足兩個(gè)約束的樣本。以此類推,若樣本數(shù)仍然小于ξ時(shí),只選取滿足一個(gè)約束條件的樣本。逐步松弛過程如圖1所示。松弛的程度取決于原始數(shù)據(jù)集大小和閾值的選擇:當(dāng)初始數(shù)據(jù)集過小時(shí)或閾值過大,會(huì)導(dǎo)致條件集松弛為空集,此時(shí)無(wú)意義;當(dāng)初始數(shù)據(jù)充足但閾值過小時(shí),不需要松弛屬性約束,即大樣本情況下,可以采用傳統(tǒng)統(tǒng)計(jì)方法直接擬合。
圖1 逐步松弛條件集的過程
確定松弛條件集后,如何抽取數(shù)據(jù)子集是準(zhǔn)備過程的重要一步。在觀察學(xué)習(xí)的回歸模型中采用Bootstrapping的方法抽取子集,該方法認(rèn)為各個(gè)學(xué)習(xí)器本質(zhì)上是無(wú)區(qū)別的,抽取哪些樣本點(diǎn)也沒有區(qū)別,只需構(gòu)建出相應(yīng)學(xué)習(xí)器即可。然而在小樣本下的概率分布預(yù)測(cè)并不適合。這里學(xué)習(xí)器數(shù)量等于松弛屬性后新條件集的個(gè)數(shù),因而各個(gè)學(xué)習(xí)器代表的含義并不完全相同,這里抽取的子集Di設(shè)定為各自條件集下的有效集。
不同條件集下的有效集下會(huì)產(chǎn)生不同的概率分布函數(shù)。每個(gè)概率分布函數(shù)都在一定程度上代表最終概率分布,但真實(shí)的分布只有一個(gè)。也就是說,如何用多個(gè)條件分布組合出最終分布是核心問題,觀察過程將詳細(xì)介紹如何組合最終分布。
3.2訓(xùn)練過程
訓(xùn)練過程實(shí)質(zhì)是將離散的點(diǎn)集擬合出概率分布函數(shù)。這里考慮兩種情況:一種情況是根據(jù)數(shù)據(jù)背景已知這些數(shù)據(jù)的分布類型,如正態(tài)分布。然后根據(jù)最大似然原理計(jì)算未知參數(shù)。另一種情況是不知道參數(shù)類型,這種情況在新問題中更常見??紤]到多項(xiàng)式函數(shù)能夠逼近任意形式的函數(shù),因此多項(xiàng)式插值是可行的方法。
插值的方法有多種,如拉格朗日插值、分段插值等,但高次多項(xiàng)式差值容易產(chǎn)生Runge現(xiàn)象,分段線性插值不能保持光滑性。一種較理想的方式是采用三次樣條插值,既可以保持分段插值的穩(wěn)定性,又可以保證插值函數(shù)的光滑性。
式(1)為分段三次樣條插值結(jié)果,其中xi為插值點(diǎn),ai、bi、ci、di為待定系數(shù)i=0,1,…,n。
(1)
考慮到分布函數(shù)上的每一點(diǎn)都應(yīng)該為正數(shù),而標(biāo)準(zhǔn)的三次樣條插值方法無(wú)法保證插值點(diǎn)處為正數(shù)的條件下,整條曲線也為正數(shù)。為此對(duì)插值函數(shù)進(jìn)行調(diào)整,要求插值函數(shù)不僅過插值點(diǎn),而且在插值點(diǎn)的一階導(dǎo)數(shù)為零。第i段的調(diào)整結(jié)果如式(2)所示。
(2)
訓(xùn)練階段的學(xué)習(xí)器既可以是基于參數(shù)學(xué)習(xí)或基于非參數(shù)的插值函數(shù),也可以是二者混合。因此,基于觀察學(xué)習(xí)的概率分布預(yù)測(cè)模型同樣適用于異構(gòu)集成。
3.3觀察過程
觀察過程主要通過生成虛擬數(shù)據(jù),使各個(gè)概率分布逐步趨于一致。在回歸模型中,可以通過文獻(xiàn)[14]中的“-i”集成方式組合新學(xué)習(xí)器生成虛擬數(shù)據(jù);但由于概率分布模型的各個(gè)學(xué)習(xí)器代表的含義不同,因此,虛擬數(shù)據(jù)應(yīng)根據(jù)各自分布特點(diǎn)自行產(chǎn)生。虛擬數(shù)據(jù)體現(xiàn)了學(xué)習(xí)器的觀點(diǎn),但學(xué)習(xí)器接受其他觀點(diǎn)的程度是不同的。為此給出信任度的定義。
定義2信任度
令A(yù)和B是兩個(gè)學(xué)習(xí)器,所謂A對(duì)B的信任程度θAB就是指一個(gè)0~1之間的實(shí)數(shù)來(lái)表示每一次A接受B觀點(diǎn)的程度。
為了便于分析,假設(shè)A對(duì)B的信任程度與A、B自身的觀點(diǎn)之間是獨(dú)立的,即θAB和θBA不必相等,也不必滿足特定約束。事實(shí)上,信任程度可以看作是一個(gè)在學(xué)習(xí)器進(jìn)行討論前就已經(jīng)存在的先驗(yàn)知識(shí)。因此,A對(duì)B的信任程度可以看作是一個(gè)常數(shù)。
在概率分布模型中,每個(gè)學(xué)習(xí)器都代表一組約束下的分布函數(shù),因此屬性間的數(shù)量關(guān)系反映了兩個(gè)學(xué)習(xí)器間的信任程度。因此,定義第i個(gè)學(xué)習(xí)器對(duì)第j個(gè)學(xué)習(xí)器的置信度如式(3)所示。
(3)
其中,Ci,Cj表示松弛后對(duì)應(yīng)第i個(gè)和第j個(gè)學(xué)習(xí)器的條件集。信任度決定了觀察過程中一個(gè)學(xué)習(xí)器吸收其他學(xué)習(xí)器產(chǎn)生虛擬數(shù)據(jù)的比例。另一個(gè)問題是虛擬數(shù)據(jù)如何生成。
虛擬數(shù)據(jù)可以是服從各自概率分布的隨機(jī)數(shù),只要數(shù)目足夠多就能夠代表自身分布。但若每個(gè)學(xué)習(xí)器按照自身模式隨機(jī)生成,無(wú)法保證最終概率分布的一致性。為此,虛擬數(shù)據(jù)的另一部分隨自身概率分布特點(diǎn)固定的產(chǎn)生虛擬點(diǎn)。兩種虛擬數(shù)據(jù)生成的數(shù)據(jù)集可以由V1+αV2表示,其中V1=σ1(f,N),表示隨機(jī)生成N個(gè)服從f的虛擬數(shù)據(jù),V2=σ2(f,N),表示固定生成N個(gè)服從f的虛擬數(shù)據(jù),α為比例函數(shù),初始為0,隨迭代次數(shù)的增加逐步增加到1。
這種混合生成虛擬數(shù)據(jù)的機(jī)制,既保證了算法的泛化能力,又保證了算法的收斂性。特別的當(dāng)α≡1時(shí),相當(dāng)于幾個(gè)概率分布的組合輸出。
3.4退出機(jī)制
在回歸模型中,并未給出退出訓(xùn)練-觀察的條件,當(dāng)學(xué)習(xí)器觀點(diǎn)一致,或者當(dāng)分布函數(shù)差異度為零時(shí),則可以代表數(shù)據(jù)集下的泛化分布函數(shù)。分布函數(shù)的差異度是指任意兩個(gè)概率分布函數(shù)差的積分值,如式(4),或者用1-Div〈fi,fj〉/2表示二者的相似性。為了提高運(yùn)算效率,迭代過程采取統(tǒng)計(jì)隨機(jī)點(diǎn)的均方誤差來(lái)衡量?jī)蓚€(gè)分布的差異,如式(5),其中x1,x2,…,xm為隨機(jī)點(diǎn)。
(4)
(5)
若任意兩個(gè)分布的差異度都小于退出閾值ζ后,則任意分布函數(shù)都是最終的泛化分布函數(shù)。算法2給出了基于觀察學(xué)習(xí)的概率分布預(yù)測(cè)模型的完整運(yùn)算過程。
算法2基于觀察學(xué)習(xí)的概率分布預(yù)測(cè)模型
輸入:數(shù)據(jù)集D,條件集C,閾值ξ,退出閾值ζ輸出:最終模型fStep1:比較|σC(D)|和ξ,若|σC(D)|<ξ,則松弛C,并比較每一個(gè)子條件集|σCi(D)|和ξ,直至對(duì)每個(gè)條件集都有|σCi(D)|?ξ;此時(shí)對(duì)應(yīng)的條件集分別為C1,C2,…,Ck。Step2:從數(shù)據(jù)集中抽取子集Di=σCi(D),其中i=1,2,…,k。Step3:計(jì)算信任度矩陣θ,其中每個(gè)元素的計(jì)算方法如下θij=|σCi∪Cj(D)||σCj(D)|Step4:用三次樣條插值方法將子集Di擬合概率分布函數(shù)fi其中,i=1,2,…,k。Step5:for(i=1;i?k;i++)begin for(j=1;j?k;j++) D*j=σ1(fj,θij|D|)+ασ2(fj,θij|D|) Di=Di∪D*i endStep6:更新后的子集Di擬合新的fi,i=1,2,…,k。Step7:隨機(jī)生成m個(gè)隨機(jī)數(shù)x1,x2,…,xm。并計(jì)算DivDiv=max1?i,j?n∑mk=1(fi(xk)-fj(xk))2。Step8:若Div>ζ回到Step5,否則下一步。Step9:輸出結(jié)果一致的概率分布f,算法結(jié)束。
其中Step1~Step3是準(zhǔn)備過程,尋找有效集的復(fù)雜度為O(kn),其中n表示樣本數(shù)目,k表示屬性個(gè)數(shù);當(dāng)k不大時(shí),松弛屬性約束的過程可以視為常數(shù)。Step4~Step6是訓(xùn)練-觀察-再訓(xùn)練過程,其復(fù)雜度主要受到生成虛擬數(shù)據(jù)個(gè)數(shù)的影響,觀察-訓(xùn)練的迭代次數(shù)與退出閾值ζ相關(guān)。Step7~Step9判斷算法是否終止并輸出最終分布,其時(shí)間復(fù)雜度為O(m),其中m為隨機(jī)數(shù)的個(gè)數(shù)。
為了驗(yàn)證基于觀察學(xué)習(xí)的概率分布預(yù)測(cè)模型的有效性,選取樣本充足的人工數(shù)據(jù)及UCI上的公共數(shù)據(jù)集,設(shè)計(jì)了以下幾組實(shí)驗(yàn)。
實(shí)驗(yàn)一:三次樣條插值效果分析。實(shí)驗(yàn)隨機(jī)生成10000個(gè)服從正態(tài)分布N(0,1)的隨機(jī)點(diǎn),然后采用分八段的三次樣條插值進(jìn)行擬合。并檢驗(yàn)三次樣條插值與標(biāo)準(zhǔn)正態(tài)分布的相似性,實(shí)驗(yàn)結(jié)果如圖2所示。
實(shí)驗(yàn)表明,用三次樣條插值方法得到的正態(tài)分布與標(biāo)準(zhǔn)正態(tài)分布的相似性高達(dá)98.91%。說明在樣本充足時(shí),直接通過三次樣條插值擬合概率分布是可行的。因此,在未知數(shù)據(jù)分布的情況下,采用直接三次樣條插值獲得的概率分布函數(shù)作為基準(zhǔn)分布是合理的。
圖2 三次樣條插值效果圖
實(shí)驗(yàn)二:退出機(jī)制分析。選取UCI數(shù)據(jù)集quake,該數(shù)據(jù)集包含三個(gè)條件屬性(震源深度,緯度,經(jīng)度)和一個(gè)目標(biāo)屬性(地震等級(jí))。根據(jù)震源深度可以分為淺源地震(60km以下)、中源地震(60到300km)和深源地震(300km以上)。實(shí)驗(yàn)輸出為中國(guó)及周邊地區(qū)的淺源地震的概率分布,因此條件集為C={0≤focal_depth≤60,4≤latitude≤53,73≤longitude≤135}。為了驗(yàn)證混合虛擬數(shù)據(jù)生成機(jī)制保證最終分布的一致性,設(shè)置系數(shù)函數(shù)α如式(6)所示,其中t表示迭代次數(shù);退出閾值ζ=0.001。迭代過程的差異度如表2所示。
(6)
表2 迭代過程表
從表2中可知,在前20次循環(huán)時(shí),差異度整體上逐漸減小,由于隨機(jī)因素的影響,出現(xiàn)個(gè)別差異度增大的情況。但隨著迭代次數(shù)到20次以后,隨機(jī)因素影響減小,不同分布之間的差異度穩(wěn)定地逐漸減小,直到趨同。
實(shí)驗(yàn)三:驗(yàn)證基于觀察學(xué)習(xí)概率分布預(yù)測(cè)模型的預(yù)測(cè)效果。數(shù)據(jù)集及參數(shù)設(shè)置與實(shí)驗(yàn)二相同,選擇直接用三次樣條擬合的分布為標(biāo)準(zhǔn)fS,比較概率分布的平均相加fA、置信度參數(shù)相同(當(dāng)i≠j時(shí),θij=0.1;否則,θij=1)的觀察學(xué)習(xí)fO1、改進(jìn)置信度的觀察學(xué)習(xí)方法fO2。對(duì)應(yīng)的單約束的條件分布曲線(初始基學(xué)習(xí)器)和最終的分布曲線對(duì)比圖如圖3、4所示。
其中圖4中fS與fA、fO1、fO2的相似性分別為86.87%、94.02%,97.76%。該實(shí)驗(yàn)結(jié)果表明,基于觀察學(xué)習(xí)的概率分布預(yù)測(cè)模型顯著優(yōu)于概率分布的簡(jiǎn)單疊加,并且優(yōu)化置信度后的觀察學(xué)習(xí)算法具有更高的精度。
圖3 各條件分布圖
圖4 不同方法對(duì)比圖
實(shí)驗(yàn)四:其他數(shù)據(jù)集上的分析。選取不同屬性,不同條件集下的大樣本數(shù)據(jù)集,對(duì)改進(jìn)的觀察學(xué)習(xí)與三次樣插值得到的標(biāo)準(zhǔn)分布進(jìn)行比較分析,結(jié)果如表3所示,其中相似性是指實(shí)驗(yàn)三中fA與fO2的相似性。
表3 不同數(shù)據(jù)集的相似性
實(shí)驗(yàn)表明,觀察學(xué)習(xí)算法在不同數(shù)據(jù)集上具有廣發(fā)的適用性,無(wú)論條件集約束是離散屬性、連續(xù)屬性或者混合型的;并且在樣本充足時(shí),與三次樣條插值算法預(yù)測(cè)的概率分布具有高度的相似性,基本在95%以上。
本文將觀察學(xué)習(xí)集成機(jī)制應(yīng)用到了預(yù)測(cè)概率分布問題上。該模型利用松弛屬性約束和生成虛擬數(shù)據(jù)的思想極大地?cái)U(kuò)充了樣本集,使其能夠應(yīng)用在小樣本數(shù)據(jù)集上。而后改進(jìn)了觀察學(xué)習(xí)的置信度參數(shù)設(shè)置并優(yōu)化了退出機(jī)制。在UCI公共數(shù)據(jù)集的相關(guān)實(shí)驗(yàn)表明,基于觀察學(xué)習(xí)的概率分布預(yù)測(cè)模型解決小樣本下的概率分布預(yù)測(cè)問題,并且在樣本充足是其預(yù)測(cè)結(jié)果與三次樣條預(yù)測(cè)的概率分布有95%以上的相似性。
[1] 劉剛,張弦,陳錫陽(yáng),等.雷電流幅值概率分布函數(shù)的分段擬合方法[J].華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2014,42(4):40-45.
LIU Gang, ZHANG Xian, CHEN Xiyang, et al. Sectioned fitting method of probability distribution function of lightning current amplitude[J]. Journal of South China University of Technology(Natural Science Edition),2014,42(4):40-45.
[2] Shamshirband S, Petkovic D, Tong Chong Wen, et al. Trend detection of wind speed probability distribution by adaptive neuro-fuzzy methodology[J]. Elsevier,2015,45(10):43-48.
[3] Albert J, Rooman M. Probability distributions for multimeric systems[J]. Journal of Mathematical Biology,2015,72(1-2):157-169.
[4] Wang C P, Zhang J S, Chang G D, et al. Singular value decomposition projection for solving the small sample size problem in face recognition[J]. Journal of Visual Communication and Image Representation,2015,26(10):265-274.
[5] 毛啟容,趙小蕾,白李娟,等.結(jié)合過完備字典與PCA的小樣本語(yǔ)音情感識(shí)別[J].江蘇大學(xué)學(xué)報(bào)(自然科學(xué)版),2013,34(1):60-65.
MAO Qirong, ZHAO Xiaolei, BAI Lijuan, et al. Recognition of speech emotion on small samples by over-complete dictionary learning and PCA dimension reduction[J]. Journal of Jiangsu University(Natural Science Edition),2013,34(1):60-65.
[6] 武匯岳,王建民,戴國(guó)忠.基于小樣本學(xué)習(xí)的3D動(dòng)態(tài)視覺手勢(shì)個(gè)性化交互方法[J].電子學(xué)報(bào),2013,41(11):2230-2236.
WU Huiyue, WANG Jianmin, DAI Guozhong. Personalized interaction techniques of vision-based 3D dynamic gestures based on small sample learning[J]. Acta Electronica Sinica,2013,41(11):2230-2236.
[7] Yang Y, Wang X Q. Attribute reduction based on the grey relational analysis and dynamic programming[C]//Natural Computation (ICNC), 2013 Ninth International Conference on. IEEE,2013:697-701.
[8] Li D C, Lin L S, Peng L J. Improving learning accuracy by using synthetic samples for small datasets with non-linear attribute dependency[J]. Decision Support Systems,2014,59:286-295.
[9] Li D C, Wen I H. A genetic algorithm-based virtual sample generation technique to improve small data set learning[J]. Neurocomputing,2014,143:222-230.
[10] Zhang C C, Liang X F, Matsuyama T. Generic learning- based ensemble framework for small sample size face recognition in multi-camera networks[J]. Sensors,2014,14(12):23509-23538.
[11] Jang M, Cho S. Ensemble learning using observational learning theory[C]//Proc of the International Joint Conference on Neural Networks (IJCNN),1999:1287-1292.
[12] Bandura. Social leaning theory[M]. General Learning Press. New York, USA,1971.
[13] Wong P M, Jang M, Chos S, et al. Multiple permeability predictions using an observational learning algorithm[J]. Computers & Geosciences,2000,26(8):907-913.
[14] Jang M, Cho S, Observational learning algorithm for an ensemble of neural networks[J]. Pattern Analysis & Applications,2002,5(2):154-167.
[15] 虞凡,楊利英,覃征.異構(gòu)集成學(xué)習(xí)中的觀察學(xué)習(xí)機(jī)制研究[J].廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2006,24(4):54-57.
YU Fan, YANG Liying, QIN Zheng. Observational learning algorithm for heterogeneous ensembles[J]. Journal of Guangxi Normal University(Natural Science Edition),2006,24(4):54-57.
[16] 陳曦,王建東,陳海燕.基于觀察學(xué)習(xí)的機(jī)場(chǎng)噪聲監(jiān)測(cè)點(diǎn)關(guān)聯(lián)預(yù)測(cè)研究[J].計(jì)算機(jī)工程與科學(xué),2015,37(2):335-341.
CHEN Xi, WANG Jiandong, CHEN Haiyan. Research on the associated prediction of airport-noise monitoring nodes based on observational learning[J]. Computer Engineering & Science,2015,37(2):335-341.
[17] Lu Z L, Xu T. A new method to predict probability distribution based on heterogeneous ensemble learning[J]. International Journal of Advancements in Computing Technology,2012,4(14):17-25.
Prediction Model of Probability Distribution Based on Observational Learning
LV Zonglei1,2CHEN Guoming2
(1. Information Technology Research Base of Civil Aviation Administration of China, Tianjin300300) (2. College of Computer Science and Technology, Civil Aviation University of China, Tianjin300300)
A new prediction model of probability distribution based on observational learning has been proposed in this paper, which is combined with the concept of loosening control conditions and virtual sample generation. Observational learning algorithm is expanded to research the probability distribution under small sample in this model, which is applied to point prediction and classification traditionally. The model extracts the subsets with loosening attribute conditions and creates base learners with cubic spline interpolation function. The virtual samples are used to promote the consistency of base learners eventually. The model provides calculation formula for trust of learner and optimizes the exit mechanism to apply the model better. The results from manual dataset and real world problems from UCI repository shows that the model solves the problem of probability distribution prediction under small samples and the optimized observational learning algorithm is better and higher in generalization and precision than before.
observational learning algorithm, probability distribution, small sample size problem, virtual sample generation
2016年3月18日,
2016年4月27日
中央高?;究蒲袠I(yè)務(wù)中國(guó)民航大學(xué)專項(xiàng)基金項(xiàng)目(編號(hào):3122013z004);中國(guó)民用航空科技基金項(xiàng)目(編號(hào):MHRD20140315)資助。
呂宗磊,男,博士,副教授,碩士生導(dǎo)師,研究方向:數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)與知識(shí)工程等。陳國(guó)明,男,碩士研究生,研究方向:數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等。
TP311DOI:10.3969/j.issn.1672-9722.2016.09.002