吳偉昆,傅仰耿,蘇 群,吳英杰,鞏曉婷
1.福州大學(xué) 數(shù)學(xué)與計算機(jī)科學(xué)學(xué)院,福州 350116
2.福州大學(xué) 經(jīng)濟(jì)與管理學(xué)院,福州 350116
基于GDA的置信規(guī)則庫參數(shù)訓(xùn)練的集成學(xué)習(xí)方法*
吳偉昆1,傅仰耿1,蘇 群1,吳英杰1,鞏曉婷2+
1.福州大學(xué) 數(shù)學(xué)與計算機(jī)科學(xué)學(xué)院,福州 350116
2.福州大學(xué) 經(jīng)濟(jì)與管理學(xué)院,福州 350116
WU Weikun,FU Yanggeng,SU Qun,et al.GDA based ensemble learning methods for parameter training in belief rule base.Journal of Frontiers of Computer Science and Technology,2016,10(12):1651-1661.
置信規(guī)則庫(BRB);集成學(xué)習(xí);梯度下降法(GDA);Bagging;AdaBoost
隨著信息技術(shù)的快速發(fā)展,為了能夠處理在各種復(fù)雜應(yīng)用背景下多樣性、大容量、高速、實(shí)時的數(shù)據(jù),信息融合(data fusion)技術(shù)越來越受到各個領(lǐng)域?qū)<业闹匾?。信息融合是模仿人類處理信息的結(jié)果,它實(shí)際上是一個不確定性推理與決策的過程,其方法包括貝葉斯概率推理法、D-S(Dempster-Shafter)證據(jù)理論[1-2]、模糊推理[3]、神經(jīng)網(wǎng)絡(luò)法[4]等。對于實(shí)際應(yīng)用中數(shù)據(jù)存在模糊不確定性、不完整性或概率不確定性以及非線性特征的問題,基于置信度理論的推理方法充分展示了其優(yōu)越性[5]。
Yang等人[6]在D-S證據(jù)理論、決策理論[7]、模糊理論和傳統(tǒng)IF-THEN規(guī)則庫[8]的基礎(chǔ)上提出了基于證據(jù)推理的置信規(guī)則庫推理方法(belief rule base inference methodology using the evidential reasoning approach,RIMER)。通過對傳統(tǒng)IF-THEN規(guī)則庫的擴(kuò)展而得到的置信規(guī)則庫(belief rule base,BRB)系統(tǒng),目前已成功應(yīng)用于軍事能力評估[9]、石墨成分檢測[10]、輸油管道檢漏[11]等領(lǐng)域。
現(xiàn)有對BRB的研究主要針對單個BRB系統(tǒng)進(jìn)行,單個BRB系統(tǒng)的推理性能不僅受規(guī)則庫參數(shù)的取值影響,還受參與訓(xùn)練的數(shù)據(jù)集影響。Yang等人[10]通過選取對應(yīng)的輸入輸出作為訓(xùn)練數(shù)據(jù)對BRB系統(tǒng)進(jìn)行參數(shù)學(xué)習(xí),從而確定規(guī)則庫參數(shù)的具體取值;Liu等人[12]則根據(jù)數(shù)據(jù)集對初始BRB系統(tǒng)進(jìn)行構(gòu)建及訓(xùn)練;Su[13]和Wang等人[14]分別提出基于粒子群算法、專家干預(yù)策略與差分進(jìn)化算法結(jié)合的參數(shù)訓(xùn)練方法,但未提出合理選擇訓(xùn)練數(shù)據(jù)的方法,使得單個BRB系統(tǒng)的推理性能存在不穩(wěn)定性。在上述方法中規(guī)則庫訓(xùn)練集質(zhì)量對BRB系統(tǒng)的推理性能起著關(guān)鍵的作用。訓(xùn)練數(shù)據(jù)量較少或抽取不均勻易導(dǎo)致BRB系統(tǒng)的參數(shù)訓(xùn)練不全面,推理能力下降,當(dāng)面對復(fù)雜且規(guī)模較大的決策問題時,BRB系統(tǒng)的推理性能與規(guī)則庫參數(shù)的取值密切相關(guān)[15],參數(shù)取值的細(xì)小差異都可能使BRB系統(tǒng)推理的結(jié)果出現(xiàn)明顯差異。
鑒于此,本文結(jié)合Bagging算法[16]和AdaBoost算法[17-18]將BRB系統(tǒng)與集成學(xué)習(xí)相結(jié)合,通過加速梯度求法[19]對單個BRB系統(tǒng)進(jìn)行參數(shù)訓(xùn)練,并對得到的多個BRB子系統(tǒng)進(jìn)行集成,進(jìn)而提升BRB系統(tǒng)的推理能力。在實(shí)驗(yàn)分析中,通過引入輸油管道檢漏的實(shí)驗(yàn),分析本文BRB的Bagging集成方法對于動態(tài)特性曲線的擬合效果和推理性能,并與其他單個BRB系統(tǒng)進(jìn)行比較。在多峰函數(shù)的實(shí)例中,分析BRB的AdaBoost集成方法在尋優(yōu)能力和推理性能上的表現(xiàn),并與其他單個BRB系統(tǒng)進(jìn)行比較,說明本文方法的有效性。第2章簡要介紹BRB系統(tǒng)和集成學(xué)習(xí)相關(guān)的理論知識,并提出本文擬解決的問題;第3章引入Bagging算法和AdaBoost算法,并分別與BRB系統(tǒng)的參數(shù)訓(xùn)練相結(jié)合,提出解決現(xiàn)有問題的集成學(xué)習(xí)方法;第4章通過兩個實(shí)例分析置信規(guī)則庫系統(tǒng)集成學(xué)習(xí)方法的有效性;最后對本文進(jìn)行總結(jié),并指出進(jìn)一步的工作方向。
2.1BRB的表示及RIMER方法
2.1.1 BRB的表示
BRB中的置信規(guī)則是由傳統(tǒng)的IF-THEN擴(kuò)展而來,相比傳統(tǒng)的IF-THEN規(guī)則,置信規(guī)則中新增分布式置信框架、前提屬性權(quán)重和規(guī)則權(quán)重,其中第k條規(guī)則表示如下:
其中,Rk(k=1,2,…,L)表示第k條規(guī)則,L表示規(guī)則的總條數(shù);表示第k條規(guī)則的第i個前提屬性的參考值,Tk表示第k條規(guī)則中前提屬性的個數(shù);Dj(j=1,2,…,N)表示規(guī)則結(jié)果評價等級的集合,N為集合大??;表示第k條規(guī)則的結(jié)果輸出在第 j個評價等級Dj上的置信度;當(dāng)時,表示第k條規(guī)則包含完整的信息,否則說明第k條規(guī)則中的信息是不完整的。此外,第k條規(guī)則的規(guī)則權(quán)重為θk(k=1,2,…,L),表示第k條規(guī)則相對BRB中其他規(guī)則的重要程度;前提屬性的權(quán)重為δk,i(k=1,2,…,L,i=1,2,…,Tk),反映了第i個前提屬性相對其他前提屬性的重要度。
2.1.2 RIMER方法
RIMER方法是BRB系統(tǒng)的核心內(nèi)容,其在規(guī)則推理時主要包含3個步驟:首先是激活權(quán)重的計算,然后是置信度的修正,最后再使用證據(jù)推理(evidential reasoning,ER)算法合成激活規(guī)則。
激活權(quán)重的計算取決于輸入數(shù)據(jù)、前提屬性權(quán)重和規(guī)則權(quán)重,進(jìn)行計算之前要先計算前提屬性在每個參考值上的個體匹配度。假設(shè)BRB的輸入xi(i=1,2,…,M)為數(shù)值形式,則由xi和前提屬性參考值集合,根據(jù)效用的信息轉(zhuǎn)化[20],可得第k條規(guī)則中第i個輸入相對于參考值的個體匹配度的計算方式為:
則第k條規(guī)則的激活權(quán)重的計算公式為:
其中,ωk∈[0,1],k=1,2,…,L。
當(dāng)輸入數(shù)據(jù)包含模糊、不確定數(shù)據(jù)時,需要對結(jié)果部分的各評價等級的置信度進(jìn)行修正,第k條規(guī)則的第i個評價等級Di的置信度βˉi,k修正公式為:
其中,|At|表示候選值的個數(shù),如果輸入數(shù)據(jù)是完整的,則。
在ER算法中,Wang等人[21]提出了ER解析算法對BRB中所有的規(guī)則進(jìn)行組合,BRB的最終輸出f(x)可表示為:
其中βj表示相對于評價結(jié)果Dj的置信值,且
假設(shè)μ(Dn)表示第n個評價等級Dn的效用值,則BRB系統(tǒng)的數(shù)值型輸出的最終表示為:
2.2 集成學(xué)習(xí)方法
在回歸問題或分類問題中,學(xué)習(xí)機(jī)在特征空間中不同區(qū)域的性能存在差異,單一學(xué)習(xí)機(jī)容易造成較多的錯誤預(yù)測,對于某個學(xué)習(xí)機(jī)預(yù)測錯誤的區(qū)域,運(yùn)用其他學(xué)習(xí)機(jī)有可能得到正確的結(jié)果,實(shí)現(xiàn)學(xué)習(xí)機(jī)之間的模式互補(bǔ)。集成學(xué)習(xí)技術(shù)利用多個學(xué)習(xí)機(jī)來解決同一個問題,它通過回歸或分類算法獲取多個不同的學(xué)習(xí)機(jī),然后通過某種方式將得到的多個學(xué)習(xí)機(jī)進(jìn)行組合,從而提高學(xué)習(xí)系統(tǒng)的預(yù)測能力。
從學(xué)習(xí)機(jī)的構(gòu)建方式可將集成學(xué)習(xí)大致分為兩種:一種是學(xué)習(xí)機(jī)之間的依賴關(guān)系較弱,可并行生成的算法,如Bagging算法、隨機(jī)森林算法等;另一種是學(xué)習(xí)機(jī)之間依賴關(guān)系較強(qiáng),必須串行生成的算法,如AdaBoost算法。并行集成學(xué)習(xí)算法的每個學(xué)習(xí)機(jī)之間的輸出是獨(dú)立的。串行集成學(xué)習(xí)的算法在構(gòu)造過程中前后學(xué)習(xí)機(jī)存在依賴關(guān)系,即當(dāng)前學(xué)習(xí)機(jī)的構(gòu)建是在之前學(xué)習(xí)機(jī)訓(xùn)練后的基礎(chǔ)上進(jìn)行的,學(xué)習(xí)機(jī)存在次序關(guān)系。經(jīng)過后一個學(xué)習(xí)機(jī)的訓(xùn)練能夠有效消除前一個學(xué)習(xí)機(jī)在輸出上的錯誤率和對各個學(xué)習(xí)機(jī)性能不一致的影響。在進(jìn)行學(xué)習(xí)機(jī)的組合時運(yùn)用最廣泛的是簡單投票法、加權(quán)投票法。
2.3 問題提出
置信規(guī)則庫系統(tǒng)的推理準(zhǔn)確性不僅與參數(shù)的取值息息相關(guān),還受到訓(xùn)練數(shù)據(jù)集的影響。BRB系統(tǒng)的參數(shù)學(xué)習(xí)是一種監(jiān)督學(xué)習(xí),通過參數(shù)學(xué)習(xí)得到的參數(shù)取值能使BRB系統(tǒng)對訓(xùn)練數(shù)據(jù)具有較好的推理能力。理想的訓(xùn)練數(shù)據(jù)集可使BRB系統(tǒng)具有良好的穩(wěn)定性和推理性能,而當(dāng)BRB系統(tǒng)的訓(xùn)練集數(shù)據(jù)存在分布不均或數(shù)據(jù)量較少時,易導(dǎo)致參數(shù)訓(xùn)練不全面,使得訓(xùn)練得到的單個BRB系統(tǒng)推理結(jié)果提供的決策信息存在局部性,不能很好地預(yù)測實(shí)際系統(tǒng)的輸出。在解決規(guī)模較大且復(fù)雜的決策問題時,BRB系統(tǒng)的參數(shù)取值對最終系統(tǒng)的推理能力有著關(guān)鍵的影響[15],參數(shù)的取值即使存在細(xì)小的差異都可能使BRB系統(tǒng)得到兩種差別很大的結(jié)果。
為解決現(xiàn)有的問題,本文提出了置信規(guī)則庫的集成學(xué)習(xí)方法,分別將BRB與Bagging算法的數(shù)據(jù)重抽取技術(shù)和AdaBoost提升算法相結(jié)合,在文獻(xiàn)[19]的基礎(chǔ)上進(jìn)行BRB子系統(tǒng)的參數(shù)學(xué)習(xí),并對得到的多個BRB子系統(tǒng)進(jìn)行集成。
3.1 置信規(guī)則庫參數(shù)訓(xùn)練方法
梯度下降法(gradient descent algorithm,GDA)是一種求解問題最優(yōu)化的算法,現(xiàn)廣泛應(yīng)用于求解無約束優(yōu)化問題,其中相關(guān)的改進(jìn)算法包括共軛梯度法、Wolf簡約梯度法、廣義簡約梯度法等[22]。在對置信規(guī)則庫系統(tǒng)(即學(xué)習(xí)機(jī))進(jìn)行集成學(xué)習(xí)時,本文將加速梯度求法[19]作為學(xué)習(xí)算法對學(xué)習(xí)機(jī)進(jìn)行訓(xùn)練。
假設(shè)待求解的優(yōu)化函數(shù)為ξ(P),P為BRB中待優(yōu)化的參數(shù)集合,且這些參數(shù)帶有約束條件。
算法1使用梯度下降法進(jìn)行BRB的參數(shù)訓(xùn)練
3.2 置信規(guī)則庫的Bagging集成學(xué)習(xí)方法
Bagging是Breiman在1996年提出的一種基于數(shù)據(jù)重復(fù)抽樣技術(shù)[23]bootstrap sampling)的算法。在訓(xùn)練階段,各學(xué)習(xí)機(jī)的訓(xùn)練集由原始訓(xùn)練集利用重抽取技術(shù)獲得。假設(shè)給定的數(shù)據(jù)集包含n個樣本。對數(shù)據(jù)集有放回地抽樣n次,產(chǎn)生包含n個樣本的訓(xùn)練集。這樣,原始訓(xùn)練集中的某個樣本在某個訓(xùn)練集中可能出現(xiàn)多次或根本不出現(xiàn)。顯然每個樣本被選中的概率是1/n,因此未被選中的概率為(1-1/n),則一個樣本在某個訓(xùn)練集中一次都未出現(xiàn)的概率為(1-1 n)n。當(dāng)n趨于無窮大時,這一概率趨近于e-1=0.368,即訓(xùn)練集中的樣本大概占原來數(shù)據(jù)集的63.2%。
在對Bagging算法得到的多個學(xué)習(xí)機(jī)進(jìn)行組合時,對于分類問題可選擇多數(shù)投票法,而對于回歸問題,由于多個學(xué)習(xí)機(jī)的輸出在空間中是離散分布的點(diǎn),通過聚類方式對輸出的分布進(jìn)行分析,計算聚類結(jié)果中類成員最多的類,其類中心作為最終的輸出。本文通過聚類的方式模擬多數(shù)投票策略,并采用K-means聚類算法對多個學(xué)習(xí)機(jī)的結(jié)果進(jìn)行集成。
K-means算法步驟如下:
(1)初始化數(shù)據(jù)集dataset,設(shè)置k值;
(2)隨機(jī)選取k個數(shù)據(jù)點(diǎn)作為聚類中心;
(3)由相似度距離公式,將所有數(shù)據(jù)點(diǎn)歸到離其最近的聚類;
(4)根據(jù)聚類結(jié)果,計算新的聚類中心;
(5)所有數(shù)據(jù)點(diǎn)根據(jù)新的聚類中心重新聚類;
(6)重復(fù)(4)、(5),直到聚類中心沒有發(fā)生變化,算法結(jié)束,輸出結(jié)果。
假設(shè)參與集成的BRB個數(shù)為M,則數(shù)據(jù)集dataset由GDA訓(xùn)練后的M個BRB在每個測試數(shù)據(jù)上的預(yù)測結(jié)果組成,即一個測試數(shù)據(jù)對應(yīng)M個預(yù)測結(jié)果。本文在K-means算法中,聚類中心個數(shù)k取,以絕度誤差和作為相似度距離公式。
算法2 BRB的Bagging集成學(xué)習(xí)
BRB的Bagging集成學(xué)習(xí)流程如圖1所示。
Fig.1 BRB-ensemble process using Bagging圖1 BRB的Bagging集成學(xué)習(xí)流程
3.3 置信規(guī)則庫的AdaBoost集成學(xué)習(xí)方法
AdaBoost是最優(yōu)秀的Boosting算法之一,被評為數(shù)據(jù)挖掘十大算法之一[24]。Freund和Schapire在1997年提出了基于回歸模型的AdaBoost.R算法[17],Drucker最早將Boosting算法的回歸模型應(yīng)用到實(shí)際問題中[25],將AdaBoost.R進(jìn)行改進(jìn)得到AdaBoost.R2,并應(yīng)用到回歸問題中。AdaBoost.R2與AdaBoost.R類似,算法初始階段對每個訓(xùn)練樣本賦予相等的權(quán)重1/n,其核心內(nèi)容是維護(hù)訓(xùn)練集樣本的權(quán)值分布,每一輪迭代對預(yù)測錯誤的樣本賦以較大的權(quán)重,使得下一個學(xué)習(xí)機(jī)在訓(xùn)練時集中對比較難預(yù)測的樣本進(jìn)行學(xué)習(xí)。通過多次迭代得到多個不同學(xué)習(xí)機(jī)及其權(quán)重,學(xué)習(xí)機(jī)權(quán)重越小則說明其預(yù)測效果越好。最終對多個學(xué)習(xí)機(jī)進(jìn)行集成時,對于分類問題可使用加權(quán)投票策略,而回歸問題則可采用加權(quán)平均的方式進(jìn)行組合。
AdaBoost算法不同于Bagging算法,其在訓(xùn)練時是串行進(jìn)行的,而Bagging是并行運(yùn)行的。AdaBoost算法中第k個學(xué)習(xí)機(jī)訓(xùn)練時關(guān)注的是前k-1個學(xué)習(xí)機(jī)中錯誤預(yù)測的樣本,并加大取這些樣本的概率,而Bagging算法是隨機(jī)抽取的。
算法3 BRB的AdaBoost集成學(xué)習(xí)
BRB的AdaBoost集成學(xué)習(xí)的流程如圖2所示。
Fig.2 BRB-ensemble process usingAdaBoost圖2 BRB的AdaBoost集成學(xué)習(xí)的流程
為驗(yàn)證置信規(guī)則庫與集成學(xué)習(xí)方法相結(jié)合的有效性,本文從算法的收斂精度和曲線擬合效果進(jìn)行實(shí)驗(yàn)分析,并分別在輸油管道檢漏和多峰函數(shù)兩個實(shí)例中將本文方法與單個BRB系統(tǒng)進(jìn)行比較。此外,實(shí)驗(yàn)環(huán)境為:Intel?Core i5-4570 CPU@3.20 GHz,4 GB內(nèi)存,Windows 10操作系統(tǒng);算法由Visual Studio 2013編寫。
4.1 輸油管道檢漏
管道檢漏問題中以安裝在英國一條100多公里長的輸油管道作為研究對象,當(dāng)管道發(fā)生泄漏時,管道中油液的油液流量(FlowDiff,F(xiàn)D)和壓力(Pressure-Diff,F(xiàn)D)會按一定的模式發(fā)生變化,進(jìn)而影響泄漏大小(LeakSize,LS)。因此將流量和壓力作為BRB系統(tǒng)的輸入,泄漏大小作為BRB系統(tǒng)的輸出。
構(gòu)建BRB系統(tǒng)時FD和PD滿足如下條件:以FD和PD作為BRB系統(tǒng)的前提屬性,F(xiàn)D含8個參考值,PD含7個候選,即FD∈{1 0,5,3,1,0,1,2,3} ,PD∈{0.042,0.025,0.01,0,0.01,0.025,0.042},而輸出LS分為5個評價等級,即D={0,2,4,6,8}。
在泄漏測試中,每10 s作為一個周期收集2 008組從正常到發(fā)生25%泄漏(即當(dāng)管道中流動100噸油液時有25噸發(fā)生泄漏)時的實(shí)時數(shù)據(jù)。
圖3是管道檢漏初始BRB系統(tǒng)[9]對真實(shí)泄漏曲線的擬合效果。
Fig.3 Fitting effect of initial BRB of pipeline leak detection圖3 管道檢漏初始BRB系統(tǒng)的擬合效果
在進(jìn)行BRB的Bagging集成學(xué)習(xí)實(shí)驗(yàn)時,以2 008組數(shù)據(jù)為初始樣本進(jìn)行boostrap數(shù)據(jù)重抽取,得到最終的測試集,BRB數(shù)量T=25。經(jīng)過25輪訓(xùn)練后,對訓(xùn)練后的BBR通過K-means算法進(jìn)行組合輸出,如圖4和圖5,是集成系統(tǒng)在測試集上均方誤差(mean square error,MSE)、皮爾森相關(guān)系數(shù)[26]Pearson correlation coefficient,PCC)隨著參與集成的BRB數(shù)量增加而變化的曲線。
從圖4和圖5中可以發(fā)現(xiàn),隨著參與集成的BRB子系統(tǒng)數(shù)量的增加,集成系統(tǒng)的MSE不是單調(diào)遞減,而是整體呈現(xiàn)一種下降的趨勢,PCC值也是整體呈上升的趨勢,說明通過BRB的Bagging集成學(xué)習(xí)能夠在收斂精度和泛化能力上往好的方向發(fā)展。
Fig.4 MSE of Bagging ensemble learning system with the amount of BRB圖4 Bagging集成學(xué)習(xí)系統(tǒng)MSE隨BRB數(shù)量變化的曲線
Fig.5 PCC of Bagging ensemble learning system with the amount of BRB圖5 Bagging集成學(xué)習(xí)系統(tǒng)PCC隨BRB數(shù)量變化的曲線
當(dāng)參與集成的BRB子系統(tǒng)為20時,集成系統(tǒng)對真實(shí)系統(tǒng)輸出曲線的擬合效果如圖6所示。
由圖6可知,集成系統(tǒng)能夠很好地擬合真實(shí)系統(tǒng)的動態(tài)輸出,圖中波動較大的點(diǎn)是由于數(shù)據(jù)中噪音點(diǎn)的影響。為了進(jìn)一步分析BRB的Bagging集成系統(tǒng)在收斂精度和泛化能力上的表現(xiàn),將本文方法與其他單個BRB系統(tǒng)進(jìn)行比較,以均方誤差、皮爾森相關(guān)系數(shù)作為衡量指標(biāo),結(jié)果如表1所示。
Fig.6 Fitting effect of Bagging ensemble system of pipeline leak detection圖6 管道檢漏中Bagging集成系統(tǒng)的擬合效果
Table 1 Comparison on reasoning performance of Bagging ensemble system with single BRB system表1 Bagging集成系統(tǒng)與單個BRB系統(tǒng)推理性能比較
從表1中MSE值可知,BRB的Bagging集成系統(tǒng)相對粒子群算法[13]、基于加速梯度求法[19]的單個BRB系統(tǒng)具有更高的收斂精度。Fmincon函數(shù)方法雖有較高的收斂精度,但其依托于Matlab軟件,可移植性差。由表1分析,BRB的Bagging集成學(xué)習(xí)求得的PCC值優(yōu)于單個BRB系統(tǒng),說明其對真實(shí)系統(tǒng)輸出的動態(tài)變化進(jìn)行預(yù)測時結(jié)果更準(zhǔn)確,有更好的推理性能。
4.2 多峰函數(shù)擬合
為驗(yàn)證集成學(xué)習(xí)方法具有較好的尋優(yōu)能力和收斂精度,引入多峰函數(shù)[27],其表達(dá)式如下:
構(gòu)建BRB系統(tǒng)時,根據(jù)函數(shù)曲線各個極值點(diǎn)的函數(shù)值設(shè)定規(guī)則,結(jié)果集的評級等級和等級效用值為{D1,D2,D3,D4,D5}={-0.5,0,0.5,1.0,1.5},變量x作為前提屬性,其屬性參考值為{-5,-2,0,2,5}。依據(jù)規(guī)則的信息轉(zhuǎn)換技術(shù)[6]對規(guī)則結(jié)果集的置信度進(jìn)行初始化,初始的BRB如表2所示。
Table 2 Initial BRB of multimodal function表2 多峰函數(shù)初始BRB
初始BRB擬合多峰函數(shù)的曲線及誤差曲線如圖7所示。
Fig.7 Fitting effect of initial BRB of multimodal function圖7 多峰函數(shù)初始BRB擬合效果
進(jìn)行BRB的AdaBoost集成學(xué)習(xí)實(shí)驗(yàn)時,在多峰函數(shù)輸入變量x的取值區(qū)間[-5,5]上選取10 000個數(shù)據(jù)作為總體樣本,并均勻選取1 000個點(diǎn)作為訓(xùn)練數(shù)據(jù),BRB數(shù)量T=25,即進(jìn)行25次的AdaBoost迭代訓(xùn)練。
經(jīng)過AdaBoost的T次迭代訓(xùn)練和數(shù)據(jù)誤差權(quán)重的更新后,可得到T個訓(xùn)練后的BRB子系統(tǒng),每個子系統(tǒng)帶有各自的權(quán)重α,根據(jù)加權(quán)平均法進(jìn)行集成。圖8、圖9是集成系統(tǒng)在測試集上均方根誤差(root mean square error,RMSE)和PCC隨著參與集成的BRB數(shù)量的增加而變化的曲線。
由圖8和圖9分析可知,隨著參與集成的BRB個數(shù)的增加,集成系統(tǒng)的收斂精度呈現(xiàn)不斷下降的趨勢,PCC值呈現(xiàn)逐漸上升的趨勢,說明集成系統(tǒng)對真實(shí)系統(tǒng)的預(yù)測效果越來越好。而隨著BRB個數(shù)的增加,兩條曲線趨于平穩(wěn),即集成系統(tǒng)的推理性能較穩(wěn)定。
Fig.8 RMSE ofAdaBoost ensemble learning system with the amount of BRB圖8 AdaBoost集成學(xué)習(xí)系統(tǒng)RMSE隨BRB數(shù)量變化的曲線
Fig.9 PCC ofAdaBoost ensemble learning system with the amount of BRB圖9 AdaBoost集成學(xué)習(xí)系統(tǒng)PCC隨BRB數(shù)量變化的曲線
圖10是在T=25時集成系統(tǒng)對多峰函數(shù)曲線真實(shí)輸出的擬合效果以及預(yù)測值與實(shí)際值之間的誤差曲線。
從圖10可知,集成系統(tǒng)能夠很好地擬合多峰函數(shù)的真實(shí)曲線,且誤差曲線浮動較小。為了分析BRB的AdaBoost集成系統(tǒng)在收斂精度和推理性能上的表現(xiàn),將其與Matlab中的Fmincon優(yōu)化函數(shù)、常瑞的梯度法[28]、差分進(jìn)化算法[14]的單個BRB系統(tǒng)訓(xùn)練方法進(jìn)行比較,如表3所示,以RMSE、PCC作為衡量指標(biāo)。
Fig.10 Fitting effect ofAdaBoost ensemble system of multimodal function圖10 多峰函數(shù)中AdaBoost集成系統(tǒng)的擬合效果
Table 3 Comparison on reasoning performance of AdaBoost ensemble system with single BRB system表3 AdaBoost集成系統(tǒng)與單個BRB系統(tǒng)推理性能比較
由表3可知,BRB的AdaBoost集成系統(tǒng)相對差分進(jìn)化算法和常瑞基于梯度法的單個BRB系統(tǒng)具有更好的收斂精度和推理性能。Fmincon函數(shù)雖然也得到了較好的結(jié)果,但其依賴于Matlab,不易移植且耗時,訓(xùn)練時長約400 s,而BRB的AdaBoost集成學(xué)習(xí)只需約60 s。
本文針對單個BRB系統(tǒng)在訓(xùn)練集數(shù)據(jù)分布不均或數(shù)據(jù)量較少的情況下易出現(xiàn)推理性能下降的問題,將Bagging算法和AdaBoost算法分別與BRB系統(tǒng)進(jìn)行結(jié)合,在BRB的Bagging集成學(xué)習(xí)中采用K-means算法進(jìn)行集成。通過輸油管道實(shí)驗(yàn)的結(jié)果表明,集成系統(tǒng)能夠很好地擬合具有動態(tài)特性的曲線,與其他單個BRB系統(tǒng)進(jìn)行比較,結(jié)果說明本文方法具有較高的收斂精度和推理性能。在BRB的Ada-Boost集成學(xué)習(xí)中采用加權(quán)平均法進(jìn)行集成,多峰函數(shù)的實(shí)驗(yàn)結(jié)果表明,集成系統(tǒng)具有較好的尋優(yōu)能力和收斂速度。隨著參與集成的BRB子系統(tǒng)的增加,所需存儲空間將不斷增加,收斂效率也會受到影響,因此進(jìn)一步的研究方向是實(shí)現(xiàn)有選擇性的集成,并將置信規(guī)則庫的集成學(xué)習(xí)應(yīng)用到分類問題中。
[1]Dempster A P.A generalization of Bayesian inference[J]. Journal of the Royal Statistical Society:Series B(Methodological),1968,30(2):205-247.
[2]Glenn S.A mathematical theory of evidence[M].Princeton, USA:Princeton University Press,1976.
[3]Zadeh L Z.Fuzzy sets[J].Information and Control,1965,8 (3):338-353.
[4]McCulloch W S,Pitts W.A logical calculus of the ideas immanent in nervous activity[J].The Bulletin of Mathematical Biophysics,1943,5(4):115-133.
[5]Miao Yangzi,Fang Jian,Ma Xiaoping.D-S evidence theory of fusion technology and application[M].Beijing:Publishing House of Electronics Industry,2013.
[6]Yang Jianbo,Liu Jun,Wang Jin,et al.Belief rule-base inference methodology using the evidential reasoning approach-RIMER[J].IEEE Transactions on Systems,Man,and Cybernetics:PartASystems and Humans,2006,36(2):266-285.
[7]Hwang C,Yoon K.Methods for multiple attribute decision making[M].Heidelberg,Berlin:Springer-Verlag,1981:58-191.
[8]Sun R.Robust reasoning:integration rule-based and similaritybasedreasoning[J].ArtificialIntelligence,1995,75(2):241-295.
[9]Jiang Jiang,Li Xuan,Zhou Zhijie,et al.Weapon system capability assessment under uncertainty based on the evidential reasoning approach[J].Expert Systems with Applications,2011,38(11):13773-13784.
[10]Yang Jianbo,Liu Jun,Xu Dongling,et al.optimization models for training belief-rule-based systems[J].IEEE Transactions on Systems,Man and Cybernetics:Part A Systems and Humans,2007,37(4):569-585.
[11]Zhou Zhijie,Hu Changhua,Yang Jianbo,et al.Online updating belief-rule-based system for pipeline leak detection under expert intervention[J].Expert Systems with Applications,2009,36(4):7700-7709.
[12]Liu Jun,Martinez L,Calzada A,et al.A novel belief rule base representation,generation and its inference methodology[J].Knowledge-Based Systems,2013,53:129-141.
[13]Su Qun,Yang Longhao,Fu Yanggeng,et al.Parameter training approach based on variable particle swarm optimization for belief rule base[J].Journal of Computer Applications,2014, 34(8):2161-2165.
[14]Wang Hanjie,Yang Longhao,Fu Yanggeng,et al.Differential evolutionary algorithm for parameter training of belief rule base under expert intervention[J].Computer Science, 2015,42(5):88-93.
[15]Zhou Zhijie,Yang Jianbo,Hu Changhua,et al.Belief rule base expert system and complex system modeling[M].Beijing:Science Press,2011:1-119.
[16]Breiman L.Bagging predictors[J].Machine Learning,1996, 24(2):123-140.
[17]Freund Y,Schapire R E.A decision-theoretic generalization of on-line learning and an application to boosting[J].Journal of Computer and System Sciences,1997,55(1):119-139.
[18]Freund Y,Schapire R E.Experiments with a new boosting algorithm[C]//Proceedings of the 13th International Conference on Machine Learning,Bari,Italy,Jul 3-6,1996,San Francisco,USA:Morgan Kaufmann Publishers Inc,1996: 148-156.
[19]Wu Weikun,Yang Longhao,Fu Yanggeng,et al.Parameter training approach for belief rule base using the accelerating of gradient algorithm[J].Journal of Frontiers of Computer Science and Technology,2014,8(8):989-1001.
[20]Yang Jianbo.Rule and utility based evidential reasoning approach for multi-attribute decision analysis under uncertainties[J].European Journal of Operational Research,2001, 131(1):31-61.
[21]Wang Yingming,Yang Jianbo,Xu Dongling,et al.The evidential reasoning approach for multiple attribute decision analysis using interval belief degrees[J].European Journal of Operational Research,2006,175(1):35-66.
[22]Ma Changfeng.Optimization method and Matlab programming[M].Beijing:Science Press,2010:47-189.
[23]Efron B,Tibshirani R J.An introduction to the bootstrap [M].Boca Raton,USA:CRC Press,1994.
[24]Wu Xindong,Kumar V,Quinlan J R,et al.Top 10 algorithms in data mining[J].Knowledge and Information Systems,2008, 14(1):1-37.
[25]Drucker H.Improving regressors using boosting techniques[C]//Proceedings of the 14th International Conference on Machine Learning,Nashville,USA,Jul 8-12,1997.San Francisco, USA:Morgan Kaufmann Publishers Inc,1997:107-115.
[26]Hao Liren.SPSS practical statistics[M].Beijing:China Water&Power Press,2003.
[27]Chen Yuwang,Yang Jianbo,Xu Dongling,et al.On the inference and approximation properties of belief rule based systems[J].Information Sciences,2013,234:121-135.
[28]Chang Rui,Wang Hongwei,Yang Jianbo.An algorithm for training parameters in belief rule-bases based on the gradient and dichotomy methods[J].Systems Engineering,2007, 6(6):287-291.
附中文參考文獻(xiàn):
[5]繆燕子,方健,馬小平,等.D-S證據(jù)理論融合技術(shù)及其應(yīng)用[M].北京:電子工業(yè)出版社,2013.
[13]蘇群,楊隆浩,傅仰耿,等.基于變速粒子群優(yōu)化的置信規(guī)則庫參數(shù)訓(xùn)練方法[J].計算機(jī)應(yīng)用,2014,34(8):2161-2165.
[14]王韓杰,楊隆浩,傅仰耿,等.專家干預(yù)下置信規(guī)則庫參數(shù)訓(xùn)練的差分進(jìn)化算法[J].計算機(jī)科學(xué),2015,42(5):88-93.
[15]周志杰,楊劍波,胡昌華,等.置信規(guī)則庫專家系統(tǒng)與復(fù)雜系統(tǒng)建模[M].北京:科學(xué)出版社,2011:1-119.
[19]吳偉昆,楊隆浩,傅仰耿,等.基于加速梯度求法的置信規(guī)則庫參數(shù)訓(xùn)練方法[J].計算機(jī)科學(xué)與探索,2014,8(8): 989-1001.
[22]馬昌鳳.最優(yōu)化方法及其Matlab程序設(shè)計[M].北京:科學(xué)出版社,2010:47-189.
[26]郝黎仁.SPSS實(shí)用統(tǒng)計分析[M].北京:中國水利水電出版社,2003.
WU Weikun was born in 1991.He is an M.S.candidate at College of Mathematics and Computer Science,Fuzhou University.His research interests include intelligent decision technology,data mining and ensemble learning,etc.
吳偉昆(1991—),男,福建泉州人,福州大學(xué)數(shù)學(xué)與計算機(jī)科學(xué)學(xué)院碩士研究生,主要研究領(lǐng)域?yàn)橹悄軟Q策技術(shù),數(shù)據(jù)挖掘,集成學(xué)習(xí)等。
FU Yanggeng was born in 1981.He received the Ph.D.degree from Fuzhou University in 2013.Now he is an associate professor at College of Mathematics and Computer Science,Fuzhou University,and the member of CCF.His research interests include multi-criteria decision making under uncertainty,belief rule base inference and mobile internet applications,etc.
傅仰耿(1981—),男,福建泉州人,2013年于福州大學(xué)獲得博士學(xué)位,現(xiàn)為福州大學(xué)數(shù)學(xué)與計算機(jī)科學(xué)學(xué)院副教授,CCF會員,主要研究領(lǐng)域?yàn)椴淮_定多準(zhǔn)則決策,置信規(guī)則庫推理,移動互聯(lián)網(wǎng)應(yīng)用等。
SU Qun was born in 1991.He is an M.S.candidate at College of Mathematics and Computer Science,Fuzhou University.His research interests include intelligent decision making technology and belief rule base inference,etc.
蘇群(1991—),男,福建寧德人,福州大學(xué)數(shù)學(xué)與計算機(jī)科學(xué)學(xué)院碩士研究生,主要研究領(lǐng)域?yàn)橹悄軟Q策技術(shù),置信規(guī)則庫推理等。
WU Yingjie was born in 1979.He received the Ph.D.degree from Southeast University in 2012.Now he is a professor at College of Mathematics and Computer Science,Fuzhou University.His research interests include data mining, data security and privacy preservation,etc.
吳英杰(1979—),男,福建泉州人,2012年于東南大學(xué)獲得博士學(xué)位,現(xiàn)為福州大學(xué)數(shù)學(xué)與計算機(jī)科學(xué)學(xué)院教授,主要研究領(lǐng)域?yàn)閿?shù)據(jù)挖掘,數(shù)據(jù)安全與隱私保護(hù)等。
GONG Xiaoting was born in 1982.She received the M.S.degree from Fuzhou University in 2006.Now she is a lecturer at College of Economics and Management,Fuzhou University.Her research interests include multi-criteria decision making under uncertainty and information hiding technology,etc.
鞏曉婷(1982—),女,河南漯河人,2006年于福州大學(xué)獲得碩士學(xué)位,現(xiàn)為福州大學(xué)經(jīng)濟(jì)與管理學(xué)院講師,主要研究領(lǐng)域?yàn)椴淮_定多準(zhǔn)則決策,信息隱藏技術(shù)等。
GDA Based Ensemble Learning Methods for Parameter Training in Belief Rule Base*
WU Weikun1,FU Yanggeng1,SU Qun1,WU Yingjie1,GONG Xiaoting2+
1.College of Mathematics and Computer Science,Fuzhou University,Fuzhou 350116,China
2.College of Economics and Management,Fuzhou University,Fuzhou 350116,China
+Corresponding author:E-mail:xtgong@126.com
Current research on belief rule base(BRB)focuses on single BRB system,however,the reasoning performance of single BRB system is influenced by the values of parameters.And the uneven distribution or small amount of training data can lead to the incompleteness of training parameters,which makes the locality of information for decision provided by reasoning results.To solve these problems,this paper proposes BRB-ensemble system base in gradient descent algorithm(GDA)via combining the Bagging and AdaBoost with BRB respectively,and the BRB system is applied to the pipeline leak detection and multimodal function fitting.The performance of BRB system can be improved by the integration of multiple sub-BRB.In the case study,the convergence accuracy and fitting effect are used to analyze the performance of BRB-ensemble,and the proposed approach is compared with other single BRB system. The experimental results show that the BRB-ensemble method is reasonable and effective.
belief rule base(BRB);ensemble learning;gradient descent algorithm(GDA);Bagging;AdaBoost
10.3778/j.issn.1673-9418.1605043
A
TP18
*The National Natural Science Foundation of China under Grant Nos.61300026,71501047(國家自然科學(xué)基金);the Natural Science Foundation of Fujian Province under Grant No.2015J01248(福建省自然科學(xué)基金);the Science and Technology Development Foundation of Fuzhou University under Grant Nos.2014-XQ-26,14SKF16(福州大學(xué)科技發(fā)展基金).
Received 2016-05,Accepted 2016-07.
CNKI網(wǎng)絡(luò)優(yōu)先出版:2016-07-01,http://www.cnki.net/kcms/detail/11.5602.TP.20160701.1646.004.html
摘 要:目前對置信規(guī)則庫(belief rule base,BRB)的研究主要針對單個BRB系統(tǒng),然而單個BRB系統(tǒng)的推理性能不僅受參數(shù)取值的影響,而且當(dāng)訓(xùn)練集分布不均衡或數(shù)據(jù)量較少時,容易導(dǎo)致參數(shù)訓(xùn)練不全面,從而使得推理結(jié)果所提供的決策信息存在局部性。通過引入Bagging算法和AdaBoost算法,分別與BRB相結(jié)合提出了基于梯度下降法(gradient descent algorithm,GDA)的置信規(guī)則庫系統(tǒng)的集成學(xué)習(xí)方法,并分別應(yīng)用于輸油管道檢漏、多峰函數(shù)的置信規(guī)則庫訓(xùn)練,將多個BRB子系統(tǒng)集成,提高系統(tǒng)的推理性能。在實(shí)驗(yàn)中,以收斂精度和曲線擬合效果作為衡量指標(biāo)來分析集成系統(tǒng)的性能,并將集成系統(tǒng)與其他單個BRB系統(tǒng)進(jìn)行比較,實(shí)驗(yàn)結(jié)果表明BRB集成學(xué)習(xí)方法合理有效。