馬曉劍,張家緒,林煜華,王 奧
(東北林業(yè)大學(xué) 理學(xué)院,哈爾濱 150040)
近年來,隨著人類對生態(tài)文明建設(shè)的逐漸重視,自然水體資源是否適用于飲用也日漸受到廣泛關(guān)注.如何利用簡單高效的方法對飲用水資源質(zhì)量進行分析與預(yù)測,是當(dāng)下研究的重要課題.在水體質(zhì)量預(yù)測與機器學(xué)習(xí)方法相結(jié)合的領(lǐng)域,李雪清等人選取多種氣象指標(biāo)和經(jīng)濟指標(biāo),提出了一種基于多源時空數(shù)據(jù)和機器學(xué)習(xí)的區(qū)域水質(zhì)預(yù)測模型[1],但由于該方法主要選取宏觀評價指標(biāo)進行預(yù)測建模,因此僅適用于時空意義下的水體環(huán)境質(zhì)量預(yù)測.戴青松等人利用LWCA-SVM模型提出了一種基于機器學(xué)習(xí)和狼群搜索的飲用水質(zhì)量預(yù)測模型[2],但該方法由于引入了啟發(fā)式智能優(yōu)化,因此收斂于全局最優(yōu)的速度較慢,算法效率仍有待提高.
D-S證據(jù)理論是一種基于不確定理論的信息融合方法,該方法是貝葉斯理論的推廣,常用于解決多源信息下的信息融合問題,是一種簡單高效的人工智能決策技術(shù),現(xiàn)已廣泛應(yīng)用于圖像處理、計算機視覺、專家系統(tǒng)等領(lǐng)域[3-5].證據(jù)理論在證據(jù)高沖突情況下的判別精度不高,因此常常因受到噪聲信號的干擾而喪失決策的可信度,如何改善證據(jù)理論在高沖突情況下的判別精確度是當(dāng)前證據(jù)理論主要待解決的問題[6].在證據(jù)理論中,高沖突抑制方法主要分為兩種:一種是修改證據(jù)融合規(guī)則;另一種是修改證據(jù).但第一種方法往往會失去Dempster組合規(guī)則具有的良好數(shù)學(xué)性質(zhì),而第二種方法往往通過考慮來自證據(jù)的可信度、信息量等信息對證據(jù)進行修正,具有更好的可解釋性[7].在機器學(xué)習(xí)領(lǐng)域,證據(jù)理論可作為一種集成學(xué)習(xí)的方法改善機器學(xué)習(xí)性能,此時證據(jù)理論將多分類器給出的預(yù)測結(jié)果視為信號源,對信號源提供的信息量及可信度進行建模,可以改善多分類器架構(gòu)下的機器學(xué)習(xí)分類與預(yù)測性能[8].
雖然利用D-S證據(jù)理論改善高沖突下機器學(xué)習(xí)判別精確率的方法已廣泛應(yīng)用于故障診斷、多時空數(shù)據(jù)融合、異常檢測等鄰域[9-11],但現(xiàn)有的應(yīng)用證據(jù)理論在飲用水質(zhì)量預(yù)測問題中所做的工作仍然較少,而該問題下的特征空間信息沖突常常導(dǎo)致機器學(xué)習(xí)算法識別精確度不高,因此本文創(chuàng)新性地引入證據(jù)理論基于高沖突對機器學(xué)習(xí)算法進行集成,應(yīng)用證據(jù)理論對多分類器預(yù)測結(jié)果進行優(yōu)化,提出了基于線性核支持向量機、隨機森林和證據(jù)理論的飲用水質(zhì)量集成預(yù)測模型.針對特征空間高沖突從而導(dǎo)致分類器結(jié)果高沖突的問題,本文引入BJS散度[12]對來自分類器信息源的高沖突進行抑制,決策時綜合考慮信息源的支持度、置信度,實驗結(jié)果表明本文算法相較于單一機器學(xué)習(xí)模型具有更高的分類準(zhǔn)確率和精確度,顯著改善了基分類器的分類效果.
定義1 (基本概率指派(mass函數(shù)))假設(shè)集合I={i1,i2,…,in}是辨識框架,其中:is≠it,s≠t是兩兩互異的元事件,則構(gòu)造辨識框架的冪集2I到實數(shù)區(qū)間[0,1]的映射m∶2I→[0,1],如果映射m滿足下列條件:
則稱該映射m為基本概率指派s.在證據(jù)理論中,A被稱為焦元.此時m(A)被視為m對應(yīng)的信息源分配給焦元A的信度.
定義2 (Dempster組合規(guī)則)假設(shè)m1,…,mc是辨識框架I下的c組基本概率指派,則Dempster組合規(guī)則表示如下:
定義3 (BJS散度[12])假設(shè)Aj是基本概率指派m的焦元,m1,m2是辨識框架I下的兩組基本概率指派,則m1和m2之間的BJS散度定義如下:
在不同水體的飲用水質(zhì)量預(yù)測問題中,基于機器學(xué)習(xí)方法的分類誤差主要來源于不同可飲用水體的樣本分布之間存在較大沖突,即可飲用水和非可飲用水在特征指標(biāo)下的分布不存在顯著差異,因此分類器在學(xué)習(xí)時因為受到?jīng)_突的干擾,難以學(xué)習(xí)到有助于精確分類的有效信息并形成具有高置信度的判別結(jié)果,給準(zhǔn)確識別可飲用水體樣本造成了較大困難.本文創(chuàng)新性地引入證據(jù)理論對分類器的判別可信度進行建模,同時考慮來自分類器判別結(jié)果的信息量,應(yīng)用證據(jù)理論和BJS散度對來自分類器信息源的判別結(jié)果進行信息融合,從而提升集成學(xué)習(xí)的效果,實驗結(jié)果表明本文算法顯著提高了算法的分類精確度.
本文算法采用的數(shù)據(jù)集來自Kaggle數(shù)據(jù)平臺的Water Quality數(shù)據(jù)集[13].該數(shù)據(jù)集采集了3 276個來自不同水體的水質(zhì)指標(biāo),用于評估水體樣本的可飲用類型,本文選取該數(shù)據(jù)集9個指標(biāo)作為特征指標(biāo),用于構(gòu)造機器學(xué)習(xí)算法的特征空間,9個水質(zhì)評價指標(biāo)的基本描述如表1所示.
表1 本文選取的9個水質(zhì)評價特征指標(biāo)及單位Table 1 9 features with units of water quality evaluation in this paper
繪制可安全飲用、不可安全飲用水體的樣本分布直方圖如圖1所示,并設(shè)置高斯函數(shù)為核函數(shù),基于核密度估計給出兩類總體的概率密度如圖2所示.由圖1、2可知,兩類總體在9個特征指標(biāo)下的分布密度基本相似,差異僅表現(xiàn)為兩類樣本的分布量不均衡,因此當(dāng)分類器基于上述先驗對待測樣本進行判別時,會由于兩類樣本之間的特征相似度過高而產(chǎn)生難以精確區(qū)分的情形.在證據(jù)理論中,若將一個特征指標(biāo)視為一個信號源,則上述樣本在9個特征指標(biāo)下相似性過高的情形被稱為來自多個信號源的信息產(chǎn)生了沖突,正是這種沖突使得機器學(xué)習(xí)算法不能生成有把握的分類結(jié)果,例如分類器可能在樣本的輸入特征不具有顯著區(qū)分度時給出P(正樣本)=P(負(fù)樣本)=0.5的判別結(jié)果,此時可認(rèn)為分類器判別失效.由于在這種特征空間中分類器形成精確判別結(jié)果的把握降低,機器學(xué)習(xí)算法判別的準(zhǔn)確率也易受到樣本特征隨機擾動的影響,從而喪失穩(wěn)定性.由于證據(jù)理論可以在多源信息存在較大沖突的情況下較穩(wěn)定地形成決策,因此本文提出使用證據(jù)理論對多分類器進行集成學(xué)習(xí),利用證據(jù)理論對結(jié)果進行信息融合,利用融合修正后的結(jié)果提升多分類器的判別性能,使得算法能在特征高沖突的前提下產(chǎn)生精確的決策.
圖1 兩類總體在9個特征指標(biāo)下的樣本分布直方圖Figure 1 Sample distribution histogram of two kinds of population under 9 features
圖2 兩類總體在9個特征指標(biāo)下的核密度估計Figure 2 Kernel density estimation of two kinds of population under 9 features
基于BJS散度的基本概率指派修正方法主要分為三步: 1)首先依據(jù)BJS散度的定義計算第i個待測水體樣本下線性核支持向量機和隨機森林基本概率指派之間的證據(jù)距離:
BJSi(mSVM,mRF)=
其中:l∈I.隨后,依據(jù)兩組基本概率指派的BJS散度構(gòu)建差異度量矩陣:
隨后計算來自各個基本概率指派的支持度.由上述分析可知,單一基本概率指派的支持度越高,表明該基本概率指派與其他基本概率指派的差異程度越小,應(yīng)具有更好的信息支持能力:
最后計算來自支持度的證據(jù)置信度:
2)對來自基本概率指派的信息量進行建模.在證據(jù)理論中,鄧熵[14]作為一種定量計算基本概率指派不確定信息量的度量方法,常用于估計基本概率指派可供決策的信息量大小,若基本概率指派對應(yīng)的鄧熵越大,則該基本概率指派提供的不確定信息量越大.計算第j個基本概率指派的鄧熵如下:
其中:l∈I,j∈{SVM,RF}.進一步計算第j個基本概率指派的信息量:
IVi,j=exp{DEi,j}=
其中:l∈I,j∈{SVM,RF}.針對信息量指標(biāo)進行歸一化處理,可得歸一化信息量如下:
其中:j,k∈{SVM,RF}.歸一化信息量可以保證信息量指標(biāo)控制在[0,1]之間.
3)在獲得了第j個基本概率指派的證據(jù)置信度和歸一化信息量后,綜合考慮上述兩個指標(biāo)提供的決策信息量,計算第j個基本概率指派的權(quán)重:
對權(quán)重進行歸一化,獲得歸一化權(quán)重:
其中:j,k∈{SVM,RF}.最后計算加權(quán)后的基本概率指派:
最后依據(jù)Dempster組合規(guī)則對來自加權(quán)基本概率指派的信息進行融合,獲得最終判別結(jié)果,至此基于證據(jù)理論和BJS散度的集成學(xué)習(xí)算法判別結(jié)束,選取概率最大的類別作為該待測水體樣本的判別結(jié)果,本文算法的計算流程如表2所示.
表2 本文算法計算流程Table 2 Calculation flow of proposed algorithm
本文算法基于Python 3.7開發(fā),設(shè)置比例系數(shù)δ=0.35將數(shù)據(jù)集分割為訓(xùn)練集和測試集,對比算法選取線性核支持向量機、樸素貝葉斯、決策樹、隨機森林開展對比實驗,選取準(zhǔn)確率(Accuracy)和精確度(Precision)作為分類器性能的評價指標(biāo),其中:準(zhǔn)確率的計算公式如下:
其中:TP,TN是正確被識別為可安全飲用水體和不可安全飲用水體的樣本總數(shù),F(xiàn)P,F(xiàn)N是被錯分為可安全飲用水體和不可安全飲用水體的樣本總數(shù),精確度指標(biāo)可以衡量不同分類器正確分類的能力.精確度的計算公式如下式所示:
精確度可以衡量分類器識別真正正樣本的能力[15].本文算法與4種對比算法在準(zhǔn)確率、精確度2個指標(biāo)下的分類結(jié)果如表3所示.
由表3的結(jié)果可知,本文算法在準(zhǔn)確率、精確度兩個指標(biāo)下均取得了最好效果,其中:準(zhǔn)確率指標(biāo)相較于線性核支持向量機提高了6.06%、隨機森林提高了1.58%,精確度指標(biāo)相較于線性核支持向量機提高了82.65%、隨機森林提高了18.65%.由表3的結(jié)果還可知,線性核支持向量機在飲用水質(zhì)量預(yù)測問題中的精確度得分為0,表明該算法未能成功識別任何可安全飲用的水體樣本,因此可認(rèn)為該算法在該問題下完全失效,但在引入隨機森林和證據(jù)理論對分類結(jié)果進行集成后,該指標(biāo)相較于支持向量機和隨機森林均獲得了顯著提高,這一結(jié)果說明本文算法能顯著降低將不可安全飲用水體錯分為可安全飲用水體的風(fēng)險,進一步表明了本文算法在飲用水質(zhì)量預(yù)測問題中提高機器學(xué)習(xí)算法的有效性.
表3 本文算法和4種對比算法的準(zhǔn)確率、精確度指標(biāo)Table 3 Accuracy and precision of proposed algorithm and four comparison algorithms
由于現(xiàn)有的飲用水質(zhì)量預(yù)測數(shù)據(jù)集中存在的不同群體特征分布過于接近、區(qū)分度不顯著的高沖突問題,本文從提高機器學(xué)習(xí)算法在飲用水質(zhì)量預(yù)測問題中的性能出發(fā),提出了一種使用證據(jù)理論和BJS散度加權(quán)的集成學(xué)習(xí)方法,該方法通過證據(jù)理論將分類器的輸出轉(zhuǎn)換為基本概率指派,對基本概率指派的沖突性、支持度、置信度進行建模,將來自基本概率指派的信息重新加權(quán),成功抑制了來自分類器輸出的沖突,提高了模型的分類效果.本文創(chuàng)新性地將基于證據(jù)理論和BJS散度的集成學(xué)習(xí)方法應(yīng)用于飲用水質(zhì)量預(yù)測問題,實驗結(jié)果表明本文算法相較于對比算法在準(zhǔn)確率、精確度兩個指標(biāo)下均獲得了顯著提高,進一步說明了本文算法改善機器學(xué)習(xí)算法在飲用水質(zhì)量預(yù)測問題中性能的穩(wěn)定性和有效性.