胥新政,強 毅,傅華棟
(1.機械科學(xué)研究總院集團有限公司,北京 100044;2.中國合格評定國家認可中心,北京 100062)
大數(shù)據(jù)時代,如何有效處理龐雜的不確定性信息從而獲得規(guī)律性認知是人們所面臨的一大難題?!安淮_定性”是指我們對事物“不能完全確信”的狀態(tài),一般包括固有不確定性和認知不確定性。前者源于事物固有的隨機性,后者源于人們所掌握知識和信息的局限性[1]。其中,認知不確定性作為一種特定的不確定性,在各個學(xué)科領(lǐng)域已引起足夠重視。因此,需要采用新方法新思路來定性、定量地分析各個環(huán)境系統(tǒng)的不確定性。
貝葉斯(Bayes)方法是以概率論為基礎(chǔ)的一種統(tǒng)計學(xué)方法,與傳統(tǒng)統(tǒng)計學(xué)理論的最大不同在于貝葉斯理論將所有參數(shù)作為隨機變量,并根據(jù)專家經(jīng)驗賦予其先驗分布,以使參數(shù)估計更可靠[2]。近年來,該方法已被成功地引用到各個學(xué)科領(lǐng)域處理不確定性信息。鑒于此,本文系統(tǒng)地闡述了貝葉斯方法的基本思想、應(yīng)用和展望。
貝葉斯方法是聯(lián)系先驗知識和后驗知識的橋梁。它以貝葉斯公式、貝葉斯統(tǒng)計推斷及貝葉斯網(wǎng)絡(luò)為基礎(chǔ),使用先驗概率和樣本信息得出后驗概率,主要用于處理不確定性信息中的隨機信息。
貝葉斯定理描述了條件概率及其逆概率的關(guān)系,公式如下:
其中,P(A)為事件 A 的先驗概率,P(A|B)為在事件 B條件下事件A的后驗概率,P(A|B)/P(B)為事件A發(fā)生對事件B的支持程度,即似然函數(shù)。
貝葉斯統(tǒng)計推斷的基本過程如圖1所示[3]:首先通過實驗獲得樣本信息 X1、X2、X3……Xn,估計先驗分布 π(θ)反映先驗信息,同時構(gòu)建似然函數(shù) L(θ|X1、X2…、Xn)反映樣本信息;再結(jié)合貝葉斯定理得到待估計量的后驗概率分布 h(θ|X1、X2…、Xn);最后利用后驗分布得到預(yù)報概率分布。公式如下:
圖1 貝葉斯統(tǒng)計推斷的基本過程Fig.1 The primary process of the bayesian method for statistical inference
(1)貝葉斯網(wǎng)絡(luò)概念與組成。貝葉斯網(wǎng)絡(luò)是貝葉斯方法的擴展,又稱貝葉斯信度網(wǎng)絡(luò)(BBN),是以圖形化的方式表達不確定性信息的概率模型,能直觀地表達系統(tǒng)內(nèi)各元素之間的相互影響關(guān)系[4]。貝葉斯網(wǎng)絡(luò)的組成:一是有向無環(huán)圖(DAG),由代表變量節(jié)點及連接這些節(jié)點有向邊構(gòu)成;二是變量之間因果影響強度的條件概率表(CPT)。其中,節(jié)點代表隨機變量,節(jié)點間的有向邊代表節(jié)點間的互相關(guān)系(由父節(jié)點指向其子節(jié)點);條件概率表達關(guān)系強度,沒有父節(jié)點的用先驗概率表達。
(2)貝葉斯網(wǎng)絡(luò)的構(gòu)建。首先,確定目標領(lǐng)域的變量集,即貝葉斯網(wǎng)絡(luò)的節(jié)點集。目標問題應(yīng)被變量集中所有的特征變量完全描述,并確定每個變量的狀態(tài)和取值范圍;其次,根據(jù)變量之間的概率依賴關(guān)系或先驗依賴關(guān)系確定網(wǎng)絡(luò)結(jié)構(gòu)。對具備大量專家知識的問題領(lǐng)域,根據(jù)專家對變量之間存在因果依賴關(guān)系的認知,連接自變量與因變量。最后,估計參數(shù),計算每個節(jié)點的概率分布。概率分布包括根節(jié)點的先驗概率分布和中間節(jié)點的條件概率分布。
(3)基于貝葉斯網(wǎng)絡(luò)的推理。貝葉斯網(wǎng)絡(luò)的推理是指在給定一組證據(jù)變量概率值的條件下,計算一組查詢變量的概率分布,包括精確推理和近似推理。即對原始數(shù)據(jù)進行數(shù)據(jù)挖掘,找出符合原始數(shù)據(jù)的定性網(wǎng)絡(luò)圖關(guān)系,然后根據(jù)各節(jié)點之間的因果關(guān)系,利用Bayes公式中條件概率的計算方法,計算出所感興趣的查詢節(jié)點(query node)發(fā)生概率。
(4)基于貝葉斯網(wǎng)絡(luò)的學(xué)習(xí)。貝葉斯網(wǎng)絡(luò)學(xué)習(xí)是指利用樣本數(shù)據(jù)更新網(wǎng)絡(luò)原有參數(shù)或結(jié)構(gòu)的先驗分布,即尋找一種最能真實反映數(shù)據(jù)集中各變量間的依賴關(guān)系,并能按某種測度較好地與給定實例數(shù)據(jù)集擬合。給定離散變量集{X1、X2、X3……Xn}上的數(shù)據(jù)樣本 D,學(xué)習(xí)的目的是找到與D匹配程度最高的貝葉斯網(wǎng)絡(luò)。
可見,貝葉斯網(wǎng)絡(luò)既能將先驗知識和后驗數(shù)據(jù)有機結(jié)合,也能客觀的表達與處理目標問題,以從不完全、不精確或不確定的知識或信息中做出推理,被認為是表達不確定性問題最有效的模型之一。
貝葉斯方法結(jié)合先驗信息和觀測數(shù)據(jù)下的似然信息得到參數(shù)的后驗概率分布。近年來,采用貝葉斯方法耦合輸入不確定性、結(jié)構(gòu)不確定性以及數(shù)據(jù)不確定性,在評價、模擬及預(yù)報的不確定性分析方面取得了系列成果,使得不確定性信息處理理論日臻完善,并在諸多領(lǐng)域廣泛應(yīng)用。現(xiàn)就其在醫(yī)療衛(wèi)生、氣候地理、信息技術(shù)和經(jīng)濟管理等領(lǐng)域的應(yīng)用闡述如下:
貝葉斯方法在醫(yī)療衛(wèi)生領(lǐng)域的應(yīng)用主要表現(xiàn)在貝葉斯網(wǎng)絡(luò)的應(yīng)用。它通過對疾病案例建立貝葉斯網(wǎng)絡(luò),編碼各種癥狀與疾病之間的因果關(guān)系,計算病人患有某種疾病的概率。國外,如TakeHeart II系統(tǒng)是基于貝葉斯網(wǎng)絡(luò)的心血管疾病診斷臨床支持決策系統(tǒng) (Clinical Decision Support System,CDSS),具有良好的人機接口,能夠?qū)崟r提供決策并做出風(fēng)險評估[5]。國內(nèi),南開大學(xué)徐曼等人在不確定性與非平衡性條件下,通過構(gòu)建考慮穩(wěn)態(tài)與隨機態(tài)關(guān)聯(lián)性的貝葉斯網(wǎng)絡(luò)學(xué)習(xí)模型,研究了基于規(guī)則/案例(CBR/RBR)融合推理模式在醫(yī)療決策方面的應(yīng)用。
2.2.1 空間地理知識表達和推理
在定性地理空間知識表達和推理中,存在各種不確定性問題,如位置表達的不精確性、地物的模糊性、空間關(guān)系的模糊性及空間陳述的不確定性等。目前,貝葉斯方法越來越廣泛的應(yīng)用于地理空間數(shù)據(jù)不確定性的處理。國外,如Aspinall[6]在GlS系統(tǒng)中用貝葉斯方法結(jié)合大量的數(shù)據(jù)集,預(yù)測蘇格蘭北部格蘭扁地區(qū)紅鹿的分布情況;國內(nèi),北京大學(xué)鄔倫等人利用貝葉斯定理,建立了根據(jù)地理位置描述確定地物分布的概率方法,并研究了定性地理空間知識不確定性表達和推理及其在地理信息檢索中的應(yīng)用。
2.2.2 氣候預(yù)測
環(huán)境生態(tài)系統(tǒng)模擬和預(yù)估的不確定性研究是氣候預(yù)測的研究重點。氣候變化模擬的不確定性是影響環(huán)境生態(tài)系統(tǒng)模擬不確定性的一個重要的因素。中國科學(xué)院地理科學(xué)與資源研究所何洪林等人結(jié)合現(xiàn)有的觀測數(shù)據(jù)和研究基礎(chǔ),構(gòu)建了貝葉斯神經(jīng)網(wǎng)絡(luò),模擬了站點尺度凈CO2交換量(NEE)的時間動態(tài)及環(huán)境變量對NEE的影響,并量化了NEE的不確定性。
2.3.1 數(shù)據(jù)挖掘
隨著數(shù)據(jù)庫技術(shù)的迅速發(fā)展和廣泛應(yīng)用,數(shù)據(jù)挖掘已經(jīng)成為數(shù)據(jù)庫知識發(fā)現(xiàn)的重要途徑。由于貝葉斯網(wǎng)絡(luò)的預(yù)測能力,并且其能夠顯示變量間最直接的關(guān)聯(lián)關(guān)系,貝葉斯網(wǎng)絡(luò)已成為大規(guī)模數(shù)據(jù)庫中數(shù)據(jù)挖掘的重要手段。國外,Sebastian等人用貝葉斯網(wǎng)為慈善機關(guān)的客戶建模,較好地預(yù)測了捐贈人的特征和希望得到的禮物,幫助慈善機構(gòu)獲得了最大的效率[7]。國內(nèi),慕春棣等人對貝葉斯網(wǎng)學(xué)習(xí)方法的數(shù)學(xué)推導(dǎo)進行了分析總結(jié),并介紹了貝葉斯網(wǎng)絡(luò)在數(shù)據(jù)挖掘中的應(yīng)用[8]。
2.3.2 故障診斷與決策
在故障診斷技術(shù)中,所獲得的觀測信息或樣本具有一定的有限性和不確定性。貝葉斯網(wǎng)絡(luò)是一種有效的診斷決策模型,具有不確定性問題的表達能力。國外,Nicholson AE等人[9]將動態(tài)貝葉斯網(wǎng)絡(luò)作為傳感器故障診斷模型,研究了傳感器故障預(yù)測和診斷的方法。國內(nèi),西北工業(yè)大學(xué)的傅軍等在柴油機動力裝置的故障診斷中,采用貝葉斯網(wǎng)絡(luò)故障診斷模型,提高了故障診斷的精度和速度[10]。
綜上所述,通過建立系統(tǒng)模型,達到輔助決策、特征融合及數(shù)據(jù)分析等目的是貝葉斯方法的基本應(yīng)用過程,并以其獨特的綜合先驗知識的增量學(xué)習(xí)特性和卓越的推理性能被廣泛應(yīng)用到不同領(lǐng)域中,并取得令人矚目的效果,成為國內(nèi)外研究的熱點。其中,貝葉斯網(wǎng)絡(luò)作為一種基于概率的不確定性推理工具,在醫(yī)療診斷、統(tǒng)計決策、專家系統(tǒng)、學(xué)習(xí)預(yù)測等方面得以成功應(yīng)用,已成為處理不確定性信息的最重要途徑。
人工智能的目的是建立最接近人類認知水平的智能模型,隨著相關(guān)理論和技術(shù)的日益成熟,其應(yīng)用領(lǐng)域也不斷擴大,具有廣闊的發(fā)展空間。不確定性知識的推理和決策,是人工智能技術(shù)中的關(guān)鍵環(huán)節(jié)。貝葉斯方法因具備在不確定環(huán)境下知識表示與推理的優(yōu)勢,已成為人工智能重要的研究熱點之一。目前,基于人工智能的計算機視覺、自然語言處理等技術(shù)發(fā)展日新月異;未來,貝葉斯方法在人工智能技術(shù)中仍具有廣闊的發(fā)展空間。但是,貝葉斯方法在機器深度學(xué)習(xí)及數(shù)據(jù)挖掘技術(shù)方面的研究成果較少,建議加強該方面的應(yīng)用與研究。