王文相
【摘要】簡單介紹了貝葉斯公式和數據挖掘的相關概念,并舉例說明了貝葉斯公式在數據挖掘中的應用.
【關鍵詞】貝葉斯公式;數據挖掘;條件概率;先驗概率
數據挖掘是從現實生活中收集數據,對實際問題進行科學分析研究進而解決,共分為三個部分,分別是數據收集部分、模型設計部分和問題解決部分.數據收集是通過查閱文獻資料、網絡搜索等途徑尋找解決問題所需要的各種原始數據,進而通過對原始數據內容的甄別、過濾,獲取有效信息并最終運用到自己設計的模型中.模型設計需要針對實際問題進行建模,并利用已收集的數據進行問題求解.可以利用已有的數學算法、數據挖掘技術或者設計新的方法來解決問題,其中可能需要一定程度的數學推導和計算機編程.數據挖掘通常通過數學、統(tǒng)計、在線分析處理、情報檢索分類等諸多方法來實現上述目標.
在貝葉斯法則中,每個名詞都有約定俗成的名稱:P(A)是A的先驗概率或邊緣概率.P(A|B)是已知B發(fā)生后A的條件概率,也由于得自B的取值而被稱作A的后驗概率.P(B|A)是已知A發(fā)生后B的條件概率,也由于得自A的取值而被稱作B的后驗概率.P(B)是B的先驗概率或邊緣概率,也作標準化常量.按這些術語,貝葉斯法則可表述為:后驗概率=似然度×先驗概率標準化常量.P(B|A)P(B)稱為可能性函數,這是一個調整因子,使得預估概率更接近真實概率.所以,條件概率可以理解成這樣的式子:后驗概率=先驗概率×調整因子.
這就是貝葉斯推斷的含義.我們先預估一個“先驗概率”,然后加入實驗結果,看這個實驗到底是增強還是削弱了“先驗概率”,由此得到更接近事實的“后驗概率”.在這里,如果“可能性函數”P(B|A)P(B)>1,意味著“先驗概率”被增強,事件A的發(fā)生的可能性變大;如果“可能性函數”=1,意味著B事件無助于判斷事件A的可能性;如果“可能性函數”<1,意味著“先驗概率”被削弱,事件A的可能性變小.
貝葉斯公式看起來很簡單,但是在自然科學領域應用范圍極其廣泛.同時理論本身蘊含了深刻的思想.在大數據時代,從海量的數據中進行數據挖掘進而解決相關問題,貝葉斯公式也有著廣泛的應用.比如,要設計一款疾病自我預診斷系統(tǒng),從自己身體的各種不舒適體征來判斷是否患有某種疾病,那么要從面對龐大的各種疾病數據中,尋找自己需要的數據并設計模型進行判斷.下面我們以發(fā)燒為例,用貝葉斯公式建立簡單自我肺炎自我預診斷判斷系統(tǒng).
數據挖掘主要有數據準備、規(guī)律尋找和規(guī)律表示3個步驟.首先,是數據準備階段.數據準備是從相關的數據源中選取所需的數據并整合成用于數據挖掘的數據集;規(guī)律尋找是用某種方法將數據集所含的規(guī)律找出來;規(guī)律表示是盡可能以大眾可理解的方式將找出的規(guī)律表示出來.數據挖掘牽涉了大量的準備工作與規(guī)劃工作,事實上許多專家都認為整套數據挖掘的過程中,有80%的時間和精力是花費在數據預處理階段,其中包括數據的凈化、數據格式轉換、變量整合,以及數據表的鏈接.可見,在進行數據挖掘技術的分析之前,還有許多準備工作要完成.
首先,要盡可能找到所有會引起發(fā)燒的疾病,這個難度比較大,不過現在計算機網絡發(fā)達,使得大數據的處理成為可能.為了方便敘述,我們不妨把從網上查找到的有關發(fā)燒的資料以模型的方式簡單化處理,設所有引起發(fā)燒的疾病有A1,A2,A3,…,An種,并且這n種病相互之間是獨立的互不影響的.通過數據挖掘得知,n種疾病的發(fā)病率分別為P(A1),P(A2),P(A3),…,P(An),發(fā)燒表示為事件S,n種疾病發(fā)病時發(fā)燒的概率分別為P(S|A1),P(S|A2),P(S|A3),…,P(S|An),根據貝葉斯公式可知發(fā)燒是由A1疾病引起的概率為
同樣可以算出發(fā)燒是由其他疾病引起的概率,最可能的當然就是概率最大的那個.僅僅有一個癥狀判斷疾病是不準確的,對于其他癥狀,比如,咳嗽事件W,我們用同樣方法可以算出P(A1|W),根據P(S∪W)=P(S)+P(W)-P(SW)等相關公式,可以算出同時發(fā)燒咳嗽時患A1疾病的概率,當多個癥狀同時計算時,顯著性一定會增大,判斷當然也會更準確.最后,還可以對判斷結果給出置信區(qū)間,做相關的假設檢驗,這里就不再一一累述.
【參考文獻】
[1]茆詩松.貝葉斯統(tǒng)計[M].北京:中國統(tǒng)計出版社,2012:18-54.
[2]祝東進,郭大偉.概率論與數理統(tǒng)計[M].北京:國防工業(yè)出版社,1996:132-178.