張興鵬 任宇波
(1.天水市公安局麥積分局,甘肅天水 741020;2.北京市公安局大興分局,北京 100076)
隨著網(wǎng)絡(luò)科技的日益發(fā)展,良莠不齊的信息時(shí)刻充盈在人們的生活中,為此,互聯(lián)網(wǎng)科技通過(guò)運(yùn)用貝葉斯的先驗(yàn)概率,建立判別分類(lèi)模型,對(duì)垃圾進(jìn)行識(shí)別攔截,有效地抑制了垃圾短信、郵件信息的泛濫。這也充分的說(shuō)明貝葉斯先驗(yàn)概率算法在分類(lèi)模型中的優(yōu)異屬性。
對(duì)于非正常筆跡的識(shí)別,傳統(tǒng)方式主要是通過(guò)辦案人員對(duì)筆跡檢材的介紹或者借助司法鑒定人員的經(jīng)驗(yàn)以及知識(shí)理論體系,依據(jù)司法鑒定員知識(shí)理論體系中非正常筆跡特征的差異性,與樣本筆跡表現(xiàn)出的筆跡特征進(jìn)行比較、分析,最終確定其書(shū)寫(xiě)形成方式。雖然傳統(tǒng)方式亦能夠較為成熟的對(duì)筆跡的形成方式進(jìn)行有效判別,但傳統(tǒng)的判別方式依據(jù)鑒定人員知識(shí)理論體系的完備和準(zhǔn)確具有較大的主觀性。分類(lèi)模型是依據(jù)大量實(shí)驗(yàn)樣本數(shù)據(jù)的采集數(shù)據(jù),對(duì)不同筆跡的形成方式進(jìn)行科學(xué)的概率判斷,max求得為最優(yōu)分類(lèi),其他概率較小的即為疑似筆跡形成方式,具有較強(qiáng)的科學(xué)性和系統(tǒng)性。
傳統(tǒng)的后驗(yàn)概率統(tǒng)計(jì)理論是把常識(shí)用數(shù)學(xué)公式表達(dá)了出來(lái)(拉普拉斯語(yǔ)),即認(rèn)為某件事的發(fā)生概率是介于0到100%之間的某個(gè)具體數(shù)值,例如傳統(tǒng)概率理論認(rèn)為硬幣某一面朝上的概率為P=50%,拋硬幣游戲中,其某一面朝上的次數(shù)約等于總拋幣次數(shù)的一半。即樣本可變而概率固定。而貝葉斯學(xué)派的觀點(diǎn)截然相反,貝葉斯先驗(yàn)概率理論認(rèn)為參數(shù)是隨機(jī)變量,而樣本卻是固定的,因而主要研究參數(shù)的分布,貝葉斯概率模型是將人腦在已知條件下做出直覺(jué)判斷的一種數(shù)學(xué)表示。通過(guò)對(duì)大量樣本的分析,最終得到該種條件下發(fā)生的具體概率大小,例如在拋硬幣實(shí)驗(yàn)中,傳統(tǒng)后驗(yàn)概率的成立前提是硬幣材料加工等諸多條件完美的呈現(xiàn)理想對(duì)稱(chēng)狀態(tài),顯然絕對(duì)臨界狀態(tài)是極難達(dá)到的,貝葉斯理論的先驗(yàn)則可以通過(guò)多次拋幣,得到該硬幣在該條件下的某面朝上的概率,與該硬幣的本身是否臨界對(duì)稱(chēng)沒(méi)有必然聯(lián)系。
貝葉斯分類(lèi)模型是否能夠準(zhǔn)確的實(shí)現(xiàn)分類(lèi)的決策,關(guān)鍵依據(jù)數(shù)據(jù)庫(kù)的建立,在數(shù)據(jù)采集過(guò)程中,對(duì)類(lèi)型的選擇主要選擇了醉酒筆跡,強(qiáng)行加速書(shū)寫(xiě)筆跡,左手偽裝筆跡,老年人書(shū)寫(xiě)筆跡以及摩仿筆跡等五種類(lèi)型的非正常筆跡。在理論上而言,隨著變量之間獨(dú)立性的增強(qiáng),樸素貝葉斯概率的概率計(jì)算準(zhǔn)確率隨之增高,因此盡量選擇相對(duì)獨(dú)立的變量,以期減少貝葉斯模型的誤差率,使之達(dá)到最大準(zhǔn)確率。綜合各個(gè)醉酒筆跡樣本特征出現(xiàn)的概率,選取相對(duì)獨(dú)立且發(fā)生改變的變量作為本模型的變量,字間的大小、書(shū)寫(xiě)速度、是否出現(xiàn)反復(fù)的纏繞現(xiàn)象、收筆長(zhǎng)度、過(guò)度線條痕跡、筆畫(huà)是否彎曲抖動(dòng)、筆畫(huà)是否缺失、是否存在多余筆畫(huà)(蟲(chóng)形線條)、修飾重描、文字形狀是否異常等筆跡異常的特征屬性。
離散型樸素貝葉斯在分類(lèi)實(shí)踐中在金融行業(yè),垃圾信息篩選,醫(yī)療,市場(chǎng)營(yíng)銷(xiāo)等諸多領(lǐng)域都有重要的應(yīng)用。其先驗(yàn)概率中,條件概率的計(jì)算公式為:
式中:A——類(lèi)別屬性;
B——特征屬性。
該公式表示,在B 條件下,發(fā)生A 類(lèi)別特征的概率。
當(dāng)多個(gè)特征時(shí),B 特征為特征集合Bj,貝葉斯定理公式表示為:
樸素貝葉斯分類(lèi)器模型廣泛應(yīng)用于分類(lèi)模型,假設(shè)各個(gè)變量相互獨(dú)立,假設(shè)有變量集A={A1,A2,A3……An}包含滿足要求的n 個(gè)條件屬性,C={C1,C2,C3……Cn},則在樸素貝葉斯模型中條件屬性集合Aj有均為類(lèi)型Ci的子節(jié)點(diǎn),建立分類(lèi)模型。將預(yù)測(cè)待分類(lèi)樣本依條件提取W={w1,w2,w3……wn},并依次代入類(lèi)型Ci(1≤i≤n),依次求解出現(xiàn)滿足該條件相應(yīng)的P(Ci|W)(1≤i≤n),依據(jù)概率的大小進(jìn)行最優(yōu)化分類(lèi)。其中假設(shè)各變量間絕對(duì)獨(dú)立則:
在分類(lèi)模型中的分母不影響大小的比較,因此有:
即該模型選出的最優(yōu)解則為:
顯然,用excel的函數(shù)可以完成對(duì)離散型樸素貝葉斯分類(lèi)的計(jì)算,但是在該過(guò)程中,需要反復(fù)的進(jìn)行函數(shù)使用,較為復(fù)雜,且容易出現(xiàn)差錯(cuò),數(shù)據(jù)的更改也會(huì)對(duì)函數(shù)公式區(qū)域產(chǎn)生影響,因而筆者采用編程完成對(duì)該算法的實(shí)現(xiàn),可以采用諸多編程語(yǔ)言較多,如MATLAB、C語(yǔ)言、C++,以及Jave 等,但這些語(yǔ)言都較為繁瑣,其書(shū)寫(xiě)較為繁復(fù)且落后,再者matlab 被MathWorks 公司對(duì)華限制,因此經(jīng)過(guò)反復(fù)比較,由于python 的簡(jiǎn)潔性、易讀性以及可擴(kuò)展性,再者python 簡(jiǎn)潔美觀、易于學(xué)習(xí)掌握,因此近些年在國(guó)內(nèi)外呈線性增長(zhǎng),基于此,本實(shí)驗(yàn)采用“python 3.8.2 for Windows”語(yǔ)言,在Pycharm編輯器上完成程序編寫(xiě)和運(yùn)行。
為了避免過(guò)擬合(Overfitting)情況,在進(jìn)行機(jī)器學(xué)習(xí)實(shí)驗(yàn)時(shí),通常取出部分可利用數(shù)據(jù)作為測(cè)試數(shù)據(jù)集(test set)進(jìn)行交叉驗(yàn)證。醉酒筆跡、強(qiáng)行加速書(shū)寫(xiě)筆跡、左手偽裝筆跡、老年人書(shū)寫(xiě)筆跡以及摩仿筆跡的數(shù)據(jù)分別采集70份后,依次對(duì)上文提及的特征進(jìn)行判斷,存在即賦值為1,否則為0,即得到350 份筆跡樣本數(shù)據(jù),在該程序中,選擇了rate=25%進(jìn)行準(zhǔn)確率測(cè)試得知在該數(shù)據(jù)庫(kù)下,該模型的準(zhǔn)確率達(dá)到80%,并且該準(zhǔn)確率會(huì)隨著數(shù)據(jù)庫(kù)的數(shù)據(jù)加大,準(zhǔn)確率逐步提升。測(cè)試準(zhǔn)確率的主要程序如下所示:
樸素貝葉斯分類(lèi)是經(jīng)典的智能分類(lèi)模型,可以通過(guò)筆跡特征的識(shí)別,依據(jù)其特征屬性,判斷該未知筆跡類(lèi)型的書(shū)寫(xiě)形成方式,并初步對(duì)可疑樣本進(jìn)行智能自動(dòng)分類(lèi)。通過(guò)python 編程過(guò)程中,利用python 具有強(qiáng)大的開(kāi)源模塊這個(gè)特點(diǎn),引入時(shí)下機(jī)器學(xué)習(xí)領(lǐng)域中常用的sklearn模塊,從sklearn中調(diào)用MultinomialNB和classification_report 等關(guān)于貝葉斯與數(shù)據(jù)處理的函數(shù)模塊,實(shí)現(xiàn)樸素貝葉斯的自動(dòng)運(yùn)算。
如圖1 所示,當(dāng)測(cè)試特征屬性的數(shù)列test=[1,1,1,1,1,1,1,1,1,1,0]時(shí),其預(yù)測(cè)結(jié)果為醉酒書(shū)寫(xiě)筆跡,且有概率可以看出,雖然為MAX類(lèi)型概率高達(dá)63.9%,但其老年人書(shū)寫(xiě)筆跡的概率也高達(dá)35.9%,即最佳預(yù)測(cè)可能為醉酒筆跡,但需要注意其是否為老年人書(shū)寫(xiě)形成筆跡,亦或是老年人書(shū)寫(xiě)的醉酒筆跡。本實(shí)驗(yàn)中運(yùn)用的樣本為64周歲的老人在醉酒狀態(tài)下所書(shū)寫(xiě)該預(yù)測(cè)結(jié)果與實(shí)際相符。
圖1 預(yù)測(cè)樣本(左)與預(yù)測(cè)結(jié)果以及概率
離散型貝葉斯模型在決策樹(shù)分類(lèi)中具有重要的作用,在上文中均已進(jìn)行闡述,此處不再詳述。在筆跡形成方式的判別領(lǐng)域一直未對(duì)其進(jìn)行有效運(yùn)用,本文通過(guò)實(shí)驗(yàn)表明,該模型在筆跡司法鑒定的實(shí)際運(yùn)用中具有重大的作用,可據(jù)此對(duì)筆跡的形成方式進(jìn)行有效判別,為司法鑒定工作提供理論依據(jù)和實(shí)踐指導(dǎo)。該模型是在pycharm軟件上完成python代碼的編撰,該軟件的運(yùn)用對(duì)于未進(jìn)行訓(xùn)練的鑒定人尚有難度,因此若能編寫(xiě)前端輸入口,使得該數(shù)據(jù)庫(kù)以及代碼成為后端,將會(huì)使其更為方便。