亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

筆跡書(shū)寫(xiě)形成方式判別的系統(tǒng)開(kāi)發(fā)研究

2020-03-17 05:21:10張興鵬任宇波

廣東公安科技 2020年4期

張興鵬任宇波

（1.天水市公安局麥積分局，甘肅天水 741020；2.北京市公安局大興分局，北京 100076）

前言

隨著網(wǎng)絡(luò)科技的日益發(fā)展，良莠不齊的信息時(shí)刻充盈在人們的生活中，為此，互聯(lián)網(wǎng)科技通過(guò)運(yùn)用貝葉斯的先驗(yàn)概率，建立判別分類(lèi)模型，對(duì)垃圾進(jìn)行識(shí)別攔截，有效地抑制了垃圾短信、郵件信息的泛濫。這也充分的說(shuō)明貝葉斯先驗(yàn)概率算法在分類(lèi)模型中的優(yōu)異屬性。

對(duì)于非正常筆跡的識(shí)別，傳統(tǒng)方式主要是通過(guò)辦案人員對(duì)筆跡檢材的介紹或者借助司法鑒定人員的經(jīng)驗(yàn)以及知識(shí)理論體系，依據(jù)司法鑒定員知識(shí)理論體系中非正常筆跡特征的差異性，與樣本筆跡表現(xiàn)出的筆跡特征進(jìn)行比較、分析，最終確定其書(shū)寫(xiě)形成方式。雖然傳統(tǒng)方式亦能夠較為成熟的對(duì)筆跡的形成方式進(jìn)行有效判別，但傳統(tǒng)的判別方式依據(jù)鑒定人員知識(shí)理論體系的完備和準(zhǔn)確具有較大的主觀性。分類(lèi)模型是依據(jù)大量實(shí)驗(yàn)樣本數(shù)據(jù)的采集數(shù)據(jù)，對(duì)不同筆跡的形成方式進(jìn)行科學(xué)的概率判斷，max求得為最優(yōu)分類(lèi)，其他概率較小的即為疑似筆跡形成方式，具有較強(qiáng)的科學(xué)性和系統(tǒng)性。

1 先驗(yàn)概率與后驗(yàn)概率的比較

傳統(tǒng)的后驗(yàn)概率統(tǒng)計(jì)理論是把常識(shí)用數(shù)學(xué)公式表達(dá)了出來(lái)（拉普拉斯語(yǔ)），即認(rèn)為某件事的發(fā)生概率是介于0到100%之間的某個(gè)具體數(shù)值，例如傳統(tǒng)概率理論認(rèn)為硬幣某一面朝上的概率為P=50%，拋硬幣游戲中，其某一面朝上的次數(shù)約等于總拋幣次數(shù)的一半。即樣本可變而概率固定。而貝葉斯學(xué)派的觀點(diǎn)截然相反，貝葉斯先驗(yàn)概率理論認(rèn)為參數(shù)是隨機(jī)變量，而樣本卻是固定的，因而主要研究參數(shù)的分布，貝葉斯概率模型是將人腦在已知條件下做出直覺(jué)判斷的一種數(shù)學(xué)表示。通過(guò)對(duì)大量樣本的分析，最終得到該種條件下發(fā)生的具體概率大小，例如在拋硬幣實(shí)驗(yàn)中，傳統(tǒng)后驗(yàn)概率的成立前提是硬幣材料加工等諸多條件完美的呈現(xiàn)理想對(duì)稱(chēng)狀態(tài)，顯然絕對(duì)臨界狀態(tài)是極難達(dá)到的，貝葉斯理論的先驗(yàn)則可以通過(guò)多次拋幣，得到該硬幣在該條件下的某面朝上的概率，與該硬幣的本身是否臨界對(duì)稱(chēng)沒(méi)有必然聯(lián)系。

2 模型樣本數(shù)據(jù)的采集

貝葉斯分類(lèi)模型是否能夠準(zhǔn)確的實(shí)現(xiàn)分類(lèi)的決策，關(guān)鍵依據(jù)數(shù)據(jù)庫(kù)的建立，在數(shù)據(jù)采集過(guò)程中，對(duì)類(lèi)型的選擇主要選擇了醉酒筆跡，強(qiáng)行加速書(shū)寫(xiě)筆跡，左手偽裝筆跡，老年人書(shū)寫(xiě)筆跡以及摩仿筆跡等五種類(lèi)型的非正常筆跡。在理論上而言，隨著變量之間獨(dú)立性的增強(qiáng)，樸素貝葉斯概率的概率計(jì)算準(zhǔn)確率隨之增高，因此盡量選擇相對(duì)獨(dú)立的變量，以期減少貝葉斯模型的誤差率，使之達(dá)到最大準(zhǔn)確率。綜合各個(gè)醉酒筆跡樣本特征出現(xiàn)的概率，選取相對(duì)獨(dú)立且發(fā)生改變的變量作為本模型的變量，字間的大小、書(shū)寫(xiě)速度、是否出現(xiàn)反復(fù)的纏繞現(xiàn)象、收筆長(zhǎng)度、過(guò)度線條痕跡、筆畫(huà)是否彎曲抖動(dòng)、筆畫(huà)是否缺失、是否存在多余筆畫(huà)（蟲(chóng)形線條）、修飾重描、文字形狀是否異常等筆跡異常的特征屬性。

3 離散型樸素貝葉斯的算法研究

離散型樸素貝葉斯在分類(lèi)實(shí)踐中在金融行業(yè)，垃圾信息篩選，醫(yī)療，市場(chǎng)營(yíng)銷(xiāo)等諸多領(lǐng)域都有重要的應(yīng)用。其先驗(yàn)概率中，條件概率的計(jì)算公式為：

式中：A——類(lèi)別屬性；

B——特征屬性。

該公式表示，在B 條件下，發(fā)生A 類(lèi)別特征的概率。

當(dāng)多個(gè)特征時(shí)，B 特征為特征集合Bj，貝葉斯定理公式表示為：

樸素貝葉斯分類(lèi)器模型廣泛應(yīng)用于分類(lèi)模型，假設(shè)各個(gè)變量相互獨(dú)立，假設(shè)有變量集A={A1，A2，A3……An}包含滿足要求的n 個(gè)條件屬性，C={C1，C2，C3……Cn}，則在樸素貝葉斯模型中條件屬性集合Aj有均為類(lèi)型Ci的子節(jié)點(diǎn)，建立分類(lèi)模型。將預(yù)測(cè)待分類(lèi)樣本依條件提取W={w1，w2，w3……wn}，并依次代入類(lèi)型Ci（1≤i≤n)，依次求解出現(xiàn)滿足該條件相應(yīng)的P（Ci|W）（1≤i≤n)，依據(jù)概率的大小進(jìn)行最優(yōu)化分類(lèi)。其中假設(shè)各變量間絕對(duì)獨(dú)立則：

在分類(lèi)模型中的分母不影響大小的比較，因此有：

即該模型選出的最優(yōu)解則為：

4 離散型樸素貝葉斯算法的編程實(shí)現(xiàn)

顯然，用excel的函數(shù)可以完成對(duì)離散型樸素貝葉斯分類(lèi)的計(jì)算，但是在該過(guò)程中，需要反復(fù)的進(jìn)行函數(shù)使用，較為復(fù)雜，且容易出現(xiàn)差錯(cuò)，數(shù)據(jù)的更改也會(huì)對(duì)函數(shù)公式區(qū)域產(chǎn)生影響，因而筆者采用編程完成對(duì)該算法的實(shí)現(xiàn)，可以采用諸多編程語(yǔ)言較多，如MATLAB、C語(yǔ)言、C++，以及Jave 等，但這些語(yǔ)言都較為繁瑣，其書(shū)寫(xiě)較為繁復(fù)且落后，再者matlab 被MathWorks 公司對(duì)華限制，因此經(jīng)過(guò)反復(fù)比較，由于python 的簡(jiǎn)潔性、易讀性以及可擴(kuò)展性，再者python 簡(jiǎn)潔美觀、易于學(xué)習(xí)掌握，因此近些年在國(guó)內(nèi)外呈線性增長(zhǎng)，基于此，本實(shí)驗(yàn)采用“python 3.8.2 for Windows”語(yǔ)言，在Pycharm編輯器上完成程序編寫(xiě)和運(yùn)行。

4.1 評(píng)估模型的估算器準(zhǔn)確性

為了避免過(guò)擬合（Overfitting）情況，在進(jìn)行機(jī)器學(xué)習(xí)實(shí)驗(yàn)時(shí)，通常取出部分可利用數(shù)據(jù)作為測(cè)試數(shù)據(jù)集（test set）進(jìn)行交叉驗(yàn)證。醉酒筆跡、強(qiáng)行加速書(shū)寫(xiě)筆跡、左手偽裝筆跡、老年人書(shū)寫(xiě)筆跡以及摩仿筆跡的數(shù)據(jù)分別采集70份后，依次對(duì)上文提及的特征進(jìn)行判斷，存在即賦值為1，否則為0，即得到350 份筆跡樣本數(shù)據(jù)，在該程序中，選擇了rate=25%進(jìn)行準(zhǔn)確率測(cè)試得知在該數(shù)據(jù)庫(kù)下，該模型的準(zhǔn)確率達(dá)到80%，并且該準(zhǔn)確率會(huì)隨著數(shù)據(jù)庫(kù)的數(shù)據(jù)加大，準(zhǔn)確率逐步提升。測(cè)試準(zhǔn)確率的主要程序如下所示：

4.2 離散型樸素貝葉斯模型的實(shí)現(xiàn)

樸素貝葉斯分類(lèi)是經(jīng)典的智能分類(lèi)模型，可以通過(guò)筆跡特征的識(shí)別，依據(jù)其特征屬性，判斷該未知筆跡類(lèi)型的書(shū)寫(xiě)形成方式，并初步對(duì)可疑樣本進(jìn)行智能自動(dòng)分類(lèi)。通過(guò)python 編程過(guò)程中，利用python 具有強(qiáng)大的開(kāi)源模塊這個(gè)特點(diǎn)，引入時(shí)下機(jī)器學(xué)習(xí)領(lǐng)域中常用的sklearn模塊，從sklearn中調(diào)用MultinomialNB和classification_report 等關(guān)于貝葉斯與數(shù)據(jù)處理的函數(shù)模塊，實(shí)現(xiàn)樸素貝葉斯的自動(dòng)運(yùn)算。

如圖1 所示，當(dāng)測(cè)試特征屬性的數(shù)列test=［1,1,1,1,1,1,1,1,1,1,0］時(shí)，其預(yù)測(cè)結(jié)果為醉酒書(shū)寫(xiě)筆跡，且有概率可以看出，雖然為MAX類(lèi)型概率高達(dá)63.9%，但其老年人書(shū)寫(xiě)筆跡的概率也高達(dá)35.9%，即最佳預(yù)測(cè)可能為醉酒筆跡，但需要注意其是否為老年人書(shū)寫(xiě)形成筆跡，亦或是老年人書(shū)寫(xiě)的醉酒筆跡。本實(shí)驗(yàn)中運(yùn)用的樣本為64周歲的老人在醉酒狀態(tài)下所書(shū)寫(xiě)該預(yù)測(cè)結(jié)果與實(shí)際相符。

圖1 預(yù)測(cè)樣本（左）與預(yù)測(cè)結(jié)果以及概率

5 總結(jié)

離散型貝葉斯模型在決策樹(shù)分類(lèi)中具有重要的作用，在上文中均已進(jìn)行闡述，此處不再詳述。在筆跡形成方式的判別領(lǐng)域一直未對(duì)其進(jìn)行有效運(yùn)用，本文通過(guò)實(shí)驗(yàn)表明，該模型在筆跡司法鑒定的實(shí)際運(yùn)用中具有重大的作用，可據(jù)此對(duì)筆跡的形成方式進(jìn)行有效判別，為司法鑒定工作提供理論依據(jù)和實(shí)踐指導(dǎo)。該模型是在pycharm軟件上完成python代碼的編撰，該軟件的運(yùn)用對(duì)于未進(jìn)行訓(xùn)練的鑒定人尚有難度，因此若能編寫(xiě)前端輸入口，使得該數(shù)據(jù)庫(kù)以及代碼成為后端，將會(huì)使其更為方便。