亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        文本挖掘技術(shù)在公安領(lǐng)域案件分析中的應(yīng)用

        2017-09-18 02:32:19魏文燕
        關(guān)鍵詞:類別分類器規(guī)則

        魏文燕,呂 鑫,高 琰

        (1.中南大學(xué),湖南 長沙410012;2.長沙市公安局,湖南 長沙 410005)

        文本挖掘技術(shù)在公安領(lǐng)域案件分析中的應(yīng)用

        魏文燕1,呂 鑫2,高 琰1

        (1.中南大學(xué),湖南 長沙410012;2.長沙市公安局,湖南 長沙 410005)

        為輔助民警辦案,提高搜集情報(bào)、偵查破案的能力,結(jié)合公安領(lǐng)域案件文本數(shù)據(jù)的特點(diǎn),將文本挖掘技術(shù)應(yīng)用于公安領(lǐng)域案件的分析處理中,提出了一個(gè)基于文本挖掘技術(shù)的案件信息處理框架。框架主要包括:信息抽取模塊,案件分類模塊。信息抽取模塊主要運(yùn)用正則表達(dá)式方法,可以有效地提取出所需求的線索信息,在完成線索信息提取之后,將具有相同線索信息的案件進(jìn)行串并案。在案件分類模塊中,構(gòu)建了層次SVM分類器和規(guī)則分類器,將兩者結(jié)合對案件進(jìn)行分類。在一定規(guī)模的數(shù)據(jù)集下對該框架進(jìn)行了功能和性能測試,獲得了較為滿意的結(jié)果。

        案件分析;信息抽?。晃谋就诰?;SVM分類

        隨著社會的發(fā)展,各行各業(yè)都積累了許多有意義的數(shù)據(jù)資料,公安領(lǐng)域也不例外,案件信息以每年百萬條的速度遞增。目前公安部門雖然有完善的案件信息管理系統(tǒng),可以方便地對案件進(jìn)行查詢、篩選、統(tǒng)計(jì)等處理,為警務(wù)人員減少了一定的勞動量,但是依靠這些傳統(tǒng)方法,很難挖掘出有價(jià)值的線索。因此,為有效維護(hù)社會信息條件下的國家安全和社會穩(wěn)定,公安機(jī)關(guān)就必須加強(qiáng)對各類信息的全面整合、綜合分析和預(yù)警監(jiān)測,不斷提高搜集情報(bào)、偵查破案、處置重大警情的能力[1]。

        公安領(lǐng)域的案件信息都是以文本的形式記錄在案的,這些案件文本中包含著各種重要的線索,如涉案電話號碼、網(wǎng)址等,提取出這些線索可以有效地幫助案件的偵破和串并案的發(fā)現(xiàn)。其次,業(yè)務(wù)人員在錄入案件的時(shí)候還需選擇案件類別,由于許多因素干擾,登記的案件類別可能并不是準(zhǔn)確的,不利于公安研判分析。因此借助機(jī)器學(xué)習(xí)下文本分類技術(shù)將案件自動分類,不僅可以節(jié)省人力,還能保證一定的案件分類準(zhǔn)確率,提高公安研判分析效率。目前,已有不少專家學(xué)者對公安領(lǐng)域的數(shù)據(jù)分析進(jìn)行了研究,如李曉冰論述了利用Excel對詐騙案件源數(shù)據(jù)進(jìn)行存儲和統(tǒng)計(jì)分析,根據(jù)統(tǒng)計(jì)分析的結(jié)果提取對案件分析有效的訓(xùn)練樣本,然后應(yīng)用Apriori算法進(jìn)行關(guān)聯(lián)規(guī)則分析,對詐騙案件內(nèi)部屬性之間存在的關(guān)系進(jìn)行挖掘[2]。如圖像方面的應(yīng)用研究:方世強(qiáng)論述了將數(shù)字圖像處理技術(shù)應(yīng)用于進(jìn)行機(jī)動車車牌識別的技術(shù)和重要性[3];譚熾烈論述了在海量數(shù)據(jù)時(shí)代將智能分析技術(shù)應(yīng)用于公安領(lǐng)域的視頻監(jiān)控[4]。其他還有改進(jìn)公安辦公方式的研究,聶展云利用智能手機(jī)、平板電腦等智能化移動終端由于其攜帶方便、移動性強(qiáng)、操作簡單、用戶體驗(yàn)好、應(yīng)用豐富等特性,開發(fā)移動警務(wù)平臺,更好地應(yīng)用于各級公安民警的實(shí)戰(zhàn)工作[5]。

        一、系統(tǒng)概述

        本文所提出的案件文本挖掘系統(tǒng)的框架重點(diǎn)為兩個(gè)功能模塊,案件要素抽取功能模塊和案件自動分類功能模塊,基于這兩個(gè)功能模塊可深入開展業(yè)務(wù)應(yīng)用,如利用提取的案件要素信息進(jìn)行聚類、串并案件;將案件正確分類后進(jìn)行研判等業(yè)務(wù)應(yīng)用。系統(tǒng)的框架結(jié)構(gòu)如圖1所示。

        二、案件要素抽取

        (一)案件要素抽取的工作內(nèi)容

        案件要素抽取是提取案件中有用的信息點(diǎn),或者說有利于破案的線索。根據(jù)公安方面提出的要求,需要提取目標(biāo)信息點(diǎn)為作案時(shí)間、涉案金額、身份證號、涉案網(wǎng)址、涉案銀行賬號、電話號碼、QQ號碼、交通工具、作案人員結(jié)構(gòu)、公交線路、公交站點(diǎn)。作案時(shí)間可用于統(tǒng)計(jì)某個(gè)時(shí)間段內(nèi)的總體或某類犯罪案件發(fā)生頻率,涉案金額主要應(yīng)用于統(tǒng)計(jì)犯罪案件造成的經(jīng)濟(jì)損失,其他的信息點(diǎn)均為重要的破案線索,利用線索的相關(guān)性,可對案件做進(jìn)一步處理,如串案、并案。其中,提取的作案時(shí)間如“2016年1月1日”,“2016年10月”,格式化為“2016/01/01”、“2016/10”;涉案金額描述形式多樣,如“被偷現(xiàn)金500元,蘋果手機(jī)一臺,現(xiàn)價(jià)值約為2000元,共計(jì)損失2500元”,所提取涉案金額為2500,為了保證后期統(tǒng)計(jì)的正確性,所以將分散的涉案金額進(jìn)行合計(jì)或只提取合計(jì)損失金額,最終只保留一個(gè)總金額;提取的交通工具信息點(diǎn)的描述形如“一輛銀白色轎車”、“無牌黑色面包車”;作案人員的描述形如“一個(gè)中年男子”、“兩名男子和一名女子”等,提取并修整為“□男□女”格式,如“2男1女”。

        圖1 系統(tǒng)的框架結(jié)構(gòu)

        這部分應(yīng)用正則表達(dá)式匹配方法。正則表達(dá)式在文本匹配和文本抽取方面有著強(qiáng)大的功能,在實(shí)際工作中如匹配用戶郵箱,手機(jī)號碼,抽取網(wǎng)頁內(nèi)容和網(wǎng)絡(luò)安全檢測等領(lǐng)域有著廣泛的應(yīng)用[6]。對于案件文本,雖然是以半結(jié)構(gòu)化文本的形式記錄在庫的,但其內(nèi)容本身結(jié)構(gòu)并不復(fù)雜,比較單一,符合時(shí)間、地點(diǎn)、人物、事件此類簡單的語法結(jié)構(gòu)。難點(diǎn)在于必須考慮正則表達(dá)式的容錯(cuò)性,因此,在充分研究分析案件文本數(shù)據(jù)之后,詳盡羅列出各項(xiàng)信息抽取的規(guī)則,并測試修改,最終整合成正則表達(dá)式。將正則表達(dá)式匹配案件文本中的語句,抽取相應(yīng)的信息。示例如下表所示:

        表1 信息抽取示例表

        二、案件要素抽取的主要應(yīng)用

        (一)簡化案件信息錄入。自動填充相關(guān)信息項(xiàng),使警務(wù)人員免于重復(fù)冗余的信息錄入;

        (二)支持多維度分析統(tǒng)計(jì)案件。在作案時(shí)間、涉案金額、身份證號、銀行賬號、電話號碼、QQ號碼、涉案網(wǎng)址、人員結(jié)構(gòu)、交通工具、公交線路、公交站點(diǎn)這11個(gè)維度下對案件進(jìn)行綜合統(tǒng)計(jì)分析,有助于案件材料的歸納整理工作;

        (三)自動串并案件。在原導(dǎo)入的案件數(shù)據(jù)的基礎(chǔ)上,返回“串并編號”和“串并要素”。則具有相同“串并編號”的案件即為系統(tǒng)自動串并的案件,“串并要素”即為同組串并案件具有的相同要素信息(涉案網(wǎng)址、涉案銀行賬號、電話號碼、QQ號碼)。警務(wù)人員通過“串并編號”的最大值即可掌握串并案件的總組數(shù),快速了解正在活動的犯罪團(tuán)伙數(shù)量;同一“串并編號”的數(shù)量反映出每組案件的規(guī)模,從而能夠科學(xué)安排警力優(yōu)先針對社會影響較大的多發(fā)性案件開展偵查;通過相同的“串并編號”可將相關(guān)案件線索串聯(lián)起來,更有效的偵破打擊違法犯罪。所抽取出的案件要素為串并案件提供依據(jù),串并案的意義不僅在于為偵查活動提供情報(bào)信息,還在于能夠增加案件信息(特別是近年來流行的電信詐騙、微信詐騙等),促使公安機(jī)關(guān)受理案件,及時(shí)發(fā)現(xiàn)此類案件新的詐騙特點(diǎn),是偵查人員全面了解案情,及時(shí)調(diào)整主動偵查的方向[7]。

        三、案件分類

        案件分類功能模塊的工作流程如下圖所示:

        圖2 案件分類工作流程圖

        (一)文本預(yù)處理

        在案件分類之前,需要做好案件文本預(yù)處理工作,本文中的文本預(yù)處理具體流程如下圖3所示。

        中文分詞是文本預(yù)處理流程的第一步。本文采用分詞效果和運(yùn)行速度都較為優(yōu)秀的“Jieba”分詞?!癑ieba”

        圖3 文本預(yù)處理流程圖

        分詞是一款目前應(yīng)用廣泛、口碑較好的分詞工具。該分詞工具可以讓用戶自行添加自定義詞典和停用詞詞典,這兩個(gè)特性對于案件文本的分詞,具有實(shí)際應(yīng)用價(jià)值,案件文本中包含不少公安領(lǐng)域?qū)I(yè)詞匯和地區(qū)、道路等名稱詞匯,將這些特殊詞匯添加至自定義詞典,同時(shí)將區(qū)分度差的高頻詞匯放入停用詞典,可顯著提升分詞效果。

        第二步,將案件文本轉(zhuǎn)換成計(jì)算機(jī)能夠理解的表示形式。本文采用向量空間模型(Vector Space Model,VSM)表示案件文本。該模型的主要思想是:將每一文檔都映射為由一組規(guī)范化正交詞條矢量張成的向量空間中的一個(gè)點(diǎn)。對于所有的文檔類和未知文檔,都可以用此空間中的詞條向量(T1 , W1 , T2 , W2 ,…, Tn , Wn)來表示(其中,Ti為特征向量詞條;Wi為Ti 的權(quán)重)[8]。一般需要構(gòu)造一個(gè)評價(jià)函數(shù)來表示詞條權(quán)重,其計(jì)算的唯一準(zhǔn)則就是要最大限度地區(qū)別不同文檔。傳統(tǒng)的特征項(xiàng)的權(quán)重計(jì)算方法還有TF/IDF方法,布爾模型方法等,本文采用TF/IDF權(quán)重計(jì)算方法。

        特征降維有兩上級方法。一類稱為特征選擇(Term Selection),另一類稱為特征抽?。═erm Extraction)。降維后生成的特征集合的每一個(gè)元素具有更強(qiáng)的代表性,維數(shù)的減少意味著耗費(fèi)更少的計(jì)算資源[9]。

        本文采用的特征降維的方法:

        建立停用詞集合,分詞過程中篩去停用詞;

        建立公安領(lǐng)域的同義詞詞典,經(jīng)過同義詞替換減少特征集合的維度;

        在分詞過程中,對分詞的結(jié)果進(jìn)行詞性標(biāo)注,篩去詞性為人名的詞。

        (二)基于SVM的文本分類

        案件自動分類模塊是指訓(xùn)練好的分類器對給定的未知類別案件文本,自動將其歸為某一類別。浙江大學(xué)的程春惠等人曾將改進(jìn)的樸素貝葉斯算法應(yīng)用于犯罪案件文本的分類,取得較高的分類準(zhǔn)確率。本文分類器采用的算法為支持向量機(jī)(Support Vector Machine,SVM)分類算法。其具有堅(jiān)實(shí)的理論依據(jù)和成功的實(shí)踐經(jīng)驗(yàn),在許多領(lǐng)域(如手寫數(shù)字識別,物體識別和文本分類)得到應(yīng)用[10]。

        對于支持向量機(jī)分類器,選擇合適的核函數(shù)、調(diào)整類別權(quán)重與獲取滿意的分類準(zhǔn)確率休戚相關(guān)。常用的核函數(shù)有線性核(Linear Kernel)、多項(xiàng)式核(Polynomial Kernel)、徑向基核函數(shù)(Radial Basis Function)、Sigmoid核(Sigmoid Kernel)等[11]。本文的實(shí)驗(yàn),對比分析了在相同數(shù)據(jù)條件下,采用線性核函數(shù)可以達(dá)到較高的準(zhǔn)確率,這與許多文獻(xiàn)的結(jié)論一致[12]。

        現(xiàn)實(shí)中,每天被錄入的案件種類繁多,常見的有電信詐騙、入室盜竊等,比較少見的有吸毒賭博、集資詐騙等。因此,本文根據(jù)總體案件文本類別數(shù)量不均衡的特征,采用了自動調(diào)整類別權(quán)重平衡模式,類別權(quán)重值與該類出現(xiàn)的頻率成反比。設(shè)當(dāng)前樣本總數(shù)為n_ samples ,案件類別共有n_classes類,屬于類別y的案件出現(xiàn)次數(shù)為count(y),類別y的權(quán)重值計(jì)算公式為……1

        (三)層次分類結(jié)構(gòu)

        本文通過分析案件文本、案件類別和省廳案件細(xì)分化文件,發(fā)現(xiàn)案件的類別與類別之前存在層次關(guān)系,比如某一條關(guān)于在道路上實(shí)施搶劫財(cái)物的案件,不同的警務(wù)人員給定的類別就可能不同,其可被分為“搶劫”或“攔路搶劫”,實(shí)際上,攔路搶劫屬于搶劫的一個(gè)類別,換而言之,“搶劫”是上級類別,“攔路搶劫”屬于“搶劫”的下級類別。鑒于這種情況,本文合理地將分類器設(shè)計(jì)為層次結(jié)構(gòu),自頂向下,逐層分類。采用雙層分類結(jié)構(gòu)(類似于兩層樹結(jié)構(gòu)),訓(xùn)練時(shí),先將所有樣本以上級類別作為標(biāo)簽訓(xùn)練上級分類器(根分類器),然后根據(jù)各個(gè)上級的案件樣本子集,以下級類別作為標(biāo)簽訓(xùn)練出每個(gè)下級分類器(子分類器)。當(dāng)給定一個(gè)案件樣本,首先經(jīng)過上級分類器獲得上級類別,再經(jīng)下級分類器獲得下級類別(最終類別),如圖4。

        圖4 層次分類結(jié)構(gòu)

        基于層次結(jié)構(gòu)的支持向量機(jī)分類器,對于樣本類別之間具有層次關(guān)系的樣本集,可以提高分類準(zhǔn)確率。比如在案件樣本中,“車扒”和“扒竊”均為樣本類別名稱,實(shí)際上“車扒”是屬于“扒竊”的一種類型(在公交車上作案),如果將“車扒”和“扒竊”按同級類別進(jìn)行分類,“車扒”類的分類準(zhǔn)確率僅為0.855;而將“扒竊”作為上級類別,“車扒”作為“扒竊”的下一級類別,“車扒”類的分類準(zhǔn)確率為0.975。

        在上級分類層中,案件類別差異較大,而類別數(shù)目較少,使得特征降維后的特征向量的類別區(qū)分能力強(qiáng),從原理上說,支持向量機(jī)的判決函數(shù)只與支持向量有關(guān),如果支持向量差異明顯,分類間隔的寬度就比較大,從而分類準(zhǔn)確率提高。在上級分類的準(zhǔn)確率得到充分保障基礎(chǔ)上,從下層各個(gè)下級類別的案件樣本子集中抽取出區(qū)分能力強(qiáng)的特征詞,構(gòu)成新的特征向量。各個(gè)下級類別的分類器都有屬于自己的特征向量,能減少不相關(guān)類別的信息干擾,這有利于尋找到最優(yōu)分類決策面。

        通過訓(xùn)練集生成各個(gè)支持向量機(jī)分類器模型后,便可以進(jìn)行案件分類,分類工作的基本步驟如下:

        除了田園,文學(xué)里的另一個(gè)神話是故鄉(xiāng),且經(jīng)常和田園神話糾纏在一起。前一段時(shí)間,大家都在寫“每個(gè)人的故鄉(xiāng)都在淪陷”,感嘆一份曾經(jīng)的美好在漸漸消失。隨著城市化進(jìn)程的推進(jìn),中國鄉(xiāng)村開始凋敝,這是事實(shí)。但是很多感嘆不是為了哀婉這個(gè),倒像在構(gòu)建一個(gè)關(guān)于過去的田園神話。

        利用“jieba”分詞對案件進(jìn)行分詞,剔除詞性為人名的詞,然后經(jīng)過同義詞替換。

        根據(jù)上級類別L1,調(diào)用對應(yīng)L1類別的下級分類器,假設(shè)該下級分類器的特征集為,采用TF/IDF權(quán)重計(jì)算方法向量化該案件得到新的特征向量,最后得到由該下級分類器預(yù)測出的最終案件類別。

        (四)規(guī)則分類與SVM分類結(jié)合

        在SVM分類過程中,分類器的置信度是一個(gè)值得重視的參量。在決策過程中,對測試樣本分別計(jì)算各個(gè)子分類器的決策函數(shù)值,并選取分類器決策函數(shù)值最大所對應(yīng)的類別作為測試樣本的預(yù)測類別。多采用以決策函數(shù)值作為衡量置信度大小的標(biāo)準(zhǔn)[13],在預(yù)測時(shí),記錄了每條測試樣本的每個(gè)SVM分類器的決策函數(shù)值。本文經(jīng)過分析研究和實(shí)驗(yàn),對滿足以下情況的案件樣本拒識:

        各個(gè)分類器的決策函數(shù)值均為負(fù)數(shù);

        僅一個(gè)分類器的決策函數(shù)值為正數(shù),但其值很小,小于1;

        出現(xiàn)三個(gè)及以上的分類器的決策函數(shù)值為正數(shù)。

        通過對分類器的判決結(jié)果進(jìn)行基于決策函數(shù)的置信度評估,拒識置信度水平相對較低的決策結(jié)果,接受置信度水平較高的決策結(jié)果。對于被拒識的案件,本文調(diào)用規(guī)則匹配分類器確定其類別。

        規(guī)則匹配分類器是依據(jù)產(chǎn)生式規(guī)則的思想,建立事實(shí)數(shù)據(jù)庫并設(shè)計(jì)規(guī)則庫,基于現(xiàn)有的規(guī)則庫示推理過程和行為。在所采用的確定性推理中,規(guī)則庫中的所有規(guī)則、事實(shí)數(shù)據(jù)庫中的所有事實(shí)和推導(dǎo)出來的結(jié)論都是正確的,它們要么成立要么不成立[14]。本文的規(guī)則匹配分類器是一個(gè)應(yīng)用規(guī)則庫(含875條規(guī)則,可進(jìn)行增刪改操作),利用邏輯關(guān)系匹配的方法檢驗(yàn)案件文本信息的工具。規(guī)則庫有多個(gè)屬性列,分別為序號列,關(guān)鍵詞列,排斥詞列,類別名稱列,上級類別列。規(guī)則以IF…THEN…的形式出現(xiàn),IF所帶的是前件(條件),THEN所帶的是后件(結(jié)論),多個(gè)條件是通過邏輯運(yùn)算AND,OR,NOT組合成復(fù)合條件,當(dāng)完全滿足條件才能推出對應(yīng)的結(jié)論。例如,規(guī)則庫中有這樣一條規(guī)則:IF(被盜EXIT AND 臥室EXIT)AND NOT(酒店EXIT OR 旅館EXIT)THEN(類別名稱=入室盜竊,上級類別=盜竊)。

        當(dāng)給定一個(gè)案件,規(guī)則匹配分類器整體的匹配分類過程如圖5所示:當(dāng)出現(xiàn)遍歷所有規(guī)則仍沒有匹配成功,就說明對該案件分類失敗。規(guī)則匹配分類器依賴于人工經(jīng)驗(yàn)積累編寫而成的規(guī)則庫,適用于識別出現(xiàn)頻率低、具備明顯特征詞的案件,如“糾紛”、“舉報(bào)”、“涉毒”等類別的案件,對于邏輯關(guān)系復(fù)雜的案件類別容易產(chǎn)生錯(cuò)誤,而且由于規(guī)則庫中規(guī)則數(shù)量較多,對每一條待分類案件需要順序遍歷規(guī)則直到匹配符合,匹配每一條規(guī)則還需迭代各個(gè)關(guān)鍵詞和排斥詞,所以分類速度較慢,單條案件分類速度遠(yuǎn)慢于支持向量機(jī)分類的速度。因而本文采用以支持向量機(jī)分類為主,規(guī)則分類為輔的方法對案件進(jìn)行分類,同時(shí)保證了分類速度和分類準(zhǔn)確率。

        圖5 匹配分類過程

        四、實(shí)驗(yàn)與評估

        本節(jié)對上述系統(tǒng)各模塊的功能進(jìn)行了測試和評估。本系統(tǒng)平臺為Windows8.1 64 bit操作系統(tǒng),實(shí)驗(yàn)程序所用的編寫語言為Python2.7.9,數(shù)據(jù)庫為MS Excel2013,程序界面簡潔友好,簡單易用。

        (一)信息抽取評估與應(yīng)用

        本部分實(shí)驗(yàn)以2015年10月01日至2015年10月05日的8031條案件樣本作為實(shí)驗(yàn)數(shù)據(jù),對信息抽取功能進(jìn)行了測試。

        實(shí)驗(yàn)結(jié)果要素i被正確抽取的比例Pi為評價(jià)指標(biāo):

        式中:rp為要素i被正確提取的案件個(gè)數(shù),wp為要素i被錯(cuò)誤提取的案件個(gè)數(shù),up為要素i存在但未被提取的案件個(gè)數(shù)。

        信息抽取效果如圖6所示。

        圖6 各信息要素被正確抽取率

        信息抽取效果評估:

        1. 金額提取基本準(zhǔn)確,但有些案件的金額涉及案件實(shí)際發(fā)生金額和非實(shí)際發(fā)生金額,實(shí)際發(fā)生金額如“被盜一部手機(jī),現(xiàn)價(jià)值2000元”,非實(shí)際發(fā)生金額如“對方打來電話說自己中了五千元大獎”,其中的“五千元”也會被提取出來,這種情況下提取的是非有效金額。

        2. 身份證號碼、電話號碼、手機(jī)號碼、QQ號碼提取基本全面、完整,但如上文提到暫時(shí)還不能實(shí)現(xiàn)區(qū)分號碼所屬為受害者還是嫌疑人,后續(xù)研究將借助語義分析的方法改進(jìn)[15]。

        3. 案件中出現(xiàn)的時(shí)間基本都可以提取到,目前不能區(qū)分將報(bào)案時(shí)間和案件發(fā)生時(shí)間,需要進(jìn)一步的改進(jìn)。

        (二)案件分類評估與應(yīng)用

        本案件分類模塊可以隨時(shí)導(dǎo)入、添加訓(xùn)練樣本,獲得新的分類器模型,使系統(tǒng)滿足隨時(shí)改善(提高分類準(zhǔn)確率)的要求,也可以識別新類別的案件。

        本文研究對象為盜竊、詐騙等涉及財(cái)產(chǎn)的財(cái)產(chǎn)案件,樣本集中多為財(cái)產(chǎn)案件,少量為非財(cái)產(chǎn)案件。對于非財(cái)產(chǎn)案件采用本文的拒識方法予以拒識,并由規(guī)則分類器給出案件類別。

        實(shí)驗(yàn)以準(zhǔn)確率作為評價(jià)指標(biāo),定義公式如下:

        式中:tp是被正確地劃分為正例的個(gè)數(shù),fp是被錯(cuò)誤地劃分為正例的個(gè)數(shù)。

        實(shí)驗(yàn)采用十折交叉驗(yàn)證法,對普通SVM分類(svm),層次SVM分類(hiersvm)、規(guī)則與層次SVM結(jié)合的分類(rule+hiersvm)的分類效果進(jìn)行了比較,結(jié)果如下:

        圖7 分類器交叉驗(yàn)證實(shí)驗(yàn)結(jié)果

        上表數(shù)據(jù)是對訓(xùn)練集進(jìn)行交叉驗(yàn)證實(shí)驗(yàn)所得到的結(jié)果。其中SVM分類器均采用了以TF/ IDF方法計(jì)算詞條權(quán)重,過濾了停用詞、人名和同義詞替換,核函數(shù)為線性核函數(shù),對錯(cuò)誤樣本的懲罰因子設(shè)為1。

        普通SVM分類器和層次SVM分類器的不同之處為層次SVM分類器具有層次關(guān)系結(jié)構(gòu)。從圖表中數(shù)據(jù)可以看到,層次SVM分類器相對于普通SVM分類器,分類準(zhǔn)確率提高了7.124個(gè)百分點(diǎn)。本實(shí)驗(yàn)數(shù)據(jù)的層次結(jié)構(gòu)比較簡單,理論上來說,具有更復(fù)雜層次的實(shí)驗(yàn)樣本數(shù)據(jù)更能凸顯層次分類器的分類效果。而規(guī)則與層次SVM結(jié)合的分類又比單純的層次SVM分類高出4.869個(gè)百分點(diǎn),說明對于數(shù)量較少的非財(cái)產(chǎn)案件采用規(guī)則匹配分類更為合理??傮w而言,規(guī)則與層次SVM結(jié)合的分類效果最優(yōu)。

        案件分類可應(yīng)用于服務(wù)治安態(tài)勢分析,預(yù)測各類案件的發(fā)生趨勢,輔助警務(wù)人員決策。

        [1]王曉鑫. 論“大數(shù)據(jù)”時(shí)代下的公安數(shù)據(jù)采集[J].中國科技博覽,2015(5):234-234.

        [2]李曉冰. 基于Apriori算法的詐騙案件關(guān)聯(lián)規(guī)則挖掘研究[J].中國管理信息化, 2015(13):219-222.

        [3]方世強(qiáng). 淺談數(shù)字圖像處理技術(shù)識別車牌在公安領(lǐng)域中的應(yīng)用和重要性[J]. 計(jì)算機(jī)光盤軟件與應(yīng)用, 2014(10):30-30.

        [4]譚熾烈. 海量數(shù)據(jù)挖掘時(shí)代智能分析技術(shù)在公安領(lǐng)域的應(yīng)用[J]. 中國安防, 2016(7):71-74.

        [5]聶展云. 移動警務(wù)服務(wù)平臺在公安領(lǐng)域的研究和實(shí)踐[J].警察技術(shù), 2014(3):44-46.

        [6]周海. 基于正則表達(dá)式數(shù)據(jù)挖掘研究[J].電腦編程技巧與維護(hù),2016(10):51-51.

        [7]徐一鳴. 信息化偵查在微信詐騙案件中的應(yīng)用探析[J].湖南警察學(xué)院學(xué)報(bào),2016(3):35-35

        [8]An J L, Wang Z O, Ma Z P. A new SVM multiclass classification method[J]. Information & Control, 2004, 33(3):262-267.

        [9]張士豪, 顧益軍, 張俊豪. 微博自動分類系統(tǒng)設(shè)計(jì)[J].信息網(wǎng)絡(luò)安全,2016(1):81-87.

        [10]Morales N, Toledo J, Acosta L. Path planning using a Multiclass Support Vector Machine[J]. Applied Soft Computing, 2016 (43):498–509.

        [11]Brereton R G, Lloyd G R. Support Vector Machines for Classification and Regression[J]. Analyst, 2009, 135(2):230-67.

        [12]趙暉. 支持向量機(jī)分類方法及其在文本分類中的應(yīng)用研究[D].大連:大連理工大學(xué),2006.

        [13]趙行. SVM分類器置信度的研究[D].北京:北京郵電大學(xué),2010.

        [14]寧琳. 一種基于句法規(guī)則的文本挖掘技術(shù)的設(shè)計(jì)[J]. 現(xiàn)代情報(bào), 2016(2):140-144.

        [15]陳靜. 基于知識的風(fēng)險(xiǎn)決策系統(tǒng)構(gòu)架的研究[D]. 湖北大學(xué), 2008.

        [16]閆新娟. 基于隱馬爾科夫模型和神經(jīng)網(wǎng)絡(luò)的入侵檢測研究[D]. 南華大學(xué), 2014.

        Application of Text Mining Technology in the Field of Public Security

        WEI Wen-yan1, LV Xin2, GAO Yan1
        (1. School of Information Science and Engineering, Central South University, Changsha, Hunan, 410012; 2. Changsha Public Security Bureau, Changsha, Hunan, 410005)

        In order to assist the police handling the case, improve the ability to collect intelligence, detect and solve the case, this paper analyzes the characteristics of text data in the field of public security cases, and applies text mining technology to the analysis and processing of public security cases, and proposes a framework of case information processing based on text mining technology. The framework mainly includes: information extraction module, case classification module. The information extraction module mainly uses the regular expression method, which can extract the cue information effectively. After the extraction of the cue information, the case with the same cue information will be concatenated. In the case classification module, a SVM classifier and a rule classifier are constructed, which combine the two cases to classify the cases. The function and performance of the framework are tested under a certain data set, and satisfactory results are obtained.

        natural language processing; data mining; information extraction; SVM

        D631.2

        A

        2095-1140(2017)03-0000-00

        2017-3-19

        魏文燕(1991- ),女,浙江余姚人,中南大學(xué)信息科學(xué)與工程學(xué)院2014級控制工程專業(yè)碩士研究生,主要從事數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)研究;呂 鑫(1987- ),男,湖南長沙人,長沙市公安局助理工程師,主要從事警務(wù)人工智能研究;高 琰(1974- ),女,中南大學(xué)副教授,博士,主要從事數(shù)據(jù)挖掘、智能信息處理研究。

        猜你喜歡
        類別分類器規(guī)則
        撐竿跳規(guī)則的制定
        數(shù)獨(dú)的規(guī)則和演變
        BP-GA光照分類器在車道線識別中的應(yīng)用
        電子測試(2018年1期)2018-04-18 11:52:35
        讓規(guī)則不規(guī)則
        Coco薇(2017年11期)2018-01-03 20:59:57
        TPP反腐敗規(guī)則對我國的啟示
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
        服務(wù)類別
        新校長(2016年8期)2016-01-10 06:43:59
        論類別股東會
        商事法論集(2014年1期)2014-06-27 01:20:42
        基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
        豆国产96在线 | 亚洲| 亚洲精品二区在线观看| 极品少妇一区二区三区四区视频 | 日韩av无码午夜福利电影| 亚洲乱码中文字幕三四区| 国产老熟妇精品观看| 日韩插啊免费视频在线观看| 91情侣视频| 国产精品午夜福利天堂| 日韩亚洲中文有码视频| 天堂中文а√在线| 人与嘼交av免费| 波多野结衣视频网址| 视频一区二区三区中文字幕狠狠| 国产av在线观看一区二区三区 | 521色香蕉网站在线观看| 精品人妻一区二区三区蜜臀在线 | 日韩免费精品在线观看| 猫咪av成人永久网站在线观看| 国产成人亚洲综合无码| 杨幂Av一区二区三区| 亚洲一区二区三区视频免费看| 国产a国产片国产| 日本强好片久久久久久aaa| 亚洲综合色婷婷七月丁香| 国产亚洲精品精品综合伦理| 亚洲乱色伦图片区小说| 国产精品一区二区暴白浆| 青青草久热手机在线视频观看| 精品国产a毛片久久久av| 亚洲日韩小电影在线观看| 伊人蕉久中文字幕无码专区| 亚洲一区二区高清精品| 亚洲av熟女传媒国产一区二区| 国产日韩精品欧美一区喷水| 极品粉嫩嫩模大尺度无码| 日本熟妇高潮爽视频在线观看| 日韩av在线播放人妻| 无码少妇一区二区浪潮av| 在线综合网| 亚洲综合天堂一二三区|