亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于文本分類的維吾爾文數(shù)字取證研究

        2016-04-12 00:00:00如先姑力·阿布都熱西提賀一峰亞森·艾則孜
        現(xiàn)代電子技術(shù) 2016年10期

        摘 要: 針對(duì)維吾爾文書寫的數(shù)字文本的犯罪取證,提出一種基于文本分類的維吾爾文數(shù)字取證方案。首先,對(duì)維吾爾文文本進(jìn)行預(yù)處理,濾除文本中非維吾爾文字符和停用詞;然后,提出一種多特征空間正則化互信息(M?FNMI)算法,使用輸入特征組合與類之間的互信息(MI)來代替單個(gè)特征與類之間的MI,從而提取出更準(zhǔn)確的特征詞;最后,利用支持向量機(jī)(SVM)算法來對(duì)特征進(jìn)行分類。實(shí)驗(yàn)結(jié)果表明,該方案具有較高的分類精度,能夠?yàn)榉缸锶∽C提供判斷依據(jù)。

        關(guān)鍵詞: 數(shù)字取證; 文本分類; 維吾爾文; 互信息; 支持向量機(jī)

        中圖分類號(hào): TN911?34; TP391 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2016)10?0009?05

        Research on Uyghur digital forensics based on text categorization

        RUXIANGULI Abudurexiti, HE Yifeng, YASEN Aizezi

        (Department of Information Security Engineering, Xinjiang Police College, Urumqi 830013, China)

        Abstract: For the crime forensics of digital texts written in Uighur, a Uyghur digital forensic scheme based on text categorization is proposed. The Uyghur texts are preprocessed to filter the non Uyghur characters and stop words. A multi?feature space normalized mutual information (M?FNMI) algorithm is proposed. The mutual information (MI) between input feature combination and class is used to replace the MI between the single feature and class, so as to extract more accurate feature words. The support vector machine (SVM) algorithm is used to classify those features. Experimental results show that the proposed scheme has higher classification accuracy, and can provide a basis for criminal evidence collection.

        Keywords: digital forensic; text categorization; Uyghur; mutual information; support vector machine

        0 引 言

        由于信息和存儲(chǔ)技術(shù)的飛速發(fā)展,公安信息系統(tǒng)中存儲(chǔ)了大量的案件信息。為了能夠更好地預(yù)防、打擊和控制犯罪,則需要應(yīng)用數(shù)字取證技術(shù),對(duì)存儲(chǔ)數(shù)據(jù)進(jìn)行深度分析,發(fā)現(xiàn)各類案例信息的規(guī)律和關(guān)系[1]。在數(shù)字取證過程中,面對(duì)大量的電子文檔,如何快速地將電子文檔進(jìn)行分類,準(zhǔn)確地辨析案件類型,以及從中提取出有用的信息是取證人員需要解決的一個(gè)主要問題,而數(shù)據(jù)挖掘中的文本分類技術(shù)是解決這種問題的一種有效方法[2]。

        隨著國(guó)家對(duì)新疆地區(qū)的大力投入,使其信息化建設(shè)得到快速發(fā)展,維吾爾文等少數(shù)民族語種的大量文字信息開始以數(shù)字化形式呈現(xiàn)。對(duì)維吾爾文書寫的大量文本數(shù)據(jù)進(jìn)行文本分類,從而進(jìn)行電子取證,能夠?yàn)樾陆貐^(qū)的計(jì)算機(jī)犯罪提供有力證據(jù),具有重要的意義[3]。

        目前,對(duì)于英文和中文等大語種的文本分類技術(shù)已經(jīng)得到大量研究,并趨于成熟。然而,對(duì)于維吾爾文表述的數(shù)字文本的文本分類,相關(guān)方面的研究還處于起步階段。維吾爾語是一種黏著性語言,具有比較復(fù)雜的時(shí)態(tài)變化和豐富的形態(tài)結(jié)構(gòu)[4]。為此,文獻(xiàn)[4]提出一種基于語義詞特征提取的維吾爾文文本的分類方法,用一種組合統(tǒng)計(jì)量(DME)來度量文本中相鄰單詞之間的關(guān)聯(lián)程度,以此來提取特征詞。文獻(xiàn)[5]利用[χ2]統(tǒng)計(jì)量來提取詞干,并利用支持向量機(jī)(Support Vector Machine,SVM)算法來構(gòu)造了維吾爾文文本分類器。文獻(xiàn)[6]提出一種新的統(tǒng)計(jì)量(CHIMI),將[χ2]統(tǒng)計(jì)量和互信息(Mutual Information,MI)進(jìn)行結(jié)合組成CHIMI,抽取Bigram作為文本特征,并采用SVM算法對(duì)維吾爾文文本進(jìn)行分類。

        本文在改進(jìn)傳統(tǒng)MI提取特征的基礎(chǔ)上,提出一種基于文本分類的維吾爾文數(shù)字取證方案,用于犯罪文本取證。利用改進(jìn)型正則化互信息算法對(duì)維吾爾文進(jìn)行特征提取,利用SVM進(jìn)行文本分類,從而取證出與犯罪相關(guān)的文本信息。

        1 本文方案

        本文提出一種基于文本分類的維吾爾文數(shù)字取證方案,其主要包括3個(gè)部分:維吾爾文文本預(yù)處理;特征提??;文本分類。

        其中,在特征提取階段,本文針對(duì)傳統(tǒng)MI特征提取中只考慮單個(gè)特征和類別的MI,而沒有考慮上下文特征關(guān)聯(lián)性的缺陷,對(duì)其進(jìn)行改進(jìn),將輸入特征的組合與類別之間的MI代替單一特征與類別的MI。

        1.1 文本預(yù)處理

        維吾爾文文本預(yù)處理主要包括兩個(gè)部分:文本過濾和詞干提取。其中,文本過濾用于過濾掉文本中非維吾爾文文字和停用詞;詞干提取是用來提取文本中具有真正含義的詞匯。經(jīng)過文本預(yù)處理,可將文本原始特征維度降低約一半。文本去噪過程中,首先對(duì)文本進(jìn)行過濾,獲得維吾爾文單詞集。然后,通過和事先準(zhǔn)備好的停用詞表進(jìn)行比對(duì),過濾掉停用詞。停用詞為對(duì)文本主題沒有貢獻(xiàn),不包含文章類別信息的詞,例如介詞、副詞、代詞等。去掉停留詞能夠?qū)崿F(xiàn)特征降維,提高分類精度[7]。詞干提取過程中,首先,根據(jù)維吾爾文單詞與單詞之間的空格符來進(jìn)行分詞。由于維吾爾文單詞是由字母拼寫而成的,通過將不同的詞綴粘貼到單詞的頭部來實(shí)現(xiàn)語法功能,所以,提取文本中能夠代表真實(shí)含義的詞匯是困難的。維吾爾文中,同一詞干可以演變?yōu)楹芏嗖煌x的詞語,雖然這些詞語的詞形不同,但詞義卻不會(huì)有很大區(qū)別[8]。其中一個(gè)典型例子如表1所示。為了提取單詞的詞義,并考慮特征的數(shù)量,本文以詞干(學(xué)校)作為特征項(xiàng),以此從文本中提取出詞干集。

        2 實(shí)驗(yàn)及分析

        2.1 實(shí)驗(yàn)環(huán)境

        為了評(píng)估本文方案的性能,構(gòu)建一個(gè)計(jì)算平臺(tái),以Intel酷睿i5作為CPU,主頻為2.4 GHz,應(yīng)用Windows 7系統(tǒng)環(huán)境,利用Matlab 2011進(jìn)行實(shí)驗(yàn)。

        對(duì)于維吾爾文的文本分類應(yīng)用,目前還沒有可使用的標(biāo)準(zhǔn)文本集。由于本文方案是應(yīng)用于犯罪數(shù)字取證領(lǐng)域,所以本文從新疆公安犯罪數(shù)據(jù)庫中的案情、新疆公安網(wǎng)公布的治安新聞以及人民網(wǎng)維吾爾文版的新聞上收集了2 500篇文本,通過人工方式將其分為7類犯罪: 危害國(guó)家安全;危害公共安全;侵犯公民人身權(quán)利;破壞市場(chǎng)經(jīng)濟(jì)秩序;妨害社會(huì)管理秩序;侵犯財(cái)產(chǎn);貪污賄賂。其中,1 600篇文本作為訓(xùn)練集,900篇作為測(cè)試集。各類的訓(xùn)練和測(cè)試樣本數(shù)如表2所示。

        表2 分類文本庫

        2.2 性能指標(biāo)

        本文采用分類中常用的性能指標(biāo)[F1]值來評(píng)估方案性能,其由準(zhǔn)確率(P)和召回率(R)計(jì)算獲得:

        [P=aa+b,R=aa+c]

        式中:[a]表示正確分類的文本數(shù);[b]表示分類為該類,但不屬于該類的文本數(shù);[c]表示屬于該類,但未被分類到該類的文本數(shù)。通常將準(zhǔn)確率和召回率進(jìn)行綜合,得到評(píng)估文本分類質(zhì)量的[F1]值,表達(dá)式如下:

        [F1=2RPR+P] (15)

        通常情況下,方案的[F1]值越高,則分類效果越好。實(shí)驗(yàn)中,本文將各個(gè)類別的[F1]值求平均,得到最終性能指標(biāo),即[F1]平均值。

        2.3 分類實(shí)驗(yàn)

        實(shí)驗(yàn)中,首先對(duì)維吾爾文文本集進(jìn)行預(yù)處理,為了方便后續(xù)處理,把文本轉(zhuǎn)換成UTF?8二進(jìn)制編碼格式。然后,過濾掉文本中的非維吾爾文字符和停用詞。預(yù)處理結(jié)束后,獲得一個(gè)具有24 420個(gè)特征的初始特征集。然后進(jìn)行詞干提取,將同一詞根演變而來的特征進(jìn)行聚合,使初始特征項(xiàng)降維到13 826個(gè)。然后通過本文提出的M?FNMI特征提取算法,提取出和類別具有高互信息(高區(qū)分度)的詞干作為最終特征。設(shè)定每個(gè)類別提取500~2 500個(gè)特征詞。表3描述了危害國(guó)家安全類別和侵犯公民人身權(quán)利類別中前5名的特征詞,這些特征詞具有最強(qiáng)的區(qū)別能力。

        3 結(jié) 語

        本文針對(duì)維吾爾文表述的數(shù)字文本取證應(yīng)用,提出一種基于文本分類的取證方案,利用提出的多特征空間正則化互信息(M?FNMI)對(duì)維吾爾文文本進(jìn)行特征提取,利用SVM算法對(duì)特征進(jìn)行分類。實(shí)驗(yàn)中,設(shè)定7類犯罪類型,將本文方案與現(xiàn)有方案進(jìn)行比較,結(jié)果表明,本文方案具有較高的分類性能,能夠?yàn)樾陆膊块T進(jìn)行數(shù)字取證提供有力依據(jù)。

        注:本文通訊作者為亞森·艾則孜。

        參考文獻(xiàn)

        [1] 程春惠,何欽銘.面向不均衡類別樸素貝葉斯犯罪案件文本分類[J].計(jì)算機(jī)工程與應(yīng)用,2009,45(35):126?128.

        [2] 劉露,彭濤,左萬利,等.一種基于聚類的PU主動(dòng)文本分類方法[J].軟件學(xué)報(bào),2013,24(11):2571?2583.

        [3] 熱依萊木·帕爾哈提,孟祥濤,艾斯卡爾·艾木都拉.基于區(qū)分性關(guān)鍵詞模型的維吾爾文本情感分類[J].計(jì)算機(jī)工程,2014, 40(10):132?136.

        [4] 吐爾地·托合提,艾克白爾·帕塔爾,艾斯卡爾·艾木都拉.語義詞特征提取及其在維吾爾文文本分類中的應(yīng)用[J].中文信息學(xué)報(bào),2014,28(4):140?144.

        [5] 阿力木江·艾沙,吐爾根·依布拉音,庫爾班·吾布力.基于SVM的維吾爾文文本分類研究[J].計(jì)算機(jī)工程與科學(xué),2012,34(12):150?154.

        [6] 阿力木江·艾沙,庫爾班·吾布力,吐爾根·依布拉音.維吾爾文Bigram文本特征提取[J].計(jì)算機(jī)工程與應(yīng)用,2015,51(3):216?221.

        [7] UYSAL A K, GUNAL S. The impact of preprocessing on text classification [J]. Information processing management, 2014, 50(7): 104?112.

        [8] 陳卿,袁保社,李曉,等.基于模板匹配的印刷維吾爾文字符識(shí)別研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2012,22(4):119?122.

        [9] DENG H, RUNGER G, TUV E, et al. A time series forest for classification and feature extraction [J]. Information sciences, 2013, 239(4): 142?153.

        [10] OVEISI F, OVEISI S, ERFANIAN A, et al. Tree?structured feature extraction using mutual information [J]. IEEE transactions on neural networks learning systems, 2012, 23(1): 127?137.

        [11] 劉露,彭濤,左萬利,等.一種基于聚類的PU主動(dòng)文本分類方法[J].軟件學(xué)報(bào),2013,24(11):2571?2583.

        [12] 趙輝,劉懷亮,張倩.一種基于復(fù)雜網(wǎng)絡(luò)的中文文本分類算法[J].情報(bào)學(xué)報(bào),2012,31(11):1179?1186.

        [13] LIU Zhijie, LYU Xueqiang, LIU Kun, et al. Study on SVM compared with the other text classification methods[C]// International Workshop on Education Technology Computer Science. Wuhan, Hubei, China: [s.n.], 2010: 219?222.

        [14] CAO J F, CHEN J J. An improved web text classification algorithm based on SVM?KNN [J]. Applied mechanics materials, 2013, 27(8): 1305?1308.

        [15] 胡文軍,王士同.隱私保護(hù)的SVM快速分類方法[J].電子學(xué)報(bào),2012,40(2):280?286.

        最近中文字幕精品在线| 久久综合成人网| 精品一区二区三区在线观看l| 亚洲女人天堂成人av在线| 亚洲av精二区三区日韩| 人人爽人人澡人人人妻| 伊人网综合| 亚洲黑寡妇黄色一级片| 国产精品女老熟女一区二区久久夜| 曰本无码人妻丰满熟妇啪啪| 国产91精选在线观看麻豆| 在线免费观看国产视频不卡| 免费人成视频网站在在线| a级毛片无码久久精品免费 | 欧美另类视频在线| 亚洲av黄片一区二区| 国内自拍色第一页第二页| 欧美 国产 综合 欧美 视频 | 深夜福利国产| 极品美女调教喷水网站| 亚洲综合色婷婷七月丁香| 男人天堂网在线视频| 91在线观看国产自拍| 国产综合精品久久99之一| 亚洲av成人无码网站…| 亚洲一区二区久久青草| 成人水蜜桃视频在线观看| 久久亚洲精品成人av无码网站| 品色堂永远的免费论坛| 人妖熟女少妇人妖少妇| 青青草免费在线爽视频| 欧美极品jizzhd欧美| 午夜视频网址| 高清国产国产精品三级国产av| 又色又爽又高潮免费视频国产| 国产毛片网| 美腿丝袜中文字幕在线观看| 狠狠色狠狠色综合网| 最近免费中文字幕| 好看午夜一鲁一鲁一鲁| 在线视频国产91自拍|