亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于文本分類的維吾爾文數(shù)字取證研究

        2016-04-12 00:00:00如先姑力·阿布都熱西提賀一峰亞森·艾則孜
        現(xiàn)代電子技術(shù) 2016年10期

        摘 要: 針對維吾爾文書寫的數(shù)字文本的犯罪取證,提出一種基于文本分類的維吾爾文數(shù)字取證方案。首先,對維吾爾文文本進行預處理,濾除文本中非維吾爾文字符和停用詞;然后,提出一種多特征空間正則化互信息(M?FNMI)算法,使用輸入特征組合與類之間的互信息(MI)來代替單個特征與類之間的MI,從而提取出更準確的特征詞;最后,利用支持向量機(SVM)算法來對特征進行分類。實驗結(jié)果表明,該方案具有較高的分類精度,能夠為犯罪取證提供判斷依據(jù)。

        關(guān)鍵詞: 數(shù)字取證; 文本分類; 維吾爾文; 互信息; 支持向量機

        中圖分類號: TN911?34; TP391 文獻標識碼: A 文章編號: 1004?373X(2016)10?0009?05

        Research on Uyghur digital forensics based on text categorization

        RUXIANGULI Abudurexiti, HE Yifeng, YASEN Aizezi

        (Department of Information Security Engineering, Xinjiang Police College, Urumqi 830013, China)

        Abstract: For the crime forensics of digital texts written in Uighur, a Uyghur digital forensic scheme based on text categorization is proposed. The Uyghur texts are preprocessed to filter the non Uyghur characters and stop words. A multi?feature space normalized mutual information (M?FNMI) algorithm is proposed. The mutual information (MI) between input feature combination and class is used to replace the MI between the single feature and class, so as to extract more accurate feature words. The support vector machine (SVM) algorithm is used to classify those features. Experimental results show that the proposed scheme has higher classification accuracy, and can provide a basis for criminal evidence collection.

        Keywords: digital forensic; text categorization; Uyghur; mutual information; support vector machine

        0 引 言

        由于信息和存儲技術(shù)的飛速發(fā)展,公安信息系統(tǒng)中存儲了大量的案件信息。為了能夠更好地預防、打擊和控制犯罪,則需要應用數(shù)字取證技術(shù),對存儲數(shù)據(jù)進行深度分析,發(fā)現(xiàn)各類案例信息的規(guī)律和關(guān)系[1]。在數(shù)字取證過程中,面對大量的電子文檔,如何快速地將電子文檔進行分類,準確地辨析案件類型,以及從中提取出有用的信息是取證人員需要解決的一個主要問題,而數(shù)據(jù)挖掘中的文本分類技術(shù)是解決這種問題的一種有效方法[2]。

        隨著國家對新疆地區(qū)的大力投入,使其信息化建設得到快速發(fā)展,維吾爾文等少數(shù)民族語種的大量文字信息開始以數(shù)字化形式呈現(xiàn)。對維吾爾文書寫的大量文本數(shù)據(jù)進行文本分類,從而進行電子取證,能夠為新疆地區(qū)的計算機犯罪提供有力證據(jù),具有重要的意義[3]。

        目前,對于英文和中文等大語種的文本分類技術(shù)已經(jīng)得到大量研究,并趨于成熟。然而,對于維吾爾文表述的數(shù)字文本的文本分類,相關(guān)方面的研究還處于起步階段。維吾爾語是一種黏著性語言,具有比較復雜的時態(tài)變化和豐富的形態(tài)結(jié)構(gòu)[4]。為此,文獻[4]提出一種基于語義詞特征提取的維吾爾文文本的分類方法,用一種組合統(tǒng)計量(DME)來度量文本中相鄰單詞之間的關(guān)聯(lián)程度,以此來提取特征詞。文獻[5]利用[χ2]統(tǒng)計量來提取詞干,并利用支持向量機(Support Vector Machine,SVM)算法來構(gòu)造了維吾爾文文本分類器。文獻[6]提出一種新的統(tǒng)計量(CHIMI),將[χ2]統(tǒng)計量和互信息(Mutual Information,MI)進行結(jié)合組成CHIMI,抽取Bigram作為文本特征,并采用SVM算法對維吾爾文文本進行分類。

        本文在改進傳統(tǒng)MI提取特征的基礎上,提出一種基于文本分類的維吾爾文數(shù)字取證方案,用于犯罪文本取證。利用改進型正則化互信息算法對維吾爾文進行特征提取,利用SVM進行文本分類,從而取證出與犯罪相關(guān)的文本信息。

        1 本文方案

        本文提出一種基于文本分類的維吾爾文數(shù)字取證方案,其主要包括3個部分:維吾爾文文本預處理;特征提取;文本分類。

        其中,在特征提取階段,本文針對傳統(tǒng)MI特征提取中只考慮單個特征和類別的MI,而沒有考慮上下文特征關(guān)聯(lián)性的缺陷,對其進行改進,將輸入特征的組合與類別之間的MI代替單一特征與類別的MI。

        1.1 文本預處理

        維吾爾文文本預處理主要包括兩個部分:文本過濾和詞干提取。其中,文本過濾用于過濾掉文本中非維吾爾文文字和停用詞;詞干提取是用來提取文本中具有真正含義的詞匯。經(jīng)過文本預處理,可將文本原始特征維度降低約一半。文本去噪過程中,首先對文本進行過濾,獲得維吾爾文單詞集。然后,通過和事先準備好的停用詞表進行比對,過濾掉停用詞。停用詞為對文本主題沒有貢獻,不包含文章類別信息的詞,例如介詞、副詞、代詞等。去掉停留詞能夠?qū)崿F(xiàn)特征降維,提高分類精度[7]。詞干提取過程中,首先,根據(jù)維吾爾文單詞與單詞之間的空格符來進行分詞。由于維吾爾文單詞是由字母拼寫而成的,通過將不同的詞綴粘貼到單詞的頭部來實現(xiàn)語法功能,所以,提取文本中能夠代表真實含義的詞匯是困難的。維吾爾文中,同一詞干可以演變?yōu)楹芏嗖煌x的詞語,雖然這些詞語的詞形不同,但詞義卻不會有很大區(qū)別[8]。其中一個典型例子如表1所示。為了提取單詞的詞義,并考慮特征的數(shù)量,本文以詞干(學校)作為特征項,以此從文本中提取出詞干集。

        2 實驗及分析

        2.1 實驗環(huán)境

        為了評估本文方案的性能,構(gòu)建一個計算平臺,以Intel酷睿i5作為CPU,主頻為2.4 GHz,應用Windows 7系統(tǒng)環(huán)境,利用Matlab 2011進行實驗。

        對于維吾爾文的文本分類應用,目前還沒有可使用的標準文本集。由于本文方案是應用于犯罪數(shù)字取證領(lǐng)域,所以本文從新疆公安犯罪數(shù)據(jù)庫中的案情、新疆公安網(wǎng)公布的治安新聞以及人民網(wǎng)維吾爾文版的新聞上收集了2 500篇文本,通過人工方式將其分為7類犯罪: 危害國家安全;危害公共安全;侵犯公民人身權(quán)利;破壞市場經(jīng)濟秩序;妨害社會管理秩序;侵犯財產(chǎn);貪污賄賂。其中,1 600篇文本作為訓練集,900篇作為測試集。各類的訓練和測試樣本數(shù)如表2所示。

        表2 分類文本庫

        2.2 性能指標

        本文采用分類中常用的性能指標[F1]值來評估方案性能,其由準確率(P)和召回率(R)計算獲得:

        [P=aa+b,R=aa+c]

        式中:[a]表示正確分類的文本數(shù);[b]表示分類為該類,但不屬于該類的文本數(shù);[c]表示屬于該類,但未被分類到該類的文本數(shù)。通常將準確率和召回率進行綜合,得到評估文本分類質(zhì)量的[F1]值,表達式如下:

        [F1=2RPR+P] (15)

        通常情況下,方案的[F1]值越高,則分類效果越好。實驗中,本文將各個類別的[F1]值求平均,得到最終性能指標,即[F1]平均值。

        2.3 分類實驗

        實驗中,首先對維吾爾文文本集進行預處理,為了方便后續(xù)處理,把文本轉(zhuǎn)換成UTF?8二進制編碼格式。然后,過濾掉文本中的非維吾爾文字符和停用詞。預處理結(jié)束后,獲得一個具有24 420個特征的初始特征集。然后進行詞干提取,將同一詞根演變而來的特征進行聚合,使初始特征項降維到13 826個。然后通過本文提出的M?FNMI特征提取算法,提取出和類別具有高互信息(高區(qū)分度)的詞干作為最終特征。設定每個類別提取500~2 500個特征詞。表3描述了危害國家安全類別和侵犯公民人身權(quán)利類別中前5名的特征詞,這些特征詞具有最強的區(qū)別能力。

        3 結(jié) 語

        本文針對維吾爾文表述的數(shù)字文本取證應用,提出一種基于文本分類的取證方案,利用提出的多特征空間正則化互信息(M?FNMI)對維吾爾文文本進行特征提取,利用SVM算法對特征進行分類。實驗中,設定7類犯罪類型,將本文方案與現(xiàn)有方案進行比較,結(jié)果表明,本文方案具有較高的分類性能,能夠為新疆公安部門進行數(shù)字取證提供有力依據(jù)。

        注:本文通訊作者為亞森·艾則孜。

        參考文獻

        [1] 程春惠,何欽銘.面向不均衡類別樸素貝葉斯犯罪案件文本分類[J].計算機工程與應用,2009,45(35):126?128.

        [2] 劉露,彭濤,左萬利,等.一種基于聚類的PU主動文本分類方法[J].軟件學報,2013,24(11):2571?2583.

        [3] 熱依萊木·帕爾哈提,孟祥濤,艾斯卡爾·艾木都拉.基于區(qū)分性關(guān)鍵詞模型的維吾爾文本情感分類[J].計算機工程,2014, 40(10):132?136.

        [4] 吐爾地·托合提,艾克白爾·帕塔爾,艾斯卡爾·艾木都拉.語義詞特征提取及其在維吾爾文文本分類中的應用[J].中文信息學報,2014,28(4):140?144.

        [5] 阿力木江·艾沙,吐爾根·依布拉音,庫爾班·吾布力.基于SVM的維吾爾文文本分類研究[J].計算機工程與科學,2012,34(12):150?154.

        [6] 阿力木江·艾沙,庫爾班·吾布力,吐爾根·依布拉音.維吾爾文Bigram文本特征提取[J].計算機工程與應用,2015,51(3):216?221.

        [7] UYSAL A K, GUNAL S. The impact of preprocessing on text classification [J]. Information processing management, 2014, 50(7): 104?112.

        [8] 陳卿,袁保社,李曉,等.基于模板匹配的印刷維吾爾文字符識別研究[J].計算機技術(shù)與發(fā)展,2012,22(4):119?122.

        [9] DENG H, RUNGER G, TUV E, et al. A time series forest for classification and feature extraction [J]. Information sciences, 2013, 239(4): 142?153.

        [10] OVEISI F, OVEISI S, ERFANIAN A, et al. Tree?structured feature extraction using mutual information [J]. IEEE transactions on neural networks learning systems, 2012, 23(1): 127?137.

        [11] 劉露,彭濤,左萬利,等.一種基于聚類的PU主動文本分類方法[J].軟件學報,2013,24(11):2571?2583.

        [12] 趙輝,劉懷亮,張倩.一種基于復雜網(wǎng)絡的中文文本分類算法[J].情報學報,2012,31(11):1179?1186.

        [13] LIU Zhijie, LYU Xueqiang, LIU Kun, et al. Study on SVM compared with the other text classification methods[C]// International Workshop on Education Technology Computer Science. Wuhan, Hubei, China: [s.n.], 2010: 219?222.

        [14] CAO J F, CHEN J J. An improved web text classification algorithm based on SVM?KNN [J]. Applied mechanics materials, 2013, 27(8): 1305?1308.

        [15] 胡文軍,王士同.隱私保護的SVM快速分類方法[J].電子學報,2012,40(2):280?286.

        日本黄网站三级三级三级| 亚洲大胆视频在线观看| 黄片国产一区二区三区| av人摸人人人澡人人超碰下载| 久久综合狠狠综合久久| 中文毛片无遮挡高潮| 国产精品毛片大尺度激情| av日韩高清一区二区| 久久精品国产精油按摩| 亚洲国际无码中文字幕| 强d乱码中文字幕熟女1000部| 久久伊人亚洲精品视频| 人妻 日韩 欧美 综合 制服| 亚洲中文无码成人影院在线播放| 亚洲女同同性少妇熟女| 一区二区三区日韩精品视频| 绝顶潮喷绝叫在线观看| 日本一区二区三区高清千人斩| 69搡老女人老妇女老熟妇| 国产精品国产自产自拍高清av| 亚洲精品一品区二品区三品区 | 亚洲一区二区成人在线视频| 中文字幕一区二区三区乱码人妻| 先锋五月婷婷丁香草草| 人人狠狠综合久久亚洲婷婷| 国内精品九九久久精品小草| 久久中文字幕一区二区| 女人和拘做受全程看视频| 国产激情对白一区二区三区四| 亚洲日本在线中文字幕| 青青草成人在线免费视频| a级毛片高清免费视频就| 无码一区二区三区在线在看| 国产在线一区二区三区不卡| 亚洲乱码中文字幕久久孕妇黑人| 亚洲尺码电影av久久| 久久精品综合国产二区| 色婷婷久久精品一区二区| 老少配老妇老熟女中文普通话| 精品99在线黑丝袜| 日本免费影片一区二区|