肖程望,盧軍,余力耕
(武漢郵電科學(xué)研究院湖北武漢430074)
分類算法在手機取證中的應(yīng)用
肖程望,盧軍,余力耕
(武漢郵電科學(xué)研究院湖北武漢430074)
在當今社會,手機犯罪越來越引起人們的重視,對研究人員來說需要馬上研究相應(yīng)的對策加以應(yīng)對,智能手機的使用率越來越高也促使了手機取證技術(shù)的研究發(fā)展。同時采用Android系統(tǒng)的智能手機越來越多,針對Android系統(tǒng)手機取證的電子證據(jù)進行相應(yīng)的數(shù)據(jù)分析,能更方便和直觀的發(fā)現(xiàn)手機信息中的重點與需要關(guān)注的目標對象。在本文中應(yīng)用了樸素貝葉斯分類算法對數(shù)據(jù)中各聯(lián)系人進行分類,而樸素貝葉斯分類算法的條件獨立性假設(shè)是非??量痰?,很難在正常情況下滿足,本文中提出了一種基于變異系數(shù)法的加權(quán)樸素貝葉斯分類模型,克服這個問題關(guān)鍵在于利用各項指標間所包含的信息的差異,通過計算得到指標的權(quán)重。有效地提高了樸素貝葉斯算法的分類性能,并且也繼承了貝葉斯分類算法的簡單性,本文首先對算法原理進行了分析與證明,然后描述了相應(yīng)的算法,在最后給出了基于變異系數(shù)法的屬性權(quán)值求解方法。
手機取證;取證方法;分類算法;樸素貝葉斯;變異系數(shù)
手機等各類電子產(chǎn)品中的電子證據(jù),包括:短信、通訊錄、通話記錄和瀏覽記錄等逐漸成為新的訴訟證據(jù)之一,例如通過短信和通話記錄可以了解嫌疑人與外界的聯(lián)系,查看嫌疑人的手機GPS記錄來確定嫌疑人的活動軌跡,而且QQ聊天記錄、郵件、上網(wǎng)記錄等都有很大的可能記錄著犯罪份子的犯罪行為[1]。手機的取證對于一個案件的偵破有著十分重大的意義,手機取證這一概念也隨之提出。
同時,最近三年中使用Android系統(tǒng)的手機所占市場份額正在快速上升,通過市場調(diào)查機構(gòu)報告顯示,在全球手機智能操作系統(tǒng)中所占份額最高的是Android,達到了72.1%,IOS排第二,占據(jù)了24.4%的份額,剩下的就是WP等等其他操作系統(tǒng)了。Android操作系統(tǒng)已經(jīng)成為當今全球第一大操作系統(tǒng),并且其增長沒有任何衰減的趨勢[2]。大量利用手機進行誹謗、詐騙等的犯罪活動也在最近兩發(fā)頻頻發(fā)生,這與Android系統(tǒng)手機的迅猛發(fā)展不無關(guān)系。面對這種情況,對智能手機,包括使用Android系統(tǒng)的,進行取證技術(shù)與分析方面的相關(guān)研究必須要盡快發(fā)展起來。
對提取數(shù)據(jù)的分析與分類也顯得更加的重要,本文提出了一種貝葉斯分類優(yōu)化算法,基于變異系數(shù),介紹了算法詳情、原理與相應(yīng)的實現(xiàn)步驟。
手機取證是一個對目標手機中的與案件有關(guān)的數(shù)據(jù)進行提取的過程。通過一些技術(shù)分析,確保原始手機未被損壞、篡改,并且收集的數(shù)據(jù)不可被修改,并且最終獲得具有法律效力的證據(jù)能夠幫助公安機關(guān)人員破案[3]。
重要證據(jù)源主要保存在Android系統(tǒng)手機中的手機內(nèi)存和sim卡中。提取出的信息大致有聯(lián)系人、短信息、通話記錄、瀏覽歷史記錄、多媒體信息、GPS信息、目標手機上的app內(nèi)信息等[4],具體如圖1所示。
通過分析從數(shù)據(jù)庫中提取出的位置信息和時間,可以得知手機使用者的行為與活動規(guī)律。通過分析通訊錄與短信數(shù)據(jù)庫中的信息,可以分析出使用者與某個人或某幾人聯(lián)系比較密切[5]。同時,通過查看瀏覽器歷史記,可以看到使用者的愛好與興趣。
同時在分析和監(jiān)控團伙的各個手機時,使用基于Apriori算法的信息歸納總結(jié),通過分析提取出的通訊錄和短信數(shù)據(jù)來分析出團伙中的主要人物或關(guān)鍵人物。各個手機使用者之間的關(guān)系和它們之間的相互影響能夠很快的求出。在經(jīng)過了這么多年的研究后,只是把數(shù)據(jù)從手機中取出并不是一個十分困難的事情,現(xiàn)在主要是要對取出數(shù)據(jù)進行分析和歸類。在眾多分類方法和理論中,樸素貝葉斯(na?ve Bayes,NB)由于精確度高、計算高效、算法不復(fù)雜并且計算原理簡單易懂,而且具有堅實的理論基礎(chǔ),使得它在不同領(lǐng)域得到了廣泛應(yīng)用[5]。然而樸素貝葉斯分類有一個前提就是:屬性值之間是相互獨立的在給定分類特征條件下。通常情況下,這種基于獨立性的假設(shè)是很難滿足的。樸素的貝葉斯分類最大的缺陷是它無法處理特征符合所產(chǎn)生的變化(即前面提到過的實際上難以滿足的相互獨立)[6]。
本文就是在提取出數(shù)據(jù)的基礎(chǔ)上,利用樸素貝葉斯算法對信息進行分類,并針對樸素貝葉斯算法中的不足之處進行了優(yōu)化與研究。引入了變異系數(shù)來對不同特征的屬性進行權(quán)重分析,以獲得更加客觀和精確的分類結(jié)果。
表1 提取信息表
數(shù)據(jù)分類主要分為兩個階段:學(xué)習(xí)階段(構(gòu)造分類模型)、分類階段(使用模型預(yù)測給定數(shù)據(jù)的類標號)。而其中的的關(guān)鍵是構(gòu)造分類器。其中樸素貝葉斯分類模型(NBC)已被廣泛使用,主要是因為它有著堅實的數(shù)學(xué)基礎(chǔ),以及穩(wěn)定的分類效率[7]。樸素貝葉斯模型有以下幾大優(yōu)點:所需參數(shù)少、算法也比較簡單、缺失數(shù)據(jù)不太敏感。
同時還有一種貝葉斯分類器也有很多人在進行研究,那就是貝葉斯網(wǎng)絡(luò)(BayesNet),它是一個有向的無環(huán)圖,上面帶有概率注釋,并且沒一個節(jié)點表示了一個隨機變量,并且可以在其上進行學(xué)習(xí)[8]。而經(jīng)過研究學(xué)習(xí)后發(fā)現(xiàn)這會增加貝葉斯算法的復(fù)雜性,這主要是因為特征值之間的相互依賴。因此,當應(yīng)用于實踐,它往往需要被簡化。這就給我們提出了一個問題:如何來提高其分類性能而又不會增加計算的復(fù)雜性呢。閱讀各種文獻資料后,發(fā)現(xiàn)了有基于信息增益和利用爬山算法等方法、還有提出了采用粗糙集技術(shù)來確定屬性權(quán)值的方法[9]。然而經(jīng)過實驗后,我們發(fā)現(xiàn)在上述方法中雖然有一定的提高,但是在分析手機取證提取出的數(shù)據(jù)時改進的效果并不是十分理想。
變異系數(shù)法(Coefficient of variation method)是一種客觀賦權(quán)的方法,在很多場合也有利用,它是直接利用各個特征項所包含的信息大小,來決定各個特征項的權(quán)重值[10]。這主要是因為在評價一類事物時,相互間差別越大的特征項越能表達這些事物的不同之處,更能反映相互之間的差距。因此本文利用變異系數(shù)對貝葉斯分類模型進行了優(yōu)化,并對算法的原理進行了說明。
P(A|B)表示了在B發(fā)生的前提下,A發(fā)生的概率。這是個條件概率。然而在實際生活中,我們可以很輕易的知道P(A|B),但是P(B|A)卻很難知道,而貝葉斯定律就是幫助我們獲得P(B|A)的。首先給出貝葉斯定理[11]。
貝葉斯分類在所有分類算法中是十分簡單的主要有以下幾步組成[12]:
1)設(shè)一個待分類項為X=[a1,a2,…,an]表示,分別描述在n個屬性A1,A2,…,An上的值;
2)假定有m個類,用C=[b1,b2,…,bn]表示;
3)計 算 出P(C1|x),P(C2|x),P(C3|x),…,P(Cn|x);
4)如果P(Ck|x)是所有概率中最大的,那么這個待分類項就屬于Ck類。其中先驗概率p(x1|Ci),p(x2|Ci),…,p(xn|Ci)可以從之前收集的數(shù)據(jù)中求得。
樸素貝葉斯模型(NBC)認為所有條件都是互不影響并且對分類結(jié)果的權(quán)重都是1,然而并非如此,在同一個問題中時,據(jù)常理所知,有的條件可能更重要些,而有的對結(jié)果可能影響較小。為了解決這個問題,需要給不容的條件附上不同的權(quán)重值,則可以得到經(jīng)過了加權(quán)的樸素貝葉斯模型為:
其中,wk代表了屬性Ai的權(quán)重值。對應(yīng)的屬性的權(quán)值越大,那么它對分類結(jié)果的影響就越大。而如何確定不同屬性的權(quán)值,那又產(chǎn)生了一個新的問題了。
將各屬性視為隨機變量Mi,任一隨機變量Mi的標準差與平均數(shù)的比值稱為其對應(yīng)的變異系數(shù),記為CVi。把所有的屬性對應(yīng)的變異系數(shù)相加后,對各個變異系數(shù)進行歸一化處理后就可以得到對應(yīng)的權(quán)重了[13]。在評價手機聯(lián)系人的親密度關(guān)系時,有多種評價標準,例如:通話次數(shù)、通話時長、短信次數(shù)、短信中關(guān)鍵字詞的出現(xiàn)頻率、郵件聯(lián)系次數(shù)等等。而由于各個指標的量綱不同,自然是不能直接拿來比較的,還需要進行歸一化和利用到變異系數(shù)來進行處理,然后才能得到各個指標的權(quán)重系數(shù)。
下面來進行一個實例分析:用變異系數(shù)法去計算手機中各個指標對親密度關(guān)系的權(quán)重大小。下列數(shù)據(jù)是調(diào)查了10余部手機中的所有相關(guān)數(shù)據(jù),計算出各個對應(yīng)指標的變異系數(shù),這些指標所對應(yīng)的權(quán)重系數(shù)反應(yīng)出了對親密度分類結(jié)果的影響大小,并作為確定各項指標權(quán)重的依據(jù)。具體計算數(shù)據(jù)見表2:
表2 各指標的權(quán)重
計算過程如下:
1)分別計算這些數(shù)據(jù)的平均數(shù)和標準差,這主要依靠之前提取的各個數(shù)據(jù);
2)計算出變異系數(shù)(均值與標準差的比值);
3)將每一個指標所對應(yīng)的變異系數(shù)相加求出總和;
4)計算出每一個指標所對應(yīng)的權(quán)重。
上面求出的權(quán)重系數(shù)表明了不同指標對最后分類結(jié)果的影響大小,所以是可作權(quán)重系數(shù)應(yīng)用在加權(quán)貝葉斯分類模型中的。
基于變異系數(shù)的加權(quán)樸素貝葉斯分類算法的實現(xiàn)關(guān)鍵在于求解各條件屬性的變異系數(shù),并確定各條件屬性的權(quán)重值,具體算法如下:
1)提取數(shù)據(jù)處理:將提取出的數(shù)據(jù)和預(yù)先準備的數(shù)據(jù)進行相應(yīng)的處理,例如一些缺失數(shù)據(jù)的補充和數(shù)據(jù)之間的離散處理;
2)判斷:如果是分類任務(wù),則到(6),如果是訓(xùn)練任務(wù)則到(3);
3)概率表學(xué)習(xí)(構(gòu)造分類模型):按照預(yù)先準備的練習(xí)數(shù)據(jù),針對每一個屬性Ai的屬性值xik,每個分類的類別Ci、以及各個Ci的出現(xiàn)概率,計算在Ci發(fā)生的前提下,aik的出現(xiàn)概率p(xki|Ci)[14];
4)變異系數(shù)計算:計算出變異系數(shù)=對應(yīng)的均值/對應(yīng)的標準差,然后經(jīng)過歸一化處理后得出對應(yīng)的權(quán)重系數(shù);
5)生成經(jīng)過了加權(quán)的樸素貝葉斯分類器,并且吧加權(quán)樸素貝葉斯概率表已經(jīng)各個對應(yīng)屬性權(quán)值表保存下來以供分類使用;
6)分類:利用保存了的概率表以及屬性權(quán)值列表,并且使用之前生成的樸素貝葉斯分類器,得出分類結(jié)果。
在提取了10部手機內(nèi)的信息進行了加權(quán)貝葉斯分類算法的概率表和變異系數(shù)的學(xué)習(xí)后,對新取得的手機內(nèi)信息進行分類后可知道手機內(nèi)聯(lián)系人與此人的親密度關(guān)系。下表列出了集合名稱、各個屬性名稱以及分類結(jié)果。
圖1 加權(quán)貝葉斯分類結(jié)果
同時,利用樸素貝葉斯算法對相同數(shù)據(jù)進行處理后,可以發(fā)現(xiàn)加上由變異系數(shù)得出的權(quán)重之后,能更準確吧手機使用者內(nèi)的聯(lián)系人進行親密度分類。原因在于權(quán)重計算考慮到了特征項在類間的分布,類間的分布的越不均勻,對類的貢獻能力越大,同時對分類結(jié)果的影響也就越大,因此它的權(quán)重就越大。
現(xiàn)今,有很多犯罪分子通過手機進行交流、預(yù)謀犯罪等等行為,所以對手機提取數(shù)據(jù)的分析與提取數(shù)據(jù)的分類也顯得更加的重要,本文提出了一種基于變異系數(shù)的貝葉斯分類算法,并給出了相應(yīng)的算法實現(xiàn)步驟。并提取了某部手機中的測試數(shù)據(jù),通過實驗比較了樸素貝葉斯分類與基于變異系數(shù)的貝葉斯分類的效果,實驗表明本算法在分類性能上有一定的優(yōu)越性。
樸素貝葉斯分類的分類能力受到了特征項間獨立性這一假設(shè)的很大影響。本文提出的這樣一種新的分類方法,引入了權(quán)重的計算來克服這一問題,生成了更加精確并且有效的條件屬性權(quán)重,考慮到在類內(nèi)分布越均勻、類間分布越不均勻的特征項,權(quán)重越大,對分類結(jié)果的影響越大,對獲得更精確地分類結(jié)果十分有利[15]。同時,可以利用本文提出的方法和更多別的方法進行組合來繼續(xù)優(yōu)化本算法。同時可以考慮新的變異系數(shù)的度量方法以便更進一步的提高分類性能,以及是否還要考慮各屬性的其他特征以及各屬性間的相關(guān)性是下一步的研究方向。
[1]杜江,褚?guī)?智能手機取證研究[J].電腦知識與技術(shù),2011(9):2120-2121.
[2]Y Yao,Y Zhao.Attribute reduction in decisiontheoretic rough set models[J].Information Sciences,2013.
[3]LS Huang,A Moshchuk,HJ Wang.Clickjacking:attacks and defenses[J].Usenix Conference on Security Symposium,2012.
[4]賈嫻,劉培玉,公偉.基于改進屬性加權(quán)的樸素貝葉斯入侵取證研究[J].計算機工程與應(yīng)用,2013,49(7):81-84.
[5]劉磊,陳興蜀,尹學(xué)淵,等.基于特征加權(quán)樸素貝葉斯分類算法的網(wǎng)絡(luò)用戶識別[J].計算機應(yīng)用,2011,31(12):3268-3270.
[6]王行甫,杜婷.基于屬性選擇的改進加權(quán)樸素貝葉斯分類算法[J].計算機系統(tǒng)應(yīng)用,2015,24(8):149-154.
[7]寧榮.基于粗糙集貝葉斯分類的供應(yīng)商評價研究[J].物流科技,2013,36(5):124-126.
[8]徐光美,劉宏哲等.基于特征加權(quán)的多關(guān)系樸素貝葉斯分類模型[J].計算機科學(xué),2014,41(10):283-285.
[9]梁天超,荊曉遠.基于加權(quán)RFE-Bayes方法的軟件缺陷預(yù)測模型[J].計算機技術(shù)與發(fā)展,2015(10):131-134.
[10]饒麗麗,劉雄輝,張東站.基于特征相關(guān)的改進加權(quán)樸素貝葉斯分類算法[J].廈門大學(xué)學(xué)報:自然科學(xué)版,2012,51(4):682-685.
[11]李翔,程玉勝.基于粗糙集理論的貝葉斯網(wǎng)絡(luò)分類算法[J].安慶師范學(xué)院學(xué)報:自然科學(xué)版,2014(1):36-40.
[12]夏燕,徐娜,舒健等.加權(quán)樸素貝葉斯模型在高校學(xué)科評價中的應(yīng)用[J].微型電腦應(yīng)用,2016,32(1):15-18.
[13]楊敏.基于貝葉斯方法的空間數(shù)據(jù)分析及應(yīng)用[D].西安:西安工程大學(xué),2012.
[14]王小麗,遠俊紅.基于加權(quán)樸素貝葉斯分類法的成績預(yù)測模型[J].電子技術(shù)與軟件工程,2013(19):225-226.
[15]劉牛.基于屬性加權(quán)的樸素貝葉斯分類算法改進[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2011(6):72-74.
Application and optimization of algorithm in mobile phone forensics
XIAO Cheng?wang,LU Jun,YU Li?geng
(Wuhan Research Institute of Posts and Telecommunications,Wuhan430074,China)
In modern society,mobile phone crime phenomenon as a high?technology crime,need to study and the corresponding counter?measures to deal with,the popularity of intelligent mobile phone make the mobile phone on evidence research to a new height,wherein more and more intelligent mobile phone use Android system.this paper mainly introduces the Android system mobile phone forensics elec?tronic sources of evidence and forensic analysis method,finally puts forward using Android system should solve the problem of mobile phone forensics.Naive Bayes is based on an assumption of conditional independence and the assumption can scarcely be satisfied.A weighted naive Bayes classification algorithm based on Coefficient of Variation is proposed.By computing Coefficient of Variation between condition attributes and decision attribute,different condition attributes are weighted differently.With a new method offered first to solve the weights of attributes on the basis of Coefficient of Variation discusses the operation principle of the algorithm,as well as its implementation.
mobile phone forensics;method of forensics;classification algorithm;Na?ve Bayes;coefficient of variation
TP301
A
1674-6236(2017)22-0049-05
2016-09-13稿件編號:201609138
肖程望(1992—),男,湖南岳陽人,碩士。研究方向:通信與信息系統(tǒng)。