徐紅
淺析手機取證中的文本分類
徐紅
(四川警察學院,四川 瀘州 646000)
如今,智能手機已不只是一個通話工具,還是一個綜合處理的平臺,存儲著大量信息。公安機關在調查取證時,有越來越多從智能手機中獲取電子證據(jù)的需求,所以手機取證得到了廣泛的關注和研究。對手機取證進行了簡要分析,重點探討了手機取證中的文本分類的操作流程和相關算法。
電子證據(jù);手機取證;文本分類;分類算法
自智能手機誕生以來,在中國逐步得到了普及應用,使用智能手機的人數(shù)不斷增加,據(jù)調查數(shù)據(jù)顯示,2018年中國的智能手機用戶數(shù)量達到了13億。
智能手機的廣泛應用極大地改變了人們的工作和生活方式,給社會創(chuàng)造了新的需求,給各行各業(yè)帶來了新的思維,促進了經濟和社會的發(fā)展。然而,另一方面,不法分子使用智能手機進行犯罪的活動也不時發(fā)生,為了打擊這類犯罪,必須進行手機取證,以獲取犯罪證據(jù)。此外,公安機關在調查其他類型案件時,也常常需要通過手機取證以獲得與案件相關的證據(jù)。
所謂手機取證,就是對保存在手機中和案件相關的信息進行提取,獲得具有法律效力的證據(jù)。這些信息包含多種數(shù)據(jù),例如手機通訊錄、瀏覽器瀏覽記錄、微信記錄、地理數(shù)據(jù)、手機通話記錄等等。
智能手機屬于高科技產品,要想順利開展手機取證,必須有強大的技術手段來支撐。智能手機存儲容量在不斷攀升,往往從中取證得到的數(shù)據(jù)量相當大,此時已不可能依靠人工進行證據(jù)的分析,而需要采用智能的方法進行證據(jù)的自動分析,而文本分類方法就是其中之一。
本文對手機取證進行簡要介紹,分析相關的手機取證技術,重點探討手機取證中涉及到的文本分類方法。
手機取證的數(shù)據(jù)來源主要是SIM卡和存儲卡。SIM卡中存儲的信息主要有手機用戶數(shù)據(jù),如通訊錄、通話記錄和短信息。手機固化數(shù)據(jù),如語音加密秘鑰等。存儲卡中存儲的信息主要有操作系統(tǒng)、APP、用戶數(shù)據(jù)以及操作系統(tǒng)和APP運行產生的臨時數(shù)據(jù)等。
對手機取證而言,感興趣的數(shù)據(jù)種類主要有通話記錄、短信息、QQ、微信,從中可以分析當事人社交關系;從GPS、地圖中可以分析當事人的行為軌跡;從瀏覽器中可以分析當事人的興趣偏好;另外還可以從短信息、QQ、微信中分析當事人的思想及行為狀態(tài)。
手機取證必須在法律許可的條件下進行,取證過程必須恪守如下原則:①合法取證原則。對手機的取證權必須得到法律的允許;手機取證所使用的取證技術必須可靠,不得篡改和損壞手機數(shù)據(jù);取證程序必須嚴格按照法律規(guī)定執(zhí)行。②及時取證原則。手機上電運行就會產生新的數(shù)據(jù),可能會造成新數(shù)據(jù)覆蓋原來的數(shù)據(jù),所以取證應及時。③全面取證原則。盡可能保證取證的數(shù)據(jù)是完整的,特別是確保重要數(shù)據(jù)的完整性。④無損取證原則。確保取證的數(shù)據(jù)維持原來的真實狀態(tài)。
手機取證過程按美國國家標準與技術研究院(NIST)的要求可以分為下列幾個階段。
2.3.1 證據(jù)保全
證據(jù)保全階段工作的目的是保護手機中的數(shù)據(jù)。具體操作步驟是記錄當前手機的狀態(tài),如系統(tǒng)時間、圖標、電量狀況等;將手機與外部通信完全隔離,可通過將手機放入屏蔽容器等方法實現(xiàn)。
2.3.2 證據(jù)獲取
證據(jù)獲取階段利用物理獲取、邏輯獲取和手工獲取的方法來獲得手機中的數(shù)據(jù)。物理獲取通過與手機芯片直接交互提取數(shù)據(jù);邏輯獲取將手機與計算機建立連接,通過軟件工具提取數(shù)據(jù);手工獲取通過人工操作手機原有的APP提取數(shù)據(jù)。其中,物理獲取優(yōu)于邏輯獲取,而邏輯獲取又優(yōu)于人工獲取。
2.3.3 證據(jù)分析
證據(jù)分析是手機取證的關鍵環(huán)節(jié),該階段的主要工作是對提取得到的數(shù)據(jù)進行分析,以得到有力的證據(jù)。該階段涉及多種分析方法,文本分類就是其中之一。
2.3.4 生成報告
生成報告階段將取證過程中的全部操作和結論進行總結并形成報告,它代表手機取證過程的完結。
文本分類是利用相應的算法將文本劃分成不同的類別。它首先要建立訓練文本集,經訓練得到文本特征和類別的關系模型,然后用這個關系模型來判斷待測文本的類別。
具體的文本分類操作步驟如下:①預處理。文本的形式是多種多樣的,必須進行預處理。如果待分析的文本是非結構化的中文文本,這就需要進行分詞和去停用詞處理。②文本表示。將文本變換成計算機可理解和計算的形式——通常表示為向量,這是通過文本表示模型實現(xiàn)的。布爾模型、向量空間模型和概率模型是常用的文本表示模型。③文本特征提取。文本轉換為計算機可理解的形式后,往往得到的向量具有較高的維數(shù),不便于處理,需要提取最能體現(xiàn)文本的特征,常見的特征選擇算法有信息增益、互信息和2統(tǒng)計量。④訓練。對訓練數(shù)據(jù)使用分類器進行訓練,分類器常用的分類算法有貝葉斯算法、K鄰近算法和支持向量機算法。⑤分類。將待分類數(shù)據(jù)完成上述處理后,輸入分類器可以得到分類結果。
不同于普通的文本分類,智能手機中的信息多以短文本為主,例如短信息、通訊錄、備忘錄和聊天記錄等,對這樣的文本進行分類時,往往面臨著特征不足的問題,這會造成文本分類的效果較差。所以,對手機取證的文本進行分類,其操作步驟雖然和上述的文本分類方法相同,但是在實踐操作中需要有針對性進行適應性改進。因為短文本的特征不足,改進的思路簡言之就是擴展特征。將訓練用的短文本進行擴展特征后,用于分類器的訓練,以訓練出適應于手機短文本的分類器。
對短文本擴展特征可行的做法是利用知識庫來擴展特征。例如,手機取證文本只包含一兩個詞,可以通過知識庫查找針對它們的解釋,解釋中的相關詞匯和原詞具有邏輯相關性,所以可以用這些詞匯來擴展原有文本的特征。實踐中知識庫通常選取維基百科。得到維基百科對于手機取證文本詞匯的解釋文本后,將解釋文本轉換成向量,選取與原文本相關度最高的部分作為新增的特征項,然后和原文本生成的特征一起組成最終特征向量,進行后續(xù)的計算。
構造分類器是文本分類的核心,所采用的分類算法直接決定了文本分類的效果。
K鄰近算法的思路是計算待分類文本與訓練集中各文本的相似度和樣本類別權重,找到個相似度最高的樣本,合并屬于相同類別的樣本類別權重,根據(jù)權重判斷待分類文本所屬類別。該方法思想簡單,無需事先訓練樣本,但是當訓練集大時,計算量會很大。
支持向量機算法的思路簡言之就是在樣本空間中尋找最優(yōu)的超平面以分隔不同類別的樣本,實踐表明支持向量機具有較好的分類效果。
手機取證是獲取電子證據(jù)、打擊犯罪的重要手段。本文對手機取證進行了討論,介紹了手機取證的數(shù)據(jù)來源和種類、基本原則、工作過程,重點分析了手機取證中的文本分類的操作過程和相關的分類算法。
[1]楊雪.Android手機取證技術研究綜述[J].計算機時代,2015(6):7-9.
[2]秦玉梅,孫奕.智能手機取證[M].北京:清華大學出版社,2014.
[3]羅會明.Android智能手機取證研究[D].北京:北京化工大學,2013.
[4]陳德俊,丁紅軍.手機取證研究概述[J].中國公共安全(學術版),2012(3):100-102.
[5]劉洋洋.手機取證技術研究[J].網絡安全技術與應用,2011(5):31-33.
TP391
A
10.15913/j.cnki.kjycx.2019.22.031
2095-6835(2019)22-0087-02
〔編輯:嚴麗琴〕