徐紅 劉衍
摘 ?要:手機取證是打擊利用手機犯罪的重要手段,手機取證面對的主要技術問題之一是中文短文本分類。文章研究手機取證的中文短文本分類,簡析文本分類的流程,探討改進普通文本分類技術以適應中文短文本分類的需求,以及將BP神經網(wǎng)絡應用于文本分類器的設計方法。
關鍵詞:手機取證;中文短文本分類;神經網(wǎng)絡
中圖分類號:TP391 ? ? ? ? 文獻標志碼:A ? ? ? ? ? ? ?文章編號:2095-2945(2019)35-0134-02
Abstract: Mobile phone forensics is an important means to combat the use of mobile phone crime. One of the main technical problems of mobile phone forensics is Chinese short text classification. This paper studies the Chinese short text classification of mobile phone forensics, briefly analyzes the process of text classification, discusses the improvement of common text classification technology to meet the needs of Chinese short text classification, and applies BP neural network to the design method of text classifier.
Keywords: mobile phone forensics; Chinese short text classification; neural network
1 概述
最近幾年,伴隨著移動互聯(lián)網(wǎng)的迅猛發(fā)展,智能手機在我國得到了極大的普及。據(jù)統(tǒng)計顯示,2018年我國的智能手機用戶數(shù)量已達到了13億。與此同時,手機廠商和移動應用開發(fā)商持續(xù)進行創(chuàng)新,不斷拓展手機的功能,使得智能手機逐漸融入人們的日常工作與生活。
另一方面,不法分子利用手機進行違法犯罪的案件時有發(fā)生。為打擊這類型的犯罪,公安機關需要通過手機取證來收集不法分子的犯罪證據(jù)。手機取證,就是對保存在手機中和案件相關的信息進行提取,獲得具有法律效力的證據(jù)。這些信息包含多種數(shù)據(jù),如手機通訊錄,瀏覽器瀏覽記錄,微信聊天記錄,地理數(shù)據(jù),手機通話記錄等等。
就國內而言,通過手機得到的手機數(shù)據(jù)往往以中文短文本為主,而且數(shù)據(jù)量較大,形式不規(guī)則,內容關聯(lián)關系較弱。這樣的數(shù)據(jù)不可能依靠人工進行證據(jù)的分析,而只有依靠自動化方法來進行分析,而中文短文本分類就是這種方法的核心。
本文研究手機取證技術,分析中文短文本分類在手機取證中的實現(xiàn),探討將BP神經網(wǎng)絡用作手機取證的中文短文本分類算法的實現(xiàn)方法。
2 手機取證與文本分類概述
2.1 手機取證過程
手機取證的過程可以分為以下幾個階段:
(1)證據(jù)保全
該階段主要操作是:現(xiàn)場記錄,記錄當前手機的狀態(tài),如系統(tǒng)時間、圖標、電量狀況等;網(wǎng)絡隔離,將手機與外部通信完全隔離,可通過將手機放入屏蔽容器等方法實現(xiàn)。
(2)證據(jù)獲取
在該階段可以采用物理獲取、邏輯獲取和手工獲取的方法來提取手機中的數(shù)據(jù)。物理獲取通過與手機芯片直接交互提取數(shù)據(jù);邏輯獲取將手機與計算機建立連接,通過軟件工具提取數(shù)據(jù);手工獲取通過人工操作手機上的APP提取數(shù)據(jù)。
(3)證據(jù)分析
手機的原始數(shù)據(jù)提取出來之后,必須經過分析才能形成有效的證據(jù)。中文短文本分類是證據(jù)分析中重要的環(huán)節(jié)之一。
(4)生成報告
該階段是手機取證過程的總結,報告的內容包括手機取證過程中的全部操作以及最后的結論。
2.2 文本分類
所謂文本分類就是將文本劃分為不同類別。它包含訓練和分類兩個過程,具體步驟如下:
(1)預處理:文本往往是非結構化的,首先要對其進行預處理。
(2)文本表示:利用文本表示模型將文本轉換為計算機可理解和計算的形式——向量。
(3)文本特征提?。何谋巨D換為向量后,通過文本分類特征選擇方法提取出最能表征文本含義的特征,并給特征賦予相應的權重。
(4)訓練:將經過上述處理的訓練數(shù)據(jù)訓練分類器,分類器常用的分類算法有貝葉斯算法、K鄰近算法和支持向量機算法。
(5)分類:將待分類數(shù)據(jù)完成上述處理后輸入分類器得到分類結果。
3 手機取證中文短文本分類方法分析
從智能手機中提取的信息多以中文短文本為主,如短信息、通訊錄、備忘錄和聊天記錄等,具有特征詞稀疏的特點。短文本分類的原理和操作流程與普通文本分類相同,如果直接沿用普通文本分類方法,短文本分類的效果將會很差,因此需要根據(jù)短文本的特點加以改進。
3.1 對普通文本分類方法的改進
中文短文本特征詞稀疏,按普通文本分類方法處理,會造成提取出的特征不明顯,不利于分類器的訓練和后續(xù)的分類。為使文本分類能應用于中文短文本分類,主要采取改進特征權重計算和文本特征擴展這兩種改進措施。
(1)改進特征權重計算
(2)文本特征擴展
擴展文本特征是利用已有的人類知識進行特征擴展。一種簡單的擴展方法就是借助詞典,獲得文本中特征詞的解釋,而解釋語句中包含的詞匯與特征詞是邏輯相關的,所以可以用這些詞匯擴展原來文本的特征。在實際應用中,維基百科詞典常常被用來進行文本特征擴展。利用維基百科詞典,得到對于中文短文本詞匯的解釋文本后,將解釋文本轉換成具有權值的向量,權值代表了原詞匯和文本的相關程度,選取與原詞匯相關程度最高的部分特征詞擴展到文本中。
3.2 基于BP神經網(wǎng)絡的分類算法實現(xiàn)
分類器是文本分類的核心,它直接決定了文本分類的效果。BP神經網(wǎng)絡在分類問題上有著廣泛的應用,本文基于BP神經網(wǎng)絡設計分類器以處理中文短文本的分類問題,具體的設計和實現(xiàn)方法如下:
(1)BP神經網(wǎng)絡初始化
將經過上述處理的文本的向量作為神經網(wǎng)絡的輸入,將文本對應的類別作為神經網(wǎng)絡的輸出,以此建立BP神經網(wǎng)絡的訓練集。
BP神經網(wǎng)絡采用輸入層、隱含層和輸出層的三層結構,輸入層為k個節(jié)點,輸出層為n個節(jié)點,k和n分別對應于文本向量的維數(shù)和文本類別數(shù)。根據(jù)Kolmogorov定理設置隱含層節(jié)點個數(shù)。隱含層和輸出層各節(jié)點的激活函數(shù)選用Sigmoid函數(shù)。
初始化相關參數(shù),設置包括學習率、最大迭代次數(shù)、誤差范圍E等參數(shù),對BP神經網(wǎng)絡連接權值矩陣賦隨機值。
(2)BP神經網(wǎng)絡訓練
BP神經網(wǎng)絡訓練過程如下:
a.在訓練集中選取一組數(shù)據(jù)作為訓練樣本;
b.將訓練樣本提供給BP神經網(wǎng)絡,BP神經網(wǎng)絡計算出隱含層、輸出層的輸出;
c.計算模型輸出的總誤差,再通過求導,計算各層的誤差,根據(jù)誤差對網(wǎng)絡權值進行修正;
d.選取下一組訓練樣本,跳轉至步驟b,直至全部樣本都參與了訓練;
e.如果BP網(wǎng)絡全局誤差小于E或者訓練已達到最大迭代次數(shù),則完成訓練。
(3)BP神經網(wǎng)絡預測
將待分類的中文短文本經上述處理成向量后輸入訓練好的BP神經網(wǎng)絡中,BP神經網(wǎng)絡就會將該文本對應類別輸出。
4 結論
手機取證是打擊手機犯罪必須的技術支撐手段。本文對手機取證進行了討論,分析手機取證中的中文短文本分類技術,重點探討了如何在普通文本分類技術通過改進以適應中文短文本分類的需求,以及如何將BP神經網(wǎng)絡應用于文本分類器的設計。
參考文獻:
[1]秦玉梅,孫奕.智能手機取證[M].北京:清華大學出版社,2014.
[2]張倩.基于半監(jiān)督學習的中文短文本分類研究[D].西安:西安電子科技大學,2014.
[3]羅燕.基于維基百科的短文本處理方法[D].石家莊:河北師范大學,2016.
[4]趙小敏.手機取證概述[J].網(wǎng)絡安全技術與應用,2005(12):79-80.
[5]王細薇,樊興華,趙軍.一種基于特征擴展的中文短文本分類方法[J].計算機應用,2009,29(3):843-845.