張敬巍
摘要:作者識別是一個應用廣泛的研究領域,可以應用于中外文學作品的作者考證領域,也可以應用于版權保護、惡意郵件識別等信息安全領域【1】。本文主要研究如何通過電子郵件的語言特征來識別作者的問題。在眾多郵件當中,根據(jù)語言風格的分析,確定作者?!帮L格”是指由于作者的生活經(jīng)歷、藝術素養(yǎng)等造成的不同的創(chuàng)作特色,而語言風格是作家通過作品表現(xiàn)出來的創(chuàng)作語言特有的格調(diào)。我們將要進行的作者識別過程其實是一個文本分類的過程。文本分類是對文本集按照一定的分類體系或標準進行自動分類標記,屬于一種基于分類體系的自動分類。已有的文本分類算法有:決策樹、神經(jīng)網(wǎng)絡、k近鄰、樸素貝葉斯、遺傳算法和支持向量機等。文本的分類通過分析電子郵件的語言特征實現(xiàn),作者的語言特征是長期形成的行文習慣在寫作活動中的體現(xiàn)。我們通過統(tǒng)計的方法用某些數(shù)量特征表現(xiàn)作者的行文風格,從例如詞長、句長、詞頻,以及修辭、句法等不同角度綜合體現(xiàn)。我們運用支持向量機結(jié)合語言風格學的方法分析郵件的作者歸屬問題。
關鍵詞:作者識別支持向量機語言特征
1.問題分析
問題要求基于電子郵件的語言特征來識別作者。每位作者在書寫時會體現(xiàn)出不同的行文風格,我們選取一些不同的角度對每位作者的郵件文本進行分析。分析過程包括:文本預處理、詞頻統(tǒng)計、文本特征的抽取、分類器的訓練。
2.假設
1.假設郵件的主要內(nèi)容主要集中在后半部分。
2.假設文本中詞與詞之間的關系是相互獨立的。
3.1文本預處理
文本預處理是我們進行詞頻統(tǒng)計和文本預處理的第一步,只有對文本進行預處理,才能對郵件的詞頻進行統(tǒng)計,對訓練集進行有效的訓練。首先進行詞干化,詞干化是將所有形式的衍生詞脫離各種各樣的詞性和語法變化,提取出共同的主干,變?yōu)榻y(tǒng)一的詞根,降低文本特征的維數(shù),便于接下來的處理。如:effective→effect等。
過濾停用詞和稀有詞:通常意義上,停用詞大致分為兩類。一類是人類語言中包含的功能詞,這些功能詞極其普遍,與其他詞相比,功能詞沒有什么實際含義,比如'the'、'is'、'at'、'which'、'on'等。
3.2特征選擇
3.3文本表示模型
對于計算機而言,如果要進行文本分類,那么需要將文本表示成計算機能夠處理的形式,我們選擇的表示模型為向量空間模型,這也是最常用的一個模型。向量空間模型(VSM)是指將每篇文檔表示成一個向量,各個特征詞的詞頻作為向量中的一個元素,語料庫中所有的文檔構成一個矩陣。
3.4特征權重表示
在將文檔用向量空間模型表示后,還需要給每個特征詞賦予一定的權重,以矩陣的形式交給計算機去處理。布爾權重是常用的文本特征權重表示方法。布爾權重基于簡單的二元判定標準,定義十分直觀。
3.5分類方法統(tǒng)計
K-近鄰法:K-近鄰法(KNN)因算法簡單、易于實現(xiàn)、不需要估計參數(shù)、分類精度高等優(yōu)勢,已成為模式識別和統(tǒng)計學領域最著名的算法之一,也是機器學習中最早應用于自動文本分類的非參數(shù)算法之一。
樸素貝葉斯法:樸素貝葉斯法是基于貝葉斯定理與特征條件獨立假設的分類方法。最為廣泛的兩種分類模型是決策樹模型和樸素貝葉斯模型。和決策樹模型相比,樸素貝葉斯分類器(Naive Bayes Classifier,或NBC)發(fā)源于古典數(shù)學理論,有著堅實的數(shù)學基礎,以及穩(wěn)定的分類效率。同時,NBC模型所需估計的參數(shù)很少,對缺失數(shù)據(jù)不太敏感,算法也比較簡單。理論上,NBC模型與其他分類方法相比具有最小的誤差率。
3.6分類器訓練
為了準確的預測郵件的作者,我們首先對分類器進行訓練。我們選取樣本的75%作為訓練集使訓練器更具有準確性,剩下的25%作為測試集,檢驗分類器的正確性。
參考文獻:
[1]萬晶.中文作者識別方法研究[D].湖南大學,2012.
[2]劉明勇.基于寫作風格學的作者識別技術研究[D].浙江大學,2013.
[3]吳寅雪.歐美科普作品的詞法特征及其翻譯[J].校園英語(中旬),2015,(7):237-238.
[4][期刊論文] 蘇佩娟,劉赪,牟建波,王麗梅,SU Peijuan,LIU Cheng,MU Jianbo,WANGLimei- 《西華大學學報(自然科學版)》2017年4期