陳夢圓 田君藝 任宇童 重慶郵電大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院
在日常口語表達(dá)和文本描述中,每個人都會形成具有個人特征的語言風(fēng)格,郵件中的文本?;旌现谡Z內(nèi)容和正式書面語,個人特征風(fēng)格尤為明顯。本文就基于個人語言風(fēng)格特征對郵件內(nèi)容提取有效關(guān)鍵字,比對郵件特征和樣本之間的余弦距離來識別郵件作者。
TF-IDF(term frequency inverse document frequency)是一種用于資訊檢索與資訊探勘的常用加權(quán)技術(shù)。TF-IDF是一種統(tǒng)計方法,用以評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降。TF-IDF加權(quán)的各種形式常被搜尋引擎應(yīng)用,作為文件與用戶查詢之間相關(guān)程度的度量或評級。
余弦相似度用向量空間中兩個向量夾角的余弦值作為衡量兩個個體間差異的大小。相比距離度量,余弦相似度更加注重兩個向量在方向上的差異,而非距離或長度上。
設(shè)計流程如圖1所示。
圖1 設(shè)計流程
首先選擇一個由Bass寫的安然郵件信息作為語料訓(xùn)練集。刪除郵件的非原件部分,只保留原文內(nèi)容。然后使用nltk進(jìn)行單詞提取,給出訓(xùn)練集合中的每個特征詞的TFC的重量,和文本內(nèi)容轉(zhuǎn)換成計算機(jī)能夠識別和處理的數(shù)據(jù)。選擇另一個人寫的郵件,重復(fù)上面的步驟來處理。最終使用TF-IDF算法得到測試郵件和語料庫的特征矩陣,計算其余弦相似度。
采用600封重復(fù)以上步驟,計算識別作者過程各類指標(biāo)值,計算所得結(jié)果如表1所示。
表1 計算結(jié)果
如你所見,該模型能正確識別作者的概率是89.13%,也就是說,在100封電子郵件中,大約89.13個字母可以被正確識別,正確率非常高。
[1] http://blog.csdn.net/baimafujinji/article/details/51476117
[2]劉明勇.基于寫作風(fēng)格學(xué)的作者識別技術(shù)研究[D].浙江大學(xué),2013.
[3] http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html