胡曉輝
(江西機電職業(yè)技術學院 信息工程學院,南昌 330013)
如今計算機、通信技術快速發(fā)展,文本數據量急劇增多,文本分類顯得尤為重要,本文研究的分類技術正是目前人工智能研究的一個分支。經典的文本分類模型大多是基于概率、內容和向量空間的分類模型[1-2]。其中經典的文本分類方法有BAYES[3-4]、神經網絡[5-6]、SVM[7-8]和KNN[9]等,這些基于向量空間模型的經典算法最大優(yōu)勢體現在表示方法上。
目前,傳統TF-IDF算法[10]是通過詞語在文本中出現的頻率來判斷其重要性的,未充分考慮文檔的結構特征信息,Araqueo[11]基于詞嵌入模型和線性機器學習,該文獻對一種基于深度學習的算法進行研究。Hang[12]未根據詞語所在的位置信息來進行評估,導致文本分類的準確性受到限制。綜合詞的位置信息、作者的關聯信息、鏈接信息等結構信息到分類模型中,可以有效地提高分類器效果。本文研究NEWTF-IDF算法是一種新穎的權重算法,基于傳統的TF-IDF模型,通過挖掘文檔的結構信息,增加了關鍵信息權重,考慮特征詞的類內外分布密度,較好地聚焦在對文檔分類貢獻更大的詞語上。復旦大學分類數據集是較為廣泛使用的中文語料庫,網頁數據集使用的是SEWM中文網頁,本文基于這2個數據集進行了實驗,在2個數據集上的結果表明本文的方法較傳統的方法效果相對較好。
傳統TF-IDF算法,詞文本中出現的頻率越小就越能區(qū)分開文本類別,反之,如果一個詞在文本中出現的頻率越大,該詞的重要性就越低[13]。事實是這樣的思想有一定的局限性,該算法并非有效地體現出詞的重要度,而且該算法也沒有考慮詞語出現的位置,這就導致該算法的精度并不理想。針對以上問題,本文基于該算法提出了一種新的NTF-IDF(New Term Frequency Inverse Document Frequency)算法,該算法考慮了關鍵信息的權重,對不同位置的詞賦予了不同的權重,在詞權重的處理中同時考慮詞密度分布,以使獲得的特征詞更加具有區(qū)分類別的能力。N-TF-IDF算法主要針對的應用場景是網頁、論文和專利等文本的分類。這類文本往往包含,如:鏈接信息、標題、頁面描述、關鍵詞、發(fā)表單位和摘要等等,這些信息對文本分類均有較大的作用。在預處理時,關鍵位置詞語對文本分類貢獻更大,因而對不同位置出現的詞語賦予不同權重,如果一個詞越是能反映類別的特征那么該詞在類內的分布密度就越均勻。
在文本中,特征分布對其權重有一定影響,對于這一點,傳統TF-IDF算法并未考慮到。新NTF-IDF算法綜合考慮詞語的位置和出現的概率分布,獲取更好的能反映類特征的詞項,對于這樣的詞賦予更高的權值。
對文檔的分類包括對網頁的分類和對純文本的分類,無論是對于網頁還是純文本,都需要獲取能更好區(qū)分類別的特征,因此對于期刊論文或者網頁文本的分類可以使用文本分類的相關方法。一般網頁包含正文、超文本標記和錨文本等特殊元素,標簽則反映網頁不同區(qū)域重要程度,錨文本文字描述鏈接所指向的網頁主題,其反映網頁內容和性質,對建立相關主題網頁之間的聯系有著特別重要的意義;標題、摘要及關鍵詞是期刊論文的重要元素,標題讓人們快速了解文章的體裁,摘要使得人們快速準確地把握文章的內容,而關鍵詞則反映文章涉及的專業(yè)領域。網頁頁面和期刊論文中的這些特殊詞在很大程度上是對文本內容的高度概括和提煉,因此要賦予更高的權重。在綜合分析文檔內容和結構的基礎上,獲取文本中不同位置的內容,賦予這些關鍵特征更高的權值。獲取關鍵信息確定權重系數過程如圖1所示。
圖1 權重系數獲取流程圖
通過HtmlParser工具對頁面信息進行抽取,過濾掉非法字符,頁面信息經過預處理后,去除了停用詞,對于出現在網頁中不同位置的詞賦予了不同權重,權重系數對分類結果有一定的影響,經過多次實驗后,對分類結果進行對比,確定TITLE、BODY、ANCHOR三者的最終權重比是2∶1∶1;對于期刊論文等文本,標題中的詞和關鍵詞、摘要段落內的詞及正文中的詞的權重之比為2∶1.5∶1。為了確定某個文檔所屬的類別,只要計算該文檔中的特征項在不同的類中聯合分布,然后對不同的類所對應的值進行比較,概率值較大者所對應的類,即為該文檔的所屬類別。
傳統TF-IDF算法僅考慮某個特征項與其所在文本數量間的關系,計算方法比較簡單,因此該算法認為某個詞文本頻率越小那么就越能把文本類別區(qū)分開,反之文本頻率越大的詞對區(qū)分文本類別的能力越弱,這就忽略了詞語出現在所屬類別和類別外的概率。NTF-IDF算法在衡量特征詞的類別區(qū)分能力時考慮了詞的類內分布密度和詞的類外分布密度這2個因素。詞的類內分布密度度量該詞與類別的相關性,詞的類外分布密度度量該詞區(qū)分類別的能力。詞類內分布密度表示該詞在其所屬類文本中的密度,記為TCI;詞的類外分布密度表示該詞出現在其他類的文本中的分布密度,記為TCO。
如果某詞在一個類所有文檔幾乎平均出現,但是在其他類中出現率極低,那么該詞具有極強的類別代表性。基于這種思想,詞類內外分布密度跟該詞在某類中每篇文檔的出現頻率有關,用F(t,Cij)代表特征t出現在第j類中的第i篇文檔的頻率,F(t,Cij)代表特征t出現在第j類中的頻率
式中:n代表第j類中所有的文檔數量0≤TCI≤1。
式中:N為訓練集總的類別數0≤TCO≤1。
當TCI的值越小時,表明特征詞t在j類中分布密度就越平均,也就越能體現該類別的特征,當取極端值0時,該特征極大體現此類的共性;反之,當TCI的值越大時,就越不具備代表性。當TCO的值越小時,表明特征詞Ti在不同類別中的分布密度就越均勻,那么該特征區(qū)分類別的能力就越弱,當達到極端值0時,該詞對分類貢獻幾乎為0;反之,當TCO的值越大時,表明特征詞t在不同類別中的分布密度就越不均勻,越能體現其所在密度分布較高的類的特征。因此,當t使得TCI值較小而TCO值較大時,應該賦予t更大的權重,權重計算公式如下
SEWM和復旦大學分別提供了網頁訓練和中文分類訓練數據集,其在文本處理領域具有一定的代表性,因此本實驗將采用這2個數據集進行分析。
SEWM中文網頁分類語料庫共有11個大類,部分網頁結構不夠完整,實驗過程中剔除了這些網頁后共有11 000多個訓練頁面和3 600個測試頁面。復旦大學數據集中有部分重復或者損壞的文檔,同樣對這部分文檔也進行了剔除,該語料庫共有文檔19 630篇分布在20個類別中,其中有11個類別的正例訓練文本數不到100篇,本實驗中對該數據集按照1∶1的比例來劃分訓練文本和測試文本。
對于SEWM中文網頁在預處理時,將超文本轉化成普通文本,去除網頁中的停用詞,并對單詞做了詞干化。對于復旦大學數據集在預處理時,首先剔除數據集中的稀有詞,然后使用中科院計算所分詞效果較好的開源項目。
文本分類技術中常用準確率、召回率、F1值、微平均和宏平均來進行評價,本次試驗將采用微平均、宏平均及F1值來對新的算法NTF-IDF進行分析。在以上2個數據集上對傳統的特征選取方式和本文優(yōu)化后的特征選取方式進行對比。
圖2和圖3都顯示了本文提出的新的優(yōu)化算法NTF-IDF,在2個數據集上的10個常見類F1值都比傳統的TF-IDF算法要高。
圖2 復旦大學數據集上2種方法實驗結果對比圖
圖3 網頁分類語料庫上2種方法實驗結果對比圖
表1表明了2種特征權重算法在同一分類器上的10個大類及在所有類別上的微平均和宏平均,本次實驗表明新的算法有效提高了分類結果。
表1 在復旦數據集上2種方法微平均、宏平均對比表
由圖2和圖3可以看出,本文新算法的F1值比TFIDF算法要高,F1值的取值情況隨著數據集的數量增加而有所提高,當數據集的數量800多時,2種算法對應的F1值較大,NTF-IDF對應的F1值隨著數據集的增加基本呈現上升趨勢。本文NTF-IDF算法和原有TF-IDF算法相比較,增加考慮了特征詞的位置信息以及特征詞的類內外分布密度。因TF-IDF算法未涉及詞的結構特征而存在一定的局限性,故本文NTF-IDF算法比傳統的算法分類效果有所提升。
本文對訓練文檔集進行學習,提出了一種有效的特征權重計算方法,該方法結合特征詞位置信息,考慮文本的結構特征,增加考慮特征詞的類內外分布密度,以獲得能更好地區(qū)分類別的特征信息。不同數據集上實驗表明,本文新的計算特征權重的方法切實可行。未來將更進一步完善和優(yōu)化算法,賦予較優(yōu)的權重分配比,并與其他經典的算法進行比較,以更進一步提高分類性能。