邱前智 劉忠
桂林理工大學 廣西 541004
隨著信息技術的飛速發(fā)展特別是互聯網的廣泛普及,網絡文本以指數級別增長,網絡文本成為人們進行信息交流的重要方式。如何對浩如煙海的文檔、資料和數據進行自動分類、組織、挖掘和管理,已經成為一個具有重要用途的研究課題。文本分類是在預定義的體系下與一個或者多個類別相關聯的過程。文本分類作為信息檢索和數據挖掘的基礎技術和研究熱點,從上個世紀50年代至今,已經取得長足發(fā)展。廣泛應用于郵件分類、自動文摘、信息過濾、電話會議等。特征選擇(Feature Selection,FC)作為文本分類的關鍵一步,具有降低向量空間維數、簡化計算、以及去除噪聲等作用,征提取的好壞將直接影響著文本分類的準確率和效率。特征選擇一般是通過構造一個特征評分函數,把測量空間的數據投影到特征空間,得到在特征空間的值,然后根據特征空間中的值對每個特征進行評估,特征選擇就成了選擇值最高的若干個特征。常用的特征選擇方法(如信息增益、互信息)采用統計方法處理詞語與類別,忽略特征詞之間的語義關系。本文提出一種基于上下文的詞匯相關度的特征選擇方法,通過計算詞語與類別關鍵詞詞匯相關度,設定相關度閥值,進行特征取舍,降低特征空間的高維性,并有效減少噪聲,得出最優(yōu)特征空間,從而提高了分類精度和算法效率。
網絡文本作為一種結構化的特殊文本,除了文本信息之外,還有其他描述信息,如標題、頁面描述和超鏈接等標簽(tag)。所以文本分類具有特殊性。一般包含如下幾個重要的步驟,每個步驟都涉及各自相關技術。
預處理包括兩個具體步驟:第一步將網絡文本的所有標簽(tag)去除,轉化為一般文本;第二步去除停用詞,既去除高頻詞和情感詞。
預處理之后,進行中文分詞。中文文本不像英語等,中文詞與詞之間沒有顯示標志。因此中文分詞成為處理計算機處理中文時面臨的首要基礎性工作。常用的分詞工具有很多,比如:中科院的 ICTCLAS中文分詞工具、IK Analyzer等。
文本表示模型常用的是向量空間模型(VSM),其他常用模型還有詞組表示法、概念特征表示法。
傳統的特征選擇方法主要有:基于文檔頻率(document frequency, DF)法、信息增益(information gain, IG)法、互信息(mutual information, MI)法。
特征權重是衡量某個特征項在文檔表示中的重要程度。權重計算方法一般有絕對詞頻(TF)、倒排序文檔頻率(IDF)、TF-IDF等。
分類器是相當重要的一個步驟,常用的分類算法包括:樸素貝葉斯分類法、基于支持向量機、k-最近鄰法、神經網絡法、決策樹法、Rocchio分類法和Boosting算法。
圖1 分類流程圖
詞匯相關性計算在很多領域中都有廣泛應用,例如信息檢索、信息抽取、文本分類等等。詞匯相關性計算的兩種基本方法是基于世界知識(Ontology)或某種分類體系(Taxonomy)的方法和基于上下文統計的方法。這兩種方法各有優(yōu)缺點。
基于上下文統計的方法計算詞匯相關度假設:兩個詞經常共同出現在文檔的同一窗口單元(如一句話、一個自然段等),則認為這兩個詞在意義上是相互關聯的,并且,共現的概率越高,其相互關聯越緊密。
本文采用的 Jaccard系數計算兩個詞語的詞匯相關度是一種基于上下文統計的方法。
Jaccard系數計算公式如下:
P和Q是代表文檔中的兩個詞匯;H(P)代表P在窗口出現的次數,H(Q)代表Q在窗口出現的次數,H(P∩Q)則代表P和Q一起出現的次數。
詳細步驟如下:
(1) 確定領域,確定需要分類文本的所屬領域,經濟、政治、等等。既是語料庫所包含的文本的類別;
(2) 自定義一個語義范圍,根據《知網》對每個領域確定好類別關鍵詞,建立1-10的相關度。例如:經濟領域,我們選取出資人、收入、股票、貨物、商人、貿易、公司、商業(yè)、金融、經濟;
(3) 對文本進行預處理;
(4) 分詞;
(5) 將訓練文本中的詞匯與類別關鍵詞用 1式進行相關計算。形式如下:Jaccard(類別關鍵詞,待選詞匯);設定閥值,進行特征選擇,得出最終特征集合;
(6) 選擇文本表示模型;
(7) 選擇文本分類器;
(8) 對測試文本,用特征集,進行文本表示;
(9) 測試評估,動態(tài)調整算法。
我們在Weka平臺上,進行對比試驗(如表1)。在特征權重選用TF-IDF,分類器用KNN算法,樸素貝葉斯算法。用搜狗2008迷你版語料庫分為訓練文本和測試文本,其包含軍事、文化等十個為本類別,每個類別分別有100篇文檔,是一個平衡語料庫。將本方法與信息增益、互信息法進行比較。我們采用了查準率(Precision,p)和算法時間(Time,T)作為評價指標。
表1 實驗結果
經過實驗結果,我們得出基于詞匯相關性的特征選擇比傳統的特征選擇方法在分類精度和算法運行時間均有穩(wěn)定的提高。
文本分類是信息檢索、信息過濾和搜索引擎工作的技術基礎。文本特征的高維性是影響分類精度和效率的一個重要因素,如何進行有效的特征降維成為文本分類的一個研究熱點。本文采用詞匯相似度進行特征選擇改進文本分類算法,有效地提高了分類精度和算法效率。
[1]宗成慶.統計自然語言處理[M].北京:清華大學出版社.2008.
[2]申紅,呂寶糧,內山將夫,井佐原均.文本分類的特征提取方法比較與改進[J].計算機仿真.2006.
[3]劉群,李素建.基于《知網》的詞匯語義相似度算[J].Computational Linguistics and Chinese Language Processing.2002.
[4]張燕平,史科,徐慶鵬,謝飛.基于詞共現模型的垃圾郵件過濾方法研究[J].中文信息學報.2009.
[5]Boll gala,D.,Matsuo,Y.,and Ishizuka,M.(20-07) Measuring.semantic similarity between words using web search engines.In Proc.2007.