珠 杰,李天瑞
(1. 西南交通大學 信息科學與技術學院,四川 成都 610031;2. 西藏大學 工學院計算機科學系,西藏 拉薩 850000)
?
藏文停用詞選取與自動處理方法研究
珠 杰1,2,李天瑞1
(1. 西南交通大學 信息科學與技術學院,四川 成都 610031;2. 西藏大學 工學院計算機科學系,西藏 拉薩 850000)
停用詞的處理是文本挖掘中一個關鍵的預處理步驟。該文結合現(xiàn)有停用詞的處理技術,研究了基于統(tǒng)計的藏文停用詞選取方法,通過實驗分析了詞項頻率、文檔頻率、熵等方法的藏文停用詞選用情況,提出了藏文虛詞、特殊動詞和自動處理方法相結合的藏文停用詞選取方法。實驗結果表明,該方法可以確定一個較合理的藏文停用詞表。
藏文停用詞;詞頻統(tǒng)計;文檔頻數(shù);熵
在基于詞袋模型的文本挖掘研究中,詞作為文本的特征,在文本主題信息提取、文本摘要、文本分類、文本聚類、網(wǎng)絡輿情分析、社會網(wǎng)絡分析、網(wǎng)絡搜索引擎與問答系統(tǒng)等研究中,往往組織成特征向量來表示文本內容。停用詞的處理是文本挖掘中數(shù)據(jù)清洗的重要過程,能夠大幅減少文本的無用特征,大大降低向量空間的維數(shù)、節(jié)省存儲空間、減少計算時間,提高文本分析的能力和精確度。
停用詞是指在文本中出現(xiàn)頻率很高但是所包含的信息對體現(xiàn)主題沒有多大貢獻的詞。在很多文本挖掘方法中,停用詞被作為“噪音”處理。本文以藏文文本為研究對象,主要討論藏文停用詞的選取和自動處理方法。
本文的結構如下: 第2部分介紹了停用詞處理的相關研究工作;第3部分介紹了藏文停用詞的自動處理方法,包括詞項頻率(TF)、文檔頻率(DF)、熵(Entropy)計算等方法;第4部分是藏文停用詞處理過程的相關實驗及實驗數(shù)據(jù)分析過程;第5部分是結論與展望。
從國內外研究現(xiàn)狀來分析,英文停用詞處理的研究成果多,技術成熟,目前已有公認的停用詞表,是其他語言研究的參考對象。美國Bell實驗室的Ho認為,在典型的英文文章中,停用詞的使用數(shù)量占到一半以上,而這些停用詞的數(shù)量卻不足150個[1]。英語公開發(fā)表的停用詞表中,比較著名的有 Van Rijsbergen發(fā)表的停用詞表以及 Brown corpus的停用詞表[2-3]。
從停用詞的自動選取方法[4]上看,主要采用詞項頻率、文檔頻率、信息增益(IG)、熵計算、互信息(MI)、χ2-統(tǒng)計方法等方法。漢語的停用詞處理上,Hao等人提出了χ2-統(tǒng)計方法[5],顧益軍等人提出依據(jù)聯(lián)合熵選取停用詞的方法[6],Zou等人提出一種基于統(tǒng)計與信息論模型的停用詞選取方法[7]。
從停用詞選取上來看,停用詞的認定與實際應用環(huán)境是密不可分的,根據(jù)應用環(huán)境的不同,停用詞選取范圍、數(shù)量的確定有所差別。例如,文獻[8]列出了搜索引擎針對英文的停用詞列表,其數(shù)量達到658個。漢語停用詞的選取上,周欽強等人認為停用詞主要包括英文字符、數(shù)字、數(shù)學字符、標點符號以及使用頻率特高的單漢字等[9];羅杰等人認為,除數(shù)字等切分標記外,停用詞還包括數(shù)詞、量詞、代詞、方位詞、擬聲詞、嘆詞等,沒有實際意義的動詞,例如,“可能”等,以及一些太過于常用的名詞,例如,“操作”等[10]。
從停用詞選取的閾值上來看,Silva驗證了應用停用詞表削減特征空間,對提高基于支持向量機的文本分類器準確率所產(chǎn)生的積極作用[11]。Yang和Pedersen認為,如果對停用詞按照其出現(xiàn)的文本頻數(shù)降序排序,用前10個停用詞削減特征向量空間,不會產(chǎn)生負面影響;用前100個停用詞削減特征向量空間,所產(chǎn)生的負面影響非常小[12]。
少數(shù)民族語言中,除了介紹蒙文停用詞處理的方法外[13],還沒有看到針對藏文停用詞處理的相關文章。本文借鑒其他語言停用詞處理的研究成果,分析藏文停用詞處理的特殊情況,研究藏文停用詞自動處理方法和分析停用詞表確定的可能性,并通過實驗進行驗證。
本文主要采用基于詞項頻率、文檔頻率、熵的自動選取方法來選取藏文停用詞。
3.1 詞項頻率(TF)
詞項頻率(termfrequency,TF),簡稱詞頻,指的是某個給定詞項(本文主要指詞語)在該文檔中出現(xiàn)的頻率。通過對文本中詞語的詞頻統(tǒng)計,能夠獲得該文本的詞語特征向量。設:
其中Di為第i個文檔,aij為第i個文檔中詞j的詞頻。由于同一個詞在長文件里的詞頻會比短文件更高,為防止偏向長文件,確保各分量的比重保持不變,對每個文本中的詞頻特征向量作歸一化處理,即文本Di中j詞出現(xiàn)的詞頻除以所有詞在該文檔中的詞頻之和。如式(1)所示。
(1)
其中wij表示第i個文檔中詞j的比重,是該詞在文本中的某種特征。
由于同一個詞允許在多個文檔出現(xiàn),設:
(2)
其中wj表示詞j在所有文檔中出現(xiàn)的詞的比重,m為文檔的個數(shù)。根據(jù)詞頻的比重大小從高到低對詞進行降序排序,由于停用詞往往在文本中出現(xiàn)的次數(shù)比較高,規(guī)定閾值前的藏文作為停用詞。
3.2 文檔頻數(shù)(DF)
文檔頻數(shù)是指有該詞條出現(xiàn)的文檔數(shù)量。在文本集中對每個詞條計算它的文檔頻數(shù),設:
(3)
其中wj為詞j出現(xiàn)的文檔數(shù)量,k為詞j出現(xiàn)的文檔個數(shù),D為文檔集合,隨著詞的變化出現(xiàn)該詞的文檔個數(shù)也會變化。根據(jù)wj的值從高到低對詞進行降序排序,規(guī)定閾值前的詞作為藏文停用詞。
3.3 熵計算方法
熵是信息論中很重要的概念。香農用信息熵來度量信息的不確定性程度,熵越大則不確定性越強。信息熵的定義如下:
(4)
在停用詞的處理上,文本中的詞特征向量作為隨機變量X,每個詞xi作為X的分量,進行單個詞的熵計算,這樣基于單詞出現(xiàn)的平均信息量的計算來度量文本中詞出現(xiàn)的頻率變化。
設:
其中Di為i個文本的隨機變量xij(i=1...m,j=1...n)為第i個文本中出現(xiàn)的詞j。則計算詞的熵值計算如式(5)所示。
(5)
其中
(6)
這里f(xij)為第i個文本中出現(xiàn)的詞j的詞頻,m為文本個數(shù)。文本集合中每個詞的熵值計算完成后,按照熵值的大小進行升序排列,然后取規(guī)定閾值前的詞作為藏文停用詞。
采用具有統(tǒng)計特征TF、DF、熵計算來選取藏文停用詞,這些停用詞是否具有合理性,指定的閾值是否合適,不能憑空想象。因此,下面通過實驗來說明自動方法選取停用詞的合理性。
4.1 實驗語料 語料采用了西藏大學藏文信息技術研究中心提供的測試語料,該語料大小為360KB、25個文件、共計2 518條句子。該語料是從不同的類別的文本中
人工提取出來的句子,包括了歷史、法律、宗教、教育、新聞、文學、民俗、經(jīng)濟、政治、地理等內容的句子。每個文件存放了約100條句子,雖然句子個數(shù)相同,但是句子長度的不同,文件的大小有所區(qū)別。最大的79KB,最小的10KB。
4.2 預處理
藏文文本語料的預處理過程包括藏文自動分詞、詞頻統(tǒng)計過程。分詞采用了西藏大學開發(fā)的藏文分詞系統(tǒng),該系統(tǒng)分詞正確率能夠達到90%。為了得到準確的分詞結果,對分詞結果的每個文件進行人工校對,糾正其分詞錯誤。
詞頻統(tǒng)計過程中,經(jīng)過對2 518個句子統(tǒng)計,出現(xiàn)7 490個詞,詞的總共詞頻數(shù)為36 028個,前100個詞的詞頻占總詞頻的44.87%,詞頻數(shù)為1的4 479個,占總詞數(shù)的59.84%。
按照詞頻的高低降序排序后,詞序和詞頻空間中的分布狀況,如圖1所示。其中l(wèi)og10n為詞序的對數(shù),log10r為詞頻的對數(shù)。
詞頻統(tǒng)計過程中,發(fā)現(xiàn)不少虛詞和一些特殊動詞出現(xiàn)的頻率很高。為此, 以文獻[14]中列出的虛詞為藍本,收集了180個藏文虛詞,如表1所示。另外,還收集了部分特殊動詞,包括他動詞、助動詞、存在動詞、判斷動詞等,如表2所示。
圖1 詞的分布情況
表1 藏語虛詞表
表2 特殊動詞表
按照虛詞表1的內容,進一步對實驗數(shù)據(jù)中的虛詞分布情況進行分析,發(fā)現(xiàn)虛詞的分布存在三種情況,一種是高頻的虛詞,另一種是低頻的虛詞,而中頻虛詞較少。高頻的虛詞占總虛詞數(shù)的22.78%,中間頻率虛詞占總虛詞數(shù)的12.78%,低頻的虛詞占總虛詞數(shù)的64.44%(包括低頻虛詞和未出現(xiàn)虛詞,是兩個部分之和)。實驗數(shù)據(jù)中藏文虛詞分布情況,如表3所示。
表3 虛詞分布情況統(tǒng)計表
對于特殊動詞也有類似虛詞的分布,在此不再累述。
從表3中可以看出,頻率區(qū)間是指對所有詞按照詞頻從高到低降序排序后,某個詞頻區(qū)間為頻率區(qū)間;累計詞頻是指在某個頻率區(qū)間內出現(xiàn)的所有虛詞的詞頻之和;分布率是指在某個頻率區(qū)間內出現(xiàn)的虛詞占虛詞表中總虛詞數(shù)的百分比;未出現(xiàn)詞是指在虛詞表1中存在,但在實驗語料中沒有出現(xiàn)的虛詞。
4.3 實驗數(shù)據(jù)分析
根據(jù)預處理中發(fā)現(xiàn)的虛詞、特殊動詞的分布和滿足Zifp定律的情況,實驗分兩組進行,第一組實驗中預處理結果和分詞后的文本作為輸入,對語料中的詞進行TF、DF、熵計算的停用詞處理實驗。根據(jù)計算結果和參考文獻[11]中停用詞選取閾值的說明,列出前100個高頻率和低熵值的詞條作為藏文停用詞。第二組實驗中,人工選取的180個虛詞和37特殊動詞作為停用詞,去除這些停用詞的基礎上,再進行TF、DF、熵計算的停用詞處理實驗,并列出前10個高頻和低熵值詞條作為藏文停用詞。根據(jù)兩組實驗結果的分析,說明不同策略選取停用詞的影響。
采用式(1)和(2)進行TF方法的停用詞處理實驗;采用式(2)和(3)進行DF方法的停用詞處理實驗;采用式(5)和(6)進行熵計算方法的停用詞處理實驗。經(jīng)過計算,按照高頻詞降序排序、熵值升序排序,得到了自動處理的藏文停用詞。下面主要以第一組實驗結果為依據(jù),分析實驗結果。實驗結果如表4所示。
表4是按照TF、DF方法對計算結果進行降序排序,然后提取前100個作為停用詞;另外熵計算是按照熵值低到高進行升序排序,提取前100個作為停用詞,該表稱為結果集。TF的結果集用A表示,DF的結果集用B表示,熵的結果集用C表示。對結果集的詞條在詞序-詞頻空間上的分布情況進行考察,分布情況如圖2所示。從總體上看具有函數(shù)1/|x|圖的趨勢,可以看出,TF和DF的頻率分布趨勢基本一致,但熵計算結果集的頻率分布有所差別。
圖2 TF、DF和熵結果集的停用詞分布
對三種方法的結果集之間進行比較,比較情況如表5所示。
表5 結果集之間的比較
在實驗結果中發(fā)現(xiàn),在TF與DF、熵計算結果比較,前20個出現(xiàn)的詞條基本一致,從第20個詞條之后,TF中出現(xiàn)了不少高頻名詞、數(shù)詞和形容詞;與DF相比,100個詞匯中有12個不同的詞條,即各自特有12個詞匯;與熵計算相比,有24個不同的詞條,即各自特有24個詞匯。DF與熵計算結果相比,在100個詞中有7個不同的詞匯;在DF和熵計算中,出現(xiàn)的詞匯基本相同,只是順序上不相同。從總體上看,三種方法出現(xiàn)的詞匯具有75%以上的相同之處,特別是在DF和熵計算上具有更高的相似度。
對結果集中的數(shù)據(jù)進行了詞性的統(tǒng)計,數(shù)據(jù)分析結果如表6所示。
表6 停用詞的詞性分布
從表6中可以看到虛詞和特殊動詞將近占到了70%,而且是三種方法結果集的交集部分,說明虛詞和特殊動詞在文本中具有較好的穩(wěn)定性。另一方面說明,這些詞在表達文本含義時不具備較好的區(qū)分能力。
在實驗結果中發(fā)現(xiàn), 基于三種方法選取的停用詞基本相似,存在的差別主要是由語料自身特點形成的局部不均衡造成的。其中,TF傾向于高頻詞的特征;DF在高頻的基礎上能夠照顧到文本局部特征;基于熵計算的選取方式,更傾向于選取文本中穩(wěn)定出現(xiàn)的詞,因此更容易受到文本行文方式等的影響。
預處理過程中知道有些低頻虛詞在文本中出現(xiàn)情況很少,甚至沒有出現(xiàn),而這些虛詞在文本中也沒有實際意義。因此,在第二組實驗中,虛詞和特殊動詞作為停用詞,首先去除這些停用詞,然后再采用TF、DF、熵計算進行實驗。實驗結果發(fā)現(xiàn),這些停用詞的詞頻數(shù)為13 356個,占總詞頻數(shù)的37.07%,并根據(jù)計算結果,列出前20個詞作為停用詞處理(表7)。
表7 自動處理的停用詞表
設TF、DF和熵計算的結果集分別為A′、B′、C′,對三種方法的結果集之間進行比較,比較結果如表8所示。
表8 結果集之間的比較
從實驗結果中發(fā)現(xiàn),TF與DF相比,20個詞匯中有七個不同的詞條,即各自特有七個詞匯;與熵計算相比,有九個不同的詞條,即各自特有九個詞匯。在20個詞中DF與熵計算結果相比,有三個不同的詞條,即各自特有三個詞匯。對結果集中的數(shù)據(jù)進行了詞性的統(tǒng)計,數(shù)據(jù)分析結果如表9所示。
表9 停用詞的詞性分布
從表9中可以看到,三種方法的結果集交集部分占到了50%以上,即10個詞條以上。
從第二組實驗來看,虛詞和特殊動詞為停用詞的前提假設,沒有通過實驗和理論來驗證該假設的正確性。下面通過參考文獻[15]中的區(qū)分度來分析該假設的合理性。根據(jù)區(qū)分度的定義,25個文件為25個類別,如式(7)所示。
(7)
其中l(wèi)=25,m為第i個文檔中的詞個數(shù),gij為詞wj的類間分布,且為式(8)。
(8)
其中fij為詞wj的詞頻,且為式(9)。
(9)
其中count(wj)為詞wj在第i個文檔中出現(xiàn)的次數(shù),分母為第i個文檔中所有詞條出現(xiàn)的次數(shù)。
根據(jù)實驗結果,藏文停用詞選取上藏文虛詞應列入停用詞范圍,這與實際的語言現(xiàn)象也是一致的,因為藏文虛詞在文章中起到承上啟下的作用,不表示實際意義。另外,藏文的一些特殊動詞也應列入停用詞范圍,這些動詞包括自動詞、他動詞、助動詞、存在動詞、判斷動詞等,它們只在句子中起到判斷、存在等作用。從實驗分析來看,藏文虛詞和特殊動詞在文本中具有兩頭大中間小的分布特征,如果完全依賴自動處理的方法,很多低頻的虛詞和特殊動詞不會納入到停用詞的范圍,建議虛詞和特殊動詞作為藏文的停用詞;在此基礎上,利用TF、DF、熵計算等方法,提取其他的停用詞。
另外,在藏文停用詞選取上,藏文編碼國際標準ISO/IEC10646中的藏文符號也應列入停用詞選取范圍;如果藏文文本中存在其他語種的符號和詞匯,也應列入停用詞范圍。在停用詞選取上閾值的確定參考了Yang和Pedersen的觀點[12],在不使用藏文停用詞表的情況下閾值確定為100,使用藏文停用詞表時閾值確定為10。
本文以詞袋模型的藏文文本挖掘過程來考慮,對藏文文本中停用詞的選取范圍、選取方法進行了討論。采用TF、DF、熵計算方法討論了停用詞選取方法,并通過對2 518條藏文句子語料的測試,對停用詞選取結果進行了比較。根據(jù)測試結果和藏文的虛詞理論、動詞理論,本文認為完全依靠自動處理方式來處理藏文停用詞,并不是很準確。建議180個藏文虛詞和30多個藏文殊動詞、藏文符號作為基本的停用詞。當然停用詞的處理具有很強的應用性質,不同場合需要不同的停用詞選取范圍,在基本的停用詞基礎上,選擇不同應用場合的停用詞和停用詞選取方法。本文工作是藏文文本挖掘的一個預處理過程,今后在此基礎上繼續(xù)研究停用詞對藏文文本分類的影響和閾值范圍的選擇,還要進一步考慮藏文文本挖掘的更深入的研究內容,例如,情感分析、語義分析、社會網(wǎng)絡分析等的藏文文本挖掘內容,提高藏文文本挖掘的深度和廣度。
[1]HoTK.StopWordLocationandIdentificationforAdaptiveTextRecognition[J].InternationalJournalonDocumentAnalysisandRecognition, 2000, 3(1): 16-26.
[2]VanRijsbergenCJ.Informationretrieval[M].London:ButterworthsScientificPublication, 1975.
[3]FoxC.LexicalanalysisandStoplist,InformationRetrieval:DataStructuresandAlgorithms,UpperSaddleRiver[M].NewJersey:PrenticeHall, 1992.
[4] 周茜, 趙明生,扈旻. 中文文本分類中的特征選擇研究[J]. 中文信息學報, 2003, 18 (3): 17-23.
[5]HaoL,HaoL.AutomaticIdentificationofStopWordsinChineseTextClassification[C]//Proceedingsofthe2008InternationalConferenceonComputerScienceandSoftwareEngineeringWuhan,China:IEEEComputer, 2008: 718-722.
[6] 顧益軍, 樊孝忠, 王建華等. 中文停用詞表的自動選取[J]. 北京理工大學學報, 2005, 25(4): 337-340.
[7]ZouF,WangFL,DengXT,etal.AutomaticConstructionofChineseStopWordList[C]//Proceedingsofthe5thWSEASInternationalConferenceonAppliedComputerScience,Hangzhou,China. 2006, 4: 1010-1015
[8]StopWordList-WordsFilteredoutbySearchEngineSpiders[EB/OL].http://www.seo-innovation.com/support-files/stopwordlist.pdf.2007.
[9] 周欽強, 孫炳達, 王義. 文本自動分類系統(tǒng)文本預處理方法的研究[J]. 計算機應用研究, 2005, 2: 85-86.
[10] 羅杰, 陳力, 夏德麟等. 基于新的關鍵詞提取方法的快速文本分類系統(tǒng)[J]. 計算機應用研究, 2006, 4: 32-34.
[11]SilvaC,RibeiroB.Theimportanceofstopwordremovalonrecallvaluesintextcategorization[J].NeuralNetworks, 2003, 3: 20-24.
[12]YangY.PedersenJ.Acomparativestudyonfeatureselectionintextcategorization[C]//ProceedingsofICML-97, 14thInternationalConferenceonMachineLearning.SanFrancisco:MorganKaufmannPublishersInc. 1997: 412-420.
[13] 攻政, 關高娃. 蒙古文停用詞和英文停用詞比較研究[J]. 中文信息學報, 2011, 25(4): 35-38.
[14] 格桑居冕, 格桑央京. 實用藏文文法教程[M]. 成都: 四川民族出版社, 2004.
[15] 游榮彥, 鄧志才, 李傳宏. 向量空間模型中特征詞的區(qū)分度的定量研究[J]. 中文信息學報, 2011, 16(3): 15-19.
Research on Tibetan Stop Words Selection and Automatic Processing Method
ZHU Jie1,2, LI Tianrui1
(1. School of Information Science and Technology, Southwest Jiaotong University, Chengdu, Sichuan 610031, China; 2. Department of Computer Science, Tibet University, Tibet, Lhasa 850000, China)
Stop words processing is a key preprocessing step in the text mining. In this paper, the selection method of stop words in Tibetan based on statistics is studied by combining with the existing techniques. Through experiments, TF, DF, and entropy calculation methods in the selection of Tibetan stop words are analyzed. An approach for the selection of Tibetan stop words is presented by the combination of Tibetan function words, special verb and automatic approach. The experimental results show that the proposed method can determine a reasonable Tibetan stop words list.
Tibetan stop word; TF; DF; entropy
珠杰(1973—),博士研究生,副教授,主要研究領域為藏文信息處理技術、數(shù)據(jù)挖掘等。E?mail:790139756@qq.com李天瑞(1969—),博士,教授,博士生導師,主要研究領域智能信息處理、數(shù)據(jù)挖掘和云計算等。E?mail:trli@swjtu.edu.cn劉勝久(1988—),博士研究生,主要研究領域為數(shù)據(jù)挖掘與知識發(fā)現(xiàn)等。E?mail:liushengjiu2008@163.com
1003-0077(2015)02-0125-08
2012-10-25 定稿日期: 2013-04-08
國家自然基金(61262058,60763010),CCF 中文信息技術開放基金項目(CCF2012-02-01),藏文信息技術教育部“長江學者與創(chuàng)新團隊發(fā)展計劃”(IRT0975)。
TP391
A