康迎曦
(湖南工程學(xué)院 電氣信息學(xué)院,湘潭 411101)
文本挖掘技術(shù)是一個多學(xué)科交叉的研究領(lǐng)域,涉及到數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、模式識別、人工智能、統(tǒng)計學(xué)、數(shù)據(jù)庫、計算機(jī)語言學(xué)、信息學(xué)等多個領(lǐng)域.文本挖掘是知識發(fā)現(xiàn)在復(fù)雜文本數(shù)據(jù)上的一種擴(kuò)展;并且它與信息檢索(IR)和信息提?。↖E)等自然語言理解的研究方向密切相關(guān).
DFSSM是在研究結(jié)構(gòu)化數(shù)據(jù)挖掘理論與應(yīng)用的基礎(chǔ)上提出的復(fù)雜類型數(shù)據(jù)的知識發(fā)現(xiàn)系統(tǒng)的一般化的結(jié)構(gòu)模型.該模型針對非(半)結(jié)構(gòu)數(shù)據(jù)類型,對KDD中的雙庫協(xié)同機(jī)制賦予新的內(nèi)涵.目前該模型已經(jīng)初步應(yīng)用到了氣象云圖數(shù)據(jù)挖掘、WEB文本挖掘等非(半)結(jié)構(gòu)數(shù)據(jù)類型的數(shù)據(jù)挖掘中.
挖掘過程可概括為:開始從判斷復(fù)雜數(shù)據(jù)的類型(如文本數(shù)據(jù)、多媒體數(shù)據(jù)、結(jié)構(gòu)體數(shù)據(jù)及時間序列數(shù)據(jù)等),然后再選擇合適的數(shù)據(jù)抽取工具,從而進(jìn)行復(fù)雜數(shù)據(jù)對象的特征抽取操作過程,形成最開始的特征表示方式.下面主要介紹特征詞選取和文本空間表示的方法.
一個特征詞集合選取是否合理,主要看選擇的詞是否具有類別標(biāo)識性.我們用來表示文本內(nèi)容的元素可以有各種類型,比如對中文來說,有字、詞、短語,甚至是句子或句群等多個元素 .元素可是文字、詞或短語的語義等概念類.根據(jù)常用文本特征提取方法在文本分類問題中的問題,我們可以提出使用特征詞的分布狀態(tài)、詞頻和文本頻三者相結(jié)合的方法來提取文本特征 .如果選出的元素代表性越高,語言的層次越高,元素所包含的信息就會越豐富,但是我們分析的代價就越大,而且受分析精度的影響就會越大 .在各項(xiàng)數(shù)據(jù)中,字、詞、概念、短語等元素項(xiàng),一般在文檔中的出現(xiàn)頻度較高,從而呈現(xiàn)出一定的統(tǒng)計規(guī)律,所以更適用于文檔分類、聚類、信息檢索等數(shù)據(jù)應(yīng)用系統(tǒng);而由簡單特征組合而成的,相對復(fù)雜的句子和段落特征,一般會被更多地被文本摘要系統(tǒng)所采用.選取特征元素有如下基本原則和方法:
(1)文本在這些特征元素上的分布應(yīng)當(dāng)有比較明顯的應(yīng)用和統(tǒng)計規(guī)律;
(2)應(yīng)選取包含語義信息多和對文本的表示能力較強(qiáng)的語言單位作為特征元素;
(3)選取過程要比較容易實(shí)現(xiàn),其時間和空間開銷都相對較小.
從以上的三個原則上考慮,針對一篇包含字、詞、短語、句、段等各個層次的中文數(shù)據(jù)文本,在實(shí)際應(yīng)用中一般采用字、詞或短語來作為特征元素.
現(xiàn)在在文本自動分類中,一般情況下采用空間向量模型來表示待分類的文檔.在這個表示方法中,處理文檔通常由大量特征詞組成,但是這些特征中包含了很多冗余的特征,這樣不僅增加了系統(tǒng)的時間和空間浪費(fèi),從而大大限制了分類算法的選取、降低了分類算法的性能.
我們采用詞項(xiàng)作為文本特征項(xiàng)的表示方式.對于每一特征項(xiàng)Ti,都可以根據(jù)它在文檔中的重要程度賦相應(yīng)的權(quán)值Wi.采用的有兩種不同方法.①可由領(lǐng)域?qū)<一蛴脩舾鶕?jù)自己的經(jīng)驗(yàn)與所掌握的領(lǐng)域的相關(guān)知識,相應(yīng)的進(jìn)行權(quán)的賦值.但是這種辦法效率不高,難以適用于大規(guī)模真實(shí)文本處理.②運(yùn)用統(tǒng)計理論的方法,使用文本的統(tǒng)計信息(如詞頻、詞之間的頻率等)來計算特征項(xiàng)權(quán)值.一般情況下計算權(quán)值只能根據(jù)具體應(yīng)用情況來定,很難有普遍適用的最佳方法.比如Wi(d)一般被定義為Ti在文檔d中出現(xiàn)頻率的tfi(d)函數(shù),即Wi(d)=ψ(tfi(d)).常用的ψ有:
(1)布爾函數(shù)ψ=(1,tfi(d)≥1;0,tfi(d)=0)
(3)對數(shù)函數(shù)log(tfi(d)+1)
其中N為所有文本的數(shù)目,ni為含有詞條ti的文檔數(shù)目.如果采用以上的權(quán)值計算方法,那么其策略可以理解為:若某個特征項(xiàng)在某一文檔中出現(xiàn)的頻率越高,它的貢獻(xiàn)能力就越大;但若該特征項(xiàng)在整個文本集中出現(xiàn)的文檔數(shù)太多時,它的貢獻(xiàn)將也會被減弱.
實(shí)驗(yàn)分析表明,無論選擇什么作為特征項(xiàng),特征空間的維數(shù)都將很大,這樣的高維特征空間使得系統(tǒng)在運(yùn)行過程中需要大量的空間和時間,從而極大地影響了系統(tǒng)的效率.那么如何在不降低系統(tǒng)性能的原則下,將高維特征空間轉(zhuǎn)變?yōu)榈途S特征空間是傳統(tǒng)向量空間模型就是重要的研究內(nèi)容.一般采用篩選特征項(xiàng)的方法為從一組特征中挑選出一些最有效的特征以達(dá)到降低特征空間維數(shù)的目的.在不同內(nèi)容的文檔中,各詞條和句子出現(xiàn)頻率有一定的規(guī)律性,因此可根據(jù)詞條的周期特性來進(jìn)行特征提取.一個有效的特征項(xiàng)集,必須滿足以下的兩個特征:
①完全性,特征項(xiàng)能夠確實(shí)表示目標(biāo)內(nèi)容;
②區(qū)分性,根據(jù)特征項(xiàng)集,能將目標(biāo)同其它文檔數(shù)據(jù)相區(qū)分.
我們可以提出一種以段落、語句為層次結(jié)構(gòu)的文本空間表示模型,并在此模型基礎(chǔ)上設(shè)計出一種以文本段落為基本單位的文本計算算法,從而實(shí)現(xiàn)相似文本檢測目標(biāo).所以我們可以根據(jù)文本集合設(shè)計一個詞項(xiàng)矩陣,進(jìn)而來計算它的詞頻,轉(zhuǎn)化成文本——詞頻矩陣 .是一個高維稀疏矩陣,因此在選取特征詞,形成一個文本——特征詞矩陣.
通過對教育新聞等網(wǎng)頁分析,我們可以設(shè)計出含有三個主題類別:即家庭教育、考試聚焦和素質(zhì)教育的詞料庫.通過實(shí)驗(yàn)分析表明:這三類主題的特征項(xiàng)模值分布(如圖1所示),主要是以前100個詞條的模值最高來計算得出.
圖1 語料庫特征項(xiàng)模值分布曲線
圖1中的橫坐標(biāo)為特征項(xiàng)數(shù)目,縱坐標(biāo)為特征矢量的模值,其中“家庭教育主題”屬于特征較為突出的文檔類,前10項(xiàng)的模值就達(dá)到了整個矢量模值的70%以上,“素質(zhì)教育主題”屬于特征較平均的文檔類,但前30項(xiàng)的模值也占到總模值的75%.從圖1中可以看出,第90項(xiàng)以后的詞條對于整個矢量模值的影響就越來越小了.它們所具有的模值和大概只占到總模值的1%~2%左右,對于分類、聚類結(jié)果的影響很小.根據(jù)實(shí)驗(yàn)分析從而得出以下的結(jié)論:對于大多數(shù)的文檔主題類別,可以取前200左右個詞條作為其特征矢量,就可以達(dá)到比較好的分類、聚類的效果.
我們可以取詞頻矩陣中的前200個詞條,形成文本——特征詞矩陣,再來進(jìn)行SVD計算分析,即采取潛在語義理解(LSI)的方法.
潛在語義分析的就是把高維的向量空間模型中的文檔映射到低維的潛在語義空間中.這個映射重要是通過對項(xiàng)/文檔矩陣的奇異值分解來實(shí)現(xiàn)的.LSI方法在技術(shù)上的處理過程可分為兩個階段.首先為預(yù)處理階段,在這個階段,應(yīng)用奇異值分解建成一個詞項(xiàng)的語義空間.其次為詢問階段,也就是把詢問調(diào)入語義空間,應(yīng)用余弦數(shù)據(jù)測量來發(fā)現(xiàn)靠近質(zhì)詢的術(shù)語和文件.兩個階段是都很重要,預(yù)處理階段完全獨(dú)立于各個階段.我們可以將LSI的第一個階段看作是文本特征的形成階段予以詳細(xì)分析.
在一般文本挖掘系統(tǒng)中,如果通過對很多的訓(xùn)練文本進(jìn)行上述步驟的處理,那么肯定就可以提出訓(xùn)練文中特征詞模式矢量,從而就可以進(jìn)行下一步分類和聚類等操作.如果訓(xùn)練文本已經(jīng)進(jìn)行了人工分類,則對文本集提出的特征詞模式矢量可以很好的表征該類文本,對新文本數(shù)據(jù)可應(yīng)用夾角余弦公式來判別屬于哪一類;如果訓(xùn)練文本未分類,則可以在文本的語義空間中對文本進(jìn)行聚類計算.
同中文全文檢索一樣,文本挖掘在很大程度上也依賴于語言學(xué)工程的突破.將來的文本挖掘?qū)⒃诒茸帧⒃~更高一級的語言單元上進(jìn)行,語義分析、句法分析等將成為文本挖掘的新的語言學(xué)支撐.但是需要考慮到,我們進(jìn)行文本挖掘是為了對文本進(jìn)行深入的理解,而對文章的理解恰恰是文本挖掘的基礎(chǔ).
本文試圖將概念檢索引入DFSSM中,通過對詞條項(xiàng)進(jìn)行相關(guān)系數(shù)分析得到;應(yīng)用任務(wù)體現(xiàn)在分詞系統(tǒng)、檢索系統(tǒng)、和文本特征向量空間建立及后期分類等多方面,我們可以從基礎(chǔ)入手主要在分詞、全文檢索和文本特征向量空間建立上作了相應(yīng)的設(shè)計實(shí)現(xiàn)工作.
知識經(jīng)濟(jì)時代的到來需要更加高效的文本挖掘工具,文本挖掘系統(tǒng)將會更多的應(yīng)用在如智能門戶網(wǎng)站、商業(yè)智能領(lǐng)域、電子商務(wù)及電子政務(wù)等領(lǐng)域.
[1]曹素青,曾伏虎,曹煥光.一個中文文本自動分類數(shù)學(xué)模型[J].情報學(xué)報,2009,19(1).
[2]吳 斌,傅偉鵬,鄭 毅,等.一種基于群體智能的Web文檔聚類算法[J].計算機(jī)研究與發(fā)展,2010,39(11):1429-1435.
[3]李 戈,邵峰晶.基于神經(jīng)網(wǎng)絡(luò)聚類的研究[J].青島大學(xué)學(xué)報,2011,16(4):21-24.
[4]陳福集,楊善林.一種基于SOM的中文 Web文檔層次聚類方法[J].情報學(xué)報,2012,21(2):173-176.
[5]唐北平.通用 WEB日志挖掘系統(tǒng)設(shè)計與實(shí)現(xiàn)[D].湘潭大學(xué)碩士論文,2007.