[摘 要]本文基于關(guān)鍵詞集的中文文本特征表示方法,將本體和詞共現(xiàn)的思想引入到中文文本的特征表示中,能夠更加準(zhǔn)確地表達(dá)中文文本特征,進(jìn)而提高中文文本聚類的質(zhì)量。
[關(guān)鍵詞]個(gè)性化;Web挖掘;文本聚類
doi:10.3969/j.issn.1673-0194.2009.15.020
[中圖分類號(hào)]TP391[文獻(xiàn)標(biāo)識(shí)碼]A[文章編號(hào)]1673-0194(2009)15-0065-03
1 文本聚類問題及詞共現(xiàn)模型
目前個(gè)性化信息服務(wù)主要是針對(duì)文本資源,中文文本聚類是教育政務(wù)資源庫個(gè)性化信息服務(wù)中重要的基礎(chǔ)性工作。
文本信息多數(shù)是無結(jié)構(gòu)化的,如何準(zhǔn)確地表示文本是影響聚類性能的重要因素。文本聚類是一個(gè)將文本集分組的全自動(dòng)處理過程,是一種典型的無監(jiān)督的機(jī)器學(xué)習(xí)問題,它將文本集分為若干個(gè)子集,稱為聚類,使得類內(nèi)的成員相似度盡可能大,類間的成員相似度盡可能小。
文本聚類的本質(zhì)是是對(duì)一個(gè)給定的文本集合D={d1,d2,…,dn}進(jìn)行劃分,從而得到一個(gè)聚類的集合C={c1,c2,…,ck},其中cjD(j=1,2,…,k),使得對(duì)di(di∈D),cj(cj∈C),且di∈cj,同時(shí)使得∑di∈cjSim(di,cj)∑dic(diǎn)jSim(di,cj)達(dá)到最大,其中Sim(di,cj)為文檔di與聚類cj的相似度函數(shù)。
中文文本信息多數(shù)是無結(jié)構(gòu)化的,并且使用自然語言,很難被計(jì)算機(jī)處理。因此,如何準(zhǔn)確地表示中文文本是影響聚類性能的主要因素。
目前的文本聚類系統(tǒng)主要采用向量空間模型(Vector Space Module,VSM)來表示文本。傳統(tǒng)的向量空間模型是基于關(guān)鍵詞集的,它是根據(jù)詞頻建立向量的一種統(tǒng)計(jì)模型。然而,中文文本存在語法修飾和上下文的語義關(guān)聯(lián),例如不同的詞匯表示相同的概念,相關(guān)的詞匯共現(xiàn)表示一個(gè)主題等,因此,基于關(guān)鍵詞集的向量空間模型無法表示中文文本中的深層語義信息。
將詞共現(xiàn)模型是基于統(tǒng)計(jì)方法的自然語言處理研究領(lǐng)域的重要模型之一。它是建立在這樣一個(gè)基本假設(shè)的基礎(chǔ)之上:如果在大規(guī)模語料中,兩個(gè)詞經(jīng)常共同出現(xiàn)(共現(xiàn))在文本的同一窗口單元(如一句話、一個(gè)自然段或一篇文本等),則認(rèn)為這兩個(gè)詞在意義上是相互關(guān)聯(lián)的,并且,共現(xiàn)的概率越高,其相互關(guān)聯(lián)越緊密。
詞共現(xiàn)模型的思想引入到文本表示中,在文本集中超過一定比例的文本中共同出現(xiàn)的特征項(xiàng)可以看作是同主題的特征項(xiàng)。
2 相關(guān)概念
首先給出有關(guān)核心本體論及基于知網(wǎng)的本體論的相關(guān)概念。
核心本體論(Core Ontology)定義為一個(gè)元組O:=(C,≤c),其中C是概念標(biāo)識(shí)符的集合,≤c是集合C上的偏序,稱之為概念層次或者概念分類。
對(duì)于c1,c2,如果c1 本體論O的詞典定義為一個(gè)元組lex:=(Sc,Refc),Sc是概念符號(hào)(signs for concepts)的集合,RefcSc×C稱為概念的詞典索引。根據(jù)Refc,可以定義對(duì)于s∈Sc,Refc(s):={c∈C|(s,c)∈Refc},對(duì)于c∈C,Ref-1c:={s∈SC|(s,c)∈Refc}。 基于知網(wǎng)的本體論ObH的詞典定義為一個(gè)元組lex:=(Sa,RefE,RefA),其中SA是詞條的集合,A是義原的集合,E是概念的集合,RefAE×A為概念的詞典索引(即概念的相關(guān)義原),RefESA×E為詞條的詞典索引(即詞條的相關(guān)概念)。對(duì)于s∈SA,RefE(s):=(e∈E|(s,e)∈RefE);對(duì)于e∈E,RefA(e):=(a∈A|(e,a)∈RefA)。 例如,對(duì)于詞條S1“足球”,概念e1=“[SportTool|運(yùn)動(dòng)器材,(football|足球)]”,概念e2=“[fact|事情,exercise|鍛煉,sport|體育,(football|足球)]”,那么RefE(s1):={e1,e2},RefA(e1);={SportTool|運(yùn)動(dòng)器材, football|足球},RefA(e2)={fact|事情,exercise|鍛煉,sport|體育,football|足球}。 義原主要分為以下10大類:事件(Event)義原、實(shí)體(Entity)義原、屬性(Attribute)義原、屬性值(aValue)義原、數(shù)量(Quantity)義原、數(shù)量值(qValue)義原,次要特征(Secondary Feature)義原、語法(Syntax)義原、動(dòng)態(tài)角色(EventRole)義原以及動(dòng)態(tài)屬性(EventFeatures)義原??紤]到一些類型的義原對(duì)文檔類別貢獻(xiàn)很弱,本章選擇了對(duì)區(qū)分文檔類別貢獻(xiàn)比較大的3類義原:實(shí)體義原、事件義原、次要特征義原組成概念屬性體系,其他類別的義原則忽略不計(jì)。 在選取規(guī)則中,本章將3類義原中概括性的、通用性的義原,如“entity|實(shí)體”、“event|事件”、“static|靜態(tài)”等,放入“禁用義原表”。因?yàn)檫@些義原對(duì)于刻畫文檔的特性沒有具體的意義,不予考慮。 3 詞義排歧 在知網(wǎng)中,多義詞就是具有多個(gè)概念的詞條,然而對(duì)于一個(gè)多義詞,在特定的上下文中一般只表達(dá)一種語義,如果在特征向量中考慮多義詞的每個(gè)概念中涉及到的義原,那么反而會(huì)出現(xiàn)喧賓奪主的現(xiàn)象,因此需要對(duì)多義詞進(jìn)行詞義排歧。 每個(gè)詞,特別是實(shí)詞,都是為了適應(yīng)上下文的需要而被選擇的,因此可以通過分析上下文中概念的分布情況,來確定該詞在文中恰當(dāng)?shù)恼Z義解釋,即在文檔d中,對(duì)于一個(gè)具有兩個(gè)或兩個(gè)以上語義概念的詞 tk ,某一特定的語義概念ei的權(quán)值系數(shù)pi計(jì)算方法為:首先統(tǒng)計(jì)該概念所涉及的義原出現(xiàn)在文檔d中其他關(guān)鍵詞的語義概念中的頻數(shù),然后對(duì)頻數(shù)進(jìn)行歸一化處理,得到的結(jié)果就是在文檔d中關(guān)鍵詞tk對(duì)應(yīng)其每個(gè)語義解釋的概率權(quán)值系數(shù)。 Pi=∑ij∈TM|RefA(tj)∩RefA(ei)|∑ei∈RefE(tk)∑tj∈TM|RefA(tj)∩RefA(ei),if∑ei∈RefE(tk)∑tj∈TM|RefA(tj)∩RefA(ei)≠0 1|ReFE(tk)|, if ∑ei∈RefE(tk)∑tj∈TM|RefA(tj)∩RefA(ei)=0 其中,TM為文檔d中單義詞集合,RefA(tj)為單義詞 tj對(duì)應(yīng)的義原集合,RefE(tk)為多義詞tk對(duì)應(yīng)的概念集合, RefA(ei)為概念ei對(duì)應(yīng)的義原集合。 4 中文文本表示方法的步驟 在傳統(tǒng)的基于統(tǒng)計(jì)特征的中文文本表示方法中引入基于知網(wǎng)和特征項(xiàng)共現(xiàn)的語義特征后,實(shí)現(xiàn)中文文本表示的流程如圖1所示。 圖1 基于語義和統(tǒng)計(jì)特征的中文文本表示流程圖 構(gòu)造基于語義和統(tǒng)計(jì)特征的中文文本表示方法主要分為以下4步: Step 1:對(duì)文本集D中的每一篇文本d進(jìn)行預(yù)處理,抽取關(guān)鍵詞。根據(jù)經(jīng)驗(yàn),本章抽取每篇文章權(quán)重最高的前20個(gè)詞作為關(guān)鍵詞,構(gòu)成基于關(guān)鍵詞集的特征向量:V(di)=(w(di,t1),w(di,t2),…,w(di,tn)) 。 Step 2:引入知網(wǎng),將關(guān)鍵詞映射到義原。在將文本di中的每個(gè)關(guān)鍵詞t映射為義原時(shí),首先對(duì)具有兩個(gè)或兩個(gè)以上語義解釋的詞t,進(jìn)行語義排歧,獲取其對(duì)應(yīng)每個(gè)語義解釋的概率p。然后為語義解釋涉及到的每個(gè)義原a所對(duì)應(yīng)的特征向量的維度賦值。由于目前知網(wǎng)收錄的詞條有限,有些關(guān)鍵詞沒有被知網(wǎng)收錄,對(duì)于這些關(guān)鍵詞,本章予以保留,這樣就形成了義原加關(guān)鍵詞的特征向量: V(di)=(w(di,a1),…,w(di,am),w(di,t1),w(di,t2),…,w(di,tk)) 。 其中, ti(1≤i≤k)為沒有被知網(wǎng)收錄的關(guān)鍵詞,w(di,ap)為義原ap在文本di中的權(quán)值:w(di,ap)=∑eq∈RefE(tj)tw(di,tj,ap)。tw(di,tj,ap)為文檔di中詞條tj對(duì)義原ap的權(quán)重貢獻(xiàn):tw(di,ap)=∑eq∈RefE(tj)(|RefA(eq)∩{ap}|×pq×λ×w(di,tj)),RefE(tj)為詞條tj對(duì)應(yīng)的語義概念的集合,RefA(ep)為語義概念eq對(duì)應(yīng)的義原集合,λ為該義原類別的權(quán)重系數(shù)。 考慮到對(duì)于分類的貢獻(xiàn)而言,實(shí)體義原>次要特征義原>事件義原,對(duì)于每種義原分別設(shè)定一個(gè)權(quán)重系數(shù),實(shí)體義原的權(quán)重系數(shù)為 λ1,次要特征義原的權(quán)重系數(shù)為λ2,事件義原的權(quán)重系數(shù)為λ3,并有:λ1>λ2>λ3,如可取λ1=0.9,λ2=0.8,λ3=0.7。 Step 3:抽取特征項(xiàng)共現(xiàn)集。將特征項(xiàng)作為事務(wù)項(xiàng),一個(gè)文本作為一個(gè)事務(wù),由于只關(guān)心特征項(xiàng) a或 t在文本中是否出現(xiàn),所以權(quán)重函數(shù)采用布爾函數(shù),即若特征項(xiàng) a或t在文本中出現(xiàn),則其對(duì)應(yīng)的事務(wù)項(xiàng)取值為1,否則取值為0。生成文本庫的事務(wù)矩陣,然后采用關(guān)聯(lián)規(guī)則挖掘的Apriori算法來發(fā)現(xiàn)滿足最小支持度Smin的特征項(xiàng)共現(xiàn)集FC=(fc1,fc2,…,fc1)。 Step 4:將特征項(xiàng)共現(xiàn)集加入到特征向量的表示中,形成基于語義和統(tǒng)計(jì)特征的中文文本特征向量: V(di)=(w(di,a1),…,w(di,am),w(di,t1),…,w(di,tk),w(di,fc1),…,w(di,fcj)) 。 其中,w(di,fcj)為特征項(xiàng)共現(xiàn)fcj在文本di中的權(quán)重:w(di,fcj)=s|fcj|。 其中,s為di中含有特征項(xiàng)共現(xiàn)fcj中特征項(xiàng)的個(gè)數(shù)。 主要參考文獻(xiàn) [1] 曾春, 邢春曉, 周二柱. 個(gè)性化服務(wù)技術(shù)綜述[J]. 軟件學(xué)報(bào), 2002,13(10): 874-880. [2] H J Peat, P Willet. The Limitations of Term Co-occurence Data for Query Expansions in Document Retrieval System[J]. Journal of American Society for Information Science, 1991,42(5): 378-383. [3] 周雪忠.中文文本分類特征表示及分類方法比較研究[C]// 孫茂松,姚天順,等主編. Advances in Computation of Oriental Languages. 北京: 清華大學(xué)出版社,2003. [4] 趙豐年,劉林,商建云.基于概念的文本過濾模型[J].計(jì)算機(jī)工程與應(yīng)用,2006 (4): 186-188.