〔摘要〕為解決社區(qū)問答系統(tǒng)中的問題短文本特征詞少、描述信息弱的問題,本文利用維基百科進行特征擴展以輔助中文問題短文本分類。首先通過維基百科概念及鏈接等信息進行詞語相關(guān)概念集合抽取,并綜合利用鏈接結(jié)構(gòu)和類別體系信息進行概念間相關(guān)度計算。然后以相關(guān)概念集合為基礎(chǔ)進行特征擴展以補充文本特征語義信息。實驗結(jié)果表明,本文提出的基于特征擴展的短文本分類算法能有效提高問題短文本分類效果。
〔關(guān)鍵詞〕社區(qū)問答;維基百科;特征擴展;短文本分類
〔中圖分類號〕G254〔文獻標(biāo)識碼〕A〔文章編號〕1008-0821(2013)10-0070-05
社區(qū)問答系統(tǒng)是一種基于Web的問答系統(tǒng),如百度知道、yahoo! Answers等。作為一種具有開放性、交互性特點的知識共享模式,它能夠更好的幫助人們利用互聯(lián)網(wǎng)的資源來獲取和分享信息。對用戶提出的問題進行分類是社區(qū)問答系統(tǒng)服務(wù)的一個主要任務(wù),將用戶提問發(fā)布到合適的類別,可以方便其他用戶發(fā)現(xiàn)和回答該提問,也有助于對系統(tǒng)積累的海量問答進行知識挖掘和興趣推薦[1]。由于問題文本一般較短、特征稀疏,且中文文本特有的語言結(jié)構(gòu),所以傳統(tǒng)的基于長文本的分類方法對于短文本并不能取得令人滿意的效果。因此,研究中文短文本分類技術(shù)成為社區(qū)問答系統(tǒng)構(gòu)建的一個關(guān)鍵問題。
短文本的長度通常小于160個字符,詞匯個數(shù)少并且描述信息弱,具有稀疏性和不規(guī)范性,卻隱含大量有價值的信息。目前,一些學(xué)者先后開始研究利用一些額外的信息來擴展文本特征輔助中文短文本分類。如王鵬[2]等利用依存關(guān)系對短文本進行特征擴充以實現(xiàn)有效的短文本分類。王細薇[3]等、曹葉盛[4]、Fan[5]等利用關(guān)聯(lián)規(guī)則挖掘文本中詞共現(xiàn)關(guān)系以構(gòu)建特征共現(xiàn)集進行短文本特征擴展。寧亞輝[6]等提出借助知網(wǎng)對領(lǐng)域高頻詞進行特征擴展的短文本分類方法。王盛[7]等利用知網(wǎng)的上下位關(guān)系對短文本進行擴展。但是領(lǐng)域知識庫一般由專家進行編撰,只包含小范圍的領(lǐng)域和有限的主題,詞匯可擴展性差且更新速度慢,難以滿足社區(qū)問答系統(tǒng)中的問題分類的需求。范云杰[8]等利用維基百科對短文本進行特征擴展,其采用考慮概念類別因素基于tf-idf法計算概念間相關(guān)度。
為提高社區(qū)問答系統(tǒng)中的問題文類效果,本文研究將維基百科知識庫引入到中文短文本分類過程中,提出一種基于特征擴展的中文短文本分類算法。本文利用維基百科所含有的類別、概念及其鏈接等信息,以詞語間語義相關(guān)關(guān)系為基礎(chǔ)對短文本特征詞語進行語義特征擴展,以此提高特征詞所描述概念的準(zhǔn)確性、豐富語義表達,同時在一定程度上降低短文本特征稀疏對分類性能的影響。
1維基百科相關(guān)理論
維基百科作為一個以開放和用戶協(xié)作編輯為特點的Web2.0知識系統(tǒng),具有知識覆蓋面廣,結(jié)構(gòu)化程度高,信息更新速度快等優(yōu)點[9]。維基百科是一個以頁面為單位組成的具有豐富鏈接結(jié)構(gòu)的超文本文檔集合,它主要包含以下重要元素:
1.1主題頁面
主題頁面作為維基百科中最基本、重要的元素,其含有惟一的ID標(biāo)識用以描述一個單獨的概念。概念是維基百科的基本單位,即指被解釋的一個對象、事件或命名實體,如“情報”、“北京奧運會”、“姚明”等。
1.2類別體系
類別是維基百科中對概念頁面信息進行組織的一種有效手段。每一個概念頁面通常歸屬于一個類別或多個類別。如“文本挖掘”這個概念頁面歸屬于“數(shù)據(jù)挖掘”、“人工智能應(yīng)用”等多個類別。每個類別可以包含若干子類別,上下層類別之間不僅反映出繼承的關(guān)系,也可能是實例、包含、屬性等不同的語義關(guān)系。類別之間的這種關(guān)系構(gòu)成一個巨大的分類體系。
1.3重定向
維基百科將同義的多個概念用一個頁面進行描述,這些概念中只有一個概念的頁面包含解釋描述信息,其他的概念則使用重定向鏈接到這個頁面,包含重定向鏈接的頁面稱作重定向頁面[9]。重定向頁面的概念與目標(biāo)頁面概念是同義詞。例如“NBA”被重定向到“國家籃球協(xié)會”,這種重定向頁面的機制同時能夠處理大小寫、縮寫、拼寫變體、專業(yè)術(shù)語等。
1.4消岐頁
消岐頁是為了處理一詞多義的機制[9],例如消歧頁面“風(fēng)車(消歧義)”中,包含指向多個概念頁面的鏈接:“風(fēng)車”,“風(fēng)車(玩具)”,“風(fēng)車(農(nóng)具)”等。
1.5鏈接
頁面與頁面之間通過主題頁面內(nèi)容中的超鏈接聯(lián)系起來[10]。即概念的描述之間用超鏈接聯(lián)系,其中蘊含著重要的事實聯(lián)系或語義關(guān)系。
2基于維基百科的特征擴展
為提高短文本特征詞的類別特征和最大限度的保留其語義信息,本文借助維基百科知識庫來挖掘短文本所蘊含的隱性信息,通過選取一些在語義層面與特征詞有高度相關(guān)關(guān)系的詞對特征詞進行擴展以輔助短文本分類,利用抽取的維基百科詞語相關(guān)概念集合作為擴展詞集合,通過擴展詞集合從語義層面對特征進行擴展,以構(gòu)建語義向量空間。
本文中的特征擴展以現(xiàn)實世界詞語間的語義相關(guān)關(guān)系為基礎(chǔ),對文本特征詞進行擴展,通過某個特征詞關(guān)聯(lián)出若干個特征詞以提高其語義描述能力。例如,短文本“李娜獲得法網(wǎng)冠軍”,可以提取該文本的特征詞{李娜,獲得,法網(wǎng),冠軍},“李娜”這個詞,我們很容易根據(jù)對常識的掌握聯(lián)想到“網(wǎng)球”、“WTA”等詞語,短文本被表示為{李娜,獲得,法網(wǎng),冠軍,網(wǎng)球,WTA……}。
本文以維基百科知識庫為數(shù)據(jù)源,利用其所蘊含的概念、重定向、類別體系結(jié)構(gòu)及各類鏈接等信息進行詞語的相關(guān)概念集合構(gòu)建以進行特征擴展:首先將特征詞轉(zhuǎn)化為主題概念,即進行詞語-概念匹配,其次進行相關(guān)概念的抽取,再次,對所抽取的相關(guān)概念與主題概念間的語義相關(guān)關(guān)系進行量化,以完成相關(guān)概念集合的構(gòu)建。最后,從相關(guān)概念集合選取概念對特征詞進行語義擴展。
特征擴展的具體過程如下:
Step 1:進行詞語——概念匹配。詞語——概念匹配是將特征詞tk映射為維基百科中存在的主題概念Ck。當(dāng)該特征詞存在重定向時,以重定向的概念作為特征詞tk的主題概念,以首先解決同義詞問題。如特征詞“奧運會”匹配為概念“奧林匹克運動會”。
Step 2:抽取主題概念Ck的相關(guān)概念。由于維基百科中的主題頁面是對概念的解釋,而且頁面中的鏈接是維基百科貢獻者根據(jù)錨文本與當(dāng)前概念的相關(guān)性添加的,所以本文利用網(wǎng)頁間鏈接關(guān)系從維基百科中抽取相關(guān)概念。由于頁面上的部分錨文本所對應(yīng)的概念與主題概念相關(guān)性不強,為了去除此種弱相關(guān)關(guān)系詞,本文只選取與主題概念Ck具有互相鏈接關(guān)系的概念作為相關(guān)概念。因此,抽取相關(guān)概念時,對主題概念頁面鏈出的概念進行跟蹤,當(dāng)且僅當(dāng)該概念頁面中也包含指向主題概念頁面的鏈接時,則將此概念作為主題概念的相關(guān)概念。因此,可以得到主題概念Ck相關(guān)的概念集合Ck(C1,C2,……,Cn),其中Ck與Ci(1≤i≤n)間具有相互鏈接關(guān)系。
Step 3:進行概念間語義相關(guān)關(guān)系量化。語義相關(guān)關(guān)系量化是為了區(qū)分相關(guān)概念集合中不同概念對主題概念的貢獻度。本文主要運用維基百科的鏈接結(jié)構(gòu)和類別體系分別計算概念距離和類別距離,然后將這兩個值進行線性組合計算概念間的相關(guān)度。
2.1鏈接距離
本文計算鏈接距離的方法運用了Milne等提出的基于維基百科鏈接的概念間語義相關(guān)度計算方法WLM( Wikipedia Link-based Measure)[11]的思想。WLM算法運用了Google距離的思想,其原理是概念Ck、Ci間共有的相關(guān)概念越多,概念間語義距離就越小,那么其相關(guān)性就越強。由于主題概念頁面中包含其他概念的鏈接,表現(xiàn)為鏈出鏈接,而主題概念頁面也可能會被其他概念頁面鏈接,表現(xiàn)為鏈入鏈接。WLM法分別對這兩種鏈接計算相關(guān)性后再綜合完成概念間的相關(guān)性計算。受WLM法啟發(fā),本文定義的概念Ck、Ci間鏈接距離計算公式如下:
Dlink=log(max(A,B))-log(A∩B)1log(W)-log(minA,B))(1)
其中:Dlink是指概念Ck、Ci間的語義距離,A、B是指在維基百科中分別與概念Ck、Ci有相互鏈接關(guān)系的概念集合,W則指維基百科中所有概念解釋頁面的集合。符號“‖”表示取集合中的實體數(shù)量。
2.2類別距離
WLM算法雖然被證明在英文維基百科上效果不錯,但中文維基百科在規(guī)模上不如英文維基百科,主題頁面之間的鏈接存在一定的稀疏性。因此,對于中文維基百科僅用鏈接結(jié)構(gòu)很難充分衡量概念間的語義距離。因此,本文在鏈接距離的基礎(chǔ)上,通過計算概念所屬的類別之間的距離,以便更準(zhǔn)確衡量概念間的相關(guān)度。
在維基百科的類別體系中,一個分類節(jié)點可能包含多個上層和下層分類節(jié)點,因此兩節(jié)點之間路徑可能不惟一,即存在多條路徑,但其中必然存在一條最短路徑d,而兩節(jié)點間的最短路徑越小,則其距離就越近,那么類別間的相關(guān)程度也就越高。此外,由于概念可能屬于多個類別,那么兩個概念間就可能存在多種分類關(guān)系的組合,也就可能對應(yīng)存在多個最短路徑。本文將其中最小的最短路徑值作為兩概念之間的類別距離,則概念Ck與Ci之間的類別距離計算公式表示為:
Dcat(ck,ci)=log(min(dki)+1)(2)
其中dki代表概念Ck、Ci所屬類別之間的最短路徑距離,取log值是為了使dki變化幅度平均化,抑制類別距離與鏈接距離之間過大的差異。
2.3相關(guān)度計算方法
為了較全面的衡量概念間的相關(guān)度,概念間語義距離應(yīng)該綜合考慮維基百科鏈接結(jié)構(gòu)和類別體系中蘊含的概念間關(guān)系。本文定義的主題概念Ck與其相關(guān)概念Ci間的概念語義距離計算方法如公式(3)所示,形式上表現(xiàn)為鏈接距離Dlink和類別距離Dcat的線性組合:
D(ck,ci)=αDlink(ck,ci)+(1-α)Dcat(ck,ci)(3)
其中α(0≤α≤1)為調(diào)節(jié)參數(shù)。由于概念與其本身的距離為0,相關(guān)度設(shè)為1,隨著距離的增大,概念間的相關(guān)關(guān)系越小,當(dāng)語義距離趨于無窮大時,相關(guān)度為0。因此,本文將概念間的相關(guān)度計算公式定義為:
R(ck,ci)=11D(ck,ci)+1(4)
Step 4:經(jīng)過上述步驟,特征詞tk所對應(yīng)的主題概念Ck構(gòu)建的相關(guān)概念集合為((C1,R1),(C2,R2),……,(Cn,Rn)),Ri(1≤i≤n)代表相關(guān)概念與主題概念間的相關(guān)度,由公式(4)求得。為了避免維度災(zāi)難且不引入過多噪音數(shù)據(jù),從上述過程構(gòu)建的相關(guān)概念集合中選取相關(guān)度大于閾值μ的概念對主題概念進行特征擴展,即特征詞tk所對應(yīng)擴展概念為為((C1,R1),(C2,R2),……,(Cm,Rm)),其中Ri≥μ(1≤i≤m)。
3基于特征擴展的短文分類算法
3.1基本思想
本文通過結(jié)合維基百科語義知識庫對特征詞進行擴展以輔助中文短文本分類,以豐富文本特征的語義表達、提高文本特征描述能力。首先利用維基百科挖掘概念間的語義相關(guān)關(guān)系,進而構(gòu)建相關(guān)概念集合對短文本特征進行擴展,以構(gòu)建語義概念向量空間,使得語義向量空間中文本的語義更準(zhǔn)確、完整,而且可以避免短文本特征稀疏的缺點,以提高短文本分類的準(zhǔn)確度。
3.2分類模型
面向社區(qū)問答的短文本分類模型與傳統(tǒng)長文本類似,主要包括訓(xùn)練和測試兩個過程,如圖1所示。
3.2.1訓(xùn)練過程
訓(xùn)練模塊對己經(jīng)標(biāo)好類別的訓(xùn)練短文本集預(yù)處理,形成用一系列特征詞表示的文本,即形成訓(xùn)練集的原始特征集合;然后運用基于維基百科的特征擴展方法對原始特征集合中的特征詞進行語義擴展,形成新的特征集;計算特征集中每一個特征詞在訓(xùn)練集中權(quán)重,將文本表示成由原始和擴展特征詞及其權(quán)重表示的向量形式;最后用分類算1圖1基于特征擴展的短文本分類模型1
法對訓(xùn)練集進行分類,形成分類模型。
3.2.2測試過程
同樣使用已經(jīng)標(biāo)好類別的測試短文本進行預(yù)處理后,將測試短文本表示成向量形式;然后利用訓(xùn)練過程得到的分類模型進行分類測試,根據(jù)分類結(jié)果對分類過程中的相應(yīng)參數(shù)進行調(diào)整,直到得到較好的分類效果。
3.3分類算法
根據(jù)上述基于特征擴展的短文本分類模型,可以得到相應(yīng)的分類算法,算法流程具體描述如下:
輸入:短文本訓(xùn)練集D,待分類短文本d
Step 1:分別對短文本訓(xùn)練集D和待分類短文本d進行分詞、去停用詞等預(yù)處理,預(yù)處理之后可以得到每篇文章對應(yīng)的原始特征集合。
Step 2:分別將短文本訓(xùn)練集D和待分類短文本d由原始特征集合轉(zhuǎn)化為語義文本特征向量。順序遍歷原始特征集合中的特征詞ti,如果在維基百科中能匹配到ti對應(yīng)的概念,則利用第3節(jié)中的方法,對該特征詞進行特征擴展。
Step 3:擴展完后進行特征權(quán)重計算,然后合并相同特征項,相應(yīng)權(quán)重進行相加。由此文本有原始特征集合d={t1,t2,…,tn}轉(zhuǎn)化為d((T1,w1),(T2,w2),…,(Tm,wm))。
其中權(quán)重的計算分兩種情況,如果是原文檔本身存在的特征詞,則其權(quán)重由tf-idf[12]計算求得,而擴展來的詞的權(quán)重計算方法如下:
wij=wi·Rij(5)
公式中wi為被擴展詞ti的權(quán)重,Rij為ti的相關(guān)概念集合((C1,Ri1),(C2,Ri2),……,(Cn,Rin))中概念Cj與ti所對應(yīng)概念的相關(guān)度。
Step 4:用支持向量機分類算法[13]對訓(xùn)練集向量進行分類,形成分類模型。
Step 5:根據(jù)訓(xùn)練過程得到的分類模型對待分類文本d進行分類。
輸出:短文d所屬的類別。
4實驗與結(jié)果分析
本文對所提出的面向社區(qū)問答的中文短文本分類方法的效果進行了實驗驗證。實驗語料來自“新浪愛問”中收集的10個類別各1 000篇問題文本,維基百科數(shù)據(jù)來自維基百科網(wǎng)站下載的zhwiki-2013-02-15中文版XML數(shù)據(jù)集。本文實驗采用5折交叉驗證法,將每類文本隨機平均分為5份,其中一份構(gòu)成測試文本集,其它4份作為訓(xùn)練文本集,每份文本輪流作為測試集循環(huán)測試5次,取其均值為最終結(jié)果。具體實驗過程如下:
4.1特征擴展時詞語相關(guān)度閾值μ的確定實驗
為了在不引入過多噪音數(shù)據(jù)的前提下進行高質(zhì)量的特征擴展,以提高短文本分類的效果,本文首先進行不同詞語相關(guān)度閾值下的分類效果對比試驗,實驗中統(tǒng)一采用本文所提出的基于特征擴展的短文本分類算法,為了得到較好的文本分類效果,通過反復(fù)試驗,公式(3)中的參數(shù)α為0.7。實驗中統(tǒng)一使用中科院的ICTCLAS進行分詞。不同相關(guān)度閾值下的分類效果對比實驗結(jié)果如下:表1不同的相關(guān)度閾值下的實驗結(jié)果F1(%)比較
由表1平均F1可以看出,當(dāng)詞語相關(guān)度閾值μ取0.6左右時平均F1最高,分類效果達到最佳,因此后續(xù)實驗中特征擴展時詞語相關(guān)度閾值μ取0.6。
4.2與傳統(tǒng)文本分類算法的分類效果對比實驗
本實驗共分3組,實驗中分別采用本文所提出的分類算法與傳統(tǒng)的貝葉斯分類算法與支持向量機分類算法進行分類:
第一組實驗中短文本采用傳統(tǒng)的短文本分類方法,即在分類過程中不進行特征擴展處理,分類算法采用貝葉斯分類算法。
第二組實驗采用傳統(tǒng)分類方法進行短文本分類,分類算法使用支持向量機,SVM的核函數(shù)為線性核函數(shù)。
第三組對本文提出的基于特征擴展的中文文本分類算法進行實驗驗證,即在分類過程中,對文本特征進行特征擴展以完成短文本分類過程。
由表2中實驗結(jié)果對比可以看出,實驗三較實驗一、二的分類效果均有所提高,這表明本文所提出的基于特征擴展的短文本分類算法對短文本進行擴展能提高問題文本的語義表達能力,改善其分類效果。而部分類別分類效果提高較少的原因與擴展時引入的相關(guān)概念的質(zhì)量有關(guān),有時擴展的相關(guān)概念對文本的語義表達幫助較小,可能還會引入一些噪音數(shù)據(jù)。此外,文本分類的整體分類效果不高也與問題文本自身不規(guī)范性有關(guān),同時也受到實驗語料自身劃分質(zhì)量的影響。所以,如何提高短文本特征擴展的精度和效率是下一步研究的重點。
5結(jié)束語
針對社區(qū)問答系統(tǒng)中的問題文類任務(wù),本文根據(jù)問題短文本的特點,結(jié)合維基百科提出一種基于特征擴展的短文本分類算法,該算法利用維基百科中的概念、鏈接及類別信息來挖掘概念間的語義相關(guān)關(guān)系,以此為基礎(chǔ)對短文本的特征進行擴充,以彌補社區(qū)問答系統(tǒng)中問題短文本特征少、語義信息描述弱等不足。實驗結(jié)果表明,該算法可滿足問題短文本分類的需且具有較好的分類效果。
參考文獻
[1]王君澤,黃本雄,胡廣,等.社區(qū)問答服務(wù)中的問題分類任務(wù)研究[J].計算機工程與科學(xué),2011,33(1):143-149.
[2]王鵬,樊興華.中文文本分類中利用依存關(guān)系的實驗研究[J].計算機工程與應(yīng)用,2010,46(3):131-133.
[3]王細薇,樊興華,趙軍.一種基于特征擴展的中文短文本分類方法[J].計算機應(yīng)用,2009,29(3):843-845.
[4]曹葉盛.基于關(guān)聯(lián)擴展的中文短文本分類方法研究[D].北京:北京郵電大學(xué),2012.
[5]Fan X H,Hu H G.Utilizing High-quality Feature Extension Mode to Classify Chinese Short-text[J].Journal of Networks,2010,5(12):1417-1425.
[6]寧亞輝,樊興華,吳渝.基于領(lǐng)域詞語本體的短文本分類[J].計算機科學(xué),2009,36(3):142-145.
[7]王盛,樊興華,陳現(xiàn)麟.利用上下位關(guān)系的中文短文本分類[J].計算機應(yīng)用,2010,30(3):603-611.
[8]范云杰,劉懷亮.基于維基百科的中文短文本分類研究[J].現(xiàn)代圖書情報技術(shù),2012,(3):47-52.
[9]涂新輝,張紅春,周琨峰,等.中文維基百科的結(jié)構(gòu)化信息抽取及詞語相關(guān)度計算方法[J].中文信息學(xué)報,2012,26(3):109-115.
[10]王蘭成,劉曉亮.維基百科知網(wǎng)的構(gòu)建研究與應(yīng)用進展[J].情報資料工作,2012,(5):56-60.
[11]David Milne,Ian H Witten.An effective,low-cost measure of semantic relatedness obtained from Wikipedia links[C]∥Proceedings of the 23th Association for the Advancement of Artificial Intelligence,2008:25-30.
[12]Auen J.Natural language understanding[M].San Francisco the Benjamin Cummings Publishing Company,1991:372-374.
[13]Vapnik VN.統(tǒng)計學(xué)習(xí)理論的本質(zhì)[M].張學(xué)工,譯.北京:清華大學(xué)出版社,2000:85-116.
(本文責(zé)任編輯:孫國雷)