巴志超 朱世偉 于俊鳳 魏墨濟
〔摘 要〕針對圖書、期刊論文等數(shù)字文獻文本特征較少而導致特征向量語義表達不夠準確、分類效果差的問題,本文提出一種基于特征語義擴展的數(shù)字文獻分類方法。該方法首先利用TF-IDF方法獲取對數(shù)字文獻文本表示能力較強、具有較高TF-IDF值的核心特征詞;其次分別借助知網(wǎng)(Hownet)語義詞典以及開放知識庫維基百科(Wikipedia)對核心特征詞集進行語義概念的擴展,以構(gòu)建維度較低、語義豐富的概念向量空間;最后采用MaxEnt、SVM等多種算法構(gòu)造分類器實現(xiàn)對數(shù)字文獻的自動分類。實驗結(jié)果表明:相比傳統(tǒng)基于特征選擇的短文本分類方法,該方法能有效地實現(xiàn)對短文本特征的語義擴展,提高數(shù)字文獻分類的分類性能。
〔關(guān)鍵詞〕數(shù)字文獻;短文本分類;特征選擇;語義擴展;分類性能
DOI:10.3969/j.issn.1008-0821.2015.09.013
〔中圖分類號〕G2507 〔文獻標識碼〕A 〔文章編號〕1008-0821(2015)09-0070-05
〔Abstract〕Aiming at the problems of inaccurate concept expression of text vector and poor classification effect which is caused by sparse feature keywords in digital documents of books and journal articles etc,the paper proposed a classification method based on the features of semantic extension.Firstly,this method adopted TF-IDF method to filter keywords that have higher ability of digital text representation and TF-IDF value than other common features.Secondly,to build the low dimensionality and semantic conceptual vector space,it extended semantic concept of core features collections based on the Hownet semantic dictionary and knowledge base of Wikipedia.Finally,it realized digital document automatic classification by applying MaxEnt and SVM algorithms.The result showed that the proposed method can more effectively expend short text on semantics and improve the classification performance of digital document compared with traditional short text classification method based on characteristic selection.
〔Key words〕digital document;short text classification;features selection;semantic extension;classification performance
數(shù)字圖書館的主要業(yè)務數(shù)據(jù)是館藏的各種類型的文獻資源,即使在大數(shù)據(jù)環(huán)境下,其核心業(yè)務仍然是針對這些種類眾多的文獻進行組織和安排,使各種類型的文獻能夠在數(shù)字圖書館中統(tǒng)一實現(xiàn)分類與檢索。然而,針對數(shù)字文獻的分類標引工作長期以來都是由編目人員手工去完成,既費時又費力。且由于信息的模糊性以及數(shù)字文獻種類、數(shù)量的劇增,僅靠提高編目人員的業(yè)務素質(zhì)來保證文獻分類標引的準確性是不現(xiàn)實的,有必要將信息自動化技術(shù)引入圖書編目、數(shù)字文獻元數(shù)據(jù)的分類或主題標引之中。利用機器學習實現(xiàn)數(shù)字文獻的自動分類已成為數(shù)字圖書館建設中亟待解決的關(guān)鍵問題之一[1]。
自動分類技術(shù)是指在給定的分類體系情況下,根據(jù)文本內(nèi)容自動判定到相應預定義類別的過程[2]。目前主要采用向量空間模型進行文本信息結(jié)構(gòu)化的表示,然而基于該模型下由于數(shù)字文獻文本特征缺失會導致向量空間的高維和稀疏,且包含大量無效、冗余的特征,從而降低數(shù)字文獻分類的精度。另外,基于該詞頻向量的表示方法忽略了文本中特征詞的含義以及詞項間潛在語義關(guān)系,如同義詞、冗余和蘊涵等信息。面對短文本數(shù)據(jù)集特征缺失帶來的問題,相關(guān)學者提出借助外部詞典/知識庫進行特征擴展的方法,以彌補短文本特征不足的缺陷,提高最終的分類性能。如Phan[3]等人通過外部網(wǎng)絡數(shù)據(jù)源擴展短文本的詞條信息來解決詞特征的稀疏性問題;Ferragina[4]等人借助ODP(Open Directory Project)、WebKB等手工標注的知識庫計算查詢詞、網(wǎng)頁片段等短文本的相似度;Wang[5]等人通過將文檔詞向量中的每個詞匹配到維基百科概念,利用上層概念、關(guān)聯(lián)等實現(xiàn)向量語義相關(guān)性擴充;Milne[6]等人根據(jù)維基百科中文檔鏈接關(guān)系對某概念進行語義擴展,并提供給檢索引擎實現(xiàn)檢索關(guān)鍵詞的語義擴展。范云杰[7]等人提出基于維基百科的鏈接結(jié)構(gòu)和類別體系進行概念的關(guān)聯(lián)度計算對社區(qū)問答數(shù)據(jù)集進行分類;翟延冬[8]等人綜合考慮文本的概念、句法等信息,提出一種基于WordNet的短文本語義相似度計算方法;王盛[9]等人利用“知網(wǎng)”詞典中的上下位關(guān)系擴展文本的特征向量來實現(xiàn)短文本的分類。實驗結(jié)果表明通過引入外部詞典/知識庫來對特征向量的語義擴展,一定程度上能有效解決特征的缺失問題,提高短文本的分類性能。為此,本文提出在TF-IDF模型的基礎上,采用“知網(wǎng)”語義詞典以及維基百科知識庫對數(shù)據(jù)文獻的文本特征進行語義擴展,以提高數(shù)據(jù)文獻分類的分類效果。endprint
1 核心特征詞選擇
對于數(shù)字文獻等類似的短文本,一旦出現(xiàn)誤差或者噪聲特征,其產(chǎn)生的負面影響比長文本分類更加明顯。因此,需要先對數(shù)據(jù)文獻文本集進行分詞、停用詞過濾以及詞性標注等預處理,以消除無意義詞對數(shù)字文獻文本有效信息的噪聲干擾。通過文本預處理后需對文本中的每個特征詞進行TF-IDF的計算,并將文本中各特征詞的TF-IDF值表示為向量,來進行文本的相似度計算。然而該向量維度較高且極度稀疏,另外,不同詞性的特征詞對文本的貢獻程度不同,因此本文只選取TF-IDF值大于λ閾值(λ為百分比)的名詞和動詞特征詞作為核心特征詞,以此核心特征詞向量作為文本的特征表示,TF-IDF值通過公式(1)獲得。
qTFIDF(w)=log(tf(w,d))·logNdf(t)+001〖〗∑Vt=1log(tf(w,d))·logNdf(w)+0012
(1)
式中V表示總特征詞數(shù)、N表示總文本數(shù)、tf(w,d)表示特征詞w在文本d中的詞頻、df(w)表示特征詞w在文本d中的逆向文本頻率。根據(jù)信息論,IDF的值表示一個特定條件下特征詞概率分布的交叉熵,TF則是用來增加特征詞的權(quán)重,以便更好地描述文本中特征詞的信息特征[10]。通過TF-IDF模型可從每一篇文本中挑選出相對重要的特征詞來表示文本,這樣既保證不影響文本的特征提取,同時又最大可能的減少文本特征向量表示的維度,提高特征詞對文本的表示能力。
2 數(shù)字文獻文本特征語義擴展
獲取核心特征詞后,分別借助知網(wǎng)(Hownet)語義詞典以及開放知識庫維基百科(Wikipedia)對核心特征詞集進行語義概念的擴展,通過概念作為向量空間模型的特征粒度?;趥鹘y(tǒng)詞頻向量作為文本表示時,忽略文本中特征詞的含義,且假定特征詞之間線性無關(guān)。而在文本中特征詞之間普遍存在同義詞、冗余、蘊涵等語義關(guān)系,這些語義關(guān)系無法保證向量空間特征詞線性無關(guān)的假設。而且在同一概念有多種表達形式的情況下,將文本特征表示為簡單的詞頻向量,會丟失很多有價值的語義信息。通過將特征詞映射到概念層面,將具有同義詞、近義詞等語義關(guān)系的多個特征詞映射到同一概念,一定程度上可以消除這種相關(guān)性,最大限度地確保特征詞之間線性無關(guān),同時還可以避免核心特征詞因采用分散的特征詞進行表示時而削弱其對文本表示的能力。
21 基于知網(wǎng)的特征語義擴展
知網(wǎng)是一個以漢語和英語詞語所代表的概念作為描述對象,以揭示概念之間以及概念所具有的屬性之間的基本內(nèi)容的常識知識庫[11]。通過知網(wǎng)詞典將文本中的關(guān)鍵詞映射到概念空間時對應的是一個多對多的關(guān)系,一個詞語往往具有多個含義,對應于多個“義原”。不同含義在不同的語境中表達的意思可能相差甚遠,如針對特征詞“專業(yè)”有一項描述是:DEF=aValue|屬性值,attachment|歸屬,#occupation|職位,formal|正式;另一項描述為DEF=affairs|事務,education|教育。因此在基于知網(wǎng)進行擴展時需要明確特征詞在數(shù)字文獻文本中的具體含義,即進行詞義消歧才能保證語義擴展的有效性[12]。引入的信息要和數(shù)字文獻文本的內(nèi)容相關(guān),否則就會成為噪聲,降低數(shù)字文獻文本的分類性能。對于詞義消歧方法本文首先借助特征詞的詞性進行詞義判斷,然后再根據(jù)知網(wǎng)中提供的概念間的關(guān)系進行詞義消歧。具體消歧方法如下:
(1)根據(jù)特征詞的詞性判定詞的概念。讀入關(guān)鍵詞w,根據(jù)關(guān)鍵詞w的詞性p查詢知網(wǎng)概念詞典,詞典中有此關(guān)鍵詞,則獲取該詞詞性為p的義原。若義原的個數(shù)為1,則按詞性標注即可確定其詞義,排歧結(jié)束,否則轉(zhuǎn)向(2)。
(2)根據(jù)知網(wǎng)詞典中的概念關(guān)系量化特征詞與上下文詞匯詞義間的關(guān)系進行詞義消歧。特征詞w的詞義可根據(jù)該詞所在句子中的上下文語境來確定,因此可通過考察特征詞w與所在句子中其他特征詞之間的語義相關(guān)度來確定。
特征詞與上下文詞匯之間的語義相關(guān)度實質(zhì)是考察它們在DEF中義原的關(guān)聯(lián)程度。對于特征詞w,假定有n個義原(S1,S2,…,Sn),而該特征詞所在句子中其他的特征詞w1,w2,…,wj,共有m個義原(S11,S12,…,Sjm),則w和wj的相似度Sim(w,wj)為
Sim(w,wj)=maxi=1,2,…,n,k=1,2,…,mSim(Si,Sjk)
(2)
對于義原的相似度Sim(Si,Sjk)計算方法依據(jù)知網(wǎng)概念詞典中義原的層次結(jié)構(gòu)(上下位關(guān)系)來計算。本文主要基于節(jié)點之間的路徑長度來計算相似度。假設義原Si和Sjk在知網(wǎng)層次體系中的路徑距離為d,可得到這兩個義原之間的語義距離:
Sim(Si,Sjk)=αdis tan ce(Si,Sjk)+α
(3)
其中d是Si和Sjk在義原層次體系中的路徑長度,是一個正整數(shù)。α是一個可調(diào)節(jié)的參數(shù)。另外,由于《知網(wǎng)》定義的所有義原并不是在一棵樹上,本文統(tǒng)一規(guī)定:不在同一棵樹上的兩個義原之間的相似度取較小值δ(參數(shù)),存在對義或者反義關(guān)系,相似度降為原來的n分之一[13]。
22 基于維基百科的特征語義擴展
維基百科是目前最大的多語種、開放式的在線百科全書,采用群體在線合作編輯的Wiki機制,相比專家編撰的語義詞典,具有質(zhì)量高、覆蓋廣、實時演化和半結(jié)構(gòu)化維基百科[14]。維基百科中每一個概念都有一篇相應的文章來描述。本文結(jié)合維基百科的語義信息:概念解釋頁面中所包含的各類鏈接、類別間的體系結(jié)構(gòu)、重定向、消歧頁面來獲取核心特征詞的相關(guān)維基百科概念,來實現(xiàn)對特征的語義擴展。本文主要采用鏈接結(jié)構(gòu)和分類體系分別計算概念間的鏈接距離和類別距離,來量化概念間的語義關(guān)聯(lián)度。
計算概念間鏈接距離的方法本文采用Milne[15]等人提出的WLM(Wikipedia Link-based Measure)算法。在維基百科的鏈接結(jié)構(gòu)中,對于某個概念的一篇描述文章而言,不僅存在鏈入鏈接,也有這篇文章包含的其它概念的鏈接,即為鏈出鏈接。WLM算法對這兩種鏈接分別計算相關(guān)性后再綜合。對于鏈入這篇文章的鏈接(鏈入鏈接),WLM算法采用修改的Google Distance的方法,其是基于維基百科的鏈接而不是Google的檢索結(jié)果,其計算公式如下:endprint
Dlink(w,Ci)=log(maxA,B))-log(A∩B)log(W)-log(min(A,B))
(6)
其中,A和B分別是維基百科中所有含有鏈接鏈向特征詞w和概念Ci的頁面的集合,W是維基百科所有解釋頁面的集合。由于單個概念的鏈接數(shù)量遠遠小于維基百科頁面的總數(shù)量,所以Dlink的值一般在0~1之間。對于維基百科中包含的鏈接(鏈出鏈接),WLM算法采用向量空間模型來進行計算。假如文章s中包含鏈接t,那么s→t的權(quán)值的計算如下:
w(s-t)=logWT, s∈T
0
(7)
其中,W是維基百科中所有文章的集合,T是所有包含鏈接t的所有文章的集合。
在維基百科的類別體系中,一個分類節(jié)點可以包含多個上層分類節(jié)點和下層分類節(jié)點,因此兩節(jié)點之間可以找到多條路徑。本文借鑒文獻[16]提出的深度加權(quán)路徑法來計算特征詞w和概念Ci的類別距離。首先在分類圖中定位其類別節(jié)點并進行廣度優(yōu)先遍歷,直到找到特征詞w和概念Ci的最近公共節(jié)點,遍歷路徑長度分別記為len(w)、len(Ci)。根據(jù)該路徑長度信息,可構(gòu)建兩者的最短路徑距離,其計算公式如下:
Dsl(w,Ci)=1len(w)+len(Ci)·log(len(w)+len(Ci))
(8)
基于最短路徑方法沒有考慮類別的深度信息,在維基百科中,概念的深度能反映當前概念信息內(nèi)容的豐富程度。為此在考察特征詞w和概念Ci的類別深度信息及其最近公共節(jié)點類別的深度信息的基礎上,得到基于類別體系下特征詞w和概念Ci的路徑距離,計算公式如下:
Dcat(w,Ci)=Dsl(w,Ci)·2×depth(pub)depth(w)+depth(Ci)
(9)
其中depth(pub)表示最近公共節(jié)點的深度,depth(w)、depth(Ci)分別表示特征詞w和概念Ci的類別深度信息。兩節(jié)點的最短路徑越小,節(jié)點的距離越近,這兩者的相關(guān)程度也就越高。最后對特征詞w與其某個相關(guān)的概念Ci之間的概念距離表示為鏈接距離Dlink和類別距離Dcat的線性組合,計算公式如下:
D(wa,Ci)=αDlink(wa,Ci)+(1-α)Dcat(wa,Ci)
(10)
其中α(0≤α≤1)為一調(diào)節(jié)參數(shù)。經(jīng)過相關(guān)概念的抽取以及語義關(guān)系的量化,可以將特征詞w構(gòu)建形如w((C1,D1),(C2,D2),…,(Cn,Dn))相關(guān)概念集合的形式,從而實現(xiàn)對特征詞的語義擴展。其中Ci是與w具有雙向鏈接關(guān)系的相關(guān)概念,Di是概念集合中第i個相關(guān)概念與特征詞w的相關(guān)度。
3 實 驗
31 實驗設置
本文采用以圖書和電子期刊數(shù)據(jù)庫中的期刊等信息管理領域的真實文獻數(shù)據(jù)作為實驗材料,由筆者取自某大學圖書館的館藏目錄OPAC以及選自《中國知網(wǎng)》的電子期刊數(shù)據(jù)庫,分別選取分類在《中圖法》體系下的計算機、軍事和體育3個類別中的部分圖書和部分期刊文獻進行實驗。
圖書文獻中的每一條文本信息主要取其書名、摘要、關(guān)鍵字作為分類實驗材料,文本平均長度在60字左右。期刊文獻主要取標題、摘要、關(guān)鍵詞作為一個文本,每個文本平均長度約為130字。每個類隨機抽取200篇作為訓練集,100篇作為測試集,且保證訓練集和測試集之間無重復文本。為消除實驗結(jié)果的偶然性,實驗中對同一類別的訓練集和測試集進行隨機抽取調(diào)換,進行10次相互獨立的訓練和分類,最后取平均值作為實驗結(jié)果。
對分類性能的評估,本文基于通用的分準率、分全率以及綜合指標F1值來描述,由于本研究需要分類過程的各環(huán)節(jié)透明化,以減少中間過程的不可控因素,因而選取KNN、Nave Bayes、MaxEnt以及SVM幾種算法構(gòu)造分類器對數(shù)字文獻進行分類。
32 實驗結(jié)果與分析
首先針對圖書、期刊文獻數(shù)據(jù)集進行分詞、過濾和詞性標注等預處理。本文主要采用中科院的ICTCLAS分詞系統(tǒng)進行分詞和標注,該系統(tǒng)可進行中文分詞、詞性標注、命名實體識別、新詞識別、同時支持用戶詞典等,分詞正確率高達9845%,能夠保證較好的分詞效果。在獲取名詞、動詞等特征詞后,采用TF-IDF計算模型來統(tǒng)計特征詞在數(shù)字文獻文本中的信息,選取TF-IDF值大于λ閾值的名詞和動詞特征詞作為核心特征詞,以此核心特征詞向量作為文本的特征表示。
為確定最優(yōu)分類性能時λ的取值,本文采用不同分類算法在不同的Top特征詞百分比的情況下針對圖書、期刊文獻進行分類實驗。圖1、圖2顯示不同比例的Top特征詞下分類性能的實驗結(jié)果(圖中4種分類算法在圖書文獻材料上分別命名為B-KNN、B-NB、B-ME、B-SVM,在期刊文獻材料上命名為J-KNN、J-NB、J-ME、J-SVM)。從圖中可以看出,當λ=06,即取數(shù)字文獻文本中60%的特征詞時能夠取得最好的分類效果。低于這個比例,當選取的特征詞數(shù)較少時,會導致無法有效地提取文本特征信息而使得分類效果較差,當超過這個比例時,由于選取的特征詞數(shù)過多會引入噪聲,不相關(guān)的特征詞對文本的表示能力較差從而會降低數(shù)字文獻文本的分類性能。
在獲取核心特征詞后,分別借助知網(wǎng)語義詞典以及開放知識庫維基百科對核心特征詞集進行語義概念的擴展。表1顯示借助知網(wǎng)、維基百科擴展后的特征詞集采用4種算法針對圖書、期刊文獻各類別上的分類效果。從表中可
以看出各分類算法在不同類別上基于維基百科知識庫要好于基于知網(wǎng)詞典的語義擴展分類效果。這是由于類似知網(wǎng)、WordNet等語義詞典是由人工構(gòu)建,在大小和規(guī)模上有一定的限制,很難覆蓋到足夠豐富的概念以及各種語義關(guān)聯(lián)關(guān)系,而維基百科質(zhì)量高、覆蓋廣的優(yōu)勢可以更有效地擴展文本的特征,從而獲得更好的分類效果?;谡Z義擴展后4種分類算法在圖書、期刊文獻上的分類性能相差不大,Nave Bayes算法的分類性能相對較差一些。Nave Bayes算法假設特征詞之間是相互獨立的,忽略特征詞之間的語義關(guān)聯(lián)關(guān)系。而4種分類算法在期刊文獻上的分類效果要好于在圖書文獻上的分類效果。從所采用的分類實驗材料上來看,期刊文獻相對于圖書文獻材料文本長度較長,類別間相對更加明確、清晰,在專業(yè)性質(zhì)及文本表述上區(qū)別明顯,從而在各類別上表現(xiàn)出相對較好的分類性能,而基于知網(wǎng)和維基百科語義擴展方法在3個類別上表現(xiàn)出的分類效果相差不大。endprint
為進一步驗證基于語義擴展方法的有效性,本文將傳統(tǒng)的信息增益(IG)、互信息(MI)、卡方統(tǒng)計(CHI)以及類別區(qū)分詞(CDW)作為Baseline方法與提出的方法進行對比分析。限于篇幅,圖3只顯示采用各種方法下基于SVM分類算法在期刊文獻3個類別上的平均分類效果。(圖中各方法在期刊文獻語料上分別命名為J-IG、J-MI、J-CHI、J-CDW,基于知網(wǎng)和維基百科語義擴展方法分別命名為J-Hownet、J-Wiki)。另外,實驗中Top特征詞百分比λ=06,SVM分類器采用十折交叉驗證尋找最優(yōu)參數(shù),通過迭代獲得最優(yōu)懲罰因子:C=128,RBF核參數(shù)g=195×10-3。從圖中可以看出,基于知網(wǎng)詞典進行語義擴展的分類效果和基于傳統(tǒng)的信息增益(IG)、互信息(MI)方法的分類效果相差并不大,說明單純只依靠知網(wǎng)詞典對數(shù)字文獻文本進行特征的語義擴展,相對于傳統(tǒng)的方法并不能非常顯著的提高最終的分類性能,這與知網(wǎng)詞典的大小和規(guī)模有限相關(guān),使得很難有效地擴展數(shù)字文獻文本的特征。而基于卡方統(tǒng)計(CHI)以及類別區(qū)分詞方法(CDW)的分類效果在期刊文獻材料上的分類效果最差。基于維基百科進行語義擴展的分類效果相對于其他方法分類效果要好一些。
為進一步確定基于知網(wǎng)語義詞典對數(shù)字文獻進行擴展的有效性,本文將基于維基百科以及基于知網(wǎng)詞典擴展方法相結(jié)合,對核心特征詞采用維基百科和知網(wǎng)詞典網(wǎng)同時進行語義擴展。表2顯示采用該方法針對圖書、期刊文獻3個類別上的分類效果。(針對圖書、期刊文獻采用知網(wǎng)、維基百科相結(jié)合方法以下簡稱為B-HWiki、J-HWiki)。從表2中可以看出,采用知網(wǎng)詞典和維基百科相結(jié)合的方法進行擴展相比于只采用基于知網(wǎng)和維基百科方法的分類效果都有所提高。針對圖書文獻語料上進行分類,采用B-HWiki方法比B-Hownet和B-Wiki方法分別平均提高469%、104%,針對期刊文獻語料進行分類,采用J-HWiki方法比J-Hownet和J-Wiki方法分別平均提高了481%和122%。從提升的幅度可以說明借助知網(wǎng)詞典和維基百科對數(shù)字文獻進行語義擴展方法,使得數(shù)字文獻最終的分類性能都有所提高,而借助維基百科方法要比借助知網(wǎng)詞典方法更加有效。
4 結(jié) 語
本文提出在TF-IDF計算模型的基礎上通過知網(wǎng)詞典和維基百科知識庫對文本特征進行語義擴展,并應用于數(shù)字文獻的自動分類中。實驗表明相比于傳統(tǒng)的特征選擇方法,借助外部詞典/知識庫進行文本特征的擴展,能有效彌補短文本特征的缺失,改善數(shù)字文獻最終的分類性能。兩種擴展方法不同程度地提高了數(shù)字文獻的分類效果,通過將兩種擴展方法相結(jié)合對核心特征詞進行擴展,比單獨只采用一種擴展方法分類性能又有所提高。
下一步研究工作主要從數(shù)字文獻的文本結(jié)構(gòu)信息、知網(wǎng)詞匯描述的完備性以及維基百科的體系結(jié)構(gòu)入手,對文本的特征選擇、概念映射層次選擇、概念排歧等方面進行改進,進一步探究數(shù)字文獻詞義消歧和特征擴展的方法,以待提高數(shù)字文獻最終的分類性能。
參考文獻
[1]王昊,嚴明,蘇新寧.基于機器學習的中文書目自動分類研究[J].中國圖書館學報,2010,36(11):28-39.
[2]程傳鵬.中文網(wǎng)頁分類的研究與實現(xiàn)[J].中原工學院學報,2007,18(1):61-64.
[3]Phan X H,Nguyen L M,Susumu H.Learn-ning to classify short and sparse text & web with hidden topics from large-scale data collections[C]∥International Confere-nce on World Wide Web,2008:91-100.
[4]Ferragina P,Gulli A.A personalized search engine based on web-snippet hierarchical clustering[C]∥International Conference on the World Wide Web,2005:801-810.
[5]Wang P,Domeniconi C.Building semantic Kernels for text classification using wikipedia[C]∥ACM SIGKDD Internation-nalConference on Knowledge discovery and data mining,2008:713-721.
[6]Milne D,Witten L H,David M N.A knowledge-based search engine powered by wikipedia[C]∥In Proceedings of the sixteenth ACM Conference on Information and Knowledge Management(CIKM),2007:445-454.
[7]范云杰,劉懷亮,左曉飛,等.社區(qū)問答中基于維基百科的問題分類方法[J].情報科學,2014,32(10):56-60.
[8]翟延冬,王康平,張東娜,等.一種基于WordNet的短文本語義相似度算法[J].電子學報,2012,(3):617-620.
[9]王盛,樊興華,陳現(xiàn)麟.利用上下位關(guān)系的中文短文本分類[J].計算機應用,2010,30(3):603-606.
[10]黃承慧,印鑒,侯.一種結(jié)合詞項語義信息和TF-IDF方法的文本相似度量方法[J].計算機學報,2011,21(5):856-864.
[11]董振東,董強.知網(wǎng)(Hownet Knowledge Database)[EB/OL].http:∥www.keenage.com/,2014-12-25.
[12]吳志峰,田學東.人名、機構(gòu)名在基于概念的文本分類中的應用研究[J].河北大學學報:自然科學版,2004,24(6):657-661.
[13]李峰,李芳.中文詞語語義相似度計算——基于《知網(wǎng)》2000[J].中文信息學報,2007,21(3):99-105.
[14]張海粟,馬大明,鄧智龍.基于維基百科的語義知識庫及其構(gòu)建方法研究[J].計算機應用研究,2011,28(8):2807-2811.
[15]David Milne,Lan HWitten.An effective,low-cost measure of semantic relatedness obtained from Wikipedia links[C]∥The Workshop on Wikipedia and Artificial Intelligence at AAAI,Chicago,2008:25-30.
[16]諶志群,高飛,曾智軍.基于中文維基百科的詞語相關(guān)度計算[J].情報學報,2012,31(12):1265-1270.
(本文責任編輯:郭沫含)endprint