胡朝舉 徐永峰
摘要:
針對(duì)短文本信息篇幅短、信息量少、特征稀疏的特點(diǎn),提出一種基于LDA(Laten Dirichlet Allocation)主題模型特征擴(kuò)展的短文本分類(lèi)方法。該方法利用LDA模型得到文檔的主題分布,然后將對(duì)應(yīng)主題下的詞擴(kuò)充到原來(lái)短文本的特征中,作為新的部分特征詞,最后利用SVM分類(lèi)方法進(jìn)行分類(lèi)。實(shí)驗(yàn)結(jié)果表明,相比于傳統(tǒng)的基于VSM模型的分類(lèi)方法,基于LDA特征擴(kuò)展的短文本分類(lèi)方法克服了特征稀疏的問(wèn)題,在各個(gè)類(lèi)別上的查準(zhǔn)率、查全率和F1值都有所提高,充分驗(yàn)證了該方法對(duì)短文本分類(lèi)的可行性。
關(guān)鍵詞:
短文本分類(lèi);隱含狄利克雷分布(LDA);特征擴(kuò)展;SVM
DOIDOI:10.11907/rjdk.172295
中圖分類(lèi)號(hào):TP301
文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào)文章編號(hào):16727800(2018)003006304
英文摘要Abstract:This paper presented a short text classification method based on LDA (Laten Dirichlet Allocation) theme model for short text information, short message, and sparse features. This method used the LDA model to obtain the subject distribution of the document, and then extended the word under the corresponding topic into the characteristics of the original short text as a new part of the feature word. Finally, SVM classification method was used to classify. The experimental results show that the short text classification method based on the LDA feature extension overcomes the problem of sparseness of features, and the precision, recall and F1 values are improved in all categories compared with the traditional classification method based on VSM model. It is proved that the method is feasible for short text classification.
英文關(guān)鍵詞Key Words:short text classification; Laten Dirichlet Allocation (LDA); feature expansion; SVM
0引言
隨著互聯(lián)網(wǎng)的快速發(fā)展,手機(jī)、平板電腦等移動(dòng)終端的普及,手機(jī)短信息、微博、網(wǎng)絡(luò)評(píng)論、論壇發(fā)帖回帖等短文本形式的信息不斷涌入人們的生活中。面對(duì)大量短文本信息,如何快速而準(zhǔn)確地從中獲取所需的關(guān)鍵信息,成為眾多研究者關(guān)注的熱點(diǎn)問(wèn)題。近年來(lái),短文本處理技術(shù)也應(yīng)用于輿情分析[1]和搜索引擎[2]等領(lǐng)域。
目前對(duì)于文本信息的處理,如文本分類(lèi),已經(jīng)有了可用性比較高的技術(shù),然而對(duì)于篇幅較短的文本,還沒(méi)有比較成熟的方法。當(dāng)前常用的文本分類(lèi)方法主要有樸素貝葉斯算法、K近鄰算法、支持向量機(jī)算法等,這些方法要求足夠的詞頻共現(xiàn)信息,適用于長(zhǎng)文本分類(lèi)。但是短文本具有篇幅短、信息量少、特征稀疏等特點(diǎn),相關(guān)方法直接應(yīng)用于短文本分類(lèi)并不能取得良好效果,其主要困難在于短文本的特征稀疏問(wèn)題[3]。
對(duì)于短文本分類(lèi)方法的研究,近年來(lái)主要有基于語(yǔ)義和基于規(guī)則兩種方法?;谡Z(yǔ)義的方法主要是借助外部知識(shí)庫(kù)獲取短文本中的語(yǔ)義信息,該方法可以發(fā)現(xiàn)大部分詞之間存在的語(yǔ)義關(guān)系,但是對(duì)庫(kù)中不存在的詞則不起作用;基于規(guī)則的方法是利用各類(lèi)詞語(yǔ)之間相關(guān)聯(lián)的規(guī)則進(jìn)行分類(lèi),比如基于搜索引擎的方法,利用搜索引擎的查詢(xún)結(jié)果對(duì)短文本進(jìn)行擴(kuò)展,該方法對(duì)搜索質(zhì)量要求較高,且比較耗時(shí),影響短文本分類(lèi)的實(shí)時(shí)性。針對(duì)短文本的分類(lèi)問(wèn)題,Quan[4]、宋志理[5]、王細(xì)薇等[6]都從不同方面對(duì)短文本分類(lèi)方法進(jìn)行了研究。經(jīng)過(guò)對(duì)已有各種方法的研究比較,本文使用LDA模型對(duì)短文本特征進(jìn)行擴(kuò)展,以克服其特征稀疏的缺點(diǎn),具有良好的分類(lèi)效果。
1相關(guān)技術(shù)
1.1向量空間模型
向量空間模型(Vector Space Model,VSM)[7]由Saltor等提出,是當(dāng)前最常用的文本表示模型。該模型將文檔d看作向量空間中的一個(gè)n維向量,形如:
d=((t1,w1),(t2,w2),…,(tn,wn))
其中t1,t2,…,tn表示文本的n個(gè)特征項(xiàng);w1,w2,…,wn表示這n個(gè)特征項(xiàng)的權(quán)重值,一般使用詞頻-逆文檔頻率(TF-IDF)進(jìn)行計(jì)算:
wn=tf×lnMdf(1)
其中tf表示某個(gè)特征在一篇文本中出現(xiàn)的次數(shù),M表示文檔總數(shù),df表示包含該特征詞的文檔總數(shù)。
1.2信息增益
信息增益[8]主要是衡量某個(gè)特征為分類(lèi)系統(tǒng)帶來(lái)的信息量,信息越多,該特征越重要。信息增益采用信息熵作為衡量信息量的準(zhǔn)則,對(duì)于某個(gè)特征,系統(tǒng)包含它和不包含它時(shí)的信息量差就是它帶給系統(tǒng)的價(jià)值,也即增益,計(jì)算公式如下:
IG(t)=Entropy(S)-Expected.Entropy(st)=-∑mi=1p(ci)logp(ci)+p(t)∑mi=1P(ci|t)logp(ci|t)+
p(t-)∑mi=1p(ci|t-)logp(ci|t-)(2)
其中,m代表文檔類(lèi)別數(shù),p(ci)代表ci類(lèi)中包含的文檔數(shù)占總文檔數(shù)的概率,p(t)代表包含特征t的文檔數(shù)占總文檔數(shù)的概率,p(ci|t)代表文檔中出現(xiàn)特征t時(shí)屬于ci類(lèi)的概率,t-代表t不出現(xiàn)。
1.3LDA主題模型
隱含狄利克雷分布(Laten Dirichlet Allocation,LDA)[9]由Blei等于2003年提出,是一種主題生成模型,也是一個(gè)三層Bayes概率模型。LDA模型如圖1所示。該模型引入兩個(gè)超參數(shù)α、β,使“文檔—主題”和“主題—詞”分別服從θ和φ的多項(xiàng)分布,而θ和φ又是由α和β兩個(gè)參數(shù)從Dirichlet先驗(yàn)分布中采樣得到的。模型各參數(shù)符號(hào)含義如表1所示。
成過(guò)程如下:
(1)輸入一個(gè)文檔集W。
(2)對(duì)于文檔m,首先選擇 Nm,Nm服從Poisson(ζ)分布。
(3)對(duì)文檔集中的每個(gè)文檔按概率生成“文檔—主題”分布θ。
(4)對(duì)每個(gè)主題按概率生成“主題—詞”分布φ。
(5)對(duì)某文檔m中詞項(xiàng)w的生成過(guò)程為:①?gòu)奈臋nm的θ分布中選擇一個(gè)主題z;②從主題z的φ分布中選擇一個(gè)詞項(xiàng)w。
不斷重復(fù)上述過(guò)程完成M篇文檔的生成。該過(guò)程的圖形描述如圖1所示,根據(jù)LDA的圖模型,可以寫(xiě)出所有變量的聯(lián)合分布:
P(wm→,zm→,m→,Φ|α→,β→)=∏Nmn=1p(wm,n|φ→zm,n)p(zm,n|→m)·p(→m|α→)·p(Φ|β→)(3)
通過(guò)對(duì)→m和Φ積分以及zm,n求和,可以求得wm,n→的分布:
P(wm→|α→,β→)=p(→m|α→)·p(Φ|β→)·∏Nmn=1∑zm,np(wm,n|φ→zm,n)p(zm,n|→m)dΦd→m=
p(→m|α→)·p(Φ|β→)·∏Nmn=1p(wm,n|→m,Φ)dΦd→m(4)
整個(gè)文檔集W的分布為:
p(W|α→,β→)=∏Mm=1p(wm→|α→,β→)(5)
1.4Gibbs抽樣
直接估計(jì)LDA的參數(shù)十分困難,為此,解決方案是使用近似估計(jì)方法,如最大期望算法(EM)和Gibbs抽樣。Gibbs抽樣[10]是MCMC算法的一種,由于其運(yùn)行速度快、容易理解且易于實(shí)現(xiàn),本文用它對(duì)LDA主題進(jìn)行估計(jì)。其推斷主題概率公式如下:
p(zi=k|zi→,wi→)=n(t)k,i+βt∑Vt=1n(t)k,i+βt·n(t)k,i+αk∑Kk=1n(k)m+αk-1(6)
其中n(t)k,i表示第k個(gè)詞被歸結(jié)到第t個(gè)主題的次數(shù)?!芕t=1n(t)k,i表示第k個(gè)主題中包含的詞語(yǔ)個(gè)數(shù),∑Kk=1n(k)m表示第m個(gè)文檔中的詞語(yǔ)個(gè)數(shù),以上參數(shù)均是除了zi=k的這次迭代。
Gibbs抽樣算法的過(guò)程如下:①初始時(shí)為每個(gè)文檔的每個(gè)詞項(xiàng)隨機(jī)選擇一個(gè)主題zi;②統(tǒng)計(jì)每個(gè)主題zi下每個(gè)詞wi的主題概率p(zi|zi→,wi→);③循環(huán)迭代第二步,直到發(fā)現(xiàn)“文檔—主題”分布θ和“主題—詞”分布φ收斂時(shí),停止迭代,得到待估計(jì)的參數(shù)θ和φ,同時(shí)也得到每個(gè)詞對(duì)應(yīng)的主題zmn。
θ和φ的推導(dǎo)公式如下:
φk,t=n(t)k+βt∑Vt=1n(t)k+βt(7)
m,k=n(k)m+αk∑Kk=1n(k)m+αk(8)
2基于LDA特征擴(kuò)展的短文本分類(lèi)
2.1分類(lèi)框架
由于短文本長(zhǎng)度短,包含信息量少,過(guò)濾掉停用詞后剩下的信息更加稀少,使用VSM模型表示文本會(huì)使文檔矩陣特別稀疏?;诖?,本文提出基于LDA模型的特征擴(kuò)展的短文本分類(lèi)方法,具體分類(lèi)框架如圖2所示。
2.2文本預(yù)處理
文本預(yù)處理是文本分類(lèi)的基礎(chǔ),包括中文分詞和去停用詞,本文選用結(jié)巴分詞工具進(jìn)行分詞,分詞完畢后去停用詞,包括語(yǔ)氣詞、連接詞、副詞、介詞和大量重復(fù)出現(xiàn)的詞等,根據(jù)文檔集文本的特點(diǎn)生成一個(gè)停用詞表。最終每個(gè)短文本都是由兩個(gè)字或兩個(gè)字以上的詞組成。
2.3特征選擇
在進(jìn)行文本表示之前,首先進(jìn)行特征選擇。將預(yù)處理后的文本構(gòu)建一個(gè)詞典,詞典信息包括詞的信息、詞出現(xiàn)的總次數(shù)、每一類(lèi)中出現(xiàn)的次數(shù)。再利用公式(2)計(jì)算出每個(gè)詞的增益,然后降序排列,選擇前k個(gè)詞作為該類(lèi)的特征詞。對(duì)訓(xùn)練集里的每個(gè)類(lèi)都作同樣處理,最后把這8個(gè)類(lèi)的特征詞進(jìn)行合并,形成一個(gè)特征詞典并且進(jìn)行唯一編號(hào)。對(duì)于測(cè)試集的數(shù)據(jù)處理方法相同,只是依然將訓(xùn)練集得到的特征詞典中的詞作為測(cè)試集特征。
2.4文本表示
文本表示是指將短文本信息表示成計(jì)算機(jī)可以識(shí)別的形式,使用VSM將訓(xùn)練集數(shù)據(jù)向量化。最后使用LIBSVM工具進(jìn)行文本分類(lèi),文檔轉(zhuǎn)換的數(shù)據(jù)格式為(lable 1:value 2:value…),lable為類(lèi)別標(biāo)識(shí),1、2為特征詞序號(hào)即特征詞典編號(hào),value為特征詞的特征值即tfidf值,利用公式(1)進(jìn)行計(jì)算。對(duì)于測(cè)試集數(shù)據(jù),經(jīng)過(guò)文本預(yù)處理后,對(duì)比短文本中是否包含特征詞典中的詞,若包含,則計(jì)算該特征的特征值。介于短文本的特征稀疏性,特征向量矩陣特別稀疏,無(wú)法直接利用SVM進(jìn)行分類(lèi),所以進(jìn)行特征擴(kuò)展。
2.5特征擴(kuò)展
由于短文本的特征稀疏性,本文基于LDA主題模型進(jìn)行短文本特征擴(kuò)展。具體過(guò)程為:首先使用訓(xùn)練集數(shù)據(jù)訓(xùn)練LDA模型,得到“主題—詞”分布矩陣;然后用訓(xùn)練好的LDA模型預(yù)測(cè)測(cè)試集文檔的主題,得到“文檔—主題”分布矩陣;將概率最大主題下的詞語(yǔ)擴(kuò)展到短文本初始特征中,并把該主題中詞的概率值設(shè)為特征值,從而形成新的特征向量。因?yàn)長(zhǎng)DA生成一篇文檔的過(guò)程中,文檔以一定概率選擇某一主題,并且從選擇的主題中以一定概率選擇某個(gè)詞語(yǔ),所以這些詞及其概率可以很好地表示文檔特征。LDA特征擴(kuò)展具體步驟如下:①輸入訓(xùn)練集語(yǔ)料庫(kù);②得到“文檔—主題”分布矩陣;③預(yù)測(cè)測(cè)試集文檔主題,選擇文檔對(duì)應(yīng)概率最大的主題;④查詢(xún)主題下所對(duì)應(yīng)的詞;⑤比較需要添加的詞和原始特征詞,若存在,則無(wú)需添加,否則將相應(yīng)的詞和概率值擴(kuò)充到原始特征向量右邊。
3實(shí)驗(yàn)結(jié)果與分析
3.1實(shí)驗(yàn)環(huán)境與語(yǔ)料庫(kù)
實(shí)驗(yàn)環(huán)境操作系統(tǒng)為Windows 8.1,開(kāi)發(fā)工具為MyEclipse,使用JGibbLDA開(kāi)發(fā)包,進(jìn)行LDA模型的訓(xùn)練和預(yù)測(cè)。本文數(shù)據(jù)來(lái)源于搜狗實(shí)驗(yàn)室提供的新聞數(shù)據(jù),共分為8類(lèi),包括財(cái)經(jīng)、軍事、科技、旅游、體育、醫(yī)療、招聘、教育。從各類(lèi)中選取1 000個(gè)文本,共8 000個(gè)文本作為訓(xùn)練集數(shù)據(jù);篩選了各類(lèi)500個(gè)短文本,共4 000個(gè)短文本作為測(cè)試集數(shù)據(jù)。
3.2分類(lèi)器
構(gòu)造分類(lèi)器使用的算法是支持向量機(jī),SVM在文本分類(lèi)中表現(xiàn)出良好的分類(lèi)效果。開(kāi)發(fā)包選用臺(tái)灣林智仁教授開(kāi)發(fā)的LIBSVM工具包。 LIBSVM是一套基于支持向量機(jī)的庫(kù),該工具包運(yùn)算速度快,并且是開(kāi)源的,易于擴(kuò)展,適用于模式識(shí)別和回歸分析。
3.3實(shí)驗(yàn)評(píng)估
本文采用傳統(tǒng)的文本分類(lèi)評(píng)估方法,利用查準(zhǔn)率Pr和查全率Re以及兩者的綜合評(píng)價(jià)指標(biāo)F1值:
F1=2×Pr×RePr+Re(9)
3.4實(shí)驗(yàn)結(jié)果
經(jīng)過(guò)文本預(yù)處理后,使用信息增益計(jì)算出每類(lèi)詞語(yǔ)的增益值,選擇每一類(lèi)的前500個(gè)詞作為特征,然后合并為特征詞典,并且把訓(xùn)練集和測(cè)試集的短文本轉(zhuǎn)換為向量空間模型。為了確定LDA主題數(shù),采用Gibbs抽樣算法進(jìn)行主題抽取。將LDA的主題數(shù)設(shè)置在10~100之間(間隔為10),通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),隨著主題數(shù)增加,效果越來(lái)越好,但在主題數(shù)50之后效果提升不是很明顯。所以最終選取主題數(shù)T=50。根據(jù)經(jīng)驗(yàn)值設(shè)定超參數(shù)α=50/T,β=0.01。設(shè)置每個(gè)主題下的主題詞為100個(gè),循環(huán)迭代次數(shù)為1 000次。實(shí)驗(yàn)結(jié)果如表2所示。
從表2的實(shí)驗(yàn)結(jié)果可以看出,本文所采用的VSM+LDA+SVM分類(lèi)方法優(yōu)于直接采用VSM+SVM方法,在各個(gè)類(lèi)上無(wú)論是查準(zhǔn)率還是查全率都有很大提高。由于體育類(lèi)、軍事類(lèi)的特征詞比較明顯,所以分類(lèi)準(zhǔn)確率較高。實(shí)驗(yàn)結(jié)果F1值對(duì)比如圖3所示。
如圖3所示,VSM+LDA+SVM方法的F1值也高于VSM+SVM方法,充分驗(yàn)證了本文利用LDA模型進(jìn)行特征擴(kuò)展的短文本分類(lèi)方法是有效、可行的。
4結(jié)語(yǔ)
短文本分類(lèi)是文本分類(lèi)中的重要研究方向之一,應(yīng)用領(lǐng)域也比較廣泛,尤其在輿情分析、搜索引擎領(lǐng)域發(fā)揮著重要作用。針對(duì)短文本數(shù)據(jù)的特點(diǎn),本文從短文本分類(lèi)的文本表示方面著手,基于LDA主題模型對(duì)原始短文本進(jìn)行特征擴(kuò)展,豐富了短文本的語(yǔ)義信息,解決了短文本數(shù)據(jù)長(zhǎng)度短、信息弱的問(wèn)題,從而克服了采用傳統(tǒng)向量空間模型(VSM)表示短文本特征稀疏的問(wèn)題。通過(guò)對(duì)實(shí)驗(yàn)結(jié)果的分析,在各個(gè)類(lèi)別上的查準(zhǔn)率Pr、查全率Re和F1值都有所提高,驗(yàn)證了本文方法在短文本分類(lèi)中是有效可行的。
參考文獻(xiàn)參考文獻(xiàn):
[1]李太白.短文本分類(lèi)中特征選擇算法的研究[D].重慶:重慶師范大學(xué),2013.
[2]PARK E K, RA D Y, JANG M G. Techniques for improving web retrieval effectiveness[J]. Information Processing & Management, 2005,41(5):12071223.
[3]張虹.短文本分類(lèi)技術(shù)研究[D].大連:遼寧師范大學(xué),2015.
[4]QUAN X,LIU G,LU Z,et al.Short text similarity based on probabilistic topics[J].Knowledge and Information Systems,2010,25(3):473491.
[5]姚全珠,宋志理,彭程.基于LDA模型的文本分類(lèi)研究[J].計(jì)算機(jī)工程與應(yīng)用,2011(13):150153.
[6]王細(xì)薇,樊興華,趙軍.一種基于特征擴(kuò)展的中文短文本分類(lèi)方法[J].計(jì)算機(jī)應(yīng)用,2009(3):843845.
[7]SALTON G,WONG A,YANG C S.A vector space model for automatic indexing[J].Communications of the ACM,1975,18(11):613620.
[8]徐燕,李錦濤,王斌,等.文本分類(lèi)中特征選擇的約束研究[J].計(jì)算機(jī)研究與發(fā)展,2008(4):596602.
[9]BLEI D M,NG A Y,JORDAN M I.Latent Dirichlet allocation[J].Journal of Machine Learning Research,2003,3(3):9931022.
[10]QIU Z, WU B, WANG B, et al.Collapsed Gibbs sampling for latent dirichlet allocation on spark [J] . Journal Machine Learning Research, 2014,36:1728.
責(zé)任編輯(責(zé)任編輯:黃健)