鄭 誠 于秀開 徐啟南
(安徽大學(xué)計算智能與信號處理重點實驗室 安徽 合肥 230039) (安徽大學(xué)計算機科學(xué)與技術(shù)學(xué)院 安徽 合肥 230601)
基于正文和標(biāo)題文本分類的主題建模
鄭 誠 于秀開 徐啟南
(安徽大學(xué)計算智能與信號處理重點實驗室 安徽 合肥 230039) (安徽大學(xué)計算機科學(xué)與技術(shù)學(xué)院 安徽 合肥 230601)
特征稀疏是對傳統(tǒng)文本分類的一個巨大的挑戰(zhàn)?;贚DA模型,提出一種特征擴展的短文本分類模型。該模型在正文語料的基礎(chǔ)上加入標(biāo)題語料的主題分布,并進行整合,得到每個文本的主題分布。使用SVM分類器進行分類。實驗結(jié)果表明,與正文語料進行文本分類相比,所提模型對文本分類效果較好。
文本分類 LDA 特征擴展 主題分布 SVM
隨著Web的發(fā)展,人民群眾可以在網(wǎng)上發(fā)布言論和意見,政府部門可以答復(fù)人民群眾反映的問題。所以許多省、市部門單位都在積極努力做好這項工作。安徽省的各個地級市的政府網(wǎng)站都開通了這一項功能,比如合肥市的12345政府服務(wù)直通車(http://www.hefei.gov.cn/hdjl/)。在該網(wǎng)站中,人民群眾可以向政府相關(guān)部門表達自己的意愿,反映自己在生活中遇到的困難,并向政府尋求幫助,也可以對政府不滿意的地方,提出意見、建議,甚至舉報。在網(wǎng)站中人民群眾更愿意表達自己真實的情況和情感,這樣政府就可以真正地了解人民群眾的所感所想,更有利于為人民服務(wù),例如表1是合肥市民一條反饋信息。通過觀察表1的信息,我們可以發(fā)現(xiàn)上面的文本主要包括主題(在后文稱為標(biāo)題),信件內(nèi)容,回復(fù)內(nèi)容。而且文本較短,對于短文本通常它們的信息特征是:信息量少、特征稀疏、語義依賴上下文等情況[1]。而對于短文本處理的難處就是特征非常稀疏,而傳統(tǒng)的文本分類算法有Baycs、SVM、KNN等這些直接應(yīng)用在短文本分類上效果不佳。
表1 市民反饋信息
對于短文本的分類處理,主要有兩種方法,第一種是增加外部知識域。Wang等[2]在處理短文本分類中,利用一個大的分類知識庫,為每個類別建立概念模型,并為每個短文本定義一組概念,通過概念相似性,對短文本進行分類。寧亞輝等[3]提出基于領(lǐng)域詞語本體的短文本分類方法,抽取領(lǐng)域高頻詞作為特征詞,借助語義方面將特征詞擴展為概念和義元,通過計算不同概念所包含相同義元的信息量來衡量詞的相似度,進行文本分類。但是這種借助外部知識域的方法,對于沒有在知識域出現(xiàn)的詞,效果不佳。另一種是通過為短文本加入更多相關(guān)的文本,擴展文本特征進行文本分類。Sriram等[4]為微博文本增加作者的配置文件,提出一種文本分類方法。饒高琦等[5]中通過LDA主題模型獲得短文本主題分布,把主題中的詞作為短文本的特征,擴充到原短文本中,進行文本分類。Godin等[6]和Mehrotra等[7]利用LDA和微博的標(biāo)簽等特性,進行微博文本分類。基于以上考慮,為了便于本文的描述,文本將正文語料定義為用戶的來信內(nèi)容和回復(fù)內(nèi)容,因為回復(fù)內(nèi)容是政府工作人員回復(fù)信息,信息比較充分具體,標(biāo)題語料定義為用戶來信的標(biāo)題語料。本文將改進LDA主題模型將正文語料和標(biāo)題語料進行主題整合加權(quán),得到每個文本的主題分布。
2.1 命名實體識別
本文是對正文和標(biāo)題的短文本分類進行建模,實驗語料是以合肥政府直通車文本為例,因此在語料中會有大量當(dāng)?shù)靥赜玫拿麑嶓w[8],例如當(dāng)?shù)厥袇^(qū)道路名稱、小區(qū)名稱、公交站名稱等。為了提高分詞階段的準(zhǔn)確性,因此本文在分詞階段引入了用戶詞典。從百度地圖中獲取當(dāng)?shù)爻鞘刑赜玫拿麑嶓w,加入用戶詞典中,然后基于詞典匹配的方法進行分詞,以此來提高分詞的準(zhǔn)確性。見表2是149路公交站的部分命名實體。
表2 149公交部分命名實體
2.2 LDA主題模型
LDA主題模型[9]是由Blei等提出的,是一個“文本-主題-詞”的三層貝葉斯產(chǎn)生式模型,每篇文本表示為主題的混合分布,而每個主題則是詞上的概率分布。LDA模型產(chǎn)生一篇文檔的過程如下:
(1) 從先驗參數(shù)α產(chǎn)生一篇文檔的主題θ的多項式分布。
(2) 從θ的多項式分布產(chǎn)生一個詞的主題Ζ。
(3) 從先驗參數(shù)β產(chǎn)生詞主題φ的多項式分布。
(4) 由詞主題分布Ζ和詞多項式分布φ產(chǎn)生一篇文檔的一個詞w。
下面給出LDA生成模型如圖1所示。
圖1 LDA圖生成模型
關(guān)于LDA的詳細介紹和參數(shù)請詳見文獻[9]。
2.3 基于正文和標(biāo)題短文本分類模型
在各大網(wǎng)站、社團、BBS中,用戶在提交自己想法與網(wǎng)友交互時,網(wǎng)站通常要求用戶輸入問題的標(biāo)題,為了充分利用標(biāo)題的信息,本文提出了基于正文和標(biāo)題的文本分類主題建模。下面給出基于LDA主題擴展的短文本分類的流程圖如圖2所示。
圖2 基于LDA主題擴展的短文本分類流程圖
2.3.1 預(yù)處理
在特征選擇之前,本文先要進行文本分詞,本文使用的分詞工具為張華平博士等開發(fā)的ICTCLAS分詞工具進行分詞。由于本文語料為合肥市政府直通車平臺文本,是面向合肥本地人群的意見和建議,所以文本中有大量的合肥當(dāng)?shù)氐拿麑嶓w。為了增加分詞的準(zhǔn)確性,本文加入大量的命名實體作為文本分詞的用戶詞典。在該詞典中,加入合肥當(dāng)?shù)爻鞘械?00條主要道路名稱,111條公交路線所有公交站名稱,150個小區(qū)名稱等。實驗結(jié)果如圖3所示。本文在最佳主題數(shù)35下進行實驗,實驗中使用命名實體進行分詞和未使用命名實體進行分詞進行實驗。結(jié)果表明,在使用命名實體中準(zhǔn)確率、召回率和F值都有所提升。
圖3 使用命名實體進行分詞結(jié)果
2.3.2 正文和標(biāo)題分類模型表示
根據(jù)本文文本的特點,包含正文語料和標(biāo)題語料,文本以直通車文本為例,LDA是基于詞袋進行吉布斯采樣和訓(xùn)練模型。本文在使用正文語料詞袋庫進行訓(xùn)練LDA時,引入標(biāo)題標(biāo)題語料的詞袋庫,根據(jù)調(diào)和參數(shù)的不同,即標(biāo)題信息采樣比例不同,獲得每篇文本的最佳的主題分布。本文會根據(jù)正文語料得到正文語料的主題分布θ1,通過調(diào)和參數(shù)γ,在LDA中加入標(biāo)題主題分布θ2,最終獲得每一篇文本的最終主題分布θ。解釋過程如下:
(1) 從先驗參數(shù)α產(chǎn)生一篇文檔正文文檔的主題θ1的多項式分布。
(2) 從先驗參數(shù)α產(chǎn)生一篇文檔標(biāo)題文檔的主題θ2的多項式分布。
(3) 通過γ整合θ1、θ2為θ多項式分布。
(4) 從θ多項式分布產(chǎn)生一個詞的主題分布Ζ。
(5) 從先驗參數(shù)β產(chǎn)生詞主題φ的多項式分布。
(6) 由詞的主題分布Ζ和詞的多項式分布φ產(chǎn)生一篇文檔的一個詞w。
下面是文本正文和標(biāo)題模型的表示和表達式,如圖4所示。
圖4 擴展模型表示
在此給出本模型的參數(shù)估計,如圖4的概率模型中,M為文檔總數(shù),N為一個文檔的所有詞的個數(shù),α是每個文檔主題的狄利克雷的先驗參數(shù),β是每個主題下詞的狄利克雷的先驗參數(shù),Z表示一篇文檔中詞的主題。θ1是隱含變量表示一篇文檔的正文的主題分布,θ2是隱含變量表示一篇文檔的標(biāo)題的主題分布,φ表示一個主題下詞的分布。利用調(diào)和參數(shù)γ,使:
θ=γ×θ1+(1-γ)×θ2γ∈(0,1)
(1)
在語料具有正文和標(biāo)題的文本中,在對正文語料進行主題建模的過程中,引入標(biāo)題語料的信息并進行整合,獲得整篇文本的主題分布,通過公式推導(dǎo)可以得到新的文本主題分布的Gibbs采樣公式,通過對比LDA模型發(fā)現(xiàn),由于引入標(biāo)題語料的主題因子,文本的主題分布如下:
(2)
(3)
根據(jù)式(2)、式(3),最終得到聯(lián)合概率分布函數(shù)如下式:
(4)
根據(jù)吉布斯采樣過程,反復(fù)迭代,對標(biāo)題和正文中詞的每個主題進行抽樣,直到結(jié)果收斂,輸出文檔下的主題分布θmk和主題下詞的分布φkt。
3.1 實驗語料
本文基于正文和標(biāo)題的文本分類建模,以合肥政府直通車文本為例,使用爬蟲軟件,從合肥政府直通車網(wǎng)站爬取了包含拆遷規(guī)劃、房產(chǎn)、公積金、公交交通、社保就業(yè)、環(huán)境衛(wèi)生、教育、物業(yè)、治安、公共事業(yè)等10大類語料。其中社保就業(yè)2 322條,公積金1 006條,環(huán)境衛(wèi)生2 636條,教育1 632條,拆遷規(guī)劃400條,房產(chǎn)509條,公共事業(yè)793條,治安203條,公交交通1 639條,物業(yè)3 301條。
3.2 對比試驗、評估方法和分類器
本文的對比實驗設(shè)置是正文語料的LDA模型,正文語料的BTM模型,BTM主題模型是晏小輝教授在2013年的會議上提出的一個優(yōu)秀的主題模型[10]。為了評判與其他模型文本分類算法的性能,本文的評估方法為傳統(tǒng)文本分類的標(biāo)準(zhǔn):準(zhǔn)確率P、召回率R和F值。
(5)
本文使用的分類器為SVM分類器,驗證使用十字交叉法。
3.3 實驗結(jié)果
文本在確定LDA主題模型的主題數(shù)時,設(shè)置主題數(shù)從10~70(間隔為5)進行實驗驗證,實驗結(jié)果如圖5所示。從圖中可以發(fā)現(xiàn)在主題數(shù)為35時,LDA、BTM和本文模型的F值都達到了平穩(wěn)狀態(tài),當(dāng)主題數(shù)大于35時,F(xiàn)值波動不大,所以文本的最佳主題數(shù)為35。根據(jù)經(jīng)驗這里把先驗參數(shù)α設(shè)置為0.5、β設(shè)置為0.01,迭代次數(shù)為1 000次。
圖5 主題參數(shù)的確定
本文通過使用調(diào)和參數(shù)γ將正文語料的主題分布和標(biāo)題語料的主題分布整合為一篇文檔的最終主題分布。為了得到調(diào)和參數(shù)γ最優(yōu)解,本文在分類數(shù)據(jù)集中,根據(jù)不同主題,調(diào)和參數(shù)的變化,得到各個主題下F值,通過F值的變化,確定γ的最優(yōu)解。實驗結(jié)果如圖6,橫坐標(biāo)表示調(diào)和參數(shù),縱坐標(biāo)表示F值,曲線是每個主題下F值隨調(diào)和參數(shù)的變化曲線,通過實驗結(jié)果發(fā)現(xiàn),在各個主題下,當(dāng)調(diào)和參數(shù)γ=0.7時,F(xiàn)值最佳,所以文本的調(diào)和參數(shù)設(shè)為0.7。
圖6 γ參數(shù)的確定
為了驗證文本模型可以利用標(biāo)題文本信息的作用,本文使用政府直通車的標(biāo)題語料和正文語料應(yīng)用在基于正文和標(biāo)題文本分類的主題模型中。正文語料上應(yīng)用LDA模型即只考慮正文的作用,沒有利用標(biāo)題的信息因子,BTM模型使用正文語料。實驗結(jié)果如表3所示。本文方法在準(zhǔn)確率、召回率和F值都優(yōu)于LDA和BTM模型,證明本文模型可以充分利用標(biāo)題信息對文本進行分類。
表3 實驗對比結(jié)果
特征稀疏文本一直是短文本分類的問題,現(xiàn)在文本分類大多基于內(nèi)容,往往忽略標(biāo)題信息的作用。為了提高分類的效果,本文利用網(wǎng)站語料的特點,加入了標(biāo)題語料的主題分布,提出了基于正文和標(biāo)題的文本分類的主題建模,對文本特征進行擴展。以政府直通車語料為例,實驗表明當(dāng)加入標(biāo)題語料的信息后,分類效果比只基于正文內(nèi)容所提升,本文模型對于具有標(biāo)題和正文的語料分類效果較為明顯。另外本文為了解決分詞作用的困難,加入了大量的命名實體,增加了分詞的正確性。最后本文僅僅是將文本進行分類,下面的工作將引入時間序列因素進一步提高分類效果。
[1] 賀濤,曹先彬,譚輝.基于免疫的中文網(wǎng)絡(luò)短文本聚類算法[J].自動化學(xué)報,2009,35(7):896-902.
[2] Wang F,Wang Z,Li Z,et al.Concept-based short text classification and ranking[C]//Proceedings of the 23rd ACM International Conference on Conference on Information and Knowledge Management.ACM,2014:1069-1078.
[3] 寧亞輝,樊興華,吳渝.基于領(lǐng)域詞語本體的短文本分類[J].計算機科學(xué),2009,36(3):142-145.
[4] Sriram B,Fuhry D,Demir E,et al.Short text classification in twitter to improve information filtering[C]//Proceedings of the 33rd international ACM SIGIR conference on Research and development in information retrieval.ACM,2010:841-842.
[5] 饒高琦,于東,荀恩東.基于自然標(biāo)注信息和隱含主題模型的無監(jiān)督文本特征抽取[J].中文信息學(xué)報,2015,29(6):141-149.
[6] Godin F,Slavkovikj V,De Neve W,et al.Using topic models for twitter hashtag recommendation[C]//Proceedings of the 22nd International Conference on World Wide Web.ACM,2013:593-596.
[7] Mehrotra R,Sanner S,Buntine W,et al.Improving lda topic models for microblogs via tweet pooling and automatic labeling[C]//Proceedings of the 36th international ACM SIGIR conference on Research and development in information retrieval.ACM,2013:889-892.
[8] 趙軍.命名實體識別、排歧和跨語言關(guān)聯(lián)[J].中文信息學(xué)報,2009,23(2):3-17.
[9] Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation[J].The Journal of Machine Learning Research,2003,3:993-1022.
[10] Yan X,Guo J,Lan Y,et al.A biterm topic model for shorts texts[C]//Proceedings of the 22nd international conference on World Wide Web.International World Wide Web Conferences Steering Committee,2013:1445-1456.
TOPICMODELINGFORTEXTCLASSIFICATIONBASEDONTEXTANDTITLE
Zheng Cheng Yu Xiukai Xu Qi’nan
(KeyLaboratoryofICSP,MinistryofEducation,AnhuiUniversity,Hefei230039,Anhui,China) (SchoolofComputerScienceandTechnology,AnhuiUniversity,Hefei230601,Anhui,China)
The sparse feature is a huge challenge for the traditional text classification. We propose a short text classification model based on the LDA model. The model integrated the text with the title on the basis of corpus and obtained topic distribution of each text. We used SVM classifier for classification. The test results demonstrate that our model performs better than traditional text classification based on the text.
Text classification LDA Feature extension Topic distribution SVM
TP391.1
A
10.3969/j.issn.1000-386x.2017.09.016
2016-11-17。安徽省高校自然科學(xué)基金重點項目(KJ2013A020)。鄭誠,副教授,主研領(lǐng)域:信息檢索,自然語言處理。于秀開,碩士。徐啟南,碩士。