黃嬋
摘? 要: 短文本建模的稀疏問題是短文本主題建模的主要問題,文章提出基于詞向量的短文本主題建模模型—語義詞向量模型(Semantics Word Embedding Modeling,SWEM)。采用半自動的方法對短文本信息進(jìn)行擴(kuò)充,對短文本相應(yīng)詞語進(jìn)行同義詞林處理,增加短文本集合中詞共現(xiàn)信息,豐富文檔內(nèi)容,推理出較高質(zhì)量的文本主題結(jié)構(gòu),解決短文本的詞共現(xiàn)信息不足的問題。實(shí)驗(yàn)表明,SWEM模型優(yōu)于LDA、BTM等傳統(tǒng)模型。
關(guān)鍵詞: 短文本; 主題建模; 同義詞; SWEM
中圖分類號:TP311? ? ? ? ? 文獻(xiàn)標(biāo)志碼:A? ? ?文章編號:1006-8228(2019)12-57-04
Topic modeling of self-media short text based on semantic word vector
Huang Chan
(Ganzhou teachers college, Ganzhou, Jiangxi 341000, China)
Abstract: The sparse problem of short text modeling is the main problem of short text topic modeling. This paper proposes a word-vector based short text topic modeling model SWEM (Semantics word embedding modeling). It uses semi-automatic method to expand short text information, the word in short text is processed with corresponding synonyms of the word, to increase word co-occurrence information in short text set, to enrich document content, so as to infer a high quality text topic structure and to solve the problem of insufficient co-occurrence of words in decisive texts. Experiments show that SWEM model is superior to traditional models such as LDA and BTM.
Key words: short text; topic modeling; synonym; SWEM
0 引言
自媒體是指以現(xiàn)代化、電子化的手段,向不特定的大多數(shù)或者特定的單個(gè)人傳遞規(guī)范性及非規(guī)范性信息的新媒體的總稱。通常以短文本的形式活躍于視野中。其特點(diǎn)主要有文本長度較短,內(nèi)容表達(dá)隨意常出現(xiàn)一些錯(cuò)別字、同音字詞,甚至出現(xiàn)流行網(wǎng)絡(luò)用語。因此,在海量的短文本數(shù)據(jù)內(nèi)挖掘有價(jià)值的信息是一項(xiàng)極具挑戰(zhàn)的任務(wù)。
1 相關(guān)研究
主題模型(topic model)是指以非監(jiān)督學(xué)習(xí)的方式對文集的隱含語義結(jié)構(gòu)進(jìn)行聚類的統(tǒng)計(jì)模型[1],而主題建模能夠從一個(gè)文本對象中自動識別它的主題,且發(fā)現(xiàn)隱藏的模式,有助于作出更好的決策。自媒體作為短文本的一種常見特性,挖掘其主題具有較強(qiáng)的實(shí)用價(jià)值,已經(jīng)得到了科研工作者的關(guān)注與研究。
Malone[2]等人在1987年就發(fā)表了具有影響力的論文,提出了最早的協(xié)同過濾。2003年,Blei等學(xué)者提出了隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)[3]模型。晏小輝[4]等的學(xué)者提出了一個(gè)雙詞主題模型(Biterm Topic Model,BTM),對雙詞來建模,構(gòu)成了雙詞-主題-單詞的三層結(jié)構(gòu)。唐曉波等[5]人建立了基于主題圖的用戶興趣模型,運(yùn)用無尺度圖K-中心點(diǎn)算法對主題圖進(jìn)行更深層次的聚類挖掘。鄧智龍[6]則提出了用戶興趣關(guān)聯(lián)規(guī)則的興趣發(fā)現(xiàn)方法,發(fā)現(xiàn)各個(gè)興趣之間的關(guān)聯(lián)規(guī)則。趙捧未等[7]提出的用戶興趣模型構(gòu)建方法是利用了本地節(jié)點(diǎn)資源和知識地圖的構(gòu)建。胡吉明等[8]從模塊度改進(jìn)的角度,針對用戶興趣多元化和關(guān)系社區(qū)的交叉性特點(diǎn)對社區(qū)發(fā)現(xiàn)算法進(jìn)行了改進(jìn)。
從上述的研究成果中可以看出,其核心部分都是建立主題模型,但建模過程中都面臨了短文本的稀疏問題,遺憾的是多數(shù)作者并沒有提出快速而簡易的方法。
本文結(jié)合其他研究者思路對解決短文本的稀疏問題進(jìn)行分析與研究。提出語義詞向量模型(Semanticswordembedding modeling,SWEM),對詞向量進(jìn)行建模,對海量短文本自媒體信息構(gòu)建結(jié)構(gòu)化主題,發(fā)現(xiàn)社團(tuán)和意見領(lǐng)袖。
2 一種基于語義詞向量的自媒體短文本主題建模
2.1 自媒體短文本主題建模分析
傳統(tǒng)的主題模型是對文檔產(chǎn)生過程建模,認(rèn)為存在文檔、主題、詞三層結(jié)構(gòu),文檔包含多個(gè)主題,詞由每個(gè)詞產(chǎn)生,隱式地利用文檔級別的詞共現(xiàn)信息推理主題結(jié)構(gòu),這類模型較適應(yīng)于長文本。然而,短文本文檔經(jīng)過去停用詞等手段處理之后,每個(gè)文本包含的詞數(shù)通常非常少,當(dāng)傳統(tǒng)模型應(yīng)用在短文本時(shí),詞頻信息和詞共現(xiàn)信息嚴(yán)重不足,導(dǎo)致稀疏問題。在使用推理算法時(shí),難以準(zhǔn)確地推理出文檔中主題分布參數(shù)與主題和詞的分布參數(shù),大大影響短文本主題建模的效果。因此,解決短文本的稀疏問題是重點(diǎn)。
2.2 語義詞向量模型
哈工大同義詞詞林能針對不同的詞語的語義進(jìn)行不同角度的詞匯擴(kuò)充。面對同義詞林的優(yōu)勢,不難想到利用哈工大同義詞詞林,采用半自動的方法對短文本信息進(jìn)行擴(kuò)充,緩解短文本信息量少的問題。將所有的短文本相應(yīng)詞語進(jìn)行同義詞林處理,使文檔組成一個(gè)語料集合,在短文本語料集合內(nèi)詞共現(xiàn)信息就會明顯增加,豐富文檔級別的詞共現(xiàn)信息,能夠推理較高質(zhì)量的主題結(jié)構(gòu),解決短文本的詞共現(xiàn)信息不足的問題。基于此,提出基于詞向量的短文本主題建模模型—語義詞向量模型(Semantics Word Embedding Modeling,SWEM)。
⑴ 同義詞詞林簡介
《同義詞詞林》[9]是80年代出版的一部對漢語詞匯按語義全面分類的詞典,收錄詞語近7萬。
同義詞詞林共提供3層編碼,隨著級別的遞增,詞義刻畫越來越細(xì),到了第五層,每個(gè)分類里詞語數(shù)量已經(jīng)不大,常常是只有一個(gè)詞語,已經(jīng)不可再分,可以稱為原子詞群、原子類或原子節(jié)點(diǎn)。其中第一級用大寫英文字母表示大類;第二級用小寫英文字母表示中類;第三級用二位十進(jìn)制整數(shù)表示小類;新增的第四級和第五級的編碼與原有的三級編碼并構(gòu)成一個(gè)完整的編碼,唯一代表詞典中出現(xiàn)的詞語。具體編碼如表1所示。
⑵ SWEM模型
語義詞向量模型(Semantics Word Embedding Modeling,SWEM)將假設(shè)整個(gè)短文本數(shù)據(jù)集合服從一個(gè)主題分布,主題服從高斯分布,對全局內(nèi)的詞向量,包括原來集合內(nèi)可觀察到的詞向量和對應(yīng)詞的同義詞向量進(jìn)行建模。
對于短文本來說,文檔級的詞頻信息和詞共現(xiàn)信息不足,SWEM模型摒棄了文檔級的主題分布,假設(shè)整個(gè)語料集合服從同一個(gè)主題分布,其具體描述表述如下:首先,根據(jù)超參數(shù)[α]生成語料集合的主題分布[θ],然后,在該主題分部下選擇一個(gè)主題[Zk],通過參數(shù)[μk]和[σk2]生成主題詞向量的高斯分布,最后,在這個(gè)高斯分布中生成每個(gè)詞向量。SWEM模型的概率圖模型如圖1所示。
模型含義:給定一個(gè)短文本語料D{d1, d2, ...,dn},每篇文檔對應(yīng)的詞向量是[W= w1,w2,...,wn,w'n+1,w'n+2,...,w'n+i],其中w1代表原本文檔中的詞項(xiàng),[w1']等代表的是文檔中詞向量的同義詞向量。取zk∈[1,k]當(dāng)做主題的標(biāo)量,[θ]表示短文本語料集合的主題分布,其中[θ]采用狄利克雷先驗(yàn),其超參[α],主題跟詞向量之間采用高斯混合分布,[α]代表第k個(gè)高斯模型權(quán)重,[μk]代表的是第k個(gè)高斯模型的均值,[σ2k]代表的是第k個(gè)高斯模型的協(xié)方差。
⑶ 基于SWEM主題模型描述
① 對每篇文檔內(nèi)詞向量進(jìn)行同義詞林泛化,求得隱含詞向量[w'] ,加入原來的短文本文檔中。
② 對整個(gè)短文本語料集合采樣一個(gè)主題分布:[θ~ Dirichlet(α)]。
③ 對每個(gè)主題[Zk],k∈[1,k],采樣一個(gè)主題詞向量分布[ψk~ Gaussian(μk,σ2k)]。
④ 對于每個(gè)詞向量w∈W,包括原文檔的詞向量和生成的同義詞向量:
(a) 采樣一個(gè)主題[Zk~Multinomial(θ)];
(b) 采樣一個(gè)詞向量[W~Multinomial(ψk)]。
根據(jù)以上的產(chǎn)生式可知:詞向量集合W是觀測變量,包括原來文本中的詞向量和對應(yīng)生成的同義詞向量,主題分布[θ]和主題詞向量分布[μk]主題z是隱含變量,[α]為模型超參,[μk],[σ2k]是第k個(gè)分部高斯模型的均值和協(xié)方差。
給定觀測數(shù)據(jù)詞向量集合[W= w1,w2,...,wn,w'n+1,w'n+2,...,w'n+i],其中w1等代表原本文檔中的詞項(xiàng),[w'n+1]等代表對應(yīng)生成的同義詞向量。模型是包含 K個(gè)高斯分布的高斯混合分布,假設(shè)詞向量W來自如下的高斯混合分布的似然函數(shù)為:
[p(W|p)=i=1N+N'k=1kλkf(wi|uk,σ2k)]? ⑴
對式⑴取對數(shù),似然函數(shù)變換為:
[log(p(W|p))=i=1N+N'log(k=1kλkf(wi|uk,σ2k))]? ⑵
從式⑵中可以看出目標(biāo)函數(shù)難以對其進(jìn)行求偏導(dǎo)處理。于是采用無EM算法[10]估計(jì)參數(shù)[λk], [μk], [σ2k]的值。
3 實(shí)驗(yàn)
3.1 實(shí)驗(yàn)數(shù)據(jù)
為驗(yàn)證模型的主題建模能力。本文選擇近期搜集Twitter自媒體數(shù)據(jù)165360條數(shù)據(jù)。在對這些數(shù)據(jù)進(jìn)行去噪過濾基礎(chǔ)上分詞處理,去除停用詞等及舍棄在文檔集合內(nèi)出現(xiàn)低于10次數(shù)的詞。如表2展示了每個(gè)數(shù)據(jù)集的文檔數(shù)目、詞典大小、平均文檔的長度。
在詞向量的選擇上,使用谷歌新聞?wù)Z料訓(xùn)練的詞向量,詞向量維數(shù)為200。在除停用詞等無意義的詞后,選擇Skip-gram算法訓(xùn)練,其他參數(shù)為模型默認(rèn)值,最終生成數(shù)據(jù)集。同時(shí)在數(shù)據(jù)集中本文采用Twitter提供的主題標(biāo)簽(Hashtag)功能對數(shù)據(jù)集進(jìn)行分類(工具采用線性SVM分類器),并提取其中的內(nèi)容。抽取20個(gè)高頻的Hashtag作為分類數(shù)據(jù)的標(biāo)簽。如表3所示。
從表3中可以看到Twitter數(shù)據(jù)集的主題種類繁多,能為檢驗(yàn)?zāi)P头诸愋阅茉囼?yàn)提供支持。
3.2 模型對比
實(shí)驗(yàn)中首先根據(jù)不同模型對文檔進(jìn)行主題建模之后,分別得出文檔的主題概率分布,用主題概率分布將文檔表示成主題向量,維數(shù)為主題的個(gè)數(shù),每一維用其包含主題的概率表示。得到文檔d的主題向量表示為D=[P(z=1|d),(z=2|d),…,(z=K|d)],然后,隨機(jī)的在數(shù)據(jù)集合中選出70%作為訓(xùn)練數(shù)據(jù)集,其余30%作為測試分類性能的數(shù)據(jù)集。
為更清晰的對比,本文將選擇LDA模型、BTM模型及本文提出的SWEM模型進(jìn)行對比,驗(yàn)證各種模型在同一短文本數(shù)據(jù)集上學(xué)習(xí)主題的能力,并用PMI Score[11]方法進(jìn)行測評,一般來說,PMI越大表示的是這兩個(gè)單詞主題相關(guān)性強(qiáng)。
在各模型的超參數(shù)的設(shè)置上,為能更好的解決短文本的稀疏問題,分別對LDA模型超參數(shù)設(shè)置為[α]=0.05,[β]=0.01;BTM模型超參數(shù)設(shè)置為[α]=50/K,[β]=0.01,并同本文提出的SWEM模型對不同的主題數(shù)量下的分類性能PMI Score對比,如圖2所示。
4.3 結(jié)果分析
從圖2中Twitter數(shù)據(jù)集上模型分類性能實(shí)驗(yàn)中可以看出,SWEM模型分類性能優(yōu)于BTM模型及LDA模型。在主題數(shù)為80左右的時(shí)候,發(fā)現(xiàn)SWEM模型表現(xiàn)達(dá)到最好。但是隨著主題數(shù)增大,分類性能出現(xiàn)下降,可能的原因是某些額外生成的詞向量質(zhì)量降低,隨著主題數(shù)的增大,干擾了主題的學(xué)習(xí)的質(zhì)量。
5 結(jié)束語
短文本建模的稀疏問題是短文本主題建模的短板,文章采用半自動的方法對短文本信息進(jìn)行擴(kuò)充,緩解短文本信息量少的問題。將所有的短文本相應(yīng)詞語進(jìn)行同義詞林處理,使文檔組成一個(gè)語料集合,在短文本語料集合內(nèi)詞共現(xiàn)信息就會明顯增加,豐富文檔級別的詞共現(xiàn)信息,能夠推理較高質(zhì)量的主題結(jié)構(gòu),解決短文本的詞共現(xiàn)信息不足的問題。實(shí)驗(yàn)表明SWEM模型優(yōu)于BTM、LDA模型,說明通過同義詞向量建??梢越鉀Q稀疏問題。
參考文獻(xiàn)(References):
[1] Papadimitriou,C.H.,Raghavan,P.,Tamaki,H.and Vempala,S.,2000.Latent semantic indexing:A probabilistic analysis.Journal of Computer and System Sciences,61(2),pp.217-235
[2] Malone,T W,Grant,K R,Turbak,F(xiàn) A,et al. Intelligent? information-sharing? systems.Communications of the ACM,1987.
[3] Blei D M,Ng A Y,Jordan M I. Latent dirichletallocation[J].Journal of Machine Learning Research,2003.3:993-1022
[4] Yan X,Guo J,Lan Y,et al. A biterm topic model for short texts[C]// Proceedings of the 22nd international conference on World Wide Web.ACM,2013.1445-1456
[5] 唐曉波,張昭.基于混合圖的在線社交網(wǎng)絡(luò)個(gè)性化推薦系統(tǒng)研究[J].情報(bào)理論與實(shí)踐,2013.2:91-95
[6] 鄧智龍,淦文燕.復(fù)雜網(wǎng)絡(luò)中社團(tuán)結(jié)構(gòu)發(fā)現(xiàn)算法[J].計(jì)算機(jī)科學(xué),2012.6.
[7] 趙捧未,李春燕,竇永香.語義對等網(wǎng)環(huán)境下基于節(jié)點(diǎn)知識地圖的用戶模型構(gòu)建[J].情報(bào)理論與實(shí)踐,2012.35(2):104-108
[8] 胡吉明,胡昌平.基于關(guān)系社區(qū)發(fā)現(xiàn)改進(jìn)的用戶興趣建模[J].情報(bào)學(xué)報(bào),2013.7,32(7):763-768
[9] Mei Jiaju,Zhu Yiming,GaoYunqi,et al.,TongyiciCilin [M]. Shanghai:Shanghai Lexicographical Publishing House,1993.106-108
[10] Moon T K.The expectation-maximization algorithm[J]. IEEE Signal Processing Magazine,1996.13(6):47-60
[11] Newman D,Lau J H,Grieser K,et al.Automatic evaluation of topic coherence[C]//Human Language Technologies:The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics.Association for Computational Linguistics,2010.100-108