花樹雯,張?jiān)迫A
(浙江理工大學(xué) 信息學(xué)院,杭州 245000)
2016年,Li等人根據(jù)評論語料中的時(shí)間、發(fā)布人等信息,為短文本分配不同的權(quán)重,將分配權(quán)重后的短文本合并為偽長文本,將LDA模型中的單詞w替換成權(quán)重微博鏈組成的三元組形式
綜合目前的研究,現(xiàn)有的短文本主題分類有以下兩點(diǎn)不足:
(1)傳統(tǒng)通過利用外部語料擴(kuò)充詞義或者合并短文本的方法提高語料的語義信息,但是主題模型對訓(xùn)練語料中的詞義信息提取不充分.
(2)主題模型中詞嵌入空間的詞向量的能力有限,詞嵌入模型運(yùn)行在吉布斯采樣的內(nèi)層時(shí),模型的運(yùn)行效率十分緩慢.
上述存在的問題,則是本文開展研究的出發(fā)點(diǎn).
LDA主題模型是Blei等人在03年提出的,模型為文檔集中的每個(gè)文檔以概率分布的形式分配多個(gè)主題,每個(gè)單詞都由一個(gè)主題生成[4],LDA的模型如圖1所示.
圖1 LDA 模型結(jié)構(gòu)圖
圖1中,α和β表示先驗(yàn)參數(shù),θ表示從先驗(yàn)參數(shù)α中提取的主題分布,z表示從θ主題分布中提取的主題,Φ表示從先驗(yàn)參數(shù)β中提取的主題z對應(yīng)的詞語分布,w為最后生成的詞[5].
LDA模型中,詞w采樣是根據(jù)主題z和模型的先驗(yàn)參數(shù)β,主題z是從先驗(yàn)參數(shù)α中提取,所以他們的聯(lián)合概率分布如式(1)所示.
在模型中先驗(yàn)參數(shù)β服從關(guān)于參數(shù)Φ獨(dú)立的多項(xiàng)分布,使用參數(shù)Φ將式(1)更新如下:
因?yàn)樵~服從于主題即參數(shù)為w的多項(xiàng)分布,所以將上式展開化解如下:
詞嵌入模型認(rèn)為可以將語料中的每個(gè)單詞分配給高維向量空間的實(shí)際向量,通常這個(gè)向量空間可以包含50到600個(gè)維度.提出了Word2Vec模型,在訓(xùn)練過程中,滑動窗口將覆蓋文本和神經(jīng)網(wǎng)絡(luò)中的每一個(gè)單詞的權(quán)重以學(xué)習(xí)預(yù)測周圍的單詞,通過PCA降維,投射出詞嵌入模型和LDA模型的兩個(gè)維度的單詞嵌入空間,通過可視化方法使得詞的距離更容易理解.兩點(diǎn)之間的距離越短,表示詞義越相近,PCA的降維結(jié)果如圖2所示.
圖2 詞向量 PCA 圖
選取LDA模型中前10個(gè)單詞,在圖2中用實(shí)心點(diǎn)表示,空心點(diǎn)表示詞向量模型訓(xùn)練出的詞向量,由圖可以得出,實(shí)心點(diǎn)在距離上更近,而空心點(diǎn)之間的距離比實(shí)心點(diǎn)較遠(yuǎn),說明詞向量訓(xùn)練出的詞在詞義上更近.Batmanghelich等人在NSTM模型中提出詞義的相似性可以通過詞向量(x1,x2,x3,…,xn)的余弦距離cos來衡量,余弦的計(jì)算如式(4)所示.
Batmanghelich等人的實(shí)驗(yàn)證明這種衡量方式,比通過嵌入模型中的歐幾里得距離衡量要準(zhǔn)確[6].
詞語的關(guān)系有相似性和相關(guān)性,語義的相似性關(guān)系例如詞語‘醫(yī)生’和‘大夫’,相關(guān)性例如詞語‘醫(yī)生’和‘護(hù)士’.基于詞嵌入的模型關(guān)注于語義的相似性,而基于文檔的主題模型則擅長捕捉語義的相關(guān)性.考慮到實(shí)驗(yàn)的數(shù)據(jù)量并不十分巨大,因此使用的Skip-Gram模型進(jìn)行模型的構(gòu)建.
(1)語料庫通過Skip-Gram模型進(jìn)行詞向量訓(xùn)練,Skip-Gram模型能很好的表示相似的詞匯,使用余弦距離的值計(jì)算表示詞義的相似性.
表1表示實(shí)驗(yàn)中在Skip-Gram模型下輸入語料庫后抓取的‘復(fù)查’詞義相近的詞匯.
(2)模型中,替換單詞w的具體做法是,從Skip-Gram模型空間中抽取一個(gè)與w`相近的詞向量w*,w*是詞嵌入空間中產(chǎn)生的余弦距離上最近的單詞,最后,替換單詞w`.例如,對上文中的‘復(fù)查’來說,替換詞新詞是‘復(fù)診’.
(3)借鑒LFTM模型的方法,替換詞向量模型時(shí)引入了伯努利參數(shù)s~ber(λ),詞的采樣可以以一定概率從從詞嵌入空間v或者從主題分布的詞語分布Φ中進(jìn)行采樣[7].
表1 ‘復(fù)查’的相近詞向量余弦距離示例
在WLDA模型中,首先將預(yù)處理文本輸入到替換詞向量模型層v,得到訓(xùn)練好的詞嵌入空間.其次,在模型中加入替換詞向量模型層,最后,將詞w`輸入替換詞向量模型層,模型的結(jié)構(gòu)圖如圖3所示.
圖3 WLDA 模型結(jié)構(gòu)圖
WLDA模型生成過程如下:
(1)選擇文檔集合中的主題k=1,…,k;
(2)選擇單詞分布Φk~Dir(β);
(3)對每篇文檔d=1,…,M:
1)生成文檔主題分布θd~Dir(α);
2)對文檔中的每個(gè)詞i=1,…,Nd;
① 生成詞的主題zdi~Mult(θd);
其次,這支40mm F1.4 DG HSM |Art鏡頭是適馬第一支為了達(dá)到電影鏡頭所追求的視角和性能標(biāo)準(zhǔn)而開發(fā)的Art系列鏡頭。這支鏡頭使用三枚FLD螢級低色散鏡片和三枚SLD特殊低色散鏡片,最大限度地校正了軸向色差和倍率色差。大光圈下即可在焦平面上呈現(xiàn)清晰的成像效果,與柔和的焦外虛化部分相比,可以更好地突出主體?;儽豢刂圃?%或以下,彗形像差也得到了良好的校正。
② 選擇w~Mult(Φzdi),Ψd,i~Ber (λ),如果Ψd,i=1,替換新單詞w*.
替換詞w為在上述替換詞向量模型中抓取相似的單詞w*,用表示wi被分配給話題j的次數(shù),根據(jù)步驟 a 中得到的公式,以及貝葉斯法則和 Diri 先驗(yàn),將公式推導(dǎo)如下.
更新吉布斯采樣器如式(7)所示.
其中,基于伯努利分布,從替換詞向量模型層v中采樣詞w*,交換當(dāng)前單詞w`的新主題的分布,由于詞向量訓(xùn)練并不運(yùn)行在吉布斯采樣的內(nèi)層,而是在詞向量模型訓(xùn)練好之后,主題模型在詞采樣階段從詞嵌入空間中以一定概率提取詞義相近的詞進(jìn)行替換.
由此在理論上來說,詞的替換使該模型的主題的困惑度下降,而在外部訓(xùn)練好詞嵌入空間,使WLDA模型的運(yùn)行效率更高.
實(shí)驗(yàn)硬件環(huán)境為酷睿i7處理器,運(yùn)行內(nèi)存為16 GB,操作系統(tǒng)為 Win10,實(shí)驗(yàn)的軟件是 Eclipse,采用的語言是Python.
實(shí)驗(yàn)數(shù)據(jù)處理分為以下兩步:
(a)在掛號網(wǎng)上爬取出評論數(shù)據(jù),去除標(biāo)點(diǎn)符號.
(b)使用結(jié)巴分詞,進(jìn)行停用詞處理和將語料庫進(jìn)行分詞.
分詞得到的txt局部文本如圖4所示.
實(shí)驗(yàn)分為2個(gè)部分.
(a)配置λ參數(shù),找出合適的重采樣概率λ.
(b)基于WLDA的進(jìn)行情感詞抽取并和其他模型進(jìn)行實(shí)驗(yàn)對比.
實(shí)驗(yàn)中我們采用Perplexity(困惑度)值作為評判標(biāo)準(zhǔn),式(8)為Perplexity的計(jì)算公式[7].
其中,M代表測試預(yù)料集的文本數(shù)量,Nd代表第d篇文本的大小(即單詞的個(gè)數(shù)),p(wd)代表的是文本的概率[8].如果重采樣的參數(shù)等于1,則實(shí)驗(yàn)中使用的為標(biāo)準(zhǔn)的LDA,當(dāng)重采樣次數(shù)等于0時(shí),文檔中所有的詞全部是從詞嵌入的空間中抽取.Perplexity對比的數(shù)據(jù)如圖5所示.
圖4 分詞得到的 txt文本局部圖
圖5 Perplexity 值對比
圖5中的λ為重采樣次數(shù),橫坐標(biāo)為模型的迭代次數(shù),縱坐標(biāo)為困惑度,實(shí)驗(yàn)得出當(dāng)收斂次數(shù)需要小于1000次,重新采樣次數(shù)為0.5時(shí),模型的困惑度較小.
DMM模型通過假設(shè)每個(gè)短文本只包含一個(gè)主題[8],15年,das等人首次提出了高斯LDA模型,使用詞向量代替離散的值[9],這兩個(gè)模型都在一定程度上,解決了短文本的上下文依賴性差的問題.實(shí)驗(yàn)選擇DMM模型,高斯LDA模型和重采樣概率為0.5的WLDA模型進(jìn)行對比.
針對測試的評論數(shù)據(jù),使用PMI來量化這三個(gè)主題模型中的主題質(zhì)量.PMI(主題一致性標(biāo)準(zhǔn))常常被用來量化主題模型中的主題的質(zhì)量,PMI的定義如式(9)所示[9].
圖6 模型的 PMI對比
實(shí)驗(yàn)結(jié)果表明,WLDA模型的表現(xiàn)要優(yōu)于高斯LDA模型模型,困惑度最小,這一點(diǎn)得益于WLDA在吉布斯采樣階段,選擇詞嵌入空間的詞向量w*,對單詞w`選擇性替換,而替換的詞向量提高了模型訓(xùn)練中詞向量的相似性,補(bǔ)充了上下文的語義,當(dāng)模型中的主題數(shù)為120時(shí),模型的PMI值變低,是由于替換的詞向量的質(zhì)量不高,對短文本的主題學(xué)習(xí)造成了影響.
運(yùn)行時(shí)間如表2所示.
表2 運(yùn)行時(shí)間表(單位:min)
DMM模型的運(yùn)行時(shí)間最短,但是由于DMM模型假設(shè)每個(gè)短文本只包含一個(gè)主題,這個(gè)假設(shè)十分不嚴(yán)謹(jǐn),因此,DMM的PMI值遠(yuǎn)遠(yuǎn)小于WLDA模型.
本文提出了一種基于主題模型的短文本評論情感分析模型,通過在某醫(yī)院的評論數(shù)據(jù)上實(shí)驗(yàn),證明了該模型對主題詞的分類更加的突出,并且有較高的主題一致性.
在下一步工作中,將進(jìn)一步研究降低模型的時(shí)間復(fù)雜度,提高模型的運(yùn)行效率.