亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        結(jié)合主題詞嵌入和注意力機(jī)制的主題模型

        2020-11-14 04:00:26覃婷婷陳可佳
        計(jì)算機(jī)工程 2020年11期
        關(guān)鍵詞:主題詞文檔注意力

        覃婷婷,劉 崢,陳可佳

        (南京郵電大學(xué) 計(jì)算機(jī)學(xué)院,南京 210023)

        0 概述

        隨著互聯(lián)網(wǎng)行業(yè)的快速發(fā)展,文檔數(shù)據(jù)急劇增加,從文本數(shù)據(jù)中發(fā)現(xiàn)潛在的主題信息也變得更加困難。經(jīng)典主題模型如LDA[1]和sentenceLDA[2]通常利用文檔或者句子級(jí)別的單詞共現(xiàn)來構(gòu)成主題,根據(jù)簡單的詞袋模型捕獲單詞之間的語義信息,但是,該方法忽略了有價(jià)值的單詞序列信息[3]。目前,研究人員提出了引入單詞嵌入和主題嵌入的主題模型LTE(Latent Topic Enbedding)[3],其將單詞嵌入和主題模型集成到一個(gè)框架中。單詞嵌入模型[4]將單詞映射到分布式表示中,其主要關(guān)注小滑動(dòng)窗口內(nèi)的單詞共現(xiàn),這使得單詞嵌入可以捕獲單詞子序列的信息。但是,現(xiàn)有的單詞嵌入模型通常只關(guān)注單詞上下文的語義信息,并未充分了解文本的主題。

        目前,學(xué)者們關(guān)于主題建模和單詞嵌入進(jìn)行了較多研究。LDA是用離散數(shù)據(jù)集合(如文本語料庫)建立的生成概率模型[1],LDA及其變體已廣泛應(yīng)用于內(nèi)容推薦[5-6]、趨勢檢測[7-8]以及用戶概況分析[9-10]等應(yīng)用中。Bigram主題模型[11-12]為了減輕LDA主題模型詞袋假設(shè)的負(fù)面影響,為每一對(duì)主題的單詞創(chuàng)建多項(xiàng)式分布,這導(dǎo)致其計(jì)算成本大幅增加。主題聯(lián)合詞向量模型[13]通過對(duì)單詞和主題向量進(jìn)行線性變換得到最終的詞向量。文獻(xiàn)[14]將主題模型應(yīng)用于文檔檢索,在一定程度上提高了文檔檢索的效果。文獻(xiàn)[4]提出了Skip-gram模型的幾個(gè)擴(kuò)展模型,提高了向量的質(zhì)量和訓(xùn)練速度。文獻(xiàn)[15]將主題建模的結(jié)果輸入單詞嵌入模型以學(xué)習(xí)主題詞嵌入,但是其并非整合主題建模和單詞嵌入。文獻(xiàn)[16]基于LDA主題模型引入深度神經(jīng)網(wǎng)絡(luò)模型LSTM(Long Short-Term Memory),建立了LLA(Latent LSTM Allocation)模型。LLA模型通過LSTM預(yù)測每個(gè)單詞主題的生成概率,使得LDA模型的超參數(shù)減少,同時(shí)利用了上下文的文本信息。但是,LLA模型用LSTM對(duì)主題和單詞進(jìn)行嵌入,并且忽略了單詞與主題之間的相互關(guān)系。在本文模型中,將通過引入注意力機(jī)制的方法來解決這一問題。

        主題模型可以了解文本的主題信息從而捕獲文本的主題分布,使得用戶可以較容易地獲取文本的主要內(nèi)容,而單詞嵌入可以在一個(gè)小的滑動(dòng)窗口內(nèi)捕獲單詞的語義信息,并將單詞表示成一個(gè)較低維度的分布,這使得衡量單詞間距離的難度降低。鑒于主題模型和單詞嵌入的優(yōu)點(diǎn)和缺點(diǎn),本文使用LDA模型作為主要框架,通過注意力機(jī)制將主題嵌入和單詞嵌入融合到LDA模型中,在此基礎(chǔ)上,構(gòu)建一種JEA-LDA(Joint Embedding and Attention for Latent Dirichlet Allocation)模型。在文本的生成過程中,本文假設(shè)文檔中觀察到的單詞的主題可以通過2個(gè)通道生成,一個(gè)是多項(xiàng)式分布,另一個(gè)是基于主題嵌入和單詞嵌入。此外,在JEA-LDA模型中,針對(duì)主題和單詞建立注意力機(jī)制,獲取主題與單詞間的相互關(guān)系。在訓(xùn)練單詞嵌入和主題嵌入的過程中,學(xué)習(xí)注意力分?jǐn)?shù),以確保在給定文本中與文本主題相關(guān)的單詞的權(quán)重高于不相關(guān)單詞的權(quán)重,從而使得主題嵌入和單詞嵌入的信息將影響主題建模的結(jié)果,而主題分布又將影響單詞嵌入和主題嵌入的訓(xùn)練。

        1 JEA-LDA主題模型

        經(jīng)典主題模型LDA利用單詞實(shí)例的共現(xiàn)來提取文本主題,但是其忽略了單詞間的位置關(guān)系。在本文中,通過將主題詞嵌入融入到LDA主題模型中來預(yù)測文本中每個(gè)單詞的主題,同時(shí)本文在主題詞嵌入模型中引入注意力機(jī)制,計(jì)算每個(gè)單詞的重要性分?jǐn)?shù),利用單詞的重要性分?jǐn)?shù)和主題詞嵌入來預(yù)測下一個(gè)單詞的主題。

        1.1 模型框架

        本文JEA-LDA主題模型的貝葉斯網(wǎng)絡(luò)示意圖如圖1所示。

        圖1 JEA-LDA主題模型的貝葉斯網(wǎng)絡(luò)示意圖Fig.1 Bayesian network schematic diagram of JEA-LDA topic model

        JEA-LDA主題模型以LDA模型為主題框架,融合單詞嵌入和主題嵌入并引入注意力機(jī)制。由圖1可以看出,JEA-LDA主題模型與LDA主題模型結(jié)構(gòu)相似,不同之處在于,JEA-LDA主題模型添加了一個(gè)決定參數(shù)λ,表示主題生成的來源,JEA-LDA還結(jié)合了單詞嵌入和主題嵌入結(jié)構(gòu),并在單詞和主題之間添加注意力機(jī)制,用來捕獲主題與單詞之間的相互作用關(guān)系。在圖1中,V表示短文本單詞序列所組成的單詞嵌入矩陣,為被預(yù)測單詞的前導(dǎo)單詞序列,T表示連續(xù)單詞的主題嵌入矩陣,為被預(yù)測單詞的前導(dǎo)單詞的主題序列。嵌入矩陣的每一列表示一個(gè)單詞嵌入或主題嵌入,主題嵌入和單詞嵌入的長度保持一致。

        (1)

        為了捕獲連續(xù)單詞序列(如短語)的相對(duì)空間位置信息,本文在注意力的計(jì)算過程中引入一個(gè)非線性函數(shù)ReLU。特別地,本文考慮一個(gè)長度為2r+1、中心詞為第n個(gè)單詞的單詞序列,用注意力矩陣G的局部矩陣Gn-r:n+r來計(jì)算主題-短語的注意力分?jǐn)?shù)。本文通過式(2)在第n個(gè)短語與主題間學(xué)習(xí)更高級(jí)的注意力分?jǐn)?shù):

        sn=ReLU(Gn-r:n+rW1+b1)

        (2)

        η=softmax(m)

        (3)

        (4)

        本文用交叉熵來衡量主題表示的概率,即式(4)中u為待預(yù)測單詞w的概率,如式(5)所示:

        p(zw|V,T)=CE(Zw,f(u))

        (5)

        在JEA-LDA主題模型中,本文首先根據(jù)狄利克雷分布先驗(yàn)參數(shù)α和β獲取參數(shù)文檔-主題分布θ和主題-詞分布φ;然后根據(jù)多項(xiàng)式分布Multi(θ)和主題詞嵌入模型為每一篇文檔的每一個(gè)單詞選定主題;最后根據(jù)多項(xiàng)式分布Multi(φ)為每一篇文檔逐步生成單詞。JEA-LDA模型的生成過程如算法1所示。

        算法1JEA-LDA模型生成算法

        輸入文本數(shù)據(jù)集D={d1,d2,…,dM}

        輸出文檔-主題分布θ,主題-詞分布φ

        1.for k=1 to K do

        2.根據(jù)狄利克雷先驗(yàn)分布抽樣主題-詞分布φk~Dir(β);

        3.end for

        4.for each 文檔d∈D do

        5.根據(jù)狄利克雷先驗(yàn)分布抽樣文檔-主題分布θd~Dir(α);

        6.for each 單詞w∈d do

        7.根據(jù)伯努利分布抽樣一個(gè)決定參數(shù)ξw~Ber(λ);

        8.根據(jù)文檔-主題分布和主題詞嵌入模型的預(yù)測概率為單詞w抽樣一個(gè)主題zw~(1-ξw)Multi(θd)+ξwp(zw|V,T);

        9.根據(jù)主題-詞分布抽樣一個(gè)單詞w~Multi(φzw);

        10.end for

        11.end for

        12.return 文檔-主題分布θ,主題-詞分布φ

        1.2 模型參數(shù)推導(dǎo)

        在JEA-LDA模型中,單詞w的概率可描述為p(w|α,β,λ,σ),其目標(biāo)是最大化單詞w的概率。在理想情況下,可以通過最大化p(w|α,β,λ,σ)來計(jì)算σ的最優(yōu)值。但是,直接計(jì)算p(w|α,β,λ,σ)非常困難,因此,本文計(jì)算后驗(yàn)概率p(w,ξ,z|α,β,λ,σ),如式(6)所示:

        p(w,ξ,z|α,β,λ,σ)=

        p(ξ|λ)p(z|α,ξ,σ)p(w|z,β)=

        (6)

        其中,Ed,k表示文檔d中屬于主題k的單詞個(gè)數(shù),Fk,v表示文檔數(shù)據(jù)集中屬于主題k的單詞v的個(gè)數(shù),Γ(·)表示Gamma函數(shù),A表示通過伯努利分布生成的0的數(shù)量,B表示通過伯努利分布生成的1的數(shù)量。根據(jù)貝葉斯規(guī)則,為文檔d的單詞w指定主題k的概率如式(7)所示:

        p(zd,w=k,ξd,w|w,z,α,β,λ,σ)=

        p(ξd,w|λ,ξ)p(zd,w=k|w,z,ξd,w,α,β,σ)=

        (7)

        本文根據(jù)式(7)整合ξw,如式(8)所示:

        p(zd,w=k|w,z,ξ,α,β,λ,σ)=

        (8)

        本文利用式(8)采樣每篇文檔中每個(gè)單詞的主題,重復(fù)執(zhí)行,直至收斂。接下來則考慮單詞嵌入和主題嵌入的優(yōu)化過程。在主題詞嵌入的過程中,對(duì)于每個(gè)短文本d的單詞w的主題,本文用單詞w前面的單詞序列預(yù)測w的主題。因此,目標(biāo)函數(shù)可以建立如下:

        (9)

        根據(jù)上述分析,可以用蒙特卡羅EM算法來推導(dǎo)JEA-LDA模型的參數(shù),如算法2所示。應(yīng)用該算法可以獲得本文模型的參數(shù),如文檔-主題分布θ和主題-詞分布φ。

        算法2蒙特卡羅EM算法

        輸入文本數(shù)據(jù)集D

        輸出文檔-主題分布θ,主題-詞分布φ

        1.初始化單詞嵌入矩陣V和主題嵌入矩陣T;

        2.為每篇文檔的每個(gè)單詞隨機(jī)指派一個(gè)主題;

        3.repeat

        4.E-Step:

        5.for each 文檔d∈D do

        6.for each 單詞w∈d do

        7.根據(jù)主題詞嵌入模型計(jì)算p(zd,w|σ);

        8.根據(jù)式(8)獲取主題zd,w;

        9.end for

        10.end for

        11.M-Step:

        12.用隨機(jī)梯度下降法優(yōu)化主題詞嵌入模型參數(shù)σ;

        13.until收斂

        在算法2中,第1行首先對(duì)主題詞嵌入模型進(jìn)行初始化,本文用預(yù)測訓(xùn)練的單詞嵌入初始化單詞嵌入矩陣,對(duì)于不在詞匯表中的單詞和主題,本文采用均勻分布進(jìn)行初始化。第2行對(duì)每一篇文檔隨機(jī)指派一個(gè)主題。第7行根據(jù)主題詞嵌入模型的前向過程預(yù)測單詞w主題為zd,w的概率。第8行根據(jù)式(8)指定單詞w的主題zd,w。第12行用隨機(jī)梯度下降法求解主題詞嵌入模型的參數(shù)。

        假設(shè)算法2的最大迭代次數(shù)為H,語料庫中文本數(shù)量為M,每篇文檔的平均單詞數(shù)量為N,則JEA-LDA模型的時(shí)間復(fù)雜度為O(HMN)。

        2 實(shí)驗(yàn)結(jié)果與分析

        2.1 實(shí)驗(yàn)數(shù)據(jù)集

        本次實(shí)驗(yàn)采用搜狗實(shí)驗(yàn)室(http://www.sogou.com/labs/)的新聞數(shù)據(jù)集來預(yù)訓(xùn)練單詞嵌入,使用爬取自新浪微博的文本數(shù)據(jù)集來評(píng)估文本主題質(zhì)量,該數(shù)據(jù)集包括679 823條文本數(shù)據(jù),每條文本數(shù)據(jù)包含100個(gè)~200個(gè)單詞。

        2.2 對(duì)比模型

        本次實(shí)驗(yàn)的對(duì)比模型具體如下:

        1)LDA[1],經(jīng)典主題模型,直接用LDA對(duì)文本數(shù)據(jù)集提取主題。

        2)DMM[17],Dirichlet多項(xiàng)式混合模型,其主要思想是假設(shè)每篇文本僅有一個(gè)主題。

        3)LF-DMM[18],DMM的改進(jìn)模型,其在DMM模型中引入了外部詞向量來補(bǔ)充單詞間的關(guān)系。

        4)LF-LDA[18],LDA的改進(jìn)模型,其在LDA模型中引入了外部詞向量來補(bǔ)充單詞間的關(guān)系。

        2.3 主題一致性評(píng)估

        (10)

        PMI得分越高,模型學(xué)習(xí)的主題一致性越好,即模型性能越高。

        圖2所示為微博文本數(shù)據(jù)在每個(gè)對(duì)比模型上的主題一致性PMI分?jǐn)?shù),其中,使用每個(gè)主題的前20個(gè)單詞分別計(jì)算PMI分?jǐn)?shù)。從圖2可以看出,本文JEA-LDA模型相較于其他模型能夠取得更好的一致性效果。

        圖2 5種模型的PMI分?jǐn)?shù)對(duì)比結(jié)果Fig.2 Comparison results of PMI score of five models

        2.4 分類實(shí)驗(yàn)

        在本文的對(duì)比主題模型中,可以獲得模型的文檔-主題分布θ,因此,可以用通用分類器對(duì)文本進(jìn)行分類,以測試文本主題分布的效果,本次實(shí)驗(yàn)采用SVM分類器。主題之間的區(qū)分度越高,文本主題的分布越合理,分類效果越好,模型的學(xué)習(xí)能力越高。

        本文采用精度(P)、召回率(R)和F1值作為每種模型的分類評(píng)價(jià)指標(biāo),5種模型的分類結(jié)果對(duì)比如表1~表3所示,其中最優(yōu)結(jié)果加粗表示。

        表1 5種模型的分類精度對(duì)比Table 1 Comparison of classification precision of five models

        表2 5種模型的分類召回率對(duì)比Table 2 Comparison of classification recall of five models

        表3 5種模型的分類F1值對(duì)比Table 3 Comparison of classification F1 value of five models

        從表1~表3可以看出,本文模型通過引入單詞嵌入和主題嵌入,在一定程度上改善了主題模型的分類性能。

        3 結(jié)束語

        本文將主題嵌入和單詞嵌入融合到LDA主題模型中,在主題和單詞之間建立注意力機(jī)制,獲取主題與單詞間的相互關(guān)系。在訓(xùn)練單詞嵌入和主題嵌入的過程中學(xué)習(xí)注意力分?jǐn)?shù),以確保在給定文本中與文本主題相關(guān)的單詞的權(quán)重高于不相關(guān)單詞的權(quán)重。實(shí)驗(yàn)結(jié)果表明,主題嵌入和單詞嵌入相結(jié)合能夠改善主題提取的效果。下一步將在本文研究的基礎(chǔ)上,考慮短文本數(shù)據(jù)稀疏問題,針對(duì)短文本的主題提取和注意力機(jī)制進(jìn)行分析和研究。

        猜你喜歡
        主題詞文檔注意力
        讓注意力“飛”回來
        有人一聲不吭向你扔了個(gè)文檔
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        基于RI碼計(jì)算的Word復(fù)制文檔鑒別
        A Beautiful Way Of Looking At Things
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        我校學(xué)報(bào)第32卷第5期(2014年10月)平均每篇有3.04個(gè)21世紀(jì)的Ei主題詞
        我校學(xué)報(bào)第32卷第6期(2014年12月)平均每篇有3.00個(gè)21世紀(jì)的Ei主題詞
        2014年第16卷第1~4期主題詞索引
        《疑難病雜志》2014年第13卷主題詞索引
        久久久无码精品亚洲日韩按摩| 久久精品熟女亚洲av麻豆永永| 亚洲女同一区二区三区| 国产精品不卡无码AV在线播放| 亚洲红杏AV无码专区首页| 亚洲天堂免费成人av| 手机av在线播放网站| 波多野结衣在线播放| 国产亚洲精品精品精品| 日本午夜精品理论片a级app发布 | 午夜亚洲AV成人无码国产| 亚洲综合伦理| 丝袜美腿爆炒国产在线观看 | 五月激情在线观看视频| 日韩av一区二区蜜桃| 亚洲精品国产成人久久av| 谷原希美中文字幕在线| 日本强伦姧人妻一区二区| 亚洲av网一区二区三区| 成人美女黄网站色大免费的| 波多野结衣中文字幕久久| 欧美激情二区| 高清国产美女av一区二区| 亚洲中文字幕熟女五十| 一区二区三区在线观看视频精品| 欧美人牲交| 欧美第一黄网免费网站| 波多野结衣视频网址| 国产一区二区欧美丝袜| 色婷婷亚洲一区二区在线| 偷拍韩国美女洗澡一区二区三区| 在厨房拨开内裤进入毛片| 被三个男人绑着躁我好爽视频| 性一交一乱一伦a片| 91视频免费国产成人| 超清无码AV丝袜片在线观看| 人妻中文字幕一区二区三区| 加勒比精品视频在线播放| 一本久久伊人热热精品中文字幕 | 日韩毛片免费无码无毒视频观看| 久久亚洲AV成人一二三区|