亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        用戶級情感預(yù)測主題模型的構(gòu)建與研究

        2018-03-19 02:45:17武慶圓馮佳純羅茂權(quán)何凌南
        計算機工程與應(yīng)用 2018年6期
        關(guān)鍵詞:概率分布文檔詞匯

        武慶圓,馮佳純,羅茂權(quán),何凌南

        1.北京師范大學(xué)珠海分校管理學(xué)院,廣東珠海519087

        2.中山大學(xué)數(shù)據(jù)科學(xué)與計算機學(xué)院,廣州510006

        3.中山大學(xué)傳播與設(shè)計學(xué)院,廣州510006

        用戶級情感預(yù)測主題模型的構(gòu)建與研究

        武慶圓1,馮佳純2,羅茂權(quán)2,何凌南3

        1.北京師范大學(xué)珠海分校管理學(xué)院,廣東珠海519087

        2.中山大學(xué)數(shù)據(jù)科學(xué)與計算機學(xué)院,廣州510006

        3.中山大學(xué)傳播與設(shè)計學(xué)院,廣州510006

        1 引言

        隨著Web 2.0技術(shù)的發(fā)展和移動通信設(shè)備的普及,互聯(lián)網(wǎng)上產(chǎn)生了大量音頻、圖像[1]、用戶對產(chǎn)品發(fā)表的評論[2],以及關(guān)于某些新聞事件表達的個人觀點和情感偏向[3-4],例如閱讀者對熱點新聞文章發(fā)出的情感投票[5]。這些情感投票信息反映了大眾對于該新聞事件的集體情緒反應(yīng),具有很大的參考價值[6-7]。由于新聞文章所屬的類別廣,同義詞和多義詞較多,因而采用傳統(tǒng)基于情感詞典的方法[8]具有一定的局限性。主題模型將文檔的處理從詞的層面轉(zhuǎn)換為隱含語義——主題的層面,使其對文本的特征提取與人類對文字理解的方式更加近似。此外,主題模型能夠?qū)⑽臋n從“文檔-詞匯”的高維空間映射到“文檔-主題、主題-詞匯”的低維空間,這有效地提高了文本信息處理的能力[5]。例如,LDA[9]主題模型于2003年被提出,至今已經(jīng)被廣泛應(yīng)用于文本挖掘領(lǐng)域。LDA模型假設(shè)一篇文檔首先是由多個主題組成,然后根據(jù)每個主題下的多個重要詞匯被組織生成,在這里主題是隱含變量,是不能夠被直接觀察得到的,而每篇文檔以及文檔下的詞匯是顯示變量,能夠直接被觀察到。通常來說,主題代表了文章的隱含語義,多個詞語可以映射到同一個主題,一個詞語也可以屬于不同的主題,這就很好地解決了多詞一義和一詞多義的問題。主題模型在情感預(yù)測分類中的任務(wù)就是對訓(xùn)練文檔集中的主題進行學(xué)習(xí),然后根據(jù)用戶對該文檔的情感投票推測不同的情感類別在各個主題下的概率分布,根據(jù)學(xué)習(xí)推測的結(jié)果來預(yù)測測試文檔集中各個文檔的情感分布,并且進行預(yù)測。

        然而,同一篇文檔的讀者情緒會與該用戶的特征息息相關(guān)。近年來,用戶特征在文本挖掘中的價值受到越來越多的關(guān)注。例如,在微博情感分類的相關(guān)研究中,加入用戶的信用值就被證明對情感分類效果有顯著的提升[10];考慮了用戶特征隨時間而變化的推薦模型在社交網(wǎng)絡(luò)推薦好友的任務(wù)中比傳統(tǒng)算法有更好的表現(xiàn)[11];而對于新聞類文本,有些文本主題的用戶依賴程度比較低,如地震、洪水等類別,有些主題的用戶依賴性很強,如足球比賽、電子競技等類別,特征不同的用戶情感反饋有很大差異,甚至完全相反。

        基于以上分析,本文提出兩種基于用戶特征的情感預(yù)測模型,并通過真實新聞數(shù)據(jù)集進行實證分析。實驗結(jié)果發(fā)現(xiàn),通過將用戶特征用于約束文本主題及情感標(biāo)簽的生成,能夠更為全面精準(zhǔn)地檢測在線新聞文本引發(fā)的用戶情感反饋。

        2 研究現(xiàn)狀

        目前,情感預(yù)測方法主要分為兩個層面:詞層面和主題層面。在早期研究中,對于文本的情感挖掘方式主要在詞的層面,文本的表示方式是使用空間向量模型,即文章的組織方式為“文檔-詞語”結(jié)構(gòu),其具有簡單、易操作的優(yōu)點[12]。但是,在詞向量空間模型下,無法較好地解決一詞多義或者多詞一義的問題。為此,研究人員對于文檔的組織方式有了新的認識,從一開始簡單的“文檔-詞語”方式變?yōu)椤拔臋n-語義-詞匯”的方式[5]。

        近年來,基于主題模型的情感預(yù)測分類模型被相繼提出,其中主要包括Emotion-Topic Model(ETM)[13-14]、Emotional LDA(ELDA)[15]、Multi-label Supervised Topic Model(MSTM)和Sentiment Latent Topic Model(SLTM)[12]等。ETM是一種對文檔潛在語義主題和情感投票進行聯(lián)合建模的模型。通過Gibbs抽樣算法,ETM能夠估計給定情感e,出現(xiàn)主題z的條件概率p(z|e)。ELDA模型首先通過LDA生成文檔的潛在語義主題,然后采用極大似然估計等方法計算給定主題z,出現(xiàn)情感e的條件概率p(e|z),從另一個角度對主題與用戶情感進行了關(guān)聯(lián)。MSTM和SLTM模型同樣能夠估計給定主題z,出現(xiàn)情感e的條件概率p(e|z)。與ELDA的兩個獨立步驟不同,MSTM和SLTM是把每一個情感投票排成序列,通過一次傳統(tǒng)的對主題、詞的Gibbs采樣后,再對主題、情感序列進行第二次Gibbs采樣,生成與情感直接相關(guān)的潛在主題及事件,提高準(zhǔn)確度。上述模型都能夠達到較好的情感預(yù)測效果。然而,以上模型都沒有考慮到用戶自身特征對文檔情感投票的影響。往往同一篇文檔的讀者情緒會跟用戶特征有關(guān),比如,同一場球賽的結(jié)果會引發(fā)比賽球隊雙方支持者的不同情緒反饋,不同用戶對相同文本的情緒反饋會有所差異。因此,如何構(gòu)建用戶特征、文本以及情感分布的聯(lián)合模型,受到越來越多的研究關(guān)注[16]。

        3 用戶級情感預(yù)測主題模型

        在這一部分,詳細描述兩種基于用戶特征的三層主題模型的具體結(jié)構(gòu),以及相關(guān)參數(shù)的估計方法。在本文研究中,用戶特征是指能夠用來描述并區(qū)分不同用戶的各種屬性,包括用戶的昵稱、年齡、性別、所屬地區(qū)、IP地址、職業(yè)、社會收入等。對于不同類型的數(shù)據(jù)集,用戶特征的范疇也有所區(qū)別。例如,新浪微博主要收集昵稱、注冊地域和性別等用戶特征;新聞門戶網(wǎng)站則主要記錄用戶的IP地址。

        3.1 用戶級多標(biāo)簽有監(jiān)督主題模型

        用戶級多標(biāo)簽有監(jiān)督主題模型(User-level Multilabel Supervised Topic Model,UMSTM)是一個結(jié)合了用戶特征、文本詞匯、情感投票的聯(lián)合模型。其中,文本詞匯為組成每篇文檔的詞語,是一種表達文本主題的重要特征;情感投票為用戶在閱讀某篇文本之后根據(jù)自身情感反饋進行的投票,其反映了個人對文本蘊含信息的情緒或觀點。

        對于UMSTM,訓(xùn)練文檔的主題分布首先由詞匯決定,根據(jù)Gibbs采樣得到的文檔-主題概率分布。采樣得到的文檔-主題、主題-詞匯分布,作為約束條件參與文檔的主題-情感概率分布的生成,以及主題-用戶特征概率分布的生成。根據(jù)訓(xùn)練文檔學(xué)習(xí)得到的這三個概率分布,在預(yù)測測試文檔的時候,首先對測試文檔的詞匯以及用戶特征進行采樣,得到屬于該測試文檔的文檔-主題、主題-詞匯、主題-用戶特征概率分布,最后基于訓(xùn)練文檔的主題-情感概率分布預(yù)測該測試文檔的情感概率分布。

        3.2 UMSTM的模型結(jié)構(gòu)

        在UMSTM模型下,一篇文檔的生成過程如下:首先,根據(jù)超參數(shù)β、γ和η的蒂利克雷分布采樣得到每個主題的詞匯概率分布φz、情感概率分布δz和用戶特征概率分布ψz,即φz~Dir(β)、δz~Dir(γ),以及ψz~Dir(η);其次,根據(jù)主題的詞匯概率分布抽取當(dāng)前文檔的單詞。具體步驟為:第一、根據(jù)超參數(shù)α的蒂利克雷分布采樣得到文檔d的主題分布θd。第二、根據(jù)θd抽取主題zdn,作為當(dāng)前單詞的主題。第三、根據(jù)zdn的詞匯概率分布φz采樣單詞wdn;再次,根據(jù)主題的情感概率分布抽取情感投票實例。具體步驟為:第一、根據(jù)θd抽取主題zdm,作為當(dāng)前情感投票的主題。第二、根據(jù)zdm的情感概率分布δz采樣情感投票實例edm;最后,根據(jù)主題的用戶特征概率分布抽取用戶特征類別。具體步驟為:第一、根據(jù)θd抽取主題zdi,作為當(dāng)前用戶特征的主題。第二、根據(jù)zdi的用戶特征概率分布ψz采樣用戶特征udi。UMSTM的模型結(jié)構(gòu)如圖1所示。

        圖1 UMSTM模型結(jié)構(gòu)

        從以上模型結(jié)構(gòu)可以看出,先驗分布θd首先被用來生成文檔的詞匯,其次是用戶情感類別,最后是用戶特征。這表明,不同的用戶因為自身不同的用戶信息會針對不同的主題反饋不一樣的情感。通過上述方式將主題-情感-用戶特征三種不同的信息結(jié)合在一起,借助用戶特征以進一步提高最后預(yù)測的效果。

        3.3 基于用戶特征的情感隱主題模型

        基于用戶特征的情感隱主題模型(User-based Sentiment Latent Topic Model,USLTM)是本文提出的另一種方法。在USLTM模型中,訓(xùn)練文檔的先驗“文檔-主題”分布是通過對文檔情感投票反饋使用Gibbs采樣方法得到的。采樣得到的“文檔-主題”、“主題-情感類別”概率分布,作為約束條件參與文檔的“主題-詞匯”概率分布,以及“主題-用戶特征”概率分布的生成。

        3.4 USLTM的模型結(jié)構(gòu)

        USLTM模型的具體過程如下:首先,根據(jù)超參數(shù)γ、β和η的蒂利克雷分布采樣得到每個主題的情感概率分布δz、詞匯概率分布φz和用戶特征概率分布ψz,即δz~Dir(γ)、φz~Dir(β),以及ψz~Dir(η);其次,根據(jù)主題的情感概率分布抽取情感投票實例。具體步驟為:第一、根據(jù)超參數(shù)α的蒂利克雷分布采樣得到文檔d的主題分布θd。第二、根據(jù)θd抽取主題zdm,作為當(dāng)前情感投票的主題。第三、根據(jù)zdm的情感概率分布δz采樣情感投票實例edm;再次,根據(jù)主題的詞匯概率分布抽取當(dāng)前文檔的單詞。具體步驟為:第一、根據(jù)θd抽取主題zdn,作為當(dāng)前單詞的主題。第二、根據(jù)zdn的詞匯概率分布φz采樣單詞wdn;最后,根據(jù)主題的用戶特征概率分布抽取用戶特征類別。具體步驟為:第一、根據(jù)θd抽取主題zdi,作為當(dāng)前用戶特征的主題。第二、根據(jù)zdi的用戶特征概率分布ψz采樣用戶特征udi。USLTM的模型結(jié)構(gòu)如圖2所示。

        圖2 USLTM模型結(jié)構(gòu)

        從以上模型結(jié)構(gòu)可以看出,根據(jù)先驗分布θd首先確定該文檔的情感類別概率分布,其次是這篇文檔的具體詞匯,最后是用戶特征。這表明,主題首先是根據(jù)情感類別的概率分布來確定的,進而根據(jù)確定的主題來確定相關(guān)詞匯以及聚集了相關(guān)的用戶特征。對于以上兩種模型,均采用Gibbs采樣進行參數(shù)估計并預(yù)測無標(biāo)簽文本的情感。

        3.5 采樣與預(yù)測

        為了預(yù)測一篇無標(biāo)簽(測試)文檔的情感傾向,需要獲得主題相對于文檔的概率分布、詞匯相對于主題的概率分布、情感標(biāo)簽相對于主題的概率分布,以及用戶特征相對于主題的概率分布。其中,詞匯、情感標(biāo)簽、用戶特征均為顯示變量,能夠直接觀察得到其分布,但是主題是隱性變量,不能被直接觀察得到,因此通過Gibbs采樣方法,對顯示變量依次采樣,達到逐步收斂逼近原始的條件概率分布的效果。具體如下:

        (1)對詞匯-主題條件概率分布的采樣。對于每個單詞,先隨機分配到某一主題下,然后根據(jù)Gibbs采樣公式不斷對每一個單詞重新計算其屬于每個主題的概率,并將單詞更新到采樣概率最大的主題下,這一步將一直迭代直到最后整個詞匯庫的主題分配趨于平穩(wěn)。上述詞匯-主題的Gibbs采樣公式借助已有的變分推導(dǎo)而成。其形式可概括為:對于給定其余參數(shù)條件下,一個單詞屬于某一特定主題的概率正比于當(dāng)前文檔屬于該主題的單詞頻數(shù),乘以該主題下當(dāng)前單詞頻數(shù)與所有單詞頻數(shù)的占比。以上為模型第一層參數(shù)的求解過程。

        (2)對情感標(biāo)簽-主題條件概率分布以及用戶特征-主題條件概率分布的采樣,其采樣迭代步驟與上述步驟相同,但是基于變分推導(dǎo),以及本文提出模型的性質(zhì),Gibbs采樣公式的形式與意義有了變化。在給定其他參數(shù)下,一個情感標(biāo)簽或用戶特征屬于某一特定主題的概率正比于情感標(biāo)簽或用戶特征所屬文檔出現(xiàn)該主題的概率,乘以該主題下當(dāng)前情感標(biāo)簽或用戶特征頻數(shù)與所有頻數(shù)的占比。

        (3)對測試文檔的情感預(yù)測。其預(yù)測方法的形式可以表達為,一篇測試文檔屬于某一情感標(biāo)簽的條件概率等于該篇文檔的所有主題屬于這一情感標(biāo)簽的條件概率總和。對所有情感標(biāo)簽使用該預(yù)測公式,最后再歸一化,即可得到該篇測試文檔的情感標(biāo)簽概率分布。

        4 實驗

        本章詳細展示實驗設(shè)置,進而分析主題個數(shù)對文檔情感預(yù)測的影響。

        4.1 數(shù)據(jù)集

        本文實驗選取大粵網(wǎng)(http://gd.qq.com/)新聞數(shù)據(jù)集,內(nèi)含222篇長篇新聞報道,其發(fā)布時間的跨度為2013年9月9日至2014年1月24日。此外,該數(shù)據(jù)集詳細收集了用戶的情感投票信息以及投票用戶的地區(qū)特征。其中,情感種類由大粵網(wǎng)設(shè)置,分別為憤怒、鄙視、厭惡、恐懼、悲傷、驚訝、高興和平靜。本數(shù)據(jù)集搜集了網(wǎng)民閱讀的222篇長篇新聞報道之后,在大粵網(wǎng)設(shè)置的上述8種情感類別上的投票次數(shù)??紤]到新聞的篇數(shù)較少,將222篇數(shù)據(jù)集訓(xùn)練得到模型參數(shù)用于預(yù)測相同文本的情感投票擬合度。由于新聞網(wǎng)站對用戶隱私的保護程度較高,大粵網(wǎng)主要記錄了進行情感投票的用戶的IP地址,因此本次實驗選取的用戶特征為用戶IP地址的地域特征,用該地區(qū)的電話區(qū)號表示。在數(shù)據(jù)集的預(yù)處理和清洗方面,采用哈爾濱工業(yè)大學(xué)社會計算與信息檢索研究中心研制的Language Technology Platform(LTP)開源語言技術(shù)平臺[17]進行分詞。

        4.2 對比算法

        在本次實驗中,由于本文主要研究的是用戶特征對情感預(yù)測準(zhǔn)確率的提高效果。因此,對比算法選擇的是SLTM模型和MSTM模型[11],旨在對比突出用戶特征對情感預(yù)測的影響與效果。

        4.3 衡量指標(biāo)

        4.3.1 最高情感命中率

        當(dāng)完成測試文檔的情感類別概率的預(yù)測之后,將預(yù)測概率最高的情感類別作為本篇文檔的情感類別。給定命中范圍t(t∈{1,2,…,E}),對于測試文檔,將其真實情感概率分布按照從高到低的順序排序,取前t個情感類別,如果預(yù)測的最高概率情感類別在這t個情感類別內(nèi),則正確個數(shù)加1。最高情感命中率的數(shù)值越高,則預(yù)測效果越好。

        4.3.2 相關(guān)系數(shù)

        根據(jù)預(yù)測公式得到測試文檔的情感類別概率分布之后,求預(yù)測概率分布與其真實情感概率分布的相關(guān)系數(shù)。相關(guān)系數(shù)數(shù)值越高,則預(yù)測效果越好。具體包括兩種方式:第一種方法是在情感類別εe下,對所有文檔的預(yù)測概率和真實概率之間求相關(guān)系數(shù),最后取平均值,得到平均情感類別預(yù)測相關(guān)系數(shù)。第二種方法是對測試文檔預(yù)測的情感類別概率分布和其真實情感概率分布之間求相關(guān)系數(shù),最后取平均,這種方法測量的是對文檔的情感類別概率分布預(yù)測的準(zhǔn)確度。

        4.4 結(jié)果分析

        4.4.1 最高情感命中率隨主題數(shù)變化分析

        圖3~圖6分別展示在命中范圍t為1~4的情況下,最高情感命中率隨主題數(shù)目的變化。對于MSTM模型,命中率隨主題數(shù)變化波動不大,因此MSTM模型的穩(wěn)定性很高。基于MSTM模型,UMSTM的命中率變化范圍也很小,波動不大,但是有所提高。相較于MSTM,當(dāng)命中范圍為1時,UMSTM的命中率比MSTM的平均高出1.10%。當(dāng)命中范圍為2時,UMSTM的命中率比MSTM的平均高出1.60%。

        圖3 命中范圍t=1

        圖4 命中范圍t=2

        圖5 命中范圍t=3

        圖6 命中范圍t=4

        對于SLTM模型,由于其命中率隨主題數(shù)的變化波動較大,因此USLTM的命中率同樣是不穩(wěn)定的。當(dāng)命中范圍t=1時,總體效果是SLTM模型更好,最高情感命中率平均比USLTM高0.86%。但是當(dāng)命中范圍t=2的時候,USLTM模型平均最高情感命中率更高,比SLTM平均高出3.72%??梢姡尤胗脩籼卣髦?,USLTM模型能夠?qū)㈩A(yù)測結(jié)果提升到前列范圍。

        4.4.2 相關(guān)系數(shù)隨主題數(shù)變化分析

        不同模型的相關(guān)系數(shù)結(jié)果如圖7、圖8所示。在Corrε的衡量指標(biāo)下,SLTM和USLTM模型的表現(xiàn)要優(yōu)于MSTM和UMSTM模型,而在Corrdoc的衡量指標(biāo)下,MSTM和UMSTM模型的表現(xiàn)更佳。這是由模型的性質(zhì)決定的。在MSTM和UMSTM模型下,因為“文檔-主題”概率分布θd是通過對文檔的具體詞匯進行采樣而確定,所以在一篇文檔范圍內(nèi)的預(yù)測效果會更好。

        圖7 情感層面的Corrε指標(biāo)相關(guān)系數(shù)值

        圖8 文檔層面的Corrdoc指標(biāo)相關(guān)系數(shù)值

        對于MSTM模型而言,加入了用戶特征信息以后,UMSTM相對于MSTM在Corrε指標(biāo)下最高可提高6.51%。在Corrdoc的衡量指標(biāo)下提高的效果較穩(wěn)定,最高提高了3.61%。而由于SLTM模型本身波動較大,加入用戶信息以后,USLTM的相關(guān)系數(shù)波動范圍依然很大。在Corrdoc的衡量指標(biāo)下,提升效果最高達13.81%。在Corrε的衡量指標(biāo)下,當(dāng)主題數(shù)K≥10時,USLTM模型的相關(guān)系數(shù)數(shù)值要高于SLTM模型,最高提高了8.42%。

        4.4.3 用戶特征對最高情感命中率影響分析

        圖9與圖10為最高情感命中率(即t=1)的指標(biāo)下,原始的SLTM模型與本文提出的USLTM模型在“恐懼”和“驚訝”兩種情感類別上的預(yù)測效果對比。結(jié)果發(fā)現(xiàn),隨著主題數(shù)的變化,基于用戶特征的USLTM模型的最高命中率相對于原始的SLTM模型而言都要更高。

        圖11和圖12為原始的MSTM與本文提出的UMSTM在情感標(biāo)簽為“高興”、“平靜”時最高情感命中率的對比。原始的MSTM模型在“高興”這個情感類別下的表現(xiàn)不佳,最高也僅為5%,但是加入用戶特征的UMSTM模型的最高情感命中率均比MSTM模型要高,最高可達20.46%。而在情感標(biāo)簽為“平靜”時,UMSTM模型的最高情感命中率也高于MSTM模型,最大可從0.00%提高到8.70%。

        圖9 用戶特征對“恐懼”類的影響

        圖10 用戶特征對“驚訝”類的影響

        圖11 用戶特征對“高興”類的影響

        圖12 用戶特征對“平靜”類的影響

        上述四種模型在其余情感類別上的對比情況類似,由此可見加入用戶特征能夠提高模型對各個情感類別的識別精準(zhǔn)度。

        5 結(jié)束語

        為了研究如何基于用戶的特征信息來提高情感預(yù)測的準(zhǔn)確率,本文提出USLTM和UMSTM模型,這兩個模型通過加入用戶特征的Gibbs采樣層來精準(zhǔn)預(yù)測文本引發(fā)的用戶情感反饋。實驗顯示,加入用戶特征信息之后的模型相較于基準(zhǔn)模型有更高的情感預(yù)測能力,并且穩(wěn)定性很高。未來將會繼續(xù)探索,充分展現(xiàn)出用戶特征信息對情感的挖掘與預(yù)測的價值。具體而言,通過收集新浪微博用戶的昵稱、注冊地域和性別等多維用戶特征,并基于轉(zhuǎn)發(fā)微博中的表情符號獲取用戶的情感投票信息,能夠?qū)Σ煌愋偷挠脩籼卣髟谇楦袡z測中的影響進行更為細致的分析。

        [1] 宋靈超,黃崑.基于社會標(biāo)簽的圖像情感分類標(biāo)注研究[J].圖書情報工作,2016,60(21):103-112.

        [2] 徐凱.基于產(chǎn)品特征的用戶評論情感傾向分析研究[D].合肥:合肥工業(yè)大學(xué),2015.

        [3] 陳龍,管子玉,何金紅,等.情感分類研究進展[J].計算機研究與發(fā)展,2017,54(6):1150-1170.

        [4] 劉玉文,郭強,吳宣夠,等.基于TSSCM模型的新聞輿情演化識別[J].情報雜志,2017,36(2):115-121.

        [5] Hu Y,Boyd-Graber J,Satinoff B,et al.Interactive topic modeling[J].Machine Learning,2014,95:423-469.

        [6] 饒洋輝,李青,劉文印,等.公眾文本之情感詞典研究進展[J].中國科學(xué):信息科學(xué),2014,44(7):825-835.

        [7] 楊玉珍.基于Web評論信息的傾向性分析關(guān)鍵技術(shù)研究[D].濟南:山東師范大學(xué),2014.

        [8] 黃熠,王娟.PSO-GP中文文本情感分類方法研究[J].計算機科學(xué),2017,44(6A):446-450.

        [9] Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation[J].Journal of Machine Learning Research,2003,3:993-1022.

        [10] 葉爾蘭·何扎提,李鵬.結(jié)合微博網(wǎng)絡(luò)特征和用戶信用的微博情感分析[J].計算機應(yīng)用與軟件,2016,33(10):98-102.

        [11] 孫紅濤.融合用戶文本語義和情感分析的好友推薦研究[D].重慶:重慶郵電大學(xué),2016.

        [12] Rao Y,Li Q,Mao X,et al.Sentiment topic models for social emotion mining[J].Information Sciences,2014,266:90-100.

        [13] Bao S,Xu S,Zhang L,et al.Mining social emotions from affective text[J].IEEE Transactions on Knowledge and Data Engineering,2012,24(9):1658-1670.

        [14] Bao S,Xu S,Zhang L,et al.Joint emotion-topic modeling for social affective text mining[C]//The Ninth IEEE International Conference on Data Mining(ICDM 2009),Miami,F(xiàn)lorida,USA,6-9 December,2009:699-704.

        [15] Rao Y,Lei J,Liu W,et al.Building emotional dictionaryforsentimentanalysisofonlinenews[J].World Wide Web,2014,17:723-742.

        [16] Guerra P C,Cardie C.Sentiment analysis on evolving social streams:How self-report imbalances can help[C]//Seventh ACM International Conference on Web Search and Data Mining(WSDM 2014),New York,NY,USA,24-28 February,2014:443-452.

        [17] 李正華,車萬翔,劉挺.基于XML的語言技術(shù)平臺[C]//第五屆全國青年計算語言學(xué)研討會(YWCL),武漢,中國,2010.

        WU Qingyuan,FENG Jiachun,LUO Maoquan,et al.Development of user-level topic models for emotion prediction.Computer Engineering andApplications,2018,54(6):123-127.

        WU Qingyuan1,FENG Jiachun2,LUO Maoquan2,HE Lingnan3

        1.School of Management,Zhuhai Campus of Beijing Normal University,Zhuhai,Guangdong 519087,China
        2.School of Data and Computer Science,Sun Yat-sen University,Guangzhou 510006,China
        3.School of Communication and Design,Sun Yat-sen University,Guangzhou 510006,China

        The emotion triggered by document topics is associated with user features.To improve the accuracy of emotion prediction by exploiting user features,a layer is added to sample user information for existing two-level topic models MSTM and SLTM.For the respectively proposed three-level topic models UMSTM and USLTM,user features,document topics,and emotions are modeled jointly.To validate the effectiveness of UMSTM and USLTM,experiments over the proposed models and baselines are conducted using metrics of accuracy and correlation coefficient.The experimental results show that UMSTM outperforms MSTM in terms of accuracy and correlation coefficient.Furthermore,USLTM achieves better performance than SLTM in both evaluation metrics.

        topic model;user feature;graphic model;emotion prediction;model development

        文本主題引發(fā)的情感反饋與用戶特征之間具有一定的關(guān)聯(lián)。為了充分挖掘用戶特征的價值以提高情感預(yù)測的準(zhǔn)確度,在雙層主題模型MSTM和SLTM的基礎(chǔ)上,增加了對用戶特征信息的采樣層,進而提出了基于用戶特征的“用戶-主題-情感”三層主題模型UMSTM和USLTM。通過三層模型與基礎(chǔ)模型在最高情感命中率以及情感概率預(yù)測相關(guān)系數(shù)的對比實驗,來檢驗用戶特征對情感預(yù)測產(chǎn)生的效果與影響。實驗驗證了UMSTM和USLTM在以上兩種指標(biāo)中,相對于MSTM和SLTM均有提高。

        主題模型;用戶特征;概率圖模型;情感預(yù)測;模型構(gòu)建

        2017-10-19

        2017-11-22

        1002-8331(2018)06-0123-05

        A

        G202

        10.3778/j.issn.1002-8331.1710-0173

        廣東省軟科學(xué)研究計劃項目(No.2014A030304013)。

        武慶圓(1985—),女,博士,講師,研究領(lǐng)域為信息分析,科學(xué)評價,E-mail:wuqingyuan@bnuz.edu.cn;馮佳純(1995—),通訊作者,女,研究領(lǐng)域為主題建模;羅茂權(quán)(1989—),男,碩士,研究領(lǐng)域為情感分析;何凌南(1981—),男,博士,講師,研究領(lǐng)域為網(wǎng)絡(luò)謠言、網(wǎng)民畫像、網(wǎng)絡(luò)社會心態(tài)。

        猜你喜歡
        概率分布文檔詞匯
        有人一聲不吭向你扔了個文檔
        本刊可直接用縮寫的常用詞匯
        離散型概率分布的ORB圖像特征點誤匹配剔除算法
        一些常用詞匯可直接用縮寫
        本刊可直接用縮寫的常用詞匯
        關(guān)于概率分布函數(shù)定義的辨析
        科技視界(2016年19期)2017-05-18 10:18:46
        基于概率分布的PPP項目風(fēng)險承擔(dān)支出測算
        基于RI碼計算的Word復(fù)制文檔鑒別
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        一種相依極小P值統(tǒng)計量概率分布的近似計算方法
        国产又黄又湿又爽的免费视频| 欧美成妇人吹潮在线播放| 777午夜精品免费观看| 99久久国产露脸精品竹菊传媒| 日韩亚洲制服丝袜中文字幕| 亚洲一区有码在线观看| 国产亚洲自拍日本亚洲| 国产精品久久久久久| 久久久久久人妻一区二区三区| 国产精品露脸张开双腿| 亚洲区一区二区中文字幕| 亚洲一区精品在线中文字幕| 亚洲av无码码潮喷在线观看| 国产成人亚洲精品无码h在线| 精品少妇人妻成人一区二区| 精品亚洲视频免费观看网站| av成人综合在线资源站| 少妇被猛烈进入到喷白浆| 欧美日韩精品| 国产成人8x视频网站入口| 蜜桃视频一区视频二区| 日本动漫瀑乳h动漫啪啪免费 | 嗯啊 不要 啊啊在线日韩a| 一区二区三区视频亚洲| 天堂网在线最新版www| 国产在线无码制服丝袜无码| 天堂69亚洲精品中文字幕| 久久伊人精品中文字幕有| 久久www免费人成精品| 亚洲无码专区无码| 成人一区二区三区蜜桃| 日韩日韩日韩日韩日韩日韩日韩| 中文亚洲成a人片在线观看| 国产亚洲精品不卡在线| 91一区二区三区在线观看视频| 丰满少妇高潮惨叫久久久一| 欧美成人专区| 国产麻豆精品久久一二三| 男女18视频免费网站| 中文 在线 日韩 亚洲 欧美| 国产99re在线观看只有精品|