亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種基于詞序的社會情感演變分析模型＊

2015-03-19 00:34:14劉義紅祝恒書

計算機工程與科學 2015年11期

劉義紅，朱琛，祝恒書

（1.淮南師范學院計算機學院，安徽淮南232001；2.中國科學技術大學計算機科學與技術學院，安徽合肥230027；3.百度研究院大數(shù)據(jù)實驗室，北京100085）

1 引言

在信息高速發(fā)展的今天，網(wǎng)絡已成為人們獲取信息的重要途徑并正在改變著人們的生活行為方式。特別是基于Web 2.0的互聯(lián)網(wǎng)技術更是提高了網(wǎng)絡終端用戶的個性化程度，允許人們在網(wǎng)絡上進行各種各樣的社會互動，表達自己的情感。例如，新浪、人民網(wǎng)、雅虎等一些在線社會新聞網(wǎng)站，允許人們在閱讀一篇新聞后，通過標注情感標簽來表達個人的社會情感（如有趣、感動、憤怒等），這種人工標注的情感標簽顯然可以精確地反映讀者對新聞的態(tài)度。另一方面，對含有社會情感的文本詞序進行分析和研究，能夠進一步提高情感分析的準確率，更好地挖掘出人們的社會情感演變趨勢，進而可以輔助情感預測、異常診斷以及文本分類等等，為決策者提供服務。近年來基于社會情感的數(shù)據(jù)挖掘，以及如何提高其準確率成為文本挖掘應用研究的熱點［2～13］。

本文提出一種基于詞序的社會情感演變分析模型BTMESE（Bigram Topic Model for analyzing the Evolution of Social Emotion）。模型試圖通過引入新聞文檔中詞與詞之間的前后關聯(lián)性，將時間、文本、情感三種信息結(jié)合起來進行綜合分析，探討它們之間的內(nèi)在聯(lián)系，追蹤社會情感演變趨勢，以期進一步提高情感分析的準確率。最后，我們在真實世界的數(shù)據(jù)集上對模型進行了檢驗，結(jié)果表明該模型簡單有效，能夠較好地進行社會情感分析。

本文第2節(jié)概要介紹與本研究內(nèi)容相關的工作；第3節(jié)詳細介紹一種基于詞序的社會情感演變分析模型；第4節(jié)給出該方法的實驗結(jié)果及分析；最后進行總結(jié)并對下一步工作進行展望。

2 相關工作

社會情感挖掘，簡單而言，就是對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理，又稱情感分析。目前，研究者主要聚焦在情感信息特征抽取、情感分類和情感信息檢索與歸納上［1］。情感信息特征抽取，一般在詞、句子、段落或篇章級層面進行，旨在抽取情感文本中有價值的情感信息，它是情感分析的基礎任務［2］。情感分類，則是利用情感信息特征抽取的結(jié)果，將情感文本單元分為若干類別（如喜、怒、哀、樂等），供用戶查看。情感信息檢索與歸納，則是情感信息特征抽取和分類后呈現(xiàn)的結(jié)果應用，它是情感分析技術與用戶交互的集中體現(xiàn)。其中，情感信息檢索是為用戶檢索出包含情感信息且主題又相關的文檔；而情感信息歸納是針對大量主題相關的情感文檔，自動分析和歸納整理出情感分析結(jié)果，供用戶參考。本文主要探討情感分析中的分類方法。

早期的情感分類研究，主要是將情感形式化為分類任務，把整個文檔看成正面或負面，或評級得分，然后采用機器學習的方法進行分類［3］。例如，文獻［4］利用分類算法從股票市場意見留言板上提取情感，用于決定是否購買或出售股票。文獻［5］利用樸素貝葉斯、最大熵、支持向量機（SVM）等方法對電影評論進行分類。然而，隨著研究的深入，研究者又提出了一些全新的跨領域的情感分類算法。文獻［6］設計了一種基于Web信息的標題情感分類算法。文獻［7］設計了一個MoodLens系統(tǒng)，將新浪微博上的95個表情符號映射分類到四類情感中。文獻［8］設計了一個ESLAM 模型，對Tiwtter信息進行情感分析，它的基本思想是用手動標記的數(shù)據(jù)訓練一個語言模型，然后利用平滑技術去處理噪聲情感數(shù)據(jù)。文獻［9］提出了一個多標簽情感分類系統(tǒng)。該系統(tǒng)由文本分割、特征提取和多標簽分類三個部分組成，用于微博情感分類。這些工作大多數(shù)是直接從文檔（或詞語）中研究感情。

另一方面，主題模型作為一種有效的文本分析工具，在文本和離散型數(shù)據(jù)分析中被廣泛運用。一些研究者認為文檔是由一些隱含的主題構(gòu)成的，這些主題決定著構(gòu)成文檔的單詞。因此，他們開始采用主題模型來分析社會情感，取得了很好的效果。文獻［10］提出一個主題－情感混合模型，在博客上進行情感分析。文獻［11］提出一個基于LDA（Latent Dirichlet Allocation）擴展的情感主題模型，從文檔中獲取主題和情感關聯(lián)。然而，這些方法均需要滿足一個基本假設，就是文本中的詞是相互獨立的，忽略了詞序相關信息，并且很少考慮時間對主題的影響。因此，人們提出了一些改進方法，融入詞序和時間等信息。例如，文獻［12］提出了一種基于LDA 的N－gram 語言模型，用來捕捉詞與詞之間的依賴關系。文獻［13］利用Topical N－gram 模型，依據(jù)新聞主題背景下詞與詞之間的關聯(lián)性，提出了一種新聞線索提取方法。文獻［14］提出了一種基于主題相關類的N－gram 語言模型，揭示潛在的主題信息，從中提取詞與詞之間的關系。文獻［15］提出一個主題時間ToT（Topics over Time）模型，每個主題在時間上是一個連續(xù)概率分布。文獻［16］提出一個微博－主題時間MB－ToT（MicroBlog－Topics over Time）模型，在微博上進行綜合主題分析。文獻［17］提出一個情感時間主題模型eToT（emotion ToT），分析時間情感主題之間的關聯(lián)性。

綜上所述，目前基于社會情感挖掘的理論方法及工程應用很多，但很少有人將詞序信息引入到文本情感分析和情感演變趨勢的挖掘之中，忽略了文本中詞序、時間所隱含的重要信息。

3 BTMESE建模

3.1 定義

現(xiàn)在許多在線新聞允許不同用戶閱讀后，通過增加評論或注釋來表達自己的情感，可以進一步理解為，每一篇新聞（文檔）是由一個時間戳、一組詞和一組情感組成。因此，我們采用概率圖模型來分析在線新聞的社會情感。為了方便描述圖模型，我們在這里定義下列術語和符號：

定義1 語料庫W，形式化定義為：

W＝｛（t1，W1，E1），…，

（td，Wd，Ed），…，（tD，WD，ED）｝

其中，三元組（td，Wd，Ed）表示第d個文檔是由時間戳td、詞向量Wd和情感集合Ed三部分構(gòu)成，D表示文檔總數(shù)。

定義2 文檔d中詞向量Wd，形式化定義為：

Wd＝（wd，1，wd，2，…，wd，i，…，wd，Nd）

其中，wd，i表示文檔d中第i個詞項，Nd表示文檔d中詞項總數(shù)。

定義3 文檔d中社會情感Ed，形式化定義為：

Ed＝｛ed，1，ed，2，…，ed，i，…，ed，E｝

其中，ed，i表示文檔d中第i個情感，E表示文檔d中情感類別數(shù)。

定義4 時間戳td是將文檔d的原始時間數(shù)據(jù)按照給定的時間粒度（如，月份、年等）進行離散化得到的一個時間片。

本文中使用的符號如表1所述。

Table 1 Notations used in this paper表1 文中使用的符號說明

3.2 BTMESE模型

我們提出的基于詞序的社會情感演變分析模型（BTMESE）如圖1 所示，通過文檔中隱含的主題可以有效地分析出時間、文檔和情感三者之間的潛在聯(lián)系。圖1中，陰影節(jié)點表示觀察數(shù)據(jù)，空白節(jié)點表示隱含變量，箭頭表示依賴關系。BTMESE中的每個主題在詞、情感和時間上分別對應著一個隱含的概率分布，而如何選擇這些分布則依據(jù)實際問題而定。這里，一篇文檔中所有的詞共享相同的情感分布和同一時間戳，為簡化參數(shù)估計過程，假設主題在情感上服從Dirichlet分布，在時間上服從Beta分布（注意，我們需要將時間戳歸一化到0～1）。BTMESE的參數(shù)化設定如下：

Figure 1 Model of BTMESE圖1 BTMESE圖模型

BTMESE 模型生成一篇文檔的過程描述如下：

（1）根據(jù)先驗Dirichlet（α）分布得到文檔的一個主題多項式分布θd。

（2）對于文檔d中第個i（i∈Nd）單詞：

①從Mult（θd）中隨機選擇一個主題zd，i；

②若i≠1，從中產(chǎn)生一個單詞wd，i；否則，從中產(chǎn)生一個單詞wd，i。

根據(jù)上述生成過程，整個語料庫的完全數(shù)據(jù)，即隨機變量主題z、單詞w、情感e和時間戳t的聯(lián)合概率分布表示為：

其中，nz，v，j表示主題z上單詞v后面出現(xiàn)單詞j的頻次，md，z表示文檔d上出現(xiàn)主題z的頻次，α、β為超參數(shù)。Γ（）為Gamma函數(shù)。

3.3 參數(shù)估計

BTMESE參數(shù)估計，我們采用基于Gibbs采樣的近似推理方法［18，19］。在Gibbs采樣過程中，需要計算每個詞wd，i的條件后驗概率分布，即Gibbs采樣公式。其推理過程：

其中＊﹁d，i表示除單詞wd，i外其它單詞對應的隨機變量。其它符號含義同式（1）或表1。

在每次Gibbs迭代采樣后，我們更新參數(shù)θ、ψ、δ：

3.4 BTMESE應用

BTMESE有許多潛在的應用，如情感預測、時間預測等，還可以分析主題在時間、情感上的演變趨勢。下面以情感、時間預測為例，介紹BTMESE的應用。

情感預測是情感分析中的分類問題，具體地說，就是給出文檔（如，一篇新聞），預測出具有最高生成概率的情感e＊，即：

而

其中，P（w｜z）、P（e｜z）、P（z）均可通過模型學習得到。

更進一步，在給出文檔d和時間戳t下，可預測出具有最高生成概率的情感e＊，即：

其中，P（e，d，t）可由式（1）計算得到。

類似地，時間預測問題可以描述為，給出文檔d（如，一篇新聞），預測出具有最高生成概率的時間戳t，即：

而

其中，P（t｜z）、P（z｜d）很容易通過模型學習得到。

此外，本模型所揭示的情感演變信息可以對諸如新聞推薦、文本信息異常診斷提供一定的幫助。

4 實驗結(jié)果及分析

4.1 實驗數(shù)據(jù)

實驗數(shù)據(jù)來源中國科學技術大學語義計算與數(shù)據(jù)挖掘?qū)嶒炇?，?shù)據(jù)采集于新浪門戶網(wǎng)站社會新聞欄目上的社會新聞和用戶閱讀該新聞標注的社會情感，時間從2012年8月21日至2013年11月11日。經(jīng)過預處理后，數(shù)據(jù)集由7 504 篇新聞和4 844 594個情感注釋組成，情感注釋有高興、感動、憤怒、難過、新奇、震驚等6個類別，采用XML數(shù)據(jù)格式存儲［20］。為了保證模型的性能，實驗時我們?nèi)コ藬?shù)據(jù)中所有無意義的停止詞和頻次低于5的詞。

圖2給出了數(shù)據(jù)集的一些簡單統(tǒng)計特性，圖2a展示了不同類別上的情感數(shù)量分布，從圖中我們可以發(fā)現(xiàn)“憤怒”的情感最多，說明多數(shù)人喜歡用憤怒來反映自己的情感。圖2b展示了不同時間片的新聞上社會情感的分布，可以觀察到社會情感隨時間的演變過程，反映社會情感容易受到不同時間段的新聞事件影響。具體來說，就是數(shù)據(jù)集中的時間、文本、情感之間存在潛在關聯(lián)。

Figure 2 Simple statistical properties of the dataset圖2 數(shù)據(jù)集的一些簡單統(tǒng)計特性

4.2 BTMESE模型的訓練效果

實驗中，BTMESE 模型需要預先給定一個數(shù)值K來表示新聞主題的個數(shù)，這里，我們利用經(jīng)典方法Perplexity［21，22］來估計K值，將主題數(shù)K設置為50。依據(jù)文獻［23］，將模型超參數(shù)α、β分別設置為50/K、0.01。經(jīng)過500次迭代，Gibbs采樣收斂，得到實驗結(jié)果。

實驗結(jié)果展示了基于詞序的時間、情感、文本和新聞主題之間的隱含關系。為簡單說明問題，我們只隨機選擇四個隱含主題來分析實驗效果。圖3展示了四個不同新聞主題在時間上的概率分布，圖4展示了四個不同新聞主題上具有最高生成概率的情感分布。從結(jié)果中我們發(fā)現(xiàn)，topic＃2、＃3有相似的概率分布，這里情感標簽“憤怒”的概率最大，但是，它們又出現(xiàn)在不同的時間片上。這表明，時間對情感能產(chǎn)生重要影響，進而可分析出社會情感的演變過程。

Figure 3 Distributions of four different news topics with respect to different time spans圖3 四個不同主題在時間上的概率分布

Figure 4 Distributions of emotions in four different news topics圖4 四個不同主題上的情感概率分布

表2給出了四個不同新聞主題上的排序較高的前10個關聯(lián)詞。我們通過這些關聯(lián)詞可以發(fā)現(xiàn)社會事件。例如，Topic＃1 表明人們比較關注教育事件，Topic＃2、＃3 表明發(fā)生了重大交通事故和征地拆遷引發(fā)社會關注的突發(fā)事件，Topic＃4表明人們比較關注家庭情感事件。同時，我們還能通過觀察這些主題上表現(xiàn)出來的情感分布和發(fā)生的時間分布，進一步分析出新聞事件下的社會情感變化。

Table 2 Top 10words in four different topics表2 四個不同主題上前10個排序詞

4.3 BTMESE模型的有效性分析

在這部分，我們通過情感預測性能分析來評價BTMESE模型的有效性。檢驗方法是，首先選擇兩個較先進的eToT［17］、ETM（Emotion－Topic Model）［15］方法和一個最大熵模型MEM（Maximum Entropy Model）方法作為實驗的基準，然后通過評價準則驗證BTMESE 模型的有效性。情感預測可以看作一個多分類問題，利用上述模型計算給定新聞文檔的每個情感的后驗概率P（e｜d），而每個模型在計算P（e｜d）后得到一組情感排序序列。因此，我們使用流行的評價準則NDCG（Normalized Discounted Cumulative Gain）來評價每個方法的性能。NDCG指標表示一個方法返回的排序序列是否接近真實值，其值越大表示排序性能越好。這里，

而

式（13）中IDCG＠N表示最佳排序結(jié)果的DCG＠N取值。式（14）表示N個情感排序結(jié)果的得分，reli表示第i個情感得分，我們設reli取值為：第i個情感總數(shù)Ei/所有情感總數(shù)E。

實驗中，我們采用五折交叉驗證的方法，將數(shù)據(jù)隨機分成五份，其中一份作為測試數(shù)據(jù)，其余四份作為訓練數(shù)據(jù)，最后將五次實驗平均得到最終結(jié)果。表3展示了不同模型的NDCG＠N性能，結(jié)果表明，我們提出了方法在NDCG評價指標上相對于其他基準方法的性能提升顯著。

Table 3 NDCG＠Nperformance of different models表3 不同模型的NDCG＠N 性能

5 結(jié)束語

本文研究的目的是通過分析新聞文檔中的詞序關系，追蹤社會情感演變趨勢，以期有效地解決網(wǎng)絡在線新聞的社會情感分析問題，進一步提高情感分析的準確率，為在線服務提供幫助。研究提出了一種基于詞序的社會情感演變分析模型BTMESE，內(nèi)容包括生成模型的構(gòu)建、參數(shù)估計、應用領域和實驗性能評價等四個方面。最后，通過在真實世界的數(shù)據(jù)集上實驗，結(jié)果證明該模型簡單有效，能夠較好地進行社會情感分析，準確率較高。但是，文中還有一些地方需要進一步完善，如主題的動態(tài)變化、主題的相關性等問題，這將是未來工作的研究方向。

［1］ Zhao Yan－yan，Qin Bing，Liu Ting.Sentiment analysis［J］.Journal of Software，2010，21（8）：1834－1848.（in Chinese）

［2］ Xu Lin－h(huán)ong，Lin Hong－fei，Zhao Jing.Construction and analysis of emotional corpus［J］.Journal of Chinese Information Processing，2008，22（1）：116－122.（in Chinese）

［3］ Cambria E，Schuller B，Liu Bing，et al.Knowledge－based approaches to concept－level sentiment analysis［J］.IEEE Intelligent Systems，2013a，28（2）：12－14.

［4］ Das S，Chen Mike.Yahoo！for amazon：extracting market sentiment from stock message boards［C］∥Proc of the 8th Asia Pacific Finance Association Annual Conference，2001：1.

［5］ Pang Bo，Lee Lilian，Vaithyanathan S，et al.Sentiment classification using machine learning techniques［C］∥Proc of the ACL－02Conference on Empirical Methods in Natural Language Processing，2002：79－86.

［6］ Kozareva Z，Navarro B，Vazquez S，et al.Ua－zbsa：A headline emotion classification through web information［C］∥Proc of the 4th International Workshop on Semantic Evaluations，2007：334－337.

［7］ Zhao Ji－chang，Dong Li，Wu Jun－jie，et al.Moodlens：An emoticon－based sentiment analysis system for chinese tweets［C］∥Proc of the 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining，2012：1528－1531.

［8］ Liu Kun－lin，Li Wu－jun，Guo Min－yi.Emoticon smoothed language models for twitter sentiment analysis［C］∥Proc of 26th AAAI Conference on Artificial Intelligence and the 24th Innovative Applications of Artificial Intelligence Conference，2012：1678－1684.

［9］ Liu Su－h(huán)ua，Chen Jiun－h(huán)ung.A multi－label classification based approach for sentiment classification［J］.Expert Systems with Applications，2015，42（3）：1083－1093.

［10］ Mei Qiao－zhu，Ling Xu，Wondra M，et al.Topic sentiment mixture：Modeling facets and opinions in weblogs［C］∥Proc of the 16th International Conference on World Wide Web，2007：171－180.

［11］ Lin Cheng－h(huán)ua，He Yu－lan.Joint sentiment/topic model for sentiment analysis［C］∥Proc of the 18th ACM Conference on Information and Knowledge Management，2009：375－384.

［12］ Wang Xue－rui，McCallum A.Topics over time：A non－markov continuous－time model of topical trends［C］∥Proc of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining，2006：424－433.

［13］ Liu Shao－peng，Yin Jian，Ouyang Jia，et al.MB－ToT：An effective model for topic mining in microblogs［J］.Applied Mathematics ＆Information Sciences，2014，8（1）：299－308.

［14］ Naptali W，Tsuchiya M，Nakagawa S.Topic－dependentclass－based n－gram language model［J］.IEEE Transactions on Audio Speech and Language Processing，2012，20（5）：1513－1525.

［15］ Bao Sheng－h(huán)ua，Xu Sheng－liang，Zhang Li，et al.Mining social emotions from affective text［J］.IEEE Transactions on Knowledge and Data Engineering，2012，24（9）：1658－1670.

［16］ Lau Raymond Y K，Xia Yun－qing，Ye Yun－ming.A probabilistic generative model for mining cybercriminal networks from online social media［J］.IEEE Computational Intelligence Magazine，2014，9（1）：31－43.

［17］ Zhu Chen，Zhu Heng－shu，Ge Yong.Tracking the evolution of social emotions：A time－aware topic modeling perspective［C］∥Proc of IEEE International Conference on Data Mining（ICDM），2014：697－706.

［18］ Lin Xiao－jun，Li Dan，Wu Xi－h(huán)ong.A joint topical N－gram language model based on LDA［C］∥Proc of 2010the 2nd International Workshop on Intelligent Systems and Applications（ISA），2010：381－384.

［19］ Yan Ze－h(huán)ua，Li Fang.News thread extraction based on topical N－gram model with a background distribution［C］∥Proc of the 18th International Conference on Neural Information，2011：416－24.

［20］ http：//emotiondata.sinaapp.com/.

［21］ Blei D M，Ng A Y，Jordan M I.Latent dirichlet allocation［J］.Journal of Machine Learning Research，2003，3（5）：993－1022.

［22］ Azzopardi L，Girolami M，VanRisjbergen K.Investigating the relationship between language model perplexity and IR precision－recall measures［C］∥Proc of the 26th Annual International ACM SIGIR Conferenceon Researchand Development in Informaion Retrieval，2003：369－370.

［23］ Heinrich G.Paramter estimaion for text analysis［R］.Saxony：University of Leipzig，2009.

附中文參考文獻：

［1］趙妍妍，秦兵，劉挺.文本情感分析［J］.軟件學報，2010，21（8）：1834－1848.

［2］徐琳宏，林鴻飛，趙晶.情感語料庫的構(gòu)建和分析［J］.中文信息學報，2008，22（1）：116－122.