亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向微博的社會情緒詞典構(gòu)建及情緒分析方法研究

        2015-04-12 11:30:42蔣盛益黃衛(wèi)堅蔡茂麗王連喜
        中文信息學(xué)報 2015年6期
        關(guān)鍵詞:情緒文本情感

        蔣盛益,黃衛(wèi)堅,蔡茂麗,王連喜

        (1.廣東外語外貿(mào)大學(xué)語言工程與計算實驗室,廣東廣州510006;2.廣東外語外貿(mào)大學(xué)信息學(xué)院,廣東廣州510006;3.廣東外語外貿(mào)大學(xué)圖書館,廣東廣州510420)

        1 引言

        互聯(lián)網(wǎng)成為當下中國社會非理性情緒的集散地,是社會情緒分析的重要數(shù)據(jù)來源。作為新型的網(wǎng)絡(luò)交流平臺,微博不僅成為人們表達情感的重要載體,更是民眾討論社會熱點事件的重要場所,匯集了大眾對社會話題的情緒表達。研究面向微博的社會情緒分析方法具有重要的現(xiàn)實意義,一方面有利于政府或相關(guān)部門進行輿情監(jiān)控和傳播引導(dǎo);另一方面對社會事件的情緒分析有助于危機公關(guān)處理、名人形象維護等。

        文本情緒分析的本質(zhì)是對有情緒傾向的主觀文本進行分析和處理的過程。現(xiàn)有文本情緒分析方法,主要以基于詞典的匹配方法和基于機器學(xué)習(xí)的分類方法為主[1]?;跈C器學(xué)習(xí)的分類方法主要有樸素貝葉斯、支持向量機和最大信息熵等。由于基于機器學(xué)習(xí)的分類方法易受訓(xùn)練語料影響,且部分算法涉及了復(fù)雜的參數(shù)設(shè)置,所以不便于建模。目前最常見的方法是構(gòu)建高質(zhì)量的情緒詞典,并將其應(yīng)用于文本情緒識別。由此可見,構(gòu)建合理、覆蓋范圍寬泛的情緒詞典是基于詞典匹配方法的關(guān)鍵。

        情緒詞典是文本情緒分析的重要輔助資源。情緒詞典的構(gòu)建往往需要結(jié)合人工標注、語義詞典擴展或基于語料庫抽取標注等方法。英語中最重要的情緒詞典資源是WordNet-Affect,該詞典通過選擇和標注代表情緒概念的WordNet中的同義詞集而獲得的Ekman六種基本情緒相關(guān)的詞語,然后利用WordNet中定義的關(guān)系、情緒標簽和領(lǐng)域標簽進行擴展,找到情緒同義詞所在的Synset擴展得到情緒詞典[2]。Zaher Salah等人通過兩種方法創(chuàng)建領(lǐng)域情緒詞典:1)從已標注的語料中計算詞匯極性及程度,生成詞典;2)從已有詞典出發(fā),融合領(lǐng)域語料中的詞匯語義信息、上下文信息、關(guān)系信息,學(xué)習(xí)一個基于分類器的擴展領(lǐng)域詞典[3]。Suke等人[4]認為具有相近或相同情感的觀點詞有更高的概率同時出現(xiàn),采用協(xié)同訓(xùn)練框架進行半監(jiān)督的情緒分類訓(xùn)練以擴展情緒詞。

        在中文情感詞典資源方面,HowNet是國內(nèi)較為全面的知識庫。借助于HowNet,不少學(xué)者嘗試構(gòu)建特定領(lǐng)域的情緒詞典。柳位平等在HowNet情緒詞集合的基礎(chǔ)上,利用HowNet的義原計算詞與詞間的相似度,并根據(jù)詞和正向、負向種子詞的平均相似度的差來判定詞的情緒傾向性,從而得到特定的情緒詞典[5]。常曉龍等將詞語間的語素關(guān)系融入到圖模型中、并結(jié)合詞語同義關(guān)系,提出一種構(gòu)建詞典的半監(jiān)督學(xué)習(xí)方法,形成了融合語素特征的中文褒貶詞典[6]。徐琳宏、林鴻飛等構(gòu)建了中文情緒詞匯本體庫,將情緒分為七個基本大類和21個小類,并利用相關(guān)情緒詞典和語義知識庫獲得候選情緒詞,再人工對部分種子詞語的情緒類別和強度進行標注[7]。

        本文的目的在于構(gòu)建一個規(guī)模大,覆蓋范圍廣的社會情緒詞典。首先,根據(jù)現(xiàn)有的社會情緒相關(guān)文獻和分析目標確定社會情緒類別,并整合已有情緒詞典,補充典型的微博情感詞,建立規(guī)模較小的基準情緒詞典。然后采用深度學(xué)習(xí)工具Word2vec對微博平臺上的社會熱點事件微博及評論等語料進行分析,以增量式的方式擴展基準詞典;接下來,再輔以HowNet詞典和人工篩選,生成最終的情緒詞典。最后,利用所構(gòu)建的社會情緒詞典分析微博文本標注語料的情緒傾向,并對比基于情緒詞典和基于SVM分類的情緒分析結(jié)果以驗證所構(gòu)建的詞典的有效性;與此同時,利用所構(gòu)建的情緒詞典分析微博平臺的社會熱點事件呈現(xiàn)的社會情緒傾向,從側(cè)面驗證本文構(gòu)建的情緒詞典的有效性。

        2 面向微博的社會情緒詞典構(gòu)建

        情緒詞典的構(gòu)建流程如圖1所示。

        圖1 社會情緒詞典構(gòu)建流程圖

        2.1 基準情緒詞典的建立及微博語料獲取

        社會情緒不同于個人情緒,個人情緒是指個體對一系列主觀認知經(jīng)驗的通稱,是多種感覺、思想和行為綜合產(chǎn)生的心理和生理狀態(tài),其最基本的情緒有喜、憤、哀、懼、恐、愛等。當然也存在不同的看法,美國著名的心理學(xué)家伊扎德提出了12種基本情緒:興趣、驚奇、痛苦、厭惡、愉快、憤怒、恐懼、悲傷、害羞、輕蔑和自罪感;社會情緒則側(cè)重于群體成員情緒之間的相互作用和影響,是建立在個體對社會的人和事的認知、心理變化基礎(chǔ)上的社會反映。目前,國內(nèi)關(guān)于社會情緒的研究起步較晚,社會情緒分類體系方面的研究相對缺乏??紤]到本文分析的目標是微博平臺上社會大眾對特定新聞事件的情緒傾向,因此本文重點關(guān)注包括喜歡、愉快、憤怒、悲傷等社會大眾普遍存在并且廣泛關(guān)注的情緒類別。結(jié)合目前社會情緒的研究成果,同時對已有文獻[8-9]和相關(guān)情緒詞典進行梳理和歸納,最終將社會情緒類別確定為八類,分別是:愉快、喜歡、同情、悲傷、焦慮、厭惡、憤怒、怨恨,并以此作為詞典擴展以及情緒分析的依據(jù)。確定情緒詞典的類別之后,依次建立每個類別下所對應(yīng)的基本情緒詞,并以此構(gòu)成基準情緒詞典?;厩榫w詞是通過心理學(xué)、語言學(xué)和社會學(xué)專家從大連理工大學(xué)林鴻飛教授等建立的情緒詞典以及微博語料中為每個類別挑選約40個詞語構(gòu)成。

        本文實驗的微博語料來自新浪微博平臺上社會熱點事件的微博文本及其轉(zhuǎn)發(fā)和評論的文本。通過模擬登錄的方式,對新浪微博平臺上的特定事件進行爬取。首先獲取新浪微博媒體中粉絲數(shù)大于100 000的權(quán)威媒體的微博賬號,然后針對某一特定社會公共事件,爬取這些微博賬號發(fā)表過的帶有該公共事件關(guān)鍵字的微博及其所有轉(zhuǎn)發(fā)與評論文本,最終由這些微博以及其轉(zhuǎn)發(fā)評論文本共同構(gòu)成該公共事件的語料集合。目前共獲取了200多個社會公共事件的微博語料,包括廈門縱火案、昆明火車站暴恐案、上海外灘踩踏事故等備受關(guān)注的事件。在獲取微博語料后,需要對語料進行預(yù)處理,包括去除重復(fù)微博文本、去除停用詞和分詞等,為后續(xù)的分析提供有效的語料。

        2.2 基于word2vec的詞語相似度計算

        word2vec是谷歌一款基于Deep Learning的開源學(xué)習(xí)工具,它通過有效的連續(xù)詞袋模型和skipgram語言模型實現(xiàn)了詞語的向量化,最大化地利用了詞的上下文信息以豐富詞語的語義信息,以文本向量空間的相似度來表示文本語義相似度。本文利用word2vec在大規(guī)模語料中計算詞語相似度,并將其應(yīng)用到情緒詞典的構(gòu)建過程中,然后通過迭代實現(xiàn)增量式的詞典擴展。

        word2vec提供了distance函數(shù),用以發(fā)現(xiàn)所查詢詞語的相似詞語列表。根據(jù)初始構(gòu)建的基準情緒詞典,依次輸入基準詞典各個類別下的詞語,利用word2vec得到的詞向量進行相似度計算,分析得出最為相關(guān)的詞語。實驗設(shè)置如下:

        1)迭代的次數(shù)為8,即將上一次迭代的輸出詞語作為下一次迭代的輸入詞語,從而使輸入詞語的規(guī)模更大;

        2)考慮到前后迭代詞語的重要性不同,給迭代前和迭代后的詞語賦予不同的權(quán)重。第一輪迭代后擴展出來的詞語按照與情緒類別相似度從高到低排列,取相似度最大的前10個詞語作為候選詞擴充到詞典,原基準詞語與新擴充的候選詞作為下一輪的基準詞語;往后的迭代則取相似度最大的前兩個詞語擴充到詞典。

        3)迭代過程中,首先要去除停用詞,但是由于停用詞表具有一定的局限性,所以另外制定一些規(guī)則,過濾無意義的詞語,包括:

        a)純數(shù)字的詞語;

        b)非表情符的純標點符號組成的字符串;

        c)在前面迭代過程中已經(jīng)篩選掉的詞語;

        d)根據(jù)詞性去除一部分詞語,保留名詞、動詞、形容詞、副詞等。

        由于微博語料是動態(tài)獲取和擴展的,因此構(gòu)建詞典時采用增量式的擴充方式。具體的做法是將上一輪語料擴展輸出的詞典用作下一輪擴展的候選情緒詞典,同時加入新的微博語料以擴展語料規(guī)模,進一步有效地擴大詞典規(guī)模。

        2.3 情緒詞的篩選

        在語料規(guī)模不大的情況下,通過word2vec擴展得到的詞語可能存在著準確度不高的問題,因此我們對擴展后的詞典進行基于HowNet詞典的自動篩選和獨立的人工篩選。

        借助HowNet詞典計算擴展出來的詞語與基準詞語的相似度,通過排序方式篩選相似度高的詞語。因為HowNet里面的詞語更新具有一定的滯后性,HowNet中并不一定包括擴充出來的詞語,因此不能通過HowNet來計算該詞語與種子詞語的相似度來篩選候選詞,所以我們采用的方法是:如果HowNet詞典沒有包含某詞語,則默認其為新詞保留;如果HowNet詞典中包含該詞但相似度小于指定閾值,則剔除該詞。經(jīng)過篩選后,進一步通過人工判斷其類別。經(jīng)過外部詞典輔助篩選和人工篩選,最終得到包含6 887個詞語的基于微博語料的社會情緒詞典。本詞典的各個情緒類別的情緒詞數(shù)量分布如表1所示。

        表1 擴展后的詞典

        3 基于情緒詞典的微博社會情緒分析

        3.1 單條微博的情緒分析

        微博文本體現(xiàn)出來的情緒傾向可認為是微博用戶對于某一社會事件發(fā)表的主觀看法,主要由兩個方面來體現(xiàn):情緒類別及其強弱程度。情緒類別即所構(gòu)建的情緒詞典定義的八個類別中的一個或多個;情緒類別的程度由情緒詞的權(quán)值來體現(xiàn)。為驗證本文所構(gòu)建社會情緒詞典的有效性,利用本詞典對微博平臺上的社會熱點事件進行情緒分析。由于文本的情感強度更取決于句法結(jié)構(gòu)、語境等整體因素,為了減少單個詞語對整個文本情感強度的影響,本文對情緒詞典的每個詞語賦予1的權(quán)值,如果出現(xiàn)多個同類別的詞語,則將對應(yīng)的向量維度值進行疊加或加權(quán)計算。考慮到情緒詞可能被特殊詞語(否定詞和程度副詞)修飾而改變情緒傾向,因此本文對這些特殊詞語做進一步處理:一方面,被否定詞修飾的情緒詞通常會改變情緒傾向,所以考慮搜索并判斷情緒詞前后三個詞內(nèi)是不是含有否定詞。如果是,則將該情緒詞的權(quán)值乘以-1。另一方面,程度副詞使情緒傾向在強弱程度上發(fā)生變化,類似于否定詞的處理,搜索并判斷情緒詞前面一個詞是不是程度副詞,將程度副詞的強度分為五個等級并賦予相應(yīng)的權(quán)值。

        單條微博情緒分析方法具體描述如下:

        1)文本預(yù)處理。首先過濾噪聲文本,如廣告、重復(fù)的文本等;然后使用中國科學(xué)院分詞系統(tǒng)導(dǎo)入本文構(gòu)建的情感詞典,對微博文本進行分詞,去掉停用詞。由于word2vec是根據(jù)詞共現(xiàn)的原理計算兩個詞語之間的相似度,而預(yù)處理的過程中去掉的停用詞大部分為沒有實際意義的介詞,代詞等,所以去掉停用詞不會對實驗結(jié)果產(chǎn)生太大的影響;

        2)情感特征詞提取。通過導(dǎo)入情感詞典對評論文本分詞后,選取出當前情感詞典里面的詞作為該條評論的情感特征詞,利用情感特征詞構(gòu)建文本情感特征向量。

        3)如果情感特征詞前有程度詞,則情感特征詞的權(quán)重應(yīng)該為程度詞與特征詞的權(quán)重之積(情感特征詞的權(quán)重設(shè)為1);

        4)如果情感特征詞前有否定詞,則統(tǒng)計否定詞的個數(shù)N,每個否定詞的權(quán)重設(shè)為-1,最終情感特征詞的權(quán)重應(yīng)該是N個-1與特征詞權(quán)重之積;

        5)通過計算該條評論文本屬于每一個情緒類別的對應(yīng)情感特征詞的權(quán)值之和,選取權(quán)值最大的那個情緒作為該條評論的最終情緒類別。

        按照以上處理步驟得出每條微博文本的特征向量后,選取出權(quán)值最大的特征項作為該微博文本的情緒傾向,并與事先人工標注的進行對比評價,分別計算出準確率和召回率。

        本文從廈門縱火案和呼格吉勒圖冤案兩個熱點社會公共事件的微博語料中隨機抽取了10 000條微博文本進行不同情緒類別的人工標注,最后確認了7 629條有效微博文本作為實驗的數(shù)據(jù)。實驗結(jié)果如表2所示。

        表2 基于情緒詞典的情緒分析結(jié)果

        為了對比基于情緒詞典和基于SVM分類的情緒分析,利用開源工具liblinear對微博語料進行情緒分類:

        1)對于標注了的7 629條微博文本,按2∶1的比例將數(shù)據(jù)集劃分為訓(xùn)練集和測試集。

        2)對文本數(shù)據(jù)進行文本預(yù)處理、特征表示和選擇,實現(xiàn)文本向量化。

        a)去除重復(fù)文本和無意義的符號,進行中文分詞。

        b)根據(jù)CHI公式計算詞語的特征權(quán)重。

        首先,計算每個詞t與類別c之間的相關(guān)程度(假設(shè)t和c之間符合具有一階自由度的CHI分布)。詞語t對于類別c的CHI值由式(1)計算。

        其中,N表示語料庫中微博文本的總數(shù)目;A表示包含詞語t且屬于類別c類的微博數(shù)目;B為包含詞語t但是不屬于類別c的微博數(shù)目;C表示屬于類別c但不包含詞語t的微博數(shù)目;D表示既不屬于類別c也不包含詞語t的微博數(shù)目。

        接著,根據(jù)式(2)計算特征詞語t對于整個語料的CHI值。

        其中,m為情感類別數(shù),X-max2(t)表示選取特征項與各情感類別的CHI值中的最大值。

        然后,對每個詞語t的CHI值進行從大到小排序,選取CHI值大的前K個詞語集合作為特征項。

        最后,通過公式(3)的詞語權(quán)重計算公式得到每個特征項的權(quán)值,用這些特征項權(quán)值組成的向量表示文本,將文本向量化。具體地,針對語料統(tǒng)計每個特征項在該文本數(shù)據(jù)中出現(xiàn)的個數(shù)m,記為詞頻TF;統(tǒng)計每個特征項在不同文檔中出現(xiàn)的次數(shù),記為文檔頻率DF,其逆文檔頻率log(DF)記為IDF。根據(jù)式(3)計算每個t的權(quán)重值。

        3)利用開源項目liblinear對訓(xùn)練數(shù)據(jù)進行建模,建立分類器,參數(shù)設(shè)置為默認值。

        4)構(gòu)建分類器后,在測試集上預(yù)測分類,并計算準確率和召回率以評價分類的結(jié)果(如表3所示)。

        表3 基于SVM分類的分析結(jié)果

        續(xù)表

        由表2所示結(jié)果可以看出,基于本文所構(gòu)建的情緒詞典的分類器的平均準確率為76.9%,平均召回率為61.4%;F值是0.694,而SVM分類器的平均準確率為63%,召回率為60%,F(xiàn)值是0.61。這初步驗證了本文所構(gòu)建的面向微博的社會情緒詞典的性能,說明該詞典能夠準確且高效地反映微博文本中不同的情緒傾向。

        3.2 基于情緒詞典的微博熱點事件情緒分析

        進一步,將本文所構(gòu)建的情緒詞典應(yīng)用到微博平臺上的社會公共事件的情緒分析,通過典型的社會事件例子從側(cè)面反映情緒詞典的有效性。對特定社會公共事件的語料進行整體的情緒分析,以判斷該事件反映出來的公眾社會情緒傾向。本文選取受到廣泛關(guān)注的“廈門縱火案”事件和“呼格吉勒圖冤案”事件。把同一個事件的微博語料當成整體,通過分詞、情緒詞典匹配和特征權(quán)重計算,得到微博語料對應(yīng)的不同情緒傾向的比重。分析結(jié)果如圖2和圖3所示。

        圖2 “廈門縱火案”事件分析結(jié)果

        如圖2和圖3所示,不同的情緒傾向按照權(quán)值占比從高到低排序,可以直觀地觀察到占比排在前三(總和超過78%)的情緒傾向。對于“廈門縱火案”事件:厭惡,憤怒,焦慮三者的權(quán)值占比高,表明社會情緒偏向于厭惡、憤怒和焦慮;而對于“呼格吉勒圖冤案”事件:憤怒、厭惡和悲傷權(quán)值占比高,表明社會情緒偏向于憤怒、厭惡和悲傷。針對這兩個事件,從社會民眾普遍的心理感知角度來看,符合上述提到的幾種情緒傾向,這在一定程度上也說明本文構(gòu)建的情緒詞典和分析方法的有效性。

        圖3 “呼格吉勒圖冤案”事件情緒分析結(jié)果

        4 總結(jié)與展望

        本文基于微博平臺上社會熱點事件的微博語料,建立了面向微博的社會情緒詞典,該社會情緒詞典包括八個類別共6 887個詞條。應(yīng)用該詞典對公共事件進行社會情緒分析,并通過基于情緒詞典的微博情緒分析和基于SVM的情緒分析結(jié)果的對比,驗證了本文構(gòu)建的情緒詞典及情緒分析方法的有效性。最后,通過對微博平臺上的社會熱點事件的整體情緒分析,從另一個側(cè)面表明所構(gòu)建的情緒詞典的有效性。

        本文的研究工作還存在一些不足,后續(xù)將從以下幾個方面進行深入研究:

        1)邀請更多心理學(xué)、語言學(xué)等領(lǐng)域?qū)<业葘υ~典進行校驗,提高詞典的質(zhì)量。

        2)獲取更多公共事件,擴大語料庫規(guī)模,同時借助維基百科等外部數(shù)據(jù)源,融合多種詞語相似度計算方法,進一步擴大詞典規(guī)模。

        3)在情緒詞典的應(yīng)用方面,增加微博評價對象識別,以更準確反映公共事件的社會情緒。

        致謝:在本文的研究過程中,鄭漫麗、陳麗云、陳東沂等同學(xué)作了大量探索性實驗,丘心穎、謝柏林、李霞等老師給出了一些建設(shè)性的建議。

        [1] Zhang Jianfeng,Xia Yunqing,Yao Jianmin.A review towards microtext processing[J].Journal of Chinese Information Processing,2012,26(4):21-27.

        [2] Carlo Strapparava,Alessandro Valitutti.WordNet-Affect:an Affective Extension of WordNet[J].ITC-irst,Istituto per la Ricerca Scientifica e Tecnologica I-38050Povo Trento Italy:1083-1086.

        [3] Salah Z,Coenen F,Grossi D.Generating domain-specific sentiment lexicons for opinion mining[M].Advanced Data Mining and Applications.Springer Berlin Heidelberg,2013:13-24.

        [4] Li S,Hao J,Jiang Y,et al.Exploiting Co-occurrence Opinion Words for Semi-supervised Sentiment Classification[C]//Advanced Data Mining and Applications.Springer Berlin Heidelberg,2013:36-47.

        [5] 柳位平,朱艷輝,栗春亮等.中文基準情感詞詞典構(gòu)建方法研究[J].計算機應(yīng)用,2009.10(29):2875-2877.

        [6] 常曉龍,張暉.融合語素特征的中文褒貶詞典構(gòu)建[J].計算機應(yīng)用,2012,32(7):2033-2037.

        [7] 徐琳宏,林鴻飛,潘宇,等.情感詞匯本體的構(gòu)造[J].情報學(xué)報,2008,27(2):180-185.

        [8] 桂守才.基礎(chǔ)心理學(xué)[M].北京:人民教育出版社,2007.

        [9] 林傳鼎.社會主義心理學(xué)中的情緒問題[J].社會心理學(xué)科,2006,21(83):37-62.

        猜你喜歡
        情緒文本情感
        如何在情感中自我成長,保持獨立
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        情感
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        如何在情感中自我成長,保持獨立
        小情緒
        小情緒
        小情緒
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        国产精品日韩亚洲一区二区| 欧美喷潮系列在线观看| 亚洲一区二区三区成人网站| 久久久久国产一区二区三区| 久久频这里精品99香蕉| 色偷偷亚洲第一综合网| 日韩国产有码精品一区二在线 | 丝袜美腿亚洲综合久久| 国产精品髙潮呻吟久久av| 一区二区在线视频免费蜜桃| 少妇被猛烈进入到喷白浆| 欧洲多毛裸体xxxxx| 日韩无套内射视频6| 久久久久久久久久免免费精品| 一区二区三区在线观看日本视频| 久久伊人久久伊人久久| 国产精品一区二区性色| 波多野42部无码喷潮在线| 亚洲老妈激情一区二区三区| 亚洲第一看片| 四虎成人精品国产永久免费| 在线观看国产一区二区av| 国产精品毛片无遮挡| 国产精品成人av在线观看| 亚洲色AV性色在线观看| 国产亚洲成年网址在线观看| 69精品国产乱码久久久| 国产无套乱子伦精彩是白视频 | 色窝窝在线无码中文| 人妻精品一区二区三区视频| 青青草视频原手机在线观看| 亚洲中文字幕第一页免费| 亚洲精品第一页在线观看| 国产97色在线 | 国产| 国产中老年妇女精品| 亚洲成AV人片无码不卡| 精品亚洲av一区二区| 亚洲不卡高清av网站| 奇米影视7777久久精品| 少妇高潮喷水正在播放| 国产亚洲精品成人av在线|