亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于情感傾向點互信息算法的情感分析方法研究

        2021-05-20 00:41:24王恩慧
        科學技術創(chuàng)新 2021年12期
        關鍵詞:負向互信息類別

        王恩慧

        (北京交通大學,北京100044)

        1 概述

        隨著網絡的快速發(fā)展和一些受到民眾歡迎的社交媒體平臺的出現,例如微博、推特等,促進了人與人之間更加便捷的溝通。用戶在社交網絡上與他人分享自己的感受和觀點,形成了海量的社交網絡數據信息[1]。情感分析技術在電子商務、金融、輿情分析[2]等多個不同領域都有應用。例如,應用于輿情分析,相關部門可以及時地了解公眾對輿情熱點的態(tài)度和情感,有效地對大眾未來的情感傾向趨勢做出預測和判斷。目前機器學習的分類方法穩(wěn)定性較差,對于同一條文本評論,有可能前一次的分類結果與后一次的不同,而基于情感詞典的方法只要將評論中的情感詞存在于情感詞典中,根據目標詞與種子詞之間的相似度,評論的情感傾向性就能準確的判斷[3]。據此,本文以推特數據為基礎開展了關于推特評論的情感分析研究。

        2 相關方法介紹

        2.1 TF-IDF 算法

        TF-IDF 是一種常用的加權技術,基于統(tǒng)計的方法評估每個詞在文檔中的重要程度,詞的重要程度隨著它在文檔中出現的次數成正比增加,但同時會隨著它出現的頻率下降。由于詞在不同文本中出現的頻率有差異,表現出的重要程度也有所不同。TF 表示詞頻,即一個詞在文檔中出現的頻率,計算方法如公式(1)。所示詞頻為特征詞在該文本中出現的頻率,頻率越高則認為特征在文本中越重要,僅以詞頻衡量詞權重的計算方式較為簡單,然而單一考慮特征在文本中出現的次數,導致一些無意義卻又反復出現的詞語詞頻反而很高,影響分類效果。IDF 指反文檔頻率,用來表示詞的類別區(qū)分能力,指的是該詞在文檔中出現的次數越少,則IDF 越大,計算方法如公式(2)所示。TF-IDF充分考慮了TF 的缺點,將TF 和IDF 結合起來,選出文檔中重要度高的詞語,計算方法如公式(3)所示。

        2.2 情感傾向點互信息算法

        點互信息算法(PMI)的基本思想是對兩個詞語在文檔中同時出現的概率進行計算,概率越大,表示其相關性就越緊密,關聯度越高。計算方法如公式(4)所示。PMI 值大于0 則兩個詞語是相關的,值越大,相關性越強;PMI 等于0 表示兩個詞語是統(tǒng)計獨立的,不相關也不互斥;PMI 小于0 表示兩個詞語是不相關的、互斥的。

        情感傾向點互信息算法(SO-PMI)首先選擇兩組種子詞,一組褒義的(Pwords)和一組貶義的(Nwords)作為算法的基準詞。將詞語word1 跟Pwords 的點間互信息與word1 跟Nwords 的點間互信息相減做差,根據得到的差值對詞語word1 的情感傾向做出判斷,計算方法如公式(5)所示。差值大于0 時word1 為正面傾向,差值等于0 時word1 為中性傾向,差值小于0 時word1為負面傾向。

        2.3 評價指標

        在機器學習領域的算法評估中,常用到混淆矩陣這一概念。在二元分類的情況下,及正負兩種分類的時候,混淆矩陣包括真正(TP)、真負(TN)、假正(FP)、假負(FN)。對于樣本而言,真正指的是預測的類別與真實的類別都為正向,真負指的是預測的類別與真實的類別都為負向,假正指的是預測的類別為正向而真實的類別為負向,假負指的是預測的類別為負向而真實的類別為正向。精確率(Precision)表示被分為正例的樣本數據中實際為正向所占的比例,即P=TP/(TP+FP)。召回率(Recall)是覆蓋面的度量,用作度量樣本數據中有多少的分類結果為正向,即R=TP/(TP+FP)。精確率和召回率兩個指標有時候會出現矛盾的情況,因此需要綜合考慮這兩個指標,F-Score 是兩個指標的加權調和平均,計算方法如公式(6)所示。當參數a=1 時,就是機器學習算法評估中最常見的F1 值,計算方法如公式(7)所示,F1 值越大說明模型的分類效果越好。

        3 實驗結果及分析

        本文基于情感傾向點互信息算法對與新冠疫情相關的評論文本進行情感傾向分析和情感強度計算。首先,以TF-IDF 算法提取種子詞,以弱監(jiān)督的方式對單個用戶的情感變化和群體的情感分布進行分析。其次,以多人投票確定最終數據標簽的方式對測試數據進行標注,以準確率、召回率、F 值作為評價指標,對模型的效率和有效性進行驗證。

        本文選擇政府、民眾、社會都比較關心的“新冠疫情”作為研究話題,以2020 年5 月1 日到2020 年7 月8 日推特平臺上的網民評論共51853 條作為實驗數據,存儲在MongoDB 數據庫中。數據庫中的每條記錄都有許多字段,不僅有該條推文的內容、發(fā)布時間、是否為轉發(fā)、獲贊數、轉發(fā)數等,還有專門的用戶字段,包括唯一識別用戶的ID、所在地區(qū)、是否實名認證、粉絲數、總推文數等。由于網絡評論中含有很多噪聲比如網址、特殊符號表情符等,因此需要先使用正則表達式對原始評論數據內容進行清洗,去除停用詞、特殊符號及表情等,并進行大小寫轉換,只提取相關的主題評論內容。

        在完成數據預處理后,需要選取種子詞。情感傾向點互信息算法是基于詞與詞之間共現關系的弱監(jiān)督算法,需要事先選取兩組種子詞:一組貶義詞,即負向詞,另一組褒義詞,即正向詞。本文利用TF-IDF 算法分別選取若干個重要度較高的詞語,并人工篩選其中情感傾向較為明顯的作為種子詞,分別選擇了50個褒義詞和50 個貶義詞作為兩種情感傾向的種子詞,即基準詞。選定種子詞后,利用情感傾向點互信息算法根據種子詞與目標詞之間的共現關系,判斷目標詞的情感傾向,并將目標詞的情感傾向添加到情感詞典中,對情感詞典進行擴充。一條推文的情感可以先進行分詞,根據情感詞典逐個計算句中詞語的情感值,加權求和得到整條推文的情感強度和情感傾向。當情感值屬于[0,0.5)區(qū)間時情感傾向為負向,越接近0,負向的程度越強烈,當情感值屬于(0.5,1]區(qū)間時情感傾向為正向,越接近1,正向的程度越強烈,當情感值在0.5 附近時表示情感傾向接近于中立。

        本文對每個社交網絡用戶的情感變化進行研究。根據推文ID 在MongoDB 數據庫中進行檢索,可以映射到發(fā)布該條推文的社交網絡用戶,收集用戶與疫情話題相關的推文內容,以用戶推文集合的情感分析結果作為用戶在疫情話題中的情感。

        首先,按照時間對推文進行切分,每周作為一個時間段,觀察用戶從2020 年5 月1 日到2020 年7 月8 日的情感值動態(tài)變化。大部分用戶都是間歇性的參與話題討論,持續(xù)活躍的用戶相對較少。本文選取活躍時間大于6 周的64 個用戶,觀察其情感值的變化。通過反復實驗發(fā)現,用戶的情感強度不斷波動,但是用戶整體的情感傾向基本沒有變化,即一個用戶一開始的情感是負向的,雖然時強時弱,但是并不會變成正向。同時,通過觀察實驗結果發(fā)現,用戶的情感強度會逐漸變弱,即情感值逐漸趨于0.5,無論是正向或負向都是情感演化過程的中間狀態(tài),最終用戶的情感會逐漸趨于中立。

        其次,本文還研究了從2020 年5 月1 日到2020 年7 月8日共10 周時間內群體的情感傾向分布情況。由于情感值接近0.5 時,表示用戶的情感趨于中立,因此在實驗中特別定義情感值在[0.45,0.55]區(qū)間內的用戶為中立。本文分別統(tǒng)計了不同時間段內的用戶群體情感傾向的比例,并計算了每種情感傾向在10周時間內的平均占比。雖然每周情感傾向的占比情況不盡相同,但是整體來看,都是負向情感占主導。這是由于新冠疫情的突然爆發(fā)打亂了原本的生活方式和工作節(jié)奏,很多人們不僅面臨失業(yè)待業(yè)的風險,還可能面臨死亡威脅。疫情對經濟、社會也都產生了許多的負面影響,導致大部分人都存有憂慮、恐懼等負面情緒[4]。

        最后,本文對模型的有效性進行驗證。由于標簽質量會直接影響測試的準確性,為了提高標簽的質量,本文隨機選取2000條用戶推文進行數據標注,以多人投票的方式決定推文的標簽,避免了主觀性帶來的影響。然后以標注的數據作為測試集,以精準率,召回率,F 值作為評價指標,對方法的有效性進行測試,結果如表1 所示。實驗結果證明了基于情感傾向點互信息的情感分析方法的有效性,能夠有效地為輿情分析提供幫助。

        表1 測試結果

        4 結論

        本文以推特作為研究數據源,基于情感傾向點互信息算法對從2020 年5 月1 日到2020 年7 月8 日與新冠疫情相關的評論文本進行情感傾向和情感強度分析。以TF-IDF 算法并結合人工篩選提取種子詞,以弱監(jiān)督的方式對社交網絡用戶的情感值變化和群體的情感傾向分布變化進行分析。其次,以多人投票確定最終數據標簽的方式對測試數據進行標注,以準確率、召回率、F 值作為評價指標,對模型的效率和有效性進行驗證。實驗結果表明,該模型能夠為應對輿情治理和應對輿情危機提供輔助和理論依據。

        猜你喜歡
        負向互信息類別
        miRNA-145負向調控子宮內膜異位癥中OCT4的表達
        miR-21負向調控宮頸癌HeLa細胞株中hTERT的表達
        2019年A股負向輿情百案榜
        經理人(2019年12期)2019-09-10 07:22:44
        基于互信息的貝葉斯網絡結構學習
        基于不同星級酒店的負向評論類別及管理反饋策略比較分析與匹配
        管理現代化(2016年3期)2016-02-06 02:04:51
        聯合互信息水下目標特征選擇算法
        服務類別
        新校長(2016年8期)2016-01-10 06:43:59
        改進的互信息最小化非線性盲源分離算法
        電測與儀表(2015年9期)2015-04-09 11:59:22
        基于增量式互信息的圖像快速匹配方法
        論類別股東會
        商事法論集(2014年1期)2014-06-27 01:20:42
        国产一区二区长腿丝袜高跟鞋| 丰满少妇爆乳无码专区| 国产目拍亚洲精品区一区| 亚洲不卡av一区二区三区四区| 国产98色在线 | 国产| 国产香蕉97碰碰视频va碰碰看 | 精品一区2区3区4区| 永久免费毛片在线播放| 中文无码一区二区不卡αv| 人妻丰满av无码中文字幕| 日本一区不卡在线观看| www夜片内射视频在观看视频| 品色永久免费| 亚洲福利天堂网福利在线观看| 久久开心婷婷综合中文 | 久久青青草原亚洲av| 风韵丰满熟妇啪啪区老老熟妇| 在线精品一区二区三区| 国产偷2018在线观看午夜| 人妻丰满精品一区二区| 一本大道av伊人久久综合 | 国产亚洲精品成人aa片新蒲金| 亚洲av中文无码字幕色三| 无遮高潮国产免费观看韩国| 日本在线观看一二三区| 国产青榴视频在线观看| 亚洲男人精品| 国产毛片精品一区二区色| 噜噜综合亚洲av中文无码| 亚洲 高清 成人 动漫| 中文字幕一区二区网站| 国产主播一区二区三区蜜桃| 国产精品综合一区二区三区| 97SE亚洲国产综合自在线不卡| 精品人妻av中文字幕乱| 亚洲日韩欧美一区、二区| 亚洲午夜精品久久久久久人妖 | 国产在线美女| 在线亚洲精品中文字幕美乳色| 午夜精品久久久久久久无码| 久久国产成人精品国产成人亚洲|