亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于語義與情感詞典的微博評論情感分析方法

        2021-12-10 02:48:44白剛
        現(xiàn)代計算機 2021年30期
        關鍵詞:文本情感分析

        白剛

        (桂林旅游學院,桂林 541006)

        0 引言

        每逢節(jié)假日旅游點均出現(xiàn)游客暴增現(xiàn)象。游客量的增加會改變旅游體驗,游客的評論數(shù)據(jù)是游客體驗直觀的反映,其中的情感傾向代表了對旅游點的積極或消極態(tài)度,也是旅游點規(guī)劃的重要參考依據(jù)[1]。

        但是,評論信息作為非結構化文本數(shù)據(jù)難以直接分析其情感傾向,需要采用算法將文本轉換成可定量的情感傾向數(shù)據(jù)。傳統(tǒng)的方法主要包括基于情感詞典的方法[2-4]和基于機器學習的方法[5-7],但基于情感詞典的方法主要依賴于情感詞典的構建[8],對上下文語義及語氣等考慮不足。機器學習的方法需要大量人工的特征標注,對較小訓練集效果欠佳,且不同的分類器對結果精度影響較大。

        本文拓展了情感詞典的基礎方法,借鑒了機器學習方法中的標注語料方法,采用哈工大語言技術平臺(language technology platform,LTP)進行分句、分詞和詞性標注,結合知網(wǎng)情感詞典(HowNet)進行情感詞統(tǒng)計,情感副詞、語氣標點加權進而獲得文本情感得分。

        1 研究背景及方法

        1.1 研究背景

        2021年“五一”期間出現(xiàn)了國內(nèi)旅游高峰,成都和重慶或為熱門旅游目的地,游客量分別達到了390萬和280萬人次。微博作為國內(nèi)用戶基數(shù)最大、信息交換速度最快的社交平臺之一,“五一”期間產(chǎn)生了大量的用戶評論信息,評論中隱含用戶對旅游目的地的情感傾向,挖掘潛在的情感傾向對旅游目的地的規(guī)劃和運營有重要的意義。但由于評論數(shù)據(jù)的非結構化屬性,難以直接進行量化分析,迫切需要高效準確的將文本數(shù)據(jù)轉換成情感分值的方法。

        1.2 研究方法

        N-LTP中采用的中文分詞(CWS)被視為基于字符的序列標記問題,采用線性解碼器對每個字符進行分類[9]:

        其中,y i表示每個字符的標簽概率分布;WCWS和bCWS是可訓練的參數(shù)。

        N-LTP中的詞性(POS)標記使用一個簡單地MLP來對每個詞語進行詞性分類,分類后可對名詞等非情感詞進行刪除以減少計算工作量。

        式中,y i表示每個詞的詞性概率分布;WPOS和bPOS是可訓練的參數(shù)。

        輸入文本情感得分如公式(3)。

        式中,CPOS和Cneg分別為情感正向詞和情感負向詞的出現(xiàn)頻次,wadv為情感副詞權重,Cadv為前置情感副詞出現(xiàn)頻次,wpun為情感詞后強調(diào)性標點權重得分。

        2 數(shù)據(jù)來源及處理

        2.1 數(shù)據(jù)來源及采集方法

        選擇新浪微博作為數(shù)據(jù)采集平臺,采用爬蟲進行數(shù)據(jù)采集。采用新浪微博的高級搜索,關鍵詞限定為話題標簽#成都#和#重慶#,時間區(qū)間限定為2021年5月1日00:00~2021年5月5日23:59,分別抓取成都和重慶的用戶ID、評論、來源地、性別等相關信息。

        最終獲取數(shù)據(jù)集數(shù)量為成都評論數(shù)據(jù)共計4789條,重慶評論數(shù)據(jù)8563條。

        2.2 數(shù)據(jù)處理及結果

        觀察數(shù)據(jù)發(fā)現(xiàn),數(shù)據(jù)存在部分缺失、錯誤、無效、重復等問題。導入Mariadb數(shù)據(jù)庫后,采用存儲過程對數(shù)據(jù)進行基本清洗,去除重復和無效記錄,并根據(jù)人工檢查去除廣告性質的評論文本記錄,最終得到成都有效評論數(shù)據(jù)3941條,重慶有效評論數(shù)據(jù)7123條。

        3 文本情感分析

        3.1 情感分析原理

        評論文本情感分析流程如圖1所示,情感傾向可認為是主體對某一客體主觀存在的內(nèi)心喜惡和內(nèi)在評價的一種傾向。主要由兩個方面來衡量:一個情感傾向方向,由情感詞數(shù)量測量;一個是情感傾向度,由情感詞分級+情感程度副詞與語氣標點加權測量。

        圖1 情感分析原理

        文本情感分析的分析粒度可以是詞語、句子、段落或篇章。

        段落級情感分析主要是面向特定事件或主題進行情感傾向分析,通常要事先構建對應主題的情感詞典,如音樂評論的分析,就需要音樂特定的情感詞典來進行分析,最終效果會由于通用情感詞典;也可以通過人工標注大量音樂評論來構建分類器。句子級的情感分析一般通過統(tǒng)計分詞后的情感詞的分值進行計算。

        篇章級的情感分析,通常通過聚合篇章中所有的句子的情感傾向來計算得出。因此,句子粒度的情感分析,既是解決如評論等短文本情感分析的基礎,同時也是篇章級文本情感分析的基礎。

        3.2 分句與分詞

        對于中文評論,分句方式較為簡單,采用標點分句。分詞采用哈工大N-LTP的cws.model模型,其基本原理為建模為基于字的序列標注問題,對于輸入句子的字序列,模型給句子中的每個字標注一個標識詞邊界的標記(式1),然后基于統(tǒng)計模型同時融合詞典的方法最大正向匹配得到分詞結果。為增加分詞準確率,添加了知網(wǎng)情感詞典等外部詞典,分詞樣例如表1所示。

        表1 分詞結果樣例

        詞性標注中n為名次,v為動詞,wp為標點,d為副詞,a為形容詞,c為連詞。

        3.3 情感分析

        將分詞以后的詞袋按照詞性比對停用詞列表(StopWords),去除不帶有情感意義的停用詞,提高情感分析性能。然后根據(jù)情感詞級別進行情感詞頻統(tǒng)計、情感詞位置與程度副詞、否定詞加權計算以及句尾符號加權計算得出句子的最終情感得分。算法邏輯的關鍵部分如下:

        算法1:微博評論情感分析算法

        輸入:微博評論自然語言段落weibo_content

        輸出:評論情感分析得分S s

        1S s=[]

        2 sentences=Cut_Sentence(weibo_content)

        3 for sent in sentences:

        4 words=tokenize(sent)#式1

        5 seg_words=del_stopwords(words)

        6CPOS=0

        7 Cneg=0

        8 for word in seg_words:

        9 if word in posdict:

        10CPOS+=1

        11wadv,Cadv=Match_adv(CPOS)

        12 elif word in negditc:

        13…#消極情感計算

        14 elif word word==′!′or word==′!′or word==′?′or word==′?′:

        15wpun=Set_WP(CPOS)

        16S ss=(CPOS+wadvCadv+wpun)-(Cneg+wadvCadv+wpun)#S ss為分句情感得分

        17S s=∑S ss

        18 returnS s

        采用算法1對數(shù)據(jù)庫中微博評論文本(表1)進行情感分析打分,樣例結果如表2所示。

        表2 情感分析樣例

        表2中,副詞“尤其”為情感傾向為正向的形容詞“開心”的前置位置為1的語義加強副詞,在詞典中權重為6。本例評論結束標點為句號,沒有標點符號加權。本例情感分析最終得分計算公式為:Ss=(5+6×1+0)-(2+0+0),最終情感得分9,情感傾向方向為正向,情感傾向度較強。

        4 效果測評

        4.1 算法效率

        軟件環(huán)境數(shù)據(jù)庫采用Mariadb 10.4版本,開發(fā)語言采用Python 3.6版本,硬件環(huán)境為Intel(R)Xeon(R)CPU E5-2620 v4;32 G RAM。對4000條評論信息進行情感分析打分,運行時長為483秒,平均每條評論數(shù)據(jù)情感打分時間為0.12秒。

        4.2 人工標注與機器標注對比

        選取數(shù)據(jù)庫中機器標注評分為正向(評分為正數(shù))、中性(評分為0)和負向(評分為負數(shù))的記錄各10條進行人工情感標注和打分,打分采用5人小組的感性打分方式,不規(guī)定單個詞語的得分細則,最后取平均值作為最終該條目的情感得分。最終人工標注得分與算法標注得分對比如圖2所示。

        圖2 人工標注與機器標注對比

        如圖2所示,在情感傾向方向上,人工標注與機器標注傾向性在30條樣例中,一條出現(xiàn)情感傾向差異,正確率96.7%;情感傾向度方面,人工標注與機器標注在低分區(qū)間(絕對值<8)基本沒有差異,在高分區(qū)間,人工標注普遍評分略大于機器標注,最小差異11%,最大差異36%。

        可以發(fā)現(xiàn),在情感傾向方向維度上,人工標注和機器標注結果基本一致,但機器標注效率遠高于人工標注。在情感傾向度維度上,人工標注在無給定單個詞語得分的情況下,人工標注與機器學習標注有較大差異,同時人工小組內(nèi)打分差異較大,存在較大波動。

        5 結語

        本研究采用哈工大語言技術平臺進行分句、分詞和詞性標注,同時結合知網(wǎng)情感詞典進行情感詞統(tǒng)計,情感副詞、語氣標點加權獲得文本情感得分,構建了新的算法。該算法對傳統(tǒng)的情感詞典打分方法進行了延伸和拓展,加入了上下文語義要素,考慮了情感詞前置副詞的語義加強效果,增加了句子結尾標點語氣效果的權重。

        綜合來看,算法效率高(0.12秒/條),準確率較高(96.7%),在對社交網(wǎng)絡采集的文本大數(shù)據(jù)進行分句、分詞和情感分析的工作中,采用本算法可極大提高研究工作的效率。后續(xù)研究將對算法使用的情感詞典和副詞詞典進行人工修訂以增加準確率。

        猜你喜歡
        文本情感分析
        隱蔽失效適航要求符合性驗證分析
        如何在情感中自我成長,保持獨立
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        情感
        在808DA上文本顯示的改善
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        如何在情感中自我成長,保持獨立
        電力系統(tǒng)及其自動化發(fā)展趨勢分析
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
        亚洲国产高清在线视频| 欧美日韩色另类综合| 天天爽夜夜爱| 特级婬片国产高清视频| 日韩精品一区二区三区在线观看| 国产成人aa在线观看视频| 国产一区二区三区尤物| 日韩av一区二区网址| 玩弄白嫩少妇xxxxx性| 久久和欧洲码一码二码三码| 亚洲欧美中文在线观看4| 无码av永久免费大全| 日本特殊按摩在线观看| 水蜜桃精品视频在线观看| 97精品人人妻人人| 一二三四在线观看免费视频| 制服丝袜视频国产一区| 亚洲天堂免费av在线观看| 国产亚洲3p一区二区| 18岁日韩内射颜射午夜久久成人| 日日噜噜夜夜爽爽| 超碰日韩AV在线| 亚洲视频综合在线第一页| 少妇高潮精品在线观看| 亚洲熟妇无码av在线播放| 男女裸交无遮挡啪啪激情试看 | 人与人性恔配视频免费| 护士人妻hd中文字幕| 亚洲精品成人网久久久久久| 91久久精品一二三区蜜桃| 亚洲精品视频中文字幕| 亚洲av最新在线网址| 久久这里只精品国产2| 手机在线免费看av网站| 手机在线观看日韩不卡av| 在线观看免费人成视频色9| 无码国产精品一区二区AV| 成人亚洲av网站在线看| 99久久国产精品网站| 中文无码日韩欧| 国产偷国产偷亚洲欧美高清|