亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向突發(fā)事件傾向性分析的情感詞典自動(dòng)構(gòu)建方法

        2021-10-28 02:14:16王學(xué)賀
        關(guān)鍵詞:詞典突發(fā)事件情感

        王學(xué)賀, 趙 華

        (1.菏澤醫(yī)學(xué)專科學(xué)校 計(jì)算機(jī)教研室,山東 菏澤 274030; 2.山東科技大學(xué) 計(jì)算科學(xué)與工程學(xué)院,山東 青島 266590)

        近年來(lái),世界各地頻繁發(fā)生各種突發(fā)事件,互聯(lián)網(wǎng)慢慢成為繼報(bào)刊、廣播、雜志、電視等最大的傳播媒介,移動(dòng)終端也飛速地在世界各地普及.移動(dòng)終端的迅猛發(fā)展,逐漸改變了民眾的交流方式,使網(wǎng)絡(luò)用戶可隨時(shí)隨地接收網(wǎng)絡(luò)上的消息并進(jìn)行回應(yīng)和傳播.突發(fā)事件一旦發(fā)生,有關(guān)突發(fā)事件的信息便會(huì)在互聯(lián)網(wǎng)上的各類平臺(tái)急劇增加,從而對(duì)事件的發(fā)展產(chǎn)生影響,甚至引發(fā)新的突發(fā)事件.網(wǎng)絡(luò)映射著我們的現(xiàn)實(shí)社會(huì),它像一面放大鏡,現(xiàn)實(shí)社會(huì)的一些事件在網(wǎng)絡(luò)上被討論的越多就越會(huì)被放大,這就有可能反作用于我們的物質(zhì)社會(huì).突發(fā)事件所帶來(lái)的極端負(fù)面情緒會(huì)誤導(dǎo)公眾對(duì)事件的真實(shí)看法,從而產(chǎn)生負(fù)面影響.如果能夠及時(shí)發(fā)現(xiàn)并阻斷不良信息的網(wǎng)絡(luò)傳播,不僅能夠穩(wěn)定公眾的情緒,還能減少經(jīng)濟(jì)損失,因此對(duì)于突發(fā)事件的應(yīng)急處置工作具有重要意義.對(duì)突發(fā)事件相關(guān)的在線評(píng)論進(jìn)行情感傾向性分析,已經(jīng)引起了國(guó)內(nèi)外研究者的廣泛關(guān)注,并取得較好的研究成果[1].其中,基于情感詞典的意見(jiàn)挖掘方法是比較重要的一類研究方法,而情感詞典是該類方法成敗的關(guān)鍵因素.筆者以新浪微博為研究平臺(tái),首先以利用微博API接口爬取有關(guān)突發(fā)事件的微博評(píng)論作為數(shù)據(jù)集,經(jīng)過(guò)微博的噪聲過(guò)濾去除與突發(fā)事件無(wú)關(guān)的大量廣告微博.然后基于詞性標(biāo)注和snownlp進(jìn)行情感詞典的自動(dòng)構(gòu)建,并將其應(yīng)用于突發(fā)事件在線評(píng)論的情感傾向性分析中.實(shí)驗(yàn)結(jié)果表明,文中構(gòu)建的方法有效.

        1 國(guó)內(nèi)外研究現(xiàn)狀

        基于情感詞典的情感傾向性分析研究需要一個(gè)高質(zhì)量的情感詞典作為支撐.情感詞典的構(gòu)建主要包括:情感詞的提取、情感詞傾向性的分類、情感詞情感極性強(qiáng)度的計(jì)算、情感詞典的維護(hù)和保存.目前,構(gòu)建情感詞典的主要方法是從已有的詞典和標(biāo)注語(yǔ)料庫(kù)中提取情感詞[2],或者利用這些資源通過(guò)一定的規(guī)則派生出新的情感詞典.表1總結(jié)了常見(jiàn)的基本情感詞典.

        表1 常見(jiàn)的情感詞典

        目前,常規(guī)的情感詞典是通過(guò)人工篩選、標(biāo)注大量情感詞構(gòu)建的[2].雖然人工標(biāo)注花費(fèi)的代價(jià)很大,但構(gòu)建的情感詞典有較強(qiáng)的通用性.通用的情感詞典具有規(guī)模大、準(zhǔn)確率高的優(yōu)點(diǎn),但對(duì)不同領(lǐng)域的語(yǔ)料庫(kù)和情感詞的涵蓋還不夠.因此,面向特定領(lǐng)域的情感詞典的自動(dòng)構(gòu)建成為學(xué)術(shù)界關(guān)注的焦點(diǎn).

        國(guó)內(nèi)外學(xué)者在情感詞典的構(gòu)建方面進(jìn)行了積極探索.Hassan等首先挑選情感種子詞,然后基于WordNet中單詞之間的關(guān)系,計(jì)算待判斷的情感詞與情感種子詞之間的移動(dòng)步數(shù),從而得到待判斷單詞的情感傾向[3].Baccianella等使用半監(jiān)督機(jī)器學(xué)習(xí),先通過(guò)WordNet擴(kuò)展初始標(biāo)注的種子情感詞集和客觀詞集,然后使用已知情感作為訓(xùn)練集,構(gòu)造分類器判定未知情感詞的情感傾向[4].柳位平等通過(guò)計(jì)算種子情感詞和HowNet之間的語(yǔ)義相似性,建立中文基礎(chǔ)情感詞典[5].徐琳宏等通過(guò)對(duì)漢語(yǔ)情感詞進(jìn)行分類和標(biāo)注,構(gòu)建中文情感詞匯本體庫(kù),從詞類、情感類、情感強(qiáng)度、極性等不同角度對(duì)漢語(yǔ)詞匯或短語(yǔ)進(jìn)行描述[6].張成功等構(gòu)建包括基礎(chǔ)詞典、領(lǐng)域詞典、網(wǎng)絡(luò)詞詞典和修飾語(yǔ)詞典在內(nèi)的極性詞典[7].馬秉楠等提出利用表情符號(hào)提取文本情感詞典的方法[8].

        2 突發(fā)事件評(píng)論數(shù)據(jù)的獲取和預(yù)處理

        筆者以新浪微博為平臺(tái),將其平臺(tái)內(nèi)有關(guān)突發(fā)事件的微博評(píng)論作為研究數(shù)據(jù),主要選取事態(tài)緊急、影響力較大、涉及范圍較廣、討論人數(shù)較多的微博評(píng)論,通過(guò)官方指定的微博API進(jìn)行數(shù)據(jù)的爬?。闹蟹謩e爬取“2019年5月16日的涼山木里縣森林火災(zāi)”“2019年4月16日的巴黎圣母院火災(zāi)”及“2018年12月14日的武漢醫(yī)生坐診時(shí)被男子刺傷生命垂危,行兇者墜樓身亡”3個(gè)突發(fā)事件的微博數(shù)據(jù),獲得的微博數(shù)量分別為6 862,9 018,5 620條.

        微博數(shù)據(jù)作為一種UGC數(shù)據(jù),其中包含較多的噪聲數(shù)據(jù).為此,首先對(duì)微博數(shù)據(jù)中的噪聲和垃圾信息進(jìn)行過(guò)濾等預(yù)處理操作,主要是刪除“@用戶”信息和URL鏈接.“@用戶”有效反映了用戶之間的社交關(guān)系,但并不能描述突發(fā)事件的相關(guān)信息,為此文中將其刪除.微博中的URL鏈接大多數(shù)是為了能夠更清楚地表達(dá)用戶的觀點(diǎn),雖然鏈接的Web頁(yè)面可能會(huì)更詳細(xì)地描述微博的事件,但是對(duì)評(píng)論中情感詞的提取意義不大,這種情況下反而產(chǎn)生更多噪聲,為此將其刪除.這2種信息都具有較固定的格式,所以可采用正則表達(dá)式進(jìn)行有效過(guò)濾.用于刪除“@用戶”信息的正則表達(dá)式為“@.*?+{1}”,刪除URL鏈接的正則表達(dá)式為“http://(w+.)?w+.com”.

        為更好地了解爬取的數(shù)據(jù)內(nèi)容,筆者首先采用標(biāo)簽云對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行可視化展示(圖1~圖3).

        圖1 “涼山森林火災(zāi)”微博評(píng)論詞云

        圖2 “巴黎圣母院火災(zāi)”微博評(píng)論詞云

        圖3 “武漢醫(yī)生坐診時(shí)被男子刺傷”微博評(píng)論詞云

        圖1中出現(xiàn)較多的詞是平安、歸來(lái)、希望、保佑等,可以看出,大多數(shù)人對(duì)此事件表達(dá)了祈禱與祝福.圖2所示的詞云中出現(xiàn)較多的詞是傷心、惋惜、可惜、允悲,這表達(dá)了一部人對(duì)該事件的遺憾和惋惜情緒,但還有一部分人表達(dá)出“無(wú)所謂”或“幸災(zāi)樂(lè)禍”的情緒.圖3所示的詞云中出現(xiàn)較多的詞是醫(yī)生、患者、學(xué)醫(yī)、醫(yī)療等.

        3 情感詞典的構(gòu)建與應(yīng)用

        3.1 情感詞典的構(gòu)建

        情感詞的提取分2個(gè)步驟:

        1)識(shí)別突發(fā)事件評(píng)論中的情感詞;

        2)為每一個(gè)情感詞標(biāo)記情感傾向(正向和負(fù)向).

        分析大量的評(píng)論數(shù)據(jù),發(fā)現(xiàn)情感詞的詞性比較固定,一般為形容詞和副詞.為此,基于詞性標(biāo)注結(jié)果識(shí)別情感詞.Jieba分詞工具在分詞的同時(shí)提供了詞性標(biāo)注結(jié)果,其采用的標(biāo)注集和ICTCLAS的標(biāo)注集是一樣的,比如“a”是形容詞,“d”是副詞,“n”是名詞,“v”是動(dòng)詞等.Jieba分詞的詞性標(biāo)注只需要使用jieba.posseg功能words=pseg.cut()即可實(shí)現(xiàn).

        在基于上述方法抽取得到情感詞后,使用snownlp的情感分析功能比較每個(gè)詞的sentiments值,判斷每個(gè)情感詞的正負(fù)傾向,并分別將其放入正負(fù)情感詞詞典中.表2給出了部分sentiments值.

        表2 基于snownlp的詞語(yǔ)sentiments值

        3.2 情感詞典的應(yīng)用

        為驗(yàn)證上述構(gòu)建的情感詞典的有效性,采用基于情感詞典的方法實(shí)現(xiàn)微博評(píng)論的情感分析,方法如下:

        (1)

        式中:s(comment)表示評(píng)論comment的情感得分;si表示comment中包含的情感詞;w(si)表示si的情感傾向.如果si是正向的,則w(si)=1,否則w(si)=0.如果s(comment)>0,則評(píng)論是正向的,否則評(píng)論是負(fù)向的.

        為對(duì)比本文所構(gòu)建詞典的有效性,設(shè)計(jì)以下2個(gè)模型:

        1)BaseSenti:該模型是本文的baseline模型,采用基礎(chǔ)情感詞典(hownet情感詞典)作為情感分析時(shí)的詞典.

        2)ModiSenti:該模型是本文改進(jìn)后的情感分析模型,采用更新后的情感詞典作為情感分析時(shí)所采用的詞典.

        4 實(shí)驗(yàn)與分析

        為分析文中面向突發(fā)事件的情感詞典構(gòu)建方法的有效性,首先從所獲取的突發(fā)事件微博評(píng)論中隨機(jī)抽取2 000條微博評(píng)論,然后由3名學(xué)生對(duì)其中的情感詞及其傾向進(jìn)行標(biāo)注,并采用準(zhǔn)確率和召回率作為本文構(gòu)建方法的評(píng)測(cè)指標(biāo).經(jīng)過(guò)評(píng)測(cè),文中采用的基于詞性標(biāo)注進(jìn)行情感詞典構(gòu)建方法的準(zhǔn)確率為87.14%,召回率為84.35%.因此,文中的構(gòu)建方法是簡(jiǎn)單有效的詞典構(gòu)建方法.

        表3為文中方法識(shí)別出的情感詞(限于篇幅,只列出部分情感詞,其中下劃線標(biāo)記的情感詞是原有情感詞典沒(méi)有的).由表3可知,民眾在評(píng)論不同突發(fā)事件時(shí),往往采用不同的情感詞表達(dá)不同的情感.

        表3 面向突發(fā)事件的情感詞典自動(dòng)構(gòu)建示例

        為進(jìn)一步顯示文中詞典方法的有效性,隨機(jī)抽取500條微博評(píng)論,同樣讓3名學(xué)生對(duì)每條評(píng)論的情感傾向進(jìn)行標(biāo)記(正向或者負(fù)向).然后對(duì)基于情感詞典的2個(gè)情感分析模型(Basesenti,ModiSenti)進(jìn)行評(píng)測(cè),結(jié)果見(jiàn)表4.由表4可知,由于加入了從突發(fā)事件評(píng)論數(shù)據(jù)中識(shí)別的情感詞,ModiSenti系統(tǒng)的準(zhǔn)確率和召回率(計(jì)算方法見(jiàn)式(2)~式(3))均增加,進(jìn)一步證明文中詞典構(gòu)建方法的有效性.

        表4 基于情感詞典的情感分析 %

        a=n/n1,

        (2)

        r=n/n2,

        (3)

        式(2)~式(3)中:a為準(zhǔn)確率;n為事實(shí)屬于此類且被系統(tǒng)判定正確的微博條數(shù);n1為系統(tǒng)標(biāo)記的屬于此類的微博總數(shù);r為召回率;n2為事實(shí)屬于此類的微博總數(shù).

        為更好地展示情感分析結(jié)果,將不同突發(fā)事件的部分微博評(píng)論的情感值進(jìn)行可視化(圖4~圖6),圖中橫坐標(biāo)是情感值(s),縱坐標(biāo)是取得該情感值的微博數(shù)量(n1).

        圖4 “涼山森林火災(zāi)”情感值分布

        圖5 “巴黎圣母院火災(zāi)”情感值分布

        圖6 “武漢醫(yī)生坐診時(shí)被男子刺傷”情感值分布

        由圖4可知, BaseSenti模型中微博的情感值為0.2~0.4,ModiSenti模型中微博的情感值為0.25~0.5,說(shuō)明總體情感值變得積極,但是群眾對(duì)此事件的情緒大多還是偏向消極和中性.

        由圖5可知, BaseSenti模型中微博的情感值在1.0附近,這與實(shí)際情況并不相符,ModiSenti模型的情感值比較平均(0~0.4),說(shuō)明大多數(shù)群眾對(duì)此事的發(fā)生還是感到惋惜的.

        由圖6可知,BaseSenti模型中微博的情感值在0附近,ModiSenti模型中數(shù)值反映出群眾的情感傾向變分散,但大多數(shù)仍集中在0~0.5,且情感值偏低,說(shuō)明群眾在此事中表達(dá)的負(fù)面情感較多.

        5 結(jié)語(yǔ)

        對(duì)面向突發(fā)事件的情感詞典自動(dòng)構(gòu)建方法進(jìn)行研究探討.在分析大量突發(fā)事件評(píng)論后,基于詞性標(biāo)注的方法識(shí)別情感詞,并基于snownlp判定情感詞的情感傾向.為驗(yàn)證所構(gòu)建詞典的有效性,將構(gòu)建的詞典應(yīng)用于突發(fā)事件評(píng)論的情感分析中.結(jié)果表明,不同的突發(fā)事件評(píng)論中,采用的情感詞具有一定的差異,通過(guò)添加面向突發(fā)事件的情感詞典,可有效提高突發(fā)事件評(píng)論數(shù)據(jù)的情感分析性能.

        猜你喜歡
        詞典突發(fā)事件情感
        如何在情感中自我成長(zhǎng),保持獨(dú)立
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        米沃什詞典
        文苑(2019年24期)2020-01-06 12:06:50
        情感
        如何在情感中自我成長(zhǎng),保持獨(dú)立
        評(píng)《現(xiàn)代漢語(yǔ)詞典》(第6版)
        詞典例證翻譯標(biāo)準(zhǔn)探索
        突發(fā)事件的輿論引導(dǎo)
        清朝三起突發(fā)事件的處置
        文史春秋(2016年8期)2016-02-28 17:41:32
        突發(fā)事件
        日本淫片一区二区三区| 亚洲国产成人久久综合电影| 国产成人综合久久精品免费| 囯产精品无码一区二区三区| 加勒比亚洲视频在线播放| 国产精品大片一区二区三区四区| 欧美黑人又大又粗xxxxx| 丁香花在线影院观看在线播放| 国产91网| 国产女主播在线免费观看| 亚洲av一区二区三区蜜桃| 中文字幕中文有码在线| 曰本女人牲交全视频免费播放| 亚洲男人堂色偷偷一区| 中文字幕一区二区网址| 嗯啊好爽高潮了在线观看| 久激情内射婷内射蜜桃人妖| 日韩中文网| 国产乱老熟视频乱老熟女1| 久久狼精品一区二区三区| 蜜桃日本免费看mv免费版| 无遮挡亲胸捏胸免费视频| 中文字幕麻豆一区二区| 一区二区三区四区中文字幕av | 久久精品国产白丝爆白浆| 日本强伦姧人妻一区二区| 国产台湾无码av片在线观看| 国产精品无码精品久久久| 九九视频免费| 91大神蜜桃视频在线观看| 国产午夜精品视频在线观看| aaa日本高清在线播放免费观看| 人妻夜夜爽天天爽三区麻豆av网站 | 日韩少妇人妻中文视频| 国产综合色在线精品| 国产黄在线观看免费观看不卡 | 免费av一区二区三区| 香蕉人人超人人超碰超国产| 国产精品原创巨作AV女教师 | 日本美女性亚洲精品黄色| 丰满精品人妻一区二区 |