亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        突發(fā)重大公共衛(wèi)生事件情境下的微博文本情感分析

        2022-09-16 08:25:46董婧范全潤(rùn)張順吉
        關(guān)鍵詞:博文文檔輿情

        董婧,范全潤(rùn),張順吉

        (1.曲靖師范學(xué)院信息工程學(xué)院,云南 曲靖 655011;2.曲靖師范學(xué)院信息與教育技術(shù)中心,云南 曲靖 655011)

        隨著世界信息總量每月以超過100 PB的數(shù)量增長(zhǎng)[1],文本情感分析已成為自然語言處理領(lǐng)域的研究熱點(diǎn)之一[2-4]。網(wǎng)絡(luò)文本內(nèi)容通常體現(xiàn)了作者的立場(chǎng)、觀點(diǎn)、看法、情緒、好惡等主觀信息,文本情感分析即通過計(jì)算技術(shù)對(duì)文本的主客觀性、觀點(diǎn)、情緒、極性的挖掘和分析,對(duì)文本的情感傾向做出分類判斷[5]。研究者一般將主觀本文的極性分為褒義和貶義,分類思路一般分為基于情感知識(shí)的方法和基于特征分類的方法[6]?;ヂ?lián)網(wǎng)用戶在微博平臺(tái)發(fā)表的言論往往帶有強(qiáng)烈的主觀傾向性[7]。新浪微博作為國(guó)內(nèi)領(lǐng)先的社交媒體平臺(tái),如果能從微博文本中挖掘潛在的輿情情感信息,提供輿情預(yù)警,政府和相關(guān)部門便能夠做出快速有效的處理應(yīng)對(duì)[8],促進(jìn)輿情平復(fù),降低突發(fā)公共衛(wèi)生事件的負(fù)面效應(yīng)。

        國(guó)內(nèi)外學(xué)者對(duì)社交媒體時(shí)代的文本情感分析研究較為成熟。王樹義等[9]提出一種基于情感分類的主題挖掘方法,有助于企業(yè)聚焦自身與競(jìng)爭(zhēng)對(duì)手的主要優(yōu)勢(shì)與問題;李涵昱等[10]提出了一種基于商品屬性提取與過濾算法、情感詞判別算法,實(shí)現(xiàn)商品評(píng)論的情感傾向性分析;黃發(fā)良等[11]提出一個(gè)基于多特征融合的微博主題情感挖掘模型,實(shí)現(xiàn)了微博主題與情感的同步推導(dǎo);朱鶴等[12]針對(duì)金融文本的情感分析任務(wù),提出基于金融領(lǐng)域的全詞覆蓋與特征增強(qiáng)的BERT模型;譚旭等[13]通過構(gòu)建情感值測(cè)度算法并利用LDA-ARMA模型,實(shí)現(xiàn)多維情感分析與演化預(yù)測(cè)。以上研究都利用各領(lǐng)域的民眾評(píng)論數(shù)據(jù)挖掘出了有價(jià)值的輿情情感信息,但針對(duì)邊境地區(qū)突發(fā)公共衛(wèi)生事件輿情的情感分析研究還較少,尤其對(duì)具有長(zhǎng)時(shí)間序列和話題延續(xù)性的疫情特征,須考慮民眾情感在不同階段的變化。

        1 研究設(shè)計(jì)

        本文通過抓取較長(zhǎng)特定時(shí)間窗口內(nèi)云南省特定大V微博內(nèi)容,從可視化分析和機(jī)器學(xué)習(xí)兩個(gè)方面分析重大突發(fā)公共衛(wèi)生事件情境下社交媒體用戶的話題關(guān)注焦點(diǎn),通過微博情感分析發(fā)現(xiàn)民眾情感在不同階段的變化趨勢(shì),挖掘輿情潛在的情感取向,也從側(cè)面反映出疫情的發(fā)展和對(duì)人們生產(chǎn)生活造成的影響。對(duì)輿情的監(jiān)測(cè)分析并做出及時(shí)有效的輿論引導(dǎo)具有一定的理論參考意義。

        1.1 研究方法

        通過文獻(xiàn)研究了解文本情感分析的方法和技術(shù)路線,然后對(duì)爬取到的微博數(shù)據(jù)預(yù)處理后進(jìn)行情感挖掘和主題建模,包括可視化分析、情感分析、時(shí)間序列分析、統(tǒng)計(jì)分析和LDA主題分析?;赟nowNLP中文情感詞匯本體庫(kù),構(gòu)建優(yōu)化情感分類詞典,進(jìn)行情感特征識(shí)別;結(jié)合研究時(shí)間窗口內(nèi)每日微博情感指數(shù)進(jìn)行長(zhǎng)時(shí)間序列分析;采用LDA模型進(jìn)行主題分類,依據(jù)困惑度最小確定主題個(gè)數(shù),利用卡方檢驗(yàn)結(jié)果賦予主題權(quán)重,結(jié)合每日疫情實(shí)時(shí)通報(bào),分析了民眾的情感變化趨勢(shì)。具體研究思路如圖1所示。

        圖1 全球戰(zhàn)疫情微博熱點(diǎn)話題研究框架Fig.1 Global coronavirus pneumonia epidemic microblogging hot topic research framework

        1.2 微博文本情感分析關(guān)鍵技術(shù)

        1.2.1 特征項(xiàng)選擇及文本向量化TF-IDF算法通過計(jì)算文檔中詞語的詞頻和衡量特定詞語在該文檔中的重要程度來選擇特征詞并得到特征項(xiàng)的權(quán)重,從而建立文本向量空間模型,因其特征項(xiàng)具有較好的類別區(qū)分能力廣泛應(yīng)用于自然語言處理領(lǐng)域[14-15]。本文首先計(jì)算出微博短文本中詞語的TF-IDF值,建立特征詞矩陣,得到最終的特征項(xiàng)矩陣,特征項(xiàng)ωij的TF-IDF值Fωij計(jì)算如公式(1)-(3)。

        其中:ωij表示第i日微博文本數(shù)據(jù)中出現(xiàn)的第j個(gè)詞語;C(ωij)表示詞語ωij出現(xiàn)的次數(shù);D為每日微博文本數(shù)據(jù)中的文檔總數(shù);|Di|為文檔Di中詞語的數(shù)量;I(ωij,Di)函數(shù)取1或者0,1表示文檔Di中包含詞語ωij,反之取值為0。

        1.2.2 LDA主題模型LDA主題模型由Blei等[16]基于貝葉斯模型實(shí)現(xiàn)。模型中包含文檔、主題和主題詞三個(gè)層次,輸出為任一篇文檔的主題分布和主題中詞的分布?,F(xiàn)有M篇文檔,主題數(shù)目為K個(gè),對(duì)應(yīng)第t個(gè)文檔中有Nt個(gè)詞語,首先假設(shè)文檔-主題和主題-詞的先驗(yàn)分布是Dirichlet分布,α和γ為分布的超參數(shù),第t個(gè)文檔的主題分布為θt,得到其主題編號(hào)的多項(xiàng)式分布Z;對(duì)于任一主題k,其詞分布為β,得到該詞的概率分布ω,從而組成Dirichlet-multi共軛,得到任一篇文檔中詞的主題編號(hào)和任一篇文檔中詞所屬的主題編號(hào)下該詞的概率分布,然后通過Gibbs采樣算法或者變分推斷算法不斷迭代,使得超參數(shù)不斷收斂,得到特定文檔的主題分布特定主題中的詞分布。

        1.2.3 情感分析模型訓(xùn)練使用Python庫(kù)SnowNLP進(jìn)行情感分析,添加網(wǎng)絡(luò)詞匯中較新的中文褒義詞和負(fù)面詞匯,刪除重復(fù)詞匯,優(yōu)化情感詞典。將目標(biāo)文本分為積極和消極,返回值表示該文本所蘊(yùn)含情緒的概率,取值區(qū)間[0,1],值越接近1越積極,越接近0越消極。為提高情感預(yù)測(cè)準(zhǔn)確度,需要重新訓(xùn)練情感分類模型,主要步驟如下:

        (1)讀入人工準(zhǔn)備好的正樣本和負(fù)樣本;

        (2)調(diào)用sentiment類中的handle方法分詞、去停用詞;

        (3)調(diào)用貝葉斯模型的訓(xùn)練方法訓(xùn)練情感分類器;

        (4)調(diào)用Bayes類中的classify方法預(yù)測(cè)情感分類,測(cè)試模型精度;

        (5)保存新訓(xùn)練完成的模型。

        輸入每日微博文本集合D={d1,d2,…,dm},變量m表示每天抓取的微博條數(shù),利用新訓(xùn)練好的情感分析模型,得到每條微博的情感分?jǐn)?shù)sdj,本文在實(shí)際判定時(shí),為了使可視化結(jié)果更直觀,將sdj數(shù)值整體下調(diào)0.5,即返回值在[-0.5,0]區(qū)間內(nèi)時(shí)文本的情感概率值判定為負(fù)向情感,在(0,0.5]之間時(shí)文本情感概率值判定為正向情感。每日微博文本情感分?jǐn)?shù)SD計(jì)算公式為

        2 云南省網(wǎng)民情感實(shí)證分析

        2.1 數(shù)據(jù)來源

        本文使用八爪魚爬蟲工具爬取了自2020年2月20日至2020年4月22日的云南省政務(wù)、媒體藍(lán)V微博以及在本土具有影響力的大V微博,如“云南發(fā)布”“都市條形碼”和“918云南交通之聲”等博主的相關(guān)微博文本,共獲取16056條原發(fā)微博文本,包括用戶ID、用戶名稱、粉絲數(shù)、簡(jiǎn)介、發(fā)布時(shí)間、發(fā)布內(nèi)容、轉(zhuǎn)發(fā)數(shù)、評(píng)論數(shù)和點(diǎn)贊數(shù)等信息。刪除無意義和少于10個(gè)字符的微博,得到10314條原發(fā)微博文本作為研究數(shù)據(jù)。

        2.2 數(shù)據(jù)預(yù)處理

        以周為單位劃分研究時(shí)間窗口,將所爬取數(shù)據(jù)分為9個(gè)周窗口。抓取到的數(shù)據(jù)存在部分列值丟失、數(shù)值異常和微博文本包含特殊符號(hào)等現(xiàn)象。首先對(duì)這些現(xiàn)象補(bǔ)充完整或?yàn)V掉無意義的詞語。采用Jieba分詞工具進(jìn)行文本分詞處理,對(duì)于疫情涉及的高頻詞和人名建立自定義詞典,并導(dǎo)入專有名詞詞典,得到規(guī)則的分詞結(jié)果作為模型的輸入數(shù)據(jù)。

        2.3 結(jié)果分析

        2.3.1 微博高頻詞分析讀取數(shù)據(jù)統(tǒng)計(jì)詞語頻次,得到前15個(gè)高頻詞,分別是疫情、防控、病例、出院、工作、治愈、展開、確診、肺炎、發(fā)布、企業(yè)、新增、新冠、復(fù)工和累計(jì),可以看出疫情防控是研究時(shí)間窗口內(nèi)云南省主流微博媒體話題涉及最多的內(nèi)容,云南省各州、市除以新冠肺炎防控與診治為首要任務(wù)外,企業(yè)的復(fù)工復(fù)產(chǎn)也是最受關(guān)注的民生。從行政區(qū)劃來看,詞頻最高的3個(gè)地名是云南、昆明、曲靖,這也和確診人數(shù)相符。

        2.3.2 TF-IDF關(guān)鍵詞排序基于TF-IDF算法降低信息含量低的高頻詞的影響,抽取文本向量空間中最能代表話題內(nèi)容的特征詞,前25個(gè)TF-IDF關(guān)鍵詞分別是人流量、邊境地區(qū)、邊民、疫情、減少、成效、邊境、取得、明顯、通告、入境、暢通、全文、切斷、云南省、本土、貨物、輸入、途徑、前提、云南、人數(shù)、展開、保證、降低,其中人流量、邊境地區(qū)、邊民、疫情、減少、成效的TF-IDF值最高,說明最能代表云南省主流微博媒體話題內(nèi)容的特征詞集中在邊境地區(qū)的疫情防控成效和人員貨物的出入境等問題,這也符合針對(duì)云南所處的獨(dú)特地理位置,需要制定合理的邊境疫情防控政策。

        2.3.3 微博情感分析調(diào)用優(yōu)化后的SnowNLP情感分析器,訓(xùn)練新的情感分類模型,使用抓取到的云南省主流微博博主博文文本,得到了研究時(shí)間窗口內(nèi)的每日微博情感分?jǐn)?shù)并將其可視化,結(jié)果如圖2-3所示。

        圖2 微博情感分析Fig.2 The daily weibo sentiment analysis

        首先將每日微博文本內(nèi)容作為樣本輸入,利用訓(xùn)練好的情感分類模型計(jì)算得到每條微博文本的情感分?jǐn)?shù),然后將其累加求平均得到每日微博情感分析指數(shù)圖。2月25日的微博文本包含正向情感72條,負(fù)向情感37條,日微博平均情感分?jǐn)?shù)為0.158;4月21日的微博文本包含正向情感84條,負(fù)向情感31條,日微博平均情感分?jǐn)?shù)為0.184。圖3以時(shí)間順序,顯示了研究時(shí)間窗口內(nèi)的每日微博情感分類結(jié)果。從整體來看,日均正向情感的微博文本數(shù)量明顯更多,且大部分情感分析的結(jié)果極性不強(qiáng);日均負(fù)向情感的微博文本數(shù)量相對(duì)較少,但情感取值明顯負(fù)向背離0值,且大部分集中出現(xiàn)在3月6日至3月21日之間,總體分類結(jié)果按時(shí)間序列具有明顯聚集性。

        圖3 微博情感極性預(yù)測(cè)結(jié)果Fig.3 Microblog sentiment polarity prediction

        2.3.4 LDA主題分析選取轉(zhuǎn)發(fā)數(shù)、評(píng)論數(shù)和點(diǎn)贊數(shù)三種評(píng)價(jià)指標(biāo),對(duì)九個(gè)周窗口的微博信息傳播影響力進(jìn)行評(píng)價(jià)分析,然后賦予微博話題內(nèi)容主題權(quán)值??ǚ浇y(tǒng)計(jì)檢驗(yàn)結(jié)果顯示,微博點(diǎn)贊量的中位數(shù)(279205.500)顯著大于轉(zhuǎn)發(fā)量(34847.500)和評(píng)論量(35378.833),微博受眾群體對(duì)點(diǎn)贊行為偏好更多;微博轉(zhuǎn)發(fā)量的卡方值明顯較大,轉(zhuǎn)發(fā)量、評(píng)論量、點(diǎn)贊量的P值分別為0.057、0.444和0.173,均大于0.05,九個(gè)周窗口時(shí)期的微博轉(zhuǎn)發(fā)、評(píng)論和點(diǎn)贊均無顯著差異性,說明微博網(wǎng)民對(duì)疫情的關(guān)注度一直在持續(xù),因此對(duì)于九個(gè)周窗口的主題賦予相同的權(quán)值。

        利用LDA主題模型建模并進(jìn)行主題挖掘,根據(jù)經(jīng)驗(yàn)確定超參數(shù)α=1/K,γ=1/K,變分推斷EM算法的最大迭代次數(shù)設(shè)置為200,結(jié)合微博信息傳播影響力強(qiáng)度變化給周窗口話題主題都賦予相同的權(quán)重。研究發(fā)現(xiàn):2月下旬云南省主流微博媒體話題內(nèi)容主題均為新冠肺炎疫情防控與診治;3月份微博話題內(nèi)容主題除抗擊疫情外,還出現(xiàn)企業(yè)復(fù)產(chǎn)復(fù)工和肺炎疫情境外輸入二個(gè)主題;而4月份的除抗擊疫情外,還包括清明節(jié)祭掃、森林防火、世界知識(shí)產(chǎn)權(quán)日活動(dòng)三個(gè)主題,這與實(shí)際情況相符(昆明市自2019年被列入7個(gè)國(guó)家知識(shí)產(chǎn)權(quán)示范城市(城區(qū))之一)。

        2.4 綜合實(shí)驗(yàn)結(jié)果分析

        結(jié)合云南省衛(wèi)健委每日疫情實(shí)時(shí)通報(bào)情況,2月中上旬云南省疫情處于爆發(fā)期,2月20日確診人數(shù)達(dá)到最高峰,此后增長(zhǎng)率為0;3月16日云南新增境外輸入確診病例1例,此后境外輸入確診病例呈遞增態(tài)勢(shì)。從圖3可以看出,研究時(shí)間窗口內(nèi)2月20日至3月5日期間微博情感分?jǐn)?shù)呈現(xiàn)正向情感,說明政府不惜代價(jià)投入了前所未有的人力物力,讓普通民眾看到了國(guó)家抗疫的決心和成效;另外隨著疫情拐點(diǎn)的到來,廣大民眾更加相信本次疫情可防可控。3月6日至3月21日微博情感分?jǐn)?shù)出現(xiàn)了負(fù)向情感,結(jié)合主題挖掘,說明民眾對(duì)疫情過后的復(fù)產(chǎn)復(fù)工準(zhǔn)備和前景、云南省疫情境外輸入情況表示擔(dān)憂,但3月22日開始微博情感分?jǐn)?shù)基本都呈現(xiàn)正向情感,說明政府采取了卓有成效的應(yīng)對(duì)政策,民眾情感又再次趨于穩(wěn)定。結(jié)合4月份的微博主題挖掘結(jié)果,民眾情緒已經(jīng)比較平穩(wěn),開始步入正常的生產(chǎn)生活。

        3 結(jié)語

        本文構(gòu)建了社交媒體平臺(tái)下的重大突發(fā)公共衛(wèi)生事件輿情情感分析及影響因素模型,監(jiān)測(cè)微博內(nèi)容的主觀情感變化趨勢(shì)對(duì)于控制和引導(dǎo)網(wǎng)絡(luò)輿情具有重要的現(xiàn)實(shí)意義。訓(xùn)練改進(jìn)的SnowNLP情感分類模型得到研究時(shí)間窗口內(nèi)的每日微博情感分?jǐn)?shù),使用LDA主題模型建模結(jié)合微博傳播影響力評(píng)價(jià)指標(biāo)賦予權(quán)重,得到特定時(shí)間窗口的主題,并結(jié)合每日疫情實(shí)時(shí)通報(bào),分析微博情感隨時(shí)間序列變化趨勢(shì)。結(jié)果表明,每日微博的正向情感天數(shù)明顯更多,且微博情感分類結(jié)果具有一定的時(shí)間聚集性,其特點(diǎn)為正向-負(fù)向-正向,即隨著關(guān)乎國(guó)計(jì)民生事件的出現(xiàn),輿情情感會(huì)出現(xiàn)反轉(zhuǎn),政府須采取及時(shí)有效的政策加以應(yīng)對(duì)。本文的局限性在于微博情感分析過程中,未考慮將用戶關(guān)系和用戶性格情緒等特征數(shù)據(jù)進(jìn)行融合分析。疫情的持續(xù)將會(huì)帶來更多的海量數(shù)據(jù),進(jìn)一步將使用分布式爬蟲技術(shù)獲取更長(zhǎng)時(shí)間序列的微博文本,擴(kuò)大地域特征,利用多視域特征數(shù)據(jù)建立更優(yōu)化的微博情感分析模型,更好地幫助輿情分析。

        猜你喜歡
        博文文檔輿情
        第一次掙錢
        有人一聲不吭向你扔了個(gè)文檔
        誰和誰好
        基于RI碼計(jì)算的Word復(fù)制文檔鑒別
        輿情
        輿情
        Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut
        輿情
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        打電話2
        国产亚洲女人久久久久久| 亚洲国产精品久久人人爱| 99蜜桃在线观看免费视频网站| 天天狠天天透天干天天| 久久夜色精品国产亚洲av老牛| 亚洲综合第一页中文字幕| 人与动牲交av免费| 精品人妻少妇一区二区不卡| 亚洲一区二区三区免费av在线 | 丁香婷婷激情俺也去俺来也| 国产最新女主播福利在线观看| 国精产品推荐视频| 国产综合自拍| 日韩精品一级在线视频| 人妻夜夜爽天天爽三区丁香花 | 玩弄放荡人妻少妇系列视频| 不卡高清av手机在线观看| 东京道一本热码加勒比小泽| 国产精品内射久久一级二| 无码一区二区三区在线| 国产主播在线 | 中文| 福利视频在线一区二区三区| 精品国产天堂综合一区在线| 亚洲va中文字幕无码久久不卡| 免费一级欧美大片久久网| 久久人妻少妇嫩草av蜜桃| 日日摸天天摸97狠狠婷婷| 亚洲精品无码久久毛片| 插入中文字幕在线一区二区三区 | 久久久久久人妻毛片a片| 91孕妇精品一区二区三区| 中文字幕亚洲一区视频| 欧美丰满熟妇bbb久久久| 亚洲av无码成人yellow| 一区二区三区视频在线免费观看| 亚洲乱码av中文一区二区| 亚洲av日韩专区在线观看| 狠狠亚洲婷婷综合色香五月| 在线观看一区二区蜜桃| 99爱在线精品免费观看| 国产人在线成免费视频麻豆|