亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進XLNet算法的震后輿情分析研究

        2024-01-01 00:00:00鄭通彥王尅豐黃猛張淞周文濤游巧劉帥
        地震工程學報 2024年4期

        摘要:震后對網(wǎng)絡(luò)輿情信息的監(jiān)控與分析,對于相關(guān)部門開展震災應(yīng)急救援、掌握救災動態(tài)、穩(wěn)定民眾情緒具有重要意義。為解決震后輿情信息數(shù)據(jù)量大、語言多義性等問題,文章使用自回歸模型(XLNet)作為文本向量化表示層,將社交媒體地震數(shù)據(jù)文本轉(zhuǎn)化為包含上下文語義信息的媒體數(shù)據(jù)詞向量,同時,使用雙向門控循環(huán)單元(BiGRU)網(wǎng)絡(luò)作為特征提取層,把詞向量序列輸入到BiGRU層,提取社交媒體地震數(shù)據(jù)的文本特征;將初步提取特征的文本輸入到注意力機制層(Attention),進一步提取更為重要的情感類別特征,并對重要特征進行權(quán)重強化,構(gòu)建基于網(wǎng)絡(luò)地震應(yīng)急處置信息改進的XLNet-BiGRU-Att地震輿情情感分析模型;最終,獲得社交媒體地震數(shù)據(jù)的輿情態(tài)勢。相比傳統(tǒng)的XLNet模型,文章模型在甘肅積石山縣6.2級與新疆烏什縣7.1級地震的輿情情感分析中能夠準確,快速捕捉長短文本數(shù)據(jù)特征,分析輿情態(tài)勢,情感分析準確率分別提升到92.45%和93.42%。

        關(guān)鍵詞:輿情分析; XLNet; BiGRU; 甘肅積石山; 新疆烏什

        中圖分類號: P315.9文獻標志碼:A文章編號: 1000-0844(2024)04-0955-10

        DOI:10.20000/j.1000-0844.20240228002

        Post-earthquake public opinion analysis based on improved XLNet

        algorithm: a case study of the Jishishan, Gansu M6.2,

        and Wushi, Xinjiang M7.1 earthquakesZHENG Tongyan WANG Kefeng HUANG Meng ZHANG Song

        ZHOU Wentao YOU Qiao LIU Shuai

        (1.China Earthquake Networks Center, Beijing 100045, China;

        2.Institute of Disaster Prevention, Sanhe 065201, Hebei, China)Abstract:

        The monitoring and analysis of public opinions on online platforms after earthquake aid is highly significant in emergency rescues, understanding disaster relief dynamics, and stabilizing public emotions. However, it is difficult to quickly gather and categorize these opinions given the large volume of post-earthquake public opinion data and polysemy of language. To address these problems, we employed the autoregressive model (XLNet) as a text vectorization layer, which converted the text of earthquake-related data on social media platforms into word vectors containing contextual semantic information. The bidirectional gated recurrent unit (BiGRU) network was used as the feature extraction layer, and the word vector sequence was input into the BiGRU layer to extract text features from these data. These texts were then input into the attention mechanism layer to extract features that are categorized based on sentiments that are highly important. The weights of important features were enhanced to construct an improved XLNet-BiGRU-Att sentiment analysis model based on the information gathered from online earthquake emergency responses. Finally, the public opinion situation of these data was obtained using the model. Compared with the traditional XLNet model, the proposed model yields higher accuracy and can more quickly capture the characteristics of both short and long text data gathered from the public opinion sentiment analysis of the Jishishan and Wushi earthquakes. We successfully increased the sentiment analysis accuracy to 92.45% and 93.42% for the Jishishan and Wushi earthquakes, respectively.

        Keywords:public opinion analysis; XLNet; BiGRU; Jishishan in Gansu; Wushi in Xinjiang

        0引言

        地震災害具有突發(fā)性和不可預測性,嚴重威脅人類生命財產(chǎn)安全和經(jīng)濟社會穩(wěn)定[1-2]。地震發(fā)生后,通常會產(chǎn)生很多地震相關(guān)輿情,例如震感強弱、傷亡情況、余震情況和救援情況等[3]。將民眾對地震災害的認知、感知和響應(yīng)、適應(yīng)進行研究,是減輕災害損失與影響的重要途徑[4-5]。因此,震后社會輿情信息的監(jiān)控、分析、處置和引導對相關(guān)部門開展震災應(yīng)急救援和穩(wěn)定社會情緒具有重要意義。

        近年來,伴隨移動互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,蘊含海量數(shù)據(jù)的社交媒體平臺為開展地震輿情監(jiān)測與分析提供了豐富的數(shù)據(jù)源[6]。社交媒體平臺具有實時性、互動性、強擴散及空間分布廣泛等特點,如微博評論已成為地震災害輿情分析的主要數(shù)據(jù)源[7]。國內(nèi)外學者基于社交媒體數(shù)據(jù),對不同地震事件開展了地震輿情時空變化分析及情感分析等方面的研究。薄濤等[1]以微博為數(shù)據(jù)源,通過機器學習中的人工神經(jīng)網(wǎng)絡(luò)模型,建立了基于社交媒體數(shù)據(jù)的地震烈度快速評估方法。 Kryvasheyeu等[8]以2012年美國桑迪颶風為例,利用Twitter數(shù)據(jù)進行了颶風災害損失評估,發(fā)現(xiàn)災害損失越大,Twitter用戶活躍程度越高。徐敬海等[9]提出基于位置的微博地震災情提取流程,并以云南永善地震為例進行應(yīng)用,取得較好效果。楊天青等[10]提出一種基于公眾速報災情信息的地震災情過濾與推理方法,并以蘆山地震為案例進行了方法驗證。曹彥波等[11-12]以2014年景谷6.6級地震為例,基于微博輿情信息進行震后有感范圍快速判定研究,并采用情感詞典和規(guī)則相結(jié)合的方法,以2013年四川蘆山7.0級和2017年九寨溝7.0級地震為例,基于震后24 h微博數(shù)據(jù)分析了地震災區(qū)民眾情緒反應(yīng)特點。齊珉等[7]以2017年四川九寨溝7.0級地震為例,基于微博數(shù)據(jù)分析了社會民眾對此次地震事件的情感傾向,并研究了影響網(wǎng)民情感波動的主要因素。鄭嶸等[13]以2017年九寨溝地震和林芝地震為例,提出災害微博的實時處理框架,并驗證了原型系統(tǒng)的可用性。Qu等[14]對2010年玉樹地震的新浪微博數(shù)據(jù)進行分類統(tǒng)計,并分析了民眾對地震事件的情感。李亞芳等[3]分析了新疆伽師6.4級地震后48 h新浪微博相關(guān)的博文和評論,并將其可視化。陳昱杉等[15]以新浪微博關(guān)于“九寨溝地震”事件為例,提取響應(yīng)時間、響應(yīng)強度、傳播強度、主題分布等輿情擴散特征的指標,研究了地理空間距離對網(wǎng)絡(luò)輿情信息擴散的影響。

        從社交媒體數(shù)據(jù)輿情持續(xù)時間與文本特點角度進行分析的研究還比較少。針對震后社交媒體數(shù)據(jù)集文本特點,本文結(jié)合震后72 h持續(xù)輿情變化,克服震后社交媒體數(shù)據(jù)集與通用數(shù)據(jù)集情感處理不同的困難,準確把握震后輿情傳播趨勢。通過分析研判輿情動向,強化網(wǎng)絡(luò)輿情監(jiān)測,提出輿情的引導建議,為震后環(huán)境下的應(yīng)急機制提供參考依據(jù)。

        具體來說,本文以2023年12月18日甘肅積山縣6.2級和2024年1月23日新疆烏什縣7.1級地震為例,采集了兩次震后72 h內(nèi)網(wǎng)絡(luò)信息數(shù)據(jù)近20萬條,其中包含震感信息、救援信息、人員傷亡信息等地震信息。為解決震后輿情信息數(shù)據(jù)量大和語言多義性等問題,擬采用XLNet模型作為預訓練模型來捕捉短文本的數(shù)據(jù)特征,并結(jié)合雙向GRU和注意力機制模型,分別捕捉網(wǎng)絡(luò)剩余長序列文本和重要信息特征,構(gòu)建一個基于雙向上下文語義信息提取和自注意力機制的動態(tài)地震微博情感分析模型XLNet-BiGRU-Att,進一步提高地震案例分析的速度和準確率,以期為科學有效的地震應(yīng)急管理提供輔助參考。

        1研究對象與數(shù)據(jù)處理

        1.1甘肅積石山縣6.2級地震

        2023年12月18日23時59分,在甘肅臨夏州積石山縣(35.7°N,102.79°E)發(fā)生6.2級地震,震源深度10 km,蘭州、定西、臨夏等地震感強烈。甘肅積石山6.2級地震最大烈度為Ⅷ度,Ⅵ度區(qū)及以上面積8 364 km2。震后泥石流、滑坡、崩塌等次生災害隨之發(fā)生,地震還造成多處交通中斷。

        1.2新疆烏什縣7.1級地震

        2024年1月23日2時9分,在新疆維吾爾自治區(qū)阿克蘇地區(qū)烏什縣(41.26°N,78.63°E)發(fā)生7.1級地震,震源深度22 km。截至當日8時統(tǒng)計顯示,全縣范圍內(nèi)房屋共倒塌房屋47間、受損78間。截至2024年1月26日8時,共記錄到余震4 216次,其中,3.0級以下4 067次,3.0級及以上149次:3.0~3.9級121次,4.0~4.9級21次,5.0~5.9級7次。最大余震5.7級,距主震震中約22 km。地震最大烈度為Ⅸ度,Ⅵ度區(qū)及以上面積27 926 km2。

        1.3數(shù)據(jù)采集

        地震應(yīng)急數(shù)據(jù)包括地震行業(yè)官網(wǎng)數(shù)據(jù)、主流新聞媒體網(wǎng)站數(shù)據(jù)、微博數(shù)據(jù)、論壇以及貼吧數(shù)據(jù)等,如圖1、2所示。本文從數(shù)據(jù)挖掘和機器學習的角度出發(fā),采用基于Python的Selenium自動化技術(shù),結(jié)合高級調(diào)度器模塊多時段分布式任務(wù)調(diào)度[16],從央視網(wǎng)、人民網(wǎng)、新浪新聞、網(wǎng)易新聞、搜狐新聞、新浪微博、抖音、快手等主流媒體網(wǎng)站中分別獲取了震后72 h內(nèi)甘肅積石山縣6.2級地震和新疆烏什縣7.1級地震應(yīng)急處置信息相關(guān)數(shù)據(jù)113 000條和91 800條,構(gòu)建地震應(yīng)急事件相關(guān)的輿情分析數(shù)據(jù)集,為模型實驗提供了數(shù)據(jù)支持。社交媒體地震評論有其自身的數(shù)據(jù)特點,如表1所列。

        從社交媒體與新聞網(wǎng)站上采集到海量的震后相關(guān)輿情信息后,對數(shù)據(jù)進行預處理:首先,對海量的數(shù)據(jù)進行清洗與去重操作,例如在數(shù)據(jù)中會包含“@XXX”、“#XX”等字符,對這類文本進行正則化,去除文本中的特殊字符、空格以及非中文字符;然后,處理地震社交媒體數(shù)據(jù)文本中的停用詞,提高文本處理的效率和準確性,同時由于多數(shù)輿情評論文本中存在emoji表情,采用emoji-switch庫將emoji表情轉(zhuǎn)換為相應(yīng)的中文文本,與文本信息一起構(gòu)成數(shù)據(jù)集;最終,形成初步清洗后的地震網(wǎng)絡(luò)信息數(shù)據(jù)集,包含150 083條震后社交媒體數(shù)據(jù)。

        之后,對清洗過的地震網(wǎng)絡(luò)信息數(shù)據(jù)集進行情感標注,以大連理工大學林鴻飛團隊整理的中文情感詞匯本體庫作為模型的情感標注來源,將“樂”“好”等定義為正向情感[積極],將“怒”“哀”“懼”“驚”等定義為負向情感[消極],其余為[中性];對這些數(shù)據(jù)進行情感三分類的標注后,最終得到了經(jīng)過清洗、標注、增強預處理的120 567條地震社交媒體數(shù)據(jù)。

        2研究方法

        2.1預訓練語言模型

        與基于自回歸語言建模的預訓練處理方法相比,基于自編碼的預訓練處理方法具有較強的雙向上下文建模能力,例如雙向編碼器表征法(Bidirectional Encoder Representations from Transformers,BERT)。然而,BERT模型使用掩碼破壞輸入的方式,更容易忽略掩碼位置之間的依賴性,會導致預訓練-微調(diào)(pretrain-finetune)的差異。在2019年,谷歌提出了一種新的自然語言處理(Natural Language Processing,NLP)預訓練模型XLNet,這是一種廣義的自回歸預訓練模型方法。它實現(xiàn)了雙向的上下文學習,通過最大化因子分解順序中所有排列的預期期望可能性進行學習。XLNet通過自回歸公式克服了BERT依賴掩碼位置的局限性,并將Transformer-XL的思想結(jié)合到預訓練模型中,在文本表示語言任務(wù)中表現(xiàn)出色。自回歸語言模型(AutoRegressive Language Modeling,AR)方法只能學習單詞之間的依賴關(guān)系,自編碼語言模型(AutoEncoding Language Modeling,AE)方法只能學習深度雙向語義信息,這兩種模型單獨使用時都有各自的優(yōu)點和劣勢問題。而XLNet正是將AR和AE方法的優(yōu)勢結(jié)合起來,基于AR模型融入雙向語言模型,提出一種隨機排序語言模型(Permutation Language Modeling,PLM),避免了原始的自回歸模型不能結(jié)合上下文信息,以及自編碼語言模型由于mask導致的獨立性和數(shù)據(jù)分布一致性等缺點。

        XLNet的核心思想是以排列組合的方式重構(gòu)輸入的社交媒體地震數(shù)據(jù)文本,引入PLM的訓練目標并對全排序的序列進行采樣優(yōu)化,在自回歸語言模型上實現(xiàn)了雙向預測,并通過對上下文進行語義特征雙向表示,可以解決在社交媒體地震數(shù)據(jù)文本中的詞語在不同語境下存在的多義性問題。

        接著使用XLNet模型中的Attention掩碼機制,其原理是在Transformer內(nèi)部遮蓋不需要的部分,使這部分在預測時不起作用。但從模型外部看,文本順序與輸入時一致,都為從左向右的單向輸入。圖3所示為XLNet掩碼機制實現(xiàn)方式舉例。圖中原始輸入句子為地震社交媒體數(shù)據(jù)文本[樓,蹦,迪,一,樣,嚇,死],假設(shè)隨機生成序列為[樓,蹦,迪,一,樣,嚇,死],但輸入到XLNet中的句子仍然是[樓,蹦,迪,一,樣,嚇,死],那么在XLNet內(nèi)部是以圖中掩碼矩陣實現(xiàn)的。對于排列后的“樓”字來說,由于在首位無參考信息,因此第一行無陰影,假設(shè)當排列后的“迪”字位于最后一個位置,可以參考的信息有[樓,蹦,一,樣,嚇,死]。以此類推,因此序列的真實的輸入順序并沒有改變,只是通過掩碼的操作展示出隨機排序的效果。

        XLNet模型中PLM與Attention掩碼機制結(jié)合可以解決AR方法中不能看到上下文語義的問題,具體是通過上下文雙向語義的特征表示,更加全面了解詞語在語境中的意思。但是在PLM模型中,全排序語序隨機打亂也帶來了原Transformer無法解決的問題:例如輸入序列為[樓,蹦,迪,一,樣,嚇,死],給定一種排列方式為[死,樣,樓,迪,一,蹦,嚇],當要預測第三個位置時,即“樓”,其概率為P(樓|死,樣),如果此時給定另一種排列為[死,樣,蹦,一,樓,嚇,迪],當要預測第三個位置,即“蹦”,其概率為P(蹦|死,樣),此時預測“樓” 和“蹦”的概率相等,但實際是表示了不同的詞義。這是由于原AR方法是按順序基于上文進行預測,不需要考慮位置信息,但PLM為全排列方式,當位置打亂后就無法辨別出原始位置,即在PLM模型中不能將位置信息與要預測的內(nèi)容信息分離開來進行預測。

        XLNet模型中的雙流自注意力模型可以解決這個問題:雙流可以分為ContentStream和QueryStream,ContentStream用于表示每個token的內(nèi)容信息,QueryStream表示每個token在原始輸入句子中的位置信息。雙流自注意力模型的工作原理為:在ContentStream中,對于圖3,若要預測“樓”,需要編碼上下文的位置和內(nèi)容信息,以及“樓”本身的位置和內(nèi)容信息;在QueryStream中,若要預測“樓”,需要編碼其上下文信息以及“樓”本身的位置信息。圖4為XLNet模型的雙流模型圖。

        式中:m為網(wǎng)絡(luò)層的數(shù)量;Q、K和V為注意力機制的Query、Key和Value,Query用于指定要關(guān)注的內(nèi)容或?qū)傩裕琄ey包含與查詢相關(guān)的信息,主要用于與查詢進行比較,Value為包含實際的信息或?qū)傩?,我們希望從注意力機制中獲取這些值。一般情況下,內(nèi)容隱藏狀態(tài)會被初始化為e(x),表示隨機初始化的詞向量,查詢隱藏狀態(tài)會被初始化為一個變量w。XLNet預訓練語言模型以Transformer-XL框架為核心,引入循環(huán)機制和相對位置編碼,充分利用了上下文語義信息,用模型學到的知識計算出文本的向量表達,以解決社交媒體地震數(shù)據(jù)文本中出現(xiàn)的詞語在不同語境信息下語義不同的問題。在XLNet-BiGRU-Att模型中,XLNet層將輸入序列轉(zhuǎn)化為可被BiGRU層接收的詞向量序列,進行特征提取。

        2.2注意力機制

        注意力機制主要來源于人類視覺的處理過程,通過瀏覽信息獲取人類視覺的注意力焦點,提取出文本所想表達的當前任務(wù)中的關(guān)鍵信息。人類的視覺生理就是一種Attention機制,將有限的注意力放在重要信息上,節(jié)省資源,以便快速獲得最有效的信息。注意力機制的本質(zhì)為許多Query、Key、Value所組成的函數(shù),通過關(guān)注輸入權(quán)重的分配,使模型可以得到更準確的語義信息,以式(3)為注意力機制的目標函數(shù):

        注意力機制應(yīng)用于不同社交媒體地震數(shù)據(jù)進行情感分析任務(wù)時,將經(jīng)過XLNet模型向量化和BiGRU網(wǎng)絡(luò)提取后的地震評論文本特征輸入到其中,對地震評論文本序列中重要特征增加權(quán)重值,使模型更加注重于重要特征中的內(nèi)容,以此提升BiGRU網(wǎng)絡(luò)的特征提取能力。之后通過Softmax歸一化對加權(quán)后的向量進行處理,得到句子的情感傾向值,至此模型的訓練任務(wù)完成。

        2.3情感分析方法

        本文主要對震后輿情評論進行情感分析,情感分析為傾向性分析和意見挖掘,是對帶有情感色彩的主觀性文本進行自動解釋和分類情感(通常是積極、消極或中立)的分析過程。目前地震災情獲取方法基本形成了基于遙感的方法、基于地震臺網(wǎng)方法和基于社會網(wǎng)絡(luò)(如短消息等)的方法等[16-18]。地震發(fā)生后,大量網(wǎng)友在新浪微博發(fā)布與地震相關(guān)的博文和評論,信息中包含民眾的各種情感色彩和情感傾向性的表達,如高興、生氣、悲傷、贊揚、譴責等。通過分析這些信息的主觀色彩,可以把握民眾輿論對于地震事件的看法和情感傾向。本文主要采用改進的XLNet-BiGRU-Att地震輿情情感分析模型,對經(jīng)過預處理與標注的數(shù)據(jù)進行分析,針對輿情文本信息進行情感評價,即情感極性判定。其中,消極情緒主要是指民眾對地震表現(xiàn)出害怕、恐慌、悲觀等負面情緒;積極情緒主要是指民眾表現(xiàn)出樂觀、祝福、鼓勵等正面情緒;中性情緒是指其表達的正面和負面情緒相抵消,或未表現(xiàn)出主觀情緒。通過輿情情感分析結(jié)果,可視化表達民眾當前的情感狀況。

        3實驗與模型評估

        3.1XLNet-BiGRU-Att模型地震輿情情感分析

        針對社交媒體地震數(shù)據(jù)的多義性和特征提取困難等問題,為更好地捕捉震后社交媒體數(shù)據(jù)的文本特征,使用XLNet模型作為文本向量化表示層,將媒體數(shù)據(jù)文本轉(zhuǎn)化為包含上下文語義信息的媒體數(shù)據(jù)詞向量,使用BiGRU 網(wǎng)絡(luò)作為特征提取層,并把詞向量序列輸入到BiGRU層提取媒體數(shù)據(jù)的文本特征,再將初步提取特征的文本輸入到注意力機制層,進一步提取情感類別特征,對重要特征進行權(quán)重強化,最終獲得媒體數(shù)據(jù)的情感傾向結(jié)果值。本文提出的XLNet-BiGRU-Att模型充分利用上下文的語境信息和與地震輿情相關(guān)的情感信息,在一定程度上解決了XLNet模型在媒體數(shù)據(jù)情感分析方面可提取特征少、未考慮單詞間句法依存導致的詞語多義性等問題。其中XLNet-BiGRU-Att模型的體系結(jié)構(gòu)如圖5所示,主要由以下6個部分組成:文本輸入層、XLNet層、BiGRU層、注意力機制層、Softmax層和輸出層。實驗過程如下:

        (1) 數(shù)據(jù)預處理。對震后網(wǎng)絡(luò)輿情信息進行情感動向分析的第一步,即將數(shù)據(jù)文本去重、去除特殊符號、空格等;去除文本信息中的停用詞以及將emoji表情轉(zhuǎn)為相應(yīng)的中文字符;最后對震后輿情評論進行情感詞性標注。

        (2) 文本輸入。將數(shù)據(jù)預處理后的地震微博文本輸入到XLNet中,對輸入的地震社交媒體數(shù)據(jù)文本進行序列化表示。輸入文本的長度為n,文本序列為X=(X1,X2,…,Xn),Xn表示文本數(shù)據(jù)的第n個字。

        (3) 社交媒體地震數(shù)據(jù)文本向量化表示。針對XLNet模型中輸入的序列化媒體數(shù)據(jù)文本數(shù)據(jù),在查找字典后將每個詞轉(zhuǎn)化為對應(yīng)的字典編號,得到序列化媒體數(shù)據(jù)文本數(shù)據(jù)E,利用Transformer-XL自回歸編碼器進行訓練,將媒體數(shù)據(jù)文本數(shù)據(jù)進行動態(tài)表示,得到媒體數(shù)據(jù)文本詞向量表示g。在使用Transformer-XL自回歸編碼器時,計算當前媒體數(shù)據(jù)文本中每個詞與其他詞之間的相對位置關(guān)系,利用相對位置信息去調(diào)整每個詞的權(quán)重,從而獲得媒體數(shù)據(jù)文本句子中每個詞對應(yīng)的詞向量。通過這種方法學習到的詞向量g,充分利用了媒體數(shù)據(jù)文本中詞的上下文關(guān)系,使得媒體數(shù)據(jù)文本中每個詞在不同上下文語境中具有更好的表達。

        (4) 提取社交媒體地震數(shù)據(jù)語義特征。將從XLNet層中學習到的媒體數(shù)據(jù)文本對應(yīng)的詞向量傳給BiGRU層,利用前向GRU層和后向GRU層:前向GRU順序提取深層的語義特征,后向GRU逆序提取,經(jīng)過多個GRU隱藏單元的訓練,最終得到兩個文本向量的上下文語義特征,分別記作媒體數(shù)據(jù)文本向量F1和F2。

        (5) 文本特征拼接及權(quán)重賦值。拼接正向語義特征社交媒體地震數(shù)據(jù)文本向量F1和反向語義特征社交媒體地震數(shù)據(jù)文本向量F2,并通過Attention層對媒體數(shù)據(jù)的特征向量進行權(quán)重賦值,使模型對媒體數(shù)據(jù)文本向量中的重要特征提高注意力,最后通過softmax激活函數(shù)輸出對應(yīng)媒體數(shù)據(jù)文本的情感分類。

        3.2模型評估

        實驗選取卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)、BERT、FastTest、BERT+BiLSTM、XLNet等模型為6個對照實驗組,與本文提出的基于XLNet算法的震后網(wǎng)絡(luò)輿情分析模型(XLNet-BiGRU-Att)通過社交媒體地震數(shù)據(jù)集進行對比訓練,并對甘肅積山縣6.2級和新疆烏什縣7.1級地震震后社交媒體數(shù)據(jù)進行模型測試評估。

        由于在積石山縣與烏什縣地震中含有較多地震相關(guān)特殊情況,如積石山縣地震震級相對較小,但傷亡嚴重,烏什縣地震震級大,但損失較小。因此,震后輿情評價的結(jié)果可以對比實驗得出最適合地震領(lǐng)域的情感分析模型。本文的評價指標為情感分類模型性能常用指標,包括F1值(F1-score)、準確率(Accuracy,ACC)。震后微博輿情數(shù)據(jù)實驗的測試結(jié)果如表2、3所列。

        通過表2、3中準確率ACC值和F1值的實驗結(jié)果可以看出,在甘肅積石山縣地震中,本文所提出的XLNet-BiGRU-Att模型的F1值與ACC最大,分別為91.37%與92.45%;在新疆烏什縣地震中,本文所提出的XLNet-BiGRU-Att模型的F1值與ACC最大,分別為93.52%與93.52%。其中BERT模型和XLNet模型是基于Transformer構(gòu)建的,在結(jié)合社交媒體地震數(shù)據(jù)上下文語義消除詞語多義性方面,優(yōu)于FastText、CNN模型的訓練效果。XLNet模型在地震媒體數(shù)據(jù)領(lǐng)域文本的準確率和F1值上更優(yōu)于BERT模型,尤其在地震特點明顯的震后社交媒體數(shù)據(jù)文本數(shù)據(jù)集中的實驗結(jié)果更加突出。

        實驗表明,雖然XLNet方法的實驗結(jié)果比較理想,但本文所提出的XLNet-BiGRU-Att模型在社交媒體地震數(shù)據(jù)文本中相較于基礎(chǔ)模型XLNet,準確率及F1值都有一定程度的提升,表明在地震輿情分析領(lǐng)域,XLNet-BiGRU-Att模型具有良好的性能,彌補了其他對比模型在地震評論文本中詞語多義性和可提取特征少的問題,能根據(jù)社交媒體地震數(shù)據(jù)領(lǐng)域上下文文本的語義更好地提取震后輿情的特征,適用于震后社交媒體數(shù)據(jù)的情感分析。

        3.3地震實例輿情分析

        以上實驗是對甘肅積山縣6.2級和新疆烏什縣7.1級這兩次地震進行輿情情感分析概況,兩次地震產(chǎn)生的輿情聲量存在較大差距,積石山地震震級相對小,然而產(chǎn)生的破壞大,在人員傷亡與房屋破損上明顯嚴重。反觀新疆烏什縣地震震級高,但是多數(shù)地區(qū)為無人居住,人員傷亡相對較少。本文通過對微博震后72 h數(shù)據(jù)實時爬取,進行數(shù)據(jù)處理和輿情分析,得出以下分析結(jié)果。

        圖6為積石山地震震后72 h的各輿論場趨勢分析,積石山縣地震在震后1 h、8 h、24 h左右出現(xiàn)較多輿論信息,震后24 h達到峰值8 520條。

        4結(jié)論

        本文以甘肅積山縣6.2級和新疆烏什縣7.1級地震為例,結(jié)合基于雙向上下文語義信息提取和自注意力機制的動態(tài)地震微博情感分析模型XLNet-BiGRU-Att,研究震后網(wǎng)絡(luò)輿情情感分析,得出如下結(jié)論:

        (1) 積石山縣6.2級和烏什縣7.1級地震的輿情存在差異,相比其他模型,使用改進的XLNet模型能夠更準確地捕捉社交媒體地震數(shù)據(jù)中短文本數(shù)據(jù)特征,并分析不同地震的輿情特點。前者震級相對小,但產(chǎn)生較大的人員傷亡、房屋倒塌以及次生災害,輿情聲量大,而烏什縣地震震級高達7.1級,造成損失反而較小。

        (2) 使用改進的XLNet與雙向GRU能更準確地識別并捕捉海量網(wǎng)絡(luò)輿情信息中的長短文本特征,并結(jié)合自注意力機制對動態(tài)地震輿情進行情感分析。相比其他模型,在甘肅積石山縣地震中,本文所提出的XLNet-BiGRU-Att模型在震后社交媒體數(shù)據(jù)的F1值與ACC處于最大,分別為91.37%與92.45%。在新疆烏什縣地震中,本文所提出的XLNet-BiGRU-Att模型在震后社交媒體數(shù)據(jù)的F1值與ACC處于最大,分別為93.52%與93.52%。表明在地震輿情領(lǐng)域,XLNet-BiGRU-Att模型能夠更準確地提取震后輿情特征,彌補了其余對比模型在社交媒體地震數(shù)據(jù)文本中詞語多義性和可提取特征少的問題。

        (3) 通過輿情分析獲取到兩次地震的災情相關(guān)信息??梢钥吹剑跃W(wǎng)絡(luò)輿情信息為基礎(chǔ)的AI提取分析模型雖然在輿情情感分析上取得了較好的結(jié)果,但是文本可能在震后輿情信息中覆蓋面過大,提取時會去除較多有用的信息。因此,特征提取模型在真實震例中應(yīng)不斷修正和積累,在之后的地震應(yīng)用中,不斷完善自主學習與更新修正過程。

        參考文獻(References)

        [1]薄濤,李小軍,陳蘇,等.基于社交媒體數(shù)據(jù)的地震烈度快速評估方法[J].地震工程與工程振動,2018,38(5):206-215.BO Tao,LI Xiaojun,CHEN Su,et al.Research of seismic intensity rapid assessment based on social media data[J].Earthquake Engineering and Engineering Dynamics,2018,38(5):206-215.

        [2]劉磊,趙東升,朱瑜,等.1993—2017年我國大陸地震災害損失的時空特征[J].自然災害學報,2021,30(3):14-23.LIU Lei,ZHAO Dongsheng,ZHU Yu,et al.Spatiotemporal characteristics of earthquake hazard losses in China's mainland during 1993-2017[J].Journal of Natural Disasters,2021,30(3):14-23.

        [3]李亞芳,王新剛,梁慶云.基于新浪微博大數(shù)據(jù)的新疆伽師6.4級地震輿情分析及可視化研究[J].內(nèi)陸地震,2020,34(1):103-110.LI Yafang,WANG Xingang,LIANG Qingyun.Public opinion analysis and visualization of Xinjiang Jiashi MS6.4 earthquake based on Sina Weibo big data[J].Inland Earthquake,2020,34(1):103-110.

        [4]蘇桂武,馬宗晉,王若嘉,等.汶川地震災區(qū)民眾認知與響應(yīng)地震災害的特點及其減災宣教意義:以四川省德陽市為例[J].地震地質(zhì),2008,30(4):877-894.SU Guiwu,MA Zongjin,WANG Ruojia,et al.General features and their disaster-reduction education implications of the earthquake disaster cognition and responses of the social public in MS8.0 Wenchuan earthquake-hit area:a case study from Deyang prefecture-level city,Sichuan Province[J].Seismology and Geology,2008,30(4):877-894.

        [5]王若嘉,蘇桂武,張書維,等.云南普洱地區(qū)中學生認知與響應(yīng)地震災害特點的初步研究:以2007寧洱6.4級地震災害為例[J].災害學,2009,24(1):133-138.WANG Ruojia,SU Guiwu,ZHANG Shuwei,et al.A preliminary study on the characteristics of cognition on and response to earthquake disaster of the middle school students in Puer area,Yunnan Province,China:a case study on the 2007 ninger earthquake with MS6.4[J].Journal of Catastrophology,2009,24(1):133-138.

        [6]楊騰飛,解吉波,閆東川,等.基于深度學習的社交媒體情感信息抽取及其在災情分析中的應(yīng)用研究[J].地理與地理信息科學,2020,36(2):62-68.YANG Tengfei,XIE Jibo,YAN Dongchuan,et al.Extracting sentiment information from social media based on deep learning and the research on disaster reduction[J].Geography and Geo-Information Science,2020,36(2):62-68.

        [7]齊珉,齊文華,蘇桂武.基于新浪微博的2017年四川九寨溝7.0級地震輿情情感分析[J].華北地震科學,2020,38(1):57-63.QI Min,QI Wenhua,SU Guiwu.2017 Sichuan Jiuzhaigou M7.0 earthquake sentiment analysis based on Sina Weibo[J].North China Earthquake Sciences,2020,38(1):57-63.

        [8]KRYVASHEYEU Y,CHEN H H,OBRADOVICH N,et al.Rapid assessment of disaster damage using social media activity[J].Science Advances,2016,2(3):e1500779.

        [9]徐敬海,褚俊秀,聶高眾,等.基于位置微博的地震災情提?。跩].自然災害學報,2015,24(5):12-18.XU Jinghai,CHU Junxiu,NIE Gaozhong,et al.Earthquake disaster information extraction based on location microblog[J].Journal of Natural Disasters,2015,24(5):12-18.

        [10]楊天青,姜立新,席楠.地震速報災情信息過濾與推漫方法研究:以蘆山7.0級地震為例[J].自然災害學報,2015,24(1):96-103.YANG Tianqing,JIANG Lixin,XI Nan.Filtering and deduction method of rapidly-report earthquake disaster information:taking Lushan 7.0 magnitude earthquake as an example[J].Journal of Natural Disasters,2015,24(1):96-103.

        [11]曹彥波,吳艷梅,許瑞杰,等.基于微博輿情數(shù)據(jù)的震后有感范圍提取研究[J].地震研究,2017,40(2):303-310.CAO Yanbo,WU Yanmei,XU Ruijie,et al.Research about the perceptible area extracted after the earthquake based on the microblog public opinion[J].Journal of Seismological Research,2017,40(2):303-310.

        [12]曹彥波.基于社交媒體的地震災區(qū)民眾情緒反應(yīng)分析[J].地震研究,2019,42(2):245-256.CAO Yanbo.Analysis of People's emotional response in earthquake-stricken areas based on the social media[J].Journal of Seismological Research,2019,42(2):245-256.

        [13]鄭嶸,張晨曉,樂鵬,等.基于微博的災害信息快速提取方法研究[J].測繪地理信息,2020,45(5):133-137.ZHENG Rong,ZHANG Chenxiao,LE Peng et al.Disaster information extraction from microblog[J].Journal of Geomatics,2020,45(5):133-137.

        [14]QU Y,HUANG C,ZHANG P Y,et al.Microblogging after a major disaster in China:a case study of the 2010 Yushu earthquake[C]//Proceedings of the ACM 2011 Conference on Computer Supported Cooperative Work.Hangzhou China:ACM,2011:25-34.

        [15]陳昱杉,李鳳全,王天陽,等.網(wǎng)絡(luò)輿情信息擴散中距離的影響:以新浪微博“九寨溝地震” 事件為例[J].浙江師范大學學報(自然科學版),2020,43(1):77-84.CHEN Yushan,LI Fengquan,WANG Tianyang,et al.The role of distance in Internet public opinion diffusion:taking Sina microblog “Jiuzhaigou earthquake” as an example[J].Journal of Zhejiang Normal University (Natural Sciences),2020,43(1):77-84.

        [16]趙福軍,蔡山,陳曦.遙感震害快速評估技術(shù)在汶川地震中的應(yīng)用[J].自然災害學報,2010,19(1):1-7.ZHAO Fujun,CAI Shan,CHEN Xi.Application of rapid seismic damage assessment based on remote sensing to Wenchuan earthquake [J].Journal of natural disasters,2010,19(1):1-7.

        [17]帥向華,鄭向.防震減災公益服務(wù)短信技術(shù)平臺設(shè)計與實現(xiàn)[J].自然災害學報,2011,20(6):40-44.SHUAI Xianghua,ZHENG Xiang.Design and realization of SMS technology platform for earthquake disaster mitigation public service[J].Journal of Natural Disasters,2011,20(6):40-44.

        [18]AMIRI G G,KHORASANI M,MIRZA H R,et al.Ground motion prediction equations of spectral ordinates and arias intensity for Iran [J].Journal of Earthquake Engineering,2009,14(1):1-29.

        (本文編輯:賈源源)

        无码毛片视频一区二区本码| 草逼视频污的网站免费| 亚洲夫妻性生活免费视频| 亚洲精品美女久久久久久久| 亚洲AV日韩AV永久无码电影| 亚洲 国产 韩国 欧美 在线| 亚洲av乱码国产精品观| 成 人片 黄 色 大 片| 爱情岛永久地址www成人| 国内视频偷拍一区,二区,三区| 亚洲综合新区一区二区| av人摸人人人澡人人超碰下载| 久青草久青草视频在线观看| 亚洲 欧美 激情 小说 另类| 国产精品人成在线观看不卡| 日韩av无码中文字幕| 午夜亚洲av永久无码精品| 久久亚洲成a人片| 日本av不卡一区二区三区| 日本爽快片100色毛片| 亚洲欧美日韩国产综合一区二区| 国产欧美亚洲另类第一页| 少妇被粗大的猛进69视频| 一本色道久久88亚洲精品综合| 欧美色aⅴ欧美综合色| 国产大陆av一区二区三区| 91九色人妻精品一区二区三区| 免费久久人人爽人人爽av| 91综合在线| 日本美女性亚洲精品黄色| 久久影院午夜理论片无码| 亚洲精品国产第一区二区尤物 | 久久久9色精品国产一区二区三区 国产三级黄色片子看曰逼大片 | 国产大学生自拍三级视频| 久久熟妇少妇亚洲精品| 曰批免费视频播放免费直播 | 日韩精品无码一区二区三区视频| 国产成人丝袜在线无码| 国产自拍视频在线观看免费| а√资源新版在线天堂| 久久久精品2019中文字幕之3|