亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        系統(tǒng)功能語(yǔ)言學(xué)理論視角下突發(fā)公共衛(wèi)生事件謠言用戶(hù)立場(chǎng)識(shí)別研究

        2021-02-04 07:50:27王丹丹楊艷妮張瑞
        現(xiàn)代情報(bào) 2021年2期
        關(guān)鍵詞:立場(chǎng)謠言向量

        王丹丹 楊艷妮 張瑞

        摘?要:[目的/意義]突發(fā)公共衛(wèi)生事件情境下,研究謠言傳播中的用戶(hù)立場(chǎng)識(shí)別,可為謠言真實(shí)性檢測(cè)開(kāi)辟新視角,為謠言治理與輿論引導(dǎo)提供新思路。[方法/過(guò)程]以COVID-19疫情期間微博上虛假謠言為研究對(duì)象,以提高謠言下評(píng)論帖子的立場(chǎng)分類(lèi)準(zhǔn)確性為研究目標(biāo),構(gòu)建規(guī)范化用戶(hù)立場(chǎng)檢測(cè)分析建模框架,基于系統(tǒng)功能語(yǔ)言學(xué)(SFL)理論實(shí)現(xiàn)用戶(hù)評(píng)論中特征的全面多維提取,通過(guò)統(tǒng)計(jì)和可視化分析篩選最優(yōu)特征,比較分析不同模型組合實(shí)驗(yàn)結(jié)果,剖析影響分類(lèi)準(zhǔn)確性的樣本因素。[結(jié)果/結(jié)論]研究提出的基于概念元功能、語(yǔ)篇元功能、人際元功能的特征組合對(duì)以往特征進(jìn)行了有效梳理和補(bǔ)充;使用最優(yōu)特征而非全體特征作為樹(shù)形結(jié)構(gòu)分類(lèi)器輸入,采用集成學(xué)習(xí)方法,可保證總體分類(lèi)效果、縮短訓(xùn)練時(shí)間;數(shù)據(jù)分布不平衡性顯著影響不同立場(chǎng)的評(píng)論識(shí)別準(zhǔn)確性,“其他”立場(chǎng)識(shí)別效果更優(yōu),特征選取有力彌補(bǔ)了“詢(xún)問(wèn)”立場(chǎng)數(shù)據(jù)量上的分類(lèi)劣勢(shì)。

        關(guān)鍵詞:突發(fā)公共衛(wèi)生事件;立場(chǎng)識(shí)別;系統(tǒng)功能語(yǔ)言學(xué);分類(lèi)器;集成學(xué)習(xí);COVID-19疫情;微博;謠言

        DOI:10.3969/j.issn.1008-0821.2021.02.003

        〔中圖分類(lèi)號(hào)〕G206.2?〔文獻(xiàn)標(biāo)識(shí)碼〕A?〔文章編號(hào)〕1008-0821(2021)02-0019-11

        Abstract:[Purpose/Significance]In the context of public health emergencies,the research on user standpoint identification in rumor spreading can open up a new perspective for rumor authenticity detection,and provide new ideas for rumor governance and public opinion guidance.[Method/Process]This paper took the false rumors on the microblog during the COVID-19 pandemic as the research object,aimed at improving the accuracy of the standpoint classification of comments under rumors,constructed the standardized rumor standpoint detection and analysis modeling framework.Based on the theory of Systemic Functional Linguistics(SFL),the comprehensive multidimensional feature extraction of user comments was realized and the optimal features were screened out by statistical and visual analysis.The experimental results of different model combinations were compared and analyzed and the sample factors influencing the accuracy of classification were analyzed.[Result/Conclusion]The feature combination based on ideational meta function,textual meta function and interpersonal meta function effectively combed and complemented the previous features;the optimal features rather than all features being used as the input of tree structure classifier and adopting the ensemble learning method could ensure the overall classification effect and shorten the training time;and the imbalance of data distribution significantly affected the accuracy of the comment recognition of different standpoints.The result of“other”standpoint recognition was better,and feature selection was powerful,which maked up for the disadvantage of classification of“standpoint”position data.

        Key words:public health emergency;standpoints recognition;SFL;classifier;ensemble learning;COVID-19 epidemic;microblog;rumor

        突發(fā)公共衛(wèi)生事件情境下,網(wǎng)絡(luò)謠言甚囂塵上,在線社交媒體憑借參與、公開(kāi)、交流、對(duì)話、社區(qū)化特性,增加了謠言傳播速度、廣度與深度[1]。如COVID-19疫情期間“中部戰(zhàn)區(qū)空軍在武漢上空播撒消毒粉液”“武漢市民使用高濃度酒精室內(nèi)消毒引發(fā)火災(zāi)”“新型冠狀病毒可能誕生于人為設(shè)計(jì)的基因改造”等不實(shí)信息大肆傳播,不僅加劇了恐慌情緒蔓延,也影響公眾對(duì)科學(xué)防疫的正確認(rèn)識(shí),各種陰謀論更成為大國(guó)之間抗疫聯(lián)盟形成的絆腳石。謠言指在信息不確定或危險(xiǎn)情境下個(gè)體為緩解恐懼與焦慮情緒產(chǎn)生的內(nèi)容真?zhèn)挝唇?jīng)證實(shí)卻廣泛流傳的信息[2-3],研究表明,相比事后被證實(shí)為真實(shí)信息的謠言,虛假信息謠言往往更容易擾亂社會(huì),沖擊社會(huì)穩(wěn)定發(fā)展[4]。

        2.2?SFL理論視角下數(shù)據(jù)特征提取

        為研究用戶(hù)如何在社交媒體平臺(tái)表達(dá)自身立場(chǎng),引入系統(tǒng)功能語(yǔ)言學(xué)(SFL)理論,結(jié)合源微博數(shù)據(jù)對(duì)評(píng)論數(shù)據(jù)提取初步特征,具體步驟如圖2所示。SFL理論認(rèn)為語(yǔ)言是一個(gè)選擇系統(tǒng),創(chuàng)造者使用一系列相互關(guān)聯(lián)的表達(dá)意義的選擇實(shí)現(xiàn)特定目標(biāo)[21]。該系統(tǒng)包含3方面功能:概念元功能(Ideational Meta Function)表明語(yǔ)言是用來(lái)解釋觀點(diǎn)思想的;人際元功能(Interpersonal Meta Function)指語(yǔ)言作為交往的媒介,是創(chuàng)造和維持人際關(guān)系的手段;上述兩種功能借助語(yǔ)篇元功能(Textual Meta Function)相互關(guān)聯(lián),它決定信息的組織和呈現(xiàn),以創(chuàng)建連貫的語(yǔ)篇流。換言之,概念元功能和語(yǔ)篇元功能側(cè)重信息內(nèi)容,而人際元功能則涉及交互結(jié)構(gòu)[22]。

        概念元功能體現(xiàn)在觀點(diǎn)情感上,一方面表現(xiàn)為評(píng)論中包含的情感詞數(shù)量以及不同類(lèi)型情緒的分布情況,另外,考慮到與源微博情緒分布相似度可能從側(cè)面反映評(píng)論中用戶(hù)對(duì)源微博謠言的立場(chǎng),因此,研究采用基于情感詞典的情感分析方法,以大連理工情感詞典為依據(jù)[23],統(tǒng)計(jì)評(píng)論中總情感詞數(shù)量及21種情緒下對(duì)應(yīng)的情感詞數(shù)量(快樂(lè)、安心、尊敬、贊揚(yáng)、相信、喜愛(ài)、祝愿、憤怒、悲傷、失望、疚、思、慌、恐懼、羞、煩悶、憎惡、貶責(zé)、妒忌、懷疑、驚奇),得到21維情緒分布向量;對(duì)源微博作相同處理,計(jì)算評(píng)論與其對(duì)應(yīng)源微博兩者情緒分布向量的相似度。歐氏距離和余弦相似度常用來(lái)衡量文檔間的偏差程度[24],由于評(píng)論文本較短,單條評(píng)論涉及的情感詞類(lèi)型及數(shù)量較少,通過(guò)前述情感分析方法得到的情緒分布向量多為稀疏向量(向量多個(gè)維度上取值為0),而余弦相似度是通過(guò)向量空間中兩向量夾角余弦值來(lái)衡量,若計(jì)算兩稀疏向量的夾角余弦值,由于涉及向量?jī)?nèi)積的計(jì)算,很可能忽略向量某維度的絕對(duì)數(shù)值,加之余弦相似度本身對(duì)絕對(duì)數(shù)值的不敏感性[25],因此采用歐氏距離來(lái)間接衡量相似度更能反映評(píng)論中每種情緒數(shù)值強(qiáng)度上的差異,向量Si=(ti1,ti2,…,tik,Sj=(tj1,tj2,…,tjk,兩向量相似度計(jì)算方法如下:

        similarity介于(0,1]之間,越接近1,表示評(píng)論與源微博情緒分布越相似,反之,越不相似。

        認(rèn)知理論表明認(rèn)知評(píng)價(jià)是情感的組成部分[26],謠言用戶(hù)立場(chǎng)研究背景下,個(gè)體對(duì)謠言真實(shí)性的認(rèn)知評(píng)價(jià)體現(xiàn)在:第一,對(duì)造謠行為的總體描述;第二,對(duì)造謠行為的動(dòng)機(jī)分析,包括利他、自我提升、社會(huì)交往和情緒釋放4個(gè)維度[27];第三,對(duì)造謠行為后果的法律制裁聲明。根據(jù)詞頻統(tǒng)計(jì)表,對(duì)應(yīng)認(rèn)知評(píng)價(jià)的3方面開(kāi)發(fā)謠言近義詞列表(共130個(gè),如“假新聞”“不實(shí)消息”“斷章取義”等)、造謠動(dòng)機(jī)詞語(yǔ)列表(共50個(gè),如“掩蓋真相”“謀私利”“博眼球”“賺眼淚”等)、法律判決詞語(yǔ)列表(共82個(gè),如“誹謗罪”“罰款”等)。

        語(yǔ)篇元功能可概化為寫(xiě)作風(fēng)格、體裁類(lèi)型和方言俚語(yǔ)3類(lèi)信息[28-29]。研究從文本組成成分、文本長(zhǎng)度、文本語(yǔ)義3個(gè)維度描述語(yǔ)篇元功能,文本語(yǔ)義考慮評(píng)論與其源微博的語(yǔ)義相似度。研究采用Word2vec模型[30]實(shí)現(xiàn)詞語(yǔ)的分布式表示,再通過(guò)詞向量平均實(shí)現(xiàn)評(píng)論的語(yǔ)義向量表示,高維度的詞向量可提高語(yǔ)義表達(dá)準(zhǔn)確性,但訓(xùn)練時(shí)間過(guò)長(zhǎng),為優(yōu)化模型,最終維度設(shè)置為100,考慮到維基百科與微博文本內(nèi)容存在出入,將所有源微博及評(píng)論作為語(yǔ)料庫(kù)[31]。文本間語(yǔ)義向量相似度的計(jì)算如式(1)(2)。

        結(jié)合源微博與評(píng)論間的評(píng)論與被評(píng)論、評(píng)論與評(píng)論間的回復(fù)與被回復(fù)關(guān)系,利用社會(huì)網(wǎng)絡(luò)分析工具構(gòu)建的評(píng)論樹(shù)結(jié)構(gòu)在一定程度上體現(xiàn)了人際元功能[32]?;赟FL理論從評(píng)論中提取的初步特征如表1所示。

        利用箱型圖和折線圖對(duì)初步提取的特征在不同立場(chǎng)評(píng)論中的分布情況進(jìn)行可視化,篩選出分布差異最顯著的特征作為分類(lèi)器的最優(yōu)特征輸入。

        2.3?分類(lèi)器訓(xùn)練和效果評(píng)估

        引入Python的Sklearn工具包采用五折交叉驗(yàn)證技術(shù)訓(xùn)練4種分類(lèi)算法:提升樹(shù)(Boosting Tree)[33]、極端梯度提升(XGBoost)[34]、隨機(jī)森林(Random Forest)[35]以及支持向量機(jī)(SVM)[36];最后用Macro-F1評(píng)估分類(lèi)器分類(lèi)效果[37],此四分類(lèi)問(wèn)題的Macro-F1計(jì)算方式如下:對(duì)于類(lèi)別i,將其視為正例時(shí),其他類(lèi)別為負(fù)例,為每個(gè)類(lèi)別計(jì)算其F1-scorei,則:

        Precisioni為類(lèi)別i的精確率,Recalli為類(lèi)別i的召回率,m為類(lèi)別數(shù),F(xiàn)1-scorei越高表示分類(lèi)模型對(duì)于類(lèi)別i的預(yù)測(cè)效果更好,Macro-F1越高表示分類(lèi)模型對(duì)m個(gè)類(lèi)別總體預(yù)測(cè)效果更好。

        3?實(shí)證研究

        3.1?數(shù)據(jù)來(lái)源和分析

        2020年1月23日凌晨,武漢官方宣布,自當(dāng)日10時(shí)起,全市城市公交、地鐵、輪渡、長(zhǎng)途客運(yùn)暫停運(yùn)營(yíng),武漢封城開(kāi)始;4月8日0時(shí),武漢解封。研究選用此時(shí)段內(nèi)與COVID-19疫情相關(guān)且已判定為謠言的233條源微博及其對(duì)應(yīng)的14 685位用戶(hù)發(fā)表的17 481條評(píng)論數(shù)據(jù),從中選取10%的評(píng)論樣本,邀請(qǐng)兩位經(jīng)過(guò)訓(xùn)練的專(zhuān)業(yè)人員對(duì)其逐條檢查并獨(dú)立標(biāo)注立場(chǎng),計(jì)算Krippendorff's Alpha[38]值為0.809,表明編碼一致性較高。通過(guò)討論消除分歧后,再對(duì)剩下的樣本數(shù)據(jù)進(jìn)行標(biāo)注并復(fù)核。統(tǒng)計(jì)發(fā)現(xiàn),約7%、2%、1%的用戶(hù)在同一條源微博下分別發(fā)表2次、3次、4次評(píng)論,剩下90%的用戶(hù)均為單次發(fā)帖。同一用戶(hù)在不同時(shí)間發(fā)表的不同評(píng)論反映了用戶(hù)對(duì)謠言真實(shí)性認(rèn)知的立場(chǎng)態(tài)度演變,如由用戶(hù)首次發(fā)帖到二次發(fā)帖,原先持“贊同”立場(chǎng)的10.4%的用戶(hù)、持“詢(xún)問(wèn)”立場(chǎng)的24.7%的用戶(hù)、持“其他”立場(chǎng)的14.8%的用戶(hù)紛紛轉(zhuǎn)變?yōu)椤胺裾J(rèn)”立場(chǎng),因此,僅刪除同一用戶(hù)發(fā)表的重復(fù)評(píng)論,而保留內(nèi)容存在差異的評(píng)論不僅能夠排除重復(fù)數(shù)據(jù)對(duì)算法的干擾,也有利于管理者在謠言傳播的整個(gè)生命周期實(shí)現(xiàn)微觀上的用戶(hù)立場(chǎng)轉(zhuǎn)變實(shí)時(shí)監(jiān)測(cè),宏觀上的輿論走向精確引導(dǎo)。排除用戶(hù)惡意重復(fù)發(fā)帖行為后構(gòu)建的評(píng)論樹(shù)結(jié)構(gòu),如圖3所示,根節(jié)點(diǎn)代表源微博(深綠色),紅色、深藍(lán)色、藍(lán)綠色、橙色分別對(duì)應(yīng)持“贊同”“否認(rèn)”“詢(xún)問(wèn)”“其他”立場(chǎng)的評(píng)論,節(jié)點(diǎn)大小與其度數(shù)成正比,節(jié)點(diǎn)越大,意味著該節(jié)點(diǎn)越重要,在分類(lèi)任務(wù)中具有更大影響[16]。由圖可得,每條謠言微博下包含數(shù)量不等的評(píng)論信息,評(píng)論中各立場(chǎng)分布并不均等,且不同謠言微博下,這種分布不均等情況略有不同??偟膩?lái)說(shuō)被標(biāo)記為“其他”的評(píng)論占評(píng)論總數(shù)的46.32%,而“詢(xún)問(wèn)”評(píng)論僅占8.69%,“贊同”與“否認(rèn)”評(píng)論分別占20.21%、24.78%,占比較為接近。Castillo C等[39]發(fā)現(xiàn)在2010年地震事件中贊同和否定謠言的Tweet比例接近1∶1,Procter R等[40]分析英國(guó)恐怖襲擊事件的謠言也得出相同結(jié)論,可見(jiàn),公眾對(duì)謠言真實(shí)性的判別存在一定隨機(jī)性,不同類(lèi)型的突發(fā)社會(huì)安全事件之間存在共性。謠言下用戶(hù)立場(chǎng)的不平衡分布增加了對(duì)立場(chǎng)分類(lèi)任務(wù)的挑戰(zhàn),但它更接近現(xiàn)實(shí)情境,因此更具實(shí)用意義。

        3.2?特征分布可視化分析

        圖4箱型圖反映特征在4種立場(chǎng)評(píng)論中的分布差異,未出現(xiàn)的特征,其數(shù)據(jù)分布差異不顯著;圖5對(duì)所有特征的平均值進(jìn)行統(tǒng)計(jì)(“Length”和“NO_Like”特征由于取值數(shù)量級(jí)原因單獨(dú)列出),以彌補(bǔ)單一可視化方法的偏差。

        由圖4、圖5(a)得,“NO_Mention”在“其他”立場(chǎng)的評(píng)論中平均值最大,其次是“否認(rèn)”立場(chǎng),用戶(hù)在對(duì)謠言真實(shí)性展開(kāi)討論時(shí),通常會(huì)“@”其他用戶(hù),另外“@”官方媒體,如“@央視網(wǎng)”“@工信部”“@中央電視局”等以請(qǐng)求辟謠是表達(dá)質(zhì)疑的常用手法;“NO_Mention_Original_Blogger”在“否認(rèn)”立場(chǎng)的評(píng)論中平均值最大,用戶(hù)以此方式警告威懾博主;“?”表示疑問(wèn),其與“詢(xún)問(wèn)”立場(chǎng)有密切關(guān)聯(lián);“!”或表達(dá)對(duì)謠言?xún)?nèi)容的驚嘆感慨,或表達(dá)對(duì)荒謬的謠言?xún)?nèi)容的極度憤怒,其較多出現(xiàn)在“贊同”“否認(rèn)”立場(chǎng);圖4(e)表明持“其他”立場(chǎng)的用戶(hù)較多地使用第一人稱(chēng)“我”“我們”來(lái)敘述故事或表達(dá)自身見(jiàn)解;“Length”在4種立場(chǎng)中的平均值分別是19.721、23.025、18.473、20.282,用戶(hù)使用較長(zhǎng)篇幅闡述事實(shí)證據(jù)進(jìn)行辟謠表明“否認(rèn)”立場(chǎng);不同于Ma J等[16]的研究中Twitter平臺(tái)上源微博與其轉(zhuǎn)發(fā)微博之間的語(yǔ)義相似度在分類(lèi)任務(wù)中起到了顯著積極作用,此研究中“Lexicon_Similarity”在4種立場(chǎng)的評(píng)論中分布差異并不顯著,原因可能在于源微博長(zhǎng)度(平均值為121.163)與評(píng)論長(zhǎng)度(平均值為20.693)差別較大,語(yǔ)義相似度的計(jì)算和解釋能力受到影響。

        圖4(g)、(h)、(i)表明持“否認(rèn)”立場(chǎng)的用戶(hù)通常在評(píng)論中描述造謠行為、推測(cè)傳謠動(dòng)機(jī)、闡明法律后果以威懾眾人;“NO_Emotion”在“贊同”和“否認(rèn)”立場(chǎng)中取值范圍較廣且平均值較高,或與博文作者產(chǎn)生情感共鳴,或諷刺貶責(zé)博主行為;這也導(dǎo)致“贊同”立場(chǎng)的評(píng)論與源微博的情緒分布相似度較大,而“否認(rèn)”立場(chǎng)恰恰相反;圖4(l)顯示“否認(rèn)”立場(chǎng)的評(píng)論普遍獲得更多點(diǎn)贊,而“其他”立場(chǎng)所獲點(diǎn)贊量較少,說(shuō)明對(duì)謠言真實(shí)性的評(píng)論更能引起社交媒體用戶(hù)的關(guān)注;4種立場(chǎng)的評(píng)論在樹(shù)結(jié)構(gòu)中所處深度的平均值由大到小分別是:“其他”“否認(rèn)”“詢(xún)問(wèn)”“贊同”,社交媒體上有關(guān)某一謠言話題的討論具有一定聚集性和深入性,用戶(hù)初次接觸謠言缺乏對(duì)已有事實(shí)的考證盲目贊同,而后不斷發(fā)問(wèn)、收集證據(jù)以發(fā)現(xiàn)真相。圖5(b)顯示“快樂(lè)”“安心”“贊揚(yáng)”“相信”“喜愛(ài)”“悲傷”“恐懼”“憎惡”“貶責(zé)”“懷疑”10種情緒在4種立場(chǎng)中平均值差異較大。由此,確定這10種情緒類(lèi)別加上圖4所述共23個(gè)最優(yōu)特征。

        3.3?分類(lèi)效果比較分析

        Boosting是一種基于串行策略的可將弱學(xué)習(xí)器提升為強(qiáng)學(xué)習(xí)器的集成算法,提升樹(shù)(Boosting Tree)[33]和極端梯度提升(XGBoost)[34]是基于Boosting算法產(chǎn)生的;而隨機(jī)森林[35]采用并行算法,隨機(jī)性、泛化能力更強(qiáng),擅長(zhǎng)處理高維特征,且在處理特征遺失數(shù)據(jù)、不平衡數(shù)據(jù)上占據(jù)優(yōu)勢(shì)?;谠u(píng)論間的樹(shù)結(jié)構(gòu)特征,基學(xué)習(xí)器都采用二叉分類(lèi)決策樹(shù)。SVM[36]借助二次規(guī)劃求解支持向量,對(duì)大規(guī)模訓(xùn)練樣本難以實(shí)施,且對(duì)異常數(shù)據(jù)十分敏感,對(duì)于數(shù)據(jù)分布不平衡的樣本,宜選用“ovo”方法處理多分類(lèi)問(wèn)題。

        實(shí)驗(yàn)對(duì)比結(jié)果如圖6所示,評(píng)估指標(biāo)取五折交叉驗(yàn)證結(jié)果平均值。輸入特征分3種:“Ma's Features”指Ma J等[16]研究中使用的特征(由Word2vec模型訓(xùn)練得到的文本向量“Word_Embedding”、消極詞語(yǔ)數(shù)量、“NO_Question_Marks”“NO_Exclamation_Marks”“NO_Pic”“NO_Url”、與源微博的語(yǔ)義余弦相似度、與其所回復(fù)評(píng)論的語(yǔ)義余弦相似度、“Degree”)、“All Features”指基于SFL理論提取的所有特征,如表1所示、“Best Features”是基于“All Features”篩選出的最優(yōu)特征,見(jiàn)3.2節(jié)。

        除圖6(a)外,圖6(b)~(d)均表明4種分類(lèi)算法與本研究提取的特征的組合模型預(yù)測(cè)效果均優(yōu)于其與Ma J等[16]的特征的組合模型,說(shuō)明同一特征在不同語(yǔ)種、不同情境下適用性存在差異,基于SFL理論挖掘的特征及其量化方法更適用于中文微博語(yǔ)境。Ma J等[16]雖然也考慮了文本組成成分、文本相似度、情感傾向、社會(huì)網(wǎng)絡(luò)結(jié)構(gòu)等方面的特征,但由于其缺乏規(guī)范化的理論框架,導(dǎo)致其對(duì)每種類(lèi)型的特征挖掘不夠深入和細(xì)化,而SFL理論的引入,從語(yǔ)篇、概念、人際元功能3個(gè)維度為特征選擇提供了基本依據(jù),有力地補(bǔ)充并拓展了Ma J等[16]的研究在中文語(yǔ)料中的應(yīng)用。

        Boosting Tree和SVM算法中,輸入最優(yōu)特征代替所有特征時(shí),總體分類(lèi)效果有所提高(Average Macro-F1增大);對(duì)于Boosting Tree算法,“贊同”立場(chǎng)識(shí)別效果變差(Average F1-score1減小),但其他3種立場(chǎng)識(shí)別效果改善(Average F1-score2、Average F1-score3、Average F1-score4均增大);相反對(duì)于SVM算法,“贊同”立場(chǎng)識(shí)別效果改善,其他3種立場(chǎng)變差。這表明基于SFL提取的全面特征與Boosting Tree和SVM算法結(jié)合使用時(shí),可結(jié)合統(tǒng)計(jì)和可視化分析在此基礎(chǔ)上篩選最優(yōu)特征,優(yōu)中選優(yōu)提高效率的同時(shí)可保證總體分類(lèi)效果,但在Boosting Tree算法中要以犧牲“贊同”立場(chǎng)識(shí)別效果為代價(jià),在SVM算法中以犧牲另外3種立場(chǎng)為代價(jià)。輸入特征無(wú)論是所有特征還是最優(yōu)特征,SVM的總體分類(lèi)效果、且在識(shí)別除“贊同”以外的立場(chǎng)的評(píng)論時(shí)效果都優(yōu)于Boosting Tree算法,因此,若分類(lèi)目標(biāo)側(cè)重于準(zhǔn)確找出助長(zhǎng)謠言傳播的“贊同”立場(chǎng)評(píng)論以對(duì)其進(jìn)行目標(biāo)免疫,針對(duì)性推送辟謠信息以糾正其錯(cuò)誤認(rèn)知,則宜選用Boosting Tree算法;若分類(lèi)目標(biāo)要保證4種立場(chǎng)評(píng)論的整體分類(lèi)效果,則宜選用SVM算法。

        XGBoost和Random算法中,輸入最優(yōu)特征代替所有特征時(shí),總體分類(lèi)效果降低(Average Macro-F1減?。⒉伙@著;值得注意的是,“贊同”立場(chǎng)的識(shí)別效果都得到改善,其他立場(chǎng)的識(shí)別效果都變差。這表明全面的特征提取與XGBoost和Random算法的結(jié)合更有利于立場(chǎng)的整體識(shí)別,采用XGBoost算法和Random算法時(shí),若分類(lèi)目標(biāo)側(cè)重于找出“贊同”立場(chǎng)的評(píng)論,可以選擇最優(yōu)特征作為輸入,適當(dāng)犧牲總體分類(lèi)準(zhǔn)確性,以提高“贊同”立場(chǎng)的評(píng)論識(shí)別準(zhǔn)確性的同時(shí)縮短訓(xùn)練時(shí)間。

        縱觀所有算法與輸入特征的組合,總體分類(lèi)效果排名前兩位的是Random Forest算法與“All Features”的組合以及XGBoost算法與“All Features”的組合;“贊同”立場(chǎng)的識(shí)別效果排名前兩位的是Random Forest算法與“All Features”的組合以及其與“Best Features”的組合,這進(jìn)一步證實(shí)樹(shù)形結(jié)構(gòu)分類(lèi)器以及集成學(xué)習(xí)方法總體上具有一定優(yōu)勢(shì)[16],它能夠更大程度地發(fā)揮研究中基于SFL理論挖掘的多維特征的優(yōu)勢(shì);SVM算法在識(shí)別“贊同”立場(chǎng)時(shí)效果極差,但在識(shí)別其他3種立場(chǎng)的評(píng)論上表現(xiàn)較好。

        基于圖6,表2(a)~(d)列出了4種分類(lèi)算法與特征的最優(yōu)組合實(shí)驗(yàn)設(shè)置下最優(yōu)交叉驗(yàn)證結(jié)果的困惑矩陣??v向代表實(shí)際立場(chǎng),橫向代表預(yù)測(cè)立場(chǎng),如表2(a)中的“0.113”代表有11.3%的實(shí)際為“否認(rèn)”立場(chǎng)的評(píng)論被預(yù)測(cè)為“贊同”。表中粗體字代表被正確分類(lèi)的評(píng)論占各類(lèi)別評(píng)論的比例(即召回率),最高召回率出現(xiàn)在SVM算法與最優(yōu)特征的組合模型的“其他”立場(chǎng)(0.885)。4種算法中,大量其他立場(chǎng)的評(píng)論被誤分類(lèi)入“其他”立場(chǎng),極少其他立場(chǎng)的評(píng)論被誤分類(lèi)入“詢(xún)問(wèn)”立場(chǎng),這是由數(shù)據(jù)集分布不平衡性導(dǎo)致(“其他”立場(chǎng)的評(píng)論占總數(shù)的46.32%,“詢(xún)問(wèn)”立場(chǎng)的評(píng)論僅占8.69%)。即便如此,“詢(xún)問(wèn)”立場(chǎng)的召回率最高達(dá)到0.58,最低為0.41,仍高于“贊同”立場(chǎng)的最高召回率0.406(“贊同”立場(chǎng)的評(píng)論占比20.21%,約為“詢(xún)問(wèn)”立場(chǎng)占比的2.33倍),這說(shuō)明研究基于SFL理論從語(yǔ)篇元功能出發(fā)選取的文本中“?”數(shù)量、文本長(zhǎng)度“Length”,從概念元功能出發(fā)選取的表達(dá)“懷疑”情緒的詞語(yǔ)數(shù)量,從人際元功能出發(fā)選取的“Depth”等特征有力彌補(bǔ)了“詢(xún)問(wèn)”立場(chǎng)類(lèi)別數(shù)量上的分類(lèi)劣勢(shì),并進(jìn)一步佐證了細(xì)粒度情感分析的有效性。平衡數(shù)據(jù)集有3種方法:欠采樣和過(guò)采樣以及混合采樣[41],但這些方法可能破壞評(píng)論樹(shù)結(jié)構(gòu),因此,優(yōu)化分類(lèi)效果可行性策略應(yīng)該從完善實(shí)驗(yàn)?zāi)P驮O(shè)置出發(fā),如:選擇更具顯著區(qū)分能力的特征、分類(lèi)器參數(shù)調(diào)優(yōu)、采用集成學(xué)習(xí)方法等等。

        4?結(jié)?語(yǔ)

        本文針對(duì)突發(fā)公共衛(wèi)生事件中,微博謠言傳播的用戶(hù)立場(chǎng)分類(lèi)任務(wù)提出了一套分析建??蚣?,首先基于系統(tǒng)功能語(yǔ)言學(xué)理論,聚焦于語(yǔ)篇元功能、概念元功能、人際元功能3個(gè)維度,從評(píng)論中實(shí)現(xiàn)特征全面提取,然后通過(guò)可視化分析挖掘分布存在顯著差異的最優(yōu)特征,最后通過(guò)實(shí)驗(yàn)比較分析不同算法與特征組合的分類(lèi)效果指標(biāo),剖析原因并給出適合不同分類(lèi)目標(biāo)的模型組合。該研究在一定程度上彌補(bǔ)了國(guó)內(nèi)有關(guān)謠言傳播下用戶(hù)立場(chǎng)檢測(cè)研究的欠缺,SFL理論的引入實(shí)現(xiàn)了對(duì)已有研究中提出的用于用戶(hù)立場(chǎng)分類(lèi)任務(wù)的各類(lèi)特征的歸納和擴(kuò)充,并為未來(lái)研究提供了一定理論借鑒。

        本研究仍存在一定優(yōu)化空間。未來(lái)研究應(yīng)基于該理論框架進(jìn)一步發(fā)現(xiàn)新特征,提高分類(lèi)準(zhǔn)確性,尤其要找到影響“贊同”立場(chǎng)評(píng)論識(shí)別的有用特征,同時(shí)應(yīng)致力于消除或減輕樣本類(lèi)別分布不平衡對(duì)分類(lèi)結(jié)果的消極影響;另外,未來(lái)研究可將本研究提出的框架推廣到除謠言以外的信息傳播領(lǐng)域,如:研究官方辟謠信息傳播下的用戶(hù)立場(chǎng)分類(lèi)任務(wù)、觀察謠言與辟謠這兩種競(jìng)爭(zhēng)信息博弈下用戶(hù)立場(chǎng)演化的特征和規(guī)律等。

        參考文獻(xiàn)

        [1]Zubiaga A,Hoi G W S,Liakata M,et al.Analysing How People Orient to and Spread Rumours in Social Media By Looking at Conversational Threads[J].Plos One,2016,11(3).

        [2]Difonzo N,Bordia P.Rumor Psychology:Social and Organizational Approaches[M].Washington,USA:American Psychological Asociation,2007.

        [3]Jung C G.Contribution to the Psychology of Rumour[J].Indiana Association for Health Physical Education Recreation & Dance journal,1909,18(1):1-26.

        [4]Vosoughi S,Roy D,Aral S.The Spread of True and False News Online[J].Science,2018,359:1146-1151.

        [5]Katz E,Shibutani T.Improvised News:A Sociological Study of Rumor[J].American Sociological Review,1969,34(5):781.

        [6]Peterson W A,Gist N P.Rumor and Public Opinion[J].American Journal of Sociology,1951,57(2):159-167.

        [7]Bordia P,Difonzo N.Problem Solving in Social Interactions on the Internet:Rumor As Social Cognition[J].Social Psychology Quarterly,2004,67(1):33-49.

        [8]Mendoza M,Poblete B,Castillo C.Twitter Under Crisis:Can We Trust What We RT?[C]//Proceedings of the First Workshop on Social Media Analytics.ACM,2010:71-79.

        [9]Liu X,Nourbakhsh A,Li Q,et al.Real-time Rumor Debunking on Twitter[C]//Proceedings of the 24th ACM International Conference on Information and Knowledge Management.ACM,2015:1867-1870.

        [10]Zubiaga A,Aker A,Bontcheva K,et al.Detection and Resolution of Rumours in Social Media:A Survey[J].ACM Computing Surveys(CSUR),2018.

        [11]馬寧,劉怡君.微博中謠言信息與辟謠信息綜合影響力對(duì)比研究[J].情報(bào)資料工作,2020,41(3):41-48.

        [12]Qazvinian V,Rosengren E,Radev D R,et al.Rumor Has It:Identifying Misinformation in Microblogs[C]//Proceedings of?the Conference on Empirical Methods in Natural Language Processing.Association for Computational Linguistics,2011:1589-1599.

        [13]Hamidian S,Diab M.Rumor Detection and Classification for Twitter Data[C]//The Fifth International Conference on Social Media Technologies,Communication,and Informatics,SOTICS,IARIA,2015:71-77.

        [14]Zeng L,Starbird K,Spiro E S.#Unconfirmed:Classifying Rumor Stance in Crisis-Related Social Media Messages[C]//Tenth International AAAI Conference on Web and Social Media,2016.

        [15]Tausczik Y R,Pennebaker J W.The Psychological Meaning of Words:LIWC and Computerized Text Analysis Methods[J].Journal of Language & Social Psychology,2010,29(1):24-54.

        [16]Ma J,Luo Y.The Classification of Rumour Standpoints in Online Social Network Based on Combinatorial Classifiers[J].Journal of Information Science,2019.

        [17]Wang F,Lan M,Wu Y.ECNU at SemEval-2017 Task 8:Rumour Evaluation Using Effective Features and Supervised Ensemble Models[C]//Proceedings of the 11th International Workshop on Semantic Evaluation(SemEval-2017),2017:491-496.

        [18]郭棟.建構(gòu)法律習(xí)性:新媒介的自治想象——以微博社區(qū)管理中心為研究對(duì)象[J].編輯之友,2015,(1):79-83.

        [19]劉新亮,嚴(yán)姍姍.基于Python的中文分詞的實(shí)現(xiàn)及應(yīng)用[J].計(jì)算機(jī)與信息技術(shù),2008,(11:85-88.

        [20]張鵬,崔彥琛,蘭月新,等.基于扎根理論與詞典構(gòu)建的微博突發(fā)事件情感分析與輿情引導(dǎo)策略[J].現(xiàn)代情報(bào),2019,(3):122-131.

        [21]Teo,Peter.Racism in the News:A Critical Discourse Analysis of News Reporting in Two Australian Newspapers.[J].Discourse & Society,2000.

        [22]Halliday M A K,胡壯麟.An Introduction to Functional Grammar[M].Edward Arnold,2000.

        [23]徐琳宏,林鴻飛,潘宇,等.情感詞匯本體的構(gòu)造[J].情報(bào)學(xué)報(bào),2008,27(2):180-185.

        [24]韓家煒,Kamber M.數(shù)據(jù)挖掘:概念與技術(shù)(原書(shū)第3版)[M].范明等,譯.北京:機(jī)械工業(yè)出版社,2012.

        [25]王立印,張輝,陳勇.一種基于Dice-Euclidean相似度計(jì)算的協(xié)同過(guò)濾算法[J].計(jì)算機(jī)應(yīng)用研究,2015,(10):2891-2895.

        [26]Lazarus,Richard S.Thoughts on the Relations Between Emotion and Cognition[J].American Psychologist,1982,37(9):1019-1024.

        [27]孫靜.人格特質(zhì)、傳播動(dòng)機(jī)與網(wǎng)絡(luò)謠言傳播行為的關(guān)系研究[D].南京:南京師范大學(xué),2016.

        [28]Abbasi A,Chen H.CyberGate:A Design Framework and System for Text Analysis of Computer-Mediated Communication[J].Mis Quarterly,2008,32(4):811-837.

        [29]Argamon S,Whitelaw C,Chase P,et al.Stylistic Text Classification Using Functional Lexical Features[J].Journal of the Association for Information Ence and Technology,2007,58(6):802-822.

        [30]Mikolov T,Chen K,Corrado G,et al.Efficient Estimation of Word Representations in Vector Space[J].Computer Ence,2013.

        [31]馬鳴.微博上謠言的特征提取及識(shí)別算法的研究[D].北京:北京交通大學(xué),2019.

        [32]Fu T,Abbasi A,Chen H.A Hybrid Approach to Web Forum Interactional Coherence Analysis[J].Journal of the American Society for Information Science & Technology,2008,59(8):1195-1209.

        [33]Freund Y,Schapire R E.A Decision-Theoretic Generalization of On-Line Learning and an Application to Boosting[J].Journal of Computer and System Sciences,1999,55:119-139.

        [34]Chen T,Guestrin C.XGBoost:A Scalable Tree Boosting System[J].2016.

        [35]Fernandez-Delgado M,Cernadas E,Barro S,et al.Do We Need Hundreds of Classifiers to Solve Real World Classification Problems?[J].Journal of Machine Learning Research,2014,15:3133-3181.

        [36]沈洋,戴月明.支持向量機(jī)多分類(lèi)技術(shù)研究[J].數(shù)字通信世界,2019,(6).

        [37]Yang Y M.An Evaluation of Statistical Approaches to Text Categorization[J].Information Retrieval,1999.

        [38]Krippendorff K.Computing Krippendorff's Alpha-Reliability[J].2011.

        [39]Castillo C,Mendoza M,Poblete B.Predicting Information Credibility in Time-sensitive Social Media[J].Internet Research,2013,23(5):560-588.

        [40]Procter R,Vis F,Voss A.Reading the Riots on Twitter:Methodological Innovation for the Analysis of Big Data[J].International Journal of Social Research Methodology,2013,16(3):197-214.

        [41]郝曉紅.不平衡數(shù)據(jù)的研究及應(yīng)用[D].武漢:華中科技大學(xué),2019.

        (責(zé)任編輯:孫國(guó)雷)

        猜你喜歡
        立場(chǎng)謠言向量
        立場(chǎng)
        向量的分解
        中國(guó)使館駁斥荒謬謠言
        聚焦“向量與三角”創(chuàng)新題
        武術(shù)研究的立場(chǎng)
        當(dāng)謠言不攻自破之時(shí)
        謠言
        向量垂直在解析幾何中的應(yīng)用
        謠言大揭秘
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
        国产台湾无码av片在线观看| 国产亚洲欧美日韩综合综合二区| 亚洲精品成人国产av| 日韩av无卡无码午夜观看| 老司机在线免费视频亚洲| 亚洲网站一区在线播放| 国产又爽又大又黄a片| 乱码午夜-极国产极内射| 日本嗯啊在线观看| 亚洲乱妇熟女爽到高潮视频高清| 久久无码人妻一区二区三区午夜| 成人做爰高潮尖叫声免费观看| 国产成品精品午夜视频| 久久精品国产自产对白一区| 日本一区二区三区高清在线视频| 久久久老熟女一区二区三区| 在线免费毛片| 亚洲天堂av大片暖暖| 久久中文字幕亚洲综合| 人人人妻人人澡人人爽欧美一区| 亚洲综合无码一区二区三区 | 国产在亚洲线视频观看| 中文字幕人妻久久一区二区三区| 久久婷婷综合激情五月| 自愉自愉产区二十四区| 亚洲成a人v欧美综合天堂麻豆| 亚洲欧美日韩在线精品2021 | 精品亚洲一区二区三区四| 天堂国精产品2023年| 亚洲国产中文在线二区三区免| 91精品国产91久久久久久青草| 日产一区一区三区区别| 成人免费看aa片| 日韩人妻无码免费视频一区二区三区| 久久精品re| 亚洲国内精品一区二区在线| 久草视频在线手机免费看| 五月天国产成人av免费观看| 又爽又黄无遮挡高潮视频网站 | 国产精品亚洲在钱视频| 日韩大片高清播放器大全|