亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向微博平臺(tái)的謠言識(shí)別技術(shù)*

        2022-11-16 10:47:40陳蕾鄒儀
        科技與創(chuàng)新 2022年8期
        關(guān)鍵詞:謠言網(wǎng)民人工

        陳蕾,鄒儀

        (中國(guó)人民警察大學(xué),河北 廊坊 065000)

        1 研究背景

        “謠言識(shí)別”被賦予了非比尋常的時(shí)代意義。目前,信息以互聯(lián)網(wǎng)為載體在網(wǎng)民之間飛速傳播,“話語權(quán)”也向普通民眾轉(zhuǎn)移,自媒體時(shí)代的到來深刻地影響著人們的生活。更需重視的是,網(wǎng)絡(luò)在極大方便信息交互的同時(shí),一些無中生有或粉飾事實(shí)的信息,由于難以識(shí)別、不易發(fā)現(xiàn),導(dǎo)致其在傳播網(wǎng)絡(luò)中被歪曲放大不斷蔓延,造成消極的社會(huì)影響甚至危害社會(huì)秩序和國(guó)家安全。例如,2013-04-23,黑客入侵美聯(lián)社的Twitter 賬號(hào),散布美國(guó)總統(tǒng)奧巴馬被炸傷的謠言,引起資本市場(chǎng)的震蕩,令美國(guó)股市蒸發(fā)2 000億美元[1]。微博憑借其多樣性、共享性、實(shí)時(shí)性、互動(dòng)性在各類社交媒體平臺(tái)中脫穎而出,即使是用戶覆蓋度最高的微信系統(tǒng),其微信公眾賬號(hào)中超過60%的推廣信息也是通過微博進(jìn)行發(fā)布的[2],識(shí)別微博平臺(tái)中的謠言也具有相當(dāng)重要的意義。

        目前關(guān)于謠言的識(shí)別方法可以分為2 大類,一類是基于人工的識(shí)別方法,另一類是基于計(jì)算機(jī)技術(shù)的自動(dòng)識(shí)別方法。

        2 人工謠言識(shí)別

        人工謠言識(shí)別法是各大網(wǎng)絡(luò)社交平臺(tái)普遍使用的一種謠言識(shí)別方法。由于社交媒體中謠言難以一一辨認(rèn),各類平臺(tái)都鼓勵(lì)其用戶進(jìn)行監(jiān)督投訴,開設(shè)專門的投訴通道,甚至對(duì)能準(zhǔn)確投訴監(jiān)督的用戶有一定獎(jiǎng)勵(lì);此外,平臺(tái)也會(huì)在其用戶中或社會(huì)上選擇一些行業(yè)專家,利用專家的領(lǐng)域知識(shí)對(duì)相關(guān)謠言信息的真實(shí)性進(jìn)行鑒定識(shí)別。前者利用普通網(wǎng)民進(jìn)行謠言識(shí)別,可稱為網(wǎng)民謠言識(shí)別;后者認(rèn)定相關(guān)專家進(jìn)行謠言識(shí)別,可稱為專家謠言識(shí)別。

        2.1 網(wǎng)民謠言識(shí)別

        關(guān)于網(wǎng)民謠言識(shí)別的研究較少,且在行政管理領(lǐng)域被討論較多。鄭潔等[3]認(rèn)為要培育全民“把關(guān)人”,使其自覺加入到處理相關(guān)事件的隊(duì)伍里,只有這樣才能有效規(guī)避技術(shù)弊端所帶來的監(jiān)管缺失問題。林鴻潮[4]認(rèn)為要發(fā)揮集體智能在網(wǎng)絡(luò)空間探尋真相,通過“眾包”協(xié)作的方式,集合“數(shù)字志愿者”的力量。相關(guān)研究大多停留在探討廣泛發(fā)動(dòng)網(wǎng)民的重要意義上,至于如何更加高效、科學(xué)地發(fā)動(dòng)網(wǎng)民的力量較少討論。

        2.2 專家謠言識(shí)別

        專家謠言識(shí)別在社交媒體上一般作為網(wǎng)民謠言識(shí)別的一種補(bǔ)充。張淳藝[5]針對(duì)新冠肺炎期間“糧慌”的謠言提出政府等權(quán)威機(jī)構(gòu)要及時(shí)澄清、辟謠,民眾也要做到“不信謠,不傳謠”。高玉君等[6]通過研究微博辟謠機(jī)制,說明了專家謠言識(shí)別的過程。微博網(wǎng)民通過“舉報(bào)”功能向平臺(tái)舉報(bào)可疑信息,微博平臺(tái)的相關(guān)專家會(huì)再次對(duì)這些信息進(jìn)行一個(gè)再判別,并在平臺(tái)上公布鑒別結(jié)果,這些專家或權(quán)威機(jī)構(gòu)也可以在網(wǎng)絡(luò)中直接搜尋相關(guān)“謠言”并加以判斷,平臺(tái)會(huì)通過公眾號(hào)“微博辟謠”對(duì)用戶進(jìn)行發(fā)布。

        人工謠言識(shí)別法有著較高的識(shí)別率,但亦存在著一些缺點(diǎn)。其一是人力耗費(fèi)多。無論是網(wǎng)民謠言識(shí)別還是專家謠言識(shí)別,都需要對(duì)相關(guān)信息進(jìn)行逐條甄別并以此識(shí)別出其是否為謠言,這就意味著將產(chǎn)生極大的人力消耗。其二是專業(yè)依賴強(qiáng)。謠言復(fù)雜多樣,單個(gè)謠言可能包含著跨度極廣的專業(yè)知識(shí),某些特定領(lǐng)域的專家依賴其知識(shí)背景或?qū)I(yè)知識(shí)有很大概率作出錯(cuò)誤的判斷。其三是遺漏率高。社交媒體平臺(tái)對(duì)做出正確舉報(bào)行為的用戶沒有“實(shí)質(zhì)”性的獎(jiǎng)勵(lì),導(dǎo)致網(wǎng)民對(duì)監(jiān)督舉報(bào)的積極性低,僅靠其自覺又難以達(dá)到相應(yīng)效果,加之專家等專職人員數(shù)量有限,所以無法對(duì)謠言進(jìn)行全方位的網(wǎng)羅、識(shí)別。

        3 自動(dòng)謠言識(shí)別

        自動(dòng)謠言識(shí)別包括基于機(jī)器學(xué)習(xí)的謠言識(shí)別和基于深度學(xué)習(xí)的謠言識(shí)別。本節(jié)將對(duì)2 種方法在謠言識(shí)別領(lǐng)域的研究作出歸納說明。

        3.1 基于機(jī)器學(xué)習(xí)的謠言識(shí)別

        目前應(yīng)用于謠言識(shí)別的機(jī)器學(xué)習(xí)算法主要有支持向量機(jī)、決策樹、貝葉斯算法、隨機(jī)森林等。用其進(jìn)行謠言識(shí)別的一般過程是:在謠言發(fā)布初期,結(jié)合自然語言敏感詞、情感詞等分析手段識(shí)別話題,進(jìn)行初步篩選。具體步驟是:用爬蟲軟件獲取微博原始數(shù)據(jù),并進(jìn)行數(shù)據(jù)清洗,去除無關(guān)信息;對(duì)獲取的微博數(shù)據(jù)進(jìn)行分詞、去停用詞,并結(jié)合微博的內(nèi)容增加新詞匯,然后對(duì)文本特征按權(quán)值進(jìn)行轉(zhuǎn)換,最后進(jìn)行聚類和降維,實(shí)現(xiàn)輸出。

        3.1.1 數(shù)據(jù)獲取

        數(shù)據(jù)獲取是進(jìn)行謠言檢測(cè)的前提,現(xiàn)在一般借助網(wǎng)絡(luò)爬蟲程序?qū)崿F(xiàn)數(shù)據(jù)獲取。其大體流程是:根據(jù)微博等社交軟件的特點(diǎn),分析登錄協(xié)議、數(shù)據(jù)請(qǐng)求過程和每個(gè)請(qǐng)求的URL 與數(shù)據(jù)的對(duì)應(yīng)關(guān)系;然后,通過獲取cookie 并創(chuàng)建session,使用程序模擬網(wǎng)頁登錄的過程;實(shí)現(xiàn)模擬登錄后,以登錄用戶的信息為種子集合,通過HTTP 協(xié)議使用GET 方法對(duì)數(shù)據(jù)進(jìn)行采集并對(duì)獲得的數(shù)據(jù)進(jìn)行解析。這種模擬用戶登錄的方法,不需要官方授權(quán)和APⅠ,很靈活,可以全面、高效地獲取數(shù)據(jù)。

        3.1.2 數(shù)據(jù)處理

        對(duì)于獲取的微博數(shù)據(jù),需要進(jìn)行相關(guān)的文本分析和特征提取,以方便機(jī)器學(xué)習(xí)算法處理。主要步驟有:①噪聲過濾。去除噪聲是數(shù)據(jù)清洗的一部分,主要目的是去除無用的數(shù)據(jù),提升后續(xù)環(huán)節(jié)的檢測(cè)效率。一般設(shè)定一個(gè)閾值,將粉絲數(shù)量低于該閾值的微博用戶的微博數(shù)據(jù)刪除。②分詞。微博文本都刪除是短文本,對(duì)短文本進(jìn)行分類,是進(jìn)行預(yù)處理的關(guān)鍵步驟之一。目前比較常用的中文分詞方法主要基于統(tǒng)計(jì)學(xué)、字符串匹配或者人工智能方法,實(shí)現(xiàn)將連續(xù)文本轉(zhuǎn)換成詞的序列,方便進(jìn)行去除停用詞、詞性轉(zhuǎn)換等,從而為后續(xù)的文本向量化打下基礎(chǔ)。③向量表示。為了方便計(jì)算,一般需要將微博的文本信息按照其特征項(xiàng)(比如字符、詞語)轉(zhuǎn)換為特征向量的形式。有效地為微博消息的文本內(nèi)容建立結(jié)構(gòu)化向量,計(jì)算文本之間的相關(guān)性,是提升識(shí)別效率的重要手段。

        3.1.3 特征選擇

        目前用于謠言識(shí)別的機(jī)器學(xué)習(xí)算法大都屬于監(jiān)督學(xué)習(xí),嚴(yán)格意義上來說仍然需要人工對(duì)其訓(xùn)練數(shù)據(jù)進(jìn)行標(biāo)注,但造成不同算法甚至相同算法間巨大差異的原因在于其訓(xùn)練分類器的數(shù)據(jù)特征不同。如何取舍相關(guān)特征用以表征數(shù)據(jù),就成為謠言識(shí)別成效的關(guān)鍵所在?,F(xiàn)在研究比較多的特征類型如下。

        3.1.3.1 基于用戶特征

        謠言發(fā)端于用戶,用戶是社交網(wǎng)絡(luò)的重要組成部分,將其作為謠言識(shí)別的特征亦是值得研究的課題。針對(duì)該特征,LⅠANG 等人[7]基于微博平臺(tái)用戶的行為,選取發(fā)帖用戶和傳播用戶每日關(guān)注的好友數(shù)、每日發(fā)布的博文數(shù)、可能的消息源數(shù)、質(zhì)疑評(píng)論占比和更正數(shù)這5 個(gè)特征,結(jié)合用戶認(rèn)證人數(shù)、粉絲人數(shù)、轉(zhuǎn)發(fā)及評(píng)論數(shù)等特征數(shù)據(jù)訓(xùn)練決策樹模型,并獲得了86.5%的精確度和85.4%的召回率。WU 等[8]認(rèn)為謠言歸根結(jié)底是由普通用戶發(fā)布,再被意見領(lǐng)袖轉(zhuǎn)發(fā),最后被大量普通用戶轉(zhuǎn)發(fā),這是區(qū)別于非謠言的一個(gè)重要特征,其選取信息發(fā)布者和轉(zhuǎn)發(fā)者的行為特征與消息內(nèi)容特征相結(jié)合,利用混合SVM 模型以識(shí)別謠言。

        3.1.3.2 基于內(nèi)容特征

        在社交平臺(tái)中,內(nèi)容是謠言的表現(xiàn)形式,其包括文字、圖片、視頻、表情符號(hào)等,在各類文獻(xiàn)的研究中,實(shí)驗(yàn)結(jié)果均表明基于內(nèi)容特征的謠言識(shí)別模型在性能上明顯優(yōu)于基于用戶特征、基于網(wǎng)絡(luò)特征的謠言識(shí)別模型[9]。賀剛等人[10]選取文本符號(hào)、鏈接、關(guān)鍵詞分布、時(shí)間差4 類特征,使用SVM 模型進(jìn)行訓(xùn)練并獲得81.2%的準(zhǔn)確率,訓(xùn)練結(jié)果表明,這4 類特征中關(guān)鍵詞分布特征對(duì)準(zhǔn)確率影響最大。ZHANG 等人[11]選取流行度取向、內(nèi)外一致性、情感極性、評(píng)論觀點(diǎn)4個(gè)基于內(nèi)容的隱式特征,并用SVM 模型進(jìn)行訓(xùn)練獲得了72.4%的精確度和58.6%的召回率。

        3.1.3.3 基于傳播特征

        謠言的傳播和非謠言的傳播存在著極大的不同,用戶在接觸謠言時(shí)會(huì)有不同的反應(yīng),而這些反應(yīng)亦會(huì)被映射到傳播過程中。KWON 等人[12]觀察到非謠言在傳播過程中會(huì)有一個(gè)顯著峰而謠言則會(huì)有多個(gè)峰,基于該特征建立了周期性外部震動(dòng)模型以捕獲謠言的周期性爆發(fā),最后結(jié)合結(jié)構(gòu)和內(nèi)容特征訓(xùn)練隨機(jī)森林模型獲得93.5%的精確度和89.2%的召回率。MA 等人[13]提出傳播樹內(nèi)核(PTK),主要選取傳播結(jié)構(gòu)中的非時(shí)間特征,實(shí)驗(yàn)結(jié)果顯示,PTK 謠言識(shí)別模型分別比基線方法中表現(xiàn)最好的GRU 模型檢測(cè)精確度提高6.4%、8.9%。

        綜合來說,基于機(jī)器學(xué)習(xí)的謠言識(shí)別關(guān)鍵在于選擇合適的特征,特征的選擇在一定程度上比算法模型的選擇更為重要,所以其本質(zhì)還是人工性的,存在著一些不足。其一,對(duì)于一些復(fù)雜數(shù)據(jù)難以處理,社交媒體謠言數(shù)據(jù)特征一般是高維、抽象的,人工難以完全拆解識(shí)別。其二,使用人工標(biāo)注的特征集合用以訓(xùn)練模型,并試圖得到一個(gè)通用的謠言識(shí)別機(jī)器,難以保證模型的泛化性能。

        3.2 基于深度學(xué)習(xí)的謠言識(shí)別

        深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)一個(gè)發(fā)展迅猛的分支,在自然語言處理等方面應(yīng)用越來越廣泛。深度學(xué)習(xí)主要有卷積神經(jīng)網(wǎng)路(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)2大類組成,比較靈活,一般只需要修改參數(shù)就可以實(shí)現(xiàn)模型修改,但是需要大量數(shù)據(jù)和訓(xùn)練的支撐。

        相比于機(jī)器學(xué)習(xí)需要人工進(jìn)行特征篩選,深度學(xué)習(xí)可以自動(dòng)習(xí)得相關(guān)數(shù)據(jù)特征,且其學(xué)習(xí)得到的特征比人工標(biāo)注的更加有效,達(dá)到更好的謠言識(shí)別效果[14]。MA 等人[15]提出利用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)檢測(cè)微博謠言,并分別在Twitter 和微博數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),并與SVM-TS 等手工制作特征模型進(jìn)行比較,其中GRU-2 在Twitter 和微博數(shù)據(jù)集上的準(zhǔn)確率分別為88.1%和91.0%,準(zhǔn)確率大幅提升。劉政等人[16]采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)檢測(cè)微博謠言,并使用Doc2Vec訓(xùn)練向量矩陣,此模型與RNN 模型進(jìn)行比較,精確率提高了10.2%。WANG 等[17]通過研究各類謠言事件的共性,提出事件生成對(duì)抗網(wǎng)絡(luò)(EANN)模型以識(shí)別謠言,實(shí)驗(yàn)顯示該模型比att-RNN 模型的準(zhǔn)確率提高了10.3%,F(xiàn)1 提高了16.5%,表明事件共性特征進(jìn)一步提高了模型的泛化能力。劉鐘山[18]提出的基于LSTM 的謠言檢測(cè)模型作為改進(jìn)的RNN 模型,對(duì)公開的微博謠言數(shù)據(jù)集進(jìn)行檢測(cè),實(shí)驗(yàn)顯示該模型比GRU 模型的準(zhǔn)確率提高了12.0%,F(xiàn)1 值提高了11.3%,整體識(shí)別效果良好。

        綜合來看,基于深度學(xué)習(xí)的謠言識(shí)別的效果優(yōu)于機(jī)器學(xué)習(xí)的模型,它很好地避免了人工特征選擇的缺陷,但是由于其比較復(fù)雜,需要大量的數(shù)據(jù)作為支撐,因此如何獲得大量且完整的數(shù)據(jù)也成為了一個(gè)關(guān)鍵問題。

        4 結(jié)語

        人工識(shí)別和機(jī)器自動(dòng)識(shí)別2 類謠言識(shí)別的方法各有其優(yōu)缺點(diǎn)和存在的意義。人工識(shí)別的方法由于其準(zhǔn)確性等優(yōu)點(diǎn)有著不可替代的作用,但應(yīng)該提出更為有效、科學(xué)的方法來促進(jìn)發(fā)揮其作用?;跈C(jī)器學(xué)習(xí)的謠言識(shí)別技術(shù)如何取舍相關(guān)特征用以表征數(shù)據(jù)是謠言識(shí)別成效的關(guān)鍵。目前多采用支持向量機(jī)(SVM)模型,在特征選取上內(nèi)容特征有著很高的準(zhǔn)確度,但是還應(yīng)關(guān)注這些綜合性特征在不同算法模型甚至不同模型組合中的訓(xùn)練精度,以及模型的泛化能力?;谏疃葘W(xué)習(xí)的謠言識(shí)別可以自動(dòng)習(xí)得相關(guān)數(shù)據(jù)特征,且其學(xué)習(xí)得到的特征比人工標(biāo)注的更加有效,存在很多優(yōu)勢(shì),但較為復(fù)雜,未來亦會(huì)有更多在此方面的研究。

        猜你喜歡
        謠言網(wǎng)民人工
        人工3D脊髓能幫助癱瘓者重新行走?
        軍事文摘(2022年8期)2022-11-03 14:22:01
        中國(guó)使館駁斥荒謬謠言
        人工,天然,合成
        人工“美顏”
        當(dāng)謠言不攻自破之時(shí)
        網(wǎng)民低齡化 “小網(wǎng)蟲”的明天誰來守護(hù)
        遵義(2018年20期)2018-10-19 07:15:06
        有關(guān)公路,網(wǎng)民有話說
        新型多孔鉭人工種植牙
        謠言
        謠言大揭秘
        色噜噜av亚洲色一区二区| 日本小视频一区二区三区| 一区二区三区亚洲视频| 波多野结衣av一区二区全免费观看 | 五月激情四射开心久久久| 人妻少妇偷人精品一区二区三区| 国产在线无码一区二区三区视频| 天干天干天啪啪夜爽爽av| 免费超爽大片黄| 精品国产麻豆一区二区三区| 日韩av一区二区三区激情在线| 亚洲综合av一区二区三区| 国产精品亚洲一区二区无码| 国产成人精品男人的天堂网站| 久久久亚洲av成人乱码| 无码一区二区三区中文字幕| 日产无人区一线二线三线新版 | 粗大猛烈进出高潮视频大全| 国产真实偷乱视频| 岛国av无码免费无禁网站下载| 亚洲AV秘 无码一区二区久久| 成h视频在线观看免费| 尤物在线精品视频| 日韩无码视频淫乱| 蜜桃av一区在线观看| 新中文字幕一区二区三区| 粗大的内捧猛烈进出少妇| 天天干成人网| 狠狠亚洲超碰狼人久久老人| 二区免费在线视频观看| 国产精品乱码一区二区三区| 国产女高清在线看免费观看| 日本国产精品高清在线| 国产熟人精品一区二区| 无人视频在线观看免费播放影院 | 国产午夜三级精品久久久| 亚洲av永久无码天堂网| 九九九精品成人免费视频小说| 狠狠亚洲超碰狼人久久老人| 日本女优在线一区二区三区| 无码精品日韩中文字幕|