亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)LSTM算法的社會網(wǎng)絡(luò)的輿情監(jiān)測

        2021-01-18 04:37:28王民昆王浩蘇博
        現(xiàn)代計算機 2020年33期
        關(guān)鍵詞:輿情輿論向量

        王民昆,王浩,蘇博

        (1.國家電網(wǎng)公司西南分部,成都610041;2.成都信息工程大學(xué),成都610225)

        0 引言

        網(wǎng)絡(luò)輿情的定義為在一定的社會空間內(nèi),圍繞中介性社會事項的發(fā)生、發(fā)展和變化,作為輿情主體的民眾對國家管理者產(chǎn)生和持有的社會政治態(tài)度。由于現(xiàn)目前信息化的普及,社交媒體提要、新聞博客、在線報紙等網(wǎng)絡(luò)信息的大量涌現(xiàn)。網(wǎng)絡(luò)輿情可以在突破空間和時間和的限制下進行高速傳播,進而傳播到世界各地,使其具有廣泛的傳播性。這樣的廣泛傳播的民眾意見即會被視為互聯(lián)網(wǎng)的公眾意見。如果我們能夠動態(tài)地發(fā)現(xiàn)社會網(wǎng)絡(luò)中的熱點網(wǎng)絡(luò)輿論,在高速地向那些尋求者提供有用的信息的同時,并且實時地監(jiān)測這一熱點網(wǎng)絡(luò)輿論的趨勢,就會對現(xiàn)實社會我的安全產(chǎn)生影響公眾輿論。如果一些具有非真實性的網(wǎng)絡(luò)輿情未被檢測出來,就會對民眾帶來極大的負面態(tài)度以及情緒,以及在認識上和意愿上表現(xiàn)出多重不良影響,這就會給社交網(wǎng)絡(luò)的安全安全帶來嚴重的威脅[1]。因此,及時掌握網(wǎng)絡(luò)輿情,正確認識其輿情動向十分重要。這也極大地推動了網(wǎng)絡(luò)輿論檢測的研究。

        例如2013年4月23日,一個被盜的名為美聯(lián)社的Twitter帳戶四處報道白宮發(fā)生兩起爆炸事件并且巴拉克·奧巴馬受傷的假新聞。雖然美聯(lián)社和白宮在幾分鐘后向民眾保證該報告不真實,但是由于辟謠的滯后性,等到官方辟謠的時候,數(shù)百萬用戶的快速妄想導(dǎo)致由作者引起的嚴重的社會恐慌,直接導(dǎo)致股市損失1365億美元,這是一起虛假信息的網(wǎng)絡(luò)輿情,展示出社交媒體對虛假信息的脆弱性。突出了網(wǎng)絡(luò)輿情監(jiān)測準(zhǔn)確性的實用價值,而且網(wǎng)絡(luò)輿情的實時監(jiān)測對早期防范謠言傳播具有重要意義,有助于將謠言傳播的負面影響降到最低。

        1 相關(guān)工作

        以前對網(wǎng)絡(luò)輿論的研究主要是從心理學(xué)或社會學(xué)的角度,研究網(wǎng)絡(luò)信息中其對政府或社會的影響,并分析其活動的模式觀點。但是如果缺少了計算機等工學(xué)方面對其活動的量化分析,無法為互聯(lián)網(wǎng)管理部門的決策提供更可信的結(jié)果[2]。在當(dāng)今的社會網(wǎng)絡(luò)輿論的監(jiān)測中,不僅可以提取文本信息,還能從網(wǎng)絡(luò)中提取出文本的情感。與傳統(tǒng)的文本文檔相比,網(wǎng)頁包含有已被證明在提取情感方面是有用的額外的信息,如URL、HTML標(biāo)簽等。近年來,工業(yè)界對網(wǎng)絡(luò)輿情都進行了大量研究,。例如Liu等人分析了微內(nèi)容下的網(wǎng)絡(luò)輿論,他們將微內(nèi)容定義為信息本體和信息狀態(tài)的組合,分析了微內(nèi)容的信息特征,觀點收斂和演化特征。分析出由于微觀內(nèi)容的融合便利性,易爆炸性和社會性等特性,造成熱點的形成是網(wǎng)絡(luò)輿論的主要原因[3]。葉平豪等人利用共詞分析和可視化方法,在前沿研究文獻的熱點上利用對知識圖譜的知識,進行了許多規(guī)模分析和社會網(wǎng)絡(luò)分析[4]。劉志明等人利用用戶的影響力和用戶的積極性,構(gòu)建了輿論領(lǐng)導(dǎo)者的指標(biāo)體系,并運用層次分析法對指標(biāo)的權(quán)重進行了分析,明意見領(lǐng)袖是與主題相關(guān)的,只有少數(shù)用戶可以成為不同主題的意見領(lǐng)袖[5]。黃偉等人將本體和語義計算的相關(guān)技術(shù)引入網(wǎng)絡(luò)群體事件的主題發(fā)現(xiàn)研究中,并進行實證研究,實驗結(jié)果表明該方法可以有效地獲取主題信息,有助于網(wǎng)絡(luò)群體事件的主題發(fā)現(xiàn)[6]。陳翔等人分析了基于CBR的網(wǎng)絡(luò)輿情輔助決策系統(tǒng)的工作流程,并提出了基于CBR的網(wǎng)絡(luò)輿情輔助決策系統(tǒng)的框架并分析了輔助決策系統(tǒng)的關(guān)鍵要素[7]。而鄭奎等人針對網(wǎng)絡(luò)輿情研究在公共安全中的需求,運用中文分詞技術(shù)在應(yīng)急管理領(lǐng)域,提出了一種基于ICTCLAS的網(wǎng)絡(luò)輿情熱點信息自動檢測方法,并通過實例驗證了該方法的可靠性與實用性[8]。

        2 網(wǎng)絡(luò)輿情檢測模型

        2.1 問題定義

        網(wǎng)絡(luò)輿情的監(jiān)測研究問題可以定義如下:對于一個給定的關(guān)于特定網(wǎng)絡(luò)信息的文本,當(dāng)前系統(tǒng)的任務(wù)是判斷該信息它是否是輿情。這個問題可以定義為一個二分類問題,通過輸入推文,將該推文分類為輿情信息與正常信息。

        2.2 模型處理流程

        圖1為本文提出的基于深度學(xué)習(xí)的網(wǎng)絡(luò)輿情研究的結(jié)構(gòu)與流程,如圖1所示,整個模型由基于Word2Vec算法中的CBOW模型的但詞向量化處理,與基于LSTM算法的輸出預(yù)測來判斷輿情構(gòu)成,大致的處理流程如下:

        (1)將要使用的數(shù)據(jù)集進行去重,刪除特殊符號,去除表情等去噪聲操作,然后再將文本通過分詞工具,將句子分為一系列的詞語{word(1),word(2),…,word(i)}。

        (2)再通過使用Word2Vec中的CBOW模型,將經(jīng)過分詞后的詞語向量化,將詞語序列變?yōu)橄蛄啃蛄?。并計算出該模型中的各個詞的權(quán)重。并計算一個總的權(quán)重。

        (3)將向量序列的詞語輸入RNN的深度學(xué)習(xí)算法的LSTM模型中,然后將最后一個時間步驟上預(yù)測類作為輸出向量。然后輸出的標(biāo)簽結(jié)果判定該網(wǎng)絡(luò)信息為輿論信息還是正常信息。

        圖1 輿論監(jiān)測模型

        3 算法介紹

        Word2Vec算法:Word2Vec算法是Google公司推出的一個自然語言處理工具,它能夠?qū)⒁粋€一個的單詞轉(zhuǎn)化為向量,這樣就讓詞與詞之間形成定量的去度量他們之間的關(guān)系,從而達到挖掘詞語之間的聯(lián)系。本文就使用Word2Vec中的CBOW神經(jīng)網(wǎng)絡(luò)模型來訓(xùn)練以得到合適的詞向量。

        3.1 CBOW 模型

        (1)輸入層:因為上下文單詞采用的One-Hot編碼來記錄詞向量,V為詞庫的單詞個數(shù),C為上下文的單詞個數(shù)。假設(shè)上下文的單詞個數(shù)C=i,那么模型的輸入就是i個單詞由One-Hot編碼的詞向量。

        (2)開始初始化權(quán)重矩陣WV×N,使用輸入的One-Hot編碼詞向量乘上該矩陣,所得到向量w1,w2,…,wc,維數(shù)為N。不過這里的維數(shù)N根據(jù)任務(wù)根據(jù)自己需要設(shè)置。

        (3)然后將所得的權(quán)重向量w1,w2,…,wc相加,求得平均數(shù)作為隱藏層的向量h。

        (4)上述操作結(jié)束后,就可以初始化另一權(quán)重矩陣W’MxV,將隱藏層向量h乘上W’MxV,再通過激活函數(shù)的處理得到向量y,維數(shù)為V,向量y中每一個數(shù)據(jù)代表每個單詞的概率分布。

        (5)向量y中概率最大的概率分布的單詞輸出為預(yù)測出的中間詞,與真標(biāo)簽的One-Hot編碼的詞向量相互比較,他們之間的誤差越小越好,然后再根據(jù)誤差來更新兩個權(quán)重矩陣以達到權(quán)重更新。

        CBOW在訓(xùn)練前需要先定義好交叉熵代價函數(shù),權(quán)重更新采用梯度下降算法。模型訓(xùn)練完畢后,在輸入層的每個單詞和輸入層的向量矩陣W相乘得到的數(shù)據(jù)也就是詞向量,因為在One-Hot編碼的詞向量中為1元素,只有一個,剩下的都為0,所以會出現(xiàn)矩陣W乘上第i個詞向量得到矩陣的第i行,有了該矩陣就可以丟棄模型訓(xùn)練的過程,直接通過查表而得到單詞的詞向量。

        圖2 CBOW模型原理

        3.2 LSTM 算法

        LSTM是深度學(xué)習(xí)中一種特定的RNN形式。LSTM的優(yōu)勢在于增加遺忘門限,輸入門限與輸出門限,從而讓自己具有變化的循環(huán)權(quán)重,這就會在有參數(shù)固定的情況下,即使在不同時刻,積分尺度依然可以隨之動態(tài)改變,這就解決了梯度膨脹或者梯度消失等問題。根據(jù)LSTM網(wǎng)絡(luò)的結(jié)構(gòu),每個LSTM單元的計算公式如下所示,其中Ft表示遺忘門限,It表示輸入門限,Ct表示前一時刻cell狀態(tài)、Ct表示cell狀態(tài)(這里就是循環(huán)發(fā)生的地方),Ot表示輸出門限,Ht表示當(dāng)前單元的輸出,Ht-1表示前一時刻單元的輸出。

        4 實驗

        4.1 數(shù)據(jù)集

        (1)LIAR數(shù)據(jù)集[9]是用于偽造新聞檢測的最新基準(zhǔn)數(shù)據(jù)集。該數(shù)據(jù)集由PolitiFact收集了12,836個現(xiàn)實世界的短信息,來自包括辯論、競選、Facebook、Twit?ter、訪談、廣告等各種場合。每個語句都標(biāo)有真實性的大小。有關(guān)主題的信息、派對、背景和演講者也在內(nèi)在此數(shù)據(jù)集中。

        (2)Vlachos是第一個研究的人PolitiFact數(shù)據(jù)[10],但LIAR數(shù)據(jù)集的數(shù)量級更大更全面。但是,請注意該原始LIAR數(shù)據(jù)集不包括編輯的理由或版權(quán)證明問題,用戶將需要獲取理由/證據(jù)分別使用API。

        本文用到的數(shù)據(jù)集即為上述兩個數(shù)據(jù)集的混合,整個數(shù)據(jù)集上應(yīng)用了10倍的交叉驗證,并對數(shù)據(jù)集中缺失的信息進行了填充,以便在不同的場合下信息,而保持特征向量的統(tǒng)一,以便后續(xù)分析及處理。

        4.2 實驗設(shè)置

        為了模擬出現(xiàn)實生活中的網(wǎng)絡(luò)輿情的爆發(fā),我們進行了5倍的交叉驗證。在每次運行中,我們使用四分之三的數(shù)據(jù)集來訓(xùn)練我們的模型以及基線分類器。然后使用剩余的四分之一的數(shù)據(jù)集來評估這些分類器在精度、召回和F1方面的性能。此外,為了確保訓(xùn)練結(jié)果的穩(wěn)定性,并對分類進行更穩(wěn)健的估計。對于我們的深度學(xué)習(xí)模型,我們對每個模型配置重復(fù)了5倍交叉驗證的每一次運行五次。

        基線分類器:本文不僅通過對比K-means、SVM與樸素貝葉斯等幾種傳統(tǒng)的機器學(xué)習(xí)方法,還對比了在網(wǎng)絡(luò)輿情方面先進的監(jiān)測技術(shù)。DTR:一種基于決策規(guī)則的識別趨勢謠言的排序方法,它搜索有爭議的事實索賠的查詢短語和聚類,并對聚類結(jié)果進行排序關(guān)于統(tǒng)計特征的SED。SVM-RBF:基于SVM的Twitter信息可信度模型,該模型具有RBF內(nèi)核的模型,使用了基于帖子總體統(tǒng)計的手工制作的特性。

        4.3 結(jié)果分析

        表1分別有準(zhǔn)確度、F1值、召回率的平均分數(shù),數(shù)字越大,代表模型效果越好,分別在同樣的數(shù)據(jù)集對比了不同基線模型得出的分數(shù)。

        表1 不同方法各個評價值

        實驗結(jié)果表明,在所有基線分類器中,DTC在較其他傳統(tǒng)機器學(xué)習(xí)在準(zhǔn)確率方面表現(xiàn)較好,而條件隨機字段(SVM-RBF)在精確度方面表現(xiàn)較好。這和使用該方法的論文結(jié)果一致。從表1可以看出,我們提出的方法明顯在精度、F1值等評價指標(biāo)下得出的數(shù)據(jù)都優(yōu)于本數(shù)據(jù)集上的同時訓(xùn)練的所有基線,它實現(xiàn)了高召回率,能更好地實現(xiàn)網(wǎng)絡(luò)輿情的監(jiān)測,更加實現(xiàn)實時監(jiān)測效果。

        5 結(jié)語

        我們提出了一種基于CBOW詞向量化,LSTM的深度學(xué)習(xí)算法的新方法來監(jiān)測網(wǎng)絡(luò)輿情,使用了liar這種包含各個場景的信息,并且在數(shù)據(jù)集里面還包含標(biāo)簽,鏈接等額外信息用于輔助判斷輿情的發(fā)展。在模型訓(xùn)練的每個時間步驟中,LSTM的上時間段的輸出被用作下一時間段的輸入,具有時效性,能看清輿情的發(fā)展受時間影響的大小。

        這項研究還表明在深度學(xué)習(xí)訓(xùn)練的模型中,RNN和CNN往往都需要更大的數(shù)據(jù)集,雖然本文訓(xùn)練較其他方法有較好的效果,但是效果并沒有達到理想狀態(tài)。在某些情況下,需要更多層的神經(jīng)網(wǎng)絡(luò)來有效地訓(xùn)練它們的模型,從而提高模型性能的魯棒性。

        猜你喜歡
        輿情輿論向量
        向量的分解
        聚焦“向量與三角”創(chuàng)新題
        阿桑奇突然被捕引爆輿論
        輿情
        中國民政(2016年16期)2016-09-19 02:16:48
        輿情
        中國民政(2016年10期)2016-06-05 09:04:16
        突發(fā)事件的輿論引導(dǎo)
        向量垂直在解析幾何中的應(yīng)用
        輿情
        中國民政(2016年24期)2016-02-11 03:34:38
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
        誰能引領(lǐng)現(xiàn)代輿論場?
        中國記者(2014年6期)2014-03-01 01:39:54
        国产 字幕 制服 中文 在线| 免费国产不卡在线观看| av色一区二区三区精品 | 黄网站欧美内射| 免费成人毛片| 久久国产精品国产精品久久| 国产精品亚洲二区在线看| 国产精品无码aⅴ嫩草| 亚洲av无码1区2区久久| 日本一区二区三区激情视频| 国产精品三级在线不卡| 人妻体内射精一区二区三区| 99精品国产综合久久久久五月天| 日本欧美小视频| 日韩丝袜人妻中文字幕| 人妻有码av中文幕久久| 美女露内裤扒开腿让男人桶无遮挡 | 亚洲av永久无码天堂网| 少妇特黄a一区二区三区| 日韩熟妇精品视频一区二区| 精品少妇白浆一二三区| 在线观看亚洲第一黄片| 熟女少妇内射日韩亚洲| 伊人久久网国产伊人| 亚洲精品视频免费在线| 国产91精品高潮白浆喷水 | 蜜桃在线高清视频免费观看网址| 精品国产yw在线观看| 精品人妻人人做人人爽| 国产激情一区二区三区成人免费| 亚洲第一页在线免费观看| 亚洲精品第一页在线观看| 五月综合激情婷婷六月色窝| 亚洲视频在线看| 亚洲一区二区女优av| 公厕偷拍一区二区三区四区五区| 日本高清视频xxxxx| 日韩二三区| 一区二区视频网站在线观看| 久久精品免费中文字幕| 9lporm自拍视频区|