亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合時間序列與卷積神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)謠言檢測

        2022-05-10 08:45:38汪建梅余晨鈺
        小型微型計算機系統(tǒng) 2022年5期
        關(guān)鍵詞:特征文本模型

        汪建梅,彭 云,余晨鈺

        (江西師范大學(xué) 計算機信息工程學(xué)院,南昌 330022)

        1 引 言

        截至2020年6月,我國網(wǎng)民規(guī)模達(dá)到9.40億,互聯(lián)網(wǎng)普及率達(dá)67.0%(1)http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/202009/P020200929546215182514.pdf.隨著互聯(lián)網(wǎng)的普及,大多數(shù)用戶不斷從社交媒體獲取信息,同時通過社交媒體表達(dá)和傳播信息.隨著在線社交媒體的迅速發(fā)展,大量不可靠的謠言信息可能會大量涌現(xiàn).社交媒體上的謠言信息泛濫,可能使人們難以將可信信息與眾多復(fù)雜信息區(qū)分開,從而影響人們的正常生活秩序,尤其是在突發(fā)公共事件(自然災(zāi)害,意外事故)下,公共衛(wèi)生事件,社會保障事件,經(jīng)濟危機等),謠言廣泛傳播可能極具破壞性.因此,在謠言的早期階段自動有效地識別網(wǎng)絡(luò)中的謠言具有重要意義.

        謠言檢測的主要任務(wù)是檢測微博帖子的相關(guān)事件是否為謠言,不是判斷某一條具體微博是否為謠言.現(xiàn)有的謠言檢測模型可以大致分為兩類:基于傳統(tǒng)機器學(xué)習(xí)的謠言檢測和基于深度學(xué)習(xí)的謠言檢測.

        基于傳統(tǒng)機器學(xué)習(xí)的謠言識別模型主要是利用了微博文本的符號特征、含有的鏈接特征、關(guān)鍵詞分布特征和時間差等手工制作的特征,在綜合用戶特征和傳播特征,利用SVM分類學(xué)習(xí)方法對微博進(jìn)行分類[1-3],然后在此基礎(chǔ)提出不同的系統(tǒng)識別框架.V.Qazvinian等[4]通過分析Twitter文本的淺層文本特征、行為特征和元素特征,構(gòu)建多個貝葉斯分類研究來識別謠言.早期Mendoza等[5]通過分析Twitter謠言傳播的結(jié)構(gòu),得出在出現(xiàn)重大事件時,Twitter更容易傳播謠言,并且通過圖傳播分析傳播源的可信性來判斷事件的可信度.還有學(xué)者通過分析Twitter文本特征、轉(zhuǎn)發(fā)率、傳播時間點特征計算可信度分?jǐn)?shù)[6,7]與基尼系數(shù)(Gini)[8]來識別謠言.Vasu等[9]分別討論了詞袋、n_grams、計數(shù)矢量器、TF-IDF這四個基本分類器對謠言識別的效果.也有學(xué)者另辟蹊徑,提出基于話題[10,11]的謠言檢測框架,可以降低謠言在沒有轉(zhuǎn)發(fā)或人群反應(yīng)的情況下的互動缺失影響.李明彩等[12]提出最大熵模型,將信息中的詞匯作為特征,計算文本的最大熵,得出謠言與非謠言的概率,并將該模型與傳統(tǒng)的SVM、BP、Bayes[13]方法比較,得到較好結(jié)果.羅嗣卿等[14]、蔡國永等[15]、曾子明等[16]都加入了謠言微博文本的情感特征,并利用LDA主題模型深入挖掘微博文本的主題分布特征,再采用分別采用隨機森林、決策樹、組合決策樹算法進(jìn)行謠言識別.傳統(tǒng)的機器學(xué)習(xí)方法從單純的手工制作特征到利用器和集成分類器,雖然所有降低勞動強度,但是仍然不能形成重要特性之間的高層交互.

        為了挖掘動態(tài)復(fù)雜的社交媒體場景中的關(guān)鍵特征,深度神經(jīng)網(wǎng)絡(luò)是一個很好的選擇.采用循環(huán)神經(jīng)網(wǎng)絡(luò)GRU[17,18]、LSTM[19]、RNN[20,21]等以及這些基礎(chǔ)網(wǎng)絡(luò)的變體來深層挖掘謠言微博文本以及謠言傳播的特征,結(jié)果證明基于神經(jīng)網(wǎng)絡(luò)的謠言檢測方法優(yōu)于人工構(gòu)造特征的謠言檢測模型.Ma J等[22]同樣利用RNN來捕捉帖子的上下文信息隨時間的變化.Zhihong Wang等[23]在GRU的基礎(chǔ)上添加了情緒詞典和動態(tài)時間序列特征來優(yōu)化GRU算法.循環(huán)神經(jīng)網(wǎng)絡(luò)更加關(guān)注時間序列帶來的特征影響,并且對卷積神經(jīng)網(wǎng)絡(luò)的內(nèi)部特征關(guān)系沒有深入的研究.劉政等[24]提出卷積神經(jīng)網(wǎng)絡(luò)模型,將微博中的謠言事件向量化,通過卷積神經(jīng)網(wǎng)絡(luò)隱含層的學(xué)習(xí)訓(xùn)練來挖掘表示文本深層的特征,Santhoshkumar等[25]提出一種基于特定因素的卷積神經(jīng)網(wǎng)絡(luò)(CNN)方法.采用兩個并行的CNN進(jìn)行謠言事件分類,然后再利用決策樹將這兩個CNN的輸出組合在一起,并提供分類輸出.在卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上衍生出了基于圖卷積神經(jīng)網(wǎng)絡(luò)模型[26]的謠言識別方法,將微博謠言數(shù)據(jù)轉(zhuǎn)換為圖數(shù)據(jù),再利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練有標(biāo)注數(shù)據(jù),通過更新圖中節(jié)點權(quán)重,將該信息傳遞給無標(biāo)注數(shù)據(jù),大大降低了謠言數(shù)據(jù)標(biāo)注的工作量.

        CNN在謠言識別中取得了很好的結(jié)果,但沒有考慮到謠言各個生命周期之間的時間序列特征,對現(xiàn)有的卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行了改進(jìn).

        主要貢獻(xiàn)如下:

        1)提出卷積神經(jīng)網(wǎng)絡(luò)(CNN)與時間序列算法進(jìn)行微博謠言識別;

        2)改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)(CNN)與時間序列算法的全連接層分類函數(shù),增強模型泛化能力.

        2 相關(guān)工作

        在自然語言處理方面,卷積神經(jīng)網(wǎng)絡(luò)在語句分類[27]、語義分析[28]、實體關(guān)系分類[29]、注意力機制[30]等中都取得了很好的效果.在謠言識別方面,劉政提出基于卷積神經(jīng)網(wǎng)絡(luò)的模型,利用Doc2Vec[31]將微博帖子向量化,并且將卷積核的大小設(shè)為帖子向量的長度,可以有效地提取帖子與帖子之間、帖子內(nèi)部之間的特征.劉政等的模型大大降低了人工構(gòu)造特征的勞動強度,并且學(xué)習(xí)到微博帖子之間的深層特征,但是并沒有考慮謠言不同生命周期之間帖子的時間序列特征.Adel等[30]對卷積神經(jīng)網(wǎng)絡(luò)識別謠言進(jìn)行改進(jìn),添加不確定檢測因素的注意力機制,該模型利用文本的單詞向量序列、外部網(wǎng)絡(luò)環(huán)境變化來檢測事件的真假.Feng Yu等[32]提出一個用于錯誤信息和早期發(fā)現(xiàn)任務(wù)的CAMI模型,收集事件數(shù)據(jù)集的數(shù)據(jù)分布,觀察假信息和真信息的長尾分布,將微博帖子分組,再利用Doc2Vec得到文本向量表示,作為卷積神經(jīng)網(wǎng)絡(luò)的輸入.Feng Yu等該模型檢測帖子中的真假信息,雖考慮到帖子之間的時間序列特征,但是參數(shù)過于龐大,占據(jù)太多資源.Dazhen等[33]在考慮內(nèi)容特征和社交特征的基礎(chǔ)上,還考慮了文本單詞序列上下文特征,采用LSTM獲取內(nèi)容的雙向序列上下文信息,然后將深層序列上下文信息與社會特征結(jié)合,用CNN學(xué)習(xí)內(nèi)容與社會特征之間的聯(lián)系.Jing MA等[34]提出DSTS算法,使用時間序列來考慮社會語境特征在謠言傳播過程中隨時間變化的特征,在利用SVM算法進(jìn)行謠言識別,但是并沒有考慮到微博文本上下文之間或微博文本之間的深層特征.

        綜合分析,現(xiàn)有的利用卷積神經(jīng)網(wǎng)絡(luò)檢測網(wǎng)絡(luò)謠言的模型存在以下問題:

        1)卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練模型,模型過于復(fù)雜,參數(shù)過于龐大,占據(jù)過大資源;

        2)卷積神經(jīng)網(wǎng)絡(luò)并未很好處理謠言生命周期之間的時間序列特征;

        3 CNN-TS謠言檢測模型

        3.1 基本定義

        實驗的研究對象是微博謠言事件,關(guān)注的是微博發(fā)布的相關(guān)事件是否是謠言,而不是關(guān)心與該事件相關(guān)的微博帖子是否為謠言.微博事件一旦被檢測為謠言,那么傳播與該事件相關(guān)的帖子也應(yīng)該被視為謠言.例如,“中美不同的教育方式的結(jié)果是:教育進(jìn)展國際評估組織的調(diào)查顯示,在21個被調(diào)查國家中,中國孩子的計算能力排名第一,想象力排名倒數(shù)第一,創(chuàng)造力排名倒數(shù)第五.此外,在中國的中小學(xué)生中,認(rèn)為自己有好奇心和想象力的只占4.7%,而希望培養(yǎng)想象力和創(chuàng)造力的只占14.9%.”(2)https://www.sohu.com/a/74593586_101403這條謠言以及相關(guān)微博帖子“這種發(fā)展趨勢很可怕…”“[給力]”“家長、社會、教育專家和行政官員是推手,值得反思,但目前看不到希望,因為大家都跟著感覺走,沒有徹底改革的勇氣.”等就構(gòu)成了一個謠言事件,而本文判斷的僅是“中美不同的教育方式的結(jié)果是:教育進(jìn)展國際評估組織的調(diào)查顯示,在21個被調(diào)查國家中,中國孩子的計算能力排名第一,想象力排名倒數(shù)第一,創(chuàng)造力排名倒數(shù)第五.此外,在中國的中小學(xué)生中,認(rèn)為自己有好奇心和想象力的只占4.7%,而希望培養(yǎng)想象力和創(chuàng)造力的只占14.9%.”(3)https://www.sohu.com/a/74593586_101403這個微博事件是否是謠言,而其相關(guān)微博帖子是否是謠言并不關(guān)心.因此,針對融合時間序列與卷積神經(jīng)網(wǎng)絡(luò)模型給出相關(guān)的符號解釋和定義.

        定義1.謠言事件[34].定義所有微博事件集合E={Ei},其中Ei={mi,j},Ei是指第i個事件,包含與其相關(guān)的所有微博帖子,mi,j是指第i個事的第j條微博帖子.要達(dá)到的目標(biāo)就是判斷Ei,j是否是謠言事件.

        3.2 理論基礎(chǔ)

        3.2.1 Doc2Vec段落向量的構(gòu)建

        一個謠言事件有Ei,j若干條微博帖子mi,j,將每一條微博帖子的文本視為謠言事件的一個段落文本.根據(jù)Doc2Vec[31]中對段落文本向量的處理如式(1)所示.

        (1)

        其中,N是段落文本的詞個數(shù),一個單詞表示成的單詞向量為Wn,單詞向量組成的集合是W,gj是一個段落向量,D是所有段落向量組成的集合.

        利用Softmax函數(shù)對段落中的單詞進(jìn)行概率預(yù)測的公式如公式(2)、公式(3)所示.

        (2)

        xn=h(gj,wn-k,…,wn+k;D,W)

        (3)

        其中,θ是Softmax函數(shù)的參數(shù),h代表著連接函數(shù)或者平均函數(shù).

        3.2.2 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)原理

        黨建武等[35]中描述了卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),如圖1所示.深度學(xué)習(xí)能夠?qū)崿F(xiàn)數(shù)據(jù)的逐層轉(zhuǎn)換,深入提取隱藏特征.

        圖1 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖

        CNN對輸入數(shù)據(jù)進(jìn)行一系列的卷積與池化操作.其中,卷積層是卷積神經(jīng)網(wǎng)絡(luò)的核心,卷積層對輸入層數(shù)據(jù)中的每個特征進(jìn)行局部感知,然后在更高層次上對局部特征進(jìn)行綜合運算,從而得到全局信息.卷積層的計算公式如(4)所示.

        F=f(X?W+b)

        (4)

        其中,F為卷積層中多個卷積核的輸出特征矩陣,X為輸入數(shù)據(jù)向量,f為非線性激活函數(shù),?為卷積操作,W為各個卷積核的權(quán)重矩陣,b為各個卷積核的偏置項.非線性激活函數(shù)是對卷積層的輸出進(jìn)行非線性映射操作,以增強函數(shù)的特定數(shù)值性質(zhì),ReLU函數(shù)通常用于中間層的非線性激活,因為其迭代速度快,Softmax函數(shù)一般用于最后一層的激活功能.

        池化層是池化卷積層的輸出,保留主要特征,壓縮數(shù)據(jù)和參數(shù)的數(shù)量,減少過度擬合,提高模型的容錯性,計算如公式(5)所示.

        P=pool(F)

        (5)

        其中,P表示池化層的特征輸出結(jié)果,pool表示池化函數(shù),一般分為Max Pooling和Average Pooling.

        全連接層是以平滑化后的特征矩陣作為全連通層的輸入矩陣,然后以激活函數(shù)作為分類函數(shù),輸出每個分類標(biāo)簽的概率.

        3.2.3 K折交叉驗證法

        K折交叉驗證法是減少過擬合,解決數(shù)據(jù)量不夠多,導(dǎo)致檢測效果差的常用操作方法.K折交叉驗證就是將給定的數(shù)據(jù)集均分為K份,經(jīng)過若干次迭代,第K次迭代取第K折數(shù)據(jù)作為測試集,另外K-1份數(shù)據(jù)作為訓(xùn)練集,直到K折中的每折數(shù)據(jù)都用作測試集.然后將總迭代的測試結(jié)果與訓(xùn)練結(jié)果的平均值作為最后的測試與訓(xùn)練結(jié)果.K折交叉驗證法的結(jié)構(gòu)原理圖如圖2所示.

        圖2 K折交叉驗證法原理圖

        3.3 CNN-TS模型結(jié)構(gòu)

        3.3.1 CNN-TS模型流程圖

        提出的謠言檢測的流程圖如圖3所示.首先獲取微博中的事件數(shù)據(jù),其中包含謠言數(shù)據(jù)與非謠言數(shù)據(jù),將其隨機打亂,保證訓(xùn)練集、驗證集和測試集的數(shù)據(jù)分布都是相同的;其次,將每個事件數(shù)據(jù)作為一個整體,并對與之相關(guān)的每個微博帖子進(jìn)行文本向量化.然后將該事件數(shù)據(jù)的文本向量按對應(yīng)的時間序列進(jìn)行排序,均分為20組;最后將這20組向量作為輸入矩陣,進(jìn)行卷積神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練.

        圖3 微博謠言檢測流程圖

        3.3.2 微博帖子的時間序列分組

        一個有影響力的微博事件的帖子數(shù)量至少有幾百條,甚至達(dá)到幾萬條,不同事件的帖子數(shù)量差異大.但是謠言事件的生存周期分為潛伏期、滋生期、蔓延期、消退期,在這4個時間段內(nèi)和4個時間段之間的微博帖子文本特征具有相似的特征及變化趨勢.因此將這些按照時間序列排好的相鄰帖子視為一個組,代表事件的一個特定生命周期.這樣做的考慮是:更多關(guān)注各個時間段內(nèi)的微博帖子內(nèi)容的特征關(guān)系,并且可以提取出各個時間段之間的微博文本的特征,而不是單獨一條微博帖子之間的特征關(guān)系.一個微博謠言事件的發(fā)展在各個時間段內(nèi)的帖子內(nèi)容會有差異,而且這樣做能夠大大減少模型輸入數(shù)據(jù)的復(fù)雜度.帖子的時間序列分割參考MA等[34]中的操作.

        對于一個事件Ei,其帖子的起始時間為time_Begini,帖子的結(jié)束時間為time_Endi,將每條微博mi,j的時間ti,j轉(zhuǎn)換為0到N之間內(nèi)的時間戳,N是時間間隔數(shù),在本文中N取20.那么對于事件Ei的帖子時間間隔time_Intervali和每一條帖子的時間戳數(shù)的time_Stampmi,j計算公式如公式(6)和公式(7)所示.

        (6)

        (7)

        然后收集所有相關(guān)微博帖子的時間戳,并從每個事件的所有時間戳中減去相應(yīng)事件的開始時間戳.然后將這些時間戳規(guī)范化為0-1尺度.最后將整個時間戳按時間順序平均分割為20個份額,每個時間窗口內(nèi)的帖子表示為如式(8)所示.

        Ti=[time_Stampmi,j-1,time_Stampmi,j),j=1,2,3,…,20

        (8)

        然后將分組后的帖子Ti利用Doc2Vect文本向量化,作為輸入矩陣傳入卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練.第i個微博謠言事件的相關(guān)帖子分組后,得到的向量矩陣的表示如式(9)所示.

        V(Ei)=(Fi,1,Fi,2,…,Fi,20)

        (9)

        其中,Ei是第i個謠言事件,Fi,20是分組后的20個特征向量.

        向量按時間序列分組的模型結(jié)構(gòu)如圖4所示.

        圖4 時間序列分組的模型結(jié)構(gòu)圖

        3.3.3 CNN-TS的卷積神經(jīng)網(wǎng)絡(luò)模型

        用于卷積神經(jīng)網(wǎng)絡(luò)的模型結(jié)構(gòu)如圖5所示.

        圖5 微博謠言的卷積神經(jīng)網(wǎng)絡(luò)模型圖

        其中Fi,j∈Rk,表示謠言事件Ei的第j條微博的文本向量,其維度為k.一個包含n條相關(guān)微博的謠言事件的文本向量可以表示為如式(10)所示.

        Ei=Fi1⊕Fi2⊕Fi3⊕…⊕Fin

        (10)

        其中⊕表示串聯(lián)操作.

        卷積層:利用卷積核filterw∈Rh*k對輸入向量進(jìn)行卷積操作得到新的特征向量.例如,第1層隱含層的3個卷積核的操作計算公式如式(11).

        (11)

        池化層:對卷積后的特征矩陣進(jìn)行壓縮,一方面使特征矩陣變小,一另一方面提取主要特征.本實驗采用的是maxpooling,將特征矩陣切成幾個區(qū)域,取其最大值,保持原有的矩陣特征得出池化后的特征值.

        全連接層:將經(jīng)過多個卷積層與池化層后的特征矩陣作為全連接層的輸入矩陣,一般采用Softmax函數(shù)作為分類函數(shù)進(jìn)行操作,其輸出為每一個分類標(biāo)簽的概率.

        卷積核filter的設(shè)置是采用劉政等[24]文獻(xiàn)中的操作:將filter的寬度等于輸入矩陣的寬度.每一行是微博事件的按時間序列分組后的微博帖子向量,這樣設(shè)置,能夠更加關(guān)注微博帖子文本之間的特征關(guān)系,而不是微博帖子文本內(nèi)部的詞語之間的特征關(guān)系.

        3.4 模型結(jié)構(gòu)的改進(jìn)

        卷積神經(jīng)網(wǎng)絡(luò)對標(biāo)簽的分類方法主要由兩部分組成:一個是分?jǐn)?shù)函數(shù),它將原始數(shù)據(jù)映射到類別分?jǐn)?shù);另一個是損失函數(shù),它量化了預(yù)測分?jǐn)?shù)和實際分?jǐn)?shù)之間的一致性,主要用來表示一個標(biāo)簽的概率.神經(jīng)網(wǎng)絡(luò)模型可以通過更新評分函數(shù)的參數(shù)使損失函數(shù)值最小化,達(dá)到模型最優(yōu)的目的.分類函數(shù)softmax與SVM的損失函數(shù)是不同的,它們的區(qū)別如下:

        1)softmax函數(shù)的損失函數(shù)是cross-entropyloss,如式(12)、式(13)所示.

        (12)

        (13)

        其中,fyi是把標(biāo)簽i預(yù)測為yi的分?jǐn)?shù),j是分類結(jié)果中的一個,Li是在[0,1]之間的損失.Pyi是數(shù)據(jù)分類的Softmax值,即分類正確的概率,Softmax值越大,該模型的損失也就越小.

        2)SVM函數(shù)的損失函數(shù)是hinge-loss.分類器輸入樣本xi后,第j個類別的評分是:

        sj=f(xi,W)j

        (14)

        則對第i個樣本的損失為:

        (15)

        該計算公式只關(guān)注正確分?jǐn)?shù)比不正確大Δ的值,在用hinge-loss訓(xùn)練時,需考慮預(yù)期的損失函數(shù)該有多大.

        因此,先用Softmax函數(shù)對輸入數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,得到預(yù)期的損失函數(shù)值大小,然后再次輸入模型,將分類函數(shù)Softmax改為SVM,解決模型泛化能力不足的問題.

        CNN-TS模型采用的分類函數(shù)是Softmax,針對此問題,修改模型中的分類函數(shù)Softmax,采用SVM對池化后的特征向量進(jìn)行最終分類,模型結(jié)構(gòu)圖如圖6所示.

        圖6 SVM作為分類函數(shù)的CNN-TS改進(jìn)模型結(jié)構(gòu)圖

        4 實驗與分析

        4.1 實驗數(shù)據(jù)

        采用的實驗數(shù)據(jù)是Ma等[22]文獻(xiàn)中的公開數(shù)據(jù)集.該數(shù)據(jù)集中的微博數(shù)據(jù)是從新浪社區(qū)管理中心獲得的謠言與非謠言事件,該中心報道了各種不實信息.并通過爬蟲捕獲了這些事件的原始帖子以及所有相關(guān)的轉(zhuǎn)發(fā)/回復(fù)消息.該數(shù)據(jù)集的統(tǒng)計情況如表1所示.

        表1 微博數(shù)據(jù)的詳情統(tǒng)計情況表

        4.2 數(shù)據(jù)預(yù)處理

        收集到的實驗數(shù)據(jù)包含大量噪聲,會嚴(yán)重影響謠言識別效果,因此有必要在實驗前進(jìn)行數(shù)據(jù)噪聲處理.

        1)去除標(biāo)點符號.在本實驗中,只考慮帖子的文本特征,但某些標(biāo)點符號,如“!”也可作為一種特征,因此按照“!”“?”優(yōu)先級保留,其余則需移除.

        2)去除表情符號.本實驗中只考慮文本的特征,不考慮文本所展現(xiàn)出來的情感特征,因此需要移除表情符號,例如[開心].

        3)去除特殊符號.微博帖子包含無關(guān)信息,例如超鏈接和@某某,可以通過正則表達(dá)式匹配將其從數(shù)據(jù)集中刪除.

        4)分詞.微博帖子為短文本,在進(jìn)行文本處理時,其最小粒度應(yīng)為詞或詞語,因此需要進(jìn)行分詞操作.采用的是Python中的jieba分詞處理.

        5)去停用詞.停用詞是指不對文本特征有任何貢獻(xiàn)的詞.它不僅包含標(biāo)點符號,還包含語氣詞,人稱詞和地點詞之類的詞.但語氣詞也代表了文本的一種隱含特征,因此本實驗不去除語氣詞.本實驗采用的是哈工大停用詞表hit_stopwords.

        微博文本數(shù)據(jù)進(jìn)行噪聲處理,可以大大降低文本無關(guān)信息的噪聲影響,大大增強模型檢測效果.

        4.3 實驗評價指標(biāo)

        準(zhǔn)確率(accuracy),精確率(precision),召回率(recall),F1值常被用于評判實驗效果,本文同樣選取這4個指標(biāo).具體的計算方式如下:

        (16)

        預(yù)測正確的樣本數(shù)是樣本數(shù)中真謠言的樣本預(yù)測為真和假謠言的樣本預(yù)測為假的個數(shù);預(yù)測正確的正樣本數(shù)是預(yù)測正確的樣本數(shù)中預(yù)測為真的個數(shù);預(yù)測為正的樣本數(shù)為不論真實標(biāo)簽為真還是為假,都將其預(yù)測為真的個數(shù);總樣本中的正樣本數(shù)為總樣本中真實標(biāo)簽為真的個數(shù).準(zhǔn)確率反映的是檢測方法的準(zhǔn)確性,召回率反映的是檢測方法的覆蓋率,這兩個指標(biāo)的數(shù)值越大,表明檢測方法的整體效果越好.

        4.4 實驗設(shè)置

        將提出的模型與劉政等[24],Abhishek等[36]的模型進(jìn)行了對比.

        劉政等[24]的模型:劉政等提出采用卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行微博謠言的檢測,取得了良好的效果,本文的模型就是卷積神經(jīng)網(wǎng)絡(luò)模型的一種改進(jìn).

        Abhishek等[36]的模型:Abhishek等的模型是利用樸素貝葉斯、隨機森林和支持向量機這3種基本的機器學(xué)習(xí)模型對文本特征、用戶特征以及文本與用戶組合的特征進(jìn)行訓(xùn)練、識別.本實驗采用Abhishek中的基于RBF核模型的SVM方法,對組合特征進(jìn)行訓(xùn)練.本文模型對分類函數(shù)的改進(jìn)是利用了RBF核模型的SVM方法.

        提出的模型(CNN-TS):時間序列和卷積神經(jīng)網(wǎng)絡(luò)模型的融合由卷積層,池化層和兩個完全連接層組成.卷積層的寬度與輸入數(shù)據(jù)矩陣的寬度相同.輸入矩陣是使用Doc2Vec訓(xùn)練的文本向量矩陣.

        超參數(shù)設(shè)置:超參數(shù)的設(shè)置是參考劉政等[24]的參數(shù),filter的高度為3,dropout rate為0.5.每一條微博的維度k設(shè)為50.

        數(shù)據(jù)集的劃分:K折交叉驗證方法用于評估模型的預(yù)測性能.經(jīng)過訓(xùn)練的模型對新數(shù)據(jù)的性能可以在一定程度上減少過度擬合的情況,并可以從有限的數(shù)據(jù)中獲得盡可能多的有效信息,將K設(shè)置為10,并多次計算每個評估指標(biāo)的K折交叉驗證平均值.

        4.5 實驗結(jié)果

        模型CNN-TS與CNN,SVM-RBF的實驗結(jié)果比較如表2所示.

        表2 模型的實驗結(jié)果比較圖

        從表2中可以看出,融合時間序列與卷積神經(jīng)網(wǎng)絡(luò)的模型優(yōu)于基于支持向量機的RBF核模型和普通的卷積神經(jīng)網(wǎng)絡(luò)模型,比支持向量機模型準(zhǔn)確率提高0.082,精確率提高0.061,F1值提高0.089;比普通的卷積神經(jīng)網(wǎng)絡(luò)模型準(zhǔn)確率提高0.056,recall提高0.16,F1值提高0.081.因此融合了時間序列的卷積神經(jīng)網(wǎng)絡(luò)模型是優(yōu)于劉政等[24]提出的基本卷積神經(jīng)網(wǎng)絡(luò)模型以及Abhishek等[36]運用的支持向量機模型的.

        同時對CNN-TS的模型進(jìn)行改進(jìn),將最終的分類函數(shù)改為SVM得到改進(jìn)后的模型,最終的實驗結(jié)果比支持向量機模型準(zhǔn)確率提高0.097,精確率提高0.09,recall值提高0.112,F1值提高0.1;比普通的卷積神經(jīng)網(wǎng)絡(luò)模型準(zhǔn)確率提高0.071,精確率提高0.016,recall提高0.154,F1值提高0.092;比CNN-TS準(zhǔn)確率提高0.015,精確率提高0.029,F1值提高0.013.CNN-TS-SVM模型除了recall略低0.006外,其他準(zhǔn)確率、精確率、F1值都高于CNN-TS模型,因此在CNN-TS模型的基礎(chǔ)上,修改分類函數(shù),改進(jìn)后的CNN-TS(SVM)模型是優(yōu)于CNN-TS模型的.

        模型的輸入數(shù)據(jù)矩陣與劉政等[24]的卷積神經(jīng)網(wǎng)絡(luò)的輸入矩陣的規(guī)模對比如表3所示.

        表3 模型的輸入數(shù)據(jù)矩陣規(guī)模對比表

        模型融合了時間序列后,輸入矩陣的規(guī)模大大減小,大大減少了占用系統(tǒng)內(nèi)存,減少了訓(xùn)練時間,同時準(zhǔn)確率,召回率,F1值都優(yōu)于劉政等[24]提出的CNN模型.而且迭代步數(shù)在100步內(nèi)就可以收斂,同時不出現(xiàn)過擬合的情況.

        5 結(jié) 語

        提出了融合時間序列與卷積神經(jīng)網(wǎng)絡(luò)的謠言檢測算法模型,可以大大降低模型的復(fù)雜度,減小數(shù)據(jù)集的規(guī)模,又考慮到時間序列上的特征變化.提出的方法是通過將與某一個事件相關(guān)的所有微博帖子按時間序列分成若干組,再通過Doc2Vec處理成文本向量,最后作為卷積神經(jīng)網(wǎng)絡(luò)的輸入進(jìn)行訓(xùn)練預(yù)測.結(jié)果顯示,它們優(yōu)于卷積神經(jīng)網(wǎng)絡(luò)模型.為了進(jìn)一步改進(jìn),用Softmax分類函數(shù)的神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練好后,再一次用SVM模型進(jìn)行最后的分類,結(jié)果顯示,這種改進(jìn)優(yōu)于未改進(jìn)之前的狀態(tài).如何進(jìn)一步優(yōu)化神經(jīng)網(wǎng)絡(luò)模型,添加謠言文本和圖片的特征進(jìn)行更徹底的實驗將是下一個進(jìn)一步的研究工作.

        猜你喜歡
        特征文本模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        如何表達(dá)“特征”
        在808DA上文本顯示的改善
        不忠誠的四個特征
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        抓住特征巧觀察
        3D打印中的模型分割與打包
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        a观看v视频网站入口免费| 欧美性生交活xxxxxdddd| 久久久久久人妻一区精品| 亚洲色图+国产精品| 亚洲乱精品中文字字幕| 日本综合视频一区二区| 国产综合精品一区二区三区| 欧美freesex黑人又粗又大| 不卡国产视频| 午夜视频在线观看日本| 中文字幕无码中文字幕有码| 少妇高潮潮喷到猛进猛出小说| 亚洲国产成人AⅤ片在线观看| 国产自拍精品在线视频| 九九综合va免费看| 丰满熟女人妻中文字幕免费 | 成年女人在线观看毛片| 麻豆国产精品久久天堂 | 日本高清视频一区二区| 精品国际久久久久999波多野 | 人妻无码aⅴ中文系列久久免费| 国产一区二区免费在线观看视频| 人妻少妇精品视频专区vr| 国产精品欧美福利久久| 国产丝袜一区二区三区在线不卡| 一区=区三区国产视频| 久久精品成人一区二区三区| 毛茸茸的中国女bbw| 久久亚洲aⅴ精品网站婷婷| 亚洲精品国产亚洲av| 国产精品永久免费| 久久精品波多野结衣中文字幕| 日本道免费一区日韩精品| 国内精品免费一区二区三区| 欧美操逼视频| 国产高清在线91福利| 二区三区日本高清视频| 日本中文字幕一区二区高清在线| 国产真人无遮挡免费视频| 亚洲蜜臀av一区二区三区漫画| 人妻丰满熟av无码区hd|