亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于遷移學(xué)習(xí)的微博謠言檢測方法

        2021-12-23 04:35:26沈瑞琳潘偉民張海軍
        計算機工程與設(shè)計 2021年12期
        關(guān)鍵詞:深度特征文本

        沈瑞琳,潘偉民,張海軍

        (新疆師范大學(xué) 計算機科學(xué)技術(shù)學(xué)院,新疆 烏魯木齊 830054)

        0 引 言

        由于網(wǎng)絡(luò)的開放性、微博平臺的言論自由性等特點,微博在方便人們?nèi)粘I畹耐瑫r,也為謠言的產(chǎn)生提供了便利場所。本文中謠言指未經(jīng)證實的信息,即在人與人之間傳播,與公眾關(guān)注的對象、事件或問題有關(guān),并且在沒有被權(quán)威機構(gòu)證實的情況下流傳的信息,因此,信息可能是真的,也可能是假的。

        現(xiàn)有的謠言檢測方法大致分為3種:一是基于人工的方法,主要依靠人的經(jīng)驗對事件的真實性做出判斷,例如@微博辟謠、@謠言粉碎機,不僅耗費大量的人力和物力,還導(dǎo)致了更長的延遲。二是基于傳統(tǒng)機器學(xué)習(xí)的方法,根據(jù)消息內(nèi)容、用戶信息、傳播模式等進行分析來人工構(gòu)造特征,通過人工特征提取數(shù)據(jù)中的關(guān)鍵信息[1-5]。三是基于深度學(xué)習(xí)的方法,該方法不需要特征工程,同時可以挖掘到不易被人們發(fā)現(xiàn)的深層特征[6-11]。深度學(xué)習(xí)方法需要依賴大量的帶標(biāo)簽數(shù)據(jù)才能學(xué)到更深層的特征表示,目前在微博謠言檢測工作中僅有少量的帶標(biāo)簽數(shù)據(jù)。因此,解決深度學(xué)習(xí)模型中帶標(biāo)簽數(shù)據(jù)少的問題是如今熱點研究問題之一。對于標(biāo)注數(shù)據(jù)少的問題,研究者展開了大量研究。起初采用無監(jiān)督的方法,但是由于數(shù)據(jù)沒有標(biāo)注,導(dǎo)致分類歧義性較高。近幾年,隨著遷移學(xué)習(xí)的應(yīng)用,許多領(lǐng)域標(biāo)注數(shù)據(jù)少的問題開始得到有效解決。遷移學(xué)習(xí)是運用已有知識對不同但相關(guān)領(lǐng)域問題求解的一種機器學(xué)習(xí)方法[12],打破了傳統(tǒng)機器學(xué)習(xí)中訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)必須滿足獨立同分布的假設(shè),并且解決了標(biāo)注數(shù)據(jù)不足的問題。如可以用來辨識自行車的知識也可以用來提升識別摩托車的能力。采用遷移學(xué)習(xí)方法借助相關(guān)領(lǐng)域豐富的數(shù)據(jù)資源,對于解決微博謠言檢測中帶標(biāo)簽數(shù)據(jù)少的問題提供了很好的研究思路。本文將遷移學(xué)習(xí)技術(shù)應(yīng)用于微博謠言檢測中,利用相關(guān)領(lǐng)域中充足的帶標(biāo)簽數(shù)據(jù)輔助微博中少量的標(biāo)簽數(shù)據(jù),進行謠言檢測。

        1 相關(guān)工作

        社交媒體上的謠言自動檢測一直是近年來的一個研究熱點。傳統(tǒng)的謠言檢測方法主要利用人工構(gòu)造特征,再采用機器學(xué)習(xí)模型學(xué)習(xí)文本的淺層特征。最早的自動謠言檢測方法源于2011年Castillo等[1]對Twitter中信息可信度的檢測,該方法首先利用特征工程構(gòu)造特征,然后采用支持向量機(SVM)對文本進行檢測。Yang等[2]在2012年提出基于微博的謠言檢測方法,該方法利用微博中涉及的地理位置、發(fā)文客戶端信息、文本符號的情感極性等特征,采用SVM構(gòu)造微博謠言分類器模型。后人在此基礎(chǔ)上展開了對Twitter和微博中謠言檢測的研究[3-5]。以上方法都需要特征工程的參與,不僅耗時費力,且僅能學(xué)到文本的淺層特征。

        隨著深度神經(jīng)網(wǎng)絡(luò)模型在很多領(lǐng)域取得了不錯的成果[13,14],研究者開始將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用到微博謠言檢測領(lǐng)域。Ma等[6]提出基于深度神經(jīng)網(wǎng)絡(luò)模型的微博謠言檢測方法,作者實現(xiàn)了tanh-RNN、長短期記憶網(wǎng)絡(luò)(LSTM)、門控循環(huán)單元(GRU)、雙層GRU這4種模型,由于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)存在梯度消失和梯度爆炸的問題,其它3種模型的性能普遍高于tanh-RNN,在單層網(wǎng)絡(luò)模型中GRU比LSTM性能略好,與雙層網(wǎng)絡(luò)模型比較,由于雙層GRU可以提取更深層的語義特征,因此性能最優(yōu),這也說明,使用相同的神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)層數(shù)越多模型性能越好。Sampson等[7]通過利用少量會話之間的隱式鏈接提高了早期謠言的檢測精度。Ruchansky等[8]提出了一種將文章文本、用戶的響應(yīng)以及來源用戶3種特征結(jié)合起來的混合模型,結(jié)果優(yōu)于僅使用單一特征和模型的方法。Yu等[9]將各時間段文本向量拼接成事件的特征矩陣,并采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)學(xué)習(xí)事件的隱層表示。Zhou等[10]通過強化學(xué)習(xí)實現(xiàn)謠言早期檢測。Li等[11]利用內(nèi)容、用戶可信度和傳播信息在社交媒體上發(fā)現(xiàn)謠言。這些方法主要依靠公開數(shù)據(jù)集進行實驗,也有研究者對數(shù)據(jù)進行了擴充,但都是有限的數(shù)據(jù)擴充。微博謠言檢測仍然面臨數(shù)據(jù)少的困境。雖然基于深度學(xué)習(xí)的方法在微博謠言檢測任務(wù)取得了一定的進展,但是深度學(xué)習(xí)模型對大量標(biāo)注數(shù)據(jù)的需求也制約了深度學(xué)習(xí)在該領(lǐng)域的進一步發(fā)展。

        近幾年,隨著遷移學(xué)習(xí)的不斷發(fā)展[12-16],研究者開始將其應(yīng)用于謠言檢測領(lǐng)域。Ma等[17]將多任務(wù)學(xué)習(xí)應(yīng)用于Twitter謠言檢測任務(wù),通過共享多個任務(wù)的通用知識,使多個任務(wù)同時獲得較好的效果。Wen等[18]提出了一種基于跨語言跨平臺的社交媒體謠言檢測方法,在謠言檢測中加入其它平臺與該事件相關(guān)的信息,來提高檢測結(jié)果的真實性。劉等[19]將多任務(wù)學(xué)習(xí)應(yīng)用于Twitter中的分領(lǐng)域謠言檢測,通過領(lǐng)域適配技術(shù)使源領(lǐng)域數(shù)據(jù)與目標(biāo)領(lǐng)域的數(shù)據(jù)分布趨于相似。郭[20]將模型遷移應(yīng)用于Twitter謠言檢測任務(wù),首先利用包含大量標(biāo)簽數(shù)據(jù)的評論數(shù)據(jù)集對模型進行訓(xùn)練,然后利用模型遷移,使模型適用于Twitter謠言檢測任務(wù),提高了Twitter謠言檢測任務(wù)的準(zhǔn)確率,同時驗證了評論數(shù)據(jù)對謠言檢測任務(wù)的有用性。

        為解決帶標(biāo)簽數(shù)據(jù)少和檢測準(zhǔn)確率不高的問題,本文將模型遷移應(yīng)用到微博謠言檢測領(lǐng)域,利用大量帶標(biāo)簽的評論數(shù)據(jù)輔助微博謠言檢測任務(wù)。在模型遷移中,微調(diào)學(xué)習(xí)率的設(shè)置決定了遷移效果的好壞,本文將區(qū)分微調(diào)和斜三角學(xué)習(xí)率兩種微調(diào)策略相結(jié)合,為每一層設(shè)置不同的學(xué)習(xí)率,以保留先前的知識,避免災(zāi)難性遺忘,并根據(jù)目標(biāo)任務(wù)的需求對學(xué)習(xí)率進行調(diào)整。

        2 基于遷移學(xué)習(xí)的微博謠言檢測模型

        本文提出的基于遷移學(xué)習(xí)的微博謠言檢測模型(transferring learn-BiGRU-2-CNN,TB2GC)模型如圖1所示。按照自下而上、自左到右的順序?qū)δP瓦M行介紹,大致有4個模塊,分為3個步驟。首先利用豐富的評論數(shù)據(jù)對模型進行預(yù)訓(xùn)練,然后將訓(xùn)練好的特征提取層遷移到目標(biāo)任務(wù)中,再通過微調(diào)策略對特征提取模塊進行調(diào)整,使其適應(yīng)于目標(biāo)任務(wù)。

        圖1 TB2GC模型結(jié)構(gòu)

        2.1 詞嵌入

        使用低維向量代替文本中詞的表示是目前自然語言處理中的常見方式。本文將微博文本數(shù)據(jù)輸入到開源的word2vec模型對文本進行向量化,向量的維數(shù)為300,該模型由Google News利用1000億個單詞訓(xùn)練而成,并使用字結(jié)構(gòu)的連續(xù)文本進行訓(xùn)練[21]。未出現(xiàn)在預(yù)先訓(xùn)練的詞集合中的詞是隨機初始化的。

        2.2 特征提取

        鑒于BiGRU2和CNN各自的特點,本文采用雙層BiGRU和CNN的聯(lián)合模型作為特征提取器,特征提取網(wǎng)絡(luò)模型如圖2所示。將World2vec輸出的詞向量輸入到BiGRU2-CNN聯(lián)合神經(jīng)網(wǎng)絡(luò)中,提取文本數(shù)據(jù)的全局特征,提取的特征將用于后續(xù)分類器的分類工作。

        圖2 聯(lián)合神經(jīng)網(wǎng)絡(luò)模型

        雙層雙向門控循環(huán)單元(BiGRU2):通過BiGRU2模型獲取微博文本在時間序列上的深層特征。循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)中兩個節(jié)點之間的連接形成了一個內(nèi)部循環(huán)結(jié)構(gòu),這種結(jié)構(gòu)使它能夠捕捉文本的動態(tài)時間信號特征。由于RNN模型存在梯度消失和梯度爆炸的問題,通過改進得到了LSTM模型結(jié)構(gòu),LSTM模型結(jié)構(gòu)復(fù)雜、模型參數(shù)多、訓(xùn)練時間長。隨著樣本數(shù)量的增加,導(dǎo)致訓(xùn)練時間延長,參數(shù)變多,內(nèi)部計算復(fù)雜度提高。對此研究者提出了GRU網(wǎng)絡(luò)模型,GRU模型不僅可以達到LSTM的效果,并且結(jié)構(gòu)簡單、參數(shù)少、收斂性好。GRU模型由兩個門組成,一個更新門和一個重置門,更新門決定了前一個輸出隱藏層對當(dāng)前層的影響程度,值越大,影響越大。重置門決定忽略以前隱藏層信息的范圍,值越小,信息就越容易被忽略。

        GRU只能從前到后獲取信息,不能從后到前對信息間的依賴關(guān)系進行提取。BiGRU是由兩個方向相反的GRU模型組成的雙向網(wǎng)絡(luò)結(jié)構(gòu),可以雙向的獲取前后文的依賴關(guān)系,這對獲得更多與任務(wù)相關(guān)的特征非常有利。研究表明,深層網(wǎng)絡(luò)結(jié)構(gòu)有助于獲取深層特征,可以提高分類的效果,因此本文采用雙層的BiGRU網(wǎng)絡(luò)結(jié)構(gòu)獲取數(shù)據(jù)的全局特征。

        CNN:通過CNN模型獲取微博文本的局部特征。CNN模型最初是為計算機視覺而發(fā)明的,后來被證明對自然語言處理(NLP)領(lǐng)域有效,已經(jīng)在語義分析、搜索查詢檢索、句子建模和其它傳統(tǒng)NLP任務(wù)中取得了優(yōu)異的成果。CNN利用由多個相互轉(zhuǎn)換的層組成的計算模型來學(xué)習(xí)具有多個抽象級別的數(shù)據(jù)表示,通過發(fā)現(xiàn)大數(shù)據(jù)集中復(fù)雜的結(jié)構(gòu),極大地提高了圖像識別、視覺對象識別和句子分類的技術(shù)水平。CNN常用的體系結(jié)構(gòu)包括卷積層、池化層和全連接層,本文將帶濾波器的卷積層應(yīng)用于局部特征的提取,將池化層用來提高模型的容錯性,然后通過全連接層輸出隱層特征,再利用Softmax函數(shù)進行分類結(jié)果的輸出。

        2.3 模型遷移

        首先利用豐富的評論數(shù)據(jù)對TB2GC神經(jīng)網(wǎng)絡(luò)模型進行預(yù)訓(xùn)練,預(yù)訓(xùn)練可以獲取文本的通用語言信息,如情感傾向、上下與依賴關(guān)系、深層語義表示等。然后針對目標(biāo)謠言檢測任務(wù)對特征提取層進行微調(diào),由于不同的層捕獲不同類型的信息,因此應(yīng)該根據(jù)情況為每一層設(shè)置不同的學(xué)習(xí)率,對此本文采用區(qū)分性微調(diào)策略。為了使模型在訓(xùn)練開始時就能夠快速收斂到合適的參數(shù)空間,本文采用斜三角形學(xué)習(xí)率(slanted triangle learning rates,STLR)[22]策略。

        區(qū)分性微調(diào):與對模型的所有層使用相同的學(xué)習(xí)率不同,區(qū)分性微調(diào)能夠用不同的學(xué)習(xí)率來調(diào)整每個層,從而根據(jù)不同層對目標(biāo)任務(wù)的貢獻設(shè)置不同的學(xué)習(xí)率,貢獻大的層設(shè)置較小的學(xué)習(xí)率,貢獻小的層設(shè)置較小的學(xué)習(xí)率。第L層模型的參數(shù)θ在時間t的更新如式(1)所示

        (1)

        由于神經(jīng)網(wǎng)絡(luò)具有淺層網(wǎng)絡(luò)提取文本的淺層特征,深層網(wǎng)絡(luò)提取文本的深層隱含特征的特點,而且深層特征在NLP中更具有通用性,因此選擇最后一層的學(xué)習(xí)率設(shè)為ηL,較低層的學(xué)習(xí)率為ηl-1=ηl/2.3。

        斜三角形學(xué)習(xí)率:與微調(diào)過程中使用相同的學(xué)習(xí)率或僅遞增或僅遞減的方式不同,斜三角形學(xué)習(xí)率先線性增加學(xué)習(xí)率,然后再線性衰減,有助于模型快速收斂到合適的范圍,并在學(xué)習(xí)率下降的過程中達到適應(yīng)目標(biāo)任務(wù)的最佳準(zhǔn)確率,具體方案如式(2)所示

        (2)

        式中:T是訓(xùn)練迭代次數(shù),cut_frac是使學(xué)習(xí)率增加的迭代次數(shù)占總迭代次數(shù)的比例,cut是學(xué)習(xí)率開始下降時的迭代次數(shù),ratio指最小學(xué)習(xí)率與最大學(xué)習(xí)率的比值,ηt是迭代t時的學(xué)習(xí)率。通常使用cut_frac=0.1,radio=32,ηmax=0.01。

        在學(xué)習(xí)率不斷增加的過程中觀察準(zhǔn)確率的變化,當(dāng)準(zhǔn)確率第一次出現(xiàn)下降時,學(xué)習(xí)率也開始線性減小。即學(xué)習(xí)率出現(xiàn)拐點。

        通過斜三角學(xué)習(xí)率和區(qū)分微調(diào),已經(jīng)將初始模型的特征提取層有效遷移到了微博謠言檢測任務(wù)中。

        2.4 分類器

        將微調(diào)后的特征提取層提取的特征輸入到softmax層,神經(jīng)元的激活函數(shù)使用線性修正單元函數(shù)(rectified linear units,ReLU)。ReLU函數(shù)定義為f(x)=Softmax(0,x),該激活函數(shù)在具有深層體系結(jié)構(gòu)的網(wǎng)絡(luò)中通常會使網(wǎng)絡(luò)學(xué)習(xí)的更快。最后輸出對一條事件是否為謠言的檢測結(jié)果。

        3 實驗與分析

        3.1 實驗數(shù)據(jù)集

        源數(shù)據(jù)集選用Zhang等[23]在2014年收集的評論數(shù)據(jù),該數(shù)據(jù)集來自DianPing.com,包括510 071個用戶對209 132個商家的3 605 300條評論。

        目標(biāo)數(shù)據(jù)集選用Ma等[7]在2016年公開的新浪微博數(shù)據(jù),該數(shù)據(jù)集包含微博和Twitter兩部分,微博謠言數(shù)據(jù)來自新浪微博平臺已經(jīng)確認的微博謠言事件,作者按照謠言數(shù)據(jù)的數(shù)量利用網(wǎng)絡(luò)爬蟲在微博平臺爬取了相似數(shù)量的非謠言數(shù)據(jù)。共包含2313個謠言和2351個非謠言。本文保留10%的事件作為驗證集,其余數(shù)據(jù)按照3∶1的比例分割用于訓(xùn)練集和測試集。

        為了提高數(shù)據(jù)的質(zhì)量,對源數(shù)據(jù)和目標(biāo)數(shù)據(jù)集進行了去噪處理。利用正則表達式去除了數(shù)據(jù)中的@符號、@的內(nèi)容、空格、空行、URL信息等。本文中并沒有去掉表情符號,因為如今表情符號已經(jīng)成為人們在網(wǎng)絡(luò)平臺表達自己感情傾向的一種重要形式,深度神經(jīng)網(wǎng)絡(luò)也可以根據(jù)表情符號挖掘深層情感特征,因此,這里保留了文本中的表情符號。

        3.2 實驗對比

        (1)本模型和其它基線模型對比

        本文將TB2GC模型方法與以下幾個基線方法進行比較:

        DT-Rank[1]:該方法通過對有爭議的微博信息進行聚類,然后根據(jù)統(tǒng)計特征對聚類結(jié)果進行排序,以識別趨勢性謠言。

        DTC[4]:該方法對15個評判特征進行分析,并將J48決策樹應(yīng)用于謠言檢測任務(wù)。

        SVM-TS[3]:該方法利用時間序列對人工構(gòu)造的特征集進行建模,利用線性支持向量機分類器進行分類預(yù)測。

        GRU、GRU-2[6]:Ma等在2016年提出的基于深度學(xué)習(xí)的模型中,分別實現(xiàn)了LSTM、單層GRU和雙層GRU,證明了深度學(xué)習(xí)模型在謠言檢測中的優(yōu)勢。

        CNN[8]:該方法設(shè)計3CAMI模型,將各時間段文本向量拼接成事件的特征矩陣,采用CNN學(xué)習(xí)事件的隱層表示。

        TB2GC模型與各基線模型的實驗結(jié)果對比見表1。

        表1 TB2GC模型與基線模型的實驗對比結(jié)果

        表1展示了本文模型與各基線模型的對比結(jié)果。為了更全面分析傳統(tǒng)機器學(xué)習(xí)方法、深度學(xué)習(xí)方法、遷移學(xué)習(xí)在微博謠言檢測中的效果,本文在傳統(tǒng)機器學(xué)習(xí)方法和深度學(xué)習(xí)方法中各選取了3個基線模型,表1從上到下依次為傳統(tǒng)機器學(xué)習(xí)模型、傳統(tǒng)深度學(xué)習(xí)模型、本文的遷移學(xué)習(xí)模型。

        在3種傳統(tǒng)機器學(xué)習(xí)模型中,SVM-TS的效果最佳,準(zhǔn)確率達到了85.7%,在3種深度學(xué)習(xí)方法中CNN的效果最佳,準(zhǔn)確率達到了93.3%。相比于3種深度學(xué)習(xí)方法,SVM-TS的效果卻是最差的,深度學(xué)習(xí)模型GRU的準(zhǔn)確率比SVM-TS高出5.1個百分點,由此可見,通過深度神經(jīng)網(wǎng)絡(luò)模型提取的特征優(yōu)于人工構(gòu)造的特征。本文提出的基于遷移學(xué)習(xí)的方法在準(zhǔn)確率上比最好的基線模型CNN高出2.9個百分點,在精確率上高出3.2個百分點,在召回率上高出1.8個百分點,在F1值上高出2.5個百分點。實驗結(jié)果表明,本文提出的神經(jīng)網(wǎng)絡(luò)模型表現(xiàn)出了良好的性能。原因可能在于深度學(xué)習(xí)基線方法中,研究者僅在現(xiàn)有的公開數(shù)據(jù)集上進行研究,忽略了數(shù)據(jù)集對深層特征提取的重要性,因此效果不佳。

        (2)模型組合對比

        為了驗證提出的聯(lián)合模型的組合方式的有效性,將模型拆分為不同的形式,再結(jié)合遷移學(xué)習(xí)進行實驗,與本文聯(lián)合模型進行對比,結(jié)果見表2。

        表2 TB2GC模型與分解模型的實驗對比結(jié)果

        表2通過對模型的拆分部分進行實驗,驗證了本文所提出的模型組合的有效性??梢钥闯?,3種使用單一神經(jīng)網(wǎng)絡(luò)模型的方法中BiGRU的效果最佳,準(zhǔn)確率達到了95.3%,當(dāng)增加CNN模塊時,聯(lián)合模型的準(zhǔn)確率增加了0.2個百分點,因為CNN有利于提取文本中的局部特征,使特征提取更全面。當(dāng)再增加第二層BiGRU時,準(zhǔn)確率提高了0.5個百分點,由此可見,在數(shù)據(jù)量足夠的情況下,深層神經(jīng)網(wǎng)絡(luò)模型對檢測結(jié)果更有利。

        (3)源數(shù)據(jù)集的數(shù)量對遷移效果的影響

        為了探究源數(shù)據(jù)集的數(shù)量對遷移效果的影響,隨機抽取源數(shù)據(jù)中的60萬條、120萬條、180萬條和240萬條數(shù)據(jù)進行實驗,觀察不同數(shù)據(jù)量對遷移學(xué)習(xí)效果的影響,對比結(jié)果如圖3所示。

        圖3 源數(shù)據(jù)的數(shù)量對遷移效果的影響

        圖3展示了不同量的源數(shù)據(jù)對遷移效果的影響,實驗結(jié)果顯示隨著源數(shù)據(jù)集數(shù)據(jù)量的增加,準(zhǔn)確率也在增加,表明使用大量帶標(biāo)簽數(shù)據(jù)進行遷移學(xué)習(xí)的效果更好。

        (4)目標(biāo)數(shù)據(jù)集的數(shù)量對遷移效果的影響

        圖4 目標(biāo)數(shù)據(jù)的數(shù)量對遷移效果的影響

        圖4展示了遷移學(xué)習(xí)在不同量的目標(biāo)數(shù)據(jù)集中的效果,實驗結(jié)果顯示隨著目標(biāo)數(shù)據(jù)量的減少,準(zhǔn)確率也在減小,當(dāng)數(shù)據(jù)量為400條時,準(zhǔn)確率首次出現(xiàn)低于基準(zhǔn)模型的現(xiàn)象,表明本文模型適用于目標(biāo)數(shù)據(jù)大于400條的自然語言處理任務(wù)。

        3.3 實驗結(jié)果分析

        通過分析TB2GC模型與各基線模型的對比實驗和聯(lián)合神經(jīng)網(wǎng)絡(luò)的各種拆解模型的對比實驗,表明采用聯(lián)合神經(jīng)網(wǎng)絡(luò)模型比僅采用單一的神經(jīng)網(wǎng)絡(luò)能獲取更全面的特征,并且表明更深層的神經(jīng)網(wǎng)絡(luò)模型可以提取更多的特征。遷移學(xué)習(xí)的應(yīng)用則是有助于進一步加深神經(jīng)網(wǎng)絡(luò)的深度,這對學(xué)習(xí)更深層的特征表示提供了幫助,解決了基于深度學(xué)習(xí)中的微博謠言檢測中帶標(biāo)簽數(shù)據(jù)少的問題。實驗結(jié)果表明,無論是遷移學(xué)習(xí)方法的應(yīng)用,還是神經(jīng)網(wǎng)絡(luò)模型的組合,在微博謠言檢測任務(wù)中都表現(xiàn)出了良好的效果。

        此外,本文還對數(shù)據(jù)集的數(shù)量對遷移效果的影響進行了分析。通過將源數(shù)據(jù)集和目標(biāo)數(shù)據(jù)集進行分割實驗,結(jié)果表明,在本文提出的神經(jīng)網(wǎng)絡(luò)模型中,無論是源數(shù)據(jù)集還是目標(biāo)數(shù)據(jù)集,更多的數(shù)據(jù)量,會使遷移效果更好。

        4 結(jié)束語

        本文將遷移學(xué)習(xí)方法應(yīng)用到微博謠言檢測領(lǐng)域,利用豐富的電商評論數(shù)據(jù)輔助微博謠言檢測任務(wù)進行學(xué)習(xí),解決了微博謠言檢測領(lǐng)域帶標(biāo)簽數(shù)據(jù)少的問題。實驗結(jié)果顯示基于遷移學(xué)習(xí)的方法在準(zhǔn)確率、精確率和F1值3個方面都優(yōu)于基線方法,表明使用相關(guān)數(shù)據(jù)集進行遷移是一種很好的策略。當(dāng)然,所提出的方法還有很多不足,例如微調(diào)策略、源數(shù)據(jù)集的選擇、特征提取網(wǎng)絡(luò)的設(shè)計等方面都可以做進一步的調(diào)整。

        猜你喜歡
        深度特征文本
        深度理解一元一次方程
        如何表達“特征”
        在808DA上文本顯示的改善
        不忠誠的四個特征
        深度觀察
        深度觀察
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        深度觀察
        抓住特征巧觀察
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        真实国产乱啪福利露脸| 新中文字幕一区二区三区| 久久久中文久久久无码| 久久精品国产亚洲av麻| 中文字幕无码免费久久9一区9| 中文字幕一区二区三区6| 国产激情久久久久影院小草| аⅴ资源天堂资源库在线| 国产免费一级高清淫日本片| 久久深夜中文字幕高清中文 | 国产性自爱拍偷在在线播放| 国产精品毛片久久久久久久| 巨人精品福利官方导航| 欧美白人最猛性xxxxx| 免费人人av看| 国产一级黄色录像大片| 性xxxx18免费观看视频| 国产小视频网址| 久久精品国产白丝爆白浆| 亚洲成av人片在线观看| 在线亚洲午夜理论av大片| 最新国产女主播福利在线观看| 国产精品美女主播在线| 国产三级在线观看完整版| 欧美亚洲国产精品久久高清| 国产av91在线播放| 精品人妻久久一区二区三区| 任你躁国产自任一区二区三区| 国模精品二区| 一区二区三区高清视频在线| 人妻无码一区二区三区| 久久tv中文字幕首页| 中文字幕一区二区三区97| 日韩肥臀人妻中文字幕一区| 国产成人涩涩涩视频在线观看| 美国黄色片一区二区三区| 日本午夜伦理享色视频| 无码无套少妇毛多18pxxxx| 7878成人国产在线观看| 久久免费精品国产72精品剧情| 日本经典中文字幕人妻|