亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多示例學(xué)習(xí)的食品健康領(lǐng)域長(zhǎng)文謠言檢測(cè)

        2022-11-25 07:26:06周麗娜
        關(guān)鍵詞:文本實(shí)驗(yàn)檢測(cè)

        譚 勵(lì),王 舸,周麗娜,曹 娟

        (1.北京工商大學(xué) 計(jì)算機(jī)學(xué)院,北京 100048;2.中國(guó)科學(xué)院 計(jì)算技術(shù)研究所,北京 100190)

        0 引 言

        早期,謠言檢測(cè)的研究重點(diǎn)大多使用手工特征的方法針對(duì)推特、微博等社交媒體的謠言[1-3],但實(shí)驗(yàn)效果差強(qiáng)人意。Ma等[4]將循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)模型引入謠言檢測(cè)領(lǐng)域,之后,Yu等[5]使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)對(duì)文本的高維特征進(jìn)行謠言分類,而這些深度學(xué)習(xí)在該領(lǐng)域的成功表現(xiàn)也使得此后有大量基于深度學(xué)習(xí)的改進(jìn)方法被引入謠言檢測(cè)中[6-10]。

        然而,上述方法都是針對(duì)以推特、微博為等社交媒體為代表的短文本,而缺少對(duì)食品健康領(lǐng)域中這類長(zhǎng)文本新聞的檢測(cè)方法。而兩者有著較大的區(qū)別,長(zhǎng)文本往往不只包含一到兩個(gè)段落,多數(shù)新聞包含較多的段落,且通常包含明顯的篇章結(jié)構(gòu)。此外,長(zhǎng)文本謠言中,僅有某個(gè)或某幾個(gè)段落會(huì)出現(xiàn)謠言信息,其它段落均為真實(shí)信息。因此使用針對(duì)短文本的謠言檢測(cè)方法,將長(zhǎng)文本為整體輸入計(jì)算的表現(xiàn)將會(huì)受到真實(shí)段落的干擾從而降低效果[11]。

        由于多示例學(xué)習(xí)可以很好解決“粗標(biāo)簽”對(duì)象的區(qū)分問(wèn)題,也可以用于解決缺少細(xì)粒度標(biāo)簽的任務(wù),且在多個(gè)領(lǐng)域中得到很好的表現(xiàn)[12-17],因此,本文考慮結(jié)合多示例學(xué)習(xí)的方法,將食品健康領(lǐng)域的長(zhǎng)文本新聞細(xì)分,將其每篇長(zhǎng)文作為多示例學(xué)習(xí)中的包(bag),該長(zhǎng)文中的每個(gè)段落作為示例。輸入本文提出的MI-TCNN-SA模型,最終得到包內(nèi)示例關(guān)于謠言的概率,以此對(duì)新聞進(jìn)行謠言分類,且分類效果優(yōu)于基準(zhǔn)方法。同時(shí),在TextCNN上運(yùn)用了多示例學(xué)習(xí)的思想,對(duì)比之前有一定改善。由于目前沒(méi)有公開(kāi)的食品健康領(lǐng)域的謠言基準(zhǔn)數(shù)據(jù)集可以作為研究,因此構(gòu)建基于“天天快報(bào)”平臺(tái)的食品健康領(lǐng)域謠言數(shù)據(jù)集并用于本研究。

        綜上所述,本文做出的主要貢獻(xiàn)如下:

        (1)提出一個(gè)基于多示例學(xué)習(xí)的食品健康領(lǐng)域長(zhǎng)文謠言檢測(cè)方法,可以提高長(zhǎng)文謠言檢測(cè)的準(zhǔn)確率。

        (2)構(gòu)建一個(gè)基于天天快報(bào)平臺(tái)的食品健康領(lǐng)域謠言數(shù)據(jù)集。

        1 基于多示例學(xué)習(xí)的食品健康領(lǐng)域長(zhǎng)文謠言檢測(cè)

        1.1 方法概述

        以往對(duì)謠言檢測(cè)的研究大多基于推特等短文本。對(duì)于長(zhǎng)文本新聞的研究較少,且普遍將長(zhǎng)文本與短文本的處理相似,都作為整體進(jìn)行輸入和計(jì)算[1]。與前人的思路有所不同的是,本實(shí)驗(yàn)在數(shù)據(jù)輸入階段,保留新聞長(zhǎng)文的篇章結(jié)構(gòu)的同時(shí)運(yùn)用多示例學(xué)習(xí)的思想,將長(zhǎng)文視為一個(gè)包,其每個(gè)段落視為一個(gè)示例,以此通過(guò)領(lǐng)域?qū)嶓w名詞篩選,去除與食品健康領(lǐng)域無(wú)關(guān)的段落后,輸入本文提出的模型,對(duì)新聞長(zhǎng)文做謠言檢測(cè)工作。

        本章介紹基于多示例學(xué)習(xí)方法構(gòu)建的模型:MI-TCNN-SA模型,模型架構(gòu)如圖1所示。先后對(duì)信息進(jìn)行了領(lǐng)域?qū)嶓w名詞的抽取、數(shù)據(jù)預(yù)處理、以文本卷積神經(jīng)網(wǎng)絡(luò)提取數(shù)據(jù)特征、通過(guò)自注意力網(wǎng)絡(luò)得到本模型中認(rèn)為最優(yōu)區(qū)分性的示例高層特征、以Sigmoid分類器得出結(jié)果。最終可以得到包內(nèi)示例關(guān)于謠言的概率,當(dāng)存在示例為謠言的概率大于0.5,則將該包作為正包,即謠言。反之則為負(fù)包,即非謠言。

        圖1 MI-TCNN-SA模型

        1.2 抽取領(lǐng)域?qū)嶓w名詞

        首先,對(duì)數(shù)據(jù)集中每條數(shù)據(jù)進(jìn)行簡(jiǎn)單處理操作,包括分詞、去停用詞。并用漢語(yǔ)言處理包(Han language processing,HanLP)對(duì)每條數(shù)據(jù)做詞性標(biāo)注。由于實(shí)體都是名詞,取出標(biāo)注為名詞性的詞語(yǔ),組成實(shí)體詞集。在此實(shí)體詞集中,包含食品健康領(lǐng)域的實(shí)體詞的同時(shí),存在大量與該領(lǐng)域相關(guān)性較小的實(shí)體詞。隨后利用文本特征選擇的3種方法對(duì)預(yù)處理后的樣本數(shù)據(jù)進(jìn)行特征詞的選擇。由于得到的特征詞不排除包含除名詞以外詞性的可能性,所以用實(shí)體詞集對(duì)上述特征詞分別進(jìn)行篩選,之后對(duì)剩余的3組特征詞進(jìn)行相互篩選。對(duì)篩選的結(jié)果進(jìn)行詞頻分析后,發(fā)現(xiàn)前250個(gè)名詞出現(xiàn)的頻率遠(yuǎn)高于其它特征詞,且與食品健康領(lǐng)域貼切,例如:鐵、鎂、冷水、開(kāi)水、汗蒸等。最終將篩選得到的前250個(gè)詞作為領(lǐng)域?qū)嶓w名詞。具體流程如圖2所示。

        圖2 抽取領(lǐng)域?qū)嶓w名詞流程

        其中,用到的特征選擇方法為文檔詞頻(DF),即計(jì)算數(shù)據(jù)集中某個(gè)詞出現(xiàn)的頻率。在實(shí)驗(yàn)中,暫時(shí)去掉某些無(wú)意義的詞,即去掉DF值小于5且大于3000的詞,因?yàn)樗鼈兎謩e代表“沒(méi)有代表性”和“沒(méi)有區(qū)分度”這兩種極端的情況。將每個(gè)詞按照文檔詞頻值從大到小排序,選取前3000個(gè)詞作為特征詞。

        用信息增益(IG)方法選擇特征詞,提取步驟如下:統(tǒng)計(jì)正負(fù)分類的文檔數(shù)N1和N2;統(tǒng)計(jì)各詞的正文檔出現(xiàn)頻率A、負(fù)文檔出現(xiàn)頻率B、正文檔未出現(xiàn)頻率C、負(fù)文檔未出現(xiàn)頻率D;計(jì)算信息熵的公式為式(1)

        (1)

        計(jì)算每個(gè)詞的信息增益的公式為(2)

        (2)

        將各個(gè)詞按照信息增益值從大到小排序,選取前3000個(gè)詞作為特征詞。

        我們考慮,單一的使用其中的一種特征選擇方法會(huì)產(chǎn)生對(duì)食品健康領(lǐng)域貼切度不高或出現(xiàn)頻率不高或是內(nèi)容包含信息量不高的實(shí)體名詞,或是可能導(dǎo)致在輸入文本時(shí)對(duì)提取文本特征時(shí)產(chǎn)生噪聲。而將信息增益和詞頻相結(jié)合的方法可以考察特征對(duì)整個(gè)數(shù)據(jù)集的貢獻(xiàn)程度,從而從全局特征中觀察得到貢獻(xiàn)程度較高的特征詞,再組合卡方值選擇文本特征便可以從謠言或非謠言中找到各自的特征集合。因此為使文本信息更加貼合食品健康領(lǐng)域,盡可能減少不必要的噪聲且可以從謠言和非謠言兩個(gè)類別中找到特征集合,我們同時(shí)使用多種特征選擇方法來(lái)抽取領(lǐng)域?qū)嶓w名詞。

        然后我們將名詞按照領(lǐng)域分為10類。表1為食品安全領(lǐng)域?qū)嶓w特征類中的部分實(shí)體名詞。

        表1 食品安全領(lǐng)域?qū)嶓w特征類中的部分實(shí)體名詞

        1.3 多示例學(xué)習(xí)與數(shù)據(jù)預(yù)處理

        由于長(zhǎng)文本中,大多數(shù)的謠言新聞中并不是通篇的謠言信息,絕大多數(shù)的新聞中會(huì)參雜著真實(shí)新聞的段落或部分,若是將一篇新聞長(zhǎng)文看作是一個(gè)整體,真實(shí)部分會(huì)對(duì)謠言的判斷起到比較大的影響。不僅如此,長(zhǎng)文本由于段落較多對(duì)特征提取更是增加許多難度。所以本文中以多示例學(xué)習(xí)的思想對(duì)上述難題進(jìn)行解決。本文中將每一篇新聞長(zhǎng)文作為一個(gè)包,同時(shí)將文本中每一個(gè)段落都作為該包中的一個(gè)示例,如若包中每一個(gè)示例都是真實(shí)信息,則本實(shí)驗(yàn)中將其視為負(fù)包,也就是真實(shí)的非謠言新聞。反之,若該包中有一個(gè)及以上的包被判斷為謠言,則將此包作為正包,對(duì)應(yīng)著整篇為謠言新聞。

        以上述方法為基礎(chǔ),對(duì)新聞段落做數(shù)據(jù)預(yù)處理。圖3為一條食品健康長(zhǎng)文謠言的例子。以一條從數(shù)據(jù)集中取出的新聞長(zhǎng)文為例,以此按照?qǐng)D4流程進(jìn)行處理。首先為便于存儲(chǔ),本實(shí)驗(yàn)在數(shù)據(jù)存儲(chǔ)時(shí)將長(zhǎng)文本數(shù)據(jù)的分段標(biāo)記以“*****”代替,因此需要將存儲(chǔ)的樣本還原成原篇章結(jié)構(gòu),將分段符還原。其次,由于多數(shù)文字過(guò)少的段落不具有實(shí)際意義,導(dǎo)致對(duì)特征提取和分類計(jì)算的作用甚小,因此對(duì)樣本每一段篩選,僅保留段落長(zhǎng)度大于5的段落。之后,對(duì)符合要求的段落進(jìn)行分詞,使用jieba分詞去停用詞處理。其中,停用詞是文中出現(xiàn)頻率較高但意義不大的詞,這里是將多個(gè)停詞表集合成一個(gè)新停用詞表。再之后,判斷段落中是否有領(lǐng)域?qū)嶓w名詞,由于領(lǐng)域?qū)嶓w名詞可以表現(xiàn)該領(lǐng)域的特點(diǎn),謠言與非謠言在此層面上有較大的區(qū)分度,且未包含這些特征詞的段落基本與食品健康領(lǐng)域信息的相關(guān)性不強(qiáng),可能造成干擾分類計(jì)算,降低效率,因此需要丟棄該段落。之后對(duì)剩余段落進(jìn)行詞數(shù)的判斷,根據(jù)對(duì)數(shù)據(jù)集的統(tǒng)計(jì)分析發(fā)現(xiàn),每個(gè)段落的平均長(zhǎng)度為50,本實(shí)驗(yàn)的期望是覆蓋至少百分之九十的段落長(zhǎng)度,所以將段長(zhǎng)取100,超過(guò)字?jǐn)?shù)的截?cái)?,若字?jǐn)?shù)不夠?qū)⒁钥兆址a(bǔ)齊。每處理完一個(gè)段落便記錄一次已處理的段落數(shù),最后以包內(nèi)處理過(guò)的段數(shù)作為判斷依據(jù)判斷是否處理完成。將預(yù)處理完成后的文本用預(yù)訓(xùn)練好的Word2Vec模型表示為詞向量。

        圖3 一條食品健康長(zhǎng)文謠言

        圖4 食品健康領(lǐng)域長(zhǎng)文本預(yù)處理流程

        1.4 特征提取

        本實(shí)驗(yàn)采取基于神經(jīng)網(wǎng)絡(luò)的特征提取方法,下面介紹基于文本卷積神經(jīng)網(wǎng)絡(luò)的特征提取。

        文本卷積神經(jīng)網(wǎng)絡(luò)(TextCNN)是由Yoon Kim于2014年提出的,思想是將卷積神經(jīng)網(wǎng)絡(luò)(CNN)應(yīng)用到文本分類的任務(wù)中,采用多個(gè)不同的尺度的卷積核來(lái)提取文本句子中的關(guān)鍵信息,從而更好地獲取局部的相關(guān)性。此外,在計(jì)算效率上同循環(huán)神經(jīng)網(wǎng)絡(luò)及其變種結(jié)構(gòu)長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)、門循環(huán)單元(gate recurrent unit,GRU)等方法相比[18],它的并行效率更高,訓(xùn)練速度更快。

        實(shí)驗(yàn)采用Word2Vec模型將預(yù)處理后的新聞數(shù)據(jù)表示為d個(gè)詞向量x1,x2,…,xd,d代表了文本的最大長(zhǎng)度。實(shí)驗(yàn)采用基于新浪微博語(yǔ)料訓(xùn)練的Word2Vec模型,詞向量維度為300維,w∈300。x1,x2,…,xd通過(guò)TextCNN的卷積和池化過(guò)程得到文本特征的高維表示。這時(shí),文本中謠言的特征和隱藏語(yǔ)義信息已被提取出來(lái)。

        1.5 示例自注意力層

        由于每個(gè)示例中并不是都包含著謠言信息,且在包中的謠言的權(quán)重占比不同。而我們考慮到自注意力層已經(jīng)被證明可以找到特征中的重點(diǎn)信息,并找出各個(gè)特征之間的關(guān)聯(lián)性聯(lián)系[19]。本文考慮將TextCNN結(jié)構(gòu)從各示例中提取出的高維文本特征表示輸入到自注意力層。將包中每個(gè)示例特征和其它示例特征計(jì)算attention,來(lái)捕捉示例之間的關(guān)聯(lián)性聯(lián)系,并找到其中與謠言最接近的示例。

        在計(jì)算時(shí),構(gòu)建3個(gè)矩陣Q,K,V。首先計(jì)算Q與K之間的點(diǎn)乘這個(gè)得分,那么q1和k1的點(diǎn)積是第一個(gè)得分,q1和k2的點(diǎn)積是第二個(gè)得分,以此類推得到所有的得分。為避免它結(jié)果過(guò)大,除以一個(gè)尺度標(biāo)度,即query或key的維度平方根。以softmax函數(shù)對(duì)其結(jié)果做歸一化,轉(zhuǎn)換成概率分布,此時(shí)softmax得到的分?jǐn)?shù)可以確定每個(gè)示例在該位置的表達(dá)程度。最終與矩陣V相乘得到每個(gè)示例權(quán)重和的表示,即自注意力層的輸出。自注意力機(jī)制的總計(jì)算公式[19]用式(3)表示為

        (3)

        1.6 Sigmoid分類器

        樣本通過(guò)預(yù)處理變成包結(jié)構(gòu),然后經(jīng)過(guò)詞嵌入表示為詞向量,通過(guò)神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取得每個(gè)示例的特征,再將這些特征經(jīng)過(guò)示例自注意力層,這時(shí)得到包內(nèi)全部示例關(guān)于謠言的概率,選出得分最高的示例通過(guò)Sigmoid分類器進(jìn)行分類,v是得分最高的示例的高層表示,分類得分p用式(4)表示

        p=sigmoid(Wcv+bc)

        (4)

        模型在訓(xùn)練時(shí),使用的損失函數(shù)是二值交叉熵(binary cross-entropy)損失函數(shù),用式(5)表示為

        (5)

        其中,N是樣本個(gè)數(shù),yi是第i個(gè)樣本的標(biāo)簽,p(yi)表示第i個(gè)樣本被預(yù)測(cè)為謠言的概率。

        2 實(shí)驗(yàn)與結(jié)果分析

        2.1 數(shù)據(jù)集

        為探究多示例學(xué)習(xí)在食品健康領(lǐng)域長(zhǎng)文謠言檢測(cè)的有效性,本實(shí)驗(yàn)在數(shù)據(jù)集中將有明顯篇章結(jié)構(gòu)的新聞選出作為實(shí)驗(yàn)對(duì)象。經(jīng)過(guò)人工篩選,在2511條謠言數(shù)據(jù)中選出2000條符合要求的長(zhǎng)文,為保證實(shí)驗(yàn)數(shù)據(jù)的平衡性,在5898條非謠言數(shù)據(jù)中選出2000條符合要求的長(zhǎng)文,將上述4000條樣本構(gòu)成本實(shí)驗(yàn)所使用的數(shù)據(jù)集。

        表2 實(shí)驗(yàn)數(shù)據(jù)劃分

        2.2 實(shí)驗(yàn)設(shè)置

        本章的實(shí)驗(yàn)環(huán)境:處理器為Intel(R) Xeon(R) Gold 6138 CPU @ 2.00 GHz;操作系統(tǒng)為Ubuntu 18.04.2 LTS;GPU型號(hào)為TeslaK80,顯存12 G;服務(wù)器內(nèi)存為125 G。實(shí)驗(yàn)采用的編程語(yǔ)言為Python3.6.8。

        本文實(shí)驗(yàn)選取的模型介紹:

        (1)BiLSTM模型[20]:此為本實(shí)驗(yàn)的基線模型。采用300維的Word2Vec模型將文本轉(zhuǎn)換為詞向量形式,文本的最大輸入長(zhǎng)度為1500,LSTM模型隱層單元數(shù)設(shè)置為128,學(xué)習(xí)率設(shè)為0.001。

        (2)TextCNN模型: 此為本實(shí)驗(yàn)的基線模型。采用300維的Word2Vec模型將文本轉(zhuǎn)換為詞向量形式,文本的最大輸入長(zhǎng)度為1500,TextCNN模型卷積核的長(zhǎng)度分別為2、3和4,每種卷積核的數(shù)量設(shè)為200個(gè)。Dropout的概率設(shè)為0.5。

        (3)MI-TCNN-SA模型:用TextCNN進(jìn)行特征提取,卷積核的長(zhǎng)度分別為2、3和4,每種卷積核的數(shù)量為100個(gè)。特征拼接后300維,將自注意力參數(shù)維度設(shè)為300維,在訓(xùn)練開(kāi)始時(shí)進(jìn)行隨機(jī)初始化。

        (4)MI-TCNN模型是同MI-TCNN-SA模型相比減少了自注意力層。

        (5)MI-TRNN模型是同MI-TCNN模型相比,特征提取方式換為BiLSTM網(wǎng)絡(luò)。

        上述模型基于Keras實(shí)現(xiàn)。神經(jīng)網(wǎng)絡(luò)模型的參數(shù)優(yōu)化采用Adam優(yōu)化方法進(jìn)行更新,模型的輸入數(shù)據(jù)將進(jìn)行整體隨機(jī)重排,設(shè)置每一批次訓(xùn)練128個(gè)樣本。實(shí)驗(yàn)結(jié)果取5折交叉驗(yàn)證的平均值。

        本實(shí)驗(yàn)采用準(zhǔn)確率(Accuracy)、正確率 (Precision)、召回率(Recall)和F1值(F1-Score)4個(gè)常用的指標(biāo)來(lái)對(duì)本實(shí)驗(yàn)的結(jié)果進(jìn)行分析。

        2.3 結(jié)果分析

        為驗(yàn)證本文方法在食品健康長(zhǎng)文謠言檢測(cè)任務(wù)中的有效性,設(shè)計(jì)實(shí)驗(yàn)得到實(shí)驗(yàn)結(jié)果見(jiàn)表3。

        表3 各模型性能對(duì)比

        從上表的實(shí)驗(yàn)結(jié)果看出,本文提出的MI-TCNN-SA模型對(duì)食品健康領(lǐng)域長(zhǎng)文謠言檢測(cè)的效果最好,準(zhǔn)確率達(dá)到86.3%,超過(guò)本實(shí)驗(yàn)中的所有基線方法,其它評(píng)價(jià)指標(biāo)也是表現(xiàn)優(yōu)異。TextCNN模型比BiLSTM模型的效果好,表明食品健康領(lǐng)域的長(zhǎng)文的一個(gè)特點(diǎn)是對(duì)詞序不敏感,更關(guān)注于重點(diǎn)突出的內(nèi)容。這也是本實(shí)驗(yàn)?zāi)P筒捎肨extCNN進(jìn)行特征提取的原因。MI-TRNN模型和MI-TCNN模型都是引入多示例學(xué)習(xí)思想,用包的標(biāo)簽賦給包中最像謠言的示例,目的是將非謠言中最像謠言但又不是謠言的段落準(zhǔn)確區(qū)分。

        從實(shí)驗(yàn)結(jié)果得到,MI-TRNN模型和MI-TCNN模型的檢測(cè)效果分別比BiLSTM模型和TextCNN模型更佳,表明多示例學(xué)習(xí)在長(zhǎng)文本的謠言檢測(cè)任務(wù)中十分有效,是一種對(duì)長(zhǎng)文本計(jì)算的新思路。

        MI-TCNN-SA模型與MI-TCNN模型相比多加了一個(gè)自注意力層,效果有所提升。表4展示MI-TCNN模型與MI-TCNN-SA模型對(duì)選取每個(gè)樣本包中最像謠言示例的第一輪結(jié)果對(duì)比,選取4個(gè)謠言樣本為例。

        在實(shí)驗(yàn)時(shí)發(fā)現(xiàn),MI-TCNN模型經(jīng)過(guò)一輪訓(xùn)練后篩選出來(lái)的被判斷為得分最高的謠言段落與人工標(biāo)注的謠言段落進(jìn)

        表4 MI-TCNN與MI-TCNN-SA第一輪訓(xùn)練提取示例對(duì)比

        行對(duì)比,發(fā)現(xiàn)存在一部分謠言段落被選錯(cuò),這是導(dǎo)致最終檢測(cè)結(jié)果不好的原因。針對(duì)這個(gè)問(wèn)題,在模型中加入一個(gè)示例自注意力層,得到包中不同示例的重要程度,相當(dāng)于考慮了文章段落之間的內(nèi)部結(jié)構(gòu),對(duì)于判斷哪個(gè)示例最像謠言起到了輔助作用,可以引導(dǎo)模型在訓(xùn)練時(shí)較早的選擇出存在謠言段落的示例,加快模型的收斂速度。

        為能夠更好地理解示例自注意力層的作用,以表4中第4個(gè)樣本為例進(jìn)行可視化,如圖5所示。圖中顏色深淺代表了每個(gè)示例的權(quán)重大小。在這個(gè)樣本中,謠言段落的權(quán)重比其它示例段落的權(quán)重都大,說(shuō)明加入自注意力機(jī)制可以篩選出對(duì)謠言檢測(cè)更有用的示例。驗(yàn)證了示例自注意力層對(duì)MI-TCNN-SA模型性能提升的重要性。

        圖5 自注意力機(jī)制可視化

        MI-TCNN-SA模型的訓(xùn)練過(guò)程如圖6(a)與圖6(b)所示,兩圖中的橫坐標(biāo)均表示模型的迭代次數(shù),縱坐標(biāo)分別表示Accuracy值和Loss值。從兩圖中看出,模型在迭代次數(shù)為15時(shí)已經(jīng)基本收斂。

        圖6 訓(xùn)練中相關(guān)參數(shù)

        3 結(jié)束語(yǔ)

        本文基于多示例學(xué)習(xí)的思想,提出MI-TCNN-SA模型。并介紹該模型的4部分:一是本實(shí)驗(yàn)中提出的一種對(duì)于新聞長(zhǎng)文本數(shù)據(jù)預(yù)處理方式,按照多示例學(xué)習(xí)的思想將數(shù)據(jù)處理成包-示例的形式;二是特征提取,用TextCNN神經(jīng)網(wǎng)絡(luò)進(jìn)行提??;三是示例自注意力層,引入自注意力機(jī)制提高模型性能;四是Sigmoid分類和二值交叉熵?fù)p失。通過(guò)模型間的對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),本文提出模型在食品健康領(lǐng)域的長(zhǎng)文謠言檢測(cè)任務(wù)中表現(xiàn)最佳,尤其表現(xiàn)在對(duì)謠言的檢測(cè)上,充分驗(yàn)證了本文方法的有效性。同時(shí)在將多示例學(xué)習(xí)的思想運(yùn)用到TextCNN上,與常規(guī)TextCNN對(duì)長(zhǎng)文本新聞進(jìn)行謠言檢測(cè),最終發(fā)現(xiàn)多示例學(xué)習(xí)對(duì)本實(shí)驗(yàn)任務(wù)有一定改善,這也說(shuō)明多示例學(xué)習(xí)是長(zhǎng)文本謠言檢測(cè)的一項(xiàng)較好的改善方法。

        但盡管如此,在食品健康領(lǐng)域的謠言檢測(cè)的研究仍然勉勵(lì)這新的難點(diǎn)和挑戰(zhàn):

        (1)目前針對(duì)食品健康領(lǐng)域謠言檢測(cè)的研究還比較少,而且缺少公開(kāi)可用的高質(zhì)量規(guī)模大的數(shù)據(jù)集。根據(jù)食品健康謠言長(zhǎng)期反復(fù)出現(xiàn)的特點(diǎn),可以構(gòu)建一個(gè)食品健康領(lǐng)域的謠言知識(shí)庫(kù),在謠言檢測(cè)任務(wù)中引入外部知識(shí)來(lái)輔助模型進(jìn)行學(xué)習(xí)。

        (2)針對(duì)長(zhǎng)文謠言檢測(cè)的研究也比較少,長(zhǎng)文謠言的一大特點(diǎn)是既包含謠言段落又包含非謠言段落,能夠?qū)χ{言段落做出精準(zhǔn)定位也是一個(gè)亟待解決的難題。

        猜你喜歡
        文本實(shí)驗(yàn)檢測(cè)
        記一次有趣的實(shí)驗(yàn)
        “不等式”檢測(cè)題
        “一元一次不等式”檢測(cè)題
        “一元一次不等式組”檢測(cè)題
        在808DA上文本顯示的改善
        做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
        太空探索(2016年5期)2016-07-12 15:17:55
        小波變換在PCB缺陷檢測(cè)中的應(yīng)用
        精品国产亚洲第一区二区三区| 国产精品无码久久久久免费AV| 国产盗摄XXXX视频XXXX| 日韩欧美第一页| 亚洲av黄片一区二区| 亚洲精品中文字幕乱码3| 国产精品一区二区三久久不卡| 无码一区二区三区亚洲人妻| 欧美精品在线一区| 精品久久久久久午夜| 国产精品亚洲二区在线| 天天躁夜夜躁av天天爽| 欧美丰满熟妇aaaaa片| 久久精品国产屋| 91亚洲免费在线观看视频| 夹得好湿真拔不出来了动态图| 欧美巨大性爽| www久久久888| 青青草手机在线观看视频在线观看 | 一本精品99久久精品77| 激情97综合亚洲色婷婷五| 国产一级r片内射免费视频| 粉嫩极品国产在线观看免费一区| 伊人久久大香线蕉综合影院首页| 国产精品无码一区二区在线国| 日韩女同一区在线观看| 友田真希中文字幕亚洲| 韩国无码av片在线观看网站| 中文在线√天堂| 开心五月婷婷综合网站| 91精品人妻一区二区三区久久久| 一品二品三品中文字幕| 成年奭片免费观看视频天天看| 亚洲av成人永久网站一区| 高潮内射双龙视频| 在线视频99| 麻豆视频在线观看免费在线观看 | 美女在线国产| 国产女主播在线免费看| av无码电影一区二区三区| 久久久久国产一区二区|