亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于組合深度學(xué)習(xí)模型的突發(fā)事件新聞識別與分類研究

        2021-03-15 07:52:48宋英華
        情報學(xué)報 2021年2期
        關(guān)鍵詞:突發(fā)事件卷積向量

        宋英華,呂 龍,劉 丹

        (1. 武漢理工大學(xué)中國應(yīng)急管理研究中心,武漢 430070;2. 武漢理工大學(xué)安全科學(xué)與應(yīng)急管理學(xué)院,武漢 430070)

        1 引 言

        據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心(China Internet Net‐work Information Center,CNNIC)統(tǒng)計,截至2019年6 月,中國網(wǎng)民人數(shù)突破8.5 億人,其中超過6.8億人是網(wǎng)絡(luò)新聞用戶,占網(wǎng)民總數(shù)的80.3%[1]。由于網(wǎng)絡(luò)新聞用戶的數(shù)量龐大,一旦發(fā)生突發(fā)事件并在網(wǎng)絡(luò)中傳播,輿情擴散速度極快。如果傳播中的突發(fā)事件屬于負(fù)面新聞,就會造成巨大的網(wǎng)絡(luò)輿論,甚至?xí)?dǎo)致大規(guī)模群體性事件的發(fā)生,這既不利于社會秩序的穩(wěn)定,又挑戰(zhàn)政府執(zhí)政能力,破壞政府和國家在社會治理中的公信力。關(guān)于熱點新聞事件的網(wǎng)絡(luò)輿情管控,十九大報告中多次強調(diào)互聯(lián)網(wǎng)的監(jiān)督管理工作,要求有關(guān)單位加強網(wǎng)絡(luò)內(nèi)容治理,建立完善的網(wǎng)絡(luò)治理體系[2]。同時,2018 年中央網(wǎng)信辦聯(lián)合公安部發(fā)布《具有輿論屬性或社會動員能力的互聯(lián)網(wǎng)信息服務(wù)安全評估規(guī)定》,要求“及時處理熱點問題,防止網(wǎng)絡(luò)輿情失控”[3]。網(wǎng)絡(luò)輿情治理需要提前識別突發(fā)事件,而突發(fā)事件主要是以新聞文本為載體在互聯(lián)網(wǎng)中傳播,因此,新聞文本分類在網(wǎng)絡(luò)輿情前期的監(jiān)督管理工作中的尤為重要。高效精確的突發(fā)事件新聞識別與自動分類可使有關(guān)部門及時搜集信息并跟蹤突發(fā)事件發(fā)展趨勢,當(dāng)某類突發(fā)事件新聞報道的頻率劇增,應(yīng)當(dāng)引起重視,盡早提醒政府和相關(guān)部門及時關(guān)注并處理熱點事件,這不僅為政府采取措施爭取寶貴時間,有效地避免事件進一步惡化、導(dǎo)致群體性事件發(fā)生,而且能夠維護黨和政府治理社會的公信力。

        高效精確的突發(fā)事件新聞識別與文本自動分類的核心在于文本信息表示和算法模型。國內(nèi)外研究學(xué)者對此開展了大量的研究,總體分為兩個階段:傳統(tǒng)機器學(xué)習(xí)階段和深度學(xué)習(xí)階段。在傳統(tǒng)機器學(xué)習(xí)中,學(xué)者主要研究文本特征提取技術(shù),例如,李文斌等[4]在統(tǒng)計計算各詞語的信息增益(informa‐tion gain,IG)時,考慮文本各文檔對于詞語熵值的貢獻度不同,在計算公式中引入文檔貢獻系數(shù);劉海峰等[5]在計算互信息(mutual information,MI)時發(fā)現(xiàn)模型對低頻詞過度敏感,于是提出互信息與TF-IDF (term frequency-inverse document frequency)結(jié)合選取文本特征;Piskorski 等[6]用NEWUS 系統(tǒng)抽取網(wǎng)絡(luò)新聞中暴力和災(zāi)難事件的信息特征,首先提取網(wǎng)絡(luò)新聞主題特征,然后按照新聞主題聚類,最后利用淺層語義分析和抽取語法對聚類中的每篇文檔進行事件匹配,以此挖掘新聞文本之間的差異;張永奎等[7]基于關(guān)鍵詞庫采用ID3 算法實現(xiàn)突發(fā)事件文本分類應(yīng)用;毛文娟[8]采用TF-IDF值表示文本特征信息,基于K-means 聚類算法進行訓(xùn)練樣本分類,以相似度和閾值監(jiān)測新話題文本;王強[9]采用TDIDF 作為特征向量值,基于KNN(K-nearest neigh‐bor)算法對新樣本進行文本分類。傳統(tǒng)機器學(xué)習(xí)方法提取文本特征的能力有限,難以表達(dá)詞與詞之間的相互關(guān)系和詞序信息,導(dǎo)致準(zhǔn)確率存在瓶頸。

        近年來,深度學(xué)習(xí)方法逐漸成為研究趨勢和熱點,有學(xué)者提出使用深度學(xué)習(xí)技術(shù)提取文本特征信息,例如,Collobert 等[10]基于傳統(tǒng)機器學(xué)習(xí)技術(shù)在提取文本特征時容易出現(xiàn)數(shù)據(jù)維度爆炸和高稀疏性的問題,首次提出詞向量概念;Mikolv 等[11]首次提出詞嵌入方法word2vec 模型,該模型為詞向量轉(zhuǎn)換提供了技術(shù)支撐。同時,有學(xué)者提出使用神經(jīng)網(wǎng)絡(luò)作為分類模型,例如,Kim[12]利用word2vec 模型生成詞向量,采用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)進行特征信息學(xué)習(xí);金占勇[13]在詞向量基礎(chǔ)上,使用長短時記憶網(wǎng)絡(luò)(long shortterm memory,LSTM)實現(xiàn)突發(fā)災(zāi)害事件網(wǎng)絡(luò)輿情情感分析;王東波等[14]在研究先秦典籍過程中,首先構(gòu)建分類體系,然后使用TF-IDF 表達(dá)文本特征,并輸入至Bi-LSTM (bi-directional LSTM) 模型中,實驗結(jié)果表明,深度學(xué)習(xí)方法效果明顯優(yōu)于機器學(xué)習(xí)方法。相對于傳統(tǒng)機器學(xué)習(xí)方法,深度學(xué)習(xí)方法的精度有所提高,但其神經(jīng)網(wǎng)絡(luò)模型種類繁多,每種網(wǎng)絡(luò)模型學(xué)習(xí)信息的側(cè)重點存在差異,如CNN模型因其獨特的局部連接結(jié)構(gòu)更傾向于提取局部空間特征信息,而RNN(recurrent neural network)模型因其序列結(jié)構(gòu)(某一時刻的輸出作為下一時刻的部分輸入)更傾向于提取時間序列特征信息。由于單一的深度學(xué)習(xí)模型提取信息能力存在一定缺陷,有學(xué)者開始研究組合深度學(xué)習(xí)模型提取特征信息,例如,劉月等[15]在組合深度學(xué)習(xí)模型的基礎(chǔ)上,引入注意力機制研究新聞文本分類;Lai 等[16]將文本特征進行詞向量處理,輸入至RNN 和CNN 組成的RCNN(region CNN)神經(jīng)網(wǎng)絡(luò),并運用至文本分類中,分類性能明顯提高;趙容梅等[17]將卷積層與循環(huán)層重復(fù)串聯(lián)兩次組成混合神經(jīng)注意力網(wǎng)絡(luò)(CNN-LSTM based on attention,CLA),第一次串聯(lián)實現(xiàn)詞編碼,第二次串聯(lián)實現(xiàn)句子編碼,最后基于注意力機制在Softmax 層實現(xiàn)中文隱式情感分析任務(wù);梁志劍等[18]在研究文本分類中,首先使文本詞向量化,然后使用BiGRU 神經(jīng)網(wǎng)絡(luò)提取文本特征信息,采用TF-IDF 算法對每種特征賦予權(quán)值,最后使用貝葉斯分類器實現(xiàn)分類任務(wù);金寧等[19]首先使用詞向量方法表示文本特征,然后計算每個詞的TF-IDF 權(quán)值,權(quán)值矩陣與詞向量矩陣相乘,得到文本加權(quán)詞向量,然后輸入至BiGRU 層提取特征信息,最后經(jīng)過卷積層實現(xiàn)農(nóng)業(yè)問題分類;趙洪[20]在研究自動式文摘技術(shù)時,分別討論了CNN、RNN和組合模型方法的原理和優(yōu)缺點。然而,上述組合深度學(xué)習(xí)的研究均采用單一的詞向量表達(dá)文本信息,只考慮了詞語間相互關(guān)系信息,而忽略了詞語與類別間相互關(guān)系。

        鑒于此,考慮突發(fā)事件新聞與普通事件新聞關(guān)鍵詞特征不同,以及各類突發(fā)事件關(guān)鍵詞區(qū)分明顯的特點,為使模型能更全面學(xué)習(xí)文本特征信息、提升其性能,本文設(shè)計了兩級分類模型監(jiān)控網(wǎng)絡(luò)新聞事件:第一級突發(fā)事件新聞識別模型識別網(wǎng)絡(luò)中的突發(fā)事件;第二級分類模型在上一級模型的基礎(chǔ)上實現(xiàn)突發(fā)事件新聞分類。遵循組合深度學(xué)習(xí)新聞文本分類的研究思路,特選取CNN、LSTM 和MLP(multilayer perceptron)模型,提出雙輸入組合深度學(xué)習(xí)的新聞文本分類的DCLSTM-MLP 模型,采用基于詞向量的方式與基于詞語離散度的方式并行表達(dá),基于詞向量表征詞語間關(guān)系作為CNN 模塊的輸入,基于離散度向量表征詞語與類別間關(guān)系作為MLP 模塊的輸入,從而實現(xiàn)對新聞文本的局部空間特征信息、時間序列特征信息和詞語與類別間關(guān)系的綜合學(xué)習(xí)。

        2 基于組合深度學(xué)習(xí)的新聞文本分類流程

        當(dāng)互聯(lián)網(wǎng)上出現(xiàn)新聞事件時,基于組合深度學(xué)習(xí)的新聞文本分類流程步驟如下:

        Step1.將新聞文本輸入卷積神經(jīng)網(wǎng)絡(luò)中,預(yù)測該新聞文本是否屬于突發(fā)事件新聞,若不是則不需要監(jiān)控,否則進入Step2。

        Step2.突發(fā)事件新聞文本預(yù)處理和特征表達(dá):分詞和過濾停用詞,使用word2vec 模型得到文本詞向量,并計算文本離散度向量?;陔x散度的向量輸入反映了詞語與類別之間的關(guān)聯(lián)信息,值越大對分類的貢獻度越大;基于詞向量的輸入反映了詞與詞之間的語義關(guān)系。使用兩種特征表達(dá)方式可使模型盡可能學(xué)會文本深層次的特征。

        Step3.將詞向量輸入至MCNN(multiple CNN)模塊,經(jīng)過兩次卷積和池化操作得到文本空間特征信息,再將空間特征輸入至LSTM 模塊學(xué)習(xí)時間特征信息;將離散度向量輸入至MLP 模塊,隱藏層神經(jīng)元則學(xué)習(xí)詞語與類別之間的相互關(guān)系,MLP 模塊和LSTM 模塊的輸出值拼接融合,輸入至Softmax 層進行特征縮放,并輸出突發(fā)事件新聞預(yù)測類別。

        基于組合深度學(xué)習(xí)的新聞文本分類的具體流程如圖1 所示。

        圖1 基于組合深度學(xué)習(xí)的新聞文本分類流程圖

        2.1 基于離散度的詞語與類別間特征表示

        與普通事件新聞文本相比,突發(fā)事件新聞文本中含有相對較少、但與突發(fā)事件新聞主題關(guān)聯(lián)性較強的關(guān)鍵詞特征,如新聞文本中出現(xiàn)“地震”,則該文本很有可能是地震類突發(fā)事件新聞。因此,本文利用相關(guān)性較強的關(guān)鍵特征詞表示新聞文本信息,并用來區(qū)分普通事件新聞與突發(fā)事件新聞。深度學(xué)習(xí)中,詞向量法采用空間距離代表詞義近似程度,以及one-hot 法采用0 和1 表示特征詞是否出現(xiàn),忽略了詞語在文中的占比權(quán)重和詞語與類別間的關(guān)聯(lián)信息,因此,本文提出基于離散度的特征表示方法,具體步驟如下:

        Step1.統(tǒng)計某個類別出現(xiàn)特定詞語的文本數(shù)量,組成該詞語的類別頻數(shù)向量。設(shè)vIm表示第m個類別中出現(xiàn)詞語I的文本數(shù)量,詞語I在含有n個類別的樣本集中頻數(shù)向量VI為

        Step2.考慮文本集中各類別文本數(shù)量不同產(chǎn)生類別頻數(shù)向量的偏差,計算每個類別文本特定詞語的出現(xiàn)概率。設(shè)qi表示為第i類文本總數(shù),類別概率向量PI為

        Step3.計算PI的方差作為詞語I的離散度,方差越大,離散度越大,表明分類過程中包含的特征信息也越明顯。設(shè)是詞語I的概率均值,是詞語I的概率方差,離散度計算公式為

        主體要素是以國家司法機關(guān)、行政機關(guān)為主的全社會力量。要求發(fā)動組織和全社會的人關(guān)心和參與治理犯罪。[5]科技是總體國家安全觀重點涉及的領(lǐng)域,高新技術(shù)犯罪將會給國家安全造成巨大隱患。只有動員全社會的力量才能切實有力的預(yù)防此類犯罪,使危害國家安全者無處藏身,危害國家安全的行為無法得逞。[6]踐行總體國家安全觀有利于凝聚預(yù)防人工智能犯罪的磅礴力量,構(gòu)筑起多元主體參與的犯罪預(yù)防體系。眾人拾柴火焰高,相關(guān)主體應(yīng)積極行動起來,為構(gòu)筑起多元主體參與的犯罪預(yù)防體系添磚加瓦。

        Step4.以各詞語的離散度組成文本離散度向量,長度為詞語總數(shù),詞語出現(xiàn),則對應(yīng)的詞序列處為該詞的方差值,否則為0。設(shè)z為樣本集中詞匯總量,文本離散度向量D表示為

        2.2 DCLSTM-MLP模型

        DCLSTM-MLP 模型結(jié)構(gòu)如圖2 所示,該模型主要由三個部分組成:多層感知網(wǎng)絡(luò)(MLP)、多層卷積神經(jīng)網(wǎng)絡(luò)(MCNN) 和單向長短時記憶網(wǎng)絡(luò)(LSTM)。其中,MLP 是以基于離散度的詞語與類別間特征向量為輸入,隱藏層神經(jīng)元學(xué)習(xí)詞語與類別之間的相互關(guān)系,輸出詞語與類別間的特征信息向量;MCNN 是以含有詞語間特征信息的詞向量為輸入,該部分有5 種型號卷積核,經(jīng)過不同型號卷積核的卷積-池化-再卷積操作,反復(fù)提取詞向量中的局部特征,輸出多種型號卷積核的文本空間特征信息向量;一種型號的卷積核提取的特征向量為一個時間片段,多種型號的卷積核提取的特征信息組成多個時間片段,輸入至LSTM 部分,使其學(xué)習(xí)多個時間片段的時間序列特征信息,最后輸出綜合空間特征向量。MLP 與LSTM 輸出的特征向量拼接融合成新的特征信息向量,然后輸入至全連接層再學(xué)習(xí),將再學(xué)習(xí)后提取的特征信息輸入至Softmax 層進行特征縮放,最終得到文本類別。

        圖2 DCLSTM-MLP模型結(jié)構(gòu)

        2.2.1 基于MCNN模型的詞向量特征提取

        卷積神經(jīng)網(wǎng)絡(luò)用于提取局部特征,由卷積層和池化層組成,包含若干個共享的濾波器,大小由每次過濾的詞數(shù)量(m) 和詞向量維度(a) 決定。設(shè)每次過濾的詞數(shù)為m,Z(x,y)表示第x個詞語第y個維度的值,用W(c,d)表示濾波器中第c行第d列的值。用f(i,1)表示卷積后第i行的特征值,則有

        將濾波器得到的特征值經(jīng)過最大池化操作,得到該濾波器的最大特征值C,

        設(shè)有k種型號的濾波器,每種濾波器有h個,則經(jīng)過卷積、池化和融合后可得到大小為(k,h)的feature map_1,用X(xx,yy)表示該feature map_1 中的值,代表第xx種型號、第yy個濾波器的最大特征值。

        再次經(jīng)過z個(z為類別數(shù))大小為(1,h)的濾波器卷積操作,用Hl(1,zz)表示第l個濾波器第zz列的值,對feature map_1 進行卷積,提取每個卷積核與文本類別之間的關(guān)系,得到大小為(k,z)的feature map_2,用U(s,n)表示feature map_2 中的值,代表第s種型號、第n個濾波器的提取的特征信息與類之間的關(guān)系。設(shè)Φ是激活函數(shù),bn是偏置量,則有

        2.2.2 基于LSTM模型的時間序列特征提取

        LSTM 單元結(jié)構(gòu)中輸入門(input gate)、輸出門(output gate) 和遺忘門(forget gate)。LSTM 模型提取MCNN 輸出的feature map_2 中,各卷積核與類別間相互關(guān)系信息的序列信息。U(s:)表示feature map_2 第s行的向量,則有

        遺忘門:

        輸入門:

        輸出門:

        其中,Wf、Wi和Wc、Wo分別是遺忘門、輸入門和輸出門的神經(jīng)網(wǎng)絡(luò)權(quán)重參數(shù);bf、bi和bc、bo分別表示遺忘門、輸入門和輸出門的神經(jīng)網(wǎng)絡(luò)偏置量;C?t和ht表示神經(jīng)單元在t時刻的狀態(tài)值。

        3 實驗及結(jié)果分析

        3.1 突發(fā)事件新聞文本搜集

        《國家突發(fā)公共事件總體應(yīng)急預(yù)案》將突發(fā)事件分為4 類:公共衛(wèi)生事件、社會安全事件、事故災(zāi)難事件和自然災(zāi)害事件。本文通過爬蟲技術(shù),在百度新聞上以關(guān)鍵詞的形式,搜索10 類自然災(zāi)害事件:暴風(fēng)災(zāi)害、暴雨災(zāi)害、暴雪災(zāi)害、地震災(zāi)害、海嘯災(zāi)害、洪澇災(zāi)害、泥石流災(zāi)害、森林火災(zāi)災(zāi)害、沙塵暴災(zāi)害和山體滑坡災(zāi)害,5477 條突發(fā)事件新聞文本;以及開源的常規(guī)新聞事件文本集(如經(jīng)濟類、藝術(shù)類、政治類等新聞文本)有2815 條;合并后共計8292 條新聞文本。

        3.2 普通事件與突發(fā)事件二分類模型分析

        總樣本集包含5477 條突發(fā)事件新聞文本和2815條普通新聞文本,隨機選取6699 篇新聞文本作為訓(xùn)練集、1593 篇作為測試集,并將訓(xùn)練集輸入至CNN 模型中。CNN 模型主要參數(shù)有文本長度、詞向量維度、卷積核個數(shù)和全連接層神經(jīng)元數(shù),每次改變單一模型參數(shù),重復(fù)模擬3 次,得到模型的準(zhǔn)確率、召回率和綜合值的平均值,去平均值最大時的參數(shù)為最佳參數(shù),最佳參數(shù)和最優(yōu)結(jié)果如表1 所示。

        由表1 可知,CNN 模型準(zhǔn)確率、召回率和綜合值均達(dá)到99.55%,可有效地識別普通事件新聞和突發(fā)事件新聞,為下一步突發(fā)事件新聞文本分類打下基礎(chǔ)。

        3.3 突發(fā)事件新聞文本多分類模型分析

        3.3.1 離散度向量優(yōu)越性檢驗

        為檢驗提出的檢驗離散度向量表達(dá)方法的特征信息提取能力,以突發(fā)事件新聞文本為樣本集,與空間向量表達(dá)法(vector space model,VSM)、卡方檢驗法與TF-IDF方法對比實驗,具體結(jié)果如圖3所示。

        表1 CNN模型最佳參數(shù)和最優(yōu)結(jié)果

        由圖3 可知,本文提出的離散度向量表達(dá)方法相對于VSM、卡方檢驗和TF-IDF 方法具有較好的信息表達(dá)能力,并且提取的特征信息更豐富。

        圖3 各特征表達(dá)方式性能對比

        3.3.2 模型參數(shù)調(diào)整

        基于深度學(xué)習(xí)的新聞文本分類模型參數(shù)決定模型性能,為對比分析本文提出的DCLSTM-MLP 組合模型與MLP、Text-CNN、Text-LSTM、CLSTM 和CNN-MLP 模型,在獲取的突發(fā)事件新聞文本的同一訓(xùn)練集基礎(chǔ)上,通過重復(fù)模擬3 次,每次改變單一模型參數(shù),得到精確度、召回率和綜合值的平均值,取綜合值最大時的參數(shù)為最佳參數(shù),如表2~表7所示,并以此設(shè)定各模型的最佳狀態(tài)。

        表2 MLP模型參數(shù)及最佳值

        表3 Text-CNN模型參數(shù)及最佳值

        表4 Text-LSTM模型參數(shù)及最佳值

        3.3.3 模型對比分析

        在設(shè)定各模型最佳狀態(tài)的基礎(chǔ)上,以突發(fā)事件新聞文本同一測試集為對象,得到各模型的準(zhǔn)確率、召回率和綜合值,結(jié)果如圖4 所示。

        由圖4 可得到如下結(jié)論:

        (1)總體而言,文本分類模型結(jié)構(gòu)越復(fù)雜,表明其神經(jīng)元個數(shù)越多,網(wǎng)絡(luò)層次越多,學(xué)習(xí)能力越強,模型的綜合性能也越強。從準(zhǔn)確率角度分析,模型優(yōu)劣比較為MLP<Text-LSTM<Text-CNN<CLSTM<CNN-MLP<DCLSTM-MLP;從召回率角度分析,MLP<Text-CNN<Text-LSTM<CLSTM<CNN-MLP<DCLSTMMLP;從綜合值角度分析,MLP<Text-CNN<Text-LSTM<CLSTM<CNN-MLP<DCLSTM-MLP。

        (2)MLP 模型相對其他神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)最簡單,模型學(xué)習(xí)特征的能力有限;CLSTM 模型結(jié)構(gòu)比CNN-MLP 復(fù)雜,但前者采用以詞向量為輸入值的單輸入方式,后者采用以詞向量和離散度向量為輸入值的雙輸入方式,后者輸入的信息更充足,模型學(xué)習(xí)的內(nèi)容更全面,因此后者的準(zhǔn)確率稍高;DCLSTM-MLP 模型結(jié)構(gòu)最復(fù)雜,該模型不僅可以學(xué)習(xí)文本的序列信息與空間信息,也可以學(xué)習(xí)特征詞語與類別間相互關(guān)系信息,該模型準(zhǔn)確率明顯高于其他模型;綜合值是綜合衡量準(zhǔn)確率和召回率的參數(shù),既能客觀反映準(zhǔn)確率的趨勢,又能反映召回率的趨勢,所以模型越復(fù)雜,綜合值越高。

        表5 CNN-MLP模型參數(shù)及最佳值

        表6 CLSTM模型參數(shù)及最佳值

        表7 DCLSTM-MLP模型參數(shù)及其最佳值

        (3) DCLSTM-MLP 模型準(zhǔn)確率達(dá)到94.82%,明顯高于其他模型(88.76%、92.46%、92.35%、93.68%和93.0%),其召回率(94.97%) 與綜合值(94.83%) 也明顯優(yōu)于其他模型??傮w而言,DCLSTM-MLP 模型綜合值(94.83%) 比其他模型分別高(6.06%、2.36%、2.47%、1.14%和1.79%),這表明該組合模型能提高分類性能。

        圖4 模型性能對比

        4 結(jié)束語

        針對突發(fā)事件新聞與普通事件新聞的關(guān)鍵詞特征不同,以及各類突發(fā)事件關(guān)鍵詞區(qū)分明顯的特點,本文有如下三點創(chuàng)新。①設(shè)計了兩級分類模型,第一級模型識別突發(fā)事件新聞,第二級模型實現(xiàn)突發(fā)事件新聞分類。②不同于現(xiàn)有研究采用詞向量方式表達(dá)文本特征信息,本文考慮各詞語對分類影響貢獻度提出了離散度向量,通過計算各詞語的概率方差得到各詞對分類的貢獻度。③模型采用詞向量與離散度向量共同表達(dá)文本特征的雙輸入模式,以離散度向量表征詞語與類別間的相互關(guān)系,以詞向量表征詞語間的語義信息。通過實驗對比分析,本文提出的兩級分類模型中,第一級模型突發(fā)事件識別率達(dá)到99.5%,第二級模型準(zhǔn)確率達(dá)到94.82%,表明該模型具有較好的突發(fā)事件新聞識別和分類能力。

        本文不足之處在于文本預(yù)處理中使用了公開停用詞表,沒有構(gòu)建與突發(fā)事件對應(yīng)的專用停用詞表,導(dǎo)致部分特征信息被過濾掉,后期可建立突發(fā)事件新聞專用停用詞表。同時,樣本集數(shù)量較少,且各類新聞數(shù)量分布不均勻,導(dǎo)致模型效能有限,后期需采用更多的樣本集進行實驗。

        猜你喜歡
        突發(fā)事件卷積向量
        向量的分解
        基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
        聚焦“向量與三角”創(chuàng)新題
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        突發(fā)事件的輿論引導(dǎo)
        向量垂直在解析幾何中的應(yīng)用
        清朝三起突發(fā)事件的處置
        文史春秋(2016年8期)2016-02-28 17:41:32
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
        突發(fā)事件
        小說月刊(2014年10期)2014-04-23 08:53:40
        国产乱人伦偷精品视频免| 久久青青草原精品国产app| 国内精品人妻无码久久久影院导航| 国产精品日韩高清在线蜜芽| 中文字幕精品亚洲无线码二区| 女同av一区二区三区| 免费无码一区二区三区a片百度| 朝鲜女子内射杂交bbw| 日韩偷拍一区二区三区视频| 成人在线观看视频免费播放| 国产 高潮 抽搐 正在播放| 久热综合在线亚洲精品| 狠狠色综合7777久夜色撩人| 黑人巨大videos极度另类| 亚洲va成无码人在线观看| 久草中文在线这里只有精品| 3d动漫精品啪啪一区二区免费| 亚洲色大成网站www尤物| 亚洲综合网一区二区三区| 麻豆人妻性色av专区0000| 国产成人久久精品一区二区三区| 日本色噜噜| 色婷婷精品国产一区二区三区 | 国产精品黄色片在线观看| 久久av一区二区三区黑人| 国产精品99精品久久免费| 国产麻无矿码直接观看| 极品人妻少妇一区二区| 国产日产久久高清ww| 精品国产乱码久久久久久影片| 亚洲AV无码成人精品区网页| 久久午夜一区二区三区| 成人欧美一区二区三区在线观看 | av无码精品一区二区乱子| 亚洲av无吗国产精品| 成人国产精品一区二区八戒网| 欧洲熟妇色 欧美| 久久久久久国产精品免费网站| 一本到亚洲av日韩av在线天堂 | 日韩在线精品免费观看| 挺进邻居丰满少妇的身体|