亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于變分自編碼器的謠言立場分類算法

        2022-02-24 05:06:26郭奉琦孟凡榮王志曉
        計算機工程 2022年2期
        關(guān)鍵詞:特征提取分類特征

        郭奉琦,孟凡榮,王志曉

        (中國礦業(yè)大學計算機科學與技術(shù)學院,江蘇徐州 221116)

        0 概述

        目前,在線社交媒體已經(jīng)成為人們獲取信息和新聞消費的主要途徑。據(jù)美國媒體報告顯示,三分之二的美國成年人通過社交媒體獲取新聞,其中推特(Twitter)是使用最多的平臺[1]。研究者通過調(diào)查發(fā)現(xiàn),觀察社交媒體用戶對謠言的觀點導向是對謠言報告真實性做出正確判斷的關(guān)鍵[2],而未經(jīng)驗證的謠言可能會引起恐慌[3-4]。有研究表明,最終被證實為虛假的謠言比最終被證實為真實的謠言更容易引發(fā)大量的否認推文[5]。本文中所提及的謠言是指未經(jīng)證實便在網(wǎng)絡(luò)上流傳的消息,并不是單純指代虛假的消息,而謠言立場就是人們在在線社交網(wǎng)絡(luò)中對突發(fā)事件的看法。

        在謠言立場分類任務(wù)中,從數(shù)據(jù)結(jié)構(gòu)信息的角度可將目前的研究工作分為基于單條推文和綜合考慮推文上下文結(jié)構(gòu)兩類,后者是目前的主流研究方向。在此類方法中,部分算法需要根據(jù)不同類別、不同主題之間的差異提取大量的人工特征,這樣雖然能夠提高針對數(shù)據(jù)量較少的類別的分類準確性,但是擴展性較差,并且消耗大量的時間,而過長的時間消耗可能導致錯過控制謠言傳播的最佳時期[6]。在自動提取特征的方法中,許多基于上下文結(jié)構(gòu)的分類算法都使用了神經(jīng)網(wǎng)絡(luò),包括卷積神經(jīng)網(wǎng)絡(luò)、長短時記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)等,但并沒有針對非平衡數(shù)據(jù)進行優(yōu)化和改進,并且為了獲得更好的分類效果,部分算法在完成特征提取后還是會添加手動提取的特征。優(yōu)化非平衡數(shù)據(jù)的思路一方面可以針對數(shù)據(jù)進行加權(quán),另一方面可以提取原始數(shù)據(jù)的特征,將原始數(shù)據(jù)映射為一個固定的分布,從而緩解因數(shù)據(jù)類別之間分布差異過大而帶來的問題,同時還能挖掘更深層推文特征的應(yīng)用空間。

        本文設(shè)計一種能夠自動提取推文特征且無需添加任何額外特征的謠言立場分類算法。該算法引入變分自編碼器(Variational Auto-Encoder,VAE),在使用VAE 生成推文特征之前,先執(zhí)行預處理步驟,再使用gensim 包[7]在word2vec[8]模型上對谷歌新聞數(shù)據(jù)集進行預訓練,將得到的詞向量作為VAE 的輸入。在此基礎(chǔ)上,將推文向量輸入到VAE 中進行特征提取,然后使用LSTM 處理得到的深度特征序列并進行分類。

        1 相關(guān)工作

        1.1 謠言立場分類

        對推特平臺上的推文進行謠言立場分類的任務(wù)最早是由QAZVINIAN 等[9]提出的,在這之后人們對這項任務(wù)的興趣逐漸增加。QAZVINIAN 等人基于一個長期存在的謠言對每條推文執(zhí)行二分類任務(wù)(支持或反對),例如在推特上流傳許久的巴拉克·奧巴馬信仰穆斯林的謠言,其利用過去的推文來訓練分類器,然后將其應(yīng)用于討論同一謠言的新推文。ZENG 等人[10]也對突發(fā)新聞相關(guān)的謠言進行了立場分類,其中包括4 個分類,分別是支持、否定、質(zhì)疑、評論[11](即與事件本身無直接關(guān)系的發(fā)言),具體的立場示例如圖1 所示,該圖顯示了推特中的一個會話結(jié)構(gòu),為了便于理解,本文將其翻譯為中文形式,但在進行訓練和測試時使用重疊的謠言數(shù)據(jù)。

        圖1 謠言立場示意圖Fig.1 Schematic diagram of rumor stance

        AUGENSTEIN 等[12]提出的基 于目標的雙向LSTM 編碼模型,在SemEval-2016 Task 6 數(shù)據(jù)集上取得了較優(yōu)的效果,而LUKASIK 等[13]通過霍克斯過程(Hawkes Process,HP)對推文進行基于時間序列的分類,證明了在不考慮對話結(jié)構(gòu)的條件下同時使用推文的文本內(nèi)容和時間信息的重要性。為了整合推文的時間順序,LUKASIK 等[14]還研究了高斯過程方法。ZUBIAGA 等對源推文和后續(xù)回復的會話結(jié)構(gòu)進行建模,得到線性鏈和樹。該方法使用線性和樹狀的CRF 分類器,性能優(yōu)于LUKASIK等[15]提出的方法。KOCHKINA等[16]針對SemEval-2017 Task 8 研究推文會話的分支結(jié)構(gòu),構(gòu)建了基于會話分支結(jié)構(gòu)的Branch-LSTM 模型,達到了較優(yōu)的效果。VEYSEH 等[11]則將時序自注意力引入立場分類中,使用時間軸中相鄰的推文作為上下文向量來捕捉用戶立場演變中的時間動態(tài)信息。

        常用的機器學習方法沒有針對非平衡數(shù)據(jù)進行優(yōu)化,而優(yōu)化非平衡數(shù)據(jù)的思路一方面可以針對數(shù)據(jù)進行加權(quán)[17],另一方面可以提取原始數(shù)據(jù)的特征,將原始數(shù)據(jù)映射為一個固定的分布,從而緩解因數(shù)據(jù)類別之間分布差異過大且不平衡而帶來的問題,因此,本文引入變分自編碼器,將數(shù)據(jù)映射為高斯分布以提取有效的深度特征。

        1.2 變分自編碼器

        變分自編碼器(VAE)是 由KINGMA 等[18]于2014 年提出的基于變分貝葉斯(Variational Bayes,VB)推斷的一種深度生成模型。如圖2 所示,VAE 包含2 個部分:一個是用于原始輸入數(shù)據(jù)的編碼,生成隱變量的變分概率分布,稱為編碼過程;另一個是根據(jù)生成的隱變量變分概率分布,還原生成原始數(shù)據(jù)的近似概率分布,稱為解碼過程。

        圖2 變分自編碼器結(jié)構(gòu)Fig.2 Structure of VAE

        2 基于VAE-LSTM 的謠言立場分類

        針對謠言立場分類中推文序列數(shù)據(jù)分布復雜且不均衡帶來的問題,本文使用VAE 進行深度特征提取,同時使用LSTM 處理時序特征的分類任務(wù)。此外,使用dropout 方法[19]防止因數(shù)據(jù)量少而出現(xiàn)過擬合現(xiàn)象。

        2.1 特征提取

        在常用的謠言立場分類數(shù)據(jù)集中,數(shù)據(jù)在不同類別的分布不均衡,評論類占高達66.18%的比例,這就導致通過從推文向量本身壓縮數(shù)據(jù)提取特征非常困難。因此,針對這一領(lǐng)域的研究大多是通過普通的特征提取后再手動添加特征,如分析發(fā)帖人說話時的情緒或者分析推文中攜帶的表情符號的意義。如果能夠讓提取的推文特征充分反映輸入數(shù)據(jù)的特征,那么就可以在一定程度上忽略數(shù)據(jù)量不均衡帶來的問題。

        與前人提出的方法相比,注意力模型的原理是計算詞向量的注意力權(quán)重從而使神經(jīng)網(wǎng)絡(luò)能夠更加關(guān)注權(quán)重高,即更加重要的向量進行訓練,但缺點是一旦重要向量的加權(quán)出現(xiàn)偏差就會導致訓練的失誤,尤其是在沒有進行手動添加特征的情況下,因為在可以手動添加特征時,需要依據(jù)經(jīng)驗給明確有用的特征分配高權(quán)重,并且卷積神經(jīng)網(wǎng)絡(luò)模型和自動編碼器模型得到的特征都是對詞向量簡單壓縮,并不能很好地表征推文文本。而VAE 作為一個生成模型可以為數(shù)據(jù)對應(yīng)的隱變量加上先驗,將原始數(shù)據(jù)轉(zhuǎn)換為服從高斯分布的特征形式,通過采樣,最后能獲得符合高斯分布的反映輸入數(shù)據(jù)分布特性的特征向量,簡單來說就是先預先設(shè)定所有特征在4 類分布中服從最符合規(guī)律的正態(tài)分布,再依據(jù)正態(tài)分布對這些特征進行訓練與采樣,當訓練出的特征分布最接近正態(tài)分布時,就代表模型訓練完成。因此,通過對比可以發(fā)現(xiàn),在不手動添加特征的端到端學習中,使用VAE 能夠更好地完成任務(wù)。

        設(shè)X是與訓練數(shù)據(jù)對應(yīng)的隨機變量,Z對應(yīng)為影響數(shù)據(jù)分布的隱變量。以本文所進行的實驗為例,Pθ(Z)表示數(shù)據(jù)集內(nèi)各條推文對應(yīng)深度特征的概率分布,隨機變量Z代表單條推文的深度特征,X代表這條推文的文本向量。在訓練完成后能得到2 個結(jié)果:1)對訓練數(shù)據(jù)的模擬X',即與訓練數(shù)據(jù)同分布的結(jié)果;2)VAE 能為數(shù)據(jù)集中每個數(shù)據(jù)生成一個隱變量Z。訓練和生成的過程如下:基于數(shù)據(jù)X生成隱變量Z,隱變量Z服從參數(shù)為θ的分布Pθ(Z),但由于p(X)和p(Z|X)難以估計,因此使得θ的值難以優(yōu)化。在這種情況下,VAE 引入qφ(Z|X)來替代無法確定的真實后驗分布Pθ(Z|X),并且假設(shè)qφ(Z|X)是一個已知的分布形式,是一個對復雜情況的簡單估計,通過X得到分布qφ(Z|X)再得到Z的這一過程是編碼過程,而通過Z和分布Pθ(Z|X)中得出X′的過程是解碼過程。

        為了使qφ(Z|X)和真實后驗分布Pθ(Z|X)近似相等,VAE 使用KL 散度來衡量兩者之間的相似度,并通過優(yōu)化約束參數(shù)θ和Φ使KL 散度最小化,即:

        經(jīng)過計算得到:

        因為KL 散度DKL(*)≥0 恒成立,所以lbPθ(X)≥L(θ,φ;X)恒成立,因此,L(θ,φ;X)被稱為集合X對數(shù)邊際似然lbPθ(X)的變分下界函數(shù)。

        在這個模型下,從一個分布中采樣的過程是離散的,無法求偏導數(shù)。為了利用反向傳播算法來優(yōu)化參數(shù),從而簡化參數(shù)學習過程,本文采用重參數(shù)化技巧。最終使用的VAE 模型如圖3 所示。

        圖3 本文使用的VAE 模型結(jié)構(gòu)Fig.3 Structure of the VAE model used in this paper

        本文VAE 模型的訓練過程為先假設(shè)推文的深度特征Z符合正態(tài)分布,當損失函數(shù)值達到最優(yōu)時,就代表真實分布極大的接近正態(tài)分布,這時得到的隱變量Z就是后續(xù)學習所需要的深度特征向量。

        2.2 基于LSTM 的序列數(shù)據(jù)處理

        經(jīng)過VAE 提取,可以得到推文深度特征矩陣,每行代表一條推文,每列則對應(yīng)每條特征。為了能夠更好地處理每條推文的特征序列,本文使用LSTM網(wǎng)絡(luò)[20]。現(xiàn)有自然語言處理中的情感分類等研究成果表明,在短文本中使用LSTM 方法能夠更好地進行學習,而長文本情況下使用卷積神經(jīng)網(wǎng)絡(luò)能夠減少訓練時間。原因是長文本的數(shù)據(jù)量較大,使用卷積神經(jīng)網(wǎng)絡(luò)能夠減小參數(shù)規(guī)模,從而縮短學習時間。在實驗使用的推特數(shù)據(jù)集中,文本最大長度被限制在了280 個字符,而且有相當一部分用戶并不會發(fā)到280 個字符,所以文本量是不足的,模型需要在較少的文本環(huán)境下進行學習判別,因此,本文在學習過程中使用LSTM 網(wǎng)絡(luò)。

        與循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)相比,LSTM 網(wǎng)絡(luò)解決了RNN 無法處理長距離依賴的問題。由于RNN 的隱藏層只有一個狀態(tài)h來保存當前狀態(tài)的信息,因此RNN 對短期記憶十分敏感,而LSTM 則增加了一個狀態(tài)c用于保存長期狀態(tài)信息,所以能夠兼顧長短期的信息。兩者結(jié)構(gòu)對比如圖4 所示。其中:Xt是當前時刻網(wǎng)絡(luò)的輸入值;ht-1是上一時刻LSTM 的輸出值;ct-1是上一時刻的單元狀態(tài);ht和ct則分別代表當前時刻LSTM 的輸出值和當前時刻的單元狀態(tài)。

        圖4 RNN 與LSTM 結(jié)構(gòu)對比Fig.4 Structure comparison between RNN and LSTM

        為實現(xiàn)控制長短期信息的目的,LSTM 采用3 個門來控制信息的輸送,分別是遺忘門、輸入門和輸出門。遺忘門決定上一時刻狀態(tài)信息ct-1有多少保留到當前狀態(tài)信息ct;輸入門決定當前時刻的輸入Xt有多少保留到當前狀態(tài)ct;輸出門決定當前時刻狀態(tài)信息ct有多少傳遞到當前時刻輸出ht。每個門的實現(xiàn)依靠一個sigmoid 函數(shù)和一個點乘操作。LSTM 網(wǎng)絡(luò)結(jié)構(gòu)如圖5 所示。

        圖5 LSTM 網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 Structure of LSTM network

        2.3 VAE-LSTM 模型

        考慮到質(zhì)量較高的帶有標簽的數(shù)據(jù)所帶來的時間和資金成本,本文采用基于自監(jiān)督的VAE 模型用于提取推文向量的語句結(jié)構(gòu)特征,該模型是基于自監(jiān)督的,可以在一定程度內(nèi)有效減少成本,隨著設(shè)計的誤差函數(shù)的損失值不斷減少,模型提取向量的特征能力將會越來越強。考慮到推文語句并不是孤立存在的,而是具有上下文語境,這些信息序列含有大量的內(nèi)容,信息彼此之間有著復雜的語序關(guān)聯(lián)性,為了捕捉到推文語句在上下文的語境信息以及LSTM在機器翻譯、語音識別中表現(xiàn),本文采用LSTM 網(wǎng)絡(luò)結(jié)構(gòu)。綜合上述考慮,本文構(gòu)建了VAE-LSTM 模型,使用VAE 解決推文的深度特征提取問題,使用LSTM 進行特征向量序列處理。如圖6 所示,該模型先向VAE 輸入包含推文信息的推文向量,經(jīng)過VAE模型的訓練得到符合真實分布的特征向量,進行疊加后得到全部推文的特征矩陣并輸入LSTM 層,利用分類交叉熵損失函數(shù)對LSTM 模型進行訓練,在通過多個密集的ReLU 層后,再利用softmax 層獲得各個類別的概率,同時引入dropout 層來解決過擬合問題。

        圖6 VAE-LSTM 模型結(jié)構(gòu)Fig.6 Structure of VAE-LSTM model

        VAE-LSTM 模型具有以下優(yōu)點:

        1)無需額外根據(jù)不同事件特點和不同語言習慣添加特征,能夠在很大程度上節(jié)省人力成本。同時,在新的突發(fā)事件發(fā)生時并沒有足夠的上下文信息可以利用,而VAE-LSTM 模型能夠只根據(jù)單條推文的文本得到較好的分類效果。

        2)在得到訓練好的VAE 模型后,能夠依照先驗知識自行“偽造”非平衡數(shù)據(jù),交由VAE 編碼器進行編碼,將編碼器得到的特征輸入給LSTM 網(wǎng)絡(luò)進行分類,進一步強化整個模型的分類性能。

        3 實驗與結(jié)果分析

        本文實驗使用TensorFlow 和Keras 深度學習框架,采用Nvidia Geforce GTX 1660Ti GPU。Batch 大小為32,優(yōu)化器選擇的是Adam,訓練次數(shù)為100,學習速率為0.005,激活函數(shù)使用ReLU。

        3.1 數(shù)據(jù)集

        本文實驗使用SemEval 2017 Task8.A 數(shù)據(jù)集,該數(shù)據(jù)集包含5 568 條標注的推文。數(shù)據(jù)集中最具挑戰(zhàn)性的問題之一是數(shù)據(jù)極度不均衡,如表1 所示??梢钥闯?,否定和質(zhì)疑類的數(shù)據(jù)分別只占總數(shù)據(jù)的7.45%和8.33%,評論類的數(shù)據(jù)占比則高達66.18%,雖然這樣不均衡的數(shù)據(jù)分布會在很大程度上影響分類效果,但也符合現(xiàn)實場景,即只有少數(shù)用戶的發(fā)言是和事件相關(guān)的,必須在這種不均衡的情況下準確地完成分類任務(wù)。

        表1 實驗中使用的SemEval 2017 Task8.A 數(shù)據(jù)集Table 1 SemEval 2017 Task8.A dataset used in the experiment

        3.2 評價指標

        準確性是評價分類器處理多類分類任務(wù)性能的一個重要評價指標。但在本文實驗中,各類別數(shù)據(jù)量是不平衡的,在這種情況下,僅基于準確性的評價是不夠的,因為一個分類器總是能夠預測一個不平衡數(shù)據(jù)集中數(shù)量很多的類別,即使這個分類器在實踐中是無用的,也能獲得很高的準確率。因此,本文同時使用F1 得分來進行性能評價。

        準確率為計算正確分類的數(shù)據(jù)占總數(shù)據(jù)的比例,而F1 得分則與召回率和精度有關(guān),精度P的計算公式和召回率R的計算公式如下:

        以實驗中的支持類為例對Tp、Fp和Fn進行解釋:Tp代表的是本身標簽為支持且分類為支持的數(shù)據(jù)數(shù)量;Fp代表的是本身標簽并非支持但分類為支持的數(shù)據(jù)數(shù)量;Fn代表的是本身標簽是支持但并沒有分類為支持的數(shù)據(jù)數(shù)量。

        F1 得分就是精度和召回率的調(diào)和均值,能夠在數(shù)據(jù)量不均衡的情況下取代準確率作為更好的評價指標。F1 得分的計算公式為:

        3.3 實驗結(jié)果對比與分析

        3.3.1 與單條推文分類算法的實驗結(jié)果對比

        表2 列出了5 個單推文分類算法在準確率和F1得分上的性能比較結(jié)果。由于數(shù)據(jù)集是不平衡的,大部分屬于評論推文,因此多數(shù)分類器在準確率方面表現(xiàn)較好,這也表明應(yīng)基于F1 得分進行再次評估。之前在立場分類方面的工作研究了各種各樣的特征,這些特征可以被分為不同種類,如基于語言、基于消息和基于主題包括否定詞的使用、標點的信息以及情感等諸多特征。在這一部分的對比實驗中,這些分類算法使用了上述的特征進行訓練。

        表2 單條推文分類算法的準確率和F1 得分Table 2 Accuracy and F1 score of single-Tweet classification algorithms

        表3 列出了按類別F1 得分的性能比較結(jié)果??梢钥闯?,分類算法只有在準確率方面表現(xiàn)良好時才會在多數(shù)類別上表現(xiàn)良好(評論)。然而,所有的分類算法都很難對否定進行分類,而造成這種情況的主要原因之一是否定類是數(shù)據(jù)集中的少數(shù)類別之一。雖然質(zhì)疑類推文的數(shù)據(jù)也很少見,但是一些像問號這樣的特性高度表明推文屬于質(zhì)疑類,因此它們更容易分類。

        表3 單條推文分類算法各類別的F1 得分Table 3 F1 score of various classes of single-Tweet classification algorithms

        3.3.2 與推文上下文分類算法的實驗結(jié)果對比

        將本文算法的實驗結(jié)果與以下算法進行對比:

        1)KOCHKINA 等提出的Turing算法。該算法使用Branch-LSTM 模型,將源推文作為起點統(tǒng)計所有由回復和轉(zhuǎn)發(fā)構(gòu)成的分支結(jié)構(gòu),再使用LSTM 網(wǎng)絡(luò)對其進行處理得到每條推文的立場,LSTM 網(wǎng)絡(luò)每一層的輸入是當前分支結(jié)構(gòu)每一條推文的推文向量。

        2)ZUBIAGA 等提出的Tree-CRF 算法。該算法通過收集用戶對彼此的響應(yīng)而形成的嵌套的樹結(jié)構(gòu),使用條件隨機場(Conditional Random Fields,CRF)作為分類器,并分別測試了線性鏈CRF 和樹狀CRF的效果。

        3)VEYSEH 等提出的時序注意力機制算法。該算法在經(jīng)過word2vec 模型提取出詞向量之后,對每條推文中的詞向量使用注意力機制分配權(quán)重,并將權(quán)重與推文的矢量表示相乘。將上下文窗口的所有推文向量加權(quán)相加后得到一個表示推文上下文信息的向量,然后進行分類。

        4)CHEN 等提出的基于CNN 的算法。該算法通過卷積和池化操作對句子向量進行特征提取,利用卷積神經(jīng)網(wǎng)絡(luò)中不同大小的過濾器對短文本進行分類。

        5)BERT 和LSTM 的結(jié)合算 法BERT-LSTM。BERT 是谷歌提出的一種數(shù)據(jù)處理方法,其通過對語料庫中大量語句上下文的理解和學習達到對新文本的特征提取。

        6)結(jié) 合VAE、CNN 和一個簡 單LSTM 網(wǎng)絡(luò)的VAE-CNN 算法。該算法通過VAE 提取的特征向量傳遞給卷積神經(jīng)網(wǎng)絡(luò)進行分類,將推文的單詞向量序列作為LSTM 輸入,從而獲得分類結(jié)果。

        上述分類算法與本文算法的準確率和F1 得分對比如表4 所示,各類別F1 得分對比如表5 所示。由表4 可以看出,本文算法在F1 得分上是最優(yōu)的,而在準確率上相較時序注意力機制低了0.02。在準確性上稍有不足的原因是,時序注意力機制算法更好地提取了上下文信息,能在一定程度上提升準確率。由表5 可以看出,VAE-LSTM 算法在每個類別的分類效果均優(yōu)于Turing 模型,只有在支持類的結(jié)果相較Tree-CRF、BERT-LSTM、VAE-CNN 模型有少許差距。綜合來看,VAE-LSTM 算法的效果最好。

        表4 各分類算法的準確率和F1 得分Table 4 Accuracy and F1 score of each classification algorithm

        表5 各分類算法各類別的F1 得分Table 5 F1 score of various classes of each classification algorithm

        LUKASIK 等提出的HP(Hawkes Proces)算法也是本文選用的對比算法。該算法在訓練數(shù)據(jù)中使用時序信息并使用霍克斯過程對推文的生成進行建模。由于LUKASIK 等在訓練數(shù)據(jù)中只使用4 個主題,并使用留一法進行實驗評估,因此這種設(shè)置也被用在本文的實驗中。表6結(jié)果表明,對于Sydney Siege、Charlie Hebdo、Ferguson、Ottawa這4個事件,VAE-LSTM算法在準確率和F1 得分方面都取得了較好的結(jié)果。僅有BERT-LSTM 方法在F1 得分上略有優(yōu)勢,這是因為BERT 模型的數(shù)據(jù)處理方法導致其能較好地進行大量數(shù)據(jù)的學習,而在其余數(shù)據(jù)量較少的事件上效果并不好,這點由完整數(shù)據(jù)F1 得分可以看出。這表明VAE-LSTM 能夠在高度不平衡的任務(wù)中更好地估計標簽的分布,在事件突發(fā)時期,這是一個強大的優(yōu)勢,能夠利用有限的、不均衡的數(shù)據(jù)更好地平衡分類。

        表6 各分類算法針對不同事件的準確率和F1 得分Table 6 Accuracy and F1 score for different events of each algorithm

        相較于早期的機器學習方法(如SVM 等),本文方法只是基于自動提取的特征進行實驗,并沒有手動添加額外的特征,由此節(jié)省了前期大量的對數(shù)據(jù)進行預處理的時間。

        4 結(jié)束語

        本文提出VAE-LSTM 算法,引入變分自動編碼器對推文進行深度特征提取,使用LSTM 處理推文特征向量的序列結(jié)構(gòu)。該算法無需根據(jù)不同的議論主題和類別進行手工特征提取,因此節(jié)省了數(shù)據(jù)處理時間并具有較好的延展性。此外,本文在VAE 數(shù)據(jù)特征提取時并不只是對數(shù)據(jù)以特定規(guī)則進行簡單的壓縮,而是將數(shù)據(jù)從復雜的概率分布轉(zhuǎn)化成統(tǒng)一的簡單概率分布,再從中采樣獲取有效特征,從而在一定程度上避免數(shù)據(jù)量較大的推文類別對特征向量的影響。實驗結(jié)果表明,VAE-LSTM 算法能夠獲取有效的數(shù)據(jù)特征,緩解類間不平衡問題,與對比的自動謠言立場分類算法相比具有更高的分類準確性。下一步將借助圖神經(jīng)網(wǎng)絡(luò)[21]強大的圖結(jié)構(gòu)信息提取能力充分挖掘社交網(wǎng)絡(luò)中語言的結(jié)構(gòu)特性,利用圖注意力機制進行權(quán)重分配,從而得到更準確的分類結(jié)構(gòu)。

        猜你喜歡
        特征提取分類特征
        分類算一算
        如何表達“特征”
        基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
        電子制作(2019年15期)2019-08-27 01:12:00
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        分類討論求坐標
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        抓住特征巧觀察
        一種基于LBP 特征提取和稀疏表示的肝病識別算法
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        欧美午夜刺激影院| 最全精品自拍视频在线| 亚洲av色福利天堂久久入口| 欧美性生交活xxxxxdddd| 日本亚洲色大成网站www久久| 欧美成人久久久| 蜜桃av区一区二区三| 日韩中文字幕一区二区二区| 亚洲国产天堂久久综合网| 四虎国产精品永久在线无码| 四虎成人精品国产永久免费| 中文字幕一区二区黄色| 国产亚洲精品a片久久久| 国产第一页屁屁影院| 人妻精品一区二区三区视频| 中文字幕专区一区二区| 亚洲午夜久久久精品影院| 男人添女人下部高潮全视频| 久久亚洲AV成人一二三区| 激情视频在线播放一区二区三区| 青青手机在线观看视频| 无套内射无矿码免费看黄| 97精品国产91久久久久久久| 看中文字幕一区二区三区| 人妻体内射精一区二区三区| 亚洲精品无播放器在线播放| 国产69精品一区二区三区| 亚洲国产国语对白在线观看| 国产做国产爱免费视频| 好爽…又高潮了毛片免费看 | 国产中文字幕亚洲综合| 女女同恋一区二区在线观看| 少妇性荡欲视频| 国产精品女同一区二区久久| 中文字幕亚洲乱码熟女1区2区| 国产精品福利一区二区| 精品国产v无码大片在线观看| 强d漂亮少妇高潮在线观看| 亚洲天堂精品一区入口| 曰韩人妻无码一区二区三区综合部 | 又大又粗欧美黑人aaaaa片 |