亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于BiGRU-CapsNet的社交媒體文本作者識(shí)別

        2022-02-03 07:12:04孫百兵
        現(xiàn)代計(jì)算機(jī) 2022年21期
        關(guān)鍵詞:特征提取向量社交

        何 泉,孫百兵

        (中國(guó)人民公安大學(xué)信息網(wǎng)絡(luò)安全學(xué)院,北京 100038)

        0 引言

        網(wǎng)絡(luò)時(shí)代,社交媒體高速發(fā)展,帶來(lái)便利的同時(shí)也帶來(lái)了諸多挑戰(zhàn)。依據(jù)新浪微博發(fā)布的2020 年微博用戶(hù)發(fā)展報(bào)告,新浪微博用戶(hù)月活躍人數(shù)已達(dá)到5.11 億,是中國(guó)最大社交媒體之一,其它中文社交媒體諸如B 站、小紅書(shū)等針對(duì)不同群體的平臺(tái)也有著大量活躍用戶(hù),現(xiàn)如今社交媒體已經(jīng)與人們的日常生活密不可分。海量社交媒體文本也伴隨產(chǎn)生,其中不乏大量匿名虛假信息、不實(shí)言論,嚴(yán)重干擾網(wǎng)絡(luò)秩序,影響人們的生產(chǎn)生活。

        通過(guò)對(duì)社交媒體文本進(jìn)行作者識(shí)別有助于偵破網(wǎng)絡(luò)違法犯罪,當(dāng)前針對(duì)中文社交媒體文本作者身份識(shí)別的研究不足,中文社交媒體文本數(shù)量大、語(yǔ)句簡(jiǎn)短、語(yǔ)義表達(dá)靈活、特征提取困難。本文將使用預(yù)訓(xùn)練模型將中文社交媒體文本轉(zhuǎn)化成高質(zhì)量向量,結(jié)合BiGRUCapsNet 混合模型實(shí)現(xiàn)中文社交媒體文本作者身份識(shí)別任務(wù)并加以實(shí)驗(yàn),證明其有效性。

        1 相關(guān)工作

        文本作者身份識(shí)別屬于文體風(fēng)格的歸納分析任務(wù),1887年Mendenhall[1]最早開(kāi)始了對(duì)文學(xué)作品特征的分析,他主要按照單詞長(zhǎng)度劃分作品作者;Yule[2]對(duì)不同作者的隨筆、傳記分析后,按照句子長(zhǎng)度及頻率特征進(jìn)行作者劃分;Thisted 等[3]對(duì)莎士比亞作品的識(shí)別以詞匯量和詞匯使用頻率作為特征;Zhang 等[4]針對(duì)路透社語(yǔ)料采用多層面文體特征集證明依據(jù)依存關(guān)系特征可以獲得較好作者識(shí)別效果,從一元特征到多元、多層次特征,文本特征都需要人工選擇提取。

        深度學(xué)習(xí)自主提取特征為作者識(shí)別任務(wù)開(kāi)拓新方向,研究開(kāi)始嘗試使用深度學(xué)習(xí)來(lái)進(jìn)行作者識(shí)別,例如Ruder[5]引入CNN 網(wǎng)絡(luò)提取文本信息,識(shí)別不同作者的文體特征;Bagnall[6]采用RNN 網(wǎng)絡(luò)替換CNN 網(wǎng)絡(luò)進(jìn)行作者識(shí)別等,這些研究方法通過(guò)深度學(xué)習(xí)模型自主提取文本特征,改進(jìn)了傳統(tǒng)人工提取特征的方法,并取得了良好的效果。

        目前多數(shù)研究主要基于英文語(yǔ)料或者針對(duì)長(zhǎng)文本,集中于中文社交媒體文本的作者識(shí)別研究較少,主要有呂英杰等[7]結(jié)合中文UGC 特點(diǎn)抽取詞匯、句法、結(jié)構(gòu)和內(nèi)容特征,運(yùn)用文本分類(lèi)算法在中文BBS 論壇文本和博客文本上驗(yàn)證了有效性;徐曉霖等[8]提出CABLSTM 深度學(xué)習(xí)模型進(jìn)行中文微博作者識(shí)別任務(wù);張翼翔等[9]結(jié)合采用雙向門(mén)控循環(huán)單元結(jié)合注意力機(jī)制在短文本作者識(shí)別的準(zhǔn)確率上取得較好成績(jī)。

        上述針對(duì)中文社交媒體作者識(shí)別的研究中,結(jié)合深度學(xué)習(xí)模型提取文本特征成為了主流方法并取得一定效果。但對(duì)于中文社交媒體文本,文本簡(jiǎn)短、句法表示靈活,仍存在文本特征提取困難的問(wèn)題,目前深度學(xué)習(xí)采取的主流模型,如卷積神經(jīng)網(wǎng)絡(luò)模型中的池化操作造成的信息丟失、文本嵌入層轉(zhuǎn)化的詞向量不能很好地表示社交媒體文本等問(wèn)題影響著作者識(shí)別的效果。本文嘗試從改善詞向量表示質(zhì)量和提高文本分類(lèi)效果兩個(gè)思路解決上述問(wèn)題,提出了采用Bert 預(yù)訓(xùn)練模型生成詞向量,輸入BiGRU 網(wǎng)絡(luò)和CapsNet網(wǎng)絡(luò)的混合模型來(lái)完成社交媒體文本作者識(shí)別任務(wù)。

        2 社交媒體文本作者身份識(shí)別模型

        本文提出一種基于BiGRU-CapsNet 的混合神經(jīng)網(wǎng)絡(luò)文本分類(lèi)模型,模型結(jié)構(gòu)分為4層,分別是:文本輸入層、BiGRU 層、CapsNet 層和softmax分類(lèi)層,模型結(jié)構(gòu)如圖1所示。

        圖1 BiGRU-CapsNet模型結(jié)構(gòu)

        文本輸入層:社交媒體文本短,作者表達(dá)靈活,語(yǔ)義特征提取存在較大難度,本層采用無(wú)需復(fù)雜的特征設(shè)計(jì)的Bert 預(yù)訓(xùn)練模型,將中文文本序列轉(zhuǎn)化為高質(zhì)量特征詞向量。

        BiGRU 層:雙向GRU 在保有BiLSTM 功能的基礎(chǔ)上,精簡(jiǎn)結(jié)構(gòu),參數(shù)更少,訓(xùn)練效率更高,針對(duì)學(xué)習(xí)長(zhǎng)期依賴(lài)任務(wù)有好的效果,適用于社交媒體文本特征提取。

        CapsNet 層:CapsNet對(duì)BiGRU 網(wǎng)絡(luò)輸出的文本淺層特征進(jìn)行進(jìn)一步的特征提取。CapsNet輸出為矢量形式的膠囊,包含更全面的文本特征。

        Softmax 分類(lèi)層:最后將CapsNet 提取得到的特征向量經(jīng)全連接層輸入softmax層進(jìn)行分類(lèi),完成短文本作者的識(shí)別。

        2.1 Bert模型

        Devin 等[10]提出了預(yù)訓(xùn)練Bert 模型,Bert 集合了Word2Vec、ELMo 和GPT 等模型的優(yōu)點(diǎn)。相較于ELMo,Bert 使用雙向編碼的Transformer Encoder[11]而不是雙向LSTM 作為特征提取器,語(yǔ)義提取能力更強(qiáng)。Bert 主要提出了使用掩碼語(yǔ)言模型(MLM)訓(xùn)練詞的語(yǔ)義理解能力以及使用下一句預(yù)測(cè)(NSP)訓(xùn)練句子之間的理解能力。

        MLM 方法的思想來(lái)源于完形填空任務(wù)和CBOW 模型,它是隨機(jī)去掉句子中15%的詞匯,然后通過(guò)其它詞匯來(lái)預(yù)測(cè)被去掉的詞匯是什么,被去掉的詞匯用[mask]這樣的一個(gè)標(biāo)記代替,這些隨機(jī)去掉的詞匯稱(chēng)作掩碼詞。但是這樣設(shè)計(jì)MLM 的訓(xùn)練方法存在弊端:在模型微調(diào)訓(xùn)練階段或模型推理(測(cè)試)階段,輸入的文本中并沒(méi)有[mask],進(jìn)而導(dǎo)致產(chǎn)生由訓(xùn)練和預(yù)測(cè)數(shù)據(jù)偏差導(dǎo)致的性能損失,為了削弱[mask]符號(hào)的影響,訓(xùn)練樣本中15%的詞被選做掩碼詞后,這些掩碼詞按比例進(jìn)行三類(lèi)替換:

        (1)80%的訓(xùn)練樣本中的掩碼詞就用[mask]符號(hào)蓋住。

        (2)10%的訓(xùn)練樣本中的掩碼詞保持不變。

        (3)10%的訓(xùn)練樣本中的掩碼詞用任意詞替代。

        NSP 方法是為了獲得句子之間的語(yǔ)義聯(lián)系,具體方式為輸入由兩個(gè)句子構(gòu)成的語(yǔ)句,訓(xùn)練樣本中50%的語(yǔ)句是連續(xù)句對(duì),50%的語(yǔ)句是隨機(jī)句對(duì)。語(yǔ)句首句開(kāi)頭打上[CLS]符號(hào),結(jié)束打上[SEP]符號(hào),兩個(gè)句子間用[SEP]符號(hào)分隔。如表1所示。

        表1 NSP方法

        [CLS]標(biāo)簽用于表示類(lèi)別,[CLS]為1時(shí),表示語(yǔ)句為連續(xù)句對(duì);[CLS]為0 時(shí),表示語(yǔ)句為隨機(jī)句對(duì)。通過(guò)訓(xùn)練[CLS]編碼后的輸出標(biāo)簽,BERT可以學(xué)會(huì)捕捉兩個(gè)輸入句對(duì)的文本語(yǔ)義。

        Bert 模型參數(shù)眾多、訓(xùn)練成本高昂,但是現(xiàn)存有許多已經(jīng)預(yù)訓(xùn)練好的Bert 模型,可以直接使用這些預(yù)訓(xùn)練模型進(jìn)行微調(diào)訓(xùn)練來(lái)獲取下游任務(wù)最佳的詞向量表示。

        2.2 BiGRU模型

        GRU 和LSTM 是RNN 網(wǎng)絡(luò)的兩種變形結(jié)構(gòu)。相較于RNN 模型,GRU 有效解決了循環(huán)神網(wǎng)絡(luò)中存在的長(zhǎng)時(shí)依賴(lài)和反向傳播中的梯度消失問(wèn)題;相較于LSTM 模型,GRU 結(jié)構(gòu)精簡(jiǎn),GRU使用更新門(mén)(update gate)替換LSTM 中的遺忘門(mén)與輸入門(mén),輸出門(mén)更改為重置門(mén)(reset gate)。GRU在保持與LSTM模型功能一致的情況下減少了門(mén)結(jié)構(gòu),所需參數(shù)更少,節(jié)約了時(shí)間成本。GRU結(jié)構(gòu)如圖2所示。

        圖2 GRU結(jié)構(gòu)圖

        首先t時(shí)刻的輸入xt和上層節(jié)點(diǎn)的隱狀態(tài)ht-1以及權(quán)重W對(duì)r門(mén)(重置門(mén))和z門(mén)(更新門(mén))的門(mén)控狀態(tài)進(jìn)行更新,再通過(guò)sigmoid 函數(shù)獲得門(mén)控信號(hào),公式(1)和(2)。接著將包含之前節(jié)點(diǎn)所有信息的ht-1通過(guò)r門(mén)(重置門(mén))重置得到ht-1',公式(3),再通過(guò)公式(4)利用tanh函數(shù)將ht-1'與xt拼接得到h',最后“更新記憶”,公式(5),使用一個(gè)門(mén)控z同步進(jìn)行了遺忘和選擇記憶,(1-z)·ht-1表示對(duì)ht-1的選擇性遺忘,z·h'表示對(duì)ht進(jìn)行選擇性記憶,得到最終輸出ht,包含了t時(shí)刻的所有有效信息。

        單向GRU 無(wú)法兼顧后向的序列信息,Bi?GRU 網(wǎng)路是由前后兩個(gè)方向的GRU 單元組成,可以更好理解文本語(yǔ)義。公式(6)表示t時(shí)刻前向GRU 輸出,公式(7)表示t時(shí)刻后向GRU 單元輸出,公式(8)表示BiGRU 在t時(shí)刻將兩個(gè)方向輸出拼接形成的最終輸出。

        2.3 CapsNet模型

        膠囊網(wǎng)絡(luò)(CapsNet)是Sabour 等[12]在卷積神經(jīng)網(wǎng)絡(luò)(CNN)的基礎(chǔ)上提出的一種空間感知能力更強(qiáng)的神經(jīng)網(wǎng)絡(luò),使用向量神經(jīng)元替換了標(biāo)量形式的神經(jīng)元,從而能夠表達(dá)更豐富的信息;另一方面,CapsNet 使用動(dòng)態(tài)路由算法替換了CNN 中的池化層,可以有效避免道路空間關(guān)系的丟失,CapsNet動(dòng)態(tài)路由如圖3所示。

        圖3 動(dòng)態(tài)路由示意圖

        向量神經(jīng)元的全連接與標(biāo)量神經(jīng)元的全連接相似,首先利用公式(10)將低層輸入向量ui乘上權(quán)重矩陣Wij加工得到新的輸入向量,然后通過(guò)公式(11)將乘上權(quán)重cij再求和得到加權(quán)和Sj,最后通過(guò)非線性函數(shù)得到高層向量輸出Vj,如公式(12),特殊點(diǎn)在于cij是通過(guò)動(dòng)態(tài)路由算法得到的,首先初始化bij為0,通過(guò)公式(9)將bij用softmax 函數(shù)轉(zhuǎn)化成初始概率cij,然后通過(guò)公式(13)計(jì)算高層向量輸出Vj和低層輸入向量的關(guān)系,當(dāng)高層向量輸出Vj和低層輸入向量方向趨于一致時(shí),bij增大從而增大權(quán)重cij;當(dāng)高層向量輸出Vj和低層輸入向量方向趨于相反時(shí),bij減小從而減小權(quán)重cij,通過(guò)多次迭代路由算法對(duì)權(quán)重cij進(jìn)行動(dòng)態(tài)調(diào)整,得到最終的高層向量輸出Vj。

        以上公式中,i表示低層輸入向量神經(jīng)元的下標(biāo),j、k表示高層輸出向量神經(jīng)元的下標(biāo),W是參數(shù)矩陣,b和c的值由動(dòng)態(tài)路由算法確定,非線性函數(shù)是壓縮函數(shù),這是CapsNet特有的激活函數(shù)。

        3 實(shí)驗(yàn)與分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)集

        本文數(shù)據(jù)集來(lái)自微博上爬取的社交媒體文本數(shù)據(jù),首先去除數(shù)據(jù)中非中文文本數(shù)據(jù),其次去除轉(zhuǎn)發(fā)微博以及30 字以?xún)?nèi)的文本數(shù)據(jù),字?jǐn)?shù)過(guò)少難以提取有效特征。人工挑選接近2000條發(fā)文量的10 名作者,作者名作為該用戶(hù)發(fā)文內(nèi)容標(biāo)簽,數(shù)據(jù)集總數(shù)為20190,訓(xùn)練集數(shù)量為16152,驗(yàn)證集數(shù)量為2019,測(cè)試集數(shù)量為2019。訓(xùn)練集10 位作者的微博文本數(shù)量如表2所示,微博數(shù)據(jù)集截取內(nèi)容如表3所示。

        表2 作者文本數(shù)據(jù)

        表3 作者文本數(shù)據(jù)內(nèi)容

        3.2 實(shí)驗(yàn)環(huán)境

        本文的實(shí)驗(yàn)平臺(tái)為64 位Linux 操作系統(tǒng),版本號(hào)為Ubuntu 16.04.6 LTS,GPU 為NVIDIAGeForce RTX 3090,搭配處理器Intel(R)Core(TM)i9-10920X@3.50 GHz,內(nèi)存為32 GB。使用的Bert 模型為哈爾濱工業(yè)大學(xué)公布的中文預(yù)訓(xùn)練模型BERT-wwm。

        3.3 評(píng)價(jià)指標(biāo)

        在NLP 中通常用精準(zhǔn)度(Precision)、召回率(Recall)和F1 值(F1Score)作為常用評(píng)判模型優(yōu)劣性標(biāo)準(zhǔn)。設(shè)總的測(cè)試集個(gè)數(shù)為T(mén)P+TN+FP+FN,其各自代表含義如表4所示。

        表4 評(píng)估指標(biāo)參數(shù)相關(guān)含義

        各指標(biāo)定義公式如下:

        3.4 實(shí)驗(yàn)結(jié)果及分析

        進(jìn)行兩組實(shí)驗(yàn)證明本文提出模型的有效性。第一組實(shí)驗(yàn)通過(guò)將Bert 中文預(yù)訓(xùn)練模型與Word2Vec、ELMO 對(duì)比體現(xiàn)不同詞向量表示模型對(duì)作者識(shí)別效果的影響,實(shí)驗(yàn)結(jié)果如表5 所示。實(shí)驗(yàn)結(jié)果表明,不同詞向量表示方式對(duì)作者識(shí)別模型效果存在不同程度的影響,采用微調(diào)方式的Bert 預(yù)訓(xùn)練模型在三種方式中表現(xiàn)最佳。ELMO 方式向量表示效果優(yōu)于Word2Vec,是因?yàn)閃ord2Vec 模型在生成詞向量時(shí)并沒(méi)有考慮到詞匯所在上下文的信息,ELMo 在Word2 Vec的基礎(chǔ)上在生成的詞向量中融入了該詞匯的上下文信息,解決了同一個(gè)詞匯在不同語(yǔ)境中意思不盡相同的問(wèn)題,構(gòu)建的詞向量質(zhì)量更高。雖然ELMo使用了雙向模型,但也只是簡(jiǎn)單的編碼拼接,本質(zhì)上仍屬于單向編碼,Bert 集合了Word2Vec 和ELMo 模型的優(yōu)點(diǎn),相較于ELMo,Bert 使用雙向編碼的Transformer Encoder,而不是雙向LSTM 作為特征提取器,語(yǔ)義提取能力更強(qiáng),構(gòu)建的詞向量表示效果最有優(yōu)勢(shì)。

        表5 不同詞向量表示結(jié)果對(duì)比

        第二組實(shí)驗(yàn)結(jié)果比較如表6所示。模型均使用Bert 中文預(yù)訓(xùn)練模型詞向量作為網(wǎng)絡(luò)輸入。從表6 可知,本文提出的BiGRU-CapsNet 模型精準(zhǔn)度為93.9%,F(xiàn)1值為93.2%,均優(yōu)于另外三種模型。采用動(dòng)態(tài)路由方式替代CNN 網(wǎng)絡(luò)池化操作的CapsNet 模型C 效果比TextCNN 提升2.8%。采用雙向RNN 模型后,識(shí)別模型效果進(jìn)一步提升,BiGRU 模型相較于CapsNet 模型效果有小幅提升,得益于雙向GRU 結(jié)構(gòu)可以在文本上下文中獲取更多信息。BiGRU-CapsNet 混合模型與BiGRU 模型相比,F(xiàn)1 值提升1.5%,由此可見(jiàn)BiGRU-CapsNet 混合模型同時(shí)結(jié)合了Bi?GRU學(xué)習(xí)文本上下文特征的能力和CapsNet提取更豐富文本信息的能力,證明了將兩種模型進(jìn)行結(jié)合提升了文本特征提取能力。

        表6 不同模型結(jié)果對(duì)比

        4 結(jié)語(yǔ)

        社交媒體文本作者識(shí)別存在特征提取困難的問(wèn)題,本文通過(guò)Bert 中文預(yù)訓(xùn)練模型生成高質(zhì)量詞向量,然后結(jié)合BiGRU模型和CapsNet模型構(gòu)成BiGRU-CapsNet 混合模型,該模型可以充分利用BiGRU和CapsNet各自?xún)?yōu)勢(shì)進(jìn)行深層次特征提取,更好地提取出社交媒體文本中的信息,實(shí)驗(yàn)結(jié)果表明該模型在社交媒體文本作者識(shí)別的任務(wù)表現(xiàn)更好。

        本文提出的BiGRU-CapsNet 混合模型訓(xùn)練所需耗費(fèi)的時(shí)間相較于單一的TextCNN、Cap?sNet 和BiGRU 模型,代價(jià)更高。在保證精準(zhǔn)度的前提下提升訓(xùn)練效率,進(jìn)一步加強(qiáng)模型泛化能力,是下一步工作目標(biāo)。

        猜你喜歡
        特征提取向量社交
        社交之城
        社交牛人癥該怎么治
        意林彩版(2022年2期)2022-05-03 10:25:08
        向量的分解
        聚焦“向量與三角”創(chuàng)新題
        社交距離
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        你回避社交,真不是因?yàn)閮?nèi)向
        文苑(2018年17期)2018-11-09 01:29:28
        Bagging RCSP腦電特征提取算法
        向量垂直在解析幾何中的應(yīng)用
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
        亚洲日本一区二区在线观看| 欧美大屁股xxxxhd黑色| 亚洲精品无码专区| 亚洲国产另类久久久精品黑人| 99久久超碰中文字幕伊人| 一级二级三一片内射视频| 亚洲精品无码av人在线观看国产| 无码av中文一区二区三区桃花岛 | 亚洲中文字幕高清av| 99热在线观看| 亚洲va欧美va国产综合| 永久免费的拍拍拍网站| 亚洲国产免费一区二区| 亚洲精品午夜久久久九九| 国产成人亚洲综合色婷婷| 91尤物视频在线观看| 一本大道久久精品一本大道久久| 国产在线一区二区av| 天天爽夜夜爱| 特级黄色毛片视频| av成人资源在线播放| 国产精选自拍视频网站| 亚洲男人第一无码av网站| 欧美日韩亚洲一区二区精品 | 产美女被爽到高潮免费a| а√资源新版在线天堂| 成人xx免费无码| 亚洲福利一区二区不卡| 欧美老肥妇做爰bbww| 国产精品-区区久久久狼| 亚洲一级av大片在线观看| av日韩一区二区三区四区| 国产精品免费观看久久| 精品国产一区二区三区香蕉| 亚洲综合久久中文字幕专区一区| 久久久久久欧美精品se一二三四| 欧美性群另类交| 久久免费精品视频老逼| 99re6在线视频精品免费下载| 1区2区3区高清视频| 麻豆久久久国内精品|