亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        BERT-CharCNN聯(lián)合模型微博作者身份驗證研究

        2020-04-15 02:16:20王靖亞
        江蘇警官學院學報 2020年6期
        關(guān)鍵詞:身份驗證博文卷積

        張 輝 王靖亞 仝 鑫

        ·偵查學研究·

        BERT-CharCNN聯(lián)合模型微博作者身份驗證研究

        張 輝 王靖亞 仝 鑫

        針對現(xiàn)有微博作者身份驗證方法存在的特征工程復雜和模型表征能力不足等問題,可采用一種能夠捕捉文本綜合特征的BERT-CharCNN聯(lián)合模型。一方面,利用CharCNN提取微博文本字、詞級的特征;另一方面,利用BERT提取微博文本句子、段落級的特征。對兩個特征進行拼接得到最后的特征向量,使得神經(jīng)網(wǎng)絡能夠較好地進行微博作者身份驗證。實驗結(jié)果表明,該聯(lián)合模型對微博作者身份驗證的準確率優(yōu)于單分支的BERT和CharCNN模型。

        微博文本;作者身份驗證; CharCNN; BERT

        一、引言

        警方如果已經(jīng)掌握了重點人員范圍及其在網(wǎng)上發(fā)表過的言語庫,便可以通過分析每個人寫作的風格特點將匿名文本映射到某個重點人員,這個過程稱為作者身份驗證。[1]早期作者身份驗證以人工特征建模為基礎(chǔ),Yule通過分析英文散文的作者在一篇文章中使用不同長度句子的頻率進行作者身份的驗證[3];呂英杰通過抽取詞匯、句法、結(jié)構(gòu)、內(nèi)容四個方面的特征,采用樸素貝葉斯算法、決策樹算法C4.5和支撐向量機SVM三種文本分類算法對作者進行驗證。[2]神經(jīng)網(wǎng)絡簡化了特征建模的過程,郭旭、祁瑞華提出了一種以RNN神經(jīng)網(wǎng)絡為基礎(chǔ)的作者身份驗證模型,實現(xiàn)了自動的文本特征提取。[4]由于單一的神經(jīng)網(wǎng)絡無法有效捕捉微博文本多層面的特征,本文提出BERT-CharCNN聯(lián)合模型,使得神經(jīng)網(wǎng)絡既能提取微博字、詞級的特征,又能提取句子、段落級的特征并進行融合,與現(xiàn)有模型相比,在微博作者身份驗證任務上有更好的表現(xiàn)。

        二、BERT-CharCNN作者身份驗證模型

        BERT-CharCNN模型的整體結(jié)構(gòu),見圖1。該模型由BERT和CharCNN兩大部分組成,其中BERT用于提取微博文本的句子、段落級特征,CharCNN用于提取微博文本的字、詞級特征。用pytorch的融合函數(shù)cat()對兩種網(wǎng)絡模型得到的特征向量進行拼接處理,得到的融合向量輸入分類器進行文本到作者的對應。

        圖1 BERT-CharCNN聯(lián)合模型

        (一)BERT模型

        BERT是由Jacob Devlin等人于2018年提出的一種語言模型。[5]它使用兩個無監(jiān)督預測任務對模型進行訓練,其中MASK LM任務捕捉詞語級別的特征,Next Sentence Prediction任務捕捉比詞更高級別的句子級別的特征,二者結(jié)合使模型能夠很好地捕捉到微博文本的綜合特征。BERT模型見圖2。

        圖2 BERT模型

        1.Masked LM。該任務是為了訓練模型深度雙向表示的能力。BERT在訓練模型時隨機遮蔽一部分詞,然后通過上下文預測該詞。隨機屏蔽詞的方式為80%的時間用標記[MASK]替換,10%的時間用隨機單詞替換,10%的時間保持原詞不變。模型在進行預測時不知道它被要求預測哪些單詞,也不知道哪些單詞已經(jīng)被隨機單詞替換,因此它被迫學習每個詞的分布式上下文表示,這有利于捕捉文本詞之間的關(guān)系和特征。

        2.Next Sentence Prediction。該任務是為了訓練模型判斷句子B是否為句子A的下文,理解句間關(guān)系。在判斷時,如果B為A的下文則輸出“IsNext”,不是的話則輸出“NotNext”,這個關(guān)系保存在特殊標記[CLS]中。當選擇句子A和B作為訓練樣本時,B有50%的可能是A的下一個句子,50%的可能為來自語料庫的隨機句子,該過程增強了模型對句間關(guān)系的理解,提高了模型捕捉微博文本深層語法特征的能力。

        (二)CharCNN模型

        字符級卷積神經(jīng)網(wǎng)絡(CharCNN)是由Yoon Kim等人在2016年提出的一種字符級的卷積神經(jīng)網(wǎng)絡。[6]網(wǎng)絡文本多為口語化表達,傳統(tǒng)的網(wǎng)絡模型無法提取文本比詞級更小的字級特征,CharCNN網(wǎng)絡模型可以有效提取文本的字級特征,從而較好地對作者的書寫習慣進行特征提取。CharCNN文本分類模型見圖3。

        圖3 CharCNN模型

        該模型共有如下6層。

        1.輸入層。輸入層將文本轉(zhuǎn)換為向量矩陣。在自然語言處理任務的卷積神經(jīng)網(wǎng)絡中,需將文本轉(zhuǎn)換為向量矩陣后輸入到卷積層進行特征提取,基于字符級輸入的CharCNN將文本轉(zhuǎn)換為字符向量矩陣。

        2.卷積層。卷積層用于文本特征提取。在該層設(shè)定不同的卷積核尺寸調(diào)整特征提取的粒度,通過移動卷積核對輸入層獲得的字符向量矩陣進行掃描,提取文本的局部特征信息。

        3.池化層。在卷積層提取特征后,池化層對特征再次進行提取。最大池化既可以保留文本最顯著的特征,同時減少參數(shù)量,防止過擬合,提高模型泛化能力。

        4.高速網(wǎng)絡層。為了緩解當深度網(wǎng)絡層數(shù)較多時梯度爆炸和梯度消失的問題,CharCNN加入了高速網(wǎng)絡層。普通前饋神經(jīng)網(wǎng)絡對輸入進行非線性化后直接傳遞給下一層,而高速網(wǎng)絡的每一層都有兩個通道,一個是通過transform gate對輸入進行非線性處理,一個是通過carry gate直接傳遞輸入并不處理。

        5.LSTM-RNN層。與傳統(tǒng)RNN相比,引入記憶門控(Input gate)、忘記門控(Forget gate)和輸出門控(Output gate)。由拼接向量乘以權(quán)重矩陣之后,再通過一個激活函數(shù)轉(zhuǎn)換成0到1之間的數(shù)值,來作為一種門控狀態(tài)。通過門控結(jié)構(gòu)有效解決了梯度消失的問題。

        6.分類層。將經(jīng)過LSTM-RNN層處理得到的向量,連接一個全連接層后輸入到Softmax進行分類。在聯(lián)合模型中CharCNN只需要獲得特征向量,無需進行分類,在設(shè)計模型時去掉該層。

        三、實驗及分析

        (一)數(shù)據(jù)集

        實驗所使用的數(shù)據(jù)集為爬蟲爬取的新浪微博10位博主的公開博文,每位1000篇。為使模型能夠更好地體現(xiàn)驗證效果,設(shè)置訓練集為作者前四年的微博,驗證集和測試集設(shè)置為近一年的微博。設(shè)置訓練集、驗證集和測試集的比例為7﹕2﹕1,將每條微博按照博主id為其加上相應的標簽(0-9),具體情況見表1。為了能更好地使文本反映作者的寫作特征,實驗對數(shù)據(jù)集中的標點符號、停用詞等均進行了保留。

        表1 數(shù)據(jù)集

        CharCNN使用的預訓練字向量為北京師范大學和人民大學的研究者提供的“中文詞向量語料庫”中基于NLPIR中文微博數(shù)據(jù)集訓練的字向量。[7]

        (二)參數(shù)設(shè)置

        實驗模型的參數(shù)如下:CharCNN的dropout為0.7,學習率為1e-3,卷積核的尺寸為(3,4,5),卷積核的數(shù)量為100。BERT的學習率為5e-5,batch size為64。CharCNN得到的特征向量維度為batch_size*(256*3),BERT得到的特征向量維度為batch_size*768,經(jīng)過Pytorch中cat()函數(shù)向量拼接后得到的特征向量維度為batch_size*(768+256*3)。

        (三)實驗及結(jié)果

        為了體現(xiàn)BERT-CharCNN聯(lián)合模型相較單分支的模型在微博作者身份驗證任務中的優(yōu)越性,在相同的數(shù)據(jù)集上設(shè)置了對比實驗,此外還引用了徐曉霖提出的CNN+LSTM模型[8]進行比較。實驗步驟如下。

        1.文本預處理。將微博數(shù)據(jù)按照7﹕2﹕1的比例劃分訓練集、驗證集和測試集。

        2.將預處理好的文本輸入到CharCNN、CNN+LSTM、BERT以及BERT-CharCNN四種模型,對作者身份進行驗證,并計算準確率、召回率和F1值。

        實驗結(jié)果如表2所示。由表可知,四種方法的準確率都達到了75%以上, CharCNN以及BERT的F1值分別為78.97%和83.10%,而BERT-CharCNN模型的三項實驗評測指標均高于兩個單分支模型,證明BERT-CharCNN聯(lián)合模型綜合了兩種模型的優(yōu)點,在作者身份驗證任務上的表現(xiàn)更好。另一組對照試驗CNN+LSTM模型的F1值為82.78%,相較其在實驗②中的準確率有所下降,這是因為作者身份驗證任務語料時間跨度較大,單一模型無法有效地進行特征捕捉,BERT-CharCNN模型較其準確率約有5%的提升,體現(xiàn)了BERT-CharCNN聯(lián)合模型處理作者身份驗證任務的效果更好。

        表2 實驗結(jié)果

        為了進一步體現(xiàn)BERT-CharCNN聯(lián)合模型在微博作者身份驗證任務上的優(yōu)越性,本文對4種不同模型的訓練過程進行了研究,結(jié)果如圖4所示。

        圖4 驗證集準確率變化曲線

        從圖4中可以看出,BERT-CharCNN聯(lián)合模型在epoches=25時達到了較高的準確率。在整個訓練過程中, BERT-CharCNN聯(lián)合模型收斂速度快,訓練過程穩(wěn)定,并在整個訓練過程中始終保持準確率領(lǐng)先,證明了BERT-CharCNN模型特征抽取的能力和效果優(yōu)于其他模型。

        四、結(jié)束語

        在進行作者身份驗證的時候,提取文本特征的質(zhì)量對最后的驗證結(jié)果有著很大的影響。本文提出的BERT-CharCNN聯(lián)合模型在前人研究的基礎(chǔ)上,將微博文本字、詞級特征提取效果較好的CharCNN模型與句子、段落級特征提取效果較好的BERT模型進行聯(lián)合,取得了優(yōu)于傳統(tǒng)方法的結(jié)果。下一步的研究方向為針對小樣本的作者身份驗證問題。

        [1]Halvani O, Winter C, Graner L.//Proceedings of the 12th international conference on availability, reliability and security. 2017,pp.1-10.

        [2]Yule G U.. Biometrika, 1939, Vol.30, pp.363-390.

        [3]呂英杰、范靜、劉景方:《基于文體學的中文UGC作者身份識別研究》,《現(xiàn)代圖書情報技術(shù)》2013年第9期。

        [4]祁瑞華、郭旭、劉彩虹:《中文微博作者身份識別研究》,《情報學報》2017年第1期。

        [5]Devlin J, Chang M W, Lee K, et al. Bert:g. arXiv preprint arXiv:1810.04805, 2018.

        [6]Kim Y, Jernite Y, Sontag D, et al.arXiv preprint arXiv:1508.06615, 2015.

        [7]Li S, Zhao Z, Hu R, et al.. arXiv preprint arXiv:1805.06504, 2018.

        [8]徐曉霖、蔡滿春、蘆天亮:《基于深度學習的中文微博作者身份識別研究》,《計算機應用研究》2020年第1期。

        D918.2

        A

        1672-1020(2020)06-0067-05

        2020-10-15

        張輝(1996-),男,山東棗莊人,漢族,中國人民公安大學2018級警務信息工程與網(wǎng)絡安全學院碩士研究生;王靖亞(1966-),女,陜西西安人,漢族,中國人民公安大學警務信息工程與網(wǎng)絡安全學院教授;仝鑫(1995-),男,河南鄭州人,漢族,中國人民公安大學2019級警務信息工程與網(wǎng)絡安全學院碩士研究生,北京,102600。

        [責任編輯:金晞]

        猜你喜歡
        身份驗證博文卷積
        第一次掙錢
        基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于傅里葉域卷積表示的目標跟蹤算法
        誰和誰好
        HID Global收購Arjo Systems擴大政府身份驗證業(yè)務
        Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut
        更安全的雙重密碼保護
        CHIP新電腦(2015年3期)2015-04-02 17:55:46
        打電話2
        一種基于卷積神經(jīng)網(wǎng)絡的性別識別方法
        色婷婷在线一区二区三区| 欧美婷婷六月丁香综合色| 亚洲毛片在线播放| 中文字幕在线一区乱码| 全部亚洲国产一区二区| 国产极品视觉盛宴| 国产呦系列呦交| 综合色久七七综合尤物| 亚洲中文字幕永久网站| 国产三级不卡一区不卡二区在线| 欧美丰满熟妇bbbbbb| 成人小说亚洲一区二区三区| 亚洲一区二区三区久久不卡| 黄片亚洲精品在线观看| 亚洲美女毛片在线视频| 丰满熟女高潮毛茸茸欧洲视频 | 伊人网视频在线观看| 亚洲女同一区二区久久| 男女做羞羞事的视频网站| 午夜免费视频| 亚洲av成人精品日韩一区| 亚洲综合久久1区2区3区 | 丰满少妇高潮惨叫久久久一| 亚洲av成人精品日韩一区| a欧美一级爱看视频| 看一区二区日本视频免费| 精品香蕉一区二区三区| 国产一女三男3p免费视频| 久久久国产精品免费无卡顿| 国产黄色三级三级三级看三级| 国产大屁股喷水视频在线观看| 一本一道久久综合狠狠老| 欧美日韩精品一区二区三区高清视频| 亚洲熟女一区二区三区不卡| 国产自拍精品视频免费| 亚洲女初尝黑人巨高清| 精品少妇人妻av一区二区| 99国产精品丝袜久久久久| 午夜一区二区三区免费观看| 玩弄放荡人妇系列av在线网站| 中文字幕av在线一二三区|