亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)對(duì)電子郵件的作者識(shí)別

        2018-04-21 08:10:12米碩孫瑞彬李欣明曉
        科技創(chuàng)新與應(yīng)用 2018年10期
        關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò)

        米碩 孫瑞彬 李欣 明曉

        摘 要:文章針對(duì)如何捕獲電子郵件的語(yǔ)言特征來(lái)識(shí)別作者的問(wèn)題進(jìn)行了研究建模,首先使用NLTK自然語(yǔ)言處理工具對(duì)文本進(jìn)行了預(yù)處理,然后使用Word2Vec和GloVe模型對(duì)文本內(nèi)容進(jìn)行了嵌入化處理得到了詞向量,接著文章使用改進(jìn)的基于TextCNN的網(wǎng)絡(luò)架構(gòu),使用改進(jìn)的基于CLSTM的網(wǎng)絡(luò)架構(gòu)和提出了一種新的基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)的網(wǎng)絡(luò)架構(gòu)來(lái)解決文章的問(wèn)題,并且采用集成學(xué)習(xí)的方法對(duì)上述三種單一模型進(jìn)行模型融合作為最終的模型來(lái)識(shí)別作者,最終的效果較好。

        關(guān)鍵詞:循環(huán)神經(jīng)網(wǎng)絡(luò);卷積神經(jīng)網(wǎng)絡(luò);詞向量;Python

        中圖分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):2095-2945(2018)10-0024-02

        Abstract: In this paper, we study and model in view of how to capture the language features of email to identify the author. Firstly, we preprocess the text with NLTK natural language processing tool. Then we use Word2Vec and GloVe models to embed the text content to get word vector. Then we use the improved network architecture based on TextCNN and an improved network architecture based on CLSTM, and a new network architecture based on recurrent neural network (RNN) and convolutional neural network (CNN) is proposed to solve the problem of an article. And the integration learning method is used to identify the author by fusing the above three single models as the final model, with a good final effect.

        Keywords: recurrent neural network (RNN); convolutional neural network (CNN); word vector; Python

        1 模型的建立

        筆跡分析是一種非常特殊的調(diào)查形式,用于將人們與書(shū)面證據(jù)聯(lián)系起來(lái)。筆跡調(diào)查人員通常被要求在法庭或刑事調(diào)查中,以確定書(shū)面樣本是否來(lái)自某個(gè)特定的人。由于許多語(yǔ)言證據(jù)現(xiàn)在都出現(xiàn)在電子郵件中,從廣義上說(shuō),筆跡分析也包括了如何通過(guò)電子郵件的語(yǔ)言特征來(lái)識(shí)別作者的問(wèn)題。本文基于此使用深度學(xué)習(xí)的方法建立了相應(yīng)的模型。其為改進(jìn)的基于TextCNN的分類(lèi)模型,改進(jìn)的基于CLSTM的分類(lèi)模型和一種新的基于循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)的分類(lèi)模型,并且使用集成學(xué)習(xí)的方法對(duì)上述三種單一模型進(jìn)行融合作為最終的分類(lèi)結(jié)果。(見(jiàn)圖1、圖2、圖3)

        2 模型的求解

        對(duì)于每個(gè)單一模型的輸入都為用詞向量替換的郵件原始正文文本數(shù)據(jù)的詞向量矩陣,模型最終的輸出為133維的向量,代表這封郵件屬于這133個(gè)人的概率本文在訓(xùn)練中使用Ten-folder cross-validation(十折交叉驗(yàn)證)的方法來(lái)做數(shù)據(jù)進(jìn)行訓(xùn)練和驗(yàn)證。本文所用的數(shù)據(jù)集大小為255636,首先留出5636個(gè)樣本作為測(cè)試集,剩余的250000個(gè)樣本分成十份,輪流的將其中九份作為訓(xùn)練數(shù)據(jù),1份作為測(cè)試數(shù)據(jù),進(jìn)行試驗(yàn),每次訓(xùn)練都會(huì)得出相應(yīng)的準(zhǔn)確率。10次的結(jié)果的準(zhǔn)確率的平均值作為最終的準(zhǔn)確率,最終來(lái)對(duì)算法準(zhǔn)確性進(jìn)行估計(jì)。

        本文在進(jìn)行模型訓(xùn)練時(shí)根據(jù)算法的準(zhǔn)確性不斷的進(jìn)行參數(shù)的調(diào)節(jié),并且使用GTX 1080Ti顯卡進(jìn)行足夠時(shí)間的學(xué)習(xí)訓(xùn)練,力求使每個(gè)模型的準(zhǔn)確率達(dá)到最高。

        由訓(xùn)練集和測(cè)試集的準(zhǔn)確率變化可知,該模型對(duì)于電子郵件作者的識(shí)別取得了不錯(cuò)的效果。較單一的傳統(tǒng)模型效果更佳,故采用本文的方法能較好的解決該電子郵件識(shí)別問(wèn)題。

        3 模型的優(yōu)缺點(diǎn)

        3.1 模型的優(yōu)點(diǎn)

        (1)同時(shí)使用了Word2Vec模型和GloVe模型對(duì)文本進(jìn)行了處理得到了原始文本的特征表示,使得模型能夠從文本中提取到更加有效的特征來(lái)進(jìn)行文本分類(lèi)識(shí)別。

        (2)使用了集成學(xué)習(xí)的方法來(lái)進(jìn)行模型融合,這種方法相比使用單一的分類(lèi)模型效果更好。

        (3)在驗(yàn)證單一模型的使用的算法的有效性和正確性方面,使用十折交叉驗(yàn)證方法,證實(shí)了模型的準(zhǔn)確率相對(duì)來(lái)說(shuō)較好。

        (4)本文創(chuàng)新性的提出了一種新的文本分類(lèi)識(shí)別模型,并且在此文本分類(lèi)識(shí)別問(wèn)題上取得了不錯(cuò)的效果。

        3.2 模型的缺點(diǎn)

        (1)在模型過(guò)程中,可能未找到最優(yōu)的模型參數(shù)值使得模型表現(xiàn)出最好的效果。

        (2)因?yàn)閱我荒P偷淖詈笫侨B接層,需要訓(xùn)練的參數(shù)較多,容易出現(xiàn)過(guò)擬合,深度模型容易出現(xiàn)梯度消散問(wèn)題。

        3.3 模型的改進(jìn)

        (1)通過(guò)迭代法找到模型表現(xiàn)出最好的效果時(shí)的模型參數(shù)值。

        (2)對(duì)通過(guò)Word2Vec模型和GloVe模型得到詞向量進(jìn)行L1,L2正則化處理,以提高單一模型的泛化能力,也會(huì)使得最終的模型融合的效果更優(yōu)。

        參考文獻(xiàn):

        [1]lan Goodfellow,Deep learning[M].Beijing:People's post and Tele

        communications Press,2017.

        [2]Shalini Ghosh,Orilo Vinyals, Contextual LSTM(CLSTM)models for large scale NLP tasks, arxiv.org,2016.

        [3]楊靜.基于SVM的中文電子郵件作者性別識(shí)別技術(shù)研究[D].河北農(nóng)業(yè)大學(xué),2007.

        [4]聶小塵.電子郵件取證模型及關(guān)鍵技術(shù)研究[D].上海交通大學(xué),2011.

        [5]馬建斌.基于SVM的中文電子郵件作者身份挖掘技術(shù)研究[D].河北農(nóng)業(yè)大學(xué),2004.

        猜你喜歡
        卷積神經(jīng)網(wǎng)絡(luò)
        基于卷積神經(jīng)網(wǎng)絡(luò)溫室智能大棚監(jiān)控系統(tǒng)的研究
        基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識(shí)別算法
        深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
        基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
        軟件工程(2016年8期)2016-10-25 15:47:34
        基于卷積神經(jīng)網(wǎng)絡(luò)的樹(shù)葉識(shí)別的算法的研究
        日日噜狠狠噜天天噜av| 少妇又紧又爽丰满在线视频| 久久久极品少妇刺激呻吟网站| 久久精品中文字幕大胸| 初尝黑人嗷嗷叫中文字幕| 国产超碰人人一区二区三区| 中文字幕亚洲永久精品| 欧美a级毛欧美1级a大片| 国产精品综合一区二区三区| 国产欧美一区二区成人影院| 免费毛片一区二区三区女同| 精品国产自在现线看久久| 久久天天躁狠狠躁夜夜avapp| 八区精品色欲人妻综合网 | 91热视频在线观看| 少妇熟女天堂网av天堂| 亚洲精品成人无限看| 亚洲av无码av制服丝袜在线| 国产视频网站一区二区三区| 亚洲一区二区三区精彩视频| 久久久精品国产免大香伊| 亚洲熟少妇在线播放999| 欧洲亚洲视频免费| 亚洲专区一区二区三区四区五区| 日本三级香港三级人妇99| a级毛片无码免费真人| 狠狠丁香激情久久综合| 日韩精品午夜视频在线| 国产成人无码a区在线观看导航| 人与禽交av在线播放| 青草青草伊人精品视频| 亚洲中文字幕一区精品| 无码av不卡一区二区三区| 久久精品人成免费| 日本啪啪一区二区三区| 亚洲一区精品在线中文字幕| 一本无码av中文出轨人妻| 亚洲欧洲精品成人久久曰不卡| 在线观看免费视频发布白白色| 欧美性生交活xxxxxdddd| 亚洲色偷拍区另类无码专区|