亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合LDA與Word2vector的垃圾郵件過(guò)濾方法研究

        2017-04-17 01:27:11林建洪翟建桐
        關(guān)鍵詞:文本融合模型

        ◆林建洪 翟建桐 徐 菁

        ?

        融合LDA與Word2vector的垃圾郵件過(guò)濾方法研究

        ◆林建洪1翟建桐2徐 菁1

        (1.浙江鵬信信息科技股份有限公司 浙江鵬信 310000;2.中國(guó)移動(dòng)通信集團(tuán)浙江有限公司 中國(guó)移動(dòng) 310000)

        在傳統(tǒng)垃圾郵件過(guò)濾技術(shù)的基礎(chǔ)上,提出一種融合LDA主題模型和Word2vector模型的文檔向量,并將LDA主題模型得到的不同維度的文檔——主題矩陣、Word2vector模型得到的詞向量以及融合的文檔向量作為支持向量機(jī)和邏輯回歸的特征輸入,通過(guò)8組對(duì)照實(shí)驗(yàn)的效果分析得到:融合的文檔向量結(jié)合支持向量機(jī)模型的準(zhǔn)確率最高,能夠?qū)]件進(jìn)行精準(zhǔn)過(guò)濾,降低了垃圾郵件對(duì)個(gè)人以及社會(huì)的危害。

        LDA主題模型;Word2vector;垃圾郵件;支持向量機(jī)

        0 引言

        隨著互聯(lián)網(wǎng)的發(fā)展,電子郵件成為人們?nèi)粘I?、工作必不可少的?yīng)用。電子郵件由于其便捷、經(jīng)濟(jì)等特點(diǎn)成為互聯(lián)網(wǎng)最廣泛的應(yīng)用之一,但也因?yàn)槠涑杀镜土?、傳播快速的特點(diǎn)反而被垃圾郵件的制作者所利用。垃圾郵件廣義上來(lái)講就是未經(jīng)收件人允許而發(fā)送的帶有商業(yè)廣告等不良信息的郵件。垃圾郵件不僅會(huì)使受害人遭受財(cái)產(chǎn)損失,更會(huì)造成計(jì)算機(jī)網(wǎng)絡(luò)資源的浪費(fèi),危害互聯(lián)網(wǎng)的發(fā)展。有鑒于此,需要一種精準(zhǔn)、高效的方法對(duì)垃圾郵件進(jìn)行判斷并過(guò)濾,為電子郵件用戶提供一個(gè)安全、純凈的環(huán)境。

        1 文獻(xiàn)綜述

        垃圾郵件是指收件人事先沒(méi)有提出請(qǐng)求或無(wú)法拒絕或隱藏發(fā)件人個(gè)人信息的含有虛假信息、不良信息、營(yíng)銷廣告等對(duì)收件人有害的郵件[1]。

        國(guó)內(nèi)外對(duì)于垃圾郵件過(guò)濾技術(shù)的研究較早,主要的過(guò)濾方法有:基于黑白名單的過(guò)濾、基于郵件頭的過(guò)濾以及基于內(nèi)容的過(guò)濾。其中,基于內(nèi)容的過(guò)濾主要是指對(duì)郵件文本內(nèi)容進(jìn)行分析與判斷,相較于其他兩種過(guò)濾方法有較高的準(zhǔn)確率。隨著研究的深入,基于內(nèi)容的過(guò)濾技術(shù)被劃分為兩類:基于規(guī)則的過(guò)濾器以及基于機(jī)器學(xué)習(xí)的算法過(guò)濾?;谝?guī)則的過(guò)濾器主要采用決策樹輸出的規(guī)則或粗糙集等對(duì)郵件頭、郵件內(nèi)容進(jìn)行分析,判斷郵件是否為垃圾郵件,該方法簡(jiǎn)單、高效,但是垃圾郵件的規(guī)則變化多且快,該方法不能實(shí)時(shí)適應(yīng)垃圾郵件的變化,不夠靈活?;跈C(jī)器學(xué)習(xí)的算法過(guò)濾方法本質(zhì)上是文本二分類的方法,對(duì)文本量化后采用機(jī)器學(xué)習(xí)分類方法對(duì)文本進(jìn)行分類,該方法相較于基于規(guī)則的過(guò)濾方法有更高的準(zhǔn)確率,能夠通過(guò)學(xué)習(xí)不斷變化的垃圾郵件的特征對(duì)判斷模型進(jìn)行優(yōu)化更新。表1為國(guó)內(nèi)外學(xué)者對(duì)于基于內(nèi)容的垃圾郵件過(guò)濾技術(shù)的研究,分別從研究視角、過(guò)濾技術(shù)兩個(gè)方面進(jìn)行的總結(jié)。

        表1 基于內(nèi)容的垃圾郵件過(guò)濾研究匯總

        從已有的研究來(lái)看,目前還有以下幾點(diǎn)可進(jìn)一步深入研究:

        (1)當(dāng)前的研究主要集中于文本分類算法,對(duì)文檔向量主要采用TF或者TF-IDF進(jìn)行量化。由于文本分類涉及到的特征維度過(guò)高,因此需要對(duì)文檔向量進(jìn)行降維或者精簡(jiǎn)處理,提取有效的特征。

        (2)在日常的生活工作中,郵件已是必不可少的一種工具,由于在工作中,用戶每天都需要查收郵件,因此對(duì)垃圾郵件過(guò)濾技術(shù)的準(zhǔn)確性以及時(shí)效性有更高的要求。

        (3)深度學(xué)習(xí)是模擬人腦分析學(xué)習(xí)行為的神經(jīng)網(wǎng)絡(luò),深度學(xué)習(xí)是目前熱門的算法領(lǐng)域,因此可以將深度學(xué)習(xí)的算法應(yīng)用到垃圾郵件過(guò)濾中。

        本文在已有的研究基礎(chǔ)上,通過(guò)融合LDA主題模型以及目前熱門的深度學(xué)習(xí)算法Word2vector得到能精簡(jiǎn)、完整、全面反映郵件文本內(nèi)容的文檔向量,再通過(guò)對(duì)比邏輯回歸以及支持向量機(jī)的分類效果,選擇最優(yōu)模型,提高垃圾郵件過(guò)濾算法的準(zhǔn)確率。

        2 相關(guān)技術(shù)與理論基礎(chǔ)

        2.1 文檔表達(dá)

        (1)向量空間模型

        向量空間模型(Vector Space Model,VSM)是將所有需要研究的文檔進(jìn)行分詞后提取關(guān)鍵詞,并在同一個(gè)向量空間中表示出來(lái)。因此每篇文檔就能表示為由一些分量組成的向量,分量具體的取值通常采用TF-IDF值表示。

        TF-IDF是由詞頻(Term Frequency)和逆文檔頻率((Inverse Document Frequency)兩部分組成,TF即某一個(gè)詞在該文本中出現(xiàn)的頻率,IDF為該詞在整個(gè)語(yǔ)料庫(kù)中出現(xiàn)的頻率。TF-IDF的計(jì)算方法就是將兩部分相乘,具體計(jì)算公式如下:

        (2)詞向量

        本文所指的詞向量主要是指Distributed Representation這種低維度的向量,通過(guò)語(yǔ)料庫(kù)的訓(xùn)練將每一個(gè)詞表示為形如[0.792,?0.177,?0.107,0.109,?0.542,...]的50至200維的向量。不同于傳統(tǒng)的One-hot Representation詞向量,這種低維詞向量可以使詞義相近的詞在向量距離上更近并且避免了維數(shù)災(zāi)難。

        2.2 文檔分類算法

        (1)邏輯回歸

        邏輯回歸(Logistic Regression)是機(jī)器學(xué)習(xí)中的一種二分類模型,在線性回歸的基礎(chǔ)上運(yùn)用了sigmoid函數(shù),該函數(shù)的表現(xiàn)形式為:。考慮具有p個(gè)獨(dú)立變量的向量,設(shè)條件概率為根據(jù)觀測(cè)量相對(duì)于某事件發(fā)生的概率,通過(guò)極大似然估計(jì)訓(xùn)練函數(shù)的參數(shù)值,得到判別模型。

        (2)支持向量機(jī)

        支持向量機(jī)(Support Vector Machine,SVM)通過(guò)核函數(shù)將非線性可分的數(shù)據(jù)映射到更高維,使得非線性可分變?yōu)榫€性可分。SVM的目的是要找到一個(gè)線性分類的最優(yōu)超平面使得不同類的相鄰點(diǎn)之間的距離最大,距離越大則表示分類效果越好。

        3 融合LDA與Word2vector的算法

        3.1 LDA主題模型

        LDA是由Blei D M等人于2003年提出的基于三層貝葉斯概率的無(wú)監(jiān)督的主題發(fā)現(xiàn)模型,該模型的特點(diǎn)是結(jié)構(gòu)清晰、計(jì)算高效,適合大規(guī)模的文本建模。該模型包含文檔、主題、詞三層結(jié)構(gòu),文檔由主題組成,主題又由詞組成,文檔——主題服從Dirichlet分布,主題——詞服從多項(xiàng)式分布。具體的生成步驟為:首先選擇一個(gè)主題向量θ,確定每個(gè)主題被選擇的概率,接著從主題分布向量θ中選擇一個(gè)主題z,根據(jù)主題z的詞概率分布生成一個(gè)詞,重復(fù)上述過(guò)程直到遍歷文檔中的每一個(gè)詞。

        LDA的核心公式見(jiàn)公式(2),其中α、β代表評(píng)論與主題、主題與詞的Dirichlet分布的超參數(shù),θ為潛在主題在目標(biāo)評(píng)論文檔中所占的比重,z代表評(píng)論的潛在主題,w代表潛在主題z和主題——詞分布條件下的詞向量,N為評(píng)論字?jǐn)?shù)的集合,M為評(píng)論的集合。

        3.2 Word2vector模型

        Word2vector于2013年由Google的研究員發(fā)布,是一種用于深度學(xué)習(xí)的詞向量生成工具。Word2vector本質(zhì)上是利用了神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型并對(duì)其進(jìn)行了簡(jiǎn)化,在保證效果沒(méi)有特別大的變化的前提下提高了計(jì)算復(fù)雜度。該模型常用的算法有兩種:CBOW(Continuous Bag-of-Words Model)和Skip-gram(Continuous Skip-gram Model)。文本所利用到的算法為Skip-gram,該算法的主要目的為在已知當(dāng)前詞Wt的前提下預(yù)測(cè)該詞的前c個(gè)上下文詞Context(Wt),Context(Wt)的公式如下:

        3.3 融合LDA與Word2vector的算法

        訓(xùn)練LDA主題模型可得到的文檔——主題矩陣,通過(guò)該矩陣將每一篇文檔D用m個(gè)潛在主題構(gòu)成的向量表示,得到LDA文檔向量,形式為:。而通過(guò)Word2vector模型訓(xùn)練可以得到n維詞向量,假設(shè)一篇文檔由k個(gè)關(guān)鍵詞組成,則可以通過(guò)求詞向量平均值的方式得到Word2vector文檔向量,的計(jì)算公式為:

        從LDA以及Word2vector兩種算法的原理中不難發(fā)現(xiàn):LDA主題模型所得到的文檔向量中的取值為潛在主題的分布,反映的是文檔的大致信息,特征粒度較粗;Word2vector模型所得到的文檔向量為詞向量的平均值,反映的是關(guān)鍵詞的信息,特征粒度較細(xì)。通過(guò)兩者的融合可以反映一篇文檔“粗”和“細(xì)”兩方面的特征,使得文檔的信息更加全面。文本采用向量串聯(lián)的方式進(jìn)行融合,將m維的LDA文檔向量與n維的Word2vector文檔向量進(jìn)行串聯(lián),最終得到m+n維融合的文檔向量,具體表現(xiàn)形式為:

        進(jìn)一步,將文檔向量中的分量作為n+m個(gè)特征,這些特征為第3節(jié)中提到的邏輯回歸以及支持向量機(jī)的輸入,通過(guò)對(duì)兩個(gè)模型的訓(xùn)練效果的評(píng)估,得到最優(yōu)分類模型。

        4 實(shí)驗(yàn)

        4.1 實(shí)驗(yàn)設(shè)計(jì)

        本文的實(shí)驗(yàn)數(shù)據(jù)來(lái)源于開源數(shù)據(jù)網(wǎng)站——數(shù)據(jù)堂,共獲取1300條郵件文本數(shù)據(jù),其中800條數(shù)據(jù)被標(biāo)注為正常郵件,500條數(shù)據(jù)被標(biāo)注為垃圾郵件。通過(guò)編寫scala程序?qū)︵]件文本進(jìn)行分詞、去停用詞處理。

        在構(gòu)建LDA模型前首先將分詞抽取出構(gòu)建詞袋,然后通過(guò)使用向量空間模型(Vector Space Model,VSM)將評(píng)論文檔轉(zhuǎn)化為文本向量,再對(duì)詞袋中的特征詞使用常用的TF-IDF函數(shù)進(jìn)行轉(zhuǎn)換量化,從而構(gòu)造出由郵件文本形成的文檔-詞頻矩陣。將該矩陣作為L(zhǎng)DA模型的輸入,得到文檔——主題矩陣,該矩陣中,每一個(gè)文檔都有對(duì)應(yīng)的主題向量,在本文中統(tǒng)一稱為L(zhǎng)DA文檔向量。

        不同于LDA建模,Word2vector建模前不需要對(duì)文檔的分詞進(jìn)行TF-IDF量化,可直接賦予每個(gè)關(guān)鍵詞一個(gè)隨機(jī)數(shù),通過(guò)Skip-gram算法的計(jì)算得到每個(gè)分詞的詞向量,將文檔對(duì)應(yīng)的分詞的詞向量的均值作為文檔向量的具體取值,在本文中統(tǒng)計(jì)稱為Word2vector文檔向量。

        在得到兩個(gè)文檔向量后,通過(guò)串聯(lián)的方式將文檔向量融合,作為邏輯回歸以及支持向量機(jī)的特征輸入,分別對(duì)比兩個(gè)分類模型的準(zhǔn)確率以及特征融合后的效果,評(píng)估融合算法的合理性并得到最優(yōu)分類模型。準(zhǔn)確率的計(jì)算公式如下:

        其中a代表被準(zhǔn)確分為垃圾郵件的樣本數(shù),b代表被錯(cuò)誤分為垃圾郵件的樣本數(shù)。

        4.2 實(shí)驗(yàn)結(jié)果分析與總結(jié)

        在LDA以及Word2vector建模過(guò)程中,將主題數(shù)的維度分別設(shè)置為100和200,將詞向量的維度設(shè)置為100。為了能夠更好地對(duì)比實(shí)驗(yàn)效果,本文共設(shè)置了8組實(shí)驗(yàn),分別為:100維LDA文本向量+支持向量機(jī)、100維LDA文本向量+邏輯回歸、100維Word2vector文本向量+支持向量機(jī)、100維Word2vector文本向量+邏輯回歸、200維融合的文本向量+支持向量機(jī)、200維融合的文本向量+邏輯回歸、200維LDA文本向量+支持向量機(jī)、200維LDA文本向量+邏輯回歸。

        通過(guò)LDA建模得到的文檔——主題矩陣如下表所示:

        表2 前5個(gè)100維LDA主題分布

        通過(guò)Word2vector建模得到的文檔向量如下表所示:

        表3 前5個(gè)100維Word2vector文檔向量

        將兩個(gè)模型得到的文檔向量進(jìn)行融合,得到200維的融合文檔向量,如下表所示:

        表4 前5個(gè)經(jīng)過(guò)融合的文檔向量

        8組實(shí)驗(yàn)的準(zhǔn)確率如下表所示,可以得到以下結(jié)論:

        (1)從兩個(gè)文本分類模型的效果來(lái)看,支持向量機(jī)模型都優(yōu)于邏輯回歸,這與邏輯回歸的特點(diǎn)一致,當(dāng)特征空間很大時(shí),邏輯回歸的性能會(huì)變差,而支持向量機(jī)的優(yōu)點(diǎn)就在于能夠處理大型特征空間。因此本文選擇支持向量機(jī)為最佳文本分類模型。

        (2)從LDA與Word2vector兩個(gè)模型的支持向量機(jī)分類效果來(lái)看,100維的Word2vector文本向量構(gòu)建的模型準(zhǔn)確率為91.66%其效果優(yōu)于100維的LDA文本向量構(gòu)建的模型的準(zhǔn)確率(88.88%)。由此可以得出特征維度更細(xì)的Word2vector模型具有更準(zhǔn)確的分類效果。

        (3)由于融合后的文本向量變?yōu)?00維,因此本文設(shè)置了200維的LDA文本向量與之對(duì)比。從實(shí)驗(yàn)效果來(lái)看,融合后的模型在準(zhǔn)確率上有顯著的提升,達(dá)到了97.22%,效果遠(yuǎn)優(yōu)于200維LDA文本向量以及Word2vector文本向量構(gòu)建的模型,由此可以得出結(jié)論:LDA+Word2vector+支持向量機(jī)為最優(yōu)模型,在垃圾郵件過(guò)濾上有很好的效果。

        表5 8組對(duì)照實(shí)驗(yàn)準(zhǔn)確率

        5 結(jié)束語(yǔ)

        本文在已有的垃圾郵件過(guò)濾技術(shù)研究的基礎(chǔ)上,對(duì)LDA主題模型得到的文檔——主題向量和Word2vector得到的詞向量進(jìn)行串聯(lián),得到融合后的文檔向量,將文檔向量分別作為支持向量機(jī)和邏輯回歸分類模型的輸入,對(duì)比兩者的效果。經(jīng)過(guò)8組對(duì)照實(shí)驗(yàn)準(zhǔn)確率的對(duì)比,最終選擇LDA(100)+ Word2vector(100)+支持向量機(jī)為垃圾郵件過(guò)濾的最優(yōu)模型。該模型不僅對(duì)傳統(tǒng)研究遇到的高維特征向量進(jìn)行了精簡(jiǎn),還融合了機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法,提高了算法的準(zhǔn)確率,為后續(xù)垃圾郵件過(guò)濾方法的研究提供了新的思路。

        由于郵件的定性具有一定的主觀性,某些郵件對(duì)于一些用戶是垃圾郵件,但對(duì)于另一些用戶不是垃圾郵件,因此在判斷是否為垃圾郵件時(shí)還需要結(jié)合用戶的歷史郵件數(shù)據(jù)、郵件的主題等信息,而本文在這方面還有不足之處,尚需更進(jìn)一步的研究。

        [1]馮禹.基于內(nèi)容的垃圾郵件檢測(cè)特征降維算法研究[D].浙江大學(xué),2013.

        [2]Cohen W W. Learning rules that classify e-mail[C]// AAAI spring symposium on machine learning in information access,1996.

        [3]Carreras X,Marquez L. Boosting trees for anti-spam email filtering[J]. arXiv preprint cs/0109015,2001.

        [4]劉洋,杜孝平,羅平等.垃圾郵件的智能分析,過(guò)濾及Rough集討論[C]//武漢:第十二屆中國(guó)計(jì)算機(jī)學(xué)會(huì)網(wǎng)絡(luò)與數(shù)據(jù)通信學(xué)術(shù)會(huì)議,2002.

        [5]Androutsopoulos I,Koutsias J,Chandrinos K V,et al. An experimental comparison of naive Bayesian and keyword-based anti-spam filtering with personal e-mail messages[C]//Proceedings of the 23rd annual international ACM SIGIR conference on Research and development in information retrieval. ACM,2000.

        [6]Tretyakov K. Machine learning techniques in spam filtering[C]//Data Mining Problem-oriented Seminar,MTAT, 2004.

        [7]周璐.基于內(nèi)容的垃圾郵件過(guò)濾系統(tǒng)的研究[D].吉林大學(xué),2011.

        [8]趙靜.基于內(nèi)容特征分析的垃圾郵件過(guò)濾關(guān)鍵技術(shù)研究[D].山東師范大學(xué),2012.

        [9]方鵬.基于內(nèi)容分析的垃圾郵件過(guò)濾技術(shù)的設(shè)計(jì)與實(shí)現(xiàn)[D].電子科技大學(xué),2013.

        [10]羅常泳.基于內(nèi)容的垃圾郵件檢測(cè)方法研究[D].浙江大學(xué),2014.

        [11]阮光冊(cè).基于LDA的網(wǎng)絡(luò)評(píng)論主題發(fā)現(xiàn)研究[J].情報(bào)雜志,2014.

        [12]Blei D M,Ng A Y,Jordan M I. Latent dirichlet allocation[J]. the Journal of machine Learning research,2003.

        [13]張建華.基于LDA和詞性句法規(guī)則的用戶評(píng)論情感分析研究[D].廣西大學(xué),2014.

        [14]董文.基于LDA和Word2Vec的推薦算法研究[D].北京郵電大學(xué),2015.

        [15]姜南.基于SVM的垃圾郵件在線過(guò)濾新方法[D].吉林大學(xué),2013.

        [16]唐明,朱磊,鄒顯春.基于Word2Vec的一種文檔向量表示[J].計(jì)算機(jī)科學(xué),2016.

        猜你喜歡
        文本融合模型
        一半模型
        村企黨建聯(lián)建融合共贏
        融合菜
        從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
        重要模型『一線三等角』
        《融合》
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        3D打印中的模型分割與打包
        亚洲两性视频一三区| 丁香美女社区| 日本欧美视频在线观看| 一级毛片不卡在线播放免费| 日韩精品一区二区三区四区视频| 午夜福利视频一区二区二区| 欧美变态另类刺激| 精品一区二区三区无码视频| 国产av无码专区亚洲aⅴ | 国产精品无码久久久一区蜜臀 | 中文字幕在线观看| 国产成人精品av| 无码av一区在线观看| 久久影院最新国产精品| 国产精品久久精品第一页| 国产精品福利视频一区| 91精品国产91热久久p| 日韩精品人妻视频一区二区三区| 一本一道vs无码中文字幕| 久久精品国内一区二区三区| 国产欧美久久久精品影院| 中文字幕日韩高清乱码| 国内最真实的xxxx人伦| 色偷偷88888欧美精品久久久 | 久久精品视频日本免费| 久久久噜噜噜久久中文福利| 大学生被内谢粉嫩无套| 无码天堂在线视频| 久久国产在线精品观看| 97人妻精品一区二区三区 | 日韩爱爱视频| 女人天堂国产精品资源麻豆| 国产精品爽爽ⅴa在线观看| 欧美俄罗斯乱妇| 亚洲国产精品免费一区| 玖玖色玖玖草玖玖爱在线精品视频| 国产一极内射視颍一| 国产农村三片免费网站| 小黄片免费在线播放观看| 无码爆乳护士让我爽| 久久精品久久精品中文字幕|