亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Word2vec的短信向量化算法

        2016-05-10 03:27:40王貴新鄭孝宗張浩然張小川
        電子科技 2016年4期
        關(guān)鍵詞:短信深度學習

        王貴新,鄭孝宗,張浩然,張小川

        (1.重慶工程學院 軟件學院,重慶 402260;2.重慶理工大學 計算機學院,重慶 400054)

        ?

        基于Word2vec的短信向量化算法

        王貴新1,鄭孝宗1,張浩然1,張小川2

        (1.重慶工程學院 軟件學院,重慶402260;2.重慶理工大學 計算機學院,重慶400054)

        摘要針對目前垃圾短信過濾效果有待提高的問題,提出一種新的短信特征提取方法。該方法采用了建立在深度學習理論基礎(chǔ)上的最新成果和Word2vec工具?;谥形亩绦诺膬?nèi)容和結(jié)構(gòu)特點,利用該工具設(shè)計了一個短信向量化算法。該算法能有效地將每條短信與一個向量對應,在深度置信網(wǎng)絡(luò)上利用該算法對垃圾短信進行分類實驗。實驗結(jié)果表明,推廣性能比已有報道結(jié)果提高了約5%。

        關(guān)鍵詞深度置信網(wǎng)絡(luò);深度學習;短信;向量化

        目前垃圾短信治理主要采用軟件自動過濾和人工干預[1-5]。但這些學習和過濾算法目前已經(jīng)不能很好適應機器學習環(huán)境,特別是深度學習算法理論的完善和應用發(fā)展,為機器學習提供了廣闊空間[6]。

        垃圾短信的自動過濾系統(tǒng),一般采用多分類器的組合,使得分類效果更佳。在這過程中,短信特征的分析和提取是非常重要的環(huán)節(jié)[5]。本文將利用深度學習的理論工具Word2vec,研究短信特征提取的新算法,并將該算法采用深度置信網(wǎng)絡(luò)(DBN)進行了驗證,取得了較好的分類效果。

        實驗樣本來源于以前所做垃圾短信智能分類系統(tǒng)項目所收集的大約有三百萬條短信。處于保護個人隱私目的,該樣本內(nèi)容沒有主、被叫號碼、短信時間等信息。

        1短信向量化算法過程

        按照有關(guān)規(guī)定,短信類別有:敏感政治信息、黃色信息、商業(yè)廣告信息、違法犯罪信息、詐騙信息、正常信息等6大類(分別用zp、ss、sv、sh、sp、qt字母組合表示類名)。分類結(jié)果除了正常信息外,其余信息需要過濾和提交不同部門處理。短信向量化算法過程,主要從3個步驟了解:(1)短信預處理;(2)短信分詞;(3)短信向量化算法。

        1.1預處理

        主要包括非正規(guī)字詞替換。比如短信:“公$$司*開發(fā)@PIAO,酒折優(yōu)惠,歡迎撥打:139XXXXXXXX,或訪問www.XXX.com,也可郵件到XXX@sina.com”。系統(tǒng)需要根據(jù)預先設(shè)置的諧音庫、拼音庫、繁體庫、連詞介詞庫、特殊符號庫等標準庫的比較進行內(nèi)容轉(zhuǎn)換。同時剔除內(nèi)容里面不相關(guān)的符號。結(jié)果這條短信就是“公司開發(fā)票,9折優(yōu)惠,歡迎撥打:139XXXXXXXX,訪問www.XXX.com,可郵件到XXX@sina.com”。

        假設(shè)所有的短信集合記為S,記預處理過程對應的函數(shù)為f1,經(jīng)過預處理后的短信集合記為G,則?s∈S,f1(s)=G。

        1.2分詞

        為提高分類效果,對特殊內(nèi)容進行了替換。例如,預處理后的短信“公司開發(fā)票,9折優(yōu)惠,歡迎撥打:139XXXXXXXX,訪問www.XXX.com,可郵件到XXX@sina.com”,替換后的結(jié)果是:“公司開發(fā)票,AA折優(yōu)惠,歡迎撥打:BB,訪問BB,可郵件到BB”。

        然后采用中國科學院計算技術(shù)研究所ICTCLAS系統(tǒng),完成短信的分詞。比如,上述短信分詞結(jié)果是:“公司 開 發(fā)票 AA 折 優(yōu)惠 歡迎 撥打 BB 訪問 可 郵件 到”。

        表1 特殊內(nèi)容替換要求

        1.3短信向量化算法

        谷歌推出了將詞語轉(zhuǎn)換成詞向量的工具Word2vec (https://code.google.com/p/word2vec/)。工具的主要原理是Bengio模型[7]的一個改進和應用,Bengio模型主要原理是:設(shè)某語句依次由一系列關(guān)鍵詞w1,w2,…,wt組成,其中任意關(guān)鍵詞向量化的過程可用三層的神經(jīng)網(wǎng)絡(luò)[7]表示。關(guān)鍵詞序列前面的n-1個詞可預測下一個詞出現(xiàn)的概率。用C(w)表示詞w所對應的詞向量,網(wǎng)絡(luò)第一層輸入是將C(wt-n+1)、…、C(wt-2)、C(wt-1)這n-1個向量首尾相連接,構(gòu)成一個(n-1)×m維向量。

        Word2vec的Log-Bilinear模型包括CBOW和Skip-gram兩種。本文實驗采用Skip-gram模型。短信向量化算法描述如下:

        (1)短信預處理。每類按照一定比例取出約21 280個訓練樣本。然后按照上述方法將每個短信預處理。

        (2)分詞。按照上述方法把預處理后的短信進行分詞,并形成如下的7個文本文件:rubbish.txt(所有樣本的分詞文件);zp.txt、ss.txt、sy.txt、sh.txt、sp.txt、qt.txt分別是敏感政治信息、黃色信息、商業(yè)廣告信息、違法犯罪信息、詐騙信息、正常信息等6大類訓練樣本對應的分詞文件。

        (3)詞語向量化。對rubbish.txt、zp.txt、ss.txt、sy.txt、sh.txt、sp.txt、qt.txt,分別執(zhí)行word2vec指令(格式:word2vec -train 分詞文件名-output 向量化結(jié)果文件名-cbow 0 -size 5 -window 10 -negative 0 -hs 1 -sample 1e-3 -threads 2 -binary 0),分別得到向量化結(jié)果文件rubbish.out、zp.out、ss.out、sy.out、sh.out、sp.out、qt.out。參數(shù)設(shè)置是在考慮短信特點時,多次實驗測試的結(jié)果。

        向量化結(jié)果文件的每行是一個詞語向量。形如:擔保:0.097 318 0.062 329 -0.068 594 0.087 311 -0.023 715。

        (4)取每類的主關(guān)鍵詞。垃圾短信的每個類別有其顯著的關(guān)鍵詞。比如“商業(yè)廣告”類中,“出租”、“銷售”、“打折”等詞語。記wi=(wi1,wi2,…,wim)、wj=(wj1,wj2,…,wjm)分別是詞語wi、wj按照算法步驟(3)得到的向量化結(jié)果(以后將詞語和其對應的向量化結(jié)果記為同一符號),定義兩個詞語向量wi、wj相似性dis(wi,wj)按照下式計算

        (1)

        按照式(1)在zp.out、ss.out、sy.out、sh.out、sp.out、qt.out 每個文件中只保留相似性數(shù)值大的前20的關(guān)鍵詞(不包括“AA”、“BB”、“CC”、“DD”、“NN”)的詞語向量,其余刪除。選擇的這20個關(guān)鍵詞,稱為主關(guān)鍵詞。之所以只選擇20個,是因為大多數(shù)情況下可代表該類,同時考慮到短信的特征維數(shù)不宜過大。為彌補特殊情況下主關(guān)鍵詞數(shù)量的不足,后面增加了短信的字結(jié)構(gòu)特征。

        (5)短信向量化。設(shè)短信中的某分詞,按照步驟(3)得到的詞向量為w,稱下面的表達式是分詞w到敏感政治信息類距離

        (2)

        令L=60,這樣對?s∈S的一短信,按照式(2)可計算出s中每個分詞到敏感政治信息類的距離。假設(shè)這些距離從大到小排列,取前L的距離所對應的分詞向量分別是w1,w2,…,wL。這樣定義該短信在敏感政治信息類的特征是

        Vzp=(vzp(w1),vzp(w2),…,vzp(wL))

        (3)

        采用上面方法和類似記號,同理可得到該短信在其他類上的特征分別是Vss,Vsy,Vsh,Vsp,Vqt。又記稱下面的表達式是分詞w到1.2節(jié)中特殊內(nèi)容替換后的分詞AA的距離

        vAA(w)=dis(w,AA)

        (4)

        同樣采用上面方法和類似記號,對?s∈S的一短信,可計算出s中所有分詞到AA的距離。假設(shè)這些距離從大到小排列,取前L的距離所對應的分詞向量分別是w1,w2,…,wL。得到該短信相對于AA的特征是

        VAA=(vAA(w1),vAA(w2),…,vAA(wL))

        (5)

        同樣采用上述方法和類似記號,得到短信s相對1.2節(jié)中的特殊內(nèi)容替換后的分詞BB、CC、DD、NN的特征表示為VBB,VCC,VDD,VNN。

        取有短信樣本中頻率最高的前2 100個漢字序列記為CH,chj表示CH的第j個漢字。對于短信s,令

        (6)

        文中得到該短信相對于CH的字結(jié)構(gòu)特征

        Vch=(I(1,s),I(2,s),…,I(2 100,s))

        (7)

        另外文中記V0是所有分量為0,維數(shù)是20的向量(保留20個特征位是應對臨時的政策要求)。這樣,按照式(1)~式(7),定義短信s的向量化結(jié)果V

        ?s∈S,f1(s)?V=[Vzp,Vss,Vsy,Vsh,Vsp,Vqt,VAA,VBB,VCC,VDD,VNN,Vch,V0]

        (8)

        從以上定義可知,V的維數(shù)是11×60+2 100+20=2 780。詞的向量化方法眾多[8],本文只針對短信處理提出解決方法。

        2深度置信網(wǎng)絡(luò)(DBN)

        深度置信網(wǎng)絡(luò)(DBN),如圖1所示[9],可被看作由許多簡單的學習模塊構(gòu)成,每個模塊是一個限制型Boltzmann機(RBM)[10-11]。RBM網(wǎng)絡(luò)由一個可視層和一個隱層構(gòu)成,層間有連接,層內(nèi)單元間沒有連接。訓練隱層單元去獲取在可視層表現(xiàn)出來的高階數(shù)據(jù)特性,如圖2所示。DBNs是一個概率生成模型,其會建立一個觀察數(shù)據(jù)和標簽之間的聯(lián)合分布,同時做P(observation|label)、P(label|observation)兩者的概率計算。

        圖1 DBN網(wǎng)絡(luò)模型

        DBN中的下層RBM的輸出作為上層RBM的輸入。每層RBM模型能量的定義

        (9)

        圖2 RBM網(wǎng)絡(luò)模型

        首先利用RBM訓練算法,依次對各RBM層進行訓練。所有RBM訓練完后,DBN的頂層然后利用帶標簽數(shù)據(jù)用BP算法去對權(quán)值進行調(diào)整。最后獲得一個DBN網(wǎng)絡(luò)的分類面。理論上DBN性能優(yōu)于單純的BP網(wǎng)絡(luò)。因為DBNs的BP算法只需對權(quán)值參數(shù)空間進行一個局部的搜索,所以與前向神經(jīng)網(wǎng)絡(luò)相比,訓練較快。由于第一個輸入層中神經(jīng)元輸入0元素較多,在選擇RBM的神經(jīng)元個數(shù)時,考慮了壓縮。具體的神經(jīng)元個數(shù)是根據(jù)實驗的經(jīng)驗獲得,如圖3所示,DBN的第一個輸入層數(shù)據(jù)是根據(jù)式(8)結(jié)果得到的。

        3實驗與結(jié)論

        考慮到計算復雜度和參考文獻的經(jīng)驗[12-13],本實驗最終采用有2個隱層的BP神經(jīng)網(wǎng)絡(luò),首先對BP網(wǎng)絡(luò)的權(quán)值采用DBN算法進行訓練得到,再采用BP算法對網(wǎng)絡(luò)權(quán)值進行微調(diào)。所有結(jié)果用Matlab進行仿真實驗,DBN訓練部分代碼采用DeepLearnToolbox-master工具包(https://github.com/rasmusbergpalm/DeepLearnToolbox),DBN模型的實驗如圖3所示。設(shè)czp,css,csy,csp,cqt分別表示正確地分類到相應類的樣本數(shù);tzp,tss,tsy,tsp,tqt分別表示相應類的樣本總數(shù)。為簡單處理,不考慮樣本的拒識。整個垃圾過濾系統(tǒng)分類的正確率()定義為

        correct_rate=(czp+css+csy+csp+cqt)/(tzp+tss+tsy+tsp+tqt)

        (10)

        根據(jù)式(10)類似可定義每個類的分類正確率。為說明本文算法的有效性,文中從已有的垃圾短信分類文獻出找出了有代表性的分類數(shù)據(jù),與本文的分類結(jié)果進行比較,效果如表2所示。

        表2 幾種常用模型的結(jié)果比較

        其中qt,sp,sh,ss,zp,sy訓練樣本數(shù)目分別是7 416、1 770、3 728、2 590、1 220、4 556,測試樣本數(shù)目分別是14 308、3 672、4 579、6 102、2 553、9 080。

        通過實驗,文中得到以下現(xiàn)象和結(jié)論:

        (1)隨著DBN的隱層數(shù)增加,訓練時間大幅延長,訓練樣本的正確率有所提高,但推廣性能沒有顯著的變化。因此在具體的應用中,合理選擇參數(shù)很重要;

        (2)本文短信分類只使用了一種分類器,分類效果比已發(fā)表的文獻數(shù)據(jù)高。一般具體應用是采用多分類器,本文的算法在多分類器環(huán)境下,數(shù)據(jù)效果更佳;

        (3)本文算法可應用到其他文本分類中;

        (4)為改進算法,研究以單個漢字為單元的向量化對分類的結(jié)果影響,是下一步的工作;

        (5)在實際應用過程中,特征可將黑白手機名單、主叫、被叫、發(fā)送時間因素考慮上,同時分類器增加拒識率因素,還可提高正確識別率。

        圖3 DBN和2個隱層BP網(wǎng)絡(luò)訓練效果比較

        參考文獻

        [1]何蔓微,袁銳,劉建勝,等.垃圾短信的智能識別和實時處理[J].電信科學,2008(8):61-64.

        [2]張永軍,劉金嶺.基于特征詞的垃圾短信分類器模型[J].計算機應用,2013,33(5):1334-1337.

        [3]李慧,葉鴻,潘學瑞,等.基于SVM的垃圾短信過濾系統(tǒng)[J].計算機安全,2012,13(6):34-38.

        [4]萬曉楓,惠孛.基于貝葉斯分類法的智能垃圾短信過濾系統(tǒng)[J].實驗科學與技術(shù),2013,11(5):44-47,76.

        [5]胡龍茂.中文文本分類技術(shù)比較研究[J].安慶師范學院學報:自然科學版,2015,21(2):49-53.

        [6]Schmidhuber J.Deep learning in neural networks:an overview[J].Neural Networks,2015,61(1):85-117.

        [7]Bengio,Ducharme R,Vincent P,et a1.A neural probabilistic language model[J].Journal of Machine Learning Research,2003(3):1137-1155.

        [8]Mikolov T,Chen K,Corrado G,et a1.Efficient estimation of word representations in vector space[C].Scottsdale,Arizona:ICLR Workshop,2013.

        [9]Hinton G E,Osindero S,The Y W.A fast learning algorithm for deep belief nets[J].Neural Computation,2006(18):1527-1554.

        [10]Tieleman.Training restricted boltzmann machines using approximations to the likelihood gradient[C].Helsinki,Finland:ICML,2008.

        [11]劉建偉,劉媛,羅雄麟.玻爾茲曼機研究進展[J].計算機研究與發(fā)展,2014,51(1):1-16.

        [12]Kazuhiro Shin-ike.A two phase method for determining the number of neurons in the hidden layer of a 3-Layer neural network[C].Taipei,Taiwan:SICE Annual Conference,2010.

        [13]劉金嶺,嚴云洋.基于上下文的短信文本分類方法[J].計算機工程,2011,37(10):41-43.

        歡 迎 投 稿

        投稿請登錄:www.dianzikeji.org

        An Algorithm for Vectoring SMS Based on Word2vec

        WANG Guixin1,ZHENG Xiaozong1,ZHANG Haoran1,ZHANG Xiaochuan2

        (1.School of Software Engineering,Chongqing Institute of Engineering,Chongqing 402260,China;2.School of Computer Science,Chongqing University of Technology,Chongqing,400054,China)

        AbstractThis paper proposes a new method of feature extraction of SMS for better spam message filtering.The method uses the latest results and tools of Word2vec based on deep learning theory.With the content and structure characteristics of Chinese short messages in mind,an algorithm of Vectoring SMS is designed based on this tool.The algorithm can effectively match each text message with a vector.The classification’s experiments on the spam messages are carried out using the proposed algorithm on the deep belief networks.The results show that the performance of the proposed algorithm is improved by 5% compared with the previously reported results.

        Keywordsdeep belief nets;deep learning;short messages;vectoring

        中圖分類號TP29

        文獻標識碼A

        文章編號1007-7820(2016)04-049-04

        doi:10.16180/j.cnki.issn1007-7820.2016.04.013

        作者簡介:王貴新(1968—),男,博士研究生。研究方向:機器學習等。

        基金項目:國家自然科學基金資助項目(60443004);校內(nèi)科研基金資助項目(2014xcxtd05;2014xzky05)

        收稿日期:2015- 08- 25

        猜你喜歡
        短信深度學習
        道歉短信
        當代工人(2019年4期)2019-04-22 12:04:26
        代發(fā)短信
        當代工人(2018年21期)2018-03-06 12:41:08
        有體驗的學習才是有意義的學習
        電子商務(wù)中基于深度學習的虛假交易識別研究
        MOOC與翻轉(zhuǎn)課堂融合的深度學習場域建構(gòu)
        大數(shù)據(jù)技術(shù)在反恐怖主義中的應用展望
        深度學習算法應用于巖石圖像處理的可行性研究
        軟件導刊(2016年9期)2016-11-07 22:20:49
        基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實現(xiàn)
        軟件工程(2016年8期)2016-10-25 15:47:34
        短信笑壇
        “八一”節(jié)日短信之一
        精品国产网红福利在线观看| 欧美肥妇毛多水多bbxx水蜜桃| 少妇内射兰兰久久| 亚洲尺码电影av久久| 久久99久久99精品免观看女同| 亚洲综合国产精品一区二区 | 国产无套乱子伦精彩是白视频| 国产97色在线 | 日韩| 狠狠躁夜夜躁AV网站中文字幕| 高清亚洲成av人片乱码色午夜 | 综合无码一区二区三区| av天堂精品久久久久| 人妻少妇中文字幕av| 超碰国产精品久久国产精品99| 天天躁日日躁狠狠很躁| 乱伦一区二| 蜜桃av一区二区三区| 国产欧美va欧美va香蕉在线| 变态 另类 欧美 大码 日韩 | 亚洲av成人精品日韩在线播放| 男女超爽视频免费播放| 精品久久久亚洲中文字幕| 李白姓白白又白类似的套路| 性生交片免费无码看人| 极品粉嫩嫩模大尺度无码| 免费国人成人自拍视频| 亚洲国产中文字幕精品| 屁屁影院ccyy备用地址| 国产中文制服丝袜另类| 国产一区亚洲一区二区| 欧美拍拍视频免费大全| 国模欢欢炮交啪啪150| 天天插视频| 一区二区三区日本视频| 欧美丰满熟妇bbb久久久| 精品国产午夜福利在线观看| 手机av男人天堂免费网址| 人妻少妇精品视频专区vr| 亚洲色www成人永久网址| 国产中文字幕乱码在线| 少妇被啪出水在线视频|