亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Hadoop平臺的內(nèi)容相似度與PageRank的垃圾短信識別融合模型

        2016-10-25 07:54:59葉志雄朱麗芳劉鋼庭李啟文王丹弘
        廣東通信技術 2016年9期
        關鍵詞:短信社交垃圾

        [葉志雄 朱麗芳 劉鋼庭 李啟文 王丹弘]

        基于Hadoop平臺的內(nèi)容相似度與PageRank的垃圾短信識別融合模型

        [葉志雄 朱麗芳 劉鋼庭 李啟文 王丹弘]

        垃圾短信 Hadoop 內(nèi)容相似度 PageRank 貝葉斯

        葉志雄

        男,中國移動通信集團廣東有限公司,主要從事垃圾短信治理工作。

        朱麗芳

        女,中國移動通信集團廣東有限公司,主要從事不良信息治理工作。

        劉鋼庭

        男,中國移動通信集團廣東有限公司,主要從事信息安全管理工作。

        李啟文

        男,中國移動通信集團廣東有限公司,主要從事信息安全管理工作。

        王丹弘

        男,中國移動通信集團廣東有限公司,主要從事信息安全管理工作。

        1 引言

        筆者所在省級運營商的客戶數(shù)目已達1.2億多,短信作為海量客戶間傳遞信息的載體,為彼此間的溝通架起有效的通道。短信在創(chuàng)造經(jīng)濟效益和社會效益的同時,少數(shù)不法分子利用短信進行欺詐、傳播不實信息,給運營商帶來了嚴重的社會代價和文化損失。

        文獻[1]對語料分詞和統(tǒng)計,通過選擇信息增益較大特征進行降維,結合樸素貝葉斯算法,減少個別特征對結果的干擾。文獻[2]首先分析垃圾短信的供需問題,基于短信內(nèi)容和短信發(fā)送渠道2個方面,分別提出非對稱二維評判矩陣和分層分級治理策略,發(fā)現(xiàn)垃圾短信中的廣告類短信比重最大,詐騙和色情類短信的危害最嚴重。文獻[3]構建垃圾短信用戶識別指標體系,通過建立隨機森林模型對垃圾短信用戶精準識別。文獻[4]構建基于獨立空間布隆過濾器的垃圾短信過濾系統(tǒng),并給出系統(tǒng)結構,實驗說明在允許一定“假陽性”誤報率的條件下,該系統(tǒng)可以有效節(jié)省資源,提升識別性能。文獻[5]在短信中心采用CFS結合BayesNet和反向消除方法提取垃圾短信特征,使用人工免疫法進行檢測和過濾,構建垃圾短信多技術融合模型,結果表明模型分類準確率較高、誤報率較低。文獻[6]基于依存文法的組合特征篩選的垃圾短信過濾方法,通過對短信進行句法分析,考慮詞與詞之間的關系,融合部分語義信息,實現(xiàn)對中文短信的有效過濾。文獻[7]通過對關鍵字和短信的模糊化預處理,運用WM算法進行中文信息匹配和多模式匹配,構建中文多模式模糊匹配算法,實驗結果優(yōu)于傳統(tǒng)算法。

        上述研究從不同方面對垃圾短信識別做了大量的工作,然而上述研究存在下面幾點不足:(1)簡單的采用某一種模型進行獨立識別,(2)沒有考慮到客戶之間的社交關系,(3)在單機上實現(xiàn)建模仿真。因此,筆者通過在傳統(tǒng)的內(nèi)容相似度模型的基礎上,結合PageRank對客戶間的短信發(fā)送行為的社交網(wǎng)絡進行分析,構建垃圾短信融合模型,并在Hadoop大數(shù)據(jù)平臺上進行實際部署,最后結果表明本文模型的效果較優(yōu)。

        2 相關技術

        2.1 TF-IDF詞加權技術

        TF-IDF(Term Frequency-Inverse Document Frequency)技術是信息檢索和數(shù)據(jù)挖掘中常用的一種加權技術,用以評價一個詞對一個文件或語料庫中某一文件的重要程度。詞的重要性與它在文件中出現(xiàn)的次數(shù)(即詞頻)成正比,與它在語料庫中出現(xiàn)的頻率(即逆文檔頻率)成反比。大體思想是:如果某個詞在一篇文章中出現(xiàn)的詞頻TF值高,且在其他文章中也很少出現(xiàn),即IDF值也很高,則認為該詞具備很好的區(qū)分能力,需要被賦予較大的權重。文檔dj中詞ti的詞頻TFi,j計算方式如下:

        ni,j代表詞ti在文檔dj中出現(xiàn)次數(shù),分母代表文檔dj中所有詞的次數(shù)之和。

        逆文檔頻率IDFi的計算方式如下:

        |D|表示語料庫中的文檔總數(shù),分母表示包含詞ti的文檔數(shù)目+1,之所以加1,是為了防止出現(xiàn)所有文檔都不包含詞ti的極端情況。最后,詞的加權值等于詞頻TF與逆文檔頻率IDF的乘積。

        2.2 廣義的Jaccard相似度

        廣義的Jaccard相似度可用來度量文檔的相似程度[8,9],具體的計算公式如下:

        其中,A和B分別表示2個向量,向量中的每個維度為文檔集合中的一個元素,向量中每個維度取值在[0,1]之間。A*B為向量乘積,

        2.3 樸素貝葉斯

        樸素貝葉斯算法(Na?ve Bayes)是基于貝葉斯定理和特征條件獨立性假設的分類方法,是影響最為廣泛的分類模型之一。樸素貝葉斯算法通過學習聯(lián)合概率分布,再計算后驗概率分布,繼而得到樣本分類。

        樸素貝葉斯算法的特征條件獨立性假設如下:

        公式(4)中,n代表特征的數(shù)目,Y代表目標變量,ck代表目標變量的類別,X代表特征集合,X(j)代表第j個特征,x(j)代表第j個特征的特征值。

        貝葉斯定理和最大后驗概率如公式5,6:

        通過計算公式(6)的最大后驗概率,將目標樣本分類到后驗概率最大的類中。

        2.4 PageRank算法

        PageRank算法是網(wǎng)頁排序領域最著名的算法,是谷歌搜素引擎的核心算法[10,11]。PageRank算法基于節(jié)點之間的鏈接結構給出當前節(jié)點的重要性,即如果一個節(jié)點被很多重要的節(jié)點指向,則該被指向節(jié)點同樣非常重要。其計算公式如下:

        kjout是節(jié)點k的出度,即節(jié)點k指向的節(jié)點數(shù)目。常數(shù)c為隨機跳轉(zhuǎn)概率,保證沒有被指向的節(jié)點同樣有值,模擬現(xiàn)實生活中除通過超鏈接訪問頁面,也會直接輸入網(wǎng)址進行訪問的行為。圖1是PageRank的算法示意圖,節(jié)點的大小代表PageRank值大小,節(jié)點被指向的節(jié)點數(shù)目越多,節(jié)點越大。

        圖1 PageRank算法

        從圖1可知,紅色節(jié)點大小最大,對應的PageRank值最大;黑色節(jié)點最小,對應的PageRank值最小。

        2.5 Hadoop平臺

        Hadoop是一個能夠?qū)A繑?shù)據(jù)進行分布式處理的框架,以一種高可靠、高效和可伸縮性的方式進行數(shù)據(jù)處理[12,13]。Hadaoop包含2個核心:分布式文件系統(tǒng)HDFS和分布式并行處理框架Map-Reduce。

        與Hadoop集群相配合可使用的數(shù)據(jù)挖掘工具有Python和Mahout等,其中Python作為膠水語言,通過相關函數(shù)包可在Hadoop集群上實現(xiàn)數(shù)據(jù)分析,而Mahout提供了在Hadoop平臺上直接將單機數(shù)據(jù)挖掘算法包轉(zhuǎn)換為Map-Reduce模式的機制,可以極大的提升數(shù)據(jù)處理的規(guī)模和速度。

        3 數(shù)據(jù)集和模型構建

        3.1 數(shù)據(jù)集

        實驗數(shù)據(jù)來源于筆者所在單位,數(shù)據(jù)采集的時間周期為2015.10.12-2015.10.25,一共有5145萬號碼發(fā)送過3.2億條短信,其中從省公司短信攔截系統(tǒng)和360舉報的垃圾短信中抽樣19 105條作為正樣本;從其他正常短信中抽取60 792條作為負樣本。

        依據(jù)公司業(yè)務規(guī)則,我們設定正常短信號碼需滿足以下狀態(tài)之一:集團關鍵人、集團聯(lián)系人、VIP客戶、境外漫游、對公托收、打印發(fā)票和撥打銀行號碼。

        3.2 內(nèi)容相似度模型

        在文中,筆者采用IKAnalyzer作為短信內(nèi)容的分詞工具。IKAnalyzer是一個開源的Java輕量級分詞工具包,具備字典分詞和文法分析的功能??紤]公司的自身業(yè)務情況,筆者添加與公司自身業(yè)務相關的擴散詞庫,擴展詞庫的規(guī)模為150639。

        在IKAnalyzer分詞基礎上,使用TF-IDF加權和Jaccard內(nèi)容相似度算法,對短信話單進行相似度匹配,結合樸素貝葉斯算法對短信話單進行行為模式挖掘,挖掘內(nèi)容相似短信的異常發(fā)送行為(包含多個主叫低頻發(fā)送相似內(nèi)容短信),圈出批量疑似號碼。圖2是內(nèi)容相似度模型的整個流程。

        圖2 內(nèi)容相似度模型

        3.3 PageRank社交技術

        3.3.1 短信發(fā)送行為的社交網(wǎng)絡構建

        用戶短信發(fā)送行為包含用戶之間的社交關系,若用戶之間存在短信發(fā)送行為,則社交網(wǎng)絡中存在一條邊,若存在多次短信發(fā)送行為,則將多條邊合并為一條。最后構建成的社交網(wǎng)絡為有向、無權網(wǎng)絡。圖3是構建的短信發(fā)送社交網(wǎng)絡的局部圖。

        PageRank分析技術過程如下:

        step1:通過短信發(fā)送行為數(shù)據(jù)構建社交網(wǎng)絡,再經(jīng)過數(shù)據(jù)清洗,形成分析所用的網(wǎng)絡。

        step2:對網(wǎng)絡節(jié)點和網(wǎng)絡關系分別進行分析。(1)原始網(wǎng)絡的節(jié)點分析:節(jié)點度、節(jié)點中心性、PageRank、節(jié)點集群特性。(2)原始網(wǎng)絡的關系分析:用戶間的溝通關系、關系類型。

        step3:選擇所需要的關注節(jié)點類型,重構網(wǎng)絡,進一步分析。

        圖3是采用Gephi繪制的短信發(fā)送行為的社交網(wǎng)絡示意圖(19105個用戶),節(jié)點代表客戶號碼,連邊代表短信之間的發(fā)送行為,箭頭代表短信的發(fā)送方向。圖3(b)對應圖3(a)中某一局部區(qū)域,而圖3(c)是圖3(b)左側的紅褐色的二次局部放大圖,可知該中心節(jié)點具備大量的發(fā)送短信行為,而微弱的短信接收行為,我們可以認為是高疑似垃圾短信客戶。

        圖3 短信發(fā)送行為的社交網(wǎng)絡

        3.3.2 社交網(wǎng)絡的拓撲性質(zhì)

        為更好的理解短信發(fā)送行為的社交網(wǎng)絡的拓撲性質(zhì),計算了由短信發(fā)送行為構建的社交網(wǎng)絡的拓撲性質(zhì),如下表1。其中,C代表平均聚類系數(shù),D代表網(wǎng)絡直徑,d代表平均最短距離,E代表連邊數(shù)目,N代表節(jié)點數(shù)目,γ代表同配系數(shù)。

        從表1可知,真實的短信發(fā)送行為的社交網(wǎng)絡的平均聚類系數(shù)較小,網(wǎng)絡直徑較大,平均最短距離較大,同配系數(shù)為負,說明大度節(jié)點傾向與小度節(jié)點相連。

        表1 短信行為的社交網(wǎng)絡的拓撲性質(zhì)

        3.3.3 基于Hadoop的內(nèi)容相似度與PageRank社交技術的融合模型

        在融合模型中,每個模型均可以輸出疑似號碼集,為了綜合考慮各個子模型,把各個模型通過因子分析訓練各個模型的貢獻度,計算出疑似號碼的總和危險概率,從而根據(jù)綜合危險概率值,排序輸出高危疑似垃圾短信。最終融合模型部署在Hadoop大數(shù)據(jù)平臺之上,具體架構如圖4。

        圖4 融合模型的Hadoop大數(shù)據(jù)平臺框架

        4 實驗結果與分析

        4.1 評價指標

        如何評價模型的好壞,對于分類模型,一般采用準確率和覆蓋率評估,表2是數(shù)據(jù)挖掘模型中的分類情況,表中各個含義如下:

        TP:將原始正類預測為正類的數(shù)目

        FN:將原始正類預測為負類的數(shù)目

        FP:將原始負類預測為正類的數(shù)目

        TN:將原始負類預測為負類的數(shù)目

        表2 數(shù)據(jù)挖掘分類情況

        因此,模型正類的準確率定義為:

        模型正類的覆蓋率定義為:

        4.2 實驗結果分析

        在實驗過程中,對數(shù)據(jù)采用K折交叉驗證訓練模型和選擇模型,其中K=10。建模所用的垃圾短信(原始正類)數(shù)目為19 100條,正常短信(原始負類)數(shù)目為60 792條。K折交叉驗證發(fā)現(xiàn)模型在訓練集和測試集合上表現(xiàn)一致、良好。表3和表4分別是內(nèi)容相似度模型和PageRank社交技術的融合模型的最終結果。

        4.2.1 內(nèi)容相似度模型

        從表3中可知,內(nèi)容相似度模型的垃圾短信識別模型對垃圾短信的識別準確率達到34.57%,覆蓋率達到37.61%。

        4.2.2 PageRank社交技術的融合模型

        表4是PageRank社交技術的融合模型結果。

        表4 融合模型

        從表4中可知,在內(nèi)容相似度模型的基礎上,結合PageRank社交技術的融合模型的垃圾短信識別率得到很大提升,準確率達到82.53%,覆蓋率達到80.27%。圖5是融合模型對應的垃圾短信前p%識別效果。

        圖5 前p%比例的融合模型效果

        從圖5可知,隨著p值的增大,覆蓋率不斷增加,準確率不斷下降,表5中的結果對應p=100的情況。

        5 結論

        近年來,垃圾短信日益猖獗,其社會危害性已引起社會的廣泛關注。挖掘更全的潛在垃圾短信客戶,提升確認疑似率,對于實現(xiàn)治理指標的客觀管控成為垃圾短信治理的重中之重。論文通過融合內(nèi)容相似度模型和PageRank社交技術模型,構建融合模型。在分析垃圾短信發(fā)送特征、場景和源頭的基礎上,搭建Hadoop大數(shù)據(jù)垃圾短信識別平臺,實現(xiàn)持續(xù)精確的垃圾短信違規(guī)行為,并實現(xiàn)垃圾短信態(tài)勢可感知。

        1徐英慧,劉梅彥.基于內(nèi)容的手機端垃圾短信過濾策略研究[J].北京信息科技大學學報(自然科學版),2013,1:011

        2曾劍秋,楊光永,董豪.垃圾短信分類治理對策研究[J].北京郵電大學學報:社會科學版,2015,(6):39-44

        3王睿,譚衛(wèi).基于大數(shù)據(jù)挖掘分析的垃圾短信治理方案[J].電信工程技術與標準化,2015,28(2):78-82

        4張華,鄭世玨.Bloom Filter 在手機垃圾短信過濾中的應用[J].安慶師范學院學報:自然科學版,2014,20(3):66-69

        5汪健,黃大榮,吳鵬等.分布式處理下多技術融合的垃圾短信過濾模型[J].計算機測量與控制,2013,21(010):2811-2813

        6易軍凱,羅會明.基于依存文法的垃圾短信自動識別[J].北京化工大學學報:自然科學版,2013,40(B12):81-85

        7秦建,孫秀鋒,吳春明.“垃圾短信”監(jiān)控的中文多模式模糊匹配算法[J].西南大學學報(自然科學版)ISTIC,2013,35(3):168-172

        8程勇,黃河,邱莉榕等.一個基于相似度計算的動態(tài)多維概念映射算法[J].小型微型計算機系統(tǒng),2006,27(6):975-979

        9潘磊,雷鈺麗,王崇駿等.基于權重的 Jaccard 相似度度量的實體識別方法[J].北京交通大學學報:自然科學版,2009,33(6):141-145

        10劉建國,任卓明,郭強等.復雜網(wǎng)絡中節(jié)點重要性排序的研究進展[J].物理學報,2013,62(17):178901-178901

        11任曉龍,呂琳媛.網(wǎng)絡重要節(jié)點排序方法綜述[J].科學通報,2014,59(13):1175-1197

        12Zikopoulos P,Eaton C.Understanding big data:Analytics for enterprise class hadoop and streaming data[M].McGraw-Hill Osborne Media,2011

        13Shvachko K,Kuang H,Radia S,et al.The hadoop distributed file system[C]//Mass Storage Systems and Technologies(MSST),2010 IEEE 26th Symposium on.IEEE,2010:1-10

        10.3969/j.issn.1006-6403.2016.09.002

        2016-08-12)

        垃圾短信是一種包含有欺詐、騷擾等內(nèi)容的異常短信,不僅損害通信行業(yè)的形象,浪費通信卡資源,還會產(chǎn)生商業(yè)詐騙,引發(fā)客戶不滿。垃圾短信以商業(yè)、廣告類和欺騙類信息為主要內(nèi)容,其特征明顯區(qū)別于正常短信;同時,客戶之間的短信發(fā)送行為是一種真實的社交關系?;诖耍撐膶绦诺淖R別采用基于Hadoop大數(shù)據(jù)平臺的模型融合方法,在常規(guī)的內(nèi)容相似度模型基礎上,對短信發(fā)送行為構建PageRank社交技術模型,通過對上述模型加權融合,最后得出批量的高疑似垃圾短信,實驗結果表明融合模型效果較優(yōu)。

        猜你喜歡
        短信社交垃圾
        社交之城
        英語世界(2023年6期)2023-06-30 06:28:28
        社交牛人癥該怎么治
        意林彩版(2022年2期)2022-05-03 10:25:08
        垃圾去哪了
        社交距離
        那一雙“分揀垃圾”的手
        當代陜西(2019年24期)2020-01-18 09:14:46
        道歉短信
        當代工人(2019年4期)2019-04-22 12:04:26
        你回避社交,真不是因為內(nèi)向
        文苑(2018年17期)2018-11-09 01:29:28
        倒垃圾
        代發(fā)短信
        當代工人(2018年21期)2018-03-06 12:41:08
        倒垃圾
        日韩一区三区av在线| 制服丝袜人妻中文字幕在线| 无码精品黑人一区二区三区| 人妻少妇一区二区三区| 亚洲免费看三级黄网站| 亚洲第一女人的天堂av| 欧美男生射精高潮视频网站 | 伊人色综合久久天天五月婷| 先锋影音最新色资源站| 亚洲人成人一区二区三区| 亚洲成人激情在线影院| 人妻有码av中文幕久久| 波多野结衣在线播放| 人妻少妇精品无码专区二区| 欧美亚洲国产日韩一区二区三区| 狠狠亚洲婷婷综合久久久| 成人影院视频在线播放| 免费观看91色国产熟女| 一本久久伊人热热精品中文字幕| 国产精品久久久久久妇女6080| 久久99精品久久久久久国产人妖| 亚洲一区二区三区精彩视频| 国产在线一区二区三精品乱码| 永久黄网站色视频免费看| 少妇饥渴xxhd麻豆xxhd骆驼| 国产精品日日摸夜夜添夜夜添 | 少妇spa推油被扣高潮| 国产91在线|亚洲| 亚洲第一大av在线综合| 日韩免费视频| 精品国产午夜理论片不卡| 国产精品无码久久久一区蜜臀| 国产成年女人特黄特色毛片免| 久草福利国产精品资源| 色诱视频在线观看| 国产福利姬喷水福利在线观看| 国产美女被遭强高潮露开双腿| 九九久久精品一区二区三区av| 18禁止进入1000部高潮网站| 超清纯白嫩大学生无码网站| 人妻精品丝袜一区二区无码AV |