亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        垃圾短信大數(shù)據(jù)自動(dòng)識(shí)別技術(shù)

        2018-04-12 03:20:39林華生錢嶺周瑩楊希李婧
        大數(shù)據(jù) 2018年2期
        關(guān)鍵詞:漢明自動(dòng)識(shí)別短信

        林華生,錢嶺,周瑩,楊希,李婧

        1. 中國移動(dòng)通信集團(tuán)公司信息安全管理與運(yùn)行中心,北京 1000312. 中移(蘇州)軟件技術(shù)有限公司,江蘇 蘇州 215163

        1 引言

        手機(jī)用戶的不斷增加,特別是智能手機(jī)使用量的增長,使得人們獲得信息的效率大大提高。但是手機(jī)滲透率的快速增長卻伴隨著垃圾短信的快速擴(kuò)散,不僅對(duì)人們的日常工作和生活產(chǎn)生影響,而且存在著極大的安全隱患(利用短信進(jìn)行詐騙、勒索等犯罪活動(dòng))。治理垃圾短信不僅需要工業(yè)和信息化部的監(jiān)督和手機(jī)安全廠商的屏蔽,更需要運(yùn)營商主動(dòng)出擊,利用先進(jìn)的技術(shù)從源頭上拒絕垃圾短信的發(fā)送。

        2 面臨的挑戰(zhàn)

        2.1 垃圾短信發(fā)送成本低,社會(huì)影響大

        中獎(jiǎng)詐騙類、政治違法類、涉黃涉黑類、病毒誘導(dǎo)類、商業(yè)廣告類等違規(guī)短信層出不窮,垃圾短信數(shù)量居高不下,中國移動(dòng)通信集團(tuán)有限公司(以下簡稱中國移動(dòng))年均處理疑似垃圾短信高達(dá)3億余條。

        垃圾短信不僅給手機(jī)用戶造成了不可避免的騷擾,更對(duì)社會(huì)造成了不良的影響,主要體現(xiàn)在以下幾個(gè)方面。

        ● 利用短信進(jìn)行勒索、詐騙的違法犯罪活動(dòng)日漸猖獗(如以中獎(jiǎng)、敲詐等方式出現(xiàn))。

        ● 少數(shù)不法分子利用短信傳播黃色信息,毒化社會(huì)風(fēng)氣。

        ● 短信營銷泛濫,某些商家企圖通過短信傳銷商品,給用戶帶來一定的騷擾。

        ● 不法分子通過短信中嵌入的惡意鏈接,誘導(dǎo)用戶點(diǎn)擊,遠(yuǎn)程操控用戶手機(jī),竊取用戶隱私。

        2.2 現(xiàn)有治理平臺(tái)識(shí)別效率不足

        2012年以來,中國移動(dòng)持續(xù)開展不良信息集中治理工作,依托不良信息集中管控平臺(tái),對(duì)監(jiān)測發(fā)現(xiàn)的不良信息進(jìn)行處理。但是監(jiān)測策略準(zhǔn)確率存在瓶頸,導(dǎo)致整個(gè)系統(tǒng)的有效識(shí)別率仍然存在不足。另外,傳統(tǒng)的分類模式不能及時(shí)、準(zhǔn)確地對(duì)垃圾短信進(jìn)行分類,影響后續(xù)關(guān)鍵詞的生產(chǎn)以及策略的精細(xì)化管理工作。隨著垃圾短信的日益增長,管控平臺(tái)存在較長的處理時(shí)延。

        要解決上述問題,就必須考慮在現(xiàn)有平臺(tái)中接入新的自動(dòng)識(shí)別系統(tǒng),對(duì)管控平臺(tái)監(jiān)測發(fā)現(xiàn)的疑似垃圾短信進(jìn)行自動(dòng)識(shí)別,提高垃圾短信治理效率。同時(shí)不斷訓(xùn)練擴(kuò)充新的關(guān)鍵詞庫,提高識(shí)別的有效性。

        3 存在的問題及解決思路

        隨著大數(shù)據(jù)技術(shù)和人工智能技術(shù)的日趨成熟,短文本識(shí)別技術(shù)在機(jī)器翻譯、網(wǎng)頁查重等方面均有廣泛的應(yīng)用。一些互聯(lián)網(wǎng)安全公司也開發(fā)了“手機(jī)安全衛(wèi)士”等產(chǎn)品,應(yīng)用貝葉斯學(xué)習(xí)(Bayesian learning)、支持向量機(jī)(support vector machine,SVM))[1,2]等機(jī)器學(xué)習(xí)算法識(shí)別垃圾短信,并在用戶終端側(cè)進(jìn)行攔截和提醒。此外,Google公司提出的指紋算法①[3]將長文本轉(zhuǎn)化為64位的散列碼進(jìn)行計(jì)算、比對(duì)。但由于短信的特殊性,仍存在以下問題。

        ● 表示稀疏問題:單條短信內(nèi)容短小,傳統(tǒng)的詞袋(bag of words,BOW)模型[4]無法獲取足夠的特征信息用來區(qū)分垃圾短信和非垃圾短信。

        ● 數(shù)據(jù)噪音問題:存在大量的非正規(guī)語言的使用現(xiàn)象,傳統(tǒng)的基于詞匯的文檔表示模型無法處理該問題。

        ● 動(dòng)態(tài)演化問題:短信內(nèi)容和語言使用隨時(shí)間高速演化,固定的特征集合和分類模型無法應(yīng)對(duì)該問題。

        針對(duì)算法識(shí)別的問題,中國移動(dòng)創(chuàng)新提出“指紋+語義”交叉融合算法模型。Simhash算法是一種經(jīng)典的模糊匹配算法,通過匹配指紋編碼實(shí)現(xiàn)分類,適合識(shí)別常見的群發(fā)類垃圾短信,精準(zhǔn)性強(qiáng);語義識(shí)別算法通過學(xué)習(xí)語料特征,能夠“舉一反三”,適合發(fā)現(xiàn)、識(shí)別新的樣本,擴(kuò)展性強(qiáng)。兩種大數(shù)據(jù)識(shí)別技術(shù)互補(bǔ),交叉融合可實(shí)現(xiàn)自動(dòng)識(shí)別率的提升,具體如下。

        (1)準(zhǔn)確率的提升

        引入大數(shù)據(jù)技術(shù)后,需實(shí)時(shí)對(duì)違規(guī)號(hào)碼進(jìn)行關(guān)停,這對(duì)大數(shù)據(jù)識(shí)別算法來說,準(zhǔn)確率要求極高。通過對(duì)指紋庫進(jìn)行多庫分解、引入動(dòng)態(tài)數(shù)據(jù)庫等機(jī)制,識(shí)別準(zhǔn)確率高達(dá)99.8%,實(shí)現(xiàn)技術(shù)應(yīng)用。

        (2)大數(shù)據(jù)的實(shí)時(shí)處理

        由于大數(shù)據(jù)識(shí)別算法需要存儲(chǔ)大量的歷史知識(shí),為實(shí)現(xiàn)對(duì)疑似垃圾短信的實(shí)時(shí)處理,系統(tǒng)采用分布式多機(jī)多核系統(tǒng)架構(gòu),通過Kafka技術(shù),有效打破了固有指紋算法的性能瓶頸。

        4 系統(tǒng)解決方案

        4.1 整體架構(gòu)

        基于Simhash算法,結(jié)合應(yīng)用場景和線上持續(xù)運(yùn)營要求,完善系統(tǒng)功能設(shè)計(jì),滿足以指紋識(shí)別算法為核心算法的線上識(shí)別功能和運(yùn)營功能。系統(tǒng)整體架構(gòu)如圖1所示。

        圖1 系統(tǒng)整體架構(gòu)

        該系統(tǒng)具有以下幾個(gè)特點(diǎn)。

        ● 應(yīng)用創(chuàng)新指紋算法對(duì)待識(shí)別短信進(jìn)行處理;核心算法可擴(kuò)展,支持引入新算法交叉融合識(shí)別。

        ● 在基礎(chǔ)運(yùn)營功能的基礎(chǔ)上,打造稽核質(zhì)檢、投訴回溯核查等針對(duì)指紋算法特點(diǎn)研發(fā)出的持續(xù)運(yùn)營功能。

        ● 采用金庫管理模式,對(duì)數(shù)據(jù)安全進(jìn)行雙重保障。

        ● 采用分布式多機(jī)多核系統(tǒng)架構(gòu),通過Kafka實(shí)現(xiàn)內(nèi)部服務(wù)之間的通信,有效保障了現(xiàn)網(wǎng)的實(shí)時(shí)運(yùn)行需求。

        系統(tǒng)架構(gòu)主要采用分布式多機(jī)多核的方案,通過將系統(tǒng)模塊服務(wù)化,完成系統(tǒng)模塊間的解耦,進(jìn)一步提高了系統(tǒng)算法的擴(kuò)展能力。分布式多機(jī)多核具有速率高、性能穩(wěn)定的優(yōu)點(diǎn)。

        4.2 工作流程

        在垃圾短信集中管控平臺(tái)中,引入垃圾短信大數(shù)據(jù)自動(dòng)化識(shí)別系統(tǒng),用以提升垃圾短信識(shí)別率。具體的垃圾短信大數(shù)據(jù)識(shí)別應(yīng)用方案如圖2所示。

        圖2 垃圾短信大數(shù)據(jù)識(shí)別應(yīng)用方案

        大數(shù)據(jù)自動(dòng)化識(shí)別系統(tǒng)工作流程如下。

        ● 建立垃圾短信大數(shù)據(jù)自動(dòng)識(shí)別系統(tǒng),利用前期積累的海量短信樣本對(duì)數(shù)據(jù)庫進(jìn)行初始化。

        ● 將系統(tǒng)與現(xiàn)有垃圾短信治理模塊對(duì)接,接收監(jiān)測模塊發(fā)來的全量疑似垃圾短信,并進(jìn)行自動(dòng)識(shí)別。

        ● 得到識(shí)別結(jié)果的垃圾短信,直接送至處置模塊實(shí)時(shí)處置;未識(shí)別的短信按照原有流程進(jìn)行處理。

        4.3 關(guān)鍵技術(shù)

        結(jié)合技術(shù)應(yīng)用場景和短信文本短的特點(diǎn),考慮到中國移動(dòng)線上治理的極高準(zhǔn)確性要求,團(tuán)隊(duì)研發(fā)出具有自主知識(shí)產(chǎn)權(quán)的指紋識(shí)別算法。

        短信文本通過文本預(yù)處理完成噪聲的處理。文本預(yù)處理主要包括簡繁轉(zhuǎn)換、大小寫歸一化、半角全角歸一化以及拼音轉(zhuǎn)文本等;利用自研的分詞算法對(duì)文本進(jìn)行切分,然后使用CityHash算法實(shí)現(xiàn)分詞文本到指紋的轉(zhuǎn)換,最后再利用FNV-1算法對(duì)散列指紋進(jìn)行再散列,以減少指紋沖突。基于生成的指紋,創(chuàng)新提出針對(duì)指紋的動(dòng)態(tài)數(shù)據(jù)庫、基于多指紋庫識(shí)別、漢明距離動(dòng)態(tài)調(diào)優(yōu)等技術(shù)。

        (1)動(dòng)態(tài)數(shù)據(jù)庫機(jī)制

        如圖3所示,在入庫方面,為指紋算法設(shè)計(jì)二次入庫技術(shù),降低訓(xùn)練數(shù)據(jù)中誤判造成的影響;在出庫方面,動(dòng)態(tài)剔除入庫早、不常使用的指紋,解決指紋庫膨脹的問題,保障指紋庫的容量可持續(xù)高效運(yùn)營,并進(jìn)一步提升算法識(shí)別準(zhǔn)確率。

        圖3 指紋庫動(dòng)態(tài)維護(hù)機(jī)制

        (2)多數(shù)據(jù)庫指紋存儲(chǔ)機(jī)制

        系統(tǒng)搭建多指紋庫,根據(jù)處置方式不同,分為正常短信指紋庫、違法詐騙短信指紋庫、商業(yè)廣告指紋庫,并對(duì)后兩者采用更為嚴(yán)格的校驗(yàn)入庫機(jī)制和優(yōu)先級(jí)更高的識(shí)別反饋機(jī)制。同時(shí),根據(jù)考察各指紋庫相互沖突的指紋,實(shí)現(xiàn)對(duì)數(shù)據(jù)庫的進(jìn)一步去噪,降低算法誤識(shí)別比例。

        (3)漢明距離動(dòng)態(tài)調(diào)優(yōu)

        作為算法的核心參數(shù),漢明距離表征不同文本之間的相似程度,即漢明距離越大,文本相似程度越低;反之,該距離越小,文本內(nèi)容則越接近。算法前期通過調(diào)優(yōu)測試明確初始漢明距離,在后續(xù)持續(xù)運(yùn)營時(shí),根據(jù)實(shí)時(shí)的自動(dòng)識(shí)別率和識(shí)別準(zhǔn)確率,動(dòng)態(tài)實(shí)現(xiàn)漢明距離的調(diào)優(yōu)。

        5 應(yīng)用效果

        垃圾短信大數(shù)據(jù)自動(dòng)識(shí)別系統(tǒng)于2017年1月在中國移動(dòng)全網(wǎng)上線,覆蓋31省。截至目前,累計(jì)接收垃圾短信系統(tǒng)全量疑似垃圾短信1.1億余條,自動(dòng)識(shí)別處理4300萬條,自動(dòng)識(shí)別率達(dá)40.1%,識(shí)別準(zhǔn)確率達(dá)99.8%。系統(tǒng)處理速率達(dá)14000條/s,垃圾短信自動(dòng)判定平均處理時(shí)長僅為0.07 ms。上線以來,系統(tǒng)運(yùn)行情況良好。

        由于垃圾短信自動(dòng)判定平均處理時(shí)長僅為0.07 ms,違規(guī)號(hào)碼的關(guān)停及時(shí)性大大提高,月均可減少不法分子發(fā)送的垃圾短信約8500萬條,有效地保障了廣大用戶的通信權(quán)益。

        上線以來,垃圾短信治理效率大幅提升,通過系統(tǒng)的應(yīng)用,垃圾短信治理團(tuán)隊(duì)有效降低133人,每年可節(jié)約人力成本1452萬元。

        參考文獻(xiàn):

        [1]王斌, 潘文鋒. 基于內(nèi)容的垃圾郵件過濾技術(shù)綜述[J]. 中文信息學(xué)報(bào), 2005, 19(5): 1-10.WANG B, PAN W F. A survey of contentbased anti-spam Email filtering[J]. Journal of Chinese Information Processing, 2005,19(5): 1-10.

        [2]ANDROUTSOPOULOS I, KOUTSIAS J,CHANDRINOS K V, et al. An evaluation of naive Bayesian anti-spam filtering[J].Tetsu-to-Hagane, 2000(2): 9-17.

        [3]HO P T, KIM H S, KIM S R. Application of sim-hash algorithm and big data analysis in spam email detection system[C]//The 2014 Conference on Research in Adaptive and Convergent Systems, October 5-8,2014, Towson, USA. New York: ACM Press, 2014: 242-246.

        [4]SRIRAM B, FUHRY D, DEMIR E, et al. Short text classification in twitter to improve information filtering[C]// The 33rd International ACM SIGIR Conference on Research and Development in Information Retrieval, July 19-23, 2010,Geneva, Switzerland. New York: ACM Press,2010: 841-842.

        猜你喜歡
        漢明自動(dòng)識(shí)別短信
        道歉短信
        自動(dòng)識(shí)別系統(tǒng)
        特別健康(2018年3期)2018-07-04 00:40:18
        代發(fā)短信
        金屬垃圾自動(dòng)識(shí)別回收箱
        媳婦管錢
        基于IEC61850的配網(wǎng)終端自動(dòng)識(shí)別技術(shù)
        電測與儀表(2016年6期)2016-04-11 12:06:38
        中年研究
        漢明距離矩陣的研究
        蘭姆凹陷穩(wěn)頻工作點(diǎn)自動(dòng)識(shí)別技術(shù)
        “八一”節(jié)日短信之一
        国产哟交泬泬视频在线播放| 少妇做爰免费视频了| 久久精品国产久精国产| 97色伦图片97综合影院久久 | 青青草高中生在线视频| 久久人妻少妇嫩草av无码专区| 极品粉嫩嫩模大尺度无码| 亚洲国产精品久久久久婷婷软件| 亚洲一区二区三区成人网| 国产亚洲成av人片在线观看| 亚洲国产综合精品 在线 一区| 日韩精品久久久中文字幕人妻| 精品国产女主播一区在线观看| 97久久国产亚洲精品超碰热| 久无码久无码av无码| 免费一级a毛片在线播出| 一本色道久久88加勒比—综合| 日本a片大尺度高潮无码| 人人妻人人澡人人爽人人精品| www.91久久| 人妻在线有码中文字幕| 国产免费爽爽视频在线观看| 最近中文av字幕在线中文| 日韩美女av二区三区四区| 偷拍一区二区盗摄视频| 亚洲av无码一区二区三区不卡| 国产爆乳乱码女大生Av| 久久综合加勒比东京热| 亚洲熟女精品中文字幕| 欧美mv日韩mv国产网站 | 99久久综合狠狠综合久久| 中文字幕乱码av在线| 一本色道久久亚洲加勒比| 日本乱偷人妻中文字幕在线| 亚洲自拍愉拍| 强迫人妻hd中文字幕| 激情伊人五月天久久综合| 在线观看欧美精品| 激情视频国产在线观看| 日本高清在线一区二区三区 | 中国极品少妇videossexhd|