王 琳,張秀芳,趙占純(.中國聯(lián)通河北分公司,河北石家莊0500;.中訊郵電咨詢設(shè)計院有限公司,北京00048)
隨著各大運營商對垃圾短信治理力度的加大,垃圾短信投放者為了躲避監(jiān)控和攔截,垃圾短信的投放方式和投放內(nèi)容也在不斷改進,導(dǎo)致垃圾短信系統(tǒng)的攔截效果越來越差,普通垃圾短信監(jiān)控策略已不能適應(yīng)垃圾短信的快速變化。垃圾短信內(nèi)容的多變和趨常,已導(dǎo)致大量正常短信被誤攔截,給用戶的使用帶來不便的同時增加了短信的投訴量,對運營商的品牌形象造成了惡劣影響。
為了保證用戶正常短信業(yè)務(wù)的使用,更精確地識別處理日益頻繁、不斷變異的垃圾短信,對現(xiàn)有垃圾短信平臺進行優(yōu)化,增加基于“短信自動審核技術(shù)”“垃圾短信攔截策略滾動循環(huán)機制”等成熟的短信綜合特征技術(shù)的智能分析模塊,細(xì)化垃圾短信的監(jiān)控識別,輔以人工仲裁,實現(xiàn)誤攔截短信及時甄別和放通,有效改善用戶短信業(yè)務(wù)體驗。
短信綜合特征識別技術(shù)的垃圾短信二次放通策略主要包括以下創(chuàng)新。
a)智能分析功能。
b)灰名單監(jiān)控功能。
c)人工仲裁。
針對垃圾短息投放方式及內(nèi)容的不斷變化,智能分析模塊利用當(dāng)前領(lǐng)先的短信綜合特征技術(shù),通過“歷史短信樣本綜合特征”快速匹配方案、短息相似內(nèi)容聚類、新策略智能生成等方式,不斷自動循環(huán)生成新的攔截策略,以應(yīng)對不斷變異的垃圾短信。
1.1.1 實現(xiàn)思路
本功能整體實現(xiàn)由2 部分組成:一是利用當(dāng)前已有的攔截策略對現(xiàn)網(wǎng)垃圾短信進行攔截;二是利用已攔截的垃圾短信,通過分析其發(fā)送內(nèi)容及方式的變化,生成新的攔截策略。通過這種智能化的循環(huán)可以及時有效地對垃圾短信進行動態(tài)攔截。
1.1.2 智能分析功能實現(xiàn)
1.1.2.1 垃圾短信內(nèi)容自動審核
為了更精準(zhǔn)地對垃圾短信進行識別,河北聯(lián)通創(chuàng)新地提出了一種基于“歷史短信樣本綜合特征”的快速自動匹配方案。在第一時間對疑似垃圾短信進行精準(zhǔn)分類識別。
a)垃圾短信語義分析,算法分類。
(a)干擾字符剔除(如ξ、μ、ю、換行等),還原真實內(nèi)容。
(b)變種字符轉(zhuǎn)換(如:①39O1234567,將①轉(zhuǎn)換為1、O轉(zhuǎn)換為數(shù)字0等)。
(c)短信分詞,按分詞庫提取分詞(剔除白關(guān)鍵詞),分詞庫可管理、維護。
(d)變種關(guān)鍵字詞還原(如:發(fā)瞟→發(fā)票、車侖→輪、現(xiàn)網(wǎng)→現(xiàn)網(wǎng))。
(e)分詞結(jié)果積分計算,每分詞對應(yīng)不同短信類型的積分不同,分詞及其積分值,可維護、調(diào)整。根據(jù)算法公式計算得出單條短信的所屬類型。
b)相似短信排重。
(a)使用HASH 算法(散列值),對短信內(nèi)容完全相同的數(shù)據(jù)進行排重。
(b)剔除干擾字符、還原變種關(guān)鍵字和廣告主、剔除感嘆詞及助詞等無意義內(nèi)容后,剩余內(nèi)容完全相同的短信進行相似短信排重。
(c)根據(jù)短信分詞結(jié)果,按分詞聚類系數(shù)(有×%黑關(guān)鍵字詞(及其同義詞)相同,可調(diào)整),對短信內(nèi)容高度相似的數(shù)據(jù)進行聚類。
c)自動匹配審核。
(a)提取垃圾短信“綜合特征”關(guān)鍵字、提取“黑關(guān)鍵字詞”。
(b)依據(jù)歷史短信樣本池數(shù)據(jù)進行自動匹配審核,歷史池通過人工二次補審不斷補充積累。
(c)匹配條件:垃圾短信“綜合特征”關(guān)鍵字相同、提取的“黑關(guān)鍵字詞”(0~20 個字詞,可設(shè)置調(diào)整)相同。
1.1.2.2 垃圾短信相似內(nèi)容聚類
垃圾短信群發(fā)商在進行短信群發(fā)時,經(jīng)常修改短信內(nèi)容中的個別關(guān)鍵字詞、新增關(guān)鍵字詞變種,怎樣快速識別相似短信,提取共性特征是“短信相似聚類”的一個重要目的。
a)按內(nèi)容聚類:剔除“干擾字符”“還原變種關(guān)鍵字和廣告主”,剔除“感嘆詞”及“助詞”等“無意義關(guān)鍵字詞”或“白關(guān)鍵字詞”內(nèi)容后,對剩余內(nèi)容完全相同的短信進行相似短信排重。
b)按關(guān)鍵字詞聚類:根據(jù)短信分詞結(jié)果,按分詞聚類系數(shù)(有×%的黑關(guān)鍵字詞相同,可調(diào)整),對短信內(nèi)容高度相似的數(shù)據(jù)進行聚類。
1.1.2.3 新策略智能生成
除現(xiàn)有策略優(yōu)化外,新增策略也是以往策略維護工作中的難題,人工對7 個AND+7 個OR 的策略進行提取是一件非常復(fù)雜繁瑣的工作,“垃圾短信監(jiān)控策略生成模塊”簡而言之是為了將垃圾短信中提取出來的中文關(guān)鍵詞作為攔截關(guān)鍵詞而服務(wù)的,攔截系統(tǒng)可以利用此項技術(shù)來不斷更新需要攔截的關(guān)鍵字策略組合。
a)提取的關(guān)鍵字可以是變種或非變種的組合。
b)提取垃圾短信中包含的“廣告主號碼”,并對廣告主號碼進行自動分類(如廣告類、詐騙類、涉黃類等)。
c)中文關(guān)鍵字(短信分詞)是循環(huán)自動提取的,通過對現(xiàn)有一定數(shù)量的已審核垃圾短信和正常短信樣本進行分析,最后自動抽取出新的中文關(guān)鍵字詞。
此功能支持對部分灰名單用戶的攔截閾值單獨配置。通過對不同灰名單用戶垃圾短信發(fā)送情況的分析,設(shè)置不同的監(jiān)控閾值可以更加有效地起到垃圾短信攔截作用。
1.2.1 實現(xiàn)思路
由于需要對灰名單進行分組,不同分組的灰名單可以配置不同的監(jiān)控閾值。所以采用對號碼進行用戶分群的方式實現(xiàn)。利用現(xiàn)有垃圾短信監(jiān)控系統(tǒng)的用戶群功能。
1.2.2 用戶群管理
支持對用戶群的手工管理,包括添加、刪除、修改用戶群。用戶群的名稱可以自定義。在“用戶群管理”頁面上,可以創(chuàng)建多個不同的灰名單群。最多可以創(chuàng)建10個用戶群。
1.2.3 用戶群名單管理
支持為每個用戶群添加自己的名單,可支持添加、刪除、修改、導(dǎo)入、導(dǎo)出功能。在“用戶群名單管理”頁面上,將不同的灰名單添加到相應(yīng)的灰名單用戶群中。
1.2.4 用戶群監(jiān)控策略配置和監(jiān)控
配置好用戶群之后,可以在監(jiān)控策略配置功能中,增加為每個用戶群配置屬于自己的監(jiān)控策略,可以支持所有監(jiān)控模型。每個用戶群的策略,都可以設(shè)置自己的監(jiān)控閾值和時間片。監(jiān)控規(guī)則如下:
a)如果一個用戶屬于某個用戶群,并且系統(tǒng)為這個用戶群配置了監(jiān)控策略,那么這個用戶只受該用戶群下的監(jiān)控策略的約束;不會去匹配其他用戶群或者一般號碼的監(jiān)控策略。
b)如果一個用戶不屬于任何用戶群,則其匹配屬于一般號碼的監(jiān)控策略。
c)如果一個用戶屬于某個用戶群,但是并沒有為這個用戶群配置任意的監(jiān)控策略,則該用戶匹配一般號碼的監(jiān)控策略。
在智能分析的基礎(chǔ)上,此功能可以實現(xiàn)對疑似垃圾短信和加黑號碼的人工仲裁功能,一方面及時從嫌疑名單中發(fā)現(xiàn)真正的垃圾短信發(fā)送者,另一方面能將誤抓的黑名單號碼及時解黑,有效的保證用戶短信業(yè)務(wù)的使用。
1.3.1 實現(xiàn)思路
從以下幾點考慮,將人工仲裁功能集成在現(xiàn)有垃圾短信監(jiān)控系統(tǒng)中。
a)減少投資:如果將人工仲裁單獨設(shè)置為一套獨立的系統(tǒng),則需要增加單獨的硬件資源,增大了投資。
b)統(tǒng)一管理,統(tǒng)一登錄:如果是2套不同的系統(tǒng),那么管理人員需要同時對2套系統(tǒng)進行管理,并且,對于部分系統(tǒng)用戶,還會在同一時間登錄2 套不同的系統(tǒng)。
c)仲裁實時性:如果是獨立的仲裁系統(tǒng),那么與現(xiàn)有垃圾短信監(jiān)控系統(tǒng)中采用接口關(guān)聯(lián)。垃圾短信監(jiān)控系統(tǒng)在監(jiān)控出疑似垃圾短信后,先將它們生成到一個文件中,然后上傳到中間服務(wù)器上;人工仲裁系統(tǒng)需要從中間服務(wù)器上去下載文件,然后解析文件,存儲到自身系統(tǒng)中,最后才推送到管理頁面進行人工仲裁。在這個過程中,至少會有5~10 min以上的延遲。
1.3.2 人工仲裁用戶管理
執(zhí)行人工仲裁的用戶,也即是客服人員,他們的用戶名以及系統(tǒng)使用權(quán)限都集成到現(xiàn)有垃圾短信監(jiān)控系統(tǒng)中,由垃圾短信監(jiān)控系統(tǒng)的管理用戶進行管理。
可以僅僅為這些人工仲裁的用戶分配人工仲裁相關(guān)的權(quán)限,現(xiàn)有垃圾短信監(jiān)控系統(tǒng)中的其他頁面和功能他們都看不到。
1.3.3 人工仲裁實現(xiàn)
系統(tǒng)提供人工仲裁功能,按照短信內(nèi)容對疑似垃圾短信進行審核,并展現(xiàn)每條短信的主叫號碼和短信內(nèi)容。仲裁的動作包括加黑、解黑。
a)任務(wù)分流。支持多人同時審核,系統(tǒng)自動將待審核的消息按照賬戶進行分流。每個在線的仲裁用戶都可以獲取到一份獨立的待仲裁數(shù)據(jù),每條消息在同一時間只會被一個用戶取到。一批數(shù)據(jù)的仲裁時間為300 s,如果超過300 s,則這些數(shù)據(jù)自動回到數(shù)據(jù)庫中,待下次或者其他審核人員獲取。每個仲裁人員每次獲取的待審核消息量可以配置。
b)仲裁數(shù)據(jù)源選擇。待仲裁數(shù)據(jù)源可以選擇以下3種類型。
黑名單:因為觸發(fā)了監(jiān)控系統(tǒng)中的“加黑”策略而被添加為黑名單的垃圾短信。
嫌疑名單:因為觸發(fā)了監(jiān)控系統(tǒng)中的“加嫌疑”策略而被添加為嫌疑名單的垃圾短信。
黑嫌疑名單:包括黑名單和嫌疑名單。
c)人工仲裁結(jié)果查詢。
系統(tǒng)提供人工仲裁結(jié)果查詢頁面,可以查詢經(jīng)過人工仲裁后的短消息詳細(xì)數(shù)據(jù)。包括審核人員、審核時間、審核結(jié)果等。
當(dāng)用戶從黑名單中解放出來的時候,二次放通策略功能可以將被誤攔短信重新下發(fā),保證正常短信的收發(fā)及正常資費的開展。
在垃圾短信監(jiān)控系統(tǒng)中,存在部分被誤攔截的數(shù)據(jù)。對于這部分?jǐn)?shù)據(jù),需要經(jīng)過二次放通(人工審核后重新下發(fā))功能來實現(xiàn)。該功能在垃圾短信監(jiān)控系統(tǒng)中,單獨采用一個頁面實現(xiàn)。該功能需要短信中心配合完成。
圖1示出的是二次放通實現(xiàn)思路。
圖1 二次放通實現(xiàn)思路
a)數(shù)據(jù)來源。用于二次放通的數(shù)據(jù)來源為:在垃圾短信監(jiān)控系統(tǒng)中,被監(jiān)控策略攔截、被黑名單攔截的短消息記錄。由于現(xiàn)有垃圾短信監(jiān)控系統(tǒng)中的攔截表數(shù)據(jù)巨大,而二次放通功能只會用到2~3天的數(shù)據(jù),所以本文提出的實現(xiàn)方式為:單獨新增一個新的攔截信息表,將攔截消息拷貝一份存放在該表中,該表的最大存儲時間為3天(短信最大有效期為3天)。二次放通功能使用新攔截表中的數(shù)據(jù)。
b)誤攔截短信識別。提供專門的“短信特征識別”模塊,該模塊根據(jù)從垃圾短信攔截模塊獲取到的攔截信息進行一系列算法比對,識別出誤攔截的短信內(nèi)容同時送給二次放通模塊進行處理。
c)誤攔截短信提交。二次放通模塊收到特征識別模塊送來的消息后,根據(jù)原始主被叫號碼、提交時間、短信內(nèi)容等信息自動構(gòu)造一條短信并通過和短信中心的接口提交給短信中心。
d)短信下發(fā)。短信中心收到從垃圾短信平臺接口送來的消息后,對本消息不再進行垃圾短信鑒權(quán),采取直接下發(fā)策略,下發(fā)流程與正常短信下發(fā)流程完全一樣。
e)放通結(jié)果處理。當(dāng)一條攔截消息被成功地下發(fā)到短信中心后,會在攔截表中去設(shè)置標(biāo)識,表示該條攔截消息已經(jīng)被二次放通過,避免下次再次查詢時,查詢到相同數(shù)據(jù)并且重復(fù)放通。
系統(tǒng)認(rèn)為只要成功將短消息發(fā)送給短信中心,即認(rèn)為該條短信二次放通成功,不管短信中心是否成功地將該短信發(fā)送給被叫號碼。
垃圾短信監(jiān)控系統(tǒng)在進行短信二次下發(fā)時,需要與短信中心之間建立連接,以便將這些需要放通的短信提交給短信中心,讓短信中心將這些短消息發(fā)送給被叫號碼。
2.3.1 接口實現(xiàn)
垃圾短信監(jiān)控系統(tǒng)與短信中心間的接口采用SMPP 協(xié)議,用該協(xié)議中的Bind_Transmitter 和Sub?mit_SM消息完成。
這些二次放通的消息如果回到垃圾短信監(jiān)控平臺,可能會被再次攔截掉,因此,垃圾短信監(jiān)控系統(tǒng)在提交二次放通短信給短信中心后,短信中心不能將這些消息再次轉(zhuǎn)發(fā)給垃圾短信系統(tǒng)。
2.3.2 接口流量控制
為了避免同一時間發(fā)送給短信中心的二次放通短信量過大,給短信中心帶來風(fēng)險和影響,垃圾短信監(jiān)控系統(tǒng)在發(fā)送二次放通短信時,需要做流量控制。
流量控制機制主要有以下2個。
a)一批二次放通的最大條數(shù)為1 000條。b)發(fā)往短信中心的速度為10~500條/s。這樣,可以對短信中心的入口進行保護,避免大流量的短信對短信中心造成沖擊。
另外,短信中心自身也有License 流量控制功能,從2個方面保證不會對短信中心造成影響。
2.3.3 短信中心路由配置
由于要求短信中心在收到垃圾短信監(jiān)控平臺提交的短信后,不能再將這些二次放通的消息轉(zhuǎn)發(fā)給垃圾短信監(jiān)控系統(tǒng)進行鑒權(quán)。所以,短信中心需要做相應(yīng)的配置,根據(jù)垃圾短信監(jiān)控平臺登錄的賬號配置是否需要發(fā)送給SMMC(進行短信鑒權(quán))。
按日、月統(tǒng)計一段時間內(nèi)的放通條數(shù)、攔截總量以及放通率(見表1)。放通率以百分比的形式體現(xiàn),精確到小數(shù)點后2位數(shù)。
表1 二次放通統(tǒng)計表
由于本次二次放通功能是將之前已經(jīng)被攔截的短消息再次下發(fā),所以,就存在最終用戶體驗的變化。比如,在現(xiàn)網(wǎng)短信中心上配置了如果某條短信被攔截之后,應(yīng)答主叫號碼的發(fā)送結(jié)果為發(fā)送失敗,則第一次被攔截后,主叫號碼收到的是發(fā)送失敗的應(yīng)答結(jié)果;然后,當(dāng)客服人員審核后進行二次放通,這時之前被攔截的短消息又發(fā)送成功了,被叫號碼收到了這條短信。
河北聯(lián)通局點垃圾短信二次放通項目的開展,始于2012 年10 月,2013 年2 月完成了功能模塊的開發(fā),經(jīng)驗收合格后投入上線運營。該項目中基于垃圾短信智能語義分析的二次放通技術(shù)為國內(nèi)首創(chuàng),期間針對河北省垃圾短信監(jiān)控數(shù)據(jù)建立了垃圾短信典型樣本庫,通過對樣本數(shù)據(jù)的分析研究,通過規(guī)避傳統(tǒng)關(guān)鍵字監(jiān)控策略的方式,重點分析垃圾短信內(nèi)容中的綜合特征,將其作為垃圾短信的核心判斷條件,創(chuàng)造性地實現(xiàn)了“垃圾短信自動審核技術(shù)”“垃圾短信攔截策略滾動循環(huán)機制”“策略有效性評估機制”等垃圾短信精細(xì)化治理應(yīng)用模型,大幅降低了垃圾短信漏攔、誤攔率;同時基于智能分析和人工輔助,誤攔截短信實時二次放通技術(shù)的實現(xiàn),不僅改善了短信業(yè)務(wù)體驗,也直接帶來了短信收入的提升,2013年增收100多萬元,取得了良好的社會效益和經(jīng)濟價值。
本文僅是從幾個基礎(chǔ)的方面討論了該技術(shù)的原理和應(yīng)用,事實上,垃圾短信投放者為了躲避監(jiān)控和攔截,對垃圾短信的投放方式和投放內(nèi)容也在進行不斷的變化和改進,垃圾短信的攔截,還有很長的路要走,需要理論與技術(shù)的不斷創(chuàng)新。
[1] 吳世競.垃圾短信過濾系統(tǒng)的設(shè)計與實現(xiàn)[D].北京:北京郵電大學(xué),2012.
[2] 劉金嶺.基于語義信息的中文短信文本相似度研究[J].計算機工程學(xué)報,2012,38(13).
[3] 劉化君. 計算機網(wǎng)絡(luò)原理與技術(shù)[M]. 北京:電子工業(yè)出版社,2005.
[4] Randal E.Bryant.深入理解計算機系統(tǒng)[M].北京:機械工業(yè)出版社,2011.
[5] 中國聯(lián)合通信公司短消息網(wǎng)關(guān)系統(tǒng)接口協(xié)議[S].北京:中國聯(lián)合通信公司,2001.
[6] 楊杰.基于智能客戶端的短信平臺的設(shè)計與開發(fā)[J].微計算機信息,2008(3).
[7] 周學(xué)泳.短信息(SMS)與WAP開發(fā)與應(yīng)用[M].北京:電子工業(yè)出版社,2000.
[8] 潘旭兵,林中.短信收發(fā)系統(tǒng)[J].電腦編程技巧與維護,2007(5).
[9] 王峰,林建輝.GSM短信平臺的設(shè)計[J].中國測試技術(shù),2005,31(3).
[10]趙巍,肖璋.短信平臺的設(shè)計與維護[J].計算機工程與設(shè)計,2005(6).
[11]鄭健. 短信平臺在企業(yè)信息化建設(shè)中的應(yīng)用[J]. 電力信息化,2007(5).
[12]蔡月茹,柳西玲.WEB SERVICE基礎(chǔ)教程[M].北京:清華大學(xué)出版社.2005.
[13]谷和啟.中間件技術(shù)及其應(yīng)用[J].當(dāng)代通信,2003(12).
[14]陳軍,段良輝.基于J2EE的通用WEB信息系統(tǒng)框架設(shè)計與實現(xiàn)[J].計算機系統(tǒng)應(yīng)用,2007(1).
[15]王鵬,董群.數(shù)據(jù)庫技術(shù)及其應(yīng)用[M].北京:人民郵電出版社,2001.