中國聯(lián)通研究院 北京 100032
隨著運營商移動數(shù)據(jù)業(yè)務的快速發(fā)展,各種WAP、互聯(lián)網(wǎng)應用增長十分迅速,移動數(shù)據(jù)業(yè)務的增值作用日益提高,并且在未來的移動業(yè)務競爭中逐漸占據(jù)了主導地位。而在數(shù)據(jù)業(yè)務迅猛發(fā)展的同時,數(shù)據(jù)業(yè)務上網(wǎng)記錄查詢也逐漸成為投訴的焦點,用戶對上網(wǎng)記錄的查詢內(nèi)容不僅僅限于簡單的上網(wǎng)流量計費信息,而是要求提供詳細的上網(wǎng)記錄,如訪問的網(wǎng)站地址、訪問時長等。
目前,各運營商基本建立了移動用戶上網(wǎng)記錄查詢與分析的大數(shù)據(jù)平臺,通過在移動通信網(wǎng)中進行用戶上網(wǎng)數(shù)據(jù)的采集、信令和業(yè)務解析、合成,生成全網(wǎng)移動用戶上網(wǎng)流量詳單記錄(Flow Detail Record,F(xiàn)DR),為一線客戶服務人員提供全網(wǎng)移動用戶上網(wǎng)記錄快速查詢服務,解決流量投訴問題。同時,為用戶提供準確實時的上網(wǎng)記錄自助查詢服務。但是,在用戶上網(wǎng)記錄中也存在著很多安全隱患,例如訪問了惡意網(wǎng)站、僵尸網(wǎng)絡、DDoS攻擊等,這些隱患容易造成信息的泄漏和被竊取,從而造成個人隱私的泄露;也容易造成終端中病毒,給用戶帶來了大量的異常流量,從而給用戶造成經(jīng)濟損失等。這些行為在給用戶帶來損失的同時,也給運營商帶來了大量的投訴[1]。
移動用戶上網(wǎng)流量詳單記錄主要包括的字段有手機號碼、位置區(qū)編碼、小區(qū)標識、終端類型、流量類型、開始時間、結(jié)束時間、持續(xù)時長、上行流量、下行流量、總流量、訪問的網(wǎng)絡類型、終端IP、目的IP、狀態(tài)碼、用戶代理(User Agent)、APN、IMSI、SGSN IP、GGSN IP、內(nèi)容類型、源端口、目的端口、網(wǎng)址/特征信息等[2]。
對這些數(shù)據(jù)字段進行分析,可以分成以下四類:一是標記類,例如手機號碼、IMSI、IMEI;二是位置類,例如位置區(qū)號碼、小區(qū)標識;三是IP類,例如GGSN IP、SGSN IP、終端IP、目的IP、源端口、目的端口、流量類型等;四是其它關(guān)鍵字段,例如內(nèi)容類型、上行流量、下行流量、總流量等。
對不同類型的數(shù)據(jù)字段進行組合,可以對FDR建立不同的預期分析目標和結(jié)果,如表1所示。其中,通過對數(shù)據(jù)來源中數(shù)據(jù)字段組合的分析,預期能得出一定的分析結(jié)果,從而發(fā)現(xiàn)潛在的安全威脅,達到數(shù)據(jù)分析的目的。例如,通過對手機號碼、時間和流量的統(tǒng)計分析,能以手機號碼為索引對用戶建立流量基線模型和上下行流量的關(guān)系模型,并找到流量排名前幾位的用戶;根據(jù)模型對用戶的流量進行監(jiān)控,從而發(fā)現(xiàn)用戶的異常流量或潛在的惡意吸費流量。
表1 上網(wǎng)記錄安全分析目標
為了達到流量分析和監(jiān)控的目的,搭建了移動用戶上網(wǎng)記錄安全應用系統(tǒng),系統(tǒng)的部署如圖1所示[3]。
圖1 上網(wǎng)記錄安全應用系統(tǒng)部署圖
上網(wǎng)記錄安全應用系統(tǒng)部署了5臺物理服務器,其中1臺作為Oracle數(shù)據(jù)庫服務器,1臺作為Windows Server 2008系統(tǒng)分析服務器,3臺Hadoop服務器,每臺部署6臺Vmware工作站虛擬機。物理服務器的配置如下文。1)CPU:2×Quad-Core AMD Opteron(tm)(8核);2)內(nèi)存:64GB;3)網(wǎng)卡:2個千兆網(wǎng)卡;4)硬盤:2個2TB,上網(wǎng)記錄安全應用系統(tǒng)的功能架構(gòu)如圖2所示。
原始數(shù)據(jù)記錄為PB級的大數(shù)據(jù),因為計算性能、業(yè)務影響等因素,數(shù)據(jù)分析工作不可能直接在此平臺上進行。因此,此平臺只能是完成分析模型的數(shù)據(jù)取樣等基本任務。獲取的數(shù)據(jù)通過離線方式(約定的文件格式)交付給上網(wǎng)記錄安全應用系統(tǒng)的數(shù)據(jù)預處理引擎。
圖2 上網(wǎng)記錄安全應用系統(tǒng)功能架構(gòu)
數(shù)據(jù)分析小型分式測試驗證平臺為整個系統(tǒng)的數(shù)據(jù)分析的核心,模型數(shù)據(jù)的存儲及各種模型的計算均在此平臺上完成。數(shù)據(jù)預處理引擎完成對數(shù)據(jù)的去重、數(shù)據(jù)的合法性驗證、數(shù)據(jù)的補全等工作,使之符合安全分析模型所要求的數(shù)據(jù)格式。處理完的數(shù)據(jù)保存于分布式測試驗證平臺。數(shù)據(jù)分析引擎完成對安全分析模型的建模、各參數(shù)的設定、分式算法的功能實現(xiàn)等,通過對測試驗證平臺數(shù)據(jù)的分析,輸出分析結(jié)果給分析展示模塊。分析展示模塊完成對原型系統(tǒng)的各參數(shù)的設定、分析結(jié)果的展示等功能[4]。
對采集到的上網(wǎng)記錄進行分析,統(tǒng)計每個IMEI對應的IMSI個數(shù)。對IMEI與IMSI的對應關(guān)系進行分組去重,對統(tǒng)計結(jié)果比較,去除IMEI號與IMSI號對應關(guān)系為1的情況,輸出每個IMEI與之關(guān)聯(lián)的所有IMSI的個數(shù)。
移動用戶上網(wǎng)記錄安全應用系統(tǒng)對采集到的某一個時間段的數(shù)據(jù)進行統(tǒng)計和分析,從結(jié)果來看,某個IMEI與之關(guān)聯(lián)的所有IMSI的個數(shù)最高達到了六千多。
其中,由于焊機的參數(shù)眾多,為了避免操作人員對名稱相近參數(shù)產(chǎn)生混淆,在每個參數(shù)輸入?yún)^(qū)域的旁邊,以小字體形式加注詳細的解釋。
IMEI與IMSI存在多個對應關(guān)系,主要有以下幾種可能。1)正常的雙卡雙待手機,每個IMEI對應2個IMSI;2)SIM卡損壞或手機丟失,補辦SIM卡,每個IMEI對應2個IMSI;3)山寨機盜用IMEI號,山寨手機盜用了正常入網(wǎng)的手機的IMEI號;4)垃圾廣告發(fā)布者,頻繁更換手機號。
上述四種情況中,前兩種屬于正常情況;第三種可能存在安全隱患,由于山寨手機未經(jīng)過工信部的入網(wǎng)檢測,可能存在惡意程序或操作系統(tǒng)存在漏洞等,從而盜用手機流量;第四種情況也屬于惡意情況,運營商應該采取措施進行檢測并攔截。
上網(wǎng)記錄中的位置區(qū)號碼和小區(qū)標識可以標識用戶所處的大致地理位置,通過分析手機號碼某一時間段內(nèi)在地理位置的變動異常,可以查找安全問題。比如,在1分鐘內(nèi)某手機號碼的地理位置變化了100多千米(如圖3所示),這是一種現(xiàn)實生活中不可能出現(xiàn)的情形,以此現(xiàn)象為依據(jù),利用大數(shù)據(jù)分析技術(shù)可進一步分析產(chǎn)生這種現(xiàn)象的原因。
圖3 手機位置異常結(jié)果示意圖
分別以手機號、物理位置、端口號為統(tǒng)計維度,統(tǒng)計一定時間窗口內(nèi)的流量,建立流量基線模型;以流量基線模型為基礎,設定流量閥值,監(jiān)測手機號、物理位置和端口是否存在流量異常。
移動用戶上網(wǎng)記錄安全應用系統(tǒng)根據(jù)該模型,對用戶進行流量監(jiān)控,發(fā)現(xiàn)異常流量。2013年10月12日,發(fā)現(xiàn)某手機用戶10~11時,1小時內(nèi)上行流量超過500M,10~14時內(nèi)累計上行流量超過2.7G。
如圖4所示,除該用戶當月使用的正常流量外(聊天工具以及網(wǎng)頁),該異常事件中,視頻流量約占總異常流量的48.35%、其他手機應用占46.99%、網(wǎng)絡電話占3.12%。
圖4 某用戶異常流量類型
從采集到的移動用戶上網(wǎng)記錄中的UA字段,提取其中的終端型號和操作系統(tǒng)版本號,發(fā)現(xiàn)可能存在的安全漏洞,及時為用戶提供安全補丁等服務,防止產(chǎn)生中毒、吸費等安全事件。移動用戶上網(wǎng)記錄安全應用系統(tǒng)對采集到的某一時間段內(nèi)的上網(wǎng)記錄數(shù)據(jù)進行統(tǒng)計分析,終端操作系統(tǒng)類型的分布如圖5所示。其中,no_data表示系統(tǒng)未能采集到UA字段信息,unknown表示采集到信息,但不能判別是哪種操作系統(tǒng)。
圖5 終端操作系統(tǒng)類型統(tǒng)計
各種類型的操作系統(tǒng)漏洞事件頻發(fā),給用戶帶來了大量的損失,因此,有必要為用戶提供漏洞提示和補丁升級服務等。從用戶上網(wǎng)記錄中的終端類型(iPhone4S、三星S4等)、操作系統(tǒng)類型(ISO5、Android4.2等)、軟件客戶端類型(qqmail、safari等)這三個字段可以對移動用戶的上網(wǎng)安全狀態(tài)進行描述。根據(jù)這三類數(shù)據(jù),運營商能夠自動發(fā)現(xiàn)移動用戶的安全風險,分析其對應的漏洞,向用戶提供解決方案及補丁推送服務,保障用戶的移動終端安全,提高用戶體驗[5]。
通過對移動用戶上網(wǎng)記錄的數(shù)據(jù)進行安全分析,搭建安全應用平臺,建立安全模型進行試驗,我們主要得出以下結(jié)論和經(jīng)驗:1)面對復雜的海量數(shù)據(jù),簡單的算法比復雜的算法更易用,數(shù)據(jù)模型建立和數(shù)據(jù)分析經(jīng)驗是至關(guān)重要的因素;2)數(shù)據(jù)之間的因果關(guān)系依然存在,傳統(tǒng)的挖掘方法對海量數(shù)據(jù)依然適用;3)數(shù)據(jù)的價值難以窮盡,可根據(jù)業(yè)務需求變化和環(huán)境變化,不斷建立模型進行試驗[6]。
本文中的安全模型和安全發(fā)現(xiàn)結(jié)果還僅僅是半成品,在這個基礎上可以推廣和演化出新的可能,也可在此基礎上進一步豐富和擴展安全分析模型,并融合其他數(shù)據(jù)源進行關(guān)聯(lián)分析,分析結(jié)果可應用于安全服務和安全應用中。
[1]郭三強,郭燕錦.大數(shù)據(jù)環(huán)境下的數(shù)據(jù)安全研究[J].科技廣場,2013(2):28-31
[2]王志軍,黃文良.大數(shù)據(jù)在移動用戶上網(wǎng)記錄查詢中的應用研究[J].信息通信技術(shù),2013,7(12):29-34
[3]余琦,凌捷.基于HDFS的云存儲安全技術(shù)研究[J].計算機工程與設計,2013,34(8):2700-2705
[4]蔡平.基于Hadoop的NoSQL數(shù)據(jù)庫安全研究[D].上海交通大學,2013
[5]賈哲.分布式環(huán)境中信息挖掘與隱私保護相關(guān)技術(shù)研究[D].北京郵電大學,2012
[6]聶元銘.大數(shù)據(jù)及其安全研究.信息安全與通信[J].2013(5):15-16