侯慧芳,潘潔
(中國移動通信集團設(shè)計院有限公司,北京 100080)
大數(shù)據(jù)背景下運營商建設(shè)統(tǒng)一DPI系統(tǒng)的思考
侯慧芳,潘潔
(中國移動通信集團設(shè)計院有限公司,北京 100080)
移動數(shù)據(jù)流量業(yè)務逐漸增大,運營商的經(jīng)營模式正在從“話務量經(jīng)營”向“流量經(jīng)營”轉(zhuǎn)變,“大數(shù)據(jù)經(jīng)營”將成為運營商的主要發(fā)展方向。運營商積極探索DPI技術(shù)對于大數(shù)據(jù)運營的價值和應用方向,制定標準的統(tǒng)一DPI系統(tǒng)規(guī)范,為大數(shù)據(jù)運營提供全面、標準的流量數(shù)據(jù)。系統(tǒng)分析了傳統(tǒng)DPI部署方式存在的弊端,提出建設(shè)統(tǒng)一DPI系統(tǒng)對推動運營商大數(shù)據(jù)發(fā)展提供的重要基礎(chǔ)數(shù)據(jù)保障作用。
統(tǒng)一DPI;大數(shù)據(jù);電信運營商
隨著移動互聯(lián)網(wǎng)業(yè)務的快速發(fā)展,數(shù)據(jù)業(yè)務取代了語音和短信業(yè)務成為運營商的收入支柱,運營商積極探索經(jīng)營新模式,從“話務量經(jīng)營”向“流量經(jīng)營”轉(zhuǎn)變,“大數(shù)據(jù)經(jīng)營”將成為運營商的主要發(fā)展方向。國內(nèi)互聯(lián)網(wǎng)公司已涌現(xiàn)出一批先行者(例如阿里巴巴、百度、騰訊等)積極開展大數(shù)據(jù)的研究和開發(fā),電信運營商比互聯(lián)網(wǎng)公司擁有更多的天然優(yōu)勢,因為電信運營商本身掌握了豐富的基礎(chǔ)數(shù)據(jù)資源。
對用戶話單和網(wǎng)絡信令中的信息進行提取分析是大數(shù)據(jù)運營的基礎(chǔ),而運營商傳統(tǒng)的 DPI(deep packet inspection)部署方式以系統(tǒng)為單位進行建設(shè),存在重復建設(shè)、重復存儲、重復分析以及數(shù)據(jù)格式不標準的弊端,分散的信息形成一個個信息“孤島”,不能合成全面完整的用戶信息[1]。統(tǒng)一 DPI系統(tǒng)對傳統(tǒng) DPI系統(tǒng)存在的問題加以改進和規(guī)范,著眼于部署位置合理化、設(shè)備功能規(guī)范化和數(shù)據(jù)格式標準化,為大數(shù)據(jù)運營提供準確豐富的基礎(chǔ)數(shù)據(jù),推動大數(shù)據(jù)應用的建設(shè)發(fā)展。
DPI是一種基于數(shù)據(jù)分組的深度檢測技術(shù),針對不同的網(wǎng)絡應用層載荷(例如 HTTP、DNS等)進行深度檢測,通過對報文的有效載荷檢測決定其合法性。DPI設(shè)備通過對網(wǎng)絡關(guān)鍵點的流量和報文內(nèi)容進行檢測分析,可以根據(jù)事先定義的策略對檢測流量進行過濾控制,能完成所在鏈路的業(yè)務精細化識別、業(yè)務流量流向分析、業(yè)務流量占比統(tǒng)計、業(yè)務占比整形、應用層拒絕服務攻擊、對病毒/木馬進行過濾和控制P2P的濫用等功能。
傳統(tǒng)DPI設(shè)備以業(yè)務系統(tǒng)為單位進行建設(shè),每個業(yè)務系統(tǒng)在同一采集點均建設(shè)了自己的 DPI設(shè)備,并且不同采集點、不同業(yè)務系統(tǒng)和不同廠商對 DPI設(shè)備采集的數(shù)據(jù)格式并未進行統(tǒng)一規(guī)范,造成傳統(tǒng)DPI系統(tǒng)存在重復采集、重復存儲、重復分析和數(shù)據(jù)格式不標準等弊端。
2.1 重復采集
每個業(yè)務系統(tǒng)都建設(shè)了從數(shù)據(jù)采集層到應用層的一整套設(shè)備,因此全網(wǎng)DPI系統(tǒng)的數(shù)量就等于全網(wǎng)業(yè)務系統(tǒng)的類別數(shù)量,而在數(shù)量龐大的DPI設(shè)備中,有約70%存在數(shù)據(jù)重復采集的現(xiàn)象。DPI系統(tǒng)的煙囪式部署,導致了多點建設(shè)DPI位置重復、同一位置建設(shè)多套DPI功能重復的問題,也給運營商造成了巨大的投資浪費。
2.2 重復存儲
傳統(tǒng)的DPI系統(tǒng)部署時存在同一采集點部署多套DPI設(shè)備的情況,當同一采集點的不同應用系統(tǒng)均需要進行數(shù)據(jù)存儲時,數(shù)據(jù)被分別存儲于各個應用系統(tǒng),就會產(chǎn)生數(shù)據(jù)重復存儲的現(xiàn)象。而全網(wǎng)的每個采集點至少都部署了監(jiān)測系統(tǒng)和管理系統(tǒng),再加上各類個性化應用,運營商重復存儲的數(shù)據(jù)量會非常龐大。
2.3 重復分析
傳統(tǒng)的DPI系統(tǒng)在建設(shè)時只考慮各應用系統(tǒng)自身的數(shù)據(jù)采集需求,不同的應用系統(tǒng)可能對數(shù)據(jù)進行了相同方式的采集和分析,只是應用系統(tǒng)將分析數(shù)據(jù)進行了不同層面的展示,造成了數(shù)據(jù)重復分析、應用重復開發(fā)的問題,給運營商帶來較大的投資浪費。
2.4 數(shù)據(jù)格式不標準
由于不同通信設(shè)備廠商DPI設(shè)備實現(xiàn)方式不同,導致數(shù)據(jù)呈現(xiàn)未遵循統(tǒng)一格式;以業(yè)務劃分方式為例,不同廠商對業(yè)務劃分顆粒度和歸屬關(guān)系的定義不一致,導致DPI設(shè)備識別的業(yè)務命名、定義和數(shù)量均不同。
不同采集位置數(shù)據(jù)格式TLV(類型(type)、長度(length)、值(value))缺乏統(tǒng)一規(guī)劃,難以關(guān)聯(lián),無法端到端分析;以移動用戶使用微信業(yè)務為例,傳統(tǒng)煙囪式 DPI部署方式下,若 Gn口和省網(wǎng)出口兩個位置得到的用戶信息并不能完全對應,就無法完成用戶數(shù)據(jù)端到端的分析。
不同業(yè)務系統(tǒng)定義的業(yè)務分類體系不同,使得不同業(yè)務系統(tǒng)DPI設(shè)備識別的基礎(chǔ)數(shù)據(jù)無法達成一致。因此,無論從運營商業(yè)務系統(tǒng)本身對業(yè)務數(shù)據(jù)分類的定義,還是通信設(shè)備廠商的實現(xiàn)方式,都沒有做到統(tǒng)一規(guī)范,造成各個系統(tǒng)輸出信息的字段和格式不完全相同,各字段的內(nèi)容描述和具體取值不完全相同,導致數(shù)據(jù)格式不一致,各說各話。
由于DPI系統(tǒng)煙囪式部署、無序規(guī)劃、重復建設(shè),導致在網(wǎng)絡安全、運行維護、建設(shè)投資和數(shù)據(jù)有效利用等方面存在一系列問題,同時數(shù)據(jù)格式的不一致導致無法端到端呈現(xiàn)全局數(shù)據(jù),難以為大數(shù)據(jù)平臺提供基礎(chǔ)數(shù)據(jù)。沒有統(tǒng)一規(guī)劃的DPI發(fā)展模式,在未來大數(shù)據(jù)時代將導致大量的投資浪費、能力不足等問題,需從全網(wǎng)角度對DPI設(shè)備的部署進行統(tǒng)籌規(guī)劃。
為實現(xiàn)DPI部署位置合理化、設(shè)備功能規(guī)范化、數(shù)據(jù)格式標準化,運營商對全網(wǎng)DPI系統(tǒng)進行整合,建設(shè)統(tǒng)一DPI系統(tǒng)。統(tǒng)一DPI是指一套DPI設(shè)備對鏈路上的流量進行采集與識別,并將滿足其他系統(tǒng)所需的流量和分析統(tǒng)計數(shù)據(jù)分發(fā)給各第三方應用系統(tǒng)服務器。網(wǎng)絡中各類流量管理相關(guān)的應用系統(tǒng),主要由DPI設(shè)備和應用服務器組成。其中,DPI設(shè)備負責數(shù)據(jù)采集、流量分析統(tǒng)計、日志合成,應用服務器主要完成對數(shù)據(jù)的進一步分析處理,合理組織和存儲數(shù)據(jù),并進行呈現(xiàn)。統(tǒng)一DPI整合了多個第三方應用系統(tǒng)的DPI設(shè)備,通過DPI復用為多個系統(tǒng)提供DPI能力。
3.1 統(tǒng)一位置
運營商網(wǎng)內(nèi)流量,從用戶出發(fā),按照接入網(wǎng)、城域網(wǎng)、省網(wǎng)和骨干網(wǎng)的順序在網(wǎng)內(nèi)傳輸,由此,在全網(wǎng)5個點進行數(shù)據(jù)采集,部署DPI設(shè)備可捕捉網(wǎng)內(nèi)流量全貌,如圖1所示。
圖1 統(tǒng)一DPI系統(tǒng)部署位置
同一個采集點上采用一套統(tǒng)一DPI設(shè)備為多套應用系統(tǒng)提供數(shù)據(jù),實現(xiàn)DPI復用。通過減少采集點和DPI設(shè)備數(shù)量,實現(xiàn)多系統(tǒng)間同一采集點的DPI設(shè)備共享,力爭通過最少的采集點獲取最全的數(shù)據(jù)。
3.2 統(tǒng)一格式
通過制定相關(guān)規(guī)范實現(xiàn)數(shù)據(jù)標準化,并確保運營商各部門、各省公司采用相同規(guī)范制定數(shù)據(jù)流量的標準日志格式和內(nèi)容,要求各廠商執(zhí)行相同的數(shù)據(jù)標準,對于DPI七層識別的全部結(jié)果,實現(xiàn)TLV全字段的統(tǒng)一和對齊,如圖2所示。
除此之外,制定相關(guān)規(guī)范,規(guī)定統(tǒng)一的業(yè)務分類,實現(xiàn)最細粒度的統(tǒng)一業(yè)務劃分規(guī)則,在各采集點、各廠商、各分析系統(tǒng)之間形成通用語言,奠定大數(shù)據(jù)端到端分析的基礎(chǔ)。
3.3 統(tǒng)一功能
按照應用系統(tǒng)所需數(shù)據(jù)內(nèi)容和格式的不同,統(tǒng)一DPI系統(tǒng)可提供4種數(shù)據(jù)復用方式。對于系統(tǒng)特征庫特殊、不易整合的應用系統(tǒng),可通過鏈路分光器或統(tǒng)一DPI設(shè)備的分光功能,將光路信號完整地復制分發(fā)給應用系統(tǒng);對于明確需要某種報文的系統(tǒng),統(tǒng)一DPI設(shè)備將全部原始報文或者經(jīng)過特定條件過濾后的部分原始報文復制分發(fā)給應用系統(tǒng);對于以分析流量日志為主的應用系統(tǒng),統(tǒng)一DPI設(shè)備分析記錄流量的關(guān)鍵信息形成XDR(X data decording)話單,并將會話數(shù)據(jù)按指定格式發(fā)送給應用系統(tǒng);對于需要簡單明確的統(tǒng)計指標的應用系統(tǒng),DPI設(shè)備統(tǒng)計流量的各項指標,并將統(tǒng)計結(jié)果發(fā)送給應用系統(tǒng)。統(tǒng)一 DPI系統(tǒng)數(shù)據(jù)復用方式如圖3所示。
圖2 統(tǒng)一DPI系統(tǒng)數(shù)據(jù)格式規(guī)范化示例
圖3 統(tǒng)一DPI系統(tǒng)數(shù)據(jù)復用方式
統(tǒng)一DPI系統(tǒng)定位于為上層應用提供全面的基礎(chǔ)數(shù)據(jù),除了滿足各類應用系統(tǒng)所需數(shù)據(jù)的鏡像需求,也能完成一些簡單的數(shù)據(jù)處理操作,而個性化、復雜的數(shù)據(jù)處理則由上層應用系統(tǒng)和大數(shù)據(jù)平臺實現(xiàn)。統(tǒng)一DPI系統(tǒng)對流量采集和數(shù)據(jù)解析功能進行了統(tǒng)一規(guī)范,打破DPI設(shè)備和上層應用系統(tǒng)間的耦合,形成開放、標準的DPI設(shè)備體系。
當今信息產(chǎn)業(yè)呈現(xiàn)出前所未有的繁榮,新的互聯(lián)網(wǎng)技術(shù)不斷涌現(xiàn)。從傳統(tǒng)互聯(lián)網(wǎng)的PC終端,到移動互聯(lián)網(wǎng)的智能手機,再到物聯(lián)網(wǎng)傳感器,技術(shù)革新使數(shù)據(jù)生產(chǎn)能力呈指數(shù)級提升,而運營商是用戶訪問互聯(lián)網(wǎng)的管道建設(shè)者,擁有多維度、豐富、持久的互聯(lián)網(wǎng)用戶數(shù)據(jù),在洞察用戶方面擁有得天獨厚的優(yōu)勢,管道中海量的用戶上網(wǎng)行為數(shù)據(jù)是運營商可以開采的下一個金礦,而統(tǒng)一 DPI系統(tǒng)正是開啟這座“金礦”的鑰匙[2],如圖4所示。
運營商智能管道中大數(shù)據(jù)應用的目標是實現(xiàn)復合關(guān)聯(lián)、泛在挖掘、快速實時,把分散在網(wǎng)絡中各個環(huán)節(jié)的數(shù)據(jù)匯聚拼接出用戶的全貌,把握用戶的真正需求,挖掘潛在用戶群的行為特征,利用大數(shù)據(jù)洞察人的數(shù)字生活,并及時地反映到對用戶的服務上[3]。而統(tǒng)一 DPI系統(tǒng)實現(xiàn)全網(wǎng)數(shù)據(jù)的采集識別,處于網(wǎng)絡中的采集層,提供全景化的用戶數(shù)據(jù),是實現(xiàn)大數(shù)據(jù)應用的第一步。大數(shù)據(jù)應用從采集層到應用層的整體架構(gòu)如圖5所示。
圖4 統(tǒng)一DPI系統(tǒng)作為用戶和大數(shù)據(jù)應用聯(lián)系的紐帶
圖5 大數(shù)據(jù)應用功能實現(xiàn)架構(gòu)
統(tǒng)一DPI系統(tǒng)的建設(shè)為大數(shù)據(jù)應用的發(fā)展奠定了強大的數(shù)據(jù)基礎(chǔ),使運營商擺脫淪落為單純“管道”的尷尬局面,其提供的全面化、規(guī)范化、系統(tǒng)化的用戶信息,為大數(shù)據(jù)應用提供了精準的數(shù)據(jù)來源,提升用戶體驗,進一步促進了大數(shù)據(jù)更好地發(fā)展。
4.1 全面采集,精準分析
統(tǒng)一DPI系統(tǒng)通過對鏈路數(shù)據(jù)一次采集多次復用,為第三方大數(shù)據(jù)咨詢業(yè)務提供數(shù)據(jù)來源,運營商可以開展一些基于網(wǎng)絡流量的新業(yè)務,統(tǒng)一DPI系統(tǒng)提供靈活的鏡像方式,將符合特定要求的用戶、協(xié)議、應用的流量鏡像給大數(shù)據(jù)中心和第三方系統(tǒng),以支撐新的業(yè)務的開展,如緩存系統(tǒng)、數(shù)據(jù)挖掘系統(tǒng)、精準廣告系統(tǒng)、防病毒系統(tǒng)及其他第三方系統(tǒng),如圖6所示。
統(tǒng)一DPI系統(tǒng)通過對全網(wǎng)流量的采集,掌握流量整體趨勢,了解網(wǎng)內(nèi)、網(wǎng)間流量流向,重點業(yè)務/網(wǎng)站流量占比等指標,通過流量流向可視實現(xiàn)熱點應用分析;通過業(yè)務應用/協(xié)議的流量分布及發(fā)展趨勢,ICP、域名、URL排名實現(xiàn)業(yè)務熱點洞察;通過對用戶訪問日志的采集分析挖掘用戶特征,了解用戶網(wǎng)絡使用情況,分析用戶流量組成和流向、用戶興趣和熱點資源,實現(xiàn)用戶行為可視化,為個性化差異服務提供數(shù)據(jù)支撐;通過對網(wǎng)絡時延等網(wǎng)絡質(zhì)量的監(jiān)控,改善用戶體驗;通過檢測垃圾郵件、僵尸、DDoS網(wǎng)絡、手機病毒、惡意網(wǎng)站和不良內(nèi)容,了解安全威脅,實現(xiàn)安全威脅可視化,為網(wǎng)絡安全防護提供支撐。
圖6 統(tǒng)一DPI系統(tǒng)為大數(shù)據(jù)應用提供數(shù)據(jù)支撐
4.2 建立網(wǎng)絡應用模型
統(tǒng)一DPI系統(tǒng)為大數(shù)據(jù)中心提供海量用戶數(shù)據(jù),大數(shù)據(jù)應用通過基于用戶的上網(wǎng)行為數(shù)據(jù)提取自然人特征,并為其建立包含各種屬性的關(guān)系鏈,基于特征標識庫,對海量數(shù)據(jù)進行行為分類;挖掘用戶使用習慣,創(chuàng)建常規(guī)應用模型,實現(xiàn)用戶畫像標簽,如圖7所示。
圖7 基于海量數(shù)據(jù)構(gòu)建用戶模型
以廣告推送為例,如今大數(shù)據(jù)已應用于支撐精準廣告的投放,統(tǒng)一DPI系統(tǒng)實現(xiàn)網(wǎng)站分析統(tǒng)計及搜索關(guān)鍵字抓取,提供用戶上網(wǎng)行為數(shù)據(jù),大數(shù)據(jù)中心結(jié)合強大的數(shù)據(jù)挖掘技術(shù)與行業(yè)知識庫,對DPI網(wǎng)元覆蓋區(qū)域的終端用戶進行用戶行為分析,建立精準的用戶畫像,為信息推送(廣告)服務平臺的信息推送策略提供數(shù)據(jù)依據(jù),進而結(jié)合用戶需求,在正確的時間窗口觸達用戶,實現(xiàn)針對用戶的精準營銷[1]。
大數(shù)據(jù)中心的構(gòu)建與用戶上網(wǎng)行為的挖掘分析,除了支撐精準廣告的推送,未來在市場調(diào)研、金融征信等領(lǐng)域也有很廣闊的應用前景。
4.3 基于統(tǒng)計數(shù)據(jù)的經(jīng)營建議
運營商基于統(tǒng)一DPI系統(tǒng)提供的統(tǒng)計數(shù)據(jù),為運營商提供多樣化經(jīng)營建議,在開源節(jié)流方面提供數(shù)據(jù)支撐,促進業(yè)務模式創(chuàng)新,實現(xiàn)業(yè)務的增值運營,為管道注智,為流量增值。
運營商針對用戶的上網(wǎng)行為,分析用戶可能的離網(wǎng)傾向,制定營銷策略,推送優(yōu)惠信息,提前防止用戶流失;通過展現(xiàn)手機視頻、手機閱讀、應用商店等各類應用的趨勢、占比和排名,更好地了解網(wǎng)絡流量構(gòu)成,為精細化運營提供數(shù)據(jù)支撐;通過分析運營商傳統(tǒng)語音、短信業(yè)務和數(shù)據(jù)流量業(yè)務占比,為運營商業(yè)務管控策略提供數(shù)據(jù)依據(jù);通過精準分析,實現(xiàn)終端類型可視化,了解終端組成情況,分析手機終端類型、操作系統(tǒng)類型、瀏覽器類型和對應的流量和用戶數(shù),為業(yè)務營銷提供數(shù)據(jù)支撐[3]。
除內(nèi)部服務外,運營商還可以向行業(yè)用戶、外部合作伙伴提供數(shù)據(jù)出售、數(shù)據(jù)咨詢、數(shù)據(jù)能力和數(shù)據(jù)解決方案4種業(yè)務形態(tài)的數(shù)據(jù)服務。通過對外合作的模式,可融合合作伙伴的數(shù)據(jù)內(nèi)容,根據(jù)合作伙伴和客戶的需求,將電信的數(shù)據(jù)資產(chǎn)進行包裝,向合作伙伴提供數(shù)據(jù)服務,開展大數(shù)據(jù)運營。
目前運營商在部分省份建設(shè)大數(shù)據(jù)中心,但仍存在跨省、跨域數(shù)據(jù)分析難的問題存在,整合跨省、跨域數(shù)據(jù),建設(shè)集團層面的統(tǒng)一的大數(shù)據(jù)中心,支撐業(yè)務流程端到端分析和面向移動互聯(lián)網(wǎng)的大數(shù)據(jù)分析仍是未來大數(shù)據(jù)中心建設(shè)的目標。
本文通過分析運營商傳統(tǒng)DPI部署方式存在的問題,提出在大數(shù)據(jù)應用快速發(fā)展的大背景下,運營商整合全網(wǎng)的DPI資源,建設(shè)統(tǒng)一DPI系統(tǒng)的必要性,同時對統(tǒng)一DPI系統(tǒng)在部署位置合理化、數(shù)據(jù)格式規(guī)范化和實現(xiàn)功能統(tǒng)一化方面做出的改進進行了闡述,提出統(tǒng)一DPI系統(tǒng)作為實現(xiàn)大數(shù)據(jù)應用第一步的重要作用,其提供的全面化、規(guī)范化、系統(tǒng)化的用戶信息,保證了運營商實現(xiàn)用戶數(shù)據(jù)的全面采集、精準分析,幫助運營商建立網(wǎng)絡應用模型,有效的用戶統(tǒng)計數(shù)據(jù)更為運營商提供了合理的經(jīng)營建議。因此,統(tǒng)一DPI系統(tǒng)為大數(shù)據(jù)的應用發(fā)展奠定了強大的數(shù)據(jù)基礎(chǔ),是推動運營商大數(shù)據(jù)發(fā)展的重要保障。
[1] 毋毅. 面向通信智能管道運維體系的統(tǒng)一DPI網(wǎng)絡流量大數(shù)據(jù)分析平臺研究[J]. 信息與電腦, 2016(18): 159-160. WU Y. Research on the big data analysis platform of unified DPI traffic for communication intelligent pipeline operation and maintenance system[J]. China Computer&Communication, 2016(18): 159-160.
[2] 冉萌, 韓玉輝. DPI技術(shù)在移動大數(shù)據(jù)中的應用[J].郵電設(shè)計技術(shù), 2016(8): 33-36. RAN M, HAN Y H. Application of DPI technology in mobile in big data[J]. Designing Techniques of Posts and Telecommunications, 2016(8): 33-36.
[3] 殷鵬.智能管道運營中大數(shù)據(jù)的應用分析[J].電信技術(shù), 2013, 1(4): 47-49. YIN P. Analysis of the application of big data in intelligent pipeline operation[J]. Telecommunications Technology, 2013, 1(4): 47-49.
侯慧芳(1986?),女,中國移動通信集團設(shè)計院有限公司工程師、咨詢設(shè)計師,主要研究方向為數(shù)據(jù)網(wǎng)絡。
潘潔(1978?),女,中國移動通信集團設(shè)計院有限公司工程師、高級咨詢設(shè)計師,主要研究方向為數(shù)據(jù)網(wǎng)絡。
Discussion of constructing unified DPI system by operators in the background of big data
HOU Huifang, PAN Jie
China Mobile Group Design Institute Co., Ltd., Beijing 100080, China
Mobile data traffic increases gradually. Operator’s business model is transferring from “telephone traffic management” to “traffic management”. Big data management will become the main development direction of operators. For big data management,operators explore the value and application of DPI technology and make the unified DPI system standards to offer comprehensive and standard traffic data. The insufficiency of traditional DPI deployment mode was analyzed, and the unified DPI system to offer basic data security for accelerating development of big data was presented.
unified DPI, big data, telecom operator
TN919.5
A
10.11959/j.issn.1000?0801.2017107
2017?03?20;
2017?04?09