宋春濤,張 帆,王 勇,葉海納(中國聯(lián)通網(wǎng)絡技術研究院,北京100048)
數(shù)據(jù)是電信運營商的金礦。電信運營商積累了豐富海量的數(shù)據(jù)資源,大數(shù)據(jù)金礦價值不斷凸顯,運營商正在逐步踐行由通信服務運營向數(shù)據(jù)運營的必然轉變。隨著新興業(yè)務及模式的不斷涌現(xiàn),運營商的“管道化”趨勢日益顯現(xiàn),為了應對挑戰(zhàn),運營商應充分挖掘自己獨特的全類型數(shù)據(jù)的價值。
全面理解電信運營商的各類網(wǎng)絡運行及業(yè)務運營數(shù)據(jù),梳理其內(nèi)在的血緣及關聯(lián),形成具備運營能力的基礎層,向構建支持面向場景的外延性應用數(shù)據(jù)視圖,實現(xiàn)數(shù)據(jù)資產(chǎn)的價值映射,是運營商在數(shù)據(jù)技術方面的主要工作。
本文主要圍繞運營商移動網(wǎng)絡的O域數(shù)據(jù)資產(chǎn)進行梳理,同時討論典型數(shù)據(jù)之間的內(nèi)在血緣及聯(lián)系,進而研究數(shù)據(jù)應用的場景化驅動。
電信運營商所掌握的數(shù)據(jù)具備基礎性、多樣性、全面性等特征,不僅包含著網(wǎng)絡運行數(shù)據(jù),同時包含著海量的運營數(shù)據(jù),這些數(shù)據(jù)涵蓋了移動網(wǎng)絡從終端到接入網(wǎng)、從傳輸網(wǎng)到核心網(wǎng)、從業(yè)務平臺到移動互聯(lián)網(wǎng)各個網(wǎng)絡及環(huán)節(jié),基于多樣化的采集方式,能獲得海量的運行數(shù)據(jù)及業(yè)務數(shù)據(jù),基于大數(shù)據(jù)分析方法和手段,結合移動互聯(lián)、物聯(lián)網(wǎng)等發(fā)展方向及應用走向,能夠針對網(wǎng)絡、用戶、業(yè)務、終端進行深層次的數(shù)據(jù)挖掘和應用,本文重點關注運營商的移動網(wǎng)絡數(shù)據(jù)。
總體上說,電信運營商的數(shù)據(jù)資源主要包括網(wǎng)絡運行數(shù)據(jù)和業(yè)務運營數(shù)據(jù)兩大類,即OSS域數(shù)據(jù)及BSS域數(shù)據(jù),同時還包括M域、D域及E域等,這些數(shù)據(jù)均源于移動網(wǎng)絡運行和業(yè)務運營,在兩類數(shù)據(jù)之下則是紛繁復雜、形態(tài)多樣的海量數(shù)據(jù)集合,具體數(shù)據(jù)內(nèi)容存在巨大差異,但卻有著內(nèi)在聯(lián)系,形成內(nèi)聯(lián)外延、縱合橫通的多維數(shù)據(jù)魔方態(tài),如圖1所示。本文重點關注電信運營商OSS域數(shù)據(jù)。
圖1 移動運營商的多維數(shù)據(jù)魔方示意圖
筆者總結典型的運營商移動網(wǎng)絡數(shù)據(jù)洞察維度有以下幾類:按網(wǎng)絡制式劃分的2G/3G/4G/5G網(wǎng)絡及物聯(lián)網(wǎng)等維度,按數(shù)據(jù)所屬范疇劃分的網(wǎng)絡側、用戶側及業(yè)務側等維度,按網(wǎng)絡分層劃分的接入層、網(wǎng)絡層、應用層等維度,按業(yè)務運行不同功能劃分的控制面及用戶面等維度。
上述不同維度的數(shù)據(jù)洞察,將移動網(wǎng)絡數(shù)據(jù)劃分成多維組合的數(shù)據(jù)魔方。為了便于理解,下面針對移動網(wǎng)絡,從網(wǎng)絡/用戶/業(yè)務維度,結合數(shù)據(jù)采集方式、內(nèi)容、所屬域進行簡單歸類,移動網(wǎng)絡數(shù)據(jù)主要分為網(wǎng)絡域數(shù)據(jù)、用戶域數(shù)據(jù)及業(yè)務域數(shù)據(jù)3部分。
a)網(wǎng)絡域數(shù)據(jù)主要是與網(wǎng)絡運行及維護相關聯(lián)的數(shù)據(jù),既包括與網(wǎng)絡基礎配置、運行監(jiān)測、網(wǎng)絡質量評估相關的數(shù)據(jù)類型,如基礎資源及配置數(shù)據(jù)、性能統(tǒng)計數(shù)據(jù)、DT/CQT等測試數(shù)據(jù)、監(jiān)控預警等,也包括體現(xiàn)用戶與網(wǎng)絡之間信令交互部分的數(shù)據(jù),如移動性管理、移動業(yè)務管理、業(yè)務交互及保障等方面數(shù)據(jù)。
b)用戶域數(shù)據(jù)則主要是用戶與網(wǎng)絡交互以及進行業(yè)務產(chǎn)生的各類記錄數(shù)據(jù),如用戶在網(wǎng)運行的信令交互數(shù)據(jù)以及用戶進行業(yè)務過程中產(chǎn)生的業(yè)務記錄。
c)業(yè)務域數(shù)據(jù)主要是指用戶在網(wǎng)享受服務時產(chǎn)生的業(yè)務記錄數(shù)據(jù),這也是在數(shù)據(jù)業(yè)務之外產(chǎn)生的價值數(shù)據(jù)?;谔囟ǖ腄PI技術可以針對這些業(yè)務數(shù)據(jù)進行更加豐富的信息和特征挖掘。業(yè)務域數(shù)據(jù)是移動互聯(lián)時代的特有數(shù)據(jù)。
移動網(wǎng)絡運行過程獲取的各類數(shù)據(jù)之間存在必然的內(nèi)聯(lián)性。雖然這些數(shù)據(jù)來自于不同的網(wǎng)元、接口及系統(tǒng),在網(wǎng)絡運行中發(fā)揮著不同的作用,但是各類數(shù)據(jù)并不是孤立的,而是相互關聯(lián)、相互解釋,甚至相互影響的。
要了解移動網(wǎng)絡數(shù)據(jù)的內(nèi)聯(lián)性,首先必須梳理典型的可獲取數(shù)據(jù)以及這些數(shù)據(jù)的關鍵特征和聚合維度。筆者將移動網(wǎng)絡運行及大數(shù)據(jù)應用研究中常用的典型數(shù)據(jù)及特征做了整理,具體如表1所示。
表1 移動網(wǎng)絡數(shù)據(jù)的典型數(shù)據(jù)類型及特征標簽
移動網(wǎng)絡運行數(shù)據(jù)的基本特征主要包括時間、地點、網(wǎng)元及身份標識、記錄類型、記錄業(yè)務量,這些特征組合也成為各維度數(shù)據(jù)相互關聯(lián)的基礎信息,可以作為數(shù)據(jù)融合的關鍵特征。
其中話單類數(shù)據(jù)種類繁多,包括語音、數(shù)據(jù)業(yè)務類、控制信令類等,有著巨大的挖掘價值。典型話單列表如表2所示。
表2是不同業(yè)務、不同信令節(jié)點、不同接口及不同專項的典型話單,這些話單中的海量信息產(chǎn)生并服務于網(wǎng)絡運行及業(yè)務運營,同時也作為衍生物為大數(shù)據(jù)分析及挖掘提供海量價值資源。
表2 移動網(wǎng)絡數(shù)據(jù)的典型話單列表
目前運營商基本完成了上述類型數(shù)據(jù)的采集,并將其應用于自身運營分析來支撐市場前端、網(wǎng)絡運行及對外價值應用。相比傳統(tǒng)的網(wǎng)絡KPI分析,目前的應用已經(jīng)開始關注更多其他的可能應用,如DPI深度解析、LBS計算、APP QoS保障、用戶/終端識別等。但是,隨著多樣化場景及業(yè)務需求的爆發(fā),針對用戶、業(yè)務及終端的挖掘層次逐步加深,單一維度及表單的挖掘已經(jīng)難以滿足需求,數(shù)據(jù)融合成為運營商大數(shù)據(jù)發(fā)展的必由之路。
移動網(wǎng)絡數(shù)據(jù)融合,不僅僅是按照時間、網(wǎng)元ID、用戶ID等進行相互關聯(lián),還涉及到數(shù)據(jù)血緣梳理、數(shù)據(jù)清洗、數(shù)據(jù)轉換、結構化、數(shù)據(jù)分級、數(shù)據(jù)校準、數(shù)據(jù)關聯(lián)等。數(shù)據(jù)的關聯(lián)和融合是一個系統(tǒng)性工程,雖然移動運營商數(shù)據(jù)大多為結構化數(shù)據(jù),但仍需要諸多步驟來實現(xiàn)數(shù)據(jù)的真正融合。
筆者結合實際工作總結移動網(wǎng)絡數(shù)據(jù)融合的步驟如下。
a)數(shù)據(jù)采集及匯聚:主要是將移動網(wǎng)絡各系統(tǒng)、平臺、接口及測試等數(shù)據(jù)進行采集并匯聚,比如目前某運營商的OSS系統(tǒng)將全國各本地網(wǎng)的各類數(shù)據(jù)進行采集并通過北向接口實現(xiàn)統(tǒng)一的ESB匯聚,供上層應用使用,采集、解析及匯聚非本文重點討論內(nèi)容,可參考相關技術文檔。
b)數(shù)據(jù)清洗:目前移動網(wǎng)絡數(shù)據(jù)受限于采集、解析及傳輸?shù)饶芰?,尚且存在一些質量問題,如采集范圍及能力不足帶來的數(shù)據(jù)缺失、疏密度不同、數(shù)據(jù)值異常、多源數(shù)據(jù)沖突等,需要針對這些問題,借助ETL、機器學習、異構模型等進行清洗與比對、濾重、映射與互補等,提升原始數(shù)據(jù)質量。
c)數(shù)據(jù)分級:因為移動網(wǎng)絡原始數(shù)據(jù)涉及網(wǎng)元、實體、接口等較多,與之相對應維度的數(shù)據(jù)及表單也較多,同時在某些表單中實際包括多個層級和維度的數(shù)據(jù),如A/Iu-CS口話單生成是按照一次語音呼叫的全流程生成的記錄,這其中既包括該次呼叫各信令節(jié)點信息(時間、事件、時延、成敗、掉話等)、又包含不同等級實體(如網(wǎng)絡、小區(qū)及上聯(lián)網(wǎng)元、用戶等),這些數(shù)據(jù)實際上是以一次呼叫關聯(lián)起來的多層數(shù)據(jù),在實際應用中則需要結合場景化需求進行數(shù)據(jù)分級,如分解為用戶級、小區(qū)級、事件級等。數(shù)據(jù)分級是為了滿足面向應用的場景化需求,也是后面進行域變換的數(shù)據(jù)基礎。
d)域變換:從網(wǎng)元、實體、接口等觀察分析數(shù)據(jù),主要是基于傳統(tǒng)網(wǎng)絡運行及維護工作需求,隨著數(shù)據(jù)價值的不斷發(fā)掘及市場前端部門需求的不斷增加,當前維度已經(jīng)遠不能滿足需求,必須針對新的前端及外部應用需求進行數(shù)據(jù)變換,因此有必要將網(wǎng)元、實體、接口域數(shù)據(jù)變換至用戶、終端及業(yè)務域。變換方法主要是從既有分類話單中按照用戶、終端、業(yè)務、網(wǎng)絡等維度進行數(shù)據(jù)梳理及抽取,如將A/Iu-CS呼叫話單按用戶進行數(shù)據(jù)抽取,形成用戶域中的呼叫話單,將S1-MME信令話單按終端進行抽取獲得終端域中的信令話單,將S1-HTTP按業(yè)務大小類進行抽取,獲得業(yè)務域中的數(shù)據(jù)業(yè)務話單。域轉換中的數(shù)據(jù)抽取不是簡單的維度變換和數(shù)據(jù)拷貝,而是基于場景化需求和數(shù)據(jù)邏輯性構建,會涉及大量的抽取模型和數(shù)據(jù)處理工作,此處不再詳述。
e)數(shù)據(jù)關聯(lián):完成域變換之后,在同一域內(nèi)仍然存在大量并行的數(shù)據(jù)信息及表單,這些并行數(shù)據(jù)從不同角度對該域主體進行屬性和行為的解釋,但分散的形態(tài)無法滿足上層應用和非專業(yè)人士的引用,必須進行數(shù)據(jù)關聯(lián),這也是數(shù)據(jù)融合的重要一步。數(shù)據(jù)融合的基本方法仍是以組合關鍵標識的方式進行,如時間點(段)、用戶標識、用戶網(wǎng)絡標識(ID)、終端標識、小區(qū)標識、業(yè)務標識等,在不同數(shù)據(jù)維度和層級上進行數(shù)據(jù)關聯(lián)操作。數(shù)據(jù)關聯(lián)實際上是對數(shù)據(jù)之間的血緣、歸屬、解釋、行為關系進行梳理,并形成相應的關系拓撲,而關聯(lián)既可以是邏輯上的,也可以是數(shù)據(jù)庫中的實體關聯(lián)。
f)數(shù)據(jù)視圖:海量及龐雜的運營商數(shù)據(jù)能夠滿足眾多專業(yè)的內(nèi)外部應用需求,但是在實際使用時,則因為專業(yè)知識及需求差異,需要針對不同部門、行業(yè)、場景制定便于其理解和引用的數(shù)據(jù)視圖集合,以靈活適配多樣化的應用場景。
數(shù)據(jù)視圖作為面向不同專業(yè)及行業(yè)應用的可理解數(shù)據(jù)集,是由核心業(yè)務的主題驅動的,基于業(yè)務訴求來構建的面向需求,而非面向數(shù)據(jù)域的主題數(shù)據(jù)集合。
構建數(shù)據(jù)視圖的關鍵在于主題,不同的主題應用需求決定視圖的數(shù)據(jù)內(nèi)容,主要基于用戶、業(yè)務、網(wǎng)絡、終端等大維度,如常見的視圖有自然人視圖、政企視圖、渠道視圖、小區(qū)視圖、產(chǎn)品視圖、終端視圖等(見圖2),這些視圖向下來源于運營商的各類底層數(shù)據(jù),向上滿足不同部門和專業(yè)的業(yè)務需求。
圖2 移動網(wǎng)絡數(shù)據(jù)的視圖層構建
筆者認為移動網(wǎng)絡數(shù)據(jù)視圖層是運營商數(shù)據(jù)體系的重要中臺層,這一層的型特征如下。
a)完成了底層數(shù)據(jù)的解析、域變換及數(shù)據(jù)聚合,即面向不同專業(yè)用戶完成了數(shù)據(jù)解釋。
b)針對某專業(yè)需求,無需掌握并遍歷全集數(shù)據(jù),僅需進入該專業(yè)相關視圖即可。
c)數(shù)據(jù)視圖作為數(shù)據(jù)資產(chǎn)流通及變現(xiàn)的基礎,也為數(shù)據(jù)資產(chǎn)的生產(chǎn)和應用提供量化基礎。
d)解決跨域數(shù)據(jù)無法打通、無法看全問題,有助于數(shù)據(jù)使用者、數(shù)據(jù)運營者及數(shù)據(jù)生產(chǎn)者的身份梳理和定位。
數(shù)據(jù)視圖實際上是近年流行的數(shù)據(jù)中臺的主要內(nèi)容構成,中臺則是視圖的結構承載。數(shù)據(jù)視圖的構建,在具體實現(xiàn)上可以是物理上的,也可以是邏輯上的,這需要根據(jù)實際的應用需求和資源條件來綜合考量。
數(shù)據(jù)資產(chǎn)的最終目的是應用,在完成中臺級數(shù)據(jù)匯聚和視圖構建后,數(shù)據(jù)尚未完成其價值的體現(xiàn),數(shù)據(jù)價值的體現(xiàn)則主要是通過其數(shù)據(jù)的外延性應用來實現(xiàn)的。
根據(jù)網(wǎng)元、網(wǎng)管、系統(tǒng)、接口等不同采集方式及傳統(tǒng)應用方式的不同,數(shù)據(jù)被人為整理為小區(qū)、用戶、終端、業(yè)務等維度,然而實際情況是,以業(yè)務為牽引的各單元通過有機的協(xié)作來實現(xiàn)業(yè)務運行及業(yè)務保障,在該過程中產(chǎn)生的數(shù)據(jù)是自然內(nèi)聯(lián)并難以分割的。典型的協(xié)作單元及其包含的內(nèi)容如圖3所示。
圖3 移動網(wǎng)絡數(shù)據(jù)的典型主體及內(nèi)容示意圖
在實際應用中,不同行業(yè)及產(chǎn)品對于運營商數(shù)據(jù)的需求是不同的,在保障數(shù)據(jù)內(nèi)聯(lián)完整性和靈活性的前提下,引入針對性的行業(yè)知識圖譜是一個較好的解決方案。
從Google搜索開始,到現(xiàn)今的智能機器人、風險控制、證券投資、智能醫(yī)療、自適應教育、推薦系統(tǒng)等,知識圖譜正在更廣泛的方向上獲得重視和應用,電信運營商在這方面也有相關的實踐和應用,但目前主要是基于B域中用戶的屬性、資料、交往圈等抽取相應的實體和關系并構建知識圖譜,典型應用方向為詐騙社區(qū)發(fā)現(xiàn)、風控、征信等領域。
不同于B域主要基于用戶維度的視圖和圖譜構建,O域數(shù)據(jù)因為其網(wǎng)絡側特有的定位、業(yè)務識別、多類型終端、信令交互數(shù)據(jù)等,可以構建區(qū)別于B域的多類垂直行業(yè)及產(chǎn)業(yè)的知識圖譜,以實現(xiàn)不同的場景及產(chǎn)品需求,典型的行業(yè)應用有智慧城市規(guī)劃、智慧交通、工業(yè)互聯(lián)網(wǎng)、智慧醫(yī)療等。
移動網(wǎng)絡數(shù)據(jù)的行業(yè)知識圖譜的構建并不是必要的,同時也不是萬能的,這需要依據(jù)實際產(chǎn)品和業(yè)務需求而構建,因此筆者將O域數(shù)據(jù)的行業(yè)知識圖譜構建作為數(shù)據(jù)外延性的一種補充形式。
移動網(wǎng)絡數(shù)據(jù)的外延性,實際上是在數(shù)據(jù)視圖基礎上更加精細化應用的一步,不同專業(yè)及部門的需求一般都是某一視圖的子集,或基于某一視圖的定制化數(shù)據(jù)提取,如圖4所示。
典型的外延應用方式主要有以下3種:
圖4 移動網(wǎng)絡數(shù)據(jù)外延性應用的典型模式
a)深層數(shù)據(jù)關聯(lián),運營商需導入行業(yè)數(shù)據(jù),并與自身數(shù)據(jù)進行關聯(lián)和整合,同時提供強大的孵化環(huán)境,以深度數(shù)據(jù)合作方式實現(xiàn)數(shù)據(jù)對外應用與價值變現(xiàn)。
b)以行業(yè)需求為驅動,運營商制造滿足行業(yè)需求的中間層數(shù)據(jù)并以API等方式為行業(yè)應用賦能,實現(xiàn)數(shù)據(jù)的外延性應用。
c)以行業(yè)需求為驅動,運營商直接生產(chǎn)滿足行業(yè)需求的結果性數(shù)據(jù),以數(shù)據(jù)產(chǎn)品方式直接輸出,實現(xiàn)數(shù)據(jù)的外延性應用。
以上3種典型的數(shù)據(jù)外延性應用適用于不同的應用場景及不同數(shù)據(jù)等級需求,能夠在規(guī)避數(shù)據(jù)隱私的情況下,以靈活的方式滿足多樣化的行業(yè)需求,既能為中小型企業(yè)及前端部門提供數(shù)據(jù)能力,又能提供數(shù)據(jù)處理及應用的資源環(huán)境。
電信運營商成為信息產(chǎn)業(yè)的基礎設施提供者的大趨勢逐漸顯現(xiàn),隨著新興業(yè)務及融合應用需求的不斷涌現(xiàn),不斷挖掘自身具備的全類型數(shù)據(jù)的多樣化價值,快速轉變?yōu)閿?shù)據(jù)運營商,并為信息產(chǎn)業(yè)的持續(xù)繁榮及智慧未來全面賦能,已經(jīng)成為電信運營商責無旁貸的重要使命。因此本文圍繞運營商移動網(wǎng)絡的數(shù)據(jù)資產(chǎn)進行梳理,同時討論典型數(shù)據(jù)之間的內(nèi)在血緣及聯(lián)系,進而研究數(shù)據(jù)應用的場景化驅動,并探討了幾種典型的數(shù)據(jù)外延性應用模式,為5G智能化時代的開啟提供一些參考。