中國電信郴州市分公司|張瀟涓
通過挖掘基站維護(hù)大數(shù)據(jù),建立相應(yīng)數(shù)據(jù)模型,利用數(shù)據(jù)分析手段來優(yōu)化大面積停電情況下的應(yīng)急發(fā)電調(diào)度流程,提升維護(hù)質(zhì)量水平,成為當(dāng)前大數(shù)據(jù)行業(yè)應(yīng)用的一個嶄新課題。
通信基站是一切無線運營的基礎(chǔ)。通信基站的維護(hù)內(nèi)容有通信基站巡檢、日常維護(hù)、應(yīng)急發(fā)電搶修和安全隱患排查。其中,應(yīng)急搶修發(fā)電的及時性,直接影響運營商的網(wǎng)絡(luò)指標(biāo)。通過挖掘基站維護(hù)大數(shù)據(jù),建立相應(yīng)數(shù)據(jù)模型,利用數(shù)據(jù)分析手段來優(yōu)化大面積停電情況下的應(yīng)急發(fā)電調(diào)度流程,提升維護(hù)質(zhì)量水平,成為當(dāng)前大數(shù)據(jù)行業(yè)應(yīng)用的一個嶄新課題。
大數(shù)據(jù)指的是所涉及的數(shù)據(jù)規(guī)模很巨大,需要用特別的數(shù)據(jù)庫軟件工具Hadoop等,對其內(nèi)容進(jìn)行采集、存儲、管理和分析的數(shù)據(jù)集合。
大數(shù)據(jù)的基本特征首先是指數(shù)據(jù)體量大,如通信基站電力電壓、電流隨時都在變化產(chǎn)生大量的浮動數(shù)據(jù);其次是指數(shù)據(jù)類別大,基站數(shù)據(jù)來自電力系統(tǒng)、門禁系統(tǒng)、電池負(fù)載等多種數(shù)據(jù)源,數(shù)據(jù)種類既有門磁等開關(guān)量數(shù)據(jù),也有電壓電流等模擬信號數(shù)據(jù),更有視頻監(jiān)控等非結(jié)構(gòu)化數(shù)據(jù);再次是大數(shù)據(jù)要求數(shù)據(jù)處理速度快,做到實時處理,供電大網(wǎng)停電和供電的數(shù)據(jù),要求在規(guī)定時間內(nèi)能夠通過傳感器進(jìn)行準(zhǔn)確上報,代維單位根據(jù)收到的信息來進(jìn)行工作調(diào)度;另外,大數(shù)據(jù)要求數(shù)據(jù)真實性高,對于基站鐵塔平臺空間資源占用情況、電源設(shè)備端子占用情況、配套設(shè)備的數(shù)量和型號應(yīng)該能夠進(jìn)行及時更新,以便于新業(yè)務(wù)加載的時候能夠有真實準(zhǔn)確的數(shù)據(jù)參考。
基站是通信行業(yè)的基礎(chǔ)和支撐,也是重要的社會公共資源。如何保障基站的穩(wěn)定運行,維護(hù)維修以及面對突發(fā)狀況的應(yīng)急處置是基站運維工作中的重點?;诖髷?shù)據(jù)技術(shù)的分布式采集,結(jié)合業(yè)務(wù)應(yīng)用場景,規(guī)范標(biāo)準(zhǔn)化的應(yīng)急事件處置策略,實現(xiàn)“動態(tài)聯(lián)動應(yīng)急事件防護(hù)體系”,是大數(shù)據(jù)在通信行業(yè)的基站運維領(lǐng)域的重要應(yīng)用。
應(yīng)急事件事前實時監(jiān)控與預(yù)判
基站運維工作中涉及的數(shù)據(jù)體量大、類型多,包括實時、文本、語音、視頻、圖片等各種類型的結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化數(shù)據(jù)。通過監(jiān)控與數(shù)據(jù)采集設(shè)備獲取設(shè)備關(guān)鍵參數(shù)(如穩(wěn)定性指標(biāo)、溫度適應(yīng)性指標(biāo)、電量消耗與異常邊界指標(biāo)等),第一時間發(fā)現(xiàn)基站運行過程中的各類問題。并以此為基礎(chǔ)建立標(biāo)準(zhǔn)、規(guī)則、策略體系,圍繞體系構(gòu)建應(yīng)急事件的識別模型,發(fā)現(xiàn)已知和潛在的故障以及事件威脅。
應(yīng)急事件事中合規(guī)高效處置
集成GIS地圖以及地理位置經(jīng)緯度,利用大數(shù)據(jù)技術(shù)的應(yīng)用,為維護(hù)人員提供準(zhǔn)確的定點數(shù)據(jù)和故障類型數(shù)據(jù),并運用數(shù)據(jù)分析模型對應(yīng)急事件進(jìn)行分級預(yù)警以及為指揮領(lǐng)導(dǎo)和參與緊急處理的業(yè)務(wù)人員,提供決策依據(jù)和方案應(yīng)急事件時候成因分析與總結(jié)。
應(yīng)急事件事后總結(jié)分析
基于大數(shù)據(jù)分析挖掘技術(shù)、機器學(xué)習(xí)以及語義分析,以事件、人、地、時等自動分析提取、細(xì)化標(biāo)簽,輸出應(yīng)急事件的處置報告,形成“事件發(fā)生—過程記錄—處置評估—總結(jié)展望”的大數(shù)據(jù)智能報告生成體系。
大數(shù)據(jù)的技術(shù)體系涉及大數(shù)據(jù)的采集與預(yù)處理、大數(shù)據(jù)存儲與管理、大數(shù)據(jù)計算模式與系統(tǒng)、大數(shù)據(jù)分析與挖掘、大數(shù)據(jù)可視化分析及大數(shù)據(jù)隱私與安全等幾個方面。大數(shù)據(jù)遵循以下實施步驟。
第一步是從數(shù)據(jù)源采集數(shù)據(jù)并進(jìn)行預(yù)處理和集成操作,為后繼流程提供統(tǒng)一的高質(zhì)量的數(shù)據(jù)集?,F(xiàn)有數(shù)據(jù)抽取與集成方式可分為以下4種類型:基于物化或ETL引擎方法、基于聯(lián)邦數(shù)據(jù)庫引擎或中間件方法、基于數(shù)據(jù)流引擎方法和基于搜索引擎方法。常用ETL工具負(fù)責(zé)將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等抽取到臨時中間層后進(jìn)行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉庫或數(shù)據(jù)集市中,成為聯(lián)機分析處理(OLAP)、數(shù)據(jù)挖掘的基礎(chǔ)。由于大數(shù)據(jù)的來源不一,異構(gòu)數(shù)據(jù)源的集成過程中需要對數(shù)據(jù)進(jìn)行去重和糾正不一致數(shù)據(jù)。
第二步是大數(shù)據(jù)存儲,其存儲和管理軟件主要包括文件系統(tǒng)和數(shù)據(jù)庫。大數(shù)據(jù)存儲與管理,需要對上層應(yīng)用提供高效的數(shù)據(jù)訪問接口,存取PB甚至EB量級的數(shù)據(jù),對數(shù)據(jù)處理的實時性、有效性提出更高要求。某些實時性要求較高的應(yīng)用,如基站狀態(tài)監(jiān)控數(shù)據(jù),更適合采用流處理模式,直接在清洗和集成后的數(shù)據(jù)源上進(jìn)行分析。而大多數(shù)其他應(yīng)用需要存儲,以支持后續(xù)更深度數(shù)據(jù)分析流程。
第三步是數(shù)據(jù)建模。需要根據(jù)大數(shù)據(jù)的不同數(shù)據(jù)特征和計算特征,從多樣性的大數(shù)據(jù)計算問題和需求中提煉并建立的各種高層抽象或模型?;敬髷?shù)據(jù)處理的主要數(shù)據(jù)特征和計算特征維度有數(shù)據(jù)結(jié)構(gòu)特征、數(shù)據(jù)獲取方式、數(shù)據(jù)處理類型、實時性或響應(yīng)性能、迭代計算、數(shù)據(jù)關(guān)聯(lián)性和并行計算體系結(jié)構(gòu)特征。我們需要選用適合基站應(yīng)急搶修調(diào)度的模型,如果模型不合適,需要進(jìn)行數(shù)據(jù)訓(xùn)練并且不斷進(jìn)行模型優(yōu)化調(diào)整,直至找到可用的模型。
第四步是數(shù)據(jù)的可視化展現(xiàn)。建模完成后,就需要對數(shù)據(jù)模型進(jìn)行可視化展現(xiàn),用形象的圖形方式向用戶展示結(jié)果。應(yīng)急搶修調(diào)度指揮系統(tǒng),我們需要關(guān)注以下幾個數(shù)據(jù)模塊:
1.網(wǎng)絡(luò)統(tǒng)計模塊,當(dāng)前全市各區(qū)基站的電力正常數(shù)量、停電基站數(shù)量、發(fā)電基站數(shù)量;
2.搶修資源模塊,如各基站到駐點的車程時間,搶修車輛數(shù)量,可用的車輛臺數(shù)、維修中的車輛臺數(shù),可用的發(fā)電機數(shù)量臺數(shù),維修中的發(fā)電機臺數(shù),以及其分布情況;
3.配套資源模塊,如蓄電池的型號容量,續(xù)航時間,開關(guān)電源模塊的可用數(shù)量等;
4.優(yōu)化調(diào)度方案的可視化推薦,以便于監(jiān)控中心值班人員進(jìn)行應(yīng)急搶修調(diào)度,常見的可視化技術(shù)有原位分析(In Situ Analysis)、標(biāo)簽云(Tag Cloud)、歷史流(history flow)、空間信息流(Spatial information flow)、不確定性分析等。
本項目應(yīng)用計劃部署在郴州的聯(lián)網(wǎng)服務(wù)區(qū),形成與視頻監(jiān)控網(wǎng)絡(luò)、內(nèi)部業(yè)務(wù)網(wǎng)絡(luò)的無縫連接,并結(jié)合實際應(yīng)用需求進(jìn)一步延伸至互聯(lián)網(wǎng),用以滿足跨部門、跨區(qū)域業(yè)務(wù)協(xié)作以及應(yīng)急處置的統(tǒng)一調(diào)度。
第一,建立統(tǒng)一的大數(shù)據(jù)中心:通過對接與整合原有系統(tǒng)資源,實現(xiàn)分散數(shù)據(jù)的集中管理,并建立透明跨引擎作業(yè)的數(shù)據(jù)交換平臺,提升異構(gòu)數(shù)據(jù)間復(fù)雜關(guān)聯(lián)處理性能。
圖 數(shù)據(jù)模型建立和優(yōu)化
第二,監(jiān)控中心:展現(xiàn)基站各模塊運行狀態(tài),包括對設(shè)備層、應(yīng)用層以及數(shù)據(jù)層進(jìn)行全方面的監(jiān)控,定義數(shù)據(jù)監(jiān)控指標(biāo)和傳輸規(guī)范,輸出友好的數(shù)據(jù)可視化界面。
第三,應(yīng)急事件調(diào)度中心:利用算法自動推薦應(yīng)急處置資源(支持人工干預(yù)),包括命令實施部署和監(jiān)督方法,能及時、有效地調(diào)集各種資源,實施險情控制和現(xiàn)場處理工作,減輕突發(fā)事件對基站運營安全造成威脅,用最有效的控制手段和小的資源投入,將損失控制在最小范圍內(nèi)。
第四,數(shù)據(jù)分析與智能報告中心基站故障排除后的數(shù)據(jù)收集,情況分析并記錄入大數(shù)據(jù)庫,并進(jìn)行大數(shù)據(jù)建模,分為以下五個步驟。
1.選擇模型:基于通信基站維護(hù)應(yīng)急調(diào)度問題,來選擇一個合適的數(shù)學(xué)模型。
2.訓(xùn)練模型:基于真實的業(yè)務(wù)數(shù)據(jù)來確定最合適的模型參數(shù)。
3.評估模型:將模型放在通信基站維護(hù)場景下來評估其預(yù)測的正確率、查全率、查準(zhǔn)率等。
4.應(yīng)用模型:評估模型質(zhì)量在可接受的范圍內(nèi),沒有出現(xiàn)過擬合,就可以開始應(yīng)用模型了,這一步,就需要將可用的模型開發(fā)出來,并部署在數(shù)據(jù)分析系統(tǒng)中,然后可以形成數(shù)據(jù)分析的模板和可視化的分析結(jié)果,以便實現(xiàn)自動化的數(shù)據(jù)分析報告。應(yīng)用模型,就是將模型應(yīng)用于真實的業(yè)務(wù)場景。構(gòu)建模型的目的,就是要用于解決工作中的業(yè)務(wù)問題的,比如預(yù)測基站故障等。當(dāng)然,應(yīng)用模型過程中,還需要收集業(yè)務(wù)預(yù)測結(jié)果與真實的業(yè)務(wù)結(jié)果,以檢驗?zāi)P驮谡鎸嵉臉I(yè)務(wù)場景中的效果,同時用于后續(xù)模型的優(yōu)化。
5.優(yōu)化模型:在評估模型時,如果發(fā)現(xiàn)模型欠擬合(即效果不佳)或者過擬合,則模型不可用,需要優(yōu)化模型。模型優(yōu)化,可以有以下幾種情況:重新選擇一個新的模型;模型中增加新的考慮因素;嘗試調(diào)整模型中的閾值到最優(yōu);嘗試對原始數(shù)據(jù)進(jìn)行更多的預(yù)處理,比如派生新變量。
通信技術(shù)的發(fā)展帶來了大量的通信基站的建立,當(dāng)通信基站發(fā)生故障等問題時存在著以下局限性:各部門間信息交換不夠及時和全面,代維單位的搶修能力達(dá)不到運營商的要求;對于重大的通信事故,往往需要協(xié)調(diào)通信公司內(nèi)各級的多個部門,跨運營商的配合處理很弱;除了運監(jiān)系統(tǒng)的工單派發(fā),指揮中心只能通過打電話等傳統(tǒng)方式指揮;對故障數(shù)據(jù)沒有系統(tǒng)化的積累和分析,事故處理的標(biāo)準(zhǔn)和規(guī)范等資料常常不能及時獲取,給應(yīng)急調(diào)度中領(lǐng)導(dǎo)決策帶來不便。
圍繞這一系列行業(yè)“痛點”進(jìn)行分析,本方案的探索具有以下應(yīng)用價值。突破了大數(shù)據(jù)與傳統(tǒng)通信的合作邊界,進(jìn)一步豐富通信基站業(yè)務(wù)應(yīng)用場景,為突發(fā)網(wǎng)絡(luò)障礙事件預(yù)測、故障診斷、溫度影響、電池梯級利用、維護(hù)維修、隱患處理等提供決策支撐。幫助基站運維企業(yè)節(jié)省運維人工成本和時間成本,提高客戶使用的滿意度?;诖髷?shù)據(jù)進(jìn)行事后恢復(fù)與總結(jié),通過事件中的信息捕獲、甄別加工信息、機器分析,最終總結(jié)反饋,從而改進(jìn)維護(hù)質(zhì)量,使得網(wǎng)絡(luò)運營更具健壯性。