張玲艷,蘇臨霖
(中國(guó)移動(dòng)通信集團(tuán)廣西有限公司,廣西 南寧 530022)
隨著網(wǎng)絡(luò)信息技術(shù)的飛速發(fā)展,各行各業(yè)的信息化水平日益提高,用戶基于運(yùn)營(yíng)商基礎(chǔ)網(wǎng)絡(luò)服務(wù)相應(yīng)產(chǎn)生的數(shù)據(jù)規(guī)模海量提升。而隨著大數(shù)據(jù)技術(shù)的發(fā)展,數(shù)據(jù)的作用不斷凸現(xiàn),不但可以幫助運(yùn)營(yíng)商提升運(yùn)營(yíng)效率和經(jīng)營(yíng)績(jī)效、還會(huì)帶動(dòng)新商業(yè)模式和運(yùn)營(yíng)模式的產(chǎn)生,運(yùn)營(yíng)商對(duì)數(shù)據(jù)的重視和投入也在不斷提升,運(yùn)營(yíng)商的大數(shù)據(jù)時(shí)代來(lái)臨。
通過(guò)數(shù)據(jù)挖掘分析,從海量用戶行為數(shù)據(jù)中挖掘用戶消費(fèi)特性,進(jìn)行精準(zhǔn)營(yíng)銷,推薦各類業(yè)務(wù)和應(yīng)用,直接提升經(jīng)營(yíng)績(jī)效;結(jié)合網(wǎng)絡(luò)管理維護(hù)數(shù)據(jù)、供應(yīng)鏈、企業(yè)內(nèi)部財(cái)務(wù)等數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)運(yùn)行質(zhì)量分析、戰(zhàn)略分析、成本分析等,有效支撐企業(yè)決策,提升運(yùn)營(yíng)效率。
另一方面,可基于行業(yè)內(nèi)部數(shù)據(jù)進(jìn)行用戶行為還原、行為分析、行為預(yù)判,將行業(yè)客戶數(shù)據(jù)封裝為服務(wù),形成可對(duì)外開放、可商業(yè)化的核心能力,嘗試與外部數(shù)據(jù)打通互聯(lián),共同運(yùn)營(yíng),為各行業(yè)提供創(chuàng)造新的服務(wù)價(jià)值。
隨著業(yè)務(wù)的快速增長(zhǎng)和日趨復(fù)雜,運(yùn)營(yíng)商大數(shù)據(jù)系統(tǒng)的數(shù)據(jù)流轉(zhuǎn)和處理環(huán)節(jié)越來(lái)越多,數(shù)據(jù)管理越來(lái)越復(fù)雜,數(shù)據(jù)質(zhì)量保障的難度也越來(lái)越大。日趨復(fù)雜的數(shù)據(jù)邏輯對(duì)數(shù)據(jù)質(zhì)量提出越來(lái)越高的要求。
運(yùn)營(yíng)商的企業(yè)級(jí)數(shù)據(jù)分類覆蓋B域(業(yè)務(wù)運(yùn)營(yíng)域)、O域(網(wǎng)絡(luò)域)、M域(管理域)及S域(系統(tǒng)管理域)四域所有數(shù)據(jù)類型,囊括了用戶參與人、服務(wù)、資源、事件、賬務(wù)、營(yíng)銷、財(cái)務(wù)、工程、組織、網(wǎng)絡(luò)、互聯(lián)網(wǎng)等基礎(chǔ)主題域,又在此上衍生了融合模型及分析模型等應(yīng)用,數(shù)據(jù)類型復(fù)雜,進(jìn)一步加劇了數(shù)據(jù)質(zhì)量的管理難度。
通過(guò)開展數(shù)據(jù)質(zhì)量管理工作,可以獲得準(zhǔn)確、結(jié)構(gòu)清晰的數(shù)據(jù),是企業(yè)開發(fā)大數(shù)據(jù)產(chǎn)品、提供對(duì)外數(shù)據(jù)服務(wù)、發(fā)揮大數(shù)據(jù)價(jià)值的必要前提。為了實(shí)現(xiàn)數(shù)據(jù)治理的總體目標(biāo):通過(guò)“強(qiáng)管控、治數(shù)據(jù)、顯價(jià)值”,逐步實(shí)現(xiàn)海量數(shù)據(jù)“進(jìn)得來(lái)、看得見、管得住、用得好”, 推動(dòng)數(shù)據(jù)作為“新生產(chǎn)要素”的核心價(jià)值實(shí)現(xiàn),最終支撐數(shù)字化轉(zhuǎn)型戰(zhàn)略目標(biāo)的實(shí)現(xiàn)。
為支撐數(shù)字化轉(zhuǎn)型戰(zhàn)略目標(biāo)的實(shí)現(xiàn),通過(guò)改造和優(yōu)化現(xiàn)有IT基礎(chǔ)設(shè)施,構(gòu)建數(shù)據(jù)質(zhì)量預(yù)警閾值自適應(yīng)模型,建立數(shù)據(jù)質(zhì)量統(tǒng)一預(yù)警中心,基于生命周期的各環(huán)節(jié)建立閉環(huán)反饋機(jī)制,建設(shè)數(shù)據(jù)質(zhì)量智能化監(jiān)控體系。
建立預(yù)警閾值自適應(yīng)模型,實(shí)現(xiàn)預(yù)警閾值的靈活調(diào)整,避免大量無(wú)效告警。
為避免告警冗余,大批量預(yù)警需依賴人工處理的問題,針對(duì)預(yù)警信息進(jìn)行總結(jié)歸納,完成對(duì)指標(biāo)閾值的盤點(diǎn),結(jié)合歷史經(jīng)驗(yàn),研發(fā)預(yù)警閥值自適應(yīng)模型,通過(guò)該模型設(shè)置預(yù)警條件,打造指標(biāo)閾值自適應(yīng)體系,根據(jù)時(shí)間、業(yè)務(wù)場(chǎng)景的變化,自動(dòng)調(diào)整指標(biāo)的預(yù)警閾值。本項(xiàng)目已建立3類預(yù)警閾值自適應(yīng)模型,基本滿足業(yè)務(wù)指標(biāo)異動(dòng)的監(jiān)控預(yù)警需求。具體模型如下。
(1)均值模型:預(yù)警閾值按照近90天或30天(日期可調(diào)整)平均數(shù)進(jìn)行滾動(dòng)更新。
(2)周期與均值結(jié)合模型:一個(gè)自然月內(nèi)不同日期的數(shù)據(jù)波動(dòng)預(yù)警閾值取歷史同周期數(shù)據(jù)的均值進(jìn)行滾動(dòng)更新。
(3)方差模型:部分關(guān)鍵指標(biāo)計(jì)算各地市與全區(qū)合計(jì)的方差識(shí)別指標(biāo)異動(dòng)情況。
通過(guò)預(yù)警閾值自適應(yīng)模型,實(shí)現(xiàn)了預(yù)警閾值的靈活調(diào)整,避免了業(yè)務(wù)量變化而預(yù)警閥值固定的無(wú)效預(yù)警。
應(yīng)用時(shí)間序列模型,預(yù)警配置靈活性高??捎糜跀?shù)據(jù)接口分級(jí)聯(lián)動(dòng)保障,對(duì)接口審核數(shù)據(jù)的完整性、一致性的波動(dòng),對(duì)接口審核考核和業(yè)務(wù)指標(biāo)的波動(dòng)合理性,針對(duì)每一接口、指標(biāo)各自定義其歷史變化趨勢(shì)和變化基數(shù),應(yīng)用時(shí)間序列模型,通過(guò)歷史變化的均值和方差定義95%的置信度,精準(zhǔn)定義波動(dòng)合理性及告警,提升異常數(shù)據(jù)傳輸?shù)母婢瘻?zhǔn)確性,提升接口數(shù)據(jù)傳輸、上報(bào)質(zhì)量;對(duì)不同業(yè)務(wù)指標(biāo)數(shù)據(jù)定義不同的數(shù)據(jù)波動(dòng)監(jiān)控,對(duì)同一接口建立多個(gè)不同的數(shù)據(jù)監(jiān)控,使接口數(shù)據(jù)質(zhì)量保障具有多維度可信效果。該工作填補(bǔ)了數(shù)據(jù)完整性、數(shù)據(jù)準(zhǔn)確性方向的數(shù)據(jù)質(zhì)量智能預(yù)警監(jiān)控的空白。
建立大數(shù)據(jù)質(zhì)量監(jiān)控統(tǒng)一預(yù)警中心,主要包括兩大功能模塊:一是建立智能監(jiān)控池,二是告警池心跳守護(hù)機(jī)制,可有效提升系統(tǒng)穩(wěn)定性。
建立智能監(jiān)控池,形成大數(shù)據(jù)質(zhì)量監(jiān)控統(tǒng)一預(yù)警中心,對(duì)接IVR電話告警系統(tǒng),實(shí)現(xiàn)數(shù)據(jù)質(zhì)量保障IT換人。
通過(guò)梳理數(shù)據(jù)質(zhì)量人工監(jiān)控核查流程,將人工核查過(guò)程中的常規(guī)數(shù)據(jù)核查點(diǎn)固化,提煉全流程各控制點(diǎn)的監(jiān)控規(guī)則,包含上游數(shù)據(jù)到達(dá)監(jiān)控、程序運(yùn)行情況監(jiān)控、以及接口增刪改等關(guān)鍵環(huán)節(jié)的監(jiān)控,形成監(jiān)控池,監(jiān)控池中各項(xiàng)監(jiān)控規(guī)則的落地基于Python開發(fā)。
為確保監(jiān)控池正常運(yùn)行,確保異常時(shí)可真正觸發(fā)告警,同步建立監(jiān)控告警池的心跳保護(hù)機(jī)制,防止監(jiān)控告警池失效。
告警池心跳守護(hù)機(jī)制,可有效提升系統(tǒng)穩(wěn)定性,告警池是統(tǒng)一預(yù)警中心的核心,為保證告警池的有效性,本項(xiàng)目基于shell腳本開發(fā)告警池心跳守護(hù)機(jī)制, 每30分鐘探測(cè)告警池的運(yùn)作狀態(tài),探測(cè)信息分別通過(guò)告警系統(tǒng)與系統(tǒng)端口短信通知運(yùn)維人員。守護(hù)機(jī)制大幅提高了告警池的穩(wěn)定性。自試運(yùn)行以來(lái),告警池暫停作業(yè)的異常情況共5次,均被心跳守護(hù)機(jī)制及時(shí)捕捉,并及時(shí)修復(fù)。
多監(jiān)控功能集成于前臺(tái)頁(yè)面展示,將告警界面化集成化可視化,預(yù)警信息全流程可視化,預(yù)警過(guò)程可管[1]。
基于Python3(程序語(yǔ)言)+yaml+unittest,建設(shè)預(yù)警查詢系統(tǒng),系統(tǒng)化查詢當(dāng)天數(shù)據(jù)情況,出錯(cuò)情況, 建立集中化可視化的平臺(tái)一體化呈現(xiàn)界面,直觀展現(xiàn)數(shù)據(jù)上報(bào)情況,提升維護(hù)效率。對(duì)接口數(shù)據(jù)進(jìn)行可視化的監(jiān)控,將接口數(shù)據(jù)的不可控性,轉(zhuǎn)化為前端頁(yè)面的可視化,使得數(shù)據(jù)生成的全流程在前端頁(yè)面全部呈現(xiàn),在維護(hù)工作中,能可視化監(jiān)控接口上報(bào)的每一個(gè)系統(tǒng)控制點(diǎn),保障數(shù)據(jù)質(zhì)量工作的穩(wěn)定進(jìn)行。
(1)集成化:該平臺(tái)集成了接口上報(bào)監(jiān)控、程序運(yùn)行狀況監(jiān)控、考核指標(biāo)監(jiān)控與數(shù)據(jù)波動(dòng)監(jiān)控等功能,通過(guò)前臺(tái)界面展示,維護(hù)人員在該監(jiān)控界面可對(duì)接口數(shù)據(jù)處理過(guò)程進(jìn)行直觀監(jiān)控處理。
(2)可視化:構(gòu)建前臺(tái)界面實(shí)現(xiàn)數(shù)據(jù)維護(hù)過(guò)程可視化,幫助維護(hù)人員直觀快速地發(fā)現(xiàn)異常問題并進(jìn)行及時(shí)處理,實(shí)現(xiàn)數(shù)據(jù)維護(hù)工作的高效化。將接口監(jiān)控維護(hù)業(yè)務(wù)流程。
一方面提升數(shù)據(jù)質(zhì)量管控能力,確保經(jīng)營(yíng)決策數(shù)據(jù)準(zhǔn)確性;另一方面解決接口維護(hù)繁雜、效率低與無(wú)法整體展現(xiàn)的問題,以提高日常運(yùn)維的工作效率。
預(yù)警后評(píng)估,賦能智能運(yùn)維:為持續(xù)優(yōu)化預(yù)警策略,每半個(gè)月定期對(duì)預(yù)警數(shù)據(jù)進(jìn)行分析,基于shell腳本建立了預(yù)警后評(píng)估模型,由后評(píng)估模型輸出預(yù)警策略優(yōu)化建議,如長(zhǎng)期頻繁預(yù)警,但探測(cè)到數(shù)據(jù)正常則優(yōu)化預(yù)警規(guī)則,未探測(cè)到數(shù)據(jù)源則優(yōu)化數(shù)據(jù)源生成方案等。自試運(yùn)行以來(lái),通過(guò)后評(píng)估模型完成了120條預(yù)警規(guī)則的優(yōu)化,提升了告警有效性。
當(dāng)上報(bào)流程中的關(guān)鍵監(jiān)控點(diǎn)觸發(fā)監(jiān)控池時(shí),智能監(jiān)控池自動(dòng)將告警信息實(shí)時(shí)推送至IVR電話告警平臺(tái),由告警平臺(tái)通過(guò)短信、IVR電話通知告警點(diǎn)責(zé)任人,當(dāng)告警級(jí)別達(dá)到人工干預(yù)級(jí)別時(shí)再人工處理,由實(shí)施前全流程人工監(jiān)控的模式改變?yōu)轫?xiàng)目實(shí)施后按需處理系統(tǒng)告警的形式。告警實(shí)現(xiàn)流程如圖1所示。
數(shù)據(jù)質(zhì)量是數(shù)據(jù)運(yùn)營(yíng)服務(wù)體系的生命線,該智能化監(jiān)控管理工具目前已應(yīng)用在數(shù)據(jù)質(zhì)量日常管控的多個(gè)場(chǎng)景中,并取得了顯著成效[2]。
從數(shù)據(jù)質(zhì)量監(jiān)管效能的角度,該成果全面提升質(zhì)量工作管控水平,實(shí)現(xiàn)接口全流程的系統(tǒng)自動(dòng)處理和精細(xì)化管理,提升了預(yù)警自適應(yīng)處理的技術(shù)手段,讓數(shù)據(jù)質(zhì)量問題自查及整改工作更及時(shí)、更高效。
項(xiàng)目實(shí)施后,夜間異常處理次數(shù)月均9次減少到目前月均4次,記錄校驗(yàn)異常次數(shù)從月均7次減少到目前月均3次,文件校驗(yàn)異常次數(shù)從月均3次減少到目前月均1次。從根本上達(dá)到主管部門相應(yīng)的考核要求,異常處理月均降低了75%。
圖2 實(shí)施前后夜間異常處理次數(shù)對(duì)比
從數(shù)據(jù)質(zhì)量管控智能化的角度,本成果為數(shù)據(jù)質(zhì)量與及時(shí)性提升充分發(fā)揮作用,增強(qiáng)了智慧運(yùn)維能力。
該成果的實(shí)現(xiàn)最后是以監(jiān)控池的形式落地的,數(shù)據(jù)中臺(tái)各項(xiàng)應(yīng)用的質(zhì)量監(jiān)控經(jīng)過(guò)評(píng)審后均可納入監(jiān)控池,統(tǒng)一管理,現(xiàn)已成功將該經(jīng)驗(yàn)復(fù)制推廣到各中臺(tái)子系統(tǒng)的數(shù)據(jù)質(zhì)量維護(hù)工作,大數(shù)據(jù)應(yīng)用共計(jì)約800余個(gè)監(jiān)控點(diǎn)已納入統(tǒng)一預(yù)警中心進(jìn)行統(tǒng)一監(jiān)控及預(yù)警,覆蓋當(dāng)前重點(diǎn)關(guān)注應(yīng)用80%。
經(jīng)統(tǒng)計(jì),入監(jiān)控池監(jiān)控的關(guān)鍵報(bào)表,出數(shù)及時(shí)率由原來(lái)的81%提升至94%,有效地提升了應(yīng)用穩(wěn)定性, 減少內(nèi)部客戶投訴量,提升了IT服務(wù)質(zhì)量。
通過(guò)建設(shè)數(shù)據(jù)質(zhì)量智能化監(jiān)控體系,提升了工作效率,并創(chuàng)造了較好的經(jīng)濟(jì)和社會(huì)效益。
傳統(tǒng)方式數(shù)據(jù)質(zhì)量保障工作人工值班保障,易出錯(cuò)且效率極低,能力輸出缺乏標(biāo)準(zhǔn)化,運(yùn)維質(zhì)量嚴(yán)重制約于人。本智能化監(jiān)控體系通過(guò)基于統(tǒng)一預(yù)警中心實(shí)現(xiàn)程序與數(shù)據(jù)異常的靈活預(yù)警,同時(shí)不斷沉淀接口運(yùn)維經(jīng)驗(yàn),優(yōu)化告警策略,固化自動(dòng)化上報(bào)流程,不斷減少告警數(shù)量,降低對(duì)數(shù)據(jù)信息流的人為干預(yù)次數(shù),提升了數(shù)據(jù)質(zhì)量的運(yùn)維效率[3]。
通過(guò)建立完善的數(shù)據(jù)質(zhì)量監(jiān)控保障體系,保障了接口數(shù)據(jù)的穩(wěn)定性和準(zhǔn)確性,節(jié)約成本,構(gòu)造起數(shù)據(jù)質(zhì)量維護(hù)方面的智能化運(yùn)維模型,貫徹了IT換人要求。
(1)構(gòu)建統(tǒng)一預(yù)警中心,實(shí)現(xiàn)數(shù)據(jù)中臺(tái)質(zhì)量統(tǒng)一預(yù)警,提升數(shù)據(jù)質(zhì)量管控效率及管控智能化水平,助力公司數(shù)智化轉(zhuǎn)型。
(2)推進(jìn)數(shù)據(jù)質(zhì)量智能運(yùn)營(yíng),沉淀優(yōu)秀能力。本項(xiàng)目在開發(fā)過(guò)程中,沉淀了3個(gè)通用預(yù)警模型能力,形成標(biāo)準(zhǔn)化能力封裝。
(3)推進(jìn)核心能力自主可控。本項(xiàng)目主體能力全部由自有人員完成主體方案設(shè)計(jì),從前端可視化監(jiān)控頁(yè)面開發(fā),到后端的智能監(jiān)控池、預(yù)警閥值自適應(yīng)模型的開發(fā),均由自有人員完成,逐步推進(jìn)核心能力的自主掌控。■