丁毅堅
播出系統(tǒng)運維數(shù)據(jù)采集及業(yè)務(wù)流程智能監(jiān)控系統(tǒng)是根據(jù)實際工作需求形成的,集監(jiān)測、管理于一身的智能化、綜合化監(jiān)測、管理系統(tǒng),是基于IP的信息化管理平臺,涉及軟硬件監(jiān)管、信號流程監(jiān)管、工作流監(jiān)管、物理環(huán)境檢測、報警管理、日志管理、運維管理及客戶展現(xiàn)等內(nèi)容。它的建成將輔助工作人員,對系統(tǒng)內(nèi)的信號、設(shè)備、軟件、流程和環(huán)境等進(jìn)行自動化、智能化的監(jiān)管,并將監(jiān)管結(jié)果展現(xiàn)給工作人員,當(dāng)出現(xiàn)報警情況時,提供決策的輔助信息和詳細(xì)日志記錄和管理。網(wǎng)管系統(tǒng)采用信息集中采集、數(shù)據(jù)集中分析、分布分級報警的模式,真正做到輔助播出工作人員關(guān)注其應(yīng)該關(guān)注的流程,同時讓技術(shù)維護(hù)人員第一時間發(fā)現(xiàn)系統(tǒng)問題、解決問題。
與此同時,網(wǎng)管系統(tǒng)軟件和播出系統(tǒng)播出軟件無縫結(jié)合、良好的對接,可以保證在不影響播出系統(tǒng)軟件(包括播控模塊、上載模塊、總控模塊和素材遷移/管理模塊等子模塊)和硬件的基礎(chǔ)上,為安全播出進(jìn)一步提供保障和應(yīng)急。最終開發(fā)完成的網(wǎng)管系統(tǒng)作為電視播出軟件系統(tǒng)的輔助系統(tǒng),具備對電視播出中心的設(shè)備、軟件、機(jī)房環(huán)境等的狀態(tài)監(jiān)測功能,實現(xiàn)了基于網(wǎng)絡(luò)口方式或串口方式的軟硬件監(jiān)測和管理。網(wǎng)管系統(tǒng)提供了外部接口技術(shù)支持。
播出系統(tǒng)運維數(shù)據(jù)采集及業(yè)務(wù)流程智能監(jiān)控系統(tǒng)主體架構(gòu)如圖1。
圖1 主體架構(gòu)圖
系統(tǒng)采用分層設(shè)計。各設(shè)備插件負(fù)責(zé)對各類軟硬件系統(tǒng)進(jìn)行監(jiān)視和控制,并進(jìn)行各類數(shù)據(jù)的初步處理。
監(jiān)控采集服務(wù)負(fù)責(zé)向監(jiān)控終端及其他業(yè)務(wù)系統(tǒng)等提供接口,完成各業(yè)務(wù)模塊對監(jiān)控子系統(tǒng)的業(yè)務(wù)管理功能,監(jiān)控終端及業(yè)務(wù)系統(tǒng)向監(jiān)控服務(wù)發(fā)送各類設(shè)備監(jiān)控命令,實現(xiàn)對設(shè)備的監(jiān)測和控制;各類分析插件用于與網(wǎng)管系統(tǒng)與其他各個業(yè)務(wù)系統(tǒng)(如播出等)進(jìn)行連接,獲取業(yè)務(wù)信息,并結(jié)合業(yè)務(wù)信息和相應(yīng)設(shè)備的運行情況,進(jìn)行報警的分析和過濾;核心服務(wù)器需要對動態(tài)故障分析和場景處理、信號和系統(tǒng)設(shè)備關(guān)聯(lián)的邏輯報警進(jìn)行判斷與處理;監(jiān)控客戶端獲取監(jiān)控服務(wù)的監(jiān)視數(shù)據(jù)進(jìn)行實時顯示。配置管理則對整個監(jiān)控子系統(tǒng)的各類設(shè)備進(jìn)行管理。
監(jiān)控采集服務(wù)器是網(wǎng)管系統(tǒng)中負(fù)責(zé)數(shù)據(jù)采集和分析過濾的模塊,為監(jiān)控核心服務(wù)器的業(yè)務(wù)流程提供基礎(chǔ)的數(shù)據(jù)支持。監(jiān)控采集服務(wù)器和核心服務(wù)器采用服務(wù)器/客戶端的架構(gòu)模式,通過網(wǎng)絡(luò)鏈路進(jìn)行數(shù)據(jù)交換,共同完成系統(tǒng)監(jiān)控任務(wù)。
監(jiān)控采集服務(wù)器在詳細(xì)設(shè)計階段可以劃分為三大系統(tǒng)單元,包括設(shè)備信息管理單元、設(shè)備驅(qū)動管理單元、數(shù)據(jù)分析過濾單元。
設(shè)備信息管理單元負(fù)責(zé)服務(wù)器全局事件的調(diào)度,完成監(jiān)控命令轉(zhuǎn)發(fā),數(shù)據(jù)路由、監(jiān)控結(jié)果回收,緊急事件處理等。設(shè)備驅(qū)動管理單元是監(jiān)控服務(wù)器的核心,負(fù)責(zé)管理所有監(jiān)控設(shè)備的信息結(jié)構(gòu),設(shè)備驅(qū)動,并連接實際物理設(shè)備進(jìn)行數(shù)據(jù)采集。數(shù)據(jù)分析過濾單元負(fù)責(zé)對采集出的原始數(shù)據(jù)進(jìn)行分析、過濾,生成相應(yīng)的報警文件。
監(jiān)控采集服務(wù)器內(nèi)部分為監(jiān)控信息管理器、驅(qū)動管理器和分析過濾器三大單元。驅(qū)動管理器負(fù)責(zé)連接物理設(shè)備進(jìn)行數(shù)據(jù)采集,控制和采集接口負(fù)責(zé)與外部系統(tǒng)進(jìn)行交互。公共組件單元為系統(tǒng)提供諸如日志、全局隊列、數(shù)據(jù)庫服務(wù)等支持。
數(shù)據(jù)采集更新流程如圖2。
圖2 數(shù)據(jù)采集更新流程圖
5.1.1 系統(tǒng)組成
系統(tǒng)由監(jiān)控采集服務(wù)器、消息中間件、核心服務(wù)器和網(wǎng)管客戶端幾個重要應(yīng)用服務(wù)組成。
5.1.2 通訊方式
系統(tǒng)中被監(jiān)控設(shè)備由相應(yīng)的設(shè)備驅(qū)動負(fù)責(zé)進(jìn)行通訊和解析數(shù)據(jù)消息,得到設(shè)備運行狀態(tài)及告警信息。因設(shè)備提供通訊協(xié)議不同,主要有SNMP、串口、網(wǎng)絡(luò)三類通訊方式。本系統(tǒng)中配電柜、空調(diào)、溫控器使用串口通訊,播出業(yè)務(wù)通過網(wǎng)絡(luò)通訊,其他大部分周邊設(shè)備使用SNMP進(jìn)行通訊。通訊方式以采集服務(wù)器輪詢?yōu)橹?,設(shè)備主動推送變更信息為輔助手段。
5.1.3 設(shè)備
系統(tǒng)所監(jiān)控的周邊板塊設(shè)備、播出業(yè)務(wù)統(tǒng)一稱為設(shè)備,有統(tǒng)一的數(shù)據(jù)結(jié)構(gòu),針對不同設(shè)備開發(fā)了不同的驅(qū)動DLL,變更數(shù)據(jù)都經(jīng)過驅(qū)動傳遞到采集緩存中,并進(jìn)一步分析得到報警信息。采集服務(wù)器和核心服務(wù)器通過中間件進(jìn)行通訊,本系統(tǒng)中播出系統(tǒng)業(yè)務(wù)監(jiān)控、周邊板卡服務(wù)器等硬件設(shè)備分為不同的采集服務(wù)器管理。
5.1.4 客戶端
客戶端面相終端用戶,因辦公位置不固定,可以部署多個客戶端,每個客戶端可定制不同設(shè)備列表,當(dāng)核心服務(wù)器獲得該設(shè)備變更后,會根據(jù)設(shè)備ID檢查哪個客戶端訂閱了此設(shè)備,從而推送設(shè)備信息到相應(yīng)客戶端上。
播出業(yè)務(wù)流程監(jiān)測主要包括節(jié)目單流程、素材流程,負(fù)責(zé)收集播出內(nèi)部數(shù)據(jù),按照播出業(yè)務(wù)進(jìn)行智能分析,把業(yè)務(wù)流程更直觀的展現(xiàn)給用戶,方便用戶定位故障位置,找出錯誤原因,確保安全播出。
首先,運維程序可訪問播控系統(tǒng)數(shù)據(jù)庫,獲取數(shù)據(jù)庫節(jié)目單;其次,運維程序提供HTTP服務(wù),等待播出、上載、節(jié)目單網(wǎng)關(guān)、時鐘、一致性檢測等軟件的心跳消息,判斷各模塊是否在線運行,同時接受各模塊推送的數(shù)據(jù)變更信息以及軟件報警信息;再次,運維程序根據(jù)播出時間,進(jìn)行智能分析,檢查在線播出素材未關(guān)聯(lián)素材信息,并能夠通知網(wǎng)管系統(tǒng);再次,網(wǎng)管系統(tǒng)提供播出驅(qū)動插件,用來和播控系統(tǒng)運維程序通訊,接受和主動查詢播控業(yè)務(wù)信息;再次,播出驅(qū)動獲得數(shù)據(jù)更新后,進(jìn)行智能分析判斷,設(shè)置報警狀態(tài),將更新數(shù)據(jù)及存在的報警信息通知到監(jiān)控采集服務(wù)器;再次,監(jiān)控采集服務(wù)器收到數(shù)據(jù)、報警更新消息后,根據(jù)預(yù)先定義邏輯進(jìn)行分析和過濾,避免發(fā)送重復(fù)數(shù)據(jù),造成核心服務(wù)器壓力過大,未被過濾的消息被投遞到中間件平臺;再次,核心服務(wù)器啟動后一直訂閱采集服務(wù)器投遞的消息,當(dāng)收到消息后,進(jìn)行解析構(gòu)建核心數(shù)據(jù)緩存,并通過Web service調(diào)用通知監(jiān)控客戶端刷新界面,或觸發(fā)報警動作;最后,網(wǎng)管客戶端接收到數(shù)據(jù)變更通知后,記錄數(shù)據(jù)變更日志到數(shù)據(jù)庫中,并觸發(fā)相應(yīng)的邏輯圖或展示界面,如有報警可觸發(fā)相應(yīng)的報警盒設(shè)置,提醒值班人員進(jìn)行注意和處理問題。
首先,采集服務(wù)器主動輪詢設(shè)備,得到實時的設(shè)備信息。其次,設(shè)備狀態(tài)發(fā)生變更后,主動向采集推送變更數(shù)據(jù)。再次,采集服務(wù)器獲取到變更數(shù)據(jù)后,判斷設(shè)備狀態(tài)緩存池內(nèi)是否存在設(shè)備的狀態(tài)記錄,判斷是否重復(fù),如果重復(fù)則刷新數(shù)據(jù)變更時間;如果不存在或數(shù)據(jù)有,則傳遞數(shù)據(jù)到報警分析層。再次,采集服務(wù)器報警分析獲取變更數(shù)據(jù)后,根據(jù)設(shè)備ID及設(shè)備類型獲取到設(shè)備報警策略設(shè)置,判斷變更數(shù)據(jù)是否超出正常范圍,若數(shù)據(jù)值處于正常范圍內(nèi)則生成數(shù)據(jù)變更請求,若超出正常范圍則生成報警請求并設(shè)置報警狀態(tài)和報警級別,將報警及數(shù)據(jù)繼續(xù)傳遞到核心服務(wù)器。最后,核心服務(wù)器接收到數(shù)據(jù)變更和報警請求后,根據(jù)設(shè)備ID判斷哪些客戶端訂閱了該設(shè)備,把設(shè)備數(shù)據(jù)變更信息和報警信息推送到相應(yīng)的客戶端。
播出系統(tǒng)運維數(shù)據(jù)采集和業(yè)務(wù)流程智能監(jiān)控系統(tǒng),作為電視播出軟件系統(tǒng)的輔助系統(tǒng),通過大量的技術(shù)創(chuàng)新,最終達(dá)到了性能穩(wěn)定、功能全面、安全可靠和操作方便的目標(biāo)。該系統(tǒng)智能地整合了播出系統(tǒng)中所需的監(jiān)控信息,貼近值班運維工作的實際需求,一方面極大地豐富了播出系統(tǒng)的運維手段,有效提升了運維人員的運維效能,另一方面,系統(tǒng)的建成有效地為播出一線值班人員提供了及時、全面且準(zhǔn)確的播出預(yù)警輔助訊息,切實提升了新環(huán)境下廣播電視安全優(yōu)質(zhì)播出工作的手段與方式。從而全面的提升了播出系統(tǒng)的安全播放水平和運維效率。