黃青逢
(廣西廣播電視技術中心,廣西 南寧 530000)
在信息化時代,民眾對廣播電視提出更高的要求。無線發(fā)射臺站作為信息傳播的關鍵環(huán)節(jié),傳統(tǒng)的數(shù)據(jù)處理方式已經(jīng)難以滿足其快速發(fā)展的需求。大數(shù)據(jù)中心的建設能夠實現(xiàn)對海量數(shù)據(jù)的高效處理、存儲和分析,從而為節(jié)目傳輸、播出及監(jiān)測等環(huán)節(jié)提供有力支持。因此,建設適用于廣播電視無線發(fā)射臺站的大數(shù)據(jù)中心至關重要。通過高效處理、存儲和分析海量數(shù)據(jù),能夠深入挖掘潛在有用信息和廣播電視行業(yè)發(fā)展趨勢,為決策提供科學依據(jù)。
大數(shù)據(jù)是指規(guī)模龐大、類型多樣、處理速度快的數(shù)據(jù)集合[1]。這些數(shù)據(jù)集合通常難以由傳統(tǒng)數(shù)據(jù)庫工具捕捉、存儲、管理和處理,是需要新處理模式才具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。業(yè)界通常用5 個V——Volume(大量)、Variety(多樣)、Value(價值)、Velocity(高速)和Veracity(真實性)來概括大數(shù)據(jù)的特征[2],即數(shù)據(jù)體量巨大、數(shù)據(jù)類型繁多、價值密度低、處理速度快、真實性和準確性。
廣播電視行業(yè)包含的設備監(jiān)控數(shù)據(jù)、結構化數(shù)據(jù)、文本、音頻、視頻、碼流、設備告警信息及監(jiān)控視頻等各類數(shù)據(jù)符合大數(shù)據(jù)的特征。因此,有必要建設一個數(shù)據(jù)中心,數(shù)據(jù)中心的系統(tǒng)結構應包含數(shù)據(jù)源、數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)處理和分析以及數(shù)據(jù)展示,系統(tǒng)結構如圖1 所示。
圖1 數(shù)據(jù)中心系統(tǒng)結構
數(shù)據(jù)采集應全面、準確收集節(jié)目傳輸、播出、監(jiān)測和設備運行狀態(tài)等各個環(huán)節(jié)的數(shù)據(jù)。數(shù)據(jù)中心可以利用各種傳感器、智能設備和網(wǎng)絡爬蟲等技術手段進行數(shù)據(jù)采集。首先根據(jù)臺站的業(yè)務和數(shù)據(jù)處理需求,確定需要采集的數(shù)據(jù)范圍和目標。目前,數(shù)據(jù)中心要處理的數(shù)據(jù)主要包括臺站的基礎信息、設備信息、播出信息、監(jiān)控信息及監(jiān)測信息等,除臺站相關數(shù)據(jù)外,還包括人員、機構、文件、網(wǎng)絡及信息系統(tǒng)等等。這些數(shù)據(jù)可以采集自遠程監(jiān)控平臺、臺站數(shù)據(jù)管理系統(tǒng)、監(jiān)測系統(tǒng)、辦公自動化(Office Automation,OA)軟件、人力資源管理系統(tǒng)、通信設備、網(wǎng)絡及文件系統(tǒng)等[3]。其次,根據(jù)數(shù)據(jù)類型和采集需求,選擇適合的數(shù)據(jù)采集方法和技術。通??梢允褂门老x程序采集應用程序編程接口(Application Programming Interface,API)、Web頁面數(shù)據(jù),使用數(shù)據(jù)采集卡、傳感器、Kafka 等采集設備實時數(shù)據(jù),使用數(shù)據(jù)集采集關系型數(shù)據(jù)里的數(shù)據(jù)。
為支持大規(guī)模數(shù)據(jù)存儲和處理,實現(xiàn)數(shù)據(jù)的分布式存儲和高效訪問,可采用Hadoop 架構,部署分布式文件系統(tǒng)(Hadoop Distributed File System,HDFS),并使用高性能、可擴展的存儲設備和存儲區(qū)域網(wǎng)絡(Storage Area Network,SAN)。
數(shù)據(jù)處理和分析需要對采集后的數(shù)據(jù)進行格式化和規(guī)范化處理,從海量數(shù)據(jù)中提取出對決策有潛在價值的數(shù)據(jù)、關系、模式和趨勢,并在此基礎上建立決策支持模型??梢允褂肕apReduce 進行數(shù)據(jù)的清洗、轉換和加載,使用Microsoft Excel 軟件進行簡單的篩選、排序、計算等操作,使用Python 進行缺失異常值處理、重復值刪除、數(shù)據(jù)變換等操作[4],使用潤乾報表的集算器進行多源結構化查詢語言(Structured Query Language,SQL)查詢。數(shù)據(jù)經(jīng)過以上復雜的處理后,才能更加準確、可靠地供給業(yè)務分析和應用系統(tǒng)調(diào)用。
處理后的數(shù)據(jù)存儲在分布式存儲系統(tǒng)中,實現(xiàn)數(shù)據(jù)的統(tǒng)一管理和訪問。可以采用MySQL、MongoDB、Redis 等數(shù)據(jù)庫構建靈活、高效的數(shù)據(jù)存儲和管理架構,實現(xiàn)大量分布式數(shù)據(jù)的快速處理、讀寫訪問。
采用數(shù)據(jù)挖掘、機器學習等數(shù)據(jù)分析工具和方法對數(shù)據(jù)進行深入分析。通過數(shù)據(jù)分析發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在規(guī)律和趨勢,為決策提供支持。數(shù)據(jù)分析主要關注影響安全播出的主要因素、事故類型,關注臺站規(guī)劃建設的合理性、關注無線廣播電視相關業(yè)務的發(fā)展趨勢以及關注隱含的、潛在的、未知的安全隱患等。
數(shù)據(jù)展示方面,可以使用潤乾報表工具實現(xiàn)數(shù)據(jù)可視化。該工具支持切片、切塊、鉆取、上卷及旋轉等多維分析常見操作,支持復雜報表,集成ECharts 大屏,百萬數(shù)據(jù)秒級展現(xiàn)。展現(xiàn)內(nèi)容包括節(jié)目播出時間、機器維護時間、各級臺站節(jié)目停播率統(tǒng)計,各類設備故障統(tǒng)計和分析、臺站斷聯(lián)統(tǒng)計分析、播出情況統(tǒng)計分析、歷年數(shù)據(jù)對比、監(jiān)控系統(tǒng)設備通信情況、實時告警查詢、工單統(tǒng)計、無音頻告警分析以及實時故障統(tǒng)計分析等。這些數(shù)據(jù)分析的可視化展現(xiàn),為決策制定、業(yè)務優(yōu)化和創(chuàng)新提供更準確、更全面的數(shù)據(jù)支持。
基礎設施建設是實現(xiàn)數(shù)據(jù)中心的前提條件,需要綜合考慮硬件、軟件、網(wǎng)絡及安全等多個方面,確保高性能、高可用性和安全性??梢赃x擇適用于大數(shù)據(jù)處理的高性能服務器,部署HDFS 分布式文件系統(tǒng),采用高帶寬、低延遲的網(wǎng)絡設備,并進行合理的配置。合理規(guī)劃數(shù)據(jù)中心的基礎架構,包括計算、存儲和網(wǎng)絡的布局和配置,實現(xiàn)計算、存儲和網(wǎng)絡的有機整合和高效協(xié)作,提高整體性能。加強數(shù)據(jù)中心的安全建設,包括物理安全、網(wǎng)絡安全和數(shù)據(jù)安全等方面。建立完善的安全防護體系,采取SD-WAN網(wǎng)關安全組件、日志審計系統(tǒng)和身份認證、數(shù)據(jù)加密等技術,防止未經(jīng)授權的訪問和攻擊,確保數(shù)據(jù)在傳輸和存儲過程中的安全性。設計并實施完善的災備和容災計劃,采用定期全量備份結合增量備份和異地備份,確保數(shù)據(jù)的安全性和可恢復性。
建立完善的數(shù)據(jù)治理和標準化體系,可以更好地管理和利用數(shù)據(jù),提高數(shù)據(jù)質(zhì)量、可靠性和一致性[5],確保大數(shù)據(jù)中心的高效運行,具體包括以下內(nèi)容。一是制定明確的數(shù)據(jù)管理制度和規(guī)范,包括數(shù)據(jù)的目錄、分類、編碼、存儲及備份等方面;二是制定統(tǒng)一的數(shù)據(jù)標準體系,包括數(shù)據(jù)命名、格式、數(shù)據(jù)交換及處理流程標準等,提高數(shù)據(jù)的可讀性和可用性,降低數(shù)據(jù)處理和分析的難度,提高工作效率;三是制定數(shù)據(jù)的訪問和授權管理制度,通過訪問控制和身份認證,規(guī)定數(shù)據(jù)處理和分析的職責和權限范圍,防止數(shù)據(jù)濫用和泄露風險,確保數(shù)據(jù)使用的合規(guī)性和安全性。
監(jiān)控和管理系統(tǒng)是大數(shù)據(jù)中心運維中的重要組成部分,可實時監(jiān)測、分析和管理計算機系統(tǒng)、網(wǎng)絡、應用程序和服務,確保系統(tǒng)的穩(wěn)定性、性能和安全性。可以部署態(tài)勢感知系統(tǒng),對整個系統(tǒng)的關鍵信息進行實時監(jiān)測、分析和理解,包括網(wǎng)絡流量、服務器性能及應用程序運行狀態(tài)等,幫助及時發(fā)現(xiàn)異常和潛在問題,并實時告警。
運維管理方面,應建立健全的運維管理體系,制定完善的管理制度和工作流程,規(guī)范操作流程,監(jiān)控運維過程,及時發(fā)現(xiàn)并解決問題,確保大數(shù)據(jù)中心的穩(wěn)定運行。可以采用自動化工具進行運維管理,配置管理監(jiān)控預警等功能,降低人為錯誤提高運維質(zhì)量,提高運維質(zhì)量和效率。同時,要定期進行性能分析和優(yōu)化,評估現(xiàn)有資源配置情況,調(diào)整資源分配方案,優(yōu)化系統(tǒng)性能。另外,需密切關注大數(shù)據(jù)技術發(fā)展趨勢和行業(yè)最佳實踐,及時進行升級改造,擴展其功能,適應業(yè)務發(fā)展需求。
人才隊伍建設是實現(xiàn)大數(shù)據(jù)中心的重要保障。盡管數(shù)據(jù)挖掘大都依靠自動化工具,但人的參與和干預仍然必不可少,必須建設一支高效、專業(yè)、具備創(chuàng)新能力的大數(shù)據(jù)人才隊伍。一是加強對職工的培訓和教育,提供專業(yè)的大數(shù)據(jù)技術培訓,包括數(shù)據(jù)分析、機器學習、人工智能等領域的知識和技能,確保團隊成員具備應對復雜數(shù)據(jù)環(huán)境的能力;二是建立完善的人才激勵機制,包括薪酬、晉升機會等,鼓勵員工積極創(chuàng)新和實踐;三是積極引進外部優(yōu)秀人才,充實人才隊伍實力,提升整體競爭力;四是鼓勵職工自我學習和提升,提供必要的學習資源和支持,創(chuàng)造良好的學習氛圍,激發(fā)員工的學習熱情和創(chuàng)新精神。
本文對廣播電視無線發(fā)射臺站大數(shù)據(jù)中心的建設進行了初步探討。通過合理設計數(shù)據(jù)采集、存儲、處理、分析和可視化展現(xiàn)等環(huán)節(jié),以及加強基礎設施建設、數(shù)據(jù)治理、監(jiān)控和管理、運維管理和優(yōu)化、人才隊伍建設等措施,以提高臺站的數(shù)據(jù)處理能力、優(yōu)化資源配置、提升運營效率和質(zhì)量、為決策提供支持為目標,為建設廣播電視領域大數(shù)據(jù)中心提供具體思路。