劉云輝
(中通服咨詢設計研究院有限公司數字城市研究院,江蘇 南京 210000)
電網智能運檢管控系統(tǒng)(Intelligent Management And Control System for Power Grids Operation And Maintenance)是基于分布式系統(tǒng)基礎的動態(tài)模型架構,以數據為核心,實現數據分析、可視化展示、輔助決策和生產指揮等運檢智能化管控的開放、可擴展系統(tǒng)?;谠圏c先行、穩(wěn)步探索的建設思路,聚焦實用性、前瞻性和可擴展原則,將云原生技術架構引入至運檢管控系統(tǒng)技術架構的設計中,旨在于提升運檢管控系統(tǒng)功能建設的靈活性和高效性,進一步提高融合運檢專業(yè)多源系統(tǒng)信息效率,最終達到提升設備狀態(tài)管控力和運檢管理穿透力的目標[1]。
運檢管控系統(tǒng)是通過SG-PMS、SG-OMS、調度管理系統(tǒng)等14個外接系統(tǒng)橫向集成,以“信息匯集、預警研判、過程管控、生產指揮”四大業(yè)務的開展為核心,包含省檢修公司所轄設備管理信息和生產信息,管理信息包括上級提出的管理要求,生產信息包括故障(異常)、缺陷、生產調度、預告警、應急五類;過程管控主要對檢修作業(yè)、反措執(zhí)行、專項排查、外包及委托業(yè)務、周期性例行工作(日常巡檢等)運檢工作進行日常生產業(yè)務過程管控;預警研判主要實現對各類預告警數據的輔助監(jiān)視、轉發(fā)及發(fā)布,包括電網運行風險預警、設備告警、氣象和環(huán)境預警等;指揮協(xié)調主要用于發(fā)起搶修、供電保障記錄,并跟蹤進展情況,同時協(xié)助運檢部編制生產月報及各類專項報表。
在日常工作中發(fā)現隨著電網設備的日趨復雜,目前的運檢管控系統(tǒng)并不能很好的滿足一線需求,比較急需的需求包括消缺類需求和綜合集約類需求。消缺類需求,檢修公司對設備的運行狀態(tài)感知、數據分析和主動預測預警缺乏有效手段,綜合預測預警能力不足,日常工作疲于應對各種突發(fā)故障和異常情況,傳統(tǒng)的信息技術過于龐大,場景應變速度不足以支撐緊急任務。綜合集約需求,雖然在云大物移智等信息技術的幫助下初步實現了數據的集約,但在應用集約上還是存在分散指揮調度的情況,利用大平臺建立精密場景打通各管控縱向信息交互,提高運檢效率和效益的需求迫在眉睫。
CNCF(Cloud Native Computing Foundation,云 原生計算基金會)將“云原生”定義為使用開源軟件堆棧進行容器化,其中應用程序的每個部分都打包在自己的容器中,動態(tài)編排,以便對每個部分進行主動調度和管理以優(yōu)化資源利用率和面向微服務的應用程序,以提高應用程序的整體靈活性和可維護性[2]。其原則包括:為失敗設計原則、去中心化原則、速度優(yōu)先原則、自動化驅動原則、不變性原則、標準化原則、簡化設計原則和演進式設計原則。由于云原生技術架構還在不斷完善目前多用于小的專用功能,這種架構的優(yōu)勢是可將業(yè)務需求快速構建和部署到可提供輕松的橫向擴展和硬件解耦的平臺上,從而實現敏捷性、彈性和云間可移植。
根據《特高壓及跨區(qū)電網智能運檢管控系統(tǒng)功能規(guī)范》智能運檢管控系統(tǒng)包括應用層、服務層和數據層三個部分。數據層主要是提供統(tǒng)一的數據訪問和數據分析;服務層負責提供身份認證、流程管理、應用服務中間件、服務總線及數據傳輸服務;應用層包括開發(fā)框架、大數據分析、發(fā)布監(jiān)控及共享組件庫功能。
基于資源兼顧利舊原則,以云原生角度實現的智能運檢管控平臺技術架構如下圖所示:
智能運檢管控系統(tǒng)數據層的功能為:服務訪問API、數據源管理、權限管理、驅動管理、實例管理、性能監(jiān)控、操作審計等功能。API是服務之間通信的契約,在云原生架構下每個客戶端都需要調用一個或多個API,常見的API網關包括:Amazon API Gateway、Tyk、Kong、api-umbrella、apiaxle、Netflix zuul、WSO2 API Manager、clydeio等。對于其他智能運檢管控系統(tǒng)數據服務基于云原生架構的docker容器、微服務架構及Kubernetes自動化編排技術,能夠輕松的實現節(jié)點智能集群、動態(tài)伸縮,保證系統(tǒng)穩(wěn)定高可用,引入分布式任務調度和協(xié)調,拆分數據存儲/計算任務,可動態(tài)增加節(jié)點快速處理速度,分析后減少節(jié)點集約資源。數據提取實現技術為Kafka、Flume;數據存儲與數據庫服務中如MySQL、MongoDB等。
智能運檢管控系統(tǒng)服務層的功能為:身份認證、流程管理、應用服務中間件、服務總線和數據傳輸。云原生架構下各種服務均以組件形式存在,通過編排調用實現相應功能,其中云原生架構基礎組件部分的消息服務、緩存服務、分布式任務調度和分布式協(xié)調可實現服務中心和數據傳輸功能要求;應用服務中間件一般采用Java Agent調用分布式協(xié)調中的Zookeeper來實現;流程管理功能可以采用相對比較成熟的基于Kubernetes的業(yè)務自動化BPMN流程工具Kogito,它是基于Quarkus,Knative等技術實現的;身份認證可基于Service mesh的基礎上采用OAth2.0或JWT+API網關方式實現。
智能運檢管控系統(tǒng)應用層的功能為:DevOps、大數據分析、發(fā)布監(jiān)控和共享組件庫。在實際工作中定制化場景的敏捷開發(fā)需求相對旺盛,因此對DevOps的搭建是極為必要的,主要功能包括源代碼管理、自動化測試、自動化運維和監(jiān)控,其云原生架構下的技術實現方法和工具如圖所示。大數據分析主要是為運檢管控系統(tǒng)的上層應用所需的決策信息提供建模服務,其中數據檢索功能可基于Elasticsearch實時分布式搜索和分析引擎實現;數據挖掘功和建模功能則需要根據實際需求選擇搭建Hadoop生態(tài)系統(tǒng),相關技術主要包括Hive、HBase、Pig、Sqoop、Flume、Zookeeper、Mahout、Spark、Storm、Shark、Phoenix、Tex、Ambari等。發(fā)布監(jiān)控的數據來源可以通過云原生自身的監(jiān)控服務模塊的相關組件提供,監(jiān)控類的實現技術包括:Nagios、Zabbix、CAdvisor、Prometheus、TICK、Grafana等;追 蹤 監(jiān) 控類的實現技術包括:Pinpoint、Zipkin、JAEGER、Sky Walking、Open-Falcon、CAT等;日志類的實現技術包括:Fluentd、Flume、FileBeat、Logstash、Elasticsearch、Kibana等 。
雖然在信息化技術的幫助下智能運檢管控系統(tǒng)已經打破了信息孤島的僵局,融合了運檢專業(yè)多源系統(tǒng)數據,但在高效支撐一線工作方向還有很漫長的一段路要走。本文嘗試探討利用云原生架構解決一些消缺或集約類場景快速實現問題,此架構并非要求一次建設,建議基于現有云環(huán)境按需完善,以業(yè)務為導向逐步遞進,最終實現支撐電網設備的實時感知、在線監(jiān)測、科學預警、智能診斷和運檢資源優(yōu)化整合,提升設備狀態(tài)的管控力和運檢管理穿透力。