王喜升 王帥 張向陽 馬新彥 陽康
(1.中煤信息技術(北京)有限公司 北京市 100029)
(2.中國礦業(yè)大學(北京)機電與信息工程學院 北京市 100083)
當前,礦山智能化是現(xiàn)代工業(yè)發(fā)展的趨勢,是實現(xiàn)煤炭行業(yè)高質(zhì)量發(fā)展的核心技術支撐。隨著云計算、大數(shù)據(jù)、5G 等技術的迅猛發(fā)展,煤炭行業(yè)與智能化技術的深度融合是煤炭行業(yè)現(xiàn)代化的必由之路。煤炭企業(yè)構建高可用云平臺的管理系統(tǒng)(以下簡稱云平臺管理系統(tǒng))的需求越來越強烈。我國煤炭企業(yè)正逐漸向信息化和智能化發(fā)展,云平臺管理系統(tǒng)的部署具有以下優(yōu)勢:有利于企業(yè)統(tǒng)一規(guī)劃和管理,推動企業(yè)高質(zhì)量發(fā)展;有利于實時感知和分析井下多源信息,全方位保障井下生產(chǎn)的安全;有利于自動化獲取和監(jiān)測,提高煤礦井下安全生產(chǎn)技術水平;有利于建立統(tǒng)一的數(shù)據(jù)標準,減小管理難度,節(jié)約運維成本。
煤炭企業(yè)在生產(chǎn)中所涉及到的信息量巨大且復雜,服務器故障將會給企業(yè)帶來不可估量的損失,因此保證信息管理系統(tǒng)和硬件設備的安全性和可靠性是煤炭企業(yè)信息化的首要任務?;诟呖捎眉杭夹g的云平臺管理系統(tǒng)可以將任務分布至資源池中,完成煤炭企業(yè)的數(shù)據(jù)存儲和計算需求。因此,本文提出的云平臺管理系統(tǒng)能夠極大增強數(shù)據(jù)和信息的安全系數(shù),提高企業(yè)工作效率,降低數(shù)據(jù)獲取、處理和分析的成本。
隨著云計算技術的興起,基于OpenStack 高可用集群在商業(yè)模式中的應用層出不窮。OpenStack 是近年來由各個組件模塊搭建的云計算技術開源平臺,其框架與高可用技術相結合即為高可用集群的云平臺。具體實現(xiàn)原理為:首先,在OpenStack 基礎框架之上將各個組件搭載高可用集群;然后,將硬件資源通過VFIO 接口連接至OpenStack 虛擬化基礎設施框架上;最后,按需求將硬件資源分配給各個虛擬機資源,每臺虛擬機都做若干份冗余備份,其中備份數(shù)量根據(jù)用戶自身需求設定,做到每個服務都達到高可用性,如圖1 所示。煤炭行業(yè)基于OpenStack 的高可用集群技術主要技術包括以下三個方面:
圖1:OpenStack 高可用集群
針對煤炭企業(yè)管理層對安全性、可靠性的需求,OpenStack HA 提供了非常適用且靈活高效的解決方案,其主要特點包括:IP 以及運行的服務能夠自動轉(zhuǎn)移;多臺服務器可以進行信息交換;同/異域災備系統(tǒng)以及計算/存儲能力強;多服務器實時數(shù)據(jù)備份。
Pacemaker 是集群資源管理器。該集群資源管理器通過Corosync 心跳監(jiān)測機制對故障節(jié)點進行檢測,并能夠?qū)收锨闆r迅速作出響應,使運行的服務遷移到另一備用節(jié)點上繼續(xù)進行工作。因此,當集群中任意一個工作節(jié)點發(fā)生故障時,Pacemaker 會最小程度的減小損失,實現(xiàn)節(jié)點和資源的故障檢測和資源的恢復,從而最大程度上保證集群服務的高可用性。主要工作流程如圖2 所示。Pacemaker 對用戶環(huán)境沒有特定的需求,所以煤炭企業(yè)可以使用Active/Active 雙活高可用集群來保證企業(yè)內(nèi)所有服務平穩(wěn)運行。
圖2:故障節(jié)點遷移
由于基于HAProxy 的負載均衡架構可以支撐數(shù)以萬計的并發(fā)連接,因此適用于數(shù)據(jù)傳輸量巨大且復雜的煤炭企業(yè)。這個系統(tǒng)旨在減小單一服務器的負載壓力,通常將工作負載到多個服務器來提高應用的性能和可靠性。
Keystone 是所有用戶與服務之間認證授權的機制,在OpenStack 集群中主要負責用戶身份驗證、服務目錄和身份令牌的管理功能,還參與了架構內(nèi)部各服務之間的通信。圖3 為礦井管理用戶創(chuàng)建實例過程中Keystone 的響應流程,用戶首先向Keystone 發(fā)送身份信息,Keystone 接收后向用戶返回Token,之后用戶向Nova 發(fā)出帶有Token 的實例創(chuàng)建請求,Nova 接收后向Keystone 驗證Token 的有效性,被證實有效后,Nova 向Glance 發(fā)出帶有Token 的鏡像傳輸請求,Glance 再向Keystone 驗證有效性,成功后Glance 向Nova 提供鏡像目錄查詢和傳遞服務,獲得完鏡像后Nova 繼續(xù)向Neutron 以同樣的方式獲取網(wǎng)絡服務,之后虛擬機啟動成功,向用戶返回實例創(chuàng)建成功的響應。Keystone 是整個OpenStack 服務框架的注冊表。
圖3:Keystone 實例創(chuàng)建認證過程
Nova 的主要功能是對虛擬機進行管理并提供虛擬機運行需要的主要資源。在OpenStack 中,Nova 與各個服務之間都會進行相互訪問和交互,Nova 內(nèi)部子服務之間的交互也很多,如圖4 的Nova 框架圖可以看出,Nova 是OpenStack框架的基石,能夠串聯(lián)各個組件從而完成OpenStack 的服務。隊列消息Queue 和數(shù)據(jù)包Nova datebase 與Nova 各個子組件進行交互;Nova 的各個組件與Glance、Neutron 等OpenStack 大組件之間也通過消息機制進行服務交互,為企業(yè)提供實例運行所需要的計算資源。
圖4:Nova 邏輯框架圖
Glance 的主要功能是查詢和獲取鏡像本身和鏡像的整體信息;注冊和上傳虛擬機鏡像,鏡像的創(chuàng)建、上傳、下載和管理,維護鏡像信息;支持多種方式的存儲鏡像。Glance 的查詢和使用主要是由客戶端發(fā)起,后端更多的是存儲,如圖5 的Glance 架構圖所示。
圖5:Glance 原理架構圖
Neutron 主要功能包括:提供面向租戶的API 接口,創(chuàng)建網(wǎng)絡、路由、負載均衡等,關聯(lián)虛擬機實例到指定的網(wǎng)絡和路由;通過API 管理交換機;提供插件架構支持多種平臺等。如圖6 所示,Neutron 通過插件和插件代理的組合來實現(xiàn)API 轉(zhuǎn)發(fā)來的網(wǎng)絡請求。
圖6:Neutron 功能實現(xiàn)架構圖
目前煤炭企業(yè)總體架構一般都是五個層次,即決策支持層、經(jīng)營管理層、生產(chǎn)執(zhí)行層、控制層和設備層。利用OpenStack 高可用集群將各層級系統(tǒng)進行統(tǒng)一規(guī)劃,使企業(yè)各個層面和部門之間的管理和協(xié)同工作更加方便、快捷、高效。在企業(yè)云計算數(shù)據(jù)中心搭建OpenStack 高可用框架,與井下煤塵傳感器、瓦斯傳感器、溫濕度傳感器設備接口連接實現(xiàn)數(shù)據(jù)的自動化獲取、傳輸、處理、分析和顯示,并做到數(shù)據(jù)采集的實時性和準確性。采集的數(shù)據(jù)在數(shù)據(jù)中心的數(shù)據(jù)資源池中實現(xiàn)高可用存儲,保障數(shù)據(jù)的安全性。上述信息化云平臺煤炭企業(yè)總體架構如圖7 所示。
圖7:信息化云平臺煤炭企業(yè)總體應用架構
煤炭企業(yè)在井下的生產(chǎn)過程復雜,有多種生產(chǎn)環(huán)節(jié)如一通三防、皮帶運輸、安全監(jiān)控系統(tǒng)、視頻監(jiān)視、產(chǎn)量監(jiān)測等,這些系統(tǒng)都是正常井下作業(yè)必不可少的。為了保障礦井安全生產(chǎn),各個子系統(tǒng)都必須正常運行。這就要求各類系統(tǒng)能平穩(wěn)的提供服務,不能讓個別系統(tǒng)出現(xiàn)故障使井下作業(yè)中止。為了保證系統(tǒng)都可以平穩(wěn)運行,引入高可用集群技術。若干個節(jié)點服務器組成服務群設備,該群體對外表現(xiàn)為一個服務實體,當正在運行的單一節(jié)點(服務器)發(fā)生故障,服務會自動切換到備用的節(jié)點,盡量避免單個服務器發(fā)生故障引起作業(yè)的中止,解決了單節(jié)點發(fā)生故障引起的整個系統(tǒng)癱瘓的問題。為高效、靈活、安全的井下作業(yè)提供了輔助性的保障。
目前各層級系統(tǒng)的系統(tǒng)都是獨立的,系統(tǒng)的接口不統(tǒng)一,尤其是設備層的多種檢測系統(tǒng)。在現(xiàn)有的煤炭總體架構上加上OpenStack 高可用云數(shù)據(jù)中心如圖3 所示,統(tǒng)一各層級、各部門的網(wǎng)絡接口協(xié)議,全部連接到云數(shù)據(jù)中心,這樣部門之間橫向的信息傳輸更流暢,使生產(chǎn)管理決策的效率提升。
隨著云平臺、虛擬化技術的成熟,在云平臺管理系統(tǒng)的建設中要考慮容災體系的建設。按照《煤礦安全規(guī)程》的規(guī)定,所有煤炭生產(chǎn)企業(yè)的煤礦井下安全監(jiān)測數(shù)據(jù)要實時上報國家應急管理部信息中心,同時還要上報省市兩級安全監(jiān)管局。如圖8 所示為目前國家應急管理部信息中心規(guī)劃建設的具有容災的數(shù)據(jù)中心框架圖。因此,建設同城雙活或同城雙活及異地單活的容災災備系統(tǒng),可以更好的實現(xiàn)服務的不間斷性和數(shù)據(jù)的安全性,避免了傳統(tǒng)服務中心用戶單系統(tǒng)抗故障能力差的缺陷。容災設計極大地提高了系統(tǒng)的可靠性,提高了總體業(yè)務的連續(xù)性。
圖8:容災系統(tǒng)整體架構圖
本文分析了當前煤炭企業(yè)數(shù)據(jù)中心管理平臺的現(xiàn)狀和難點,采用云計算高可用、負載均衡等相關技術對煤炭企業(yè)管理平臺進行設計、規(guī)劃,實現(xiàn)企業(yè)所有計算資源、存儲資源、信息資源等可以統(tǒng)一分配、管理、共享從而提高業(yè)務管理運轉(zhuǎn)效率,資源配置更加優(yōu)化,達到低成本高效率的目的。