劉通
北京中企時代科技有限公司 內(nèi)蒙古通遼 028011
(1)云化數(shù)據(jù)中心導(dǎo)致運維管理工作量激增應(yīng)急管理云數(shù)據(jù)中心是由應(yīng)急管理部主導(dǎo)建設(shè)的,為應(yīng)急管理信息化業(yè)務(wù)體系正常運轉(zhuǎn)提供基礎(chǔ)支撐的數(shù)字底座。隨著應(yīng)急管理業(yè)務(wù)應(yīng)用的加速重構(gòu)和逐步豐富,云數(shù)據(jù)中心規(guī)模將日益增長,大量不同類型、配置各異的設(shè)備將在云數(shù)據(jù)中心集中部署,造成數(shù)據(jù)中心運維管理工作量迅速增加,而傳統(tǒng)的運維管理系統(tǒng)采用分工式運維方式,即網(wǎng)絡(luò)、安全、服務(wù)器、存儲等分別具有獨立的運維管理系統(tǒng),導(dǎo)致設(shè)備故障難以定位,業(yè)務(wù)系統(tǒng)中斷時間長的情況頻繁出現(xiàn)。
(2)用戶體驗敏感導(dǎo)致對運維管理時效性的要求提高隨著用戶對業(yè)務(wù)應(yīng)用體驗敏感度的日益提高,傳統(tǒng)運維管理采用的集中監(jiān)控系統(tǒng)無法從業(yè)務(wù)應(yīng)用和用戶視角反映系統(tǒng)運行情況,對于業(yè)務(wù)應(yīng)用系統(tǒng)運行過程中出現(xiàn)的故障問題,難以在對應(yīng)的 IT 基礎(chǔ)設(shè)施環(huán)境中準(zhǔn)確、快速定位故障原因,反之,對于 IT 基礎(chǔ)設(shè)備發(fā)生故障后,難以準(zhǔn)確評估受影響的業(yè)務(wù)范圍和影響程度。
(3)業(yè)務(wù)快速調(diào)整導(dǎo)致運維管理綜合難度躍升隨著大數(shù)據(jù)、中臺、微服務(wù)等新興技術(shù)的不斷應(yīng)用,應(yīng)急管理業(yè)務(wù)體系將迎來深度重構(gòu)和快速增長,以監(jiān)督管理、社會動員為代表的,具有大量移動并發(fā)訪問場景的業(yè)務(wù)應(yīng)用,將采用分布式架構(gòu)進行系統(tǒng)重構(gòu),實現(xiàn)業(yè)務(wù)邏輯與基礎(chǔ)系統(tǒng)的進一步解耦。隨著業(yè)務(wù)應(yīng)用系統(tǒng)快速調(diào)整逐步常態(tài)化,將導(dǎo)致 IT 基礎(chǔ)設(shè)施運維管理難度急劇躍升,傳統(tǒng)運維管理結(jié)合人工智能等新興技術(shù)進行轉(zhuǎn)型升級迫在眉睫。
完善當(dāng)前的工作系統(tǒng)結(jié)構(gòu)。計算機設(shè)備有著相對穩(wěn)定的結(jié)構(gòu),直接影響到計算機效能的發(fā)揮。當(dāng)前的企業(yè)計算機設(shè)備運維管理中,采用了多種管理工作模式。當(dāng)前應(yīng)完善管理系統(tǒng)的穩(wěn)定性,保障相關(guān)管理系統(tǒng)是不會干涉彼此的。當(dāng)前的企業(yè)計算機設(shè)備運維管理中,主要使用C/S系統(tǒng)結(jié)構(gòu)采集數(shù)據(jù),以動環(huán)監(jiān)控軟件監(jiān)控實時設(shè)備數(shù)據(jù)并處理分析,以B/S結(jié)構(gòu)作為數(shù)據(jù)展示給管理人員。對于集群應(yīng)用系統(tǒng)或虛擬機平臺,設(shè)置硬件安全閾值與動態(tài)監(jiān)控硬件參數(shù),配置短信平臺報警功能。利用這種結(jié)構(gòu),可以發(fā)揮基礎(chǔ)應(yīng)用的功能,并且完善計算機數(shù)據(jù)服務(wù)。這種系統(tǒng)具備科學(xué)的操作方式,運維人員或者系統(tǒng)使用人員利用管理命令能夠有效工作。第二,加強對數(shù)據(jù)庫的管理。檢查數(shù)據(jù)庫主要進程運行情況,數(shù)據(jù)庫連接是否正常,數(shù)據(jù)庫表空間使用情況,數(shù)據(jù)庫日志是否有異常,數(shù)據(jù)庫日常備份是否正常等。當(dāng)前的企業(yè)一般采用MySQL數(shù)據(jù)庫。這種數(shù)據(jù)庫在應(yīng)用中有著巨大優(yōu)勢,不會產(chǎn)生格式層面的使用問題,因此適用性較強。MySQL數(shù)據(jù)庫有著三方面優(yōu)勢:第一,可以顯著提升數(shù)據(jù)庫運行效率。第二,并不需要占用較多的設(shè)備存儲空間。
IT 設(shè)備在數(shù)據(jù)中心部署后,融合運維管理系統(tǒng)應(yīng)能通過多種自動發(fā)現(xiàn)手段實時感知設(shè)備部署情況,并對完成部署的設(shè)備進行集中統(tǒng)一管理,包括網(wǎng)絡(luò)管理、服務(wù)器管理、存儲管理、虛擬資源管理、專用設(shè)備管理等基本功能模塊。其中,網(wǎng)絡(luò)管理模塊應(yīng)能夠自動生成網(wǎng)絡(luò)拓?fù)鋱D,并對網(wǎng)絡(luò)組建設(shè)備、網(wǎng)絡(luò)質(zhì)量、網(wǎng)絡(luò)流量等進行管理、監(jiān)控和分析;服務(wù)器管理模塊應(yīng)具備對 CPU、內(nèi)存、硬盤、風(fēng)扇、電源等關(guān)鍵部件以及對服務(wù)器整機在線狀態(tài)、健康狀態(tài)等信息的監(jiān)控能力;存儲管理模塊應(yīng)能自動發(fā)現(xiàn)并實時監(jiān)控存儲網(wǎng)絡(luò)資源,統(tǒng)計存儲網(wǎng)絡(luò)容量使用情況并作出容量預(yù)測;虛擬資源管理模塊應(yīng)能對計算虛擬設(shè)施,如集群、虛擬機等提供虛擬資源和物理設(shè)備的映射關(guān)系拓?fù)鋱D,并實時更新各部件的性能數(shù)據(jù);專用設(shè)備管理模塊主要用于對融合通信、視頻會商、安防監(jiān)控等專用設(shè)備進行監(jiān)測管理,提供語音質(zhì)量診斷、視頻流跟蹤、數(shù)據(jù)分析等功能。融合運維管理系統(tǒng)通過持續(xù)監(jiān)測 IT 設(shè)備基本信息和運行狀態(tài),對設(shè)備資源使用情況、設(shè)備運行情況等信息數(shù)據(jù)進行收集和匯總,為設(shè)備故障預(yù)判、精確定位、智能診斷等后續(xù)環(huán)節(jié)打下堅實的基礎(chǔ)。
第一,數(shù)據(jù)庫故障的處理。對于數(shù)據(jù)庫來說,歸檔日志空間占滿和表空間不足都是常見故障。所謂表空間不足,指的是表空間的使用率等于百分之百或者接近百分之百,數(shù)據(jù)庫系統(tǒng)難以增加SQL語句。如果出現(xiàn)這種故障問題,可以快速定位錯誤信息,通過擴充表空間設(shè)備文件的措施排除故障和問題[1]。通過加強對于關(guān)鍵點監(jiān)控,能夠及時解決出現(xiàn)的軟硬件問題,針對可能出現(xiàn)隱患的部分指定科學(xué)的應(yīng)急方案,以此來提升企業(yè)計算機設(shè)備運維管理的效果。
未來,在運維管理資源有限的情況下,隨著應(yīng)急管理業(yè)務(wù)云化、微服務(wù)化的逐步深入,業(yè)務(wù)應(yīng)用對快速上線、靈活伸縮和服務(wù)等級的要求顯著提高,傳統(tǒng)的人工運維方式在面對海量 IT 設(shè)備運維管理、業(yè)務(wù)交叉調(diào)用關(guān)系極度復(fù)雜的數(shù)據(jù)中心環(huán)境時,難以保證高質(zhì)量的IT 服務(wù)水平[2]。因此,傳統(tǒng)人工運維向新型智能運維轉(zhuǎn)變的需求日益迫切,而融合運維管理系統(tǒng)是智能運維演進過程中不可缺少的重要環(huán)節(jié),通過構(gòu)建融合運維管理系統(tǒng)將實現(xiàn)數(shù)據(jù)中心環(huán)境基礎(chǔ)設(shè)施和 IT基礎(chǔ)設(shè)施的全生命周期自動化管理和性能容量智能運營,提升數(shù)據(jù)中心基礎(chǔ)設(shè)施故障預(yù)防、發(fā)現(xiàn)和自愈能力[3]。