摘" 要:當(dāng)前業(yè)務(wù)創(chuàng)新和IT重塑已成為企業(yè)維持增長的核心驅(qū)動(dòng)力,為讓企業(yè)能夠快速地適應(yīng)變化的業(yè)務(wù)需求,該研究基于人工智能技術(shù),研發(fā)虛擬IT資源自動(dòng)優(yōu)化系統(tǒng),旨在探索和實(shí)踐人工智能及大數(shù)據(jù)領(lǐng)域的最新技術(shù)和標(biāo)準(zhǔn)。同時(shí),該文結(jié)合IT運(yùn)維的專業(yè)知識(shí),引領(lǐng)IT運(yùn)維管理的創(chuàng)新發(fā)展,為企業(yè)提供更加智能和高效的管理工具。虛擬化環(huán)境下的故障自愈技術(shù),作為針對(duì)虛擬化環(huán)境中資源利用率和性能優(yōu)化的關(guān)鍵手段,正逐漸成為IT管理的焦點(diǎn)。
關(guān)鍵詞:虛擬化;自動(dòng)化;人工智能;創(chuàng)新發(fā)展;故障自愈技術(shù)
中圖分類號(hào):TP18" " " 文獻(xiàn)標(biāo)志碼:A " " " " " 文章編號(hào):2095-2945(2025)11-0018-06
Abstract: Current business innovation and IT reshaping have become the core drivers for enterprises to maintain growth, in order to allow enterprises to quickly adapt to changing business needs. Based on artificial intelligence technology, this research develops an automatic optimization system for virtual IT resources. It aims to explore and practice the latest technologies and standards in the fields of artificial intelligence and big data, and combine IT operation and maintenance expertise to lead the innovative development of IT operation and maintenance management. Provide enterprises with smarter and efficient management tools. Fault self-healing technology in virtualized environments, as a key means to optimize resource utilization and performance in virtualized environments, is gradually becoming the focus of IT management.
Keywords: virtualization; automation; artificial intelligence; innovative development; fault self-healing technology
在當(dāng)前競爭日益激烈的商業(yè)環(huán)境中,業(yè)務(wù)創(chuàng)新和IT重塑已成為企業(yè)維持增長的核心驅(qū)動(dòng)力。企業(yè)不斷通過新的運(yùn)作方式推動(dòng)業(yè)務(wù)變革,并結(jié)合云計(jì)算、大數(shù)據(jù)、人工智能等新興技術(shù),實(shí)現(xiàn)更敏捷、更高效的業(yè)務(wù)流程。同時(shí),企業(yè)的IT系統(tǒng)需要不斷重塑,以適應(yīng)快速變化的業(yè)務(wù)需求。然而,隨著業(yè)務(wù)發(fā)展和IT系統(tǒng)的復(fù)雜化,虛擬化軟件和應(yīng)用系統(tǒng)之間錯(cuò)綜復(fù)雜的關(guān)系,使得IT管理和運(yùn)維人員難以快速、準(zhǔn)確地定位虛擬化系統(tǒng)中問題的根源,導(dǎo)致企業(yè)數(shù)據(jù)中心的管理和維護(hù)面臨前所未有的挑戰(zhàn)。企業(yè)對(duì)虛擬化運(yùn)維的智能化、自動(dòng)化、可視化綜合管控需求日益迫切。
1" 研究背景
1.1" 傳統(tǒng)運(yùn)維模式的局限性
傳統(tǒng)的虛擬化IT運(yùn)維模式主要以組件為管理對(duì)象,通過監(jiān)控網(wǎng)絡(luò)、服務(wù)器、虛擬化等各個(gè)IT資產(chǎn)來進(jìn)行自下而上的管理。這種方式的一個(gè)主要局限性在于各監(jiān)控點(diǎn)相對(duì)獨(dú)立,缺乏綜合處理能力,難以實(shí)現(xiàn)有效的故障預(yù)警、故障精準(zhǔn)定位和根因分析。同時(shí),傳統(tǒng)模式難以深入分析系統(tǒng)中故障產(chǎn)生的關(guān)聯(lián)關(guān)系,無法預(yù)測性能瓶頸,導(dǎo)致系統(tǒng)管理和維護(hù)的效率低下。
1.2" 智能化、自動(dòng)化的虛擬IT資源系統(tǒng)
大數(shù)據(jù)和人工智能技術(shù)的發(fā)展為IT資源的優(yōu)化管理提供了新的手段,例如《虛擬化技術(shù)在電廠數(shù)據(jù)中心服務(wù)器資源整合中的應(yīng)用研究》[1]從虛擬化技術(shù)的基本概念入手,深入探討了其在數(shù)據(jù)中心,電廠數(shù)據(jù)中心服務(wù)器資源整合中的應(yīng)用;《基于虛擬化的網(wǎng)絡(luò)空間綜合靶場建設(shè)研究》[2]中基于虛擬化技術(shù)的網(wǎng)絡(luò)空間綜合靶場建設(shè)問題,對(duì)網(wǎng)絡(luò)綜合靶場能力建設(shè)、架構(gòu)設(shè)計(jì)、功能組成、關(guān)鍵技術(shù)和應(yīng)用場景等方面進(jìn)行了研究;《基于云計(jì)算和虛擬化的網(wǎng)絡(luò)安全實(shí)驗(yàn)教學(xué)平臺(tái)建設(shè)研究》[3]使用基于云計(jì)算和虛擬化網(wǎng)絡(luò)安全實(shí)驗(yàn)教學(xué)平臺(tái)提升了學(xué)生的動(dòng)手操作能力,降低了教學(xué)成本,解決了課程資源更新不及時(shí)等問題。通過大數(shù)據(jù)技術(shù),企業(yè)能夠收集和分析大量的監(jiān)控?cái)?shù)據(jù),識(shí)別系統(tǒng)中潛在的性能問題和優(yōu)化機(jī)會(huì)。人工智能技術(shù)則可以用來預(yù)測資源需求趨勢,進(jìn)行智能調(diào)度和資源分配,自動(dòng)化地處理常見故障和性能瓶頸問題。這些技術(shù)的發(fā)展使得自動(dòng)優(yōu)化和自愈成為可能,為虛擬IT資源管理開辟了新的方向。
2" 研究方法
2.1" 微服務(wù)架構(gòu)設(shè)計(jì)
微服務(wù)架構(gòu)的主要優(yōu)勢在于其靈活性,即各個(gè)服務(wù)可以根據(jù)各自的資源需求進(jìn)行獨(dú)立擴(kuò)展。與運(yùn)行在大型服務(wù)器上的高CPU和內(nèi)存需求相比,微服務(wù)可以部署在資源需求較低的主機(jī)上,這些主機(jī)只需滿足特定服務(wù)的運(yùn)行條件?!睹嫦蛟O(shè)備虛擬化的微服務(wù)多態(tài)封裝方法研究》[4]結(jié)合虛擬化技術(shù)及微服務(wù)架構(gòu),提出接口微服務(wù)、微服務(wù)繼承、微服務(wù)多態(tài)的概念,提高了微服務(wù)組件的可擴(kuò)展性和復(fù)用能力;《基于微服務(wù)的研發(fā)運(yùn)維一體化關(guān)鍵技術(shù)》[5]基于容器的自動(dòng)發(fā)現(xiàn)機(jī)制和微服務(wù)注冊機(jī)制實(shí)現(xiàn)虛擬化技術(shù),利用DevOps技術(shù)和敏捷開發(fā)方法論完成運(yùn)維一體化。對(duì)比傳統(tǒng)的面向服務(wù)架構(gòu),微服務(wù)架構(gòu)往往更為簡單,微服務(wù)架構(gòu)不會(huì)包含用于定義服務(wù)間接口的統(tǒng)一控制或規(guī)范化的數(shù)據(jù)建模。這種架構(gòu)使開發(fā)速度加快,且服務(wù)的演變只需與業(yè)務(wù)需求相匹配即可。平臺(tái)系統(tǒng)本身面向互聯(lián)網(wǎng)的服務(wù)能力不僅僅是從管理功能的實(shí)現(xiàn)考慮,其應(yīng)用架構(gòu)必須具備高可用性設(shè)計(jì),匹配云計(jì)算的特點(diǎn),軟件自身的規(guī)模也需要根據(jù)業(yè)務(wù)訪問量的大小實(shí)現(xiàn)自動(dòng)化彈性伸縮,以保障服務(wù)的穩(wěn)定性。
2.2" 多數(shù)據(jù)中心統(tǒng)一管理
云平臺(tái)通過資源管理接口對(duì)資源池系統(tǒng)進(jìn)行管理,向其下達(dá)各類資源管理指令,資源池系統(tǒng)的管理模塊負(fù)責(zé)接收并執(zhí)行這些指令。同時(shí),云平臺(tái)還需監(jiān)控并記錄資源池系統(tǒng)的資源狀態(tài)和告警信息。當(dāng)資源狀況發(fā)生變化時(shí),資源池系統(tǒng)會(huì)主動(dòng)將變更情況上報(bào)至云平臺(tái)。
云管理平臺(tái)可以在2個(gè)中心部署相同的虛擬化軟件,也可以部署不同的虛擬化軟件。云管理平臺(tái)可實(shí)現(xiàn)一個(gè)平臺(tái)統(tǒng)一管理2個(gè)數(shù)據(jù)中心的資源池,實(shí)現(xiàn)整體資源池一體化。云平臺(tái)可將被管理的多個(gè)數(shù)據(jù)中心匯聚成統(tǒng)一的數(shù)據(jù)中心,實(shí)現(xiàn)數(shù)據(jù)中心內(nèi)部資源動(dòng)態(tài)調(diào)配,具有全局資源共享能力。
3" 實(shí)現(xiàn)過程
3.1" 總體建設(shè)方案
云管理平臺(tái)采用開放架構(gòu),是一個(gè)企業(yè)級(jí)的云平臺(tái),向下對(duì)接云資源池,向上為管理員提供資源管理平臺(tái)和運(yùn)維管理平臺(tái)。
云管理平臺(tái)可整合多個(gè)數(shù)據(jù)中心的資源:計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)通過資源適配接口整合成資源池,支持對(duì)VMware等平臺(tái)的資源調(diào)度管理,同時(shí)通過資源管理平臺(tái)適配管理模塊可實(shí)現(xiàn)對(duì)異構(gòu)資源的統(tǒng)一調(diào)度管理。
云管理平臺(tái)提供給企業(yè)以高性價(jià)比實(shí)現(xiàn)云計(jì)算的完整解決方案,對(duì)虛擬機(jī)、主機(jī)集群及多個(gè)數(shù)據(jù)中心內(nèi)的各類資源和上層應(yīng)用系統(tǒng)封裝成服務(wù)模板。不僅降低系統(tǒng)復(fù)雜度與成本,實(shí)現(xiàn)資源的最大化利用,也改善了IT資源的使用效率和管理能力。
3.2" 云管理平臺(tái)系統(tǒng)
云管理平臺(tái)采用開放架構(gòu)設(shè)計(jì)理念,可以將多個(gè)數(shù)據(jù)中心的各類物理資源(圖1),例如計(jì)算資源包括服務(wù)器和虛擬機(jī),存儲(chǔ)資源及網(wǎng)絡(luò)資源構(gòu)建成內(nèi)部資源池,通過資源適配層將內(nèi)部資源池和外部資源池的資源進(jìn)行統(tǒng)一調(diào)度管理,并封裝成標(biāo)準(zhǔn)的云服務(wù)。其中資源適配層可兼容vCenter等虛擬化調(diào)度平臺(tái),實(shí)現(xiàn)對(duì)VMware等虛擬化軟件的支持。
云管理平臺(tái)由數(shù)據(jù)中心物理資源、資源適配、資源管理和運(yùn)維管理等部分組成。
數(shù)據(jù)中心基礎(chǔ)設(shè)施服務(wù)包括虛擬機(jī)、物理機(jī)、存儲(chǔ)及網(wǎng)絡(luò)資源,這些資源由云平臺(tái)統(tǒng)一管理,為業(yè)務(wù)系統(tǒng)提供基礎(chǔ)IT資源。
資源適配層通過對(duì)各類資源池,包括虛擬資源池、網(wǎng)絡(luò)資源池、存儲(chǔ)資源池的統(tǒng)一適配,實(shí)現(xiàn)對(duì)計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等物理資源進(jìn)行池化,抽象成可管理、可調(diào)度的邏輯資源,屏蔽異構(gòu)環(huán)境下平臺(tái)調(diào)用接口,向上提供一致化的訪問。
資源管理層主要將各類異構(gòu)資源池,包括內(nèi)部私有云資源池和外部公有云資源池進(jìn)行統(tǒng)一管理,實(shí)現(xiàn)各類資源統(tǒng)一模板化,消除各類虛擬化或各種調(diào)度平臺(tái)的差異。
運(yùn)維管理層主要實(shí)現(xiàn)監(jiān)控管理、策略管理等具體業(yè)務(wù)功能。
云管理平臺(tái)資源池管理模塊邏輯功能架構(gòu)如圖2所示。
資源管理模塊在邏輯上劃分為4個(gè)層次:用戶層、業(yè)務(wù)邏輯層、業(yè)務(wù)中間件層和數(shù)據(jù)層。用戶層負(fù)責(zé)用戶和管理員的訪問;業(yè)務(wù)邏輯層涵蓋設(shè)備管理、資源管理、運(yùn)維管理、接口功能、統(tǒng)一認(rèn)證、系統(tǒng)管理,以及全局安全管理和異常故障管理體系;業(yè)務(wù)中間件層作為資源管理模塊的核心功能框架,構(gòu)建了整個(gè)資源池的業(yè)務(wù)基礎(chǔ)平臺(tái),所有上層業(yè)務(wù)功能均基于該層實(shí)現(xiàn),并為上層應(yīng)用模塊提供基礎(chǔ)運(yùn)行環(huán)境;數(shù)據(jù)層負(fù)責(zé)資源池系統(tǒng)中各類數(shù)據(jù)的存儲(chǔ)與管理,主要包括數(shù)據(jù)庫和文件系統(tǒng),確保資源數(shù)據(jù)的存儲(chǔ)與維護(hù),如圖3所示。
運(yùn)維管理模塊采集資源管理模塊所管理的資源的性能,包含CPU使用率、內(nèi)存使用率等信息,進(jìn)行存儲(chǔ)分析,再設(shè)定一定的策略和用相應(yīng)的算法進(jìn)行分析,使虛擬IT資源在使用上達(dá)到一定的瓶頸或出現(xiàn)某些可控的故障時(shí),可以采取對(duì)應(yīng)的措施進(jìn)行自動(dòng)修復(fù)或自動(dòng)擴(kuò)容,以達(dá)到虛擬IT資源的運(yùn)行健康度。
3.3 系統(tǒng)功能說明
根據(jù)目前云計(jì)算市場的劃分,私有云管理和混合云管理分成3層,每層分別提供如下功能,具體如圖4所示。
云管理平臺(tái)層:提供業(yè)務(wù)支撐管理功能、提供異構(gòu)混合云管理功能。
云計(jì)算技術(shù)架構(gòu)層:通過虛擬化層提供的特性構(gòu)建云計(jì)算的技術(shù)架構(gòu),包括構(gòu)建計(jì)算資源技術(shù)架構(gòu)、構(gòu)建存儲(chǔ)資源技術(shù)架構(gòu)、構(gòu)建網(wǎng)絡(luò)資源技術(shù)架構(gòu)。
虛擬化層:提供虛擬化功能,為計(jì)算資源、網(wǎng)絡(luò)資源和存儲(chǔ)資源提供虛擬化支持和虛擬化管理功能。
云管理平臺(tái)定義為云平臺(tái)層,主要提供對(duì)異構(gòu)云計(jì)算技術(shù)架構(gòu)的兼容和支持,支持vCenter不同版本;支持不同的虛擬化軟件,例如VMware等虛擬化軟件。實(shí)現(xiàn)多數(shù)據(jù)中心異構(gòu)資源的統(tǒng)一調(diào)度管理。
3.4" 智能故障預(yù)測與檢測
3.4.1" 主機(jī)CPU監(jiān)控
針對(duì)CPU監(jiān)控,監(jiān)測1、5和15 min的CPU負(fù)載、用戶態(tài)、系統(tǒng)態(tài)使用時(shí)間,IO等待時(shí)間和空閑時(shí)間等指標(biāo)。當(dāng)CPU使用率超過設(shè)定閾值時(shí),會(huì)觸發(fā)告警通知。此外,為應(yīng)對(duì)CPU瞬時(shí)增高的問題,平臺(tái)提供了Flapping技術(shù),用戶可自定義Flapping值,以確保在CPU多次超過閾值時(shí)才會(huì)產(chǎn)生告警,如圖5所示。
3.4.2" 主機(jī)內(nèi)存監(jiān)控
為了監(jiān)控內(nèi)存,平臺(tái)提供了多個(gè)指標(biāo),包括內(nèi)存利用率、交換空間利用率、交換空間大小及使用情況、內(nèi)存頁交換速率、內(nèi)存錯(cuò)頁率、頁面調(diào)入速率和頁面調(diào)出速率等。這些指標(biāo)用于監(jiān)測物理內(nèi)存、虛擬內(nèi)存及系統(tǒng)的頁面調(diào)入和調(diào)出情況。當(dāng)任何指標(biāo)超過預(yù)設(shè)的閾值時(shí),系統(tǒng)將會(huì)產(chǎn)生告警,如圖6所示。
3.4.3" 策略式批量監(jiān)控
平臺(tái)提供靈活的監(jiān)控策略,支持批量監(jiān)控服務(wù)器,并允許用戶自定義監(jiān)控指標(biāo)的閾值、事件的嚴(yán)重性和緊急程度,以及事件的接收人等設(shè)置,如圖7所示。
3.4.4" 主機(jī)進(jìn)程監(jiān)控
平臺(tái)支持對(duì)進(jìn)程進(jìn)行監(jiān)控,包括進(jìn)程名稱、進(jìn)程ID、父進(jìn)程ID、運(yùn)行用戶、優(yōu)先級(jí)、關(guān)鍵進(jìn)程和運(yùn)行終端等信息。具有相應(yīng)權(quán)限的用戶可以自定義配置或修改進(jìn)程優(yōu)先級(jí),以及終止進(jìn)程。此外,平臺(tái)監(jiān)測進(jìn)程的運(yùn)行狀態(tài),如活躍、死亡、休眠和等待狀態(tài)。對(duì)于關(guān)鍵操作系統(tǒng)或應(yīng)用程序進(jìn)程,當(dāng)其啟動(dòng)或變?yōu)榻┧罓顟B(tài)時(shí),將產(chǎn)生告警以通知系統(tǒng)管理員,同時(shí)支持對(duì)進(jìn)程執(zhí)行停止等操作。
3.4.5" 監(jiān)控報(bào)警
平臺(tái)提供統(tǒng)一的告警展示功能,通過告警列表,能夠展示云平臺(tái)的各類告警信息,平臺(tái)提供多種告警類型,包括狀態(tài)告警和閾值告警。
狀態(tài)告警:主要指云資源中斷、異常告警,比如云主機(jī)宕機(jī)等,如圖8所示。
閾值告警:主要指云資源運(yùn)行指標(biāo)超過指定閾值所產(chǎn)生的告警,比如CPU超過95%,如圖9所示。
告警信息能夠?qū)崿F(xiàn)以短信、郵件、微信的形式發(fā)送。
對(duì)于短信和E-Mail方式,系統(tǒng)可支持多用戶批量通知的功能,并可根據(jù)用戶所屬的角色分別設(shè)置告警通知策略,報(bào)警內(nèi)容和主題均能夠靈活定義。
短信告警:平臺(tái)可以在工單分派給某支持人員、工單催辦升級(jí)、作業(yè)任務(wù)執(zhí)行、審批提醒、替班通知和重要公告通知等不同條件下以各種不同方式通知用戶,默認(rèn)支持電子郵件、系統(tǒng)通知等方式。目前,手機(jī)短信已經(jīng)成為最常用、最有效的個(gè)人通知手段之一,因此推出了手機(jī)短信通知增值模塊,以適應(yīng)用戶這種需要。
郵件通知:告警管理模塊提供配置界面對(duì)要自動(dòng)發(fā)送E-mail的告警進(jìn)行配置(配置條件與告警過濾中的條件基本類似),系統(tǒng)將通過JavaMail應(yīng)用程序利用指定的、已有的郵件服務(wù)器發(fā)送郵件。郵件通知的內(nèi)容可任意定制,默認(rèn)包括告警源、告警描述、故障發(fā)生的時(shí)間和告警級(jí)別等信息。
微信告警:除傳統(tǒng)的郵件報(bào)警、短信報(bào)警外,還推出了微信告警,方便隨時(shí)查看和接收告警信息。
4" 結(jié)束語
虛擬IT資源自動(dòng)優(yōu)化技術(shù)作為一種新興的智能化IT管理手段,正在成為云計(jì)算和數(shù)據(jù)中心管理的重要工具。通過技術(shù)創(chuàng)新和算法優(yōu)化,可以實(shí)現(xiàn)更高效的資源管理和調(diào)度,推動(dòng)企業(yè)向數(shù)字化和智能化方向邁進(jìn)。未來的研究應(yīng)更加關(guān)注優(yōu)化算法的準(zhǔn)確性和可擴(kuò)展性,以及在復(fù)雜環(huán)境下的實(shí)時(shí)響應(yīng)能力。本文以虛擬IT資源自動(dòng)優(yōu)化技術(shù)為題,建立一套充分運(yùn)用大數(shù)據(jù)處理技術(shù)與人工智能分析算法的虛擬IT資源自動(dòng)優(yōu)化系統(tǒng),用于深度分析虛擬IT系統(tǒng)故障、預(yù)測容量趨勢,實(shí)現(xiàn)綜合狀態(tài)監(jiān)控,為系統(tǒng)運(yùn)維管理人員、業(yè)務(wù)運(yùn)行人員決策分析提供主要依據(jù)。
參考文獻(xiàn):
[1] 楊春芳.虛擬化技術(shù)在電廠數(shù)據(jù)中心服務(wù)器資源整合中的應(yīng)用研究[J].價(jià)值工程,2024,43(24):33-35.
[2] 周云,劉克斌,蘇輝,等.基于虛擬化的網(wǎng)絡(luò)空間綜合靶場建設(shè)研究[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2024,43(8):1-8.
[3] 劉勇.基于云計(jì)算和虛擬化的網(wǎng)絡(luò)安全實(shí)驗(yàn)教學(xué)平臺(tái)建設(shè)研究[J].對(duì)外經(jīng)貿(mào),2024(7):89-92.
[4] 洪佳升,柳先輝,張國成.面向設(shè)備虛擬化的微服務(wù)多態(tài)封裝方法研究[J].信息技術(shù),2024(4):1-8.
[5] 劉葉楠,羅歡,袁進(jìn)學(xué).基于微服務(wù)的研發(fā)運(yùn)維一體化關(guān)鍵技術(shù)[J].沈陽工業(yè)大學(xué)學(xué)報(bào),2024,46(2):150-156.