亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        信息處理平臺中資源監(jiān)控管理的設(shè)計與實現(xiàn)

        2022-06-23 11:00:08朱曉波芶冬榮杜欣軍
        計算機工程與設(shè)計 2022年6期
        關(guān)鍵詞:機箱監(jiān)控軟件

        朱曉波,芶冬榮,杜欣軍

        (1.中國電子科技集團公司第三十二研究所 通用產(chǎn)品部,上海 201808;2.中國電子科技集團公司第三十二研究所 計算平臺部,上海 201808)

        0 引 言

        為實現(xiàn)信息處理平臺不間斷工作,并為不同平臺提供統(tǒng)一的監(jiān)控管理環(huán)境,其資源監(jiān)控管理系統(tǒng)需掌握各資源的使用狀態(tài),并須具有對不同規(guī)模信息處理平臺的適應(yīng)性。信息處理平臺為了實現(xiàn)不間斷的工作,需實時掌握其內(nèi)部各種軟硬件資源的使用和故障狀態(tài),及時告知操作員,以便進行任務(wù)調(diào)度、系統(tǒng)修復,盡可能減少資源故障對任務(wù)的影響。不同平臺因任務(wù)不同,其計算、存儲、顯控等需求各異,有時需多個機箱共同完成信息處理,因此該資源監(jiān)控管理系統(tǒng)須具有較好的可擴展性。

        現(xiàn)有文獻基于已有硬件,針對不同環(huán)境下的資源監(jiān)控管理軟件進行了分析與設(shè)計。有的通過動態(tài)采樣、分布式集群監(jiān)控,降低數(shù)據(jù)監(jiān)控中心負荷、滿足系統(tǒng)擴展性要求[1,2];有的針對異構(gòu)資源監(jiān)控、訪問入口進行設(shè)計,進一步完成性能瓶頸探測、異?;蚬收咸綔y與報警[3,4];也有基于內(nèi)存、CPU和硬盤等資源使用情況,為資源的調(diào)度和分配提供決策的[5];還有通過SNMP協(xié)議提高橫向擴展能力的[6,7];也有基于標準測試集對不受控系統(tǒng)進行資源狀態(tài)分析與故障管理的[8,9]。上述文獻都是基于現(xiàn)有硬件,設(shè)計軟件實現(xiàn)資源監(jiān)控的,而無法按需對硬件信息進行采集、對模塊廠家進行追蹤。

        本文通過系統(tǒng)架構(gòu)和底層軟硬件設(shè)計,通過溫度、電壓、電流、資源狀態(tài)及故障等信息檢測,完成涉及特定供貨商產(chǎn)品的信息采集,并實現(xiàn)了各模塊的熱插拔、遠程加載、上下電等功能,滿足現(xiàn)階段信息處理平臺的資源監(jiān)控要求,并為基于歷史信息進行故障預測、提高裝備可用性提供支撐。

        1 信息處理平臺的構(gòu)成

        信息處理平臺采用開放式系統(tǒng)結(jié)構(gòu),硬件采用基于OpenVPX的開放式國際標準,軟件采用層次化設(shè)計。系統(tǒng)根據(jù)不同功能封裝了高內(nèi)聚、低耦合的模塊,且不同層次/模塊間使用標準化接口,硬件易擴展,軟件可裁剪、可移植。其體系結(jié)構(gòu)如圖1所示。

        圖1 信息處理平臺體系結(jié)構(gòu)

        其中,硬件基礎(chǔ)設(shè)施包含各類計算、顯控、存儲、交換等模塊,為上層軟件運行、功能執(zhí)行提供支撐;基礎(chǔ)軟件層包含國產(chǎn)操作系統(tǒng)、BSP與驅(qū)動,并集成國產(chǎn)數(shù)據(jù)庫和數(shù)字地圖,為上層軟件的運行、存儲、網(wǎng)絡(luò)及設(shè)備管理、數(shù)據(jù)存取和場景顯示等提供支撐;應(yīng)用運行支撐環(huán)境包括通信中間件、運算函數(shù)庫、構(gòu)件化管理框架,為應(yīng)用提供構(gòu)件/任務(wù)間通信與訪問、硬件資源高效調(diào)用、應(yīng)用部署與啟停等功能;應(yīng)用集成開發(fā)環(huán)境為平臺上的多種應(yīng)用開發(fā)提供便利。

        資源監(jiān)控與管理,對軟硬件資源的使用及故障狀態(tài)進行監(jiān)控,以便結(jié)合任務(wù)特點,統(tǒng)一調(diào)度與分配資源,提高系統(tǒng)運行效率,并為故障預測提供支撐。

        2 資源監(jiān)控管理關(guān)鍵技術(shù)分析

        資源監(jiān)控管理是為了讓用戶掌握整個設(shè)備的資源使用狀態(tài),并根據(jù)該狀態(tài)實時調(diào)整系統(tǒng)運行策略,以達到保護系統(tǒng)、提高任務(wù)執(zhí)行效率,并記錄各廠商產(chǎn)品的長期工作質(zhì)量特性的目的,可從以下幾個方面予以分析。

        (1)保護系統(tǒng)免于遭受安全性事件

        安全性事件主要包括過壓、過流、過溫等,通過對安全性事件的實時監(jiān)控,可將上述異常事件導致的損失降到最低,從而提高產(chǎn)品質(zhì)量。

        過壓是由于外部供電波動或電源轉(zhuǎn)換電路老化/損傷,導致供電電路輸出電壓高于正常電壓。大多數(shù)集成電路可正常工作的電壓范圍是VCC*(1±5%), 某些器件可達到±10%;一般超過+10%將導致器件損壞,低于-10%將導致器件不能正常工作。過壓檢測的目的是實時斷開后續(xù)電路,以避免所供電器件的損毀,阻止造成更大范圍的損失;同時記錄過壓情況,為后續(xù)設(shè)備維護保障提供支持,并可長期跟蹤產(chǎn)品,以提高產(chǎn)品質(zhì)量。

        過流是由于電路長期工作導致阻抗變低、部分器件擊穿,以及工藝性缺陷導致短路等因素,使得供電電流大幅上升。電流大幅上升,意味著電路工作不正常,并可導致熱量集聚,從而導致?lián)p害范圍擴大。過流檢測的目的是實時斷開供電電源,避免用電電路損毀,并阻止造成更大損失;同時記錄過流情況,為維護保障、提高產(chǎn)品質(zhì)量提供支持。

        過溫是由于熱耗大于散熱能力使得熱量聚集,使系統(tǒng)溫度升高。高溫將導致器件性能下降,并增大設(shè)備燒毀的風險。過溫檢測的目的是通過提高風扇轉(zhuǎn)速,加強散熱能力,降低設(shè)備燒毀的風險,并提高設(shè)備的可靠性;同時記錄過溫情況,為維護保障、提高產(chǎn)品質(zhì)量提供支持。

        (2)基于資源使用狀態(tài)提高任務(wù)執(zhí)行效率

        通過掌握任務(wù)執(zhí)行中各種資源的使用情況,提高任務(wù)執(zhí)行及資源使用的效率。資源監(jiān)控向用戶提供計算、存儲、通信等資源的故障及使用情況,結(jié)合新任務(wù)對上述資源的需求,實現(xiàn)任務(wù)的合理分配,提高系統(tǒng)的任務(wù)吞吐率;如多個節(jié)點資源占用率都較低,可合并任務(wù)到一個或幾個節(jié)點,進一步關(guān)閉其它節(jié)點,從而降低能耗、提高系統(tǒng)可靠性;對于出現(xiàn)故障的資源,提醒用戶謹慎使用或替換新模塊。

        (3)記錄各供貨商產(chǎn)品的質(zhì)量特性

        通過記錄設(shè)備運行中的過壓、過流、過溫,以及各種資源故障及使用情況,可以分析設(shè)備的性能衰變,從而可通過長期記錄分析供貨商產(chǎn)品的質(zhì)量特性,以便提高產(chǎn)品質(zhì)量、選擇更優(yōu)異的產(chǎn)品。

        (4)為系統(tǒng)管理提供支持

        為正常實現(xiàn)系統(tǒng)功能,還需為人工介入后的系統(tǒng)管理提供支持,包括BIT故障檢測、風扇轉(zhuǎn)速信息采集與控制、故障報警、上/下電控制與管理、熱插拔支持、復位、看門狗監(jiān)控和日志管理等。

        3 資源監(jiān)控管理設(shè)計

        3.1 架構(gòu)設(shè)計

        資源監(jiān)控管理是對信息處理平臺中的軟硬資源進行有效的監(jiān)控與管理,獲取資源的故障和使用情況,并呈現(xiàn)給用戶、記錄日志,進一步完成資源高效調(diào)度與故障預測,為實現(xiàn)系統(tǒng)高性能、高可用提供支持。資源監(jiān)控管理采用分層架構(gòu)和監(jiān)控管理代理方式,實現(xiàn)從處理器到應(yīng)用的全覆蓋監(jiān)控管理,其技術(shù)架構(gòu)如圖2所示。

        圖2 資源監(jiān)控管理的技術(shù)架構(gòu)

        最底層為監(jiān)控管理對象,主要包括系統(tǒng)中的機箱(含電源)、計算/顯控/存儲、網(wǎng)絡(luò)交換等硬件設(shè)備,以及操作系統(tǒng)、數(shù)據(jù)庫、應(yīng)用運行支撐環(huán)境和應(yīng)用軟件等軟件資源。硬件設(shè)備須為資源監(jiān)控管理提供必要的底層硬件支持;軟件資源須為資源監(jiān)控實現(xiàn)提供必要的接口調(diào)用。

        監(jiān)控管理器實現(xiàn)整機及各模塊的監(jiān)控信息采集及管理命令執(zhí)行,由Agent、模塊監(jiān)控軟件、機箱監(jiān)控軟件3部分組成。

        監(jiān)控管理服務(wù)基于監(jiān)控管理器所采集的資源監(jiān)控信息,為上層提供相應(yīng)服務(wù),具體包括資源監(jiān)控、系統(tǒng)管理。

        監(jiān)控管理門戶是資源監(jiān)控的輔助管理界面,以Web方式向用戶展示監(jiān)控管理器、監(jiān)控管理服務(wù)為用戶提供的各類信息與服務(wù)。

        基于上述資源監(jiān)控情況,結(jié)合任務(wù)需求,可實現(xiàn)資源管理與任務(wù)調(diào)度、配置管理、故障預測及應(yīng)用管理,為實現(xiàn)高可用系統(tǒng)提供支持。

        3.2 硬件模塊的資源監(jiān)控設(shè)計

        平臺中各模塊采用OpenVPX架構(gòu),符合相應(yīng)結(jié)構(gòu)、散熱等設(shè)計要求,其資源監(jiān)控管理主要是通過模塊級BMC、系統(tǒng)級ShMC予以實現(xiàn)。其中BMC負責模塊級監(jiān)控管理,接收指令并執(zhí)行相應(yīng)操作(收集狀態(tài)、實現(xiàn)上/下電、復位等控制),并向ShMC上報;ShMC負責調(diào)度各BMC并收集反饋信息,實現(xiàn)全平臺的狀態(tài)監(jiān)控、故障檢測、系統(tǒng)管理與恢復等。該方案中ShMC,通過交換模塊上的BMC運行ShMC軟件實現(xiàn)。

        資源監(jiān)控硬件設(shè)計具有以下特征:①為提高系統(tǒng)可靠性,硬件模塊間通過兩條I2C總線(intelligent platform management BUS,IPMB)互聯(lián),兩條總線互為備份,數(shù)據(jù)協(xié)議符合IPMI(intelligent platform management interface)規(guī)范;②為提高系統(tǒng)可靠性,采用雙交換架構(gòu),通過主從管理策略確定哪個交換為主控模塊;③根據(jù)機箱內(nèi)溫度及其分布,由主交換模塊控制機箱內(nèi)各風扇轉(zhuǎn)速;④為提高資源監(jiān)控的信息容量和傳輸距離,系統(tǒng)為匯總后信息提供了千兆網(wǎng)傳輸通道,交換ShMC通過板內(nèi)的千兆網(wǎng)連接千兆交換網(wǎng)絡(luò),以便向上位機、機箱間提供監(jiān)控信息。

        從資源監(jiān)控角度,結(jié)合各模塊主要功能單元來看,硬件可分為電源、計算/存儲/顯控、交換3種模塊,不同種類模塊資源監(jiān)控設(shè)計存在一定差異,下面分別進行說明。

        3.2.1 電源模塊

        該模塊資源監(jiān)控主要由各類電源轉(zhuǎn)換電路、BMC等電路組成,如圖3所示。

        圖3 電源模塊資源監(jiān)控框架

        該模塊資源監(jiān)控主要包括以下功能:

        (1)各級電壓、電流信號的采集。采集輸入的電壓、電流、實時感知輸入電壓、系統(tǒng)功率的變化;采集12 V、48 V、3.3 V等輸出電壓,實時獲知內(nèi)部所使用電壓的變化。

        (2)BMC電路。該電路是電源模塊的智能管理單元,具有以下功能:①獲取機箱號、槽位號,為系統(tǒng)定位該模塊;②實時鐘和看門狗電路,用于產(chǎn)生本地時鐘,并支持故障下的模塊重啟;③存儲器,用于存儲模塊名稱/型號/生產(chǎn)日期/序列號、供貨商名稱,以及軟件代碼及版本號、出廠設(shè)置等信息,并具備日志功能;④提供對外I2C接口,用于接受外部指令,上報本板監(jiān)控、故障及報警信息,按需實現(xiàn)各檔電壓上/下電、恢復出廠設(shè)置、固件更新等功能;⑤上下電控制,BMC按需輸出上下電控制信號,實現(xiàn)對某一路輸出電壓的上下電。

        (3)溫度采集。為準確獲取板卡熱特性,在進風口、出風口、模塊中部放置溫度傳感器,監(jiān)控板卡基本溫度;為實現(xiàn)對主要芯片(220 V~12 V、220 V~48 V、48 V~3.3 V)的溫度檢測,可通過器件本身的溫度接口或器件附近的傳感器獲取。

        (4)復位。電源模塊BMC可接收外部復位信號,復位該模塊BMC電路。

        3.2.2 計算/顯控/存儲模塊

        該類模塊資源監(jiān)控主要由CPU/DSP/CPU及外圍電路、BMC電路等組成,如圖4所示。

        該類模塊資源監(jiān)控設(shè)計主要包括:

        (1)各級電壓電流信號采集、BMC電路和溫度采集。該部分與電源模塊相應(yīng)部分設(shè)計思路基本相同,差異體現(xiàn)在:①輸入電壓、電流采集,主要針對12 V、3.3 V;內(nèi)部電壓監(jiān)控主要針對本板CPU/DSP/GPU/存儲體等供電電壓;②主要芯片的溫度監(jiān)控,主要針對CPU/DSP/GPU/存儲體等器件。

        (2)復位。該模塊可接收外部復位信號,完成整板電路的復位;也可由BMC接收外部復位指令,完成CPU/DSP/GPU等主電路復位。

        圖4 計算/顯控/存儲模塊資源監(jiān)控框架

        (3)CPU及外圍電路。從資源監(jiān)控角度,其功能如下:①實時鐘與看門狗,用于產(chǎn)生CPU的本地時鐘,并支持故障下的CPU自重啟;②上下電控制,BMC通過I2C接收外部上下電控制指令,通過輸出上下電控制信號,控制主電路的供電DC/DC電路,實現(xiàn)上下電控制;③NCSI功能[10]。該模式下CPU與千兆網(wǎng)卡關(guān)系不變,而BMC利用千兆網(wǎng)卡的物理層,實現(xiàn)對外的千兆網(wǎng)互聯(lián),以便進行調(diào)試或數(shù)據(jù)傳輸;④BIT,CPU/DSP/GPU及外圍電路本身可進行處理器、存儲器、各類接口的故障檢測及使用狀態(tài)監(jiān)測,其結(jié)果可通過千兆網(wǎng)對外輸出,也可通過內(nèi)部UART傳遞給BMC。

        (4)CPU與BMC的信息交互。該模塊CPU/DSP/GPU部分的BIT及各類資源的狀態(tài)監(jiān)控結(jié)果,可通過內(nèi)部UART傳遞給BMC,從而傳遞給用戶界面;BMC檢測到的溫度、電壓、電流、功耗等信息,以及系統(tǒng)所需的控制信息(如遠程啟動地址、BIT信息收集等命令),也通過UART傳遞給CPU。

        (5)指令接收與信息上報。板級BMC接收ShMC發(fā)出的指令,按照指令執(zhí)行相應(yīng)操作,并將結(jié)果及本地上報信息通過I2C接口上報給ShMC。

        3.2.3 交換模塊

        該模塊資源監(jiān)控主要由CPU及外圍、交換、ShMC/BMC等組成,如圖5所示。其中ShMC/BMC為其智能管理單元,作為BMC,完成本板溫度/電壓/電流等信息采集,以及資源監(jiān)控命令的接收、執(zhí)行和結(jié)果返回等功能;作為ShMC,負責整個機箱的資源監(jiān)控信息收集、用戶命令的解析/下發(fā)/執(zhí)行、機箱管理等功能。

        圖5 交換模塊資源監(jiān)控框架

        該類模塊資源監(jiān)控設(shè)計主要包括:

        (1)各級電壓電流信號采集、BMC電路和溫度采集。該部分與計算/顯控/存儲模塊相應(yīng)部分設(shè)計思路基本相同。具體差異體現(xiàn)在:①內(nèi)部電壓監(jiān)控主要是監(jiān)控本板CPU、交換芯片所用電壓;②主要芯片的溫度監(jiān)控,主要監(jiān)控CPU、交換芯片等器件。

        (2)CPU及外圍電路。該部分的實時鐘與看門狗、BIT工作模式與計算/顯控/存儲模塊相應(yīng)部分的設(shè)計思路基本相同,具體差異體現(xiàn)為:復位與上下電控制信號中,對本板主電路的復位、上下電控制與計算/顯控/存儲模塊相應(yīng)設(shè)計思路基本相同;但交換模塊的ShMC/BMC作為機箱ShMC時,需解析上位機輸入的復位指令,輸出復位信號實現(xiàn)對某模塊的整板復位,而如復位是針對某計算/顯控/存儲模塊的主電路,則將該復位指令轉(zhuǎn)發(fā)給相應(yīng)模塊BMC,由其輸出信號復位相應(yīng)主電路;解析上位機輸入的上下電指令,并傳遞給相應(yīng)模塊BMC,由其對相應(yīng)主電路進行上下電控制。

        (3)上位機與ShMC/BMC間的信息傳輸。通過ShMC/BMC對外提供的百兆網(wǎng)、與千兆網(wǎng)交換間的千兆網(wǎng),ShMC可向上位機(外部控制設(shè)備或顯控模塊)提供整機監(jiān)控信息,也可接收上位機指令;

        (4)CPU與交換單元[11]的互連。CPU通過PCIe/RIO與交換單元互聯(lián),完成上電配置,并獲取各網(wǎng)絡(luò)端口的狀態(tài)(Link、故障等),為計算/顯控/存儲模塊的冗余備份、故障檢測與系統(tǒng)恢復提供支持;

        (5)心跳線。系統(tǒng)包含兩個交換模塊,心跳線用于告知另一交換模塊自身的狀態(tài);模塊正常時輸出周期性的心跳線,模塊異常時心跳線將會停止,另一模塊據(jù)此判斷對方的狀態(tài);通過心跳線,系統(tǒng)啟動相應(yīng)仲裁流程,確定系統(tǒng)主交換模塊。主交換模塊控制系統(tǒng)的I2C總線,實現(xiàn)機箱管理、風扇控制等功能。

        (6)CPU與BMC間的信息交互。與3.2.2節(jié)中相應(yīng)內(nèi)容相同。

        (7)指令接收與信息上報。該模塊ShMC接收用戶界面通過以太網(wǎng)發(fā)出的管理指令,按指令執(zhí)行相應(yīng)操作(包括向功能模塊發(fā)送相應(yīng)指令),并將上報信息、執(zhí)行結(jié)果,通過以太網(wǎng)發(fā)送給用戶界面。

        3.3 資源監(jiān)控管理軟件設(shè)計

        按圖2的資源監(jiān)控管理軟件分層設(shè)計思想,下邊對每個軟件進行設(shè)計。

        3.3.1 監(jiān)控管理器設(shè)計

        監(jiān)控管理器由Agent、模塊監(jiān)控軟件、機箱監(jiān)控軟件3部分組成。Agent駐留于計算/顯控/存儲模塊上,實現(xiàn)模塊內(nèi)部資源監(jiān)控與管理,并在模塊內(nèi)部的CPU、BMC間傳輸信息。板級監(jiān)控軟件運行于計算/顯控/存儲/電源模塊的BMC上,實現(xiàn)單模塊硬件監(jiān)控,對外提供IPMB接口;機箱監(jiān)控軟件運行于交換模塊的ShMC上,除實現(xiàn)本模塊硬件監(jiān)控外,還承擔平臺監(jiān)控管理功能。操作系統(tǒng)、數(shù)據(jù)庫等軟件通過自身監(jiān)控接口上報其運行狀態(tài),此處不詳述。

        (1)Agent設(shè)計

        Agent包括運行在CPU、BMC上的兩部分:CPU上軟件,主要監(jiān)控CPU及其外圍資源狀態(tài),通過BIT可獲取CPU、內(nèi)存、硬盤及各類接口的故障信息,通過API可獲取上述資源的占用率,以便為資源高效調(diào)度提供支撐;BMC上軟件,解析IPMI接口數(shù)據(jù),按要求對該模塊CPU電路進行上下電、復位,以及iKVM等管控功能。此外,還實現(xiàn)CPU、BMC間的命令與狀態(tài)信息交互。

        (2)模塊監(jiān)控軟件

        模塊監(jiān)控軟件主要監(jiān)控模塊資源狀態(tài)、按要求完成模塊管理,主要包括:

        1)健康信息監(jiān)控。通過傳感器采集模塊的溫度、電壓、電流,通過CPU進行BIT、調(diào)用相應(yīng)接口,獲取CPU、內(nèi)存、硬盤、網(wǎng)絡(luò)及各類接口的故障及使用情況,并進行上報。此外,還可通過IPMI獲取帶外硬件狀態(tài)(如模塊的版本、狀態(tài)等),收集帶內(nèi)軟件狀態(tài)(如軟件的版本、資源使用率等)。

        2)命令接收執(zhí)行與信息上報。模塊監(jiān)控軟件接收并解析機箱監(jiān)控軟件發(fā)來的命令,完成相關(guān)命令(上下電、復位等等)執(zhí)行;模塊監(jiān)控軟件按照命令要求,按需將模塊信息上報至機箱監(jiān)控軟件;上報信息除健康信息、執(zhí)行結(jié)果外,還包括產(chǎn)品名稱、制造商、生產(chǎn)日期、模塊類型及序列號、軟件版本等FRU信息。

        3)日志記錄。對健康監(jiān)控、網(wǎng)絡(luò)等信息進行記錄,成為模塊日志。

        4)熱插拔管理。提供統(tǒng)一的模塊熱插拔管理流程,根據(jù)接收到的命令,使模塊處在相應(yīng)狀態(tài)(具體包括未安裝、未激活、激活請求、激活中、已激活、去活請求、去活中、命令丟失等8種)。

        (3)機箱監(jiān)控軟件

        機箱監(jiān)控軟件運行于交換模塊ShMC上,實時監(jiān)控整機的健康狀態(tài),并接受用戶監(jiān)控指令,負責監(jiān)控命令的接收、分析、執(zhí)行、分發(fā)與信息反饋、收集等,主要包括:

        1)健康信息監(jiān)控。實時獲取機箱中所有模塊的溫度、電壓、功耗等傳感器信息,以及各模塊的CPU、內(nèi)存、硬盤、網(wǎng)絡(luò)及接口的工作狀態(tài)(包括故障、資源使用率等),并實時獲取本交換模塊傳感器信息、資源工作狀態(tài)信息,匯總后按要求向上位機匯報。

        2)機箱風扇監(jiān)控。根據(jù)機箱內(nèi)各模塊的溫度及其分布、變化,控制風扇轉(zhuǎn)速,并采集結(jié)果。

        3)FRU信息收集。獲取機箱內(nèi)各模塊的名稱、制造商、生產(chǎn)日期、序列號、軟件名稱及版本等FRU信息,并通過IPMI向上位機上報。

        4)遠程操作。按要求管理機箱內(nèi)所有模塊的遠程操作(包括各模塊的上/下電、復位,以及iKVM、遠程啟動與軟件加載等)。

        5)日志信息。記錄并管理機箱內(nèi)所有模塊日志信息(包括溫度、電壓、電流、資源健康狀態(tài)及使用信息、風扇狀態(tài)信息等等),并按需上報。

        6)熱插拔。監(jiān)測機箱內(nèi)所有模塊熱插拔狀態(tài)信息,管理機箱內(nèi)所有模塊的熱插拔操作,并通過IPMI向上位機上報機箱內(nèi)所有模塊的熱插拔狀態(tài)信息。

        3.3.2 監(jiān)控管理服務(wù)

        監(jiān)控管理服務(wù)基于監(jiān)控管理器提供的資源監(jiān)控功能,向上層提供資源監(jiān)控服務(wù),包括資源監(jiān)控、系統(tǒng)管理兩部分。

        (1)資源監(jiān)控

        資源監(jiān)控基于所收集的信息,建立日志數(shù)據(jù)庫;對超出閾值的事件進行告警;并通過B/S、API兩種模式,為用戶提供資源監(jiān)控界面或用戶調(diào)用接口。

        1)日志管理

        對所獲得的日志信息,按照時間、事件、模塊、參數(shù)等關(guān)鍵字建立索引,形成日志數(shù)據(jù)庫,便于用戶查詢和統(tǒng)計。

        2)事件告警

        當異常事件(如模塊溫度/電壓/電流過高、出現(xiàn)故障、載荷過大等)發(fā)生時進行告警,并給出事件基本信息。

        3)控制與信息服務(wù)

        該軟件接收上位機發(fā)來的軟硬件管理的IPMI命令,調(diào)用底層資源完成命令執(zhí)行;向上位機周期發(fā)送整機軟硬件實時狀態(tài)信息(包括傳感器信息、以及CPU、內(nèi)存、硬盤、網(wǎng)絡(luò)等的狀態(tài)信息和使用情況)。

        該服務(wù)為上位機或第三方軟件提供B/S、API兩種訪問模式。在B/S模式中,實現(xiàn)了Sever端功能,允許Web瀏覽器訪問相關(guān)服務(wù),并接收相應(yīng)命令;在API模式中,向有定制需求的用戶提供底層API調(diào)用接口,用戶可按需設(shè)計自己的界面。

        (2)系統(tǒng)管理

        系統(tǒng)管理為用戶提供對底層軟硬件的配置和維護,并實現(xiàn)ShMC主從管理。

        1)系統(tǒng)配置

        系統(tǒng)配置包括時間、網(wǎng)絡(luò)、用戶等配置。時間配置是配置當前系統(tǒng)時間、時區(qū)及更改時區(qū);網(wǎng)絡(luò)配置是按機柜、機箱和槽位信息,配置模塊的IP地址、ID號;用戶配置維護用戶管理列表(用戶ID、名稱和權(quán)限),提供增、刪、改等操作。

        2)系統(tǒng)維護

        提供BMC重啟、BMC固件更新、恢復出廠設(shè)置等功能,并為遠程啟動與軟件加載提供支持。

        3)ShMC主從管理

        為提高系統(tǒng)可靠性,同一機箱設(shè)計了2個ShMC,為實現(xiàn)系統(tǒng)有序工作,需通過主從仲裁、心跳監(jiān)測手段確定哪一個為主節(jié)點:①主從仲裁。上電時默認槽位號較小模塊上的為主ShMC,另一個為備用ShMC;主ShMC發(fā)送命令給槽位號較大的交換模塊上的ShMC,如對方節(jié)點為非激活狀態(tài),則設(shè)本節(jié)點為主ShMC,另一個為備用;如對方節(jié)點已激活,則將本節(jié)點設(shè)置為備用ShMC。主從ShMC周期性發(fā)送心跳信號給對方;②心跳監(jiān)測。備用ShMC周期地監(jiān)測主ShMC心跳是否失效,如失效則將本節(jié)點設(shè)置為主ShMC。

        3.3.3 監(jiān)控管理門戶

        監(jiān)控管理門戶通過Web方式,向用戶提供各類信息與服務(wù)。具體包括各類軟硬件資源狀態(tài)視圖、網(wǎng)絡(luò)拓撲,提供異常事件告警等功能;其管理頁面提供系統(tǒng)配置、故障管理、應(yīng)用管理、日志操作等操作界面;并提供訪問控制功能,包括操作員身份認證、用戶/角色管理、權(quán)限判斷等。監(jiān)控管理門戶運行于上位機,主要為用戶觀察系統(tǒng)、訪問控制提供便利,具體包括以下功能。

        (1)實時狀態(tài)展示

        監(jiān)控管理門戶提供各模塊實時狀態(tài)展示頁面,系統(tǒng)將自動發(fā)現(xiàn)、監(jiān)測各模塊節(jié)點,根據(jù)機柜號、機箱號、槽位號自動排布,向用戶展示各模塊運行的實時狀態(tài)(包括模塊類型、是否在位、正常運行/異常),并按路由關(guān)系建立各節(jié)點的網(wǎng)絡(luò)拓撲。

        (2)節(jié)點導航

        提供文件系統(tǒng)、進程、性能監(jiān)控、屬性、BMC、遠程登錄、開關(guān)機等功能。在文件系統(tǒng)功能中,可對節(jié)點上文件進行創(chuàng)建、讀寫、刪除等操作;在進程功能中,可展示節(jié)點上所有進程的狀態(tài)及資源占用率;性能監(jiān)控將節(jié)點資源(CPU、內(nèi)存、磁盤、網(wǎng)絡(luò)等)使用情況進行展示。屬性提供節(jié)點的操作系統(tǒng)及其版本、IP地址和用戶等信息。BMC提供節(jié)點的溫度/電壓/電流等傳感器、網(wǎng)絡(luò)端口、硬件版本等信息。遠程登錄為用戶遠程登錄被監(jiān)控節(jié)點提供支持。通過開關(guān)機實現(xiàn)單節(jié)點的上下電操作。

        (3)應(yīng)用管理

        提供相關(guān)應(yīng)用的管理操作,包括任務(wù)部署、文件上下載。任務(wù)部署對監(jiān)控節(jié)點進行遠程任務(wù)部署;文件上下載可將瀏覽器所在計算機上的文件傳輸?shù)侥繕斯?jié)點上,也可將目標節(jié)點上的文件下載到瀏覽器所在計算機。

        (4)訪問控制功能,包含用戶管理、用戶認證以及權(quán)限管理。用戶管理實現(xiàn)用戶信息的增加、刪除、查詢、修改;用戶認證通過用戶名、密碼確認用戶身份的合法性;權(quán)限管理根據(jù)用戶屬性提供不同的操作權(quán)限。

        (5)遠程控制

        可通過以太網(wǎng)對各模塊進行遠程控制,監(jiān)控模塊工作狀態(tài),并提供人機交互界面。

        (6)日志操作

        提供日志查詢界面,供管理員進行集群系統(tǒng)日志和用戶日志的查詢,并可將日志信息保存為文本文件。

        4 系統(tǒng)實現(xiàn)效果

        通過上述架構(gòu)、硬件和軟件等多層級設(shè)計及其有機結(jié)合,最終形成了對信息處理平臺的監(jiān)控能力。以下對其主要部分進行簡要說明。

        4.1 設(shè)備及節(jié)點基本視圖

        通過該視圖可顯示機箱及設(shè)備狀態(tài)、節(jié)點基本信息,提供基本參數(shù)供用戶使用。

        機箱及設(shè)備狀態(tài)如圖6(a)所示,描述了系統(tǒng)中的機箱情況(3號機柜、7號機箱,共14個槽位)、在位模塊(軟件指示燈純白為不在位)、模塊類型(如交換、計算、顯控、存儲、電源等)、模塊狀態(tài)(軟件指示燈斜線為正常、網(wǎng)點狀為故障)。

        節(jié)點基本信息如圖6(b)、圖6(c)所示。其中圖6(b)顯示了模塊BMC上的信息,包括槽位號、主要芯片溫度、板卡平均溫度、功耗等;圖6(c)描述了該節(jié)點上的操作系統(tǒng)類型及其版本、IP地址、協(xié)議類型和Agent代理ID號等。

        圖6 設(shè)備及節(jié)點基本視圖

        4.2 節(jié)點資源使用視圖

        節(jié)點資源主要是指用于處理的CPU及其外部資源,圖7描述了CPU、RAM(內(nèi)存)、DISK(硬盤)、網(wǎng)絡(luò)等資源的使用率。其中CPU使用率,采用動態(tài)曲線描述一段時間內(nèi)CPU使用率及其變動情況;RAM使用率,采用動態(tài)柱狀圖方式,描述其使用及變動情況;硬盤使用率變化比較緩慢,采用餅圖方式進行顯示;網(wǎng)絡(luò)使用率采用動態(tài)曲線方式,描述其使用及變動情況。

        圖7 節(jié)點資源使用情況

        通過資源監(jiān)控設(shè)計,該信息處理平臺可為用戶提供設(shè)備及節(jié)點的基本信息、節(jié)點資源使用信息,方便用戶及時監(jiān)控設(shè)備狀態(tài)、發(fā)現(xiàn)故障,掌握其變化規(guī)律,以便采取相應(yīng)措施。通過各模塊的熱插拔、遠程加載、上/下電、復位和看門狗等管理功能,結(jié)合模塊的替換和重啟等措施,減少了平臺故障時間,提高了可用性。

        5 結(jié)束語

        該方案實現(xiàn)了各類故障與資源使用率的監(jiān)控,并可跟蹤各供應(yīng)商產(chǎn)品的質(zhì)量特性,滿足了某信息處理平臺的資源監(jiān)控需要,并在某型雷達中得到了應(yīng)用。隨著信息處理平臺規(guī)模越來越大,通過機箱間千兆網(wǎng)互聯(lián),可實現(xiàn)多機箱、甚至多機柜的資源監(jiān)控,方便地支持了雷達后端系統(tǒng)的橫向擴展;并可根據(jù)所記錄的狀態(tài)及故障歷史,為故障預測提供支撐。為了向用戶提供更好的技術(shù)服務(wù),后續(xù)將在故障預測方面開展相關(guān)研究。

        猜你喜歡
        機箱監(jiān)控軟件
        The Great Barrier Reef shows coral comeback
        禪宗軟件
        英語文摘(2021年10期)2021-11-22 08:02:26
        你被監(jiān)控了嗎?
        Zabbix在ATS系統(tǒng)集中監(jiān)控中的應(yīng)用
        軟件對對碰
        看監(jiān)控攝像機的4K之道
        依舊出色 航嘉MVP機箱圖解
        電腦迷(2015年2期)2015-04-29 00:44:03
        談軟件的破解與保護
        精品(2015年9期)2015-01-23 01:36:01
        NI發(fā)布兩款NI CompactRIO擴展機箱
        電子測試(2012年10期)2012-03-31 12:14:20
        豐富多彩的Android軟件
        日本频道一区二区三区| 欧美性猛交xxxx乱大交蜜桃| 97日日碰日日摸日日澡| 成年女人午夜特黄特色毛片免| 亚洲蜜臀av一区二区三区| 人妻熟女一区二区三区app下载| 国产精品久久久久久久久KTV| 久久久婷婷综合五月天| 中文字幕高清不卡视频二区| 亚洲性无码一区二区三区| 亚洲av乱码中文一区二区三区| 亚洲一区丝袜美腿在线观看| 国产不卡视频在线观看| 国产欧美日韩精品专区 | 美女啪啪国产| av在线手机中文字幕| 亚洲国产色一区二区三区| 毛片亚洲av无码精品国产午夜| 精品国产AⅤ无码一区二区| 日本二区三区视频在线观看| 麻豆亚洲一区| 51久久国产露脸精品国产| a级国产精品片在线观看| 成人av资源在线观看| 中文字幕网伦射乱中文| 亚洲av无码国产精品麻豆天美 | 一区二区三区精品亚洲视频| 三级全黄裸体| 乱人伦中文字幕成人网站在线| 中文字幕亚洲精品码专区| 亚洲av综合av一区| 亚洲国产一区二区a毛片| 久久久精品456亚洲影院| 中文字日产幕码三区做法| 性做久久久久久久| 欧美日韩在线观看免费| 一区二区三区日本在线| 2018天天躁夜夜躁狠狠躁| 国产精品视频一区二区噜噜| 国产区高清在线一区二区三区| 亚洲人妻调教中文字幕|