摘 要:當(dāng)今社會是高度信息化的社會,計算機在各個生產(chǎn)領(lǐng)域所占的地位越來越重?,F(xiàn)代化的商業(yè)操作都是以高校密集的計算機網(wǎng)絡(luò)系統(tǒng)作為基礎(chǔ)。如今的計算機已經(jīng)發(fā)展成為了高性能容錯計算機,這大大促進(jìn)了相關(guān)技術(shù)和產(chǎn)業(yè)的發(fā)展。這一類計算機的容錯框架的核心就是故障的實時監(jiān)測和管理維修機制。本文就計算機硬件設(shè)備故障管理機制的故障原因、故障管理框架、故障診斷原則、故障診斷方法等作一淺析。
關(guān)鍵詞:故障管理機制;故障管理框架;診斷描述;故障診斷方法
中圖分類號:TP303
1 計算機硬件設(shè)備故障原因分析
隨著科技的發(fā)展,計算機的使用已經(jīng)滲透進(jìn)各行各業(yè),高度信息化自動化的浪潮席卷了全球,這一切都與計算機的強大計算能力息息相關(guān)。但是,計算機并不是能夠保證永久正常運行的,在計算機的使用過程中硬件故障一直都是一個難以保障的問題。硬件故障的原因可能有病毒入侵和設(shè)備老化兩種,計算機出現(xiàn)故障的時候,往往意味著我們的生產(chǎn)生活會受到極大的影響,所以我們要竭力避免這種情況。
計算機的運行異常通常分為缺陷、紊亂和故障三種。缺陷指的是計算機在設(shè)計時或者制造時造成的先天性的瑕疵,缺陷體現(xiàn)出來的時候和計算機的運行狀態(tài)和工作人員的操作都沒有關(guān)系,這往往很難控制,也幾乎無法維修。紊亂是指計算機在使用過程中,由于外界環(huán)境的變化,計算機本身的復(fù)雜構(gòu)造往往會影響到計算機的使用,例如劇烈溫度變化造成的電壓不穩(wěn)等問題,但是通常紊亂并不需要工作人員對計算機進(jìn)行維修,往往等到環(huán)境因素穩(wěn)定下來,計算機也就能正常工作了。計算機的故障往往發(fā)生在計算機的長時間使用之后,這種異常與生產(chǎn)和設(shè)計無關(guān),造成的原因大部分是因為硬件老化或者遭到破壞,計算機的完整性難以保持,也就不能正常工作了。
在三種使用異常中,只有故障這一種異常是可以彌補和修復(fù)的,在絕大多數(shù)情況下都會對故障的計算機進(jìn)行修復(fù)。目前,世界上的故障管理系統(tǒng)由錯誤處理器、診斷引擎和故障響應(yīng)代理三部分組成,主要使用了錯誤處理技術(shù)和診斷引擎技術(shù),二者分別負(fù)責(zé)驅(qū)動容錯、錯誤檢測、錯誤糾正和幫助技術(shù)人員實現(xiàn)自動化的故障診斷。
2 當(dāng)下的計算機故障管理機制
2.1 日志型故障管理機制
目前的大多數(shù)操作系統(tǒng)使用的是日志故障處理機制。在故障發(fā)生時,系統(tǒng)通常只是將錯誤的元件信息轉(zhuǎn)化為日志消息格式,直接將信息輸送給管理員。這種機制的故障報告信道往往很多,而且缺乏統(tǒng)一的渠道管理,所以系統(tǒng)進(jìn)場分散處理錯誤報告工作;甚至有時候人工對錯誤進(jìn)行診斷和修復(fù)機器設(shè)備故障問題,無法實現(xiàn)自動化的故障管理操作。
2.2 SFM系統(tǒng)
該系統(tǒng)的工作原理標(biāo)準(zhǔn)是WEB的企業(yè)管理,診斷工具為模塊式硬件設(shè)備。系統(tǒng)工作時能夠?qū)崟r監(jiān)控系統(tǒng)運行,并將獲取的硬件監(jiān)測數(shù)據(jù)在同一時刻以中間件形式匯報給管理員,然后管理員根據(jù)接收到的信息快速準(zhǔn)確地找到故障元件。SFM系統(tǒng)的不足之處有,系統(tǒng)在正常運行是必須伴隨著特定的診斷程序的參與,而且算法采用了成本費用較高的主動式測試硬件算法,導(dǎo)致故障監(jiān)測能力并不如預(yù)期,其修復(fù)能力與力度也極其有限,不足以滿足自動化故障診斷的要求。
2.3 X86 平臺式MCA技術(shù)
MCA技術(shù)的設(shè)備故障處理涉及三方面,分別是硬件、固件和操作系統(tǒng)。它有很大的局限性。第一,技術(shù)自身并不能檢測設(shè)備故障,而是只能將錯誤信息傳送給操作系統(tǒng),由管理員做出判斷及制定措施;第二,技術(shù)涉及的平臺相關(guān)性占用了管理員大量的時間閱讀錯誤日志信息,難以保證系統(tǒng)運行的高效;第三,故障管理軟件的平臺和供應(yīng)商設(shè)備二者的錯誤報告標(biāo)準(zhǔn)很難或者沒有辦法統(tǒng)一。
3 層次化故障管理機制
計算機硬件管理技術(shù)在使用時都只是針對故障管理系統(tǒng)的三個部分服務(wù)的,而缺少一個共同的管理平臺來集中化自動化智能化處理信息。層次化故障管理機制,層次化故障管理框架由此而來。一個完整框架的建設(shè)能保證故障管理系統(tǒng)在工作時能夠長時間不間斷的高效管理故障,對故障進(jìn)行檢測、診斷和預(yù)測等功能,并向技術(shù)人員返還維修建議。在故障管理框架中,系統(tǒng)的三部分變成了框架構(gòu)成的三個組件,并能使現(xiàn)在服務(wù)器中正常的相互通信??蚣鼙环譃樗膫€層次:資源層、故障管理層、事件層、傳輸層。
資源層包括三個要素:硬件故障引發(fā)的錯誤行為、硬件引發(fā)錯誤的行為規(guī)則、硬件資源本身。在管理框架的實現(xiàn)過程中,管理系統(tǒng)所要做的是將這三個要素進(jìn)行交互。資源層實現(xiàn)的是對管理系統(tǒng)提供的硬件資源進(jìn)行核實的建模,為分析和管理提供基礎(chǔ)。故障管理層提供了對故障的管理,錯誤處理組件對故障進(jìn)行感知,故障診斷組件對引發(fā)錯誤的錯誤行為做以診斷,故障修復(fù)組件完成相對應(yīng)的修復(fù)。事件層中,描述其根據(jù)謝醫(yī)生稱故障信息,對錯誤進(jìn)行標(biāo)準(zhǔn)的描述,分排氣將故障傳遞給處理模塊,保證故障管理工作正常運行。傳輸層對事件在整個過程中進(jìn)行封裝,為事件從發(fā)生處傳給消費者提供通道。
4 故障管理診斷規(guī)則
診斷規(guī)則描述方法在資源層是十分重要的。資源層提供了故障管理框架和硬件實體間實現(xiàn)交互的接口,對硬件的實體進(jìn)行了有效的封裝,它能夠自行引導(dǎo)用戶配置三要素,靈活配置故障處發(fā)生錯誤的規(guī)則。系統(tǒng)運行中出現(xiàn)的錯誤和故障一般情況下可以用一個事件協(xié)議來組織完成,協(xié)議將每一個錯誤行為和故障事件命名,并表示出錯誤信息,錯誤和故障將會以事件的形式在故障管理框架內(nèi)傳遞。
實際上診斷規(guī)則的地位可以說是資源層的核心,他直接反映了硬件故障的機理,是控制的核心內(nèi)容,與每一段過程有息息相關(guān)。在診斷過程前,關(guān)鍵環(huán)節(jié)之一就是自定義診斷規(guī)則。診斷規(guī)則的描述非常復(fù)雜,和配置自定義錯誤行為要素和故障源要素都有很大區(qū)別,并不是僅僅需要把事件注冊進(jìn)入相應(yīng)的事件協(xié)議并給各個屬性賦值。診斷規(guī)則被要求能夠充分表現(xiàn)出硬件故障之間各種錯綜復(fù)雜的關(guān)系,描述硬件故障和異常行為間的復(fù)雜過程,這些過程中需要極其強大的計算,因為硬件的連接不是簡單地一對一連接,所以故障和錯誤很多時候不是一一對應(yīng)的,有可能一個異常的出現(xiàn)是多個硬件共同作用的結(jié)果,也有可能一個硬件故障引起連鎖反應(yīng)帶來多個異常信息。用戶在使用計算機的過程中需要能夠根據(jù)計算機的實際情況,自定義修改故障診斷規(guī)則,或者直接飲用第三方的診斷規(guī)則,但是要能夠賬務(wù)簡單的診斷規(guī)則描述語法,以便對第三方規(guī)則做少許的改動。
5 故障管理技術(shù)和方法
故障管理技術(shù)有錯誤處理器技術(shù),需要關(guān)注錯誤檢測、錯誤糾正、驅(qū)動容錯等方面;錯誤檢測技術(shù),有設(shè)備自覺監(jiān)測和系統(tǒng)定時輪詢兩種方式,核心部分是錯誤檢測覆蓋率和錯誤監(jiān)測判定值;錯誤實時糾正技術(shù),包含指令糾錯技術(shù)和糾錯碼兩部分。
故障管理方法分為基于規(guī)則的診斷和基于模型的診斷兩種。
基于規(guī)則的診斷中,被適時制定的規(guī)則由系統(tǒng)拓?fù)浣Y(jié)構(gòu)、故障上下文關(guān)系、系統(tǒng)管理員所共同決定。故障源有兩種不同的分析方法,其一是參考硬件各元件的連接關(guān)系(即拓?fù)浣Y(jié)構(gòu)信息和故障上下文關(guān)系),另一個是參考系統(tǒng)本身保存的故障歷史記錄進(jìn)行分析。后者在分析比較復(fù)雜的故障的時候非常有用。
在基于模型的診斷中,診斷是在意見模型的基礎(chǔ)上,通過診斷推理模型和定性模型方法對已經(jīng)獲取的信息進(jìn)行預(yù)測和診斷。故障檢測診斷的目的達(dá)成,通常需要分析和處理比較實際動態(tài)系統(tǒng)特性和系統(tǒng)數(shù)字模型中預(yù)測的系統(tǒng)特性。
參考文獻(xiàn):
[1]蔣謝彬,李獻(xiàn)球.高可用系統(tǒng)的技術(shù)與應(yīng)用[J].計算機系統(tǒng)應(yīng)用,2013(01).
[2]周江.糾錯碼在容錯存儲器設(shè)計中的應(yīng)用[J].今日電子,2012(01).
[3]孟慶利.故障管理系統(tǒng)中事件相關(guān)性分析的運用[J].世界電信,2014(10).
[4]趙瑾,申忠宇,顧幸生.基于定量模型故障診斷技術(shù)若干問題的研究[J].自動化儀表,2011(03).
作者單位:沈陽化工大學(xué)計算機應(yīng)用實踐中心,沈陽 110142