徐燃柏
【關(guān)鍵詞】機(jī)房管理;計算機(jī)硬件;故障分析;維護(hù)要求
在針對計算機(jī)機(jī)房中的硬件設(shè)備開展維護(hù)與管理工作時,工作人員需要明確計算機(jī)機(jī)房的一般結(jié)構(gòu)形式,并依據(jù)此結(jié)構(gòu)形式,選擇具體的問題排查辦法。一般情況下,計算機(jī)機(jī)房的整體結(jié)構(gòu)形式并不會十分復(fù)雜,這與計算機(jī)機(jī)房自身的散熱需求相關(guān)。其中,機(jī)柜的布置應(yīng)整齊有序,與機(jī)柜相連接的各類輔助設(shè)備應(yīng)運(yùn)轉(zhuǎn)正常,且運(yùn)行穩(wěn)定,需要滿足不同區(qū)域的計算機(jī)硬件設(shè)備控制需求。從硬件設(shè)備組成內(nèi)容的角度分析,其中,與網(wǎng)絡(luò)通信相關(guān)的設(shè)備數(shù)量往往較多,包括路由器設(shè)備以及數(shù)據(jù)交換機(jī)設(shè)備等,此類設(shè)備對計算機(jī)服務(wù)器設(shè)備的運(yùn)行效率有關(guān)鍵影響。除此之外,在開展此類計算機(jī)硬件管理與維護(hù)工作之前,工作人員應(yīng)明確此類硬件設(shè)備常見的問題,并將此類問題固定到單一類比的硬件設(shè)備上,這不僅有利于定位問題的源頭,更有利于提升計算機(jī)硬件問題的處理效率。
(一)電源系統(tǒng)硬件故障分析
電源系統(tǒng)硬件故障問題是常見的硬件設(shè)備問題,此類問題的主要原因與電源本身的供電穩(wěn)定性和供電能力相關(guān)[1]。但是,在出現(xiàn)了電源系統(tǒng)硬件故障問題時,此類問題的表現(xiàn)形式往往較為復(fù)雜。計算機(jī)機(jī)房中的電源種類眾多,體積相對較大的電源控制硬件單元一般會與機(jī)柜或者空調(diào)系統(tǒng)相連,并且此類硬件單元的整體結(jié)構(gòu)形式往往較為復(fù)雜。在出現(xiàn)問題時,這種電源作用效果會出現(xiàn)在下游設(shè)備中,進(jìn)而對計算機(jī)硬件設(shè)備的運(yùn)行效能產(chǎn)生影響。例如,在總線輸入電源出現(xiàn)問題時,下游的計算機(jī)散熱機(jī)組以及網(wǎng)絡(luò)交互機(jī)組可能會出現(xiàn)運(yùn)行穩(wěn)定性問題或者直接停止運(yùn)行。此時,工作人員需要從計算機(jī)散熱機(jī)組以及網(wǎng)絡(luò)交互機(jī)組端開始排查,并且往往不能馬上斷定是否為電源的問題。另外,硬件設(shè)備自身的電路電壓也會影響硬件設(shè)備的運(yùn)行穩(wěn)定性,而這種電路層面的問題極其麻煩,會對工作人員排查硬件問題產(chǎn)生干擾。
(二)空調(diào)系統(tǒng)硬件故障分析
如果計算機(jī)機(jī)房的環(huán)境溫度超出了35℃,則此時的環(huán)境溫度已經(jīng)不適合機(jī)房中硬件設(shè)備的運(yùn)行要求了,需要馬上進(jìn)行降溫處理,否則會誘發(fā)計算機(jī)設(shè)備運(yùn)行安全的問題,導(dǎo)致實際的運(yùn)行效能下降[2]。在較高的溫度狀態(tài)下,計算機(jī)硬件設(shè)備的運(yùn)轉(zhuǎn)滯后性將會更加明顯,一些與網(wǎng)絡(luò)數(shù)據(jù)交換、數(shù)據(jù)存儲相關(guān)的硬件設(shè)備甚至?xí)苯訄箦e。空調(diào)系統(tǒng)故障時,工作人員需要對空調(diào)系統(tǒng)的自適應(yīng)調(diào)節(jié)控制單元進(jìn)行檢修,明確此類空調(diào)系統(tǒng)存在的控制問題?,F(xiàn)階段,計算機(jī)機(jī)房的空調(diào)系統(tǒng)具備了智能化調(diào)節(jié)的屬性,可以根據(jù)環(huán)境溫度自行進(jìn)行空氣溫度調(diào)節(jié),從而促使計算機(jī)機(jī)房的溫度可以維持在固定的溫度區(qū)間。但是,智能化控制系統(tǒng)如果出現(xiàn)了問題,其發(fā)送的空氣調(diào)節(jié)指令就會出錯。此時,如果溫度傳感器檢測到的溫度與實際的指令控制溫度之間存在沖突,則相應(yīng)的溫度調(diào)節(jié)行為就會出現(xiàn)沖突,從而無法表現(xiàn)正確的溫度調(diào)節(jié)行為,最為常見的溫度調(diào)節(jié)行為即為溫度失衡調(diào)節(jié)行為,其會直接影響機(jī)房的控制溫度,進(jìn)而影響計算機(jī)機(jī)房中各類硬件的運(yùn)行效能。
(一)應(yīng)具備錯時維護(hù)特點(diǎn),不能與固定需求之間出現(xiàn)維護(hù)沖突
錯時維護(hù)要求是計算機(jī)機(jī)房硬件設(shè)備管理及維護(hù)的基本要求,維護(hù)工作與故障處理工作可以同時進(jìn)行,但是維護(hù)工作需要為故障處理工作提供處理參考數(shù)據(jù),此類數(shù)據(jù)也是計算機(jī)硬件設(shè)備的維護(hù)經(jīng)驗數(shù)據(jù)。一般情況下,計算機(jī)機(jī)房中的機(jī)柜數(shù)量較多,不同機(jī)柜復(fù)雜的運(yùn)行功能不同,對應(yīng)的硬件設(shè)備運(yùn)行需求也存在差異[3]。在出現(xiàn)硬件設(shè)備問題時,會體現(xiàn)在具體的軟件運(yùn)行層面,尤其是網(wǎng)絡(luò)信息交互層面。此時,工作人員需要及時定位此類問題硬件所在的機(jī)柜,之后需要根據(jù)硬件的運(yùn)行要求,啟動備用硬件設(shè)備。但是這個過程的持續(xù)時間可能會比較長。為此,工作人員應(yīng)選擇錯時維護(hù)的辦法,在機(jī)柜運(yùn)行需求不高時,依次維護(hù)運(yùn)行設(shè)備,檢修設(shè)備的實際運(yùn)行狀態(tài),這樣,既可以避免對已經(jīng)參與運(yùn)行的硬件設(shè)備產(chǎn)生影響,也可以避免與固定需求之間出現(xiàn)維護(hù)沖突,實際的硬件維護(hù)管理工作質(zhì)量也會更好。
(二)應(yīng)具備良好的維護(hù)成本管控效能,降低硬件資源浪費(fèi)
維護(hù)成本管理是計算機(jī)機(jī)房硬件設(shè)備管理與維護(hù)中的關(guān)鍵內(nèi)容,現(xiàn)階段,智能化的計算機(jī)硬件維護(hù)管理方式比較常見,但是其內(nèi)部運(yùn)行的各類指令依舊需要工作人員進(jìn)行控制,并且需要根據(jù)機(jī)房的實際運(yùn)行狀態(tài)進(jìn)行變化和調(diào)整。在這個過程中,設(shè)備的維護(hù)和檢修工作往往相對復(fù)雜,與電力系統(tǒng)維護(hù)、空調(diào)系統(tǒng)維護(hù)、網(wǎng)絡(luò)組件維護(hù)以及線路管網(wǎng)維護(hù)相關(guān)的工作內(nèi)容較多,需要工作人員按照標(biāo)準(zhǔn)化的檢修流程進(jìn)行作業(yè)。如果計算機(jī)機(jī)房出現(xiàn)了明顯的硬件設(shè)備問題,此時,與此硬件設(shè)備相關(guān)的維護(hù)與檢修工作則需要多名檢修人員相互配合完成,這樣才能獲得較好的硬件設(shè)備維護(hù)效果。但是,這種時間成本會直接轉(zhuǎn)化為經(jīng)濟(jì)成本,而且往往消耗的維護(hù)資金比較多。這就要求工作人員在參與此類硬件設(shè)備維護(hù)與管理工作時,需要注意成本的管理和控制。同時,更需要注重減少硬件資源的浪費(fèi),這樣才能有效控制計算機(jī)機(jī)房硬件設(shè)備管理與維護(hù)成本。
(一)重視指示燈、儀器儀表維護(hù)檢修數(shù)據(jù),強(qiáng)化數(shù)字化維修基礎(chǔ)
指示燈以及指示等相關(guān)的儀器儀表數(shù)據(jù)是計算機(jī)機(jī)房硬件維護(hù)的數(shù)據(jù)基礎(chǔ),此類數(shù)據(jù)會直接顯示在相應(yīng)的故障報錯組件中,工作人員根據(jù)相應(yīng)的指示燈形態(tài)即可確定具體的硬件故障和問題。在這個過程中,工作人員需要明確不同指示燈的具體指代情況。例如,在硬件網(wǎng)關(guān)的運(yùn)行過程中,其運(yùn)行狀態(tài)往往包含三種顏色的指示燈,即黃色、綠色和紅色。其中,黃色和綠色代表硬件網(wǎng)關(guān)運(yùn)行正常,但是如果黃色等閃爍,則說明可能存在網(wǎng)關(guān)延遲性問題,此時,工作人員需要對具體的延時進(jìn)行測試。如果滯后的時長并未超出硬件網(wǎng)關(guān)的相應(yīng)時效,則不需要進(jìn)行維修,在后續(xù)的運(yùn)行過程中此類設(shè)備可能會自動調(diào)節(jié)指令的引導(dǎo)下恢復(fù)正常[4]。但是,如果硬件網(wǎng)關(guān)的紅燈亮起,則說明網(wǎng)關(guān)并未通過,實際的數(shù)據(jù)吞吐量已經(jīng)降到了最低,無法滿足計算機(jī)硬件系統(tǒng)的運(yùn)行要求。則此時,工作人員應(yīng)對相應(yīng)的硬件設(shè)備進(jìn)行針對性地維修和處理。需要注意的是,現(xiàn)階段,數(shù)字化維修的故障顯示效果并不十分完善,與此相關(guān)的數(shù)據(jù)可能顯示不正常,但是實際的硬件運(yùn)行過程卻沒有顯性問題。這一方面與數(shù)字化控制系統(tǒng)的運(yùn)行敏感度相關(guān),另一方面也與硬件設(shè)備自身的質(zhì)量相關(guān)。
(二)細(xì)化硬件設(shè)備維護(hù)調(diào)試流程,歸納總結(jié)常見硬件問題
硬件設(shè)備的維護(hù)調(diào)試流程具有規(guī)范化的特點(diǎn),并且其細(xì)節(jié)性突出,需要工作人員在明確具體的排查流程基礎(chǔ)上,強(qiáng)化設(shè)備維護(hù)與調(diào)試工作的規(guī)范性,同時,應(yīng)在實踐工作中積累技術(shù)應(yīng)用經(jīng)驗,變化故障排查辦法,從而提升故障設(shè)備管理與維護(hù)的有效性。首先,在對計算機(jī)機(jī)房硬件設(shè)備的組建形式有了充分的了解之后,工作人員需要明確此類設(shè)備的運(yùn)行過程中可能會出現(xiàn)的問題。例如,對于空調(diào)設(shè)備,其常見的問題即為溫度感應(yīng)器的自動控制問題。針對此種問題,工作人員需要明確引發(fā)此類問題的常見因素,這樣,在出現(xiàn)類似問題時,即可以直接進(jìn)行問題的排查和故障的檢修;其次,工作人員需要明確計算機(jī)硬件設(shè)備故障排查的系統(tǒng)性特點(diǎn),這種系統(tǒng)性特點(diǎn)與硬件設(shè)備自身的運(yùn)行需求相關(guān),但更多的在于硬件設(shè)備本身運(yùn)行的功能性。換言之,硬件設(shè)備的功能實現(xiàn)形式并非單一設(shè)備功能實現(xiàn)形式,而是需要多種設(shè)備相互配合。如果出現(xiàn)了設(shè)備運(yùn)行問題,工作人員也需要從結(jié)構(gòu)整體的角度排查此類問題,這樣才能提升設(shè)備維護(hù)及管理調(diào)試工作質(zhì)量。
(三)準(zhǔn)備硬件故障響應(yīng)預(yù)案,合理安排設(shè)備管理與維護(hù)周期
針對易損設(shè)備組件制定故障相應(yīng)預(yù)案尤為關(guān)鍵?,F(xiàn)階段,這種故障相應(yīng)預(yù)案會在實際的設(shè)備運(yùn)行過程中表現(xiàn)出不同的設(shè)備應(yīng)用形式,但基本上均為增加備用設(shè)備的數(shù)量。在電力系統(tǒng)出現(xiàn)問題時,為了確保電能供應(yīng)的穩(wěn)定性,工作人員可為關(guān)鍵機(jī)柜設(shè)備的總線開關(guān)提供應(yīng)應(yīng)急相應(yīng)備用方案。在出現(xiàn)了類似問題時,系統(tǒng)會直接啟用備用電力裝置,停止故障裝置的運(yùn)行。這樣不僅可以提升電力系統(tǒng)運(yùn)行安全性,也可降低故障設(shè)備對計算機(jī)機(jī)房硬件設(shè)備運(yùn)行成本的影響。需要注意的是,并非所有的硬件設(shè)備均需要配置應(yīng)急預(yù)案,此類設(shè)備為維護(hù)周期比較長,一般情況下,并不會出現(xiàn)明顯的故障問題。例如,與線路運(yùn)行相關(guān)的網(wǎng)線設(shè)備或者交換設(shè)備等,此類設(shè)備的運(yùn)行穩(wěn)定性較好,并不會在運(yùn)行過程中出現(xiàn)明顯的故障問題。
總之,計算機(jī)機(jī)房硬件設(shè)備管理與維護(hù)的具體形式和辦法需要符合機(jī)房自身的運(yùn)行管理需求,其中,電力系統(tǒng)與空調(diào)系統(tǒng)為設(shè)備維護(hù)與管理中的關(guān)鍵系統(tǒng),也是影響硬件設(shè)備維護(hù)效能的關(guān)鍵內(nèi)容。此間,工作人員需要合理選擇備用系統(tǒng)資源,積極調(diào)整設(shè)備管理與維護(hù)周期,從而降低設(shè)備維護(hù)與管理成本,提高設(shè)備管理與維護(hù)工作的整體質(zhì)量。