[慕家驍 羅森文 宗凌 黃建華 馬波]
某運營商在西北某省公司大型IDC數(shù)據(jù)機房內(nèi)的IP數(shù)據(jù)設(shè)備、電源設(shè)備先后發(fā)生200多臺次以上的大面積重啟、瞬斷、宕機等故障,該運營商集團公司匯集了國內(nèi)頂尖的數(shù)個通信設(shè)備制造商、集團級技術(shù)權(quán)威專家數(shù)十人,歷時超過大半年時間均未能找到造成這些設(shè)備發(fā)生故障的任何原因,后通過采用QC因果分析法,終于找到了造成這些故障的原因,并予以排除這些故障。
全面質(zhì)量管理產(chǎn)品質(zhì)量控制因果分析法簡稱QC(Quality Control),QC因果分析法在我國制造業(yè)推廣應(yīng)用較多,但在運營商行業(yè)維護工作中應(yīng)用較少,QC的因果分析法如圖1所示。
圖1 產(chǎn)品質(zhì)量控制因果圖
某大型IDC數(shù)據(jù)機樓內(nèi)共發(fā)生電源、IP數(shù)據(jù)設(shè)備重啟、宕機、誤碼等故障逾數(shù)百臺次以上,其中大量交、直流電源和IP數(shù)據(jù)設(shè)備每次重啟的設(shè)備在時間、廠家、型號等方面都不完全一樣,具有明顯的離散性;其中數(shù)據(jù)設(shè)備共發(fā)生重起22次,涉及設(shè)備重起事件104次,涉及的設(shè)備有某設(shè)備供應(yīng)商163網(wǎng)國家骨干設(shè)備2臺12 008,163網(wǎng)省網(wǎng)核心設(shè)備1臺12 816,省網(wǎng)匯聚設(shè)備1臺12 416以及省網(wǎng)接入設(shè)備2臺6 509、2臺3 750、1臺3 550、2臺7 513、2臺4 500、2臺7 513;某設(shè)備廠家的1臺窄帶接入服務(wù)器A8010、1臺接入交換機A8016、2臺BRAS 5200G、1臺接入交換機6506R、1臺接入交換機3 528;某設(shè)備廠家的接入交換機1臺T64G、6臺3 952;某公司BRAS設(shè)備ERX 705一臺。部分設(shè)備故障發(fā)生如圖2所示。
圖2 部分設(shè)備頻繁啟動記
根據(jù)IDC數(shù)據(jù)機房電源和IP數(shù)據(jù)設(shè)備維護管理實際情況,我們可以做出如下排除疑難故障的分析方法和思路,如圖3所示。根據(jù)圖3我們逐一進行故障原因排查。
圖3 IDC數(shù)據(jù)機房莫名其妙故障原因因果圖
3.2.1 關(guān)于電源問題
(1)關(guān)于市電輸入:根據(jù)動環(huán)監(jiān)控系統(tǒng)和現(xiàn)場示波器監(jiān)控顯示,市電在發(fā)生故障期間一直正常,盡管從市電在現(xiàn)場的示波器上觀察情況來看,輸入的電源確有干擾,有振蕩波形和毛刺尖峰較多,但這幅度很小,都在規(guī)范要求范圍之內(nèi),跟據(jù)這些檢測到的現(xiàn)象并不會對設(shè)備造成直接的故障因素,除此之外示波器并未記錄下任何電源的波動情況會引起電源和IP數(shù)據(jù)設(shè)備的故障。因此市電輸入原因可以排除。
(2)關(guān)于二次交、直流電源:相關(guān)電源設(shè)備廠家研發(fā)專家專程到現(xiàn)場確認,二次交流(UPS)、直流(開關(guān)電源)設(shè)備的軟硬、件均正常,二次交、直流電源設(shè)備模塊工作也正常,并未出現(xiàn)工作異常,因此二次交直流電源無問題。
為了進一步排除由于二次交、直流電源引起的嫌疑,設(shè)備廠家重新更換了全新的二次交、直流電源設(shè)備,這些二次新電源設(shè)備安裝后,IP數(shù)據(jù)設(shè)備故障依然在不斷地發(fā)生……因此可以完全確認二次交直流電源設(shè)備的引起故障的因素也完全可以排除掉。
(3)關(guān)于地線系統(tǒng):①大樓接地電阻值:通過三角法測量大樓接地電阻為0.35 Ω,遠低于A級機樓1 Ω 的規(guī)范要求;②大樓地線連接:經(jīng)檢查,各接地線、接地銅排、地線線纜接頭等接觸良好可靠;③零地電壓:直流電源設(shè)備正極對地電壓均為0 V,交流設(shè)備零線對地電壓均小于1 V,均屬正常;④地線電流變化:人為重啟MA5200G、S8016設(shè)備,冷重啟(開關(guān)電源),監(jiān)測到地線電流發(fā)生突變(0.5 V到1.5 V左右),屬正常;熱重啟(網(wǎng)管命令操作),均未監(jiān)測到地線電流明顯變化,但IP數(shù)據(jù)設(shè)備疑難故障依然在不斷發(fā)生……說明地線系統(tǒng)不是引起這些疑難故障的原因。
為了更進一步排除地線系統(tǒng)引起的故障,該IDC數(shù)據(jù)機樓重新花費20多萬元的投資,全面改造了整個IDC機樓的地線系統(tǒng),然而故障依然,說明故障原因并非地線系統(tǒng)所引起,也可以完全排除地線系統(tǒng)的故障原因。
3.2.2 關(guān)于硬件問題
各有關(guān)IP數(shù)據(jù)設(shè)備廠家的研發(fā)高級工程師也專門對其設(shè)備進行過DIA檢測,可確認設(shè)備硬件均未出現(xiàn)異常,此類設(shè)備在網(wǎng)運行數(shù)量很多,且在其它機樓均未出現(xiàn)類似故障,故也可以排除IP數(shù)據(jù)設(shè)備硬件工作異常導(dǎo)致。因此硬件所引起的原因也可以排除。
3.2.3 關(guān)于軟件問題
若是軟件原因,則系統(tǒng)軟件會留下計算錯誤、死循環(huán)類的意外事件紀(jì)錄,各個IP數(shù)據(jù)設(shè)備廠家研發(fā)的專家多次對設(shè)備檢查,并未發(fā)現(xiàn)任何此類紀(jì)錄,且此版本在網(wǎng)運行數(shù)量很多,均未出現(xiàn)類似故障。故也可以排除由于IP數(shù)據(jù)設(shè)備軟件運行異常導(dǎo)致這些疑難故障的發(fā)生。
3.2.4 關(guān)于人為問題
為了排除人為因素,故障排除人員作出了如下的措施:
(1)對口令管理制度逐條進行落實,對口令定期修改、口令字的組成要求、口令的使用登記、廠家口令的使用管理以及遠程登陸的口令管理等進行了全面的自查,對登陸設(shè)備設(shè)置的登陸帳號和口令絕對不允許在兩臺及其以上的設(shè)備設(shè)置相同的帳號和口令;對口令管理和使用人員進行清理,相應(yīng)設(shè)備的口令只允許包機人和中心主任掌握;清除所有為廠商支撐等設(shè)置的登陸權(quán)限和登陸帳號及口令。
(2)在數(shù)據(jù)局局域網(wǎng)的互聯(lián)網(wǎng)出口設(shè)備上采取端口映射的方式,使用SNIFFER軟件對所有與局域網(wǎng)交互的流量進行抓包監(jiān)控分析。
(3)將該機樓所有IP網(wǎng)數(shù)據(jù)設(shè)備的日志集中自動上傳至日志服務(wù)器,并定期對所有上傳的日志進行了認真、細致的分析。
(4)采用NTP的方式將所有IP網(wǎng)設(shè)備時間進行了統(tǒng)一。
(5)對該IDC數(shù)據(jù)機樓IP網(wǎng)所有數(shù)據(jù)設(shè)備的配置進行了逐一梳理和核對,同時加強了對該數(shù)據(jù)機樓內(nèi)的IP網(wǎng)所有數(shù)據(jù)設(shè)備的數(shù)據(jù)制作的審核,凡是涉及到局部數(shù)據(jù)增加和修改時,必須由中心主任審核;涉及到全局數(shù)據(jù)修改時,必須由運維部主任審核,并對所有的操作的操作時間、操作內(nèi)容、執(zhí)行的命令等進行嚴(yán)格的登記,嚴(yán)禁未經(jīng)允許的操作。
(6)嚴(yán)格規(guī)定了IP數(shù)據(jù)設(shè)備和電源設(shè)備的操作審批流程,所有涉及到對該機房內(nèi)數(shù)據(jù)設(shè)備、電源等的操作必須經(jīng)過公司運維部的審核批準(zhǔn)。
(7)在重起期間,進入機房的外來施工人員和操作情況進行了逐一核實,并加強了對外來人員進入機房的管理,所有外來人員到機內(nèi)房進行的操作必須有相應(yīng)的人員陪同和監(jiān)督。
通過以上嚴(yán)格的人為操作管理,避免人為因素的影響,然而電源設(shè)備和IP數(shù)據(jù)設(shè)備的重啟、宕機等故障依然在發(fā)生,因此完全可以排除人為的因素。
3.2.5 關(guān)于黑客外部攻擊
(1)該IDC數(shù)據(jù)機樓一樓、三樓、四樓所有IP網(wǎng)數(shù)據(jù)設(shè)備只容許采取本地終端的方式進行登錄。
(2)對于高級的黑客而言是可以實現(xiàn)控制大量設(shè)備同時或不同時間進行復(fù)位,并且在日志中無法查到相關(guān)信息(可通過編譯代碼、修改日志代碼輸出實現(xiàn));但是在現(xiàn)場出現(xiàn)了多次設(shè)備在未啟動完全的時候,設(shè)備再次重啟的情況發(fā)生,對此,就目前的認知而言黑客基本無法做到;設(shè)備在啟動的時候是有類似于PC上BIOS一樣的BOOTROM芯片在控制,這是黑客很難侵入系統(tǒng),無法對設(shè)備進行控制。
由以上情況來看,認為因素和黑客破壞因素也完全可以排除。
3.2.6 關(guān)于環(huán)境問題
環(huán)境因素包括:溫度、濕度、潔凈度、電磁感應(yīng)、靜電感應(yīng)。
(1)關(guān)于溫度:為了準(zhǔn)確檢測機房內(nèi)的溫濕度,機房維護單位新購置了6臺溫濕度計,經(jīng)過一個星期的校準(zhǔn)后,檢測室內(nèi)溫度基本都保持了20~25℃范圍之內(nèi),完全符合機房規(guī)范對溫度的規(guī)定和要求。
(2)關(guān)于濕度:該數(shù)據(jù)機樓內(nèi)的相對濕度非常低。為了準(zhǔn)確檢測機房內(nèi)相對溫濕度,維護部門專門新購置檢測相對濕度的儀表,且都經(jīng)過了一個星期檢驗和校準(zhǔn)。根據(jù)近一個月的檢測,該IDC數(shù)據(jù)機樓內(nèi)的相對濕度都非常低,一般相對濕度都在15%以下,有時甚至還低于10%,該IDC數(shù)據(jù)機房內(nèi)的環(huán)境相對濕度遠遠超過了一類通信機房規(guī)范要求的30~70%,如圖4所示。為何該機樓的機房內(nèi)相對濕度是如此之低呢?根據(jù)現(xiàn)場調(diào)查和了解,原來該機樓的機房精密空調(diào)原本是有加濕功能的,但由于出現(xiàn)過加濕水管漏水現(xiàn)象,故維護人員把該機房精密空調(diào)的加濕功能全部擅自取消了,才導(dǎo)致該機樓里機房內(nèi)的相對濕度極低。
圖4 IDC數(shù)據(jù)機房內(nèi)相對濕度低于15%
(3)關(guān)于潔凈度:該IDC數(shù)據(jù)機房內(nèi)的潔凈度堪憂。目視就可以看到各種設(shè)備上落有厚厚的積塵,用人手即可以在IP數(shù)據(jù)設(shè)備上和數(shù)字電路板上面隨便寫字,如圖5所示。
圖5 IDC數(shù)據(jù)設(shè)備電路板和金屬外殼上厚厚的灰積塵
(4)關(guān)于電磁干擾影響:經(jīng)過對射頻電場強度、射頻磁場強度、射頻功率密度等相關(guān)技術(shù)指標(biāo)測試后,現(xiàn)場電磁環(huán)境測試數(shù)據(jù)完全符合相關(guān)標(biāo)準(zhǔn)和規(guī)范的要求。
電磁測試項目監(jiān)測數(shù)據(jù):電磁測試項目監(jiān)測數(shù)據(jù)如表1所示。
測試數(shù)據(jù)分析:現(xiàn)場電磁環(huán)境測試數(shù)據(jù)符合相關(guān)標(biāo)準(zhǔn)要求,7月24日16:00~17:30之間S8016設(shè)備重啟,在該時間段儀表監(jiān)測到電場強度最大為11.53 V/m,這一突變數(shù)據(jù),分析有三種可能產(chǎn)生:(1)外界突發(fā)電磁干擾,儀表捕捉到這一變化,該干擾導(dǎo)致S8016設(shè)備重啟;(2)S8016設(shè)備由于其他原因重啟,其自身在重啟過程中產(chǎn)生一定的電磁輻射(不同于穩(wěn)態(tài)運行狀態(tài)),儀表捕捉到這一變化;(3)人為干擾,在儀表附近使用無線電設(shè)備(GSM、(GSM、PHS等)。7月25日,人為重啟S8016設(shè)備,儀表監(jiān)測數(shù)據(jù)無較大變化;同時,到7月27日期間,機房多次多個設(shè)備發(fā)生重啟故障,儀表監(jiān)測數(shù)據(jù)均無較大變化。
表1 電磁測試項目監(jiān)測數(shù)據(jù)
小結(jié):機房電磁環(huán)境正常,達到一級機房要求標(biāo)準(zhǔn)。外界電磁環(huán)境正常且無突發(fā)干擾,不會導(dǎo)致設(shè)備重啟;設(shè)備重啟過程產(chǎn)生的電磁輻射也屬正常;7月24日儀表捕捉到的突變數(shù)據(jù)可能為人為干擾影響;除此之外長時間監(jiān)測無突發(fā)干擾,且設(shè)備重啟故障前后,儀表數(shù)據(jù)均無明顯變化,故也可以排除電源和IP設(shè)備故障是由電磁感應(yīng)干擾引起的因素。
(5)關(guān)于靜電感應(yīng):靜電感應(yīng)電壓非常高。經(jīng)測試,該機房內(nèi)靜電感應(yīng)電壓非常之高,一般都達到1 000 V以上,甚至到達2 000 V以上的也不少。遠遠超過IDC數(shù)據(jù)機房內(nèi)絕對值不超過│200 V │的絕對值規(guī)范要求(如圖6),而且不斷發(fā)生重啟、瞬斷、宕機的故障特點也與靜電感應(yīng)電壓引起故障的特點極為類似和吻合。
根據(jù)以上對電源、硬件、軟件、人為、黑客和環(huán)境等六個方面的全部檢測和分析可知。前面五個因素完全符合IDC數(shù)據(jù)機房內(nèi)設(shè)備的軟硬件要求,因此可以排除在外?,F(xiàn)在就剩環(huán)境因素,而環(huán)境因素中的電磁感應(yīng)干擾影響也可以完全排除在外,現(xiàn)在就剩下環(huán)境因素中的相對濕度、靜電感應(yīng)和灰塵三個因素均遠遠超過IDC數(shù)據(jù)機房對環(huán)境條件的要求,而且超出標(biāo)準(zhǔn)要求也非常之多和嚴(yán)重,現(xiàn)進一步分析如下:
該IDC數(shù)據(jù)機房內(nèi)的相對濕度極低,而且遠低于IDC數(shù)據(jù)通信機房環(huán)境條件標(biāo)準(zhǔn)下限30%的要求,就是說機房內(nèi)相對濕度一般都在15%以下,有時甚至低于10%,造成IDC數(shù)據(jù)機房內(nèi)非常干燥,而相對濕度極低又會導(dǎo)致IDC數(shù)據(jù)機房內(nèi)靜電感應(yīng)電壓非常之高,這個自然現(xiàn)象就像我們在干燥冷凍的冬季里到處會碰到被靜電擊到的現(xiàn)象一樣。
圖6 IDC機房內(nèi)靜電感應(yīng)
在IDC數(shù)據(jù)機房內(nèi)對靜電感應(yīng)電壓有明確的要求,靜電感應(yīng)電壓的絕對值不得高于│200 V │,然而現(xiàn)場測試靜電感應(yīng)電壓則遠遠超過這個最大值的數(shù)倍,乃至10倍以上,如圖6所示。當(dāng)這些靜電感應(yīng)電壓高于這些設(shè)備主控電路板上的電子電路彼此之間的絕緣強度時,就會發(fā)生瞬時靜電感應(yīng)電壓放電現(xiàn)象,從而引起設(shè)備自動重啟、產(chǎn)生誤碼、宕機等故障現(xiàn)象,而當(dāng)靜電感應(yīng)電壓放完靜電之后,這些電路板卡上又恢復(fù)了正常運行,由于室內(nèi)空氣非常干燥,這些電路板卡上又會不斷產(chǎn)生靜電感應(yīng)電壓……而電源控制電路板和IDC數(shù)據(jù)機房內(nèi)的IP數(shù)據(jù)設(shè)備的數(shù)字電路板卡無規(guī)則且多次大面積重啟現(xiàn)象的特征也正是與靜電感應(yīng)電壓引起的故障特征現(xiàn)象非常吻合。
機房內(nèi)普遍積塵很大,各類電源設(shè)備和控制電路板卡及IP數(shù)據(jù)設(shè)備的金屬外殼甚至這些設(shè)備的電路卡板上的積塵也非常大,如圖5所示。積塵的厚度完全可以用手在上面隨便寫字。那么灰塵大會對設(shè)備的正常運行究竟會造成哪些影響呢?
當(dāng)機房內(nèi)灰塵掉落在各種電子設(shè)備的電路板上時,由于現(xiàn)在電路板卡上都是精密電子元器件和電路構(gòu)成,電路板卡上的電路之間彼此距離都非??拷兔芗?,若空氣中的相對濕度比較大時,這些空氣中的大量水分子就會被沉積在數(shù)字電路板上的大量灰塵所吸收,導(dǎo)致這些精密電路板卡上的電路之間的絕緣強度下降,甚至造成瞬間短路,從而產(chǎn)生數(shù)據(jù)設(shè)備控制電路板卡的自動重啟、誤碼和宕機等故障現(xiàn)象。由此可見,把電子設(shè)備內(nèi)電路板卡上灰塵清潔干凈是非常重要,這些灰塵也是導(dǎo)致在潮濕季節(jié)里電路板卡瞬時短路而造成自動重啟、瞬斷、誤碼和宕機等故障的極大隱患之一。
綜上所述,由于上述機房存在特殊的環(huán)境條件,最終造成了設(shè)備自動重啟、宕機、誤碼等疑難故障:當(dāng)機房相對濕度很低時,就會產(chǎn)生極高的靜電感應(yīng)現(xiàn)象,這些極高的靜電感應(yīng)電壓就會造成電源、IP數(shù)據(jù)設(shè)備的自動瞬斷、誤碼、宕機等故障;而當(dāng)這些電源設(shè)備和IP數(shù)據(jù)設(shè)備由于靜電感應(yīng)太高而發(fā)生靜電感應(yīng)電壓放電而這些設(shè)備瞬間宕機后,這些電源和IP數(shù)據(jù)的電路板卡上的靜電感應(yīng)電壓瞬間就消失,于是這些電源和IP數(shù)據(jù)設(shè)備就恢復(fù)正常狀態(tài),就會重新再次起動,造成這些電源設(shè)備和IP數(shù)據(jù)設(shè)備不斷地隨著靜電感應(yīng)電壓的重復(fù)放電和不斷地發(fā)生自動重啟、宕機、瞬斷和誤碼等故障現(xiàn)象的發(fā)生。
而當(dāng)該IDC機樓機房內(nèi)相對濕度很高時,比如夏季濕度達到80%以上時,電源和IP數(shù)據(jù)設(shè)備上沉積的大量灰塵會由于灰塵會吸附空氣中大量的水分子,這些大量的水分子加上灰塵一起就會造成這些精密電子電路板上的電子元器件和電路之間的絕緣下降,同樣也會造成精密數(shù)字控制電路卡板上電路之間瞬間短路故障,產(chǎn)生自動瞬斷、誤碼、宕機等故障現(xiàn)象;而當(dāng)這些電子元器件放電產(chǎn)生熱量后,這些精密數(shù)字電路卡板上電路上的相對濕度就降低,密數(shù)字電路卡板上電路上的絕緣強度又會恢復(fù)正常啟動,于是這些電源和IP數(shù)據(jù)設(shè)備又會自動恢復(fù)正常運行狀態(tài),這才造成了該機樓里疑難故障的復(fù)雜性。
根據(jù)上述分析,故障原因基本就可以鎖定為該機樓的機房內(nèi)相對濕度極低而導(dǎo)致靜電感應(yīng)電壓奇高和該機房內(nèi)灰塵大這兩個方面,于是該IDC數(shù)據(jù)機房維護人員全面清理該機房內(nèi)設(shè)備內(nèi)外及數(shù)據(jù)板卡上的積塵,并把機房內(nèi)精密空調(diào)的加濕功能重新啟用,且保持機房內(nèi)相對濕度到達45%以上,如圖7所示。
圖7 IDC數(shù)據(jù)機房相對濕度達到45%以上
該IDC數(shù)據(jù)機房內(nèi)的靜電感應(yīng)電壓也大幅下降到規(guī)范標(biāo)準(zhǔn)要求之內(nèi),同時全面清理該IDC機樓機房內(nèi)的灰塵后,困擾維護人員達大半年之久的該大型IDC數(shù)據(jù)設(shè)備機樓的達數(shù)百臺次以上的自動重啟、瞬斷、誤碼等故障亦隨之消失。該大型IDC數(shù)據(jù)機樓里的所有設(shè)備至今運行正常,再未出現(xiàn)過此類疑難故障現(xiàn)象。
在我國國標(biāo)GB和行標(biāo)GBT 50174-2008-I、YDT 1821-2018、YDT 983-2018、GB/T 2887-2011等相關(guān)的標(biāo)準(zhǔn)中,對各類通信和大型IDC機房的環(huán)境要求如下:
(1)對各類通信和IDC機房內(nèi)對潔凈度的要求:
A~D類通信和IDC機房內(nèi)不應(yīng)有導(dǎo)電的、鐵磁性和腐蝕性的粒子,其濃度應(yīng)滿足直徑大于0.5 μm的灰塵粒子濃度<18 000粒/升。對通信設(shè)備有腐蝕性的氣體和對人身有害的氣體以及易燃易爆的氣體,應(yīng)防止流入機房內(nèi)。
(2)對各類通信和IDC機房內(nèi)對溫度和相對濕度的要求:
有冷熱通道隔離各類通信和IDC機房內(nèi)對溫、濕度的要求如表2所示。
表2 有冷熱通道隔離各類通信和IDC機房內(nèi)對溫、濕度的要求
表3、無冷熱通道隔離或設(shè)備無進風(fēng)口機房內(nèi)對溫、濕度的要求
(3)A~E類通信和IDC機房的靜電感應(yīng)電壓要求:
靜電感應(yīng)電壓絕對值不超過<│200 V │。
(4)電磁場干擾要求
無線電干擾環(huán)境場強:機房內(nèi)無線干擾磁場在頻率范圍0.15 MHz~1 000 MHz時不大于126 dBμV。
磁場干擾場強:機房內(nèi)磁場干擾場強不大于800 A/m(相對于100 e)。
對于大型IDC數(shù)據(jù)機樓和綜合性樞紐機樓里發(fā)生的疑難故障建議嚴(yán)格按照GBGBT及YD等國標(biāo)和行標(biāo)執(zhí)行,才能保障大型IDC數(shù)據(jù)機樓和各類通信機房里所有設(shè)備正常安全可靠地運行,尤其環(huán)境條件往往會被忽略,這才是造成IDC機樓和核心樞紐機樓疑難故障的很大隱患。如果大型IDC數(shù)據(jù)機樓和綜合樞紐大樓機房里和其它機樓里出現(xiàn)了自動重啟、誤碼、宕機等疑難故障時,建議應(yīng)該采用QC因果分析法不失為一種很好的分析和解決問題的方法,逐個故障因素去排除,最后鎖定到產(chǎn)生故障的真正原因上面,并予以排除和解決,它是解決此類疑難故障的很有效的方法,可以達到事半功倍的效果。