于珊珊
摘 要: 對機(jī)房集中監(jiān)控系統(tǒng)三級監(jiān)控單元SU、SC、SS所使用的各種物理設(shè)備的類型及其原理進(jìn)行分析,提出有針對性的物理設(shè)備故障檢測技術(shù)及日常維護(hù)方法。所探討的這些故障檢測技術(shù)及維護(hù)方法,均經(jīng)過實(shí)踐證明具有高準(zhǔn)確度,可以為機(jī)房維護(hù)人員準(zhǔn)確分析設(shè)備故障狀態(tài)提供參考,及時有效地采取措施,提高工作效率和降低維護(hù)費(fèi)用。
關(guān)鍵詞: 監(jiān)控系統(tǒng); SU; SC; SS; 檢測; 維護(hù)
中圖分類號:TP393 文獻(xiàn)標(biāo)志碼:A 文章編號:1006-8828(2015)02-45-02
Discussion on methods of maintaining centralized computer room monitoring system
Yu Shanshan
(Dehong Normal College, Mangshi, Yunnan 678400, China)
Abstract: The types and principles of physical equipment used in the third level monitoring unit (SU, SC, SS) in centralized monitoring system in computer rooms are analyzed. Some fault detection technology as well as daily maintenance methods, which have been proved to have high accuracy, are given. With the methods mentioned in the paper, the maintenance workers can identify the state of the equipment failure accurately and take effective measures to improve work efficiency and lower maintenance cost.
Key words: maintaining centralized monitoring system; SU; SC; SS; detection; maintenance
0 引言
監(jiān)控系統(tǒng)在結(jié)構(gòu)上是一個多級的分布式計(jì)算機(jī)監(jiān)控網(wǎng)絡(luò),一般可分為三級,即SC(監(jiān)控中心),SS(區(qū)域監(jiān)控中心),SU(監(jiān)控單元)[1]。通過對這些設(shè)備日常故障維護(hù)手段的分析,使維護(hù)人員在接到第一次報(bào)警后就可以確認(rèn)需要什么樣的工具、配件,去什么地方解決什么問題;幫助維護(hù)人員分析故障狀態(tài),使維護(hù)人員在采取措施之前做出準(zhǔn)確的、及時的判斷,從而保障設(shè)備有效工作和大大降低維護(hù)費(fèi)用。
三級監(jiān)控系統(tǒng)的結(jié)構(gòu)、運(yùn)行方式如圖1所示。
1 SU(監(jiān)控單元)
1.1 傳感器
各個監(jiān)控系統(tǒng)集成商根據(jù)各自的特點(diǎn)所采用的傳感器品牌和型號都不太一樣,但同類傳感器具有相同的原理。具有相同原理及工作方式的傳感器有些可以互換,在維修和維護(hù)時可提高效率和降低成本。
在維護(hù)時查看傳感器安裝是否牢靠,是否存在燒過等現(xiàn)象,可用手感覺傳感器發(fā)熱的強(qiáng)度及傾聽傳感器內(nèi)開關(guān)等發(fā)出的聲音。
⑴ 煙霧傳感器
煙霧傳感器以檢測方式區(qū)分為光電型和離子型,以輸出方式區(qū)分為干接點(diǎn)和電流輸出型。它們不能互換。一般煙霧傳感器都帶有自檢測燈,周期閃亮則表示設(shè)備工作正常,閃亮周期為30S左右。維護(hù)時可觀看燈是否在閃亮,若燈不亮,則檢查輸出信號。干接點(diǎn)輸出型告警時,信號輸出端為50歐以下,平常不告警時為斷開或10M歐以上。電流輸出型在告警時有20mA左右的電流,信號電流輸出線一般與電源線為同一根線。
⑵ 防盜傳感器
防盜傳感器可分為:門磁開關(guān)和紅外探測器。門磁開關(guān)發(fā)生告警時(一般為兩塊感應(yīng)磁鐵分離時)—門開,輸出干接點(diǎn)參數(shù)同上。維護(hù)時應(yīng)注意門是否變形而導(dǎo)致磁鐵不能有效吸合而長時間告警。
紅外傳感器通過檢測帶有熱源的移動物體來發(fā)出告警,傳感器本身有一定的角度,輸出為干接點(diǎn)或電流。維護(hù)時應(yīng)注意紅外傳感器是否存在死角,紅外上的檢測燈是否在閃亮,當(dāng)有移動熱源物體時,紅外的檢測燈是否一直亮著。
⑶ 環(huán)境溫濕度傳感器(包括溫度和溫濕度傳感器)
環(huán)境溫濕度傳感器屬于模擬量傳感器,長時間運(yùn)行在惡劣的環(huán)境下,感應(yīng)元件非常容易老化,因此對于濕度較大的環(huán)境應(yīng)縮短巡檢周期。
⑷ 貼面溫度傳感器
貼面溫度傳感器常用在測量變壓器溫度、電池溫度、機(jī)柜/箱溫度上。測量溫度量程通常比較大,比如為0℃->100℃,而環(huán)境溫濕度傳感器的量程通常為0℃->50℃。此類傳感器同樣也存在老化過快的缺點(diǎn)。
⑸ 液位傳感器(檢測油時,也可叫油壓傳感器)
液位傳感器要注意經(jīng)常清理油壓檢測孔,以確保油壓檢測孔不被堵塞。此類傳感器應(yīng)為無源傳感器。
⑹ 電壓傳感器
電壓傳感器應(yīng)安裝在專門的模塊箱里,以便做隔離和集中管理和維護(hù)。一些傳感器上有電壓信號指示燈,有電時燈是亮著的,若燈滅,則傳感器或連線有問題,應(yīng)檢測傳感器輸出端是否存在一定的電壓。
⑺ 電流傳感器
電流傳感器采集電流時一般用霍爾傳感器,霍爾傳感器感應(yīng)回路應(yīng)可靠接觸,校準(zhǔn)時可調(diào)節(jié)調(diào)零端子。
⑻ 智能電量監(jiān)測儀
輸出為智能口,檢查通信線路及隔離器件是否正常工作,若監(jiān)測儀上有LED可查看具體的參數(shù),判斷通信狀態(tài)是否正常。
⑼ 熔絲采樣傳感器
熔絲采樣傳感器本身帶有采樣信號檢測燈和工作燈。
1.2 智能設(shè)備
當(dāng)智能設(shè)備數(shù)據(jù)在監(jiān)控業(yè)務(wù)臺上不能顯示時,首先檢查智能設(shè)備投點(diǎn)是否正確,通道地址是否正確,然后檢查智能設(shè)備通信參數(shù)是否正確,檢查線路是否連接正常,檢查隔離器件是否正常(隔離器件有信號燈),檢查接智能設(shè)備的多用戶卡上的燈是否在閃亮,通信鏈路連接是否正常,最后檢查智能設(shè)備智能口輸出端是否有電壓。在現(xiàn)場可通過便攜式計(jì)算機(jī)根據(jù)通信協(xié)議命令或設(shè)備專用軟件可檢驗(yàn)通信接口的好壞和通信協(xié)議是否正確。
當(dāng)智能設(shè)備數(shù)據(jù)在監(jiān)控業(yè)務(wù)臺上顯示有誤時,檢查投點(diǎn)是否有誤,檢查協(xié)議數(shù)據(jù)轉(zhuǎn)換比率是否正確,檢查數(shù)據(jù)輸出格式是否符合要求(如:應(yīng)為攝氏度,但被設(shè)定成了華氏度),智能設(shè)備中是否存在某些單元被人為現(xiàn)場關(guān)閉或做了不正確的設(shè)置(如:洲際開關(guān)電源,現(xiàn)場關(guān)斷整流模塊時,會出現(xiàn)模塊通信異常告警)。
1.3 協(xié)議處理
對于需要進(jìn)行通信協(xié)議轉(zhuǎn)換的系統(tǒng),比如:轉(zhuǎn)換為標(biāo)準(zhǔn)的通信協(xié)議,需要增加相應(yīng)的設(shè)備進(jìn)行通信協(xié)議格式的轉(zhuǎn)換。具體方法有:①以固化軟件的形式燒到處理芯片中,如華為公司的OCI-6、大誠公司的MPC3;②直接下載到FLASH ROM中。相比之下,第二種方法具有遠(yuǎn)程下載的功能,不受讀寫次數(shù)的限制等優(yōu)點(diǎn)。當(dāng)擴(kuò)容、更換智能設(shè)備時,需要根據(jù)智能設(shè)備的通信協(xié)議編寫程序,重寫寄存器。若存在一個局內(nèi)普遍智能設(shè)備的數(shù)據(jù)無法上傳,則可能是處理通信協(xié)議的器件出了問題,需要更換設(shè)備,重新寫軟件[2]。
2 SS(區(qū)域監(jiān)控中心)
當(dāng)區(qū)域監(jiān)控中心出現(xiàn)死機(jī)時:⑴應(yīng)立刻檢查是否因?yàn)橛蒘U上傳的數(shù)據(jù)在寫入數(shù)據(jù)庫時出現(xiàn)了讀寫錯誤等問題。故障判斷:①局域網(wǎng)上各節(jié)點(diǎn)計(jì)算機(jī)是否連通;②數(shù)據(jù)庫服務(wù)是否正常運(yùn)行;③數(shù)據(jù)傳輸端口的參數(shù)是否正常。⑵檢查監(jiān)控程序是否被非法操作。解決辦法:重啟監(jiān)控服務(wù)軟件。⑶檢查是否存在外界侵入問題。系統(tǒng)的安全性能需不斷地提高。對于IP可路由的網(wǎng)絡(luò),另外接一臺計(jì)算機(jī)假設(shè)以各種方法進(jìn)入系統(tǒng)??晒y試的方法大致有:撥打備份路由,PING系統(tǒng)中任意一臺計(jì)算機(jī),看是否能PING通,若能PING通,則表明系統(tǒng)內(nèi)部沒有設(shè)置必要的網(wǎng)關(guān),路由器上沒有分配路由表,或者需要增加必要的認(rèn)證和權(quán)限;接入到同一個網(wǎng)絡(luò)上,查找某個網(wǎng)絡(luò)設(shè)備,若能查找到并能取得服務(wù),則表示這臺機(jī)器裝載著其他通信協(xié)議(如NETBIOS、IPX/SPX、AppleTalk等協(xié)議),針對電源監(jiān)控系統(tǒng)的安全性和系統(tǒng)維護(hù)的方便性,需要把這些可能帶來安全隱患的協(xié)議刪除。對于具體問題還需針對網(wǎng)絡(luò)進(jìn)行專門的測試,逐一排除隱患。
如果由于傳輸設(shè)備參數(shù)錯誤而導(dǎo)致傳輸中斷,在更正后,鎖住傳輸設(shè)備設(shè)置面板,并定期通過網(wǎng)絡(luò)查看設(shè)置情況。如:基帶MODEM參數(shù)設(shè)置,檢查主從模式設(shè)置,通信速率設(shè)置;頻帶MODEM參數(shù)設(shè)置,由遠(yuǎn)端PC上進(jìn)入TELNET IP(連接傳輸設(shè)備的那一臺網(wǎng)絡(luò)設(shè)備的IP) 2009(傳輸設(shè)備的端口號)即可進(jìn)入查看MODEM的參數(shù)。
當(dāng)區(qū)域監(jiān)控中心無數(shù)據(jù)時:①查看傳輸設(shè)備是否工作正常;②對于判斷鏈路故障問題,需尋求數(shù)據(jù)機(jī)房或傳輸機(jī)房工作人員的幫助,如對DDN做本地回環(huán)和遠(yuǎn)端回環(huán)測試;③在確保鏈路連通的情況下,查看鏈路協(xié)議是否啟動。
當(dāng)監(jiān)控站數(shù)據(jù)庫由于意外原因崩潰時,首先應(yīng)恢復(fù)數(shù)據(jù)庫系統(tǒng)、動態(tài)鏈接庫、ODBC通道,然后恢復(fù)監(jiān)控?cái)?shù)據(jù)庫結(jié)構(gòu),向空數(shù)據(jù)庫分發(fā)丟掉的歷史數(shù)據(jù)。檢測監(jiān)控業(yè)務(wù)臺軟件與數(shù)據(jù)庫之間的連接是否暢通,是否有定期向SC數(shù)據(jù)庫備份數(shù)據(jù)的功能。
對于有路由器的網(wǎng)絡(luò),如果全部主路由或全部備用路由都不通,則路由器存在故障。檢查各端口的燈是否閃亮,若閃亮、則表示路由器路由協(xié)議(RIP)沒有工作,否則可能是路由器硬件故障。
當(dāng)網(wǎng)絡(luò)不通時,應(yīng)立即檢查交換設(shè)備是否出了問題,當(dāng)集線器或交換機(jī)上各口的燈出現(xiàn)黃色,則表示鏈路兩端已經(jīng)處在同一個電平,但通信線路有故障(3、6線未連通);若是綠色,則表示鏈路已經(jīng)連通。若不能進(jìn)行數(shù)據(jù)傳輸,則需要檢查IP地址、網(wǎng)關(guān)等是否配對,若綠色的燈在沒有傳數(shù)據(jù)的時候一直在閃動,則表示IP地址可能存在沖突,需要更改IP地址;若長時間出現(xiàn)黃色燈和綠色燈交替閃動,則表示此端口的數(shù)據(jù)碰撞率過大,則需要更換此PC的網(wǎng)卡或另外增加一塊網(wǎng)卡,以保證在數(shù)據(jù)量過大的情況下數(shù)據(jù)傳輸暢通。
3 SC(監(jiān)控中心)
從管理上,SS叫局站監(jiān)控管理中心,SC叫區(qū)域監(jiān)控管理中心,它們在許多功能和管理維護(hù)方面具有相同之處,但SC的功能更強(qiáng)大。維護(hù)和維修過程中,對于相同之處,參照SS,以下討論其不同之處。
3.1 服務(wù)器系統(tǒng)
機(jī)房監(jiān)控系統(tǒng)有著大量數(shù)據(jù)需處理:實(shí)時數(shù)據(jù),告警數(shù)據(jù),歷史統(tǒng)計(jì)數(shù)據(jù),操作日志,系統(tǒng)運(yùn)行日志等。服務(wù)器系統(tǒng)需滿足這些數(shù)據(jù)處理和存儲的功能。對于服務(wù)器-客戶機(jī)系統(tǒng),服務(wù)器和數(shù)據(jù)庫尤為重要,這樣的系統(tǒng)一般都配置了服務(wù)器雙機(jī)熱備份,采用RIAD5技術(shù)、磁盤冗余、多種冗錯校驗(yàn)方式的磁盤陣列。這種系統(tǒng)在維護(hù)、故障診斷和維修上比較復(fù)雜。總的來說,作為一般性的維護(hù)可采取以下措施:
⑴ 保證雙機(jī)系統(tǒng)雙電源供電;
⑵ 劃分比較大的數(shù)據(jù)存儲空間和足夠的數(shù)據(jù)日志空間,數(shù)據(jù)庫滿時應(yīng)及時把數(shù)據(jù)倒入外存,妥善保存數(shù)據(jù);
⑶ 備份數(shù)據(jù)庫結(jié)構(gòu),以防萬一數(shù)據(jù)庫崩潰時能及時得到恢復(fù)。
參考文獻(xiàn):
[1] 張琳.通信電源監(jiān)控系統(tǒng)傳輸方式的研究[D].山東大學(xué)碩士論文,
2007.4.
[2] 陳志鋒.通信協(xié)議轉(zhuǎn)換系統(tǒng)的實(shí)現(xiàn)[D].鄭州大學(xué)碩士論文,
2005.7.