摘要:本文介紹了計(jì)算機(jī)網(wǎng)絡(luò)運(yùn)行中維護(hù)人員所應(yīng)掌握的一些基本知識,并對發(fā)生網(wǎng)絡(luò)故障時的定位原則,常見故障分類、故障定位和排除的常用方法,以及日常維護(hù)中所應(yīng)維護(hù)的內(nèi)容和對維護(hù)人員的要求進(jìn)行了討論.
關(guān)鍵詞:故障定位 常見故障 排除方法 維護(hù)
0 引言
隨著計(jì)算機(jī)的廣泛應(yīng)用和網(wǎng)絡(luò)的流行,目前單位內(nèi)廣大職工的很多日常工作(包括生產(chǎn)MIS、OAK、電力營銷、視頻監(jiān)控、集群錄音等各種系統(tǒng))已經(jīng)與網(wǎng)絡(luò)密不可分,計(jì)算機(jī)網(wǎng)絡(luò)系統(tǒng),就是利用通訊設(shè)備和線路將地理位置不同的、功能獨(dú)立的多個計(jì)算機(jī)系統(tǒng)互連起來,以功能完善的網(wǎng)絡(luò)軟件(網(wǎng)絡(luò)通信協(xié)議、信息交換方式及網(wǎng)絡(luò)操作系統(tǒng)等)實(shí)現(xiàn)網(wǎng)絡(luò)中資源共享和信息傳遞的系統(tǒng)。它的主要功能表現(xiàn)在兩個方面:一是實(shí)現(xiàn)資源共享,包括硬件資源和軟件資源的共享;二是在用戶之間交換信息.因此,如何有效地做好本單位計(jì)算機(jī)網(wǎng)絡(luò)的日常維護(hù)工作,確保其安全穩(wěn)定地運(yùn)行,這是網(wǎng)絡(luò)運(yùn)行維護(hù)人員的一項(xiàng)非常重要的工作。本文對計(jì)算機(jī)網(wǎng)絡(luò)的常見故障處理及維護(hù)進(jìn)行討論。
1 故障定位的基本思路
在排除比較復(fù)雜網(wǎng)絡(luò)的故障時,我們常常要從多種角度來測試和分析故障的現(xiàn)象,準(zhǔn)確確定故障點(diǎn),在實(shí)際應(yīng)用中,我們通常采用的分析模型和方法有:
1.1 七層的網(wǎng)絡(luò)結(jié)構(gòu)分析模型方法從網(wǎng)絡(luò)的七層結(jié)構(gòu)的定義和功能上逐一進(jìn)行分析和排查,這是傳統(tǒng)的而且最基礎(chǔ)的分析和測試方法.這里有自下而上和自上而下兩種思路,自下而上是:從物理層的鏈路開始檢測直到應(yīng)用,自上而下是:從應(yīng)用協(xié)議中捕捉數(shù)據(jù)包,分析數(shù)據(jù)包統(tǒng)計(jì)和流量統(tǒng)計(jì)信息,以獲得有價值的資料。
1.2 網(wǎng)絡(luò)連接結(jié)構(gòu)的分析方法從網(wǎng)絡(luò)的連接構(gòu)成來看,大致可以分成客戶端、網(wǎng)絡(luò)鏈路、服務(wù)器端三個模塊。
1.2.1 客戶端具備網(wǎng)絡(luò)的七層結(jié)構(gòu),也會出現(xiàn)從硬件到軟件、從驅(qū)動到應(yīng)用程序、從設(shè)置錯誤到病毒等的故障問題。所以在分析和測試客戶端的過程中要有大量的背景知識,有時PC的發(fā)燒經(jīng)驗(yàn)也會有所幫助,也可以在實(shí)際測試過程中詢問客戶端的用戶,分析他們反映的問題是個性的還是共性的,這將有助于自己對客戶端的進(jìn)一步檢測作出決定。
1.2.2 來自網(wǎng)絡(luò)鏈路的問題通常需要網(wǎng)管、現(xiàn)場測試儀,甚至需要用協(xié)議分析儀來幫助確定問題的性質(zhì)和原因。對于這方面的問題分析需要有堅(jiān)實(shí)的網(wǎng)絡(luò)知識和實(shí)踐經(jīng)驗(yàn),有時實(shí)踐經(jīng)驗(yàn)會決定排除故障的時間。
1.2.3 在分析服務(wù)器端的情況時更需要有網(wǎng)絡(luò)應(yīng)用方面的豐富知識,要了解服務(wù)器的硬件性能及配置情況、系統(tǒng)性能及配置情況、網(wǎng)絡(luò)應(yīng)用及對服務(wù)器的影響情況。
1.3 工具型分析方法有強(qiáng)大的各種測試工具和軟件,它們的自動分析能快速地給出網(wǎng)絡(luò)的各種參數(shù)甚至是故障的分析結(jié)果,這對解決常見網(wǎng)絡(luò)故障非常有效。
1.4 綜合及經(jīng)驗(yàn)型分析方法 時間、錯誤和成功經(jīng)驗(yàn)的積累.在大多數(shù)的網(wǎng)絡(luò)維護(hù)工作人員的工作中是采用這個方法的,再依靠網(wǎng)管和測試工具迅速定位網(wǎng)絡(luò)的故障。
2 計(jì)算機(jī)常見故障分類
2.1 某臺計(jì)算機(jī)上不了網(wǎng)對于某臺計(jì)算機(jī)上不了網(wǎng)的故障,首先要分別確定此計(jì)算機(jī)的網(wǎng)卡安裝是否正確,是否存在硬件故障,網(wǎng)絡(luò)配置是否正確,例如在實(shí)際工作中我們一般采用Ping192.168.131.1來判斷網(wǎng)卡硬件安裝和TCP/IP協(xié)議的正確性。如果能Ping通,即說明這部分沒有問題.如果出現(xiàn)超時情況,則要檢查計(jì)算機(jī)的網(wǎng)卡是否與機(jī)器上的其它設(shè)備存在中斷沖突的問題,通過查看系統(tǒng)屬性中的設(shè)備管理器,查看是否在網(wǎng)絡(luò)適配器的設(shè)備前面有黃色驚嘆號或紅色叉號,如有則說明硬件的驅(qū)動程序沒有安裝成功,可刪除后重新安裝。另外,要確保TCP/IP協(xié)議安裝的正確性,并且要綁定在你所安裝的網(wǎng)卡上。如果重新安裝后還是Ping不通回送地址,最好換上一塊正常的網(wǎng)卡試一試。由于在局域網(wǎng)中劃分了VLAN,所以連在不同VLAN中的計(jì)算機(jī)都有各自不同的lP地址、子網(wǎng)掩碼和網(wǎng)關(guān),要在機(jī)器的網(wǎng)絡(luò)屬性中設(shè)定的IP地址等數(shù)據(jù)與連接的VCAN相匹配,否則將出現(xiàn)網(wǎng)絡(luò)不通的情況,當(dāng)確保了計(jì)算機(jī)的硬件設(shè)備和網(wǎng)絡(luò)配置正確后,接著就要查看計(jì)算機(jī)與交換機(jī)之間的雙絞線,交換機(jī)的RJ 45端口或交換機(jī)的配置是否有問題。此時我們要Ping上網(wǎng)計(jì)算機(jī)所在VLAN的網(wǎng)關(guān),不通的話就要分段檢查上面所說的各項(xiàng),最簡單的方法是檢查雙絞線,用線纜測試儀檢測雙絞線是否斷開,雙絞線沒有問題,就要查看交換機(jī)的端口是否壞了。交換機(jī)每一個端口都有狀態(tài)指示燈,檢測到此,如果端口指示燈不亮,就只能是端口損壞了,可以把跳線接到正常使用的端口上排除其它原因,確定是端口的問題。另外還有交換機(jī)的配置問題,只有極少的幾個人對交換機(jī)的配置有修改權(quán)限,所以詢問一下其它網(wǎng)管人員就可以排除了,如果不放心可以對照查看,交換機(jī)的參數(shù)配置表也是網(wǎng)絡(luò)管理員必備的資料之一,并且隨著網(wǎng)絡(luò)用戶的變化要不斷地修改。
2.2 多臺計(jì)算機(jī)上不了網(wǎng)對于同時有多臺計(jì)算機(jī)上不了網(wǎng)的故障,首先要找到這些計(jì)算機(jī)的共性,如是不是屬于同一VLAN或接在同一交換機(jī)上的,若這些計(jì)算機(jī)屬于同一VLAN,且屬于計(jì)算機(jī)分別連接于不同的樓層交換機(jī),那么檢查一下路由器上是否有acl限制,在路由器上對該VLAN的配置是否正確,路由協(xié)議(如我局的OSPF協(xié)議)是否配置正確,若這些計(jì)算機(jī)屬于同一交換機(jī),則應(yīng)到機(jī)房檢查該交換機(jī)是否有電源松落情況,或該交換機(jī)CPU負(fù)載率是否很高,與上一級網(wǎng)絡(luò)設(shè)備的鏈路是否正常,通常某交換機(jī)連接的所有電腦都不能正常與網(wǎng)內(nèi)其它電腦通訊,這是典型的交換機(jī)死機(jī)現(xiàn)象,可以通過重新啟動交換機(jī)的方法解決,如果重新啟動后故障依舊,則檢查一下那臺交換機(jī)連接的所有電腦,看逐個斷開連接的每臺電腦的情況,慢慢定位到某個故障電腦,會發(fā)現(xiàn)多半是某臺電腦上的網(wǎng)卡故障導(dǎo)致的,故障通常是交換機(jī)的某個端口變得非常緩慢,最后導(dǎo)致整臺交換機(jī)或整個堆疊慢下來,通過控制臺檢查交換機(jī)的狀態(tài),發(fā)現(xiàn)交換機(jī)的緩沖池增長得非???,達(dá)到了90%或更多,原因及解決方法為:首先應(yīng)該使用其它電腦更換這個端口上原來的連接,看是否由這個端口連接的那臺電腦的網(wǎng)絡(luò)故障導(dǎo)致的,也可以重新設(shè)置出錯的端口并重新啟動交換機(jī),個別時候,可能是這個端口損壞了。
2.3 鏈路問題 當(dāng)鏈路是光纜時,在開通新的網(wǎng)絡(luò)時,應(yīng)記錄光纜的收發(fā)光功率、光纜長度和芯數(shù),一旦出現(xiàn)問題應(yīng)重新用光功率計(jì)、OTDR等再次測試,并與原來數(shù)據(jù)進(jìn)行比較后及時修復(fù)。若鏈路是網(wǎng)線,如辦公室內(nèi)的,則可通過網(wǎng)絡(luò)一點(diǎn)通等網(wǎng)絡(luò)測試儀確定辦公室至交換機(jī)之間的哪段網(wǎng)線出了問題。
2.4 機(jī)柜接地問題機(jī)柜接地不能忽略,曾經(jīng)發(fā)生:市局為一臺C2MFT G703接口模塊、更換Cisco 6509,市局端更換Cisco 3550的2M的連接端口,更換SDH的2M鏈路均無效的過程,最終在縣局cisc06509采用WlC 1T模塊加外接協(xié)議轉(zhuǎn)換器,網(wǎng)絡(luò)互連恢復(fù)正常.準(zhǔn)備再次采用WVlC 2MFT G703接口模塊,在拆外接協(xié)議轉(zhuǎn)換器時被觸了一下電,再仔細(xì)查找機(jī)柜的接地線,沒有找到,對機(jī)柜接上接地線后,再采用原來設(shè)備,一切恢復(fù)正常,分析結(jié)果:外接協(xié)議轉(zhuǎn)換器輸出信號的電壓較高,所以抗干擾能力強(qiáng),盡管沒有接地,但因無接地而產(chǎn)生的干擾不對它產(chǎn)生影響,所以網(wǎng)絡(luò)互連正常。而Cisco的VWIC 2MFT G703接口模塊輸出信號的電壓較低,和無接地產(chǎn)生的干擾差不多,從而因輸出信號遭到破壞而導(dǎo)致SDH 2M誤碼告警i路由器的端口不斷up和down。由此可見;機(jī)柜接地看似小問題;如果沒做好:也會帶來很大的麻煩。
3 故障定位及排除的常用方法
3.1 告警性能分析法通過網(wǎng)管獲取告警和性能信息進(jìn)行故障定位,恩平供電局使用了BTTA網(wǎng)絡(luò)網(wǎng)管,可以對全局的網(wǎng)絡(luò)設(shè)備進(jìn)行管理,平時多觀察各設(shè)備CPU負(fù)載率和各線路的流量當(dāng)有人反映不能連接至網(wǎng)絡(luò)或網(wǎng)速很慢時,可通過網(wǎng)管觀察計(jì)算機(jī)與交換機(jī)的連接情況,是否有時斷時通的現(xiàn)象,交換機(jī)CPU負(fù)載率是否很高,線路流量是否很大,通過觀察設(shè)備端口狀態(tài),分析和觀察交換機(jī)哪個端口所接的計(jì)算機(jī)發(fā)包量不太正常。
3.2 替換法替換法就是使用一個工作正常的物體去替換一個工作不正常的物體,從而達(dá)到定位故障、排除故障的目的,這里的物件可以是一段線纜、一個設(shè)備和一塊模塊。
3.3 配置數(shù)據(jù)分析法查詢、分析當(dāng)前設(shè)備的配置數(shù)據(jù),通過分析以上的配置數(shù)據(jù)是否正常來定位故障,若配置的數(shù)據(jù)有錯誤,需進(jìn)行重新配置。
4 計(jì)算機(jī)網(wǎng)絡(luò)的維護(hù)
4.1 維護(hù)內(nèi)容計(jì)算機(jī)網(wǎng)絡(luò)的維護(hù)內(nèi)容包括:設(shè)備、鏈路、電源和配線架等附屬設(shè)備的維護(hù)。具體要求如下:①保證設(shè)備工作條件,包括供電條件和環(huán)境條件等。②對系統(tǒng)故障進(jìn)行判斷和處理,根據(jù)故障現(xiàn)象和告警指示,利用網(wǎng)管及各種測試工具進(jìn)行故障定位,找出故障原因,在最短時間內(nèi)排除故障。③通常采用集中維護(hù)方式,將維護(hù)人員和必要的維護(hù)儀表集中在一個主要站。④經(jīng)常檢查交換機(jī)與路由器中的端口狀態(tài),尤其需要關(guān)注端口差錯統(tǒng)計(jì)信息,對于出錯包特別多的端口,應(yīng)該檢查其是交換機(jī)或路由器本身的、鏈路的原因,還是接入設(shè)備的原因。交換機(jī)或路由器主要查CPU利用率和MEM利用率,接入設(shè)備若是計(jì)算機(jī),則主要看網(wǎng)卡的設(shè)置是否正確、網(wǎng)卡的驅(qū)動程序是否和網(wǎng)卡匹配,查出原因后進(jìn)行整改,檢查完后對端口統(tǒng)計(jì)信息清零。⑤鏈路若是光纜,則主要檢查現(xiàn)有衰耗和投運(yùn)時的衰耗差,鏈路是網(wǎng)線則用專用儀器進(jìn)行現(xiàn)場測試,光纖不允許小角度彎折,更不能出現(xiàn)直角。⑥網(wǎng)管監(jiān)控系統(tǒng)和本地維護(hù)終端用的計(jì)算機(jī)是專用設(shè)備,禁止挪用,以免病毒侵害。
4.2 對維護(hù)人員的要求①對運(yùn)行中的網(wǎng)絡(luò)設(shè)備在進(jìn)行變更設(shè)置的操作時,必須有兩人同時在場方可進(jìn)行,一人操作,一人監(jiān)護(hù),并做好如何在操作失敗而導(dǎo)致網(wǎng)絡(luò)設(shè)備異常的情況下的處理預(yù)案,履行必要手續(xù)。②處理光接口信號時,不得將光發(fā)送器的尾纖端面或上面活動連接器的端面對著眼睛,并注意尾纖端面和連接器的清潔。③熟練掌握所維護(hù)的設(shè)備的基本操作。④做好設(shè)備的日常巡視工作。⑤對外來人員(參觀者或領(lǐng)導(dǎo))應(yīng)講明道理,關(guān)照他請勿動手。
5 結(jié)束語
在電力系統(tǒng)中,計(jì)算機(jī)網(wǎng)絡(luò)建設(shè)越來越龐大,且組網(wǎng)方式繁多而復(fù)雜,自然就加大了維護(hù)人員的工作量和故障定位、處理的難度,這就要求維護(hù)人員必須不斷提高自身的業(yè)務(wù)水平和處理故障的能力,同時要針對實(shí)際情況,把以上的定位原則和處理方法做到靈活應(yīng)用。