曲瑞超
(赤峰學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)系,內(nèi)蒙古 赤峰 024000)
淺談網(wǎng)絡(luò)故障的診斷與排除
曲瑞超
(赤峰學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)系,內(nèi)蒙古 赤峰 024000)
本文從網(wǎng)絡(luò)管理人員的角度出發(fā),根據(jù)目前網(wǎng)絡(luò)設(shè)計(jì)及運(yùn)行中出現(xiàn)的各種問題,按OSI網(wǎng)絡(luò)參考模型的層次,系統(tǒng)介紹了網(wǎng)絡(luò)故障的診斷、排查、定位及解除的方法.
網(wǎng)絡(luò)故障;故障診斷;故障定位;故障排除
網(wǎng)絡(luò)故障診斷是一門綜合性技術(shù),涉及網(wǎng)絡(luò)技術(shù)的各個(gè)方面.它以網(wǎng)絡(luò)原理、網(wǎng)絡(luò)配置和網(wǎng)絡(luò)運(yùn)行的知識(shí)為基礎(chǔ),從故障現(xiàn)象出發(fā),以網(wǎng)絡(luò)診斷工具為手段獲取診斷信息,確定網(wǎng)絡(luò)故障點(diǎn),查找問題的根源,排除故障,恢復(fù)網(wǎng)絡(luò)正常運(yùn)行.
網(wǎng)絡(luò)故障診斷應(yīng)該實(shí)現(xiàn)三方面的目的:確定網(wǎng)絡(luò)的故障點(diǎn),恢復(fù)網(wǎng)絡(luò)的正常運(yùn)行;發(fā)現(xiàn)網(wǎng)絡(luò)規(guī)劃和配置中欠佳之處,改善和優(yōu)化網(wǎng)絡(luò)的性能;觀察網(wǎng)絡(luò)的運(yùn)行狀況,及時(shí)預(yù)測(cè)網(wǎng)絡(luò)通信質(zhì)量.
網(wǎng)絡(luò)故障原因有以下幾種可能:物理層中物理設(shè)備相互連接失敗或者硬件及線路本身的問題;數(shù)據(jù)鏈路層的網(wǎng)絡(luò)設(shè)備的接口配置問題;網(wǎng)絡(luò)層網(wǎng)絡(luò)協(xié)議配置或操作錯(cuò)誤;傳輸層的設(shè)備性能或通信擁塞問題;網(wǎng)絡(luò)服務(wù)或網(wǎng)絡(luò)應(yīng)用程序錯(cuò)誤.
診斷網(wǎng)絡(luò)故障的過程應(yīng)該沿著OSI七層模型從物理層開始向上進(jìn)行.首先檢查物理層,然后檢查數(shù)據(jù)鏈路層,以此類推,設(shè)法確定通信失敗的故障點(diǎn),直到系統(tǒng)通信正常為止.
一般來(lái)說(shuō),網(wǎng)絡(luò)故障以某種癥狀表現(xiàn)出來(lái),對(duì)每一個(gè)癥狀使用特定的故障診斷工具和方法都能查找出一個(gè)或多個(gè)故障原因.可以對(duì)此進(jìn)行逐步排除,以縮小搜索范圍并達(dá)到隔離錯(cuò)誤的目的.具體方法和步驟如下:第一步,當(dāng)分析網(wǎng)絡(luò)故障時(shí),首先要清楚故障現(xiàn)象.要確定故障的具體現(xiàn)象,然后確定造成這種故障現(xiàn)象的原因的類型.第二步,收集需要的用于幫助隔離可能故障原因的信息.向用戶、網(wǎng)絡(luò)管理員、管理者和其他關(guān)鍵人物提一些和故障有關(guān)的問題.廣泛的從網(wǎng)絡(luò)管理系統(tǒng)、協(xié)議分析跟蹤、路由器診斷命令的輸出報(bào)告或軟件說(shuō)明書中收集有用的信息.第三步,根據(jù)收集到的情況考慮可能的故障原因并根據(jù)有關(guān)情況排除某些故障原因,以縮小搜索范圍.第四步,根據(jù)最后的可能的故障原因,建立一個(gè)診斷計(jì)劃.開始僅用一個(gè)最可能的故障原因進(jìn)行診斷活動(dòng),這樣可以容易恢復(fù)到故障的原始狀態(tài).如果一次同時(shí)考慮一個(gè)以上的故障原因,試圖返回故障原始狀態(tài)就困難了.第五步,執(zhí)行診斷計(jì)劃,認(rèn)真做好每一步測(cè)試和觀察,進(jìn)行錯(cuò)誤隔離和剔除,直到故障癥狀消失.每改變一個(gè)參數(shù)都要確認(rèn)其結(jié)果并對(duì)結(jié)果進(jìn)行分析以確定問題是否解決,如果沒有解決,繼續(xù)下去,直到解決.第六步,處理完問題,作為網(wǎng)絡(luò)管理人員,還有必要清楚故障的原因,并對(duì)此作出分析并擬定相應(yīng)對(duì)策以避免類似故障的再次發(fā)生.
有了以上的理論基礎(chǔ),下面就按OSI模型的層次具體的說(shuō)明一般網(wǎng)絡(luò)故障的診斷和排除過程.
物理層的故障主要表現(xiàn)在設(shè)備的物理連接方式是否恰當(dāng);連接電纜是否正確;網(wǎng)卡、跳線、信息插座,HUB、MODEM等物理層設(shè)備的配置及操作是否正確.
3.1.1 故障表現(xiàn)
故障計(jì)算機(jī)無(wú)法連接至網(wǎng)絡(luò),不能實(shí)現(xiàn)與其他計(jì)算機(jī)的通信;
計(jì)算機(jī)雖然可以接入網(wǎng)絡(luò),但是,數(shù)據(jù)傳輸速度非常慢,或者計(jì)算機(jī)性能大幅下降;
故障只涉及一臺(tái)計(jì)算機(jī),其它計(jì)算機(jī)的網(wǎng)絡(luò)不受影響;
系統(tǒng)提示“網(wǎng)絡(luò)電纜沒有插好”,計(jì)算機(jī)無(wú)法訪問網(wǎng)絡(luò);
該鏈路所連接的交換機(jī)上相應(yīng)端口的LED指示燈熄滅.
3.1.2 故障分析
線路斷路或短路;
電氣性能或信號(hào)衰減過大,主要是由于連接線路質(zhì)量差造成的;
鏈路中的布線產(chǎn)品不匹配,在同一物理鏈路中,使用不同廠家不同標(biāo)準(zhǔn)不同型號(hào)的布線產(chǎn)品,可能會(huì)導(dǎo)致產(chǎn)品兼容性問題;
電磁干擾嚴(yán)重或傳輸距離超限;
網(wǎng)線、跳線或信息插座故障;
3.1.3 物理層診斷排錯(cuò)
第一步:查看網(wǎng)卡的指示燈是否正常.正常情況下,在不傳送數(shù)據(jù)時(shí)候,網(wǎng)卡的指示燈閃爍較慢;傳送數(shù)據(jù)時(shí)候,閃爍較快.無(wú)論是不亮,還是長(zhǎng)亮不滅,都表明有故障存在.如果網(wǎng)卡的指示燈不正常,需關(guān)掉計(jì)算機(jī)更換網(wǎng)卡.如果指示燈閃爍正常,繼續(xù)下述步驟.
第二步:在“系統(tǒng)屬性”的硬件選項(xiàng)卡中打開“設(shè)備管理器”,查看網(wǎng)卡驅(qū)動(dòng)是否已經(jīng)安裝或是否出錯(cuò).如果列表中沒有網(wǎng)絡(luò)適配器,或網(wǎng)絡(luò)適配器前方有個(gè)黃色“!”,說(shuō)明網(wǎng)卡沒有安裝好,請(qǐng)刪除網(wǎng)卡,刷新后重新安裝網(wǎng)卡.如果網(wǎng)卡不能安裝,說(shuō)明已經(jīng)壞了,更換網(wǎng)卡.如果網(wǎng)卡已經(jīng)正確安裝,繼續(xù)下述步驟.
第三步:用測(cè)線器對(duì)該連接涉及到的所有網(wǎng)線和跳線進(jìn)行測(cè)試,確認(rèn)網(wǎng)線的鏈路.最后檢查交換機(jī)端口的指示燈是否正常,必要時(shí)再換一個(gè)端口試試.
數(shù)據(jù)鏈路層為通過鏈路層的數(shù)據(jù)進(jìn)行打包和解包、差錯(cuò)檢測(cè)和一定的校正能力,并協(xié)調(diào)共享介質(zhì).統(tǒng)計(jì)表明鏈路故障在網(wǎng)絡(luò)故障中占有80%的比重,因此鏈路故障是網(wǎng)絡(luò)中經(jīng)常發(fā)生的故障.
3.2.1 鏈路故障的表現(xiàn)
計(jì)算機(jī)無(wú)法登陸至服務(wù)器;
計(jì)算機(jī)在網(wǎng)上鄰居中只能看到自己,而看不到其他計(jì)算機(jī),從而無(wú)法使用其他計(jì)算機(jī)上的共享資源和共享打印機(jī);
計(jì)算機(jī)無(wú)法通過局域網(wǎng)接入Internet;
計(jì)算機(jī)無(wú)法在局域網(wǎng)絡(luò)瀏覽Web服務(wù)器或收發(fā)E-mail.
3.2.2 鏈路故障的分析
網(wǎng)絡(luò)協(xié)議未安裝,或設(shè)置不正確;
UPS或交換機(jī)電源故障;
交換機(jī)硬件故障,或交換機(jī)端口硬件故障;
VLAN設(shè)置問題;
3.2.3 鏈路故障的排錯(cuò)步驟
第一步:排除網(wǎng)卡及物理層故障(方法同上述).
第二步:確認(rèn)鏈路故障:當(dāng)出現(xiàn)一種網(wǎng)絡(luò)應(yīng)用故障時(shí)候,如無(wú)法接入Internet,首先嘗試其他網(wǎng)絡(luò)應(yīng)用,如查找網(wǎng)絡(luò)中的其他計(jì)算機(jī),如果其他網(wǎng)絡(luò)應(yīng)用可正常使用,可排除鏈路故障原因.如果其他網(wǎng)絡(luò)應(yīng)用均無(wú)法實(shí)現(xiàn),繼續(xù)下述步驟.
第三步:使用ping命令,ping本地的IP地址或127.0.0.1.如果能ping通,說(shuō)明該計(jì)算機(jī)的網(wǎng)卡和網(wǎng)絡(luò)協(xié)議設(shè)置都沒有問題,問題出在計(jì)算機(jī)與網(wǎng)絡(luò)的連接上,應(yīng)當(dāng)檢查網(wǎng)線鏈路和交換機(jī)及交換機(jī)端口的狀態(tài).如果無(wú)法ping通,只能說(shuō)明TCP/IP協(xié)議有問題,而并不能提供更多的情況,需要繼續(xù)下述步驟.
第四步:排除網(wǎng)絡(luò)協(xié)議故障.查看本地計(jì)算機(jī)是否安裝有TCP/IP協(xié)議,并檢查IP地址、子網(wǎng)掩碼、默認(rèn)網(wǎng)關(guān)和DNS設(shè)置是否完全正確,如正確則是網(wǎng)絡(luò)連接的問題.
第五步:故障定位.到連接至同一臺(tái)交換機(jī)上的其他計(jì)算機(jī)上進(jìn)行網(wǎng)絡(luò)應(yīng)用測(cè)試.如果仍然不正常,在確認(rèn)網(wǎng)卡和網(wǎng)絡(luò)協(xié)議都正確安裝的前提下,可初步認(rèn)定是交換機(jī)發(fā)生了故障.如果其他計(jì)算機(jī)測(cè)試結(jié)果完全正常,則將故障定位在發(fā)生故障的計(jì)算機(jī)與網(wǎng)絡(luò)的鏈路上.
第六步:故障排除.如果確定交換機(jī)故障,應(yīng)首先查看交換機(jī)上各個(gè)指示燈閃爍是否正常.如果所有指示燈都在頻繁的閃爍或一直亮著,可能是由于網(wǎng)卡損壞而發(fā)生了廣播風(fēng)暴,關(guān)閉再重新打開交換機(jī)電源后試一試看能否恢復(fù)正常.如果恢復(fù)正常,再找到紅燈閃爍的端口,將網(wǎng)線拔下來(lái),找到該計(jì)算機(jī),更換網(wǎng)卡.如果面板一片漆黑,一個(gè)燈也不亮,檢查交換機(jī)電源是否已經(jīng)打開,或電源插頭是否接觸不良.如果電源沒有問題,那就的更換一臺(tái)交換機(jī)了.如果確定故障就發(fā)生在某一條連接上,則可按以上物理層故障的方法排除.
沒有協(xié)議就沒有網(wǎng)絡(luò).協(xié)議之于網(wǎng)絡(luò)正如同語(yǔ)言之于人類的交流,因此,協(xié)議在網(wǎng)絡(luò)中扮演著非常重要的角色.
3.3.1 協(xié)議故障表現(xiàn)
計(jì)算機(jī)無(wú)法登錄至服務(wù)器;
在網(wǎng)上鄰居中看不到自己,也看不到其他計(jì)算機(jī);
在網(wǎng)上鄰居中能看到自己和其他計(jì)算機(jī),但無(wú)法在局域網(wǎng)絡(luò)中瀏覽Web、收發(fā)E-mail;
無(wú)法通過局域網(wǎng)接入Internet;
重復(fù)的計(jì)算機(jī)名稱或IP.
3.3.2 協(xié)議故障分析
協(xié)議未安裝:實(shí)現(xiàn)局域網(wǎng)絡(luò)通信,需安裝Net-BEUI協(xié)議;實(shí)現(xiàn)Internet通信,需安裝TCP/IP協(xié)議;
協(xié)議配置不正確:TCP/IP協(xié)議涉及到的基本配置參數(shù)有4個(gè),即IP地址、子網(wǎng)掩碼、DNS和默認(rèn)網(wǎng)關(guān),任何一個(gè)設(shè)置錯(cuò)誤,都有可能導(dǎo)致故障發(fā)生;
網(wǎng)絡(luò)中有兩個(gè)或兩個(gè)以上的計(jì)算機(jī)使用同一計(jì)算機(jī)名.
3.3.3 協(xié)議故障排錯(cuò)方法
第一步:檢查計(jì)算機(jī)是否安裝有TCP/IP協(xié)議和NetBEUI協(xié)議,如果沒有,建議安裝這兩協(xié)議;
第二步:檢查計(jì)算機(jī)的TCP/IP配置參數(shù)是否正確.如設(shè)置有問題,修改后重啟再測(cè)試;
第三步:使用Ping命令,測(cè)試與其他計(jì)算機(jī)和服務(wù)器的連接狀況;
第四步:對(duì)于不能實(shí)現(xiàn)文件或打印機(jī)共享的,可在本地連接屬性中查看是否添加了“Microsoft網(wǎng)絡(luò)的文件及打印共享”協(xié)議,并進(jìn)一步確定相應(yīng)的設(shè)備和文件已經(jīng)啟用了共享.
第五步:對(duì)計(jì)算機(jī)重名的,重新為該計(jì)算機(jī)命名,使其在網(wǎng)絡(luò)中具有唯一性.
配置錯(cuò)誤也是導(dǎo)致網(wǎng)絡(luò)故障發(fā)生的重要原因之一.網(wǎng)絡(luò)管理員對(duì)服務(wù)器、路由器及交換機(jī)的的配置不當(dāng),或用戶對(duì)計(jì)算機(jī)設(shè)置的修改都會(huì)產(chǎn)生網(wǎng)絡(luò)上的訪問錯(cuò)誤.
3.4.1 配置故障表現(xiàn)
網(wǎng)絡(luò)鏈路測(cè)試正常,卻無(wú)法連接到網(wǎng)絡(luò),不能與其它計(jì)算機(jī)通信;
只能與某些計(jì)算機(jī),而不是全部計(jì)算機(jī)進(jìn)行通信;
計(jì)算機(jī)能訪問內(nèi)部網(wǎng)絡(luò)中的服務(wù)器,但無(wú)法接入Internet;
計(jì)算機(jī)無(wú)法登錄至域控制器.
3.4.2 配置故障分析
服務(wù)器配置錯(cuò)誤:如域控制器未設(shè)置或已到期的用戶,將無(wú)法登錄;服務(wù)器配置錯(cuò)誤導(dǎo)致WEB、FTP等服務(wù)停止;代理服務(wù)器訪問列表設(shè)置不當(dāng),限制有權(quán)用戶接入Internet;
網(wǎng)絡(luò)設(shè)備配置錯(cuò)誤:如路由器訪問列表設(shè)置不當(dāng)導(dǎo)致網(wǎng)絡(luò)中所有計(jì)算機(jī)都無(wú)法訪問Internet;三層交換機(jī)的路由設(shè)置不當(dāng),使用戶無(wú)法訪問不同Vlan中的計(jì)算機(jī)等;
用戶配置錯(cuò)誤:如IP地址設(shè)置不當(dāng),子網(wǎng)掩碼及網(wǎng)關(guān)設(shè)置設(shè)置錯(cuò)誤等.
3.4.3 配置故障排錯(cuò)步驟
第一步:檢查發(fā)生故障計(jì)算機(jī)的相關(guān)配置.如發(fā)現(xiàn)錯(cuò)誤,修改后再測(cè)試相應(yīng)的網(wǎng)絡(luò)服務(wù),如沒發(fā)現(xiàn)錯(cuò)誤,執(zhí)行下步.
第二步:測(cè)試同一網(wǎng)絡(luò)內(nèi)的其他計(jì)算機(jī)是否有類似的故障,如有則說(shuō)明問題出在服務(wù)器或網(wǎng)絡(luò)設(shè)備上.
第三步:如沒有類似故障,也不能服務(wù)器和網(wǎng)絡(luò)設(shè)備存在設(shè)置問題,應(yīng)進(jìn)一步針對(duì)該用戶提供的服務(wù)作進(jìn)一步的檢查.
3.5.1 服務(wù)器故障
導(dǎo)致網(wǎng)絡(luò)服務(wù)故障的可能性包括三個(gè)方面,即服務(wù)器硬件故障、操作系統(tǒng)故障和網(wǎng)絡(luò)服務(wù)故障.通常導(dǎo)致網(wǎng)絡(luò)故障最主要的原因是操作系統(tǒng)故障,因此當(dāng)網(wǎng)絡(luò)服務(wù)故障發(fā)生時(shí),首先應(yīng)當(dāng)確認(rèn)服務(wù)器是否感染病毒或被攻擊,然后再通過系統(tǒng)日志的記載來(lái)查看服務(wù)故障的發(fā)生情況,必要時(shí)進(jìn)行重啟服務(wù)或計(jì)算機(jī)甚至重新安裝服務(wù)等來(lái)排除故障,最后如果故障還沒有排除再檢查服務(wù)器的硬件.
3.5.2 網(wǎng)絡(luò)拓?fù)涔收?/p>
一般在網(wǎng)絡(luò)的設(shè)計(jì)初,拓?fù)浣Y(jié)構(gòu)就已經(jīng)在功能和故障的避免上有了一定程度的規(guī)劃,且經(jīng)過一段時(shí)間的正常使用,出現(xiàn)在這方面的故障不是很多.網(wǎng)絡(luò)拓?fù)湟鸬墓收?,多?shù)是由于網(wǎng)絡(luò)設(shè)備的重新配置或優(yōu)化而改變了網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu),或在網(wǎng)絡(luò)的主要結(jié)構(gòu)中加入了新的網(wǎng)絡(luò)設(shè)備從而改變了網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)而發(fā)生了故障.此類故障故障的檢測(cè)可以通過網(wǎng)絡(luò)設(shè)計(jì)中的拓?fù)鋱D很輕松的找到,只要對(duì)相應(yīng)設(shè)備的配置作出調(diào)整就可以解除.
網(wǎng)絡(luò)發(fā)生故障是不可避免的.搞好網(wǎng)絡(luò)的運(yùn)行管理和故障診斷工作,提高故障診斷水平是一個(gè)日積月累的過程.除了平時(shí)的積累,還要注意以下幾方面的問題:認(rèn)真學(xué)習(xí)有關(guān)網(wǎng)絡(luò)技術(shù)理論;清楚網(wǎng)絡(luò)的結(jié)構(gòu)設(shè)計(jì),注意保存網(wǎng)絡(luò)拓樸、設(shè)備連接、系統(tǒng)參數(shù)設(shè)置及軟件使用的文檔;了解網(wǎng)絡(luò)正常運(yùn)行狀況、注意收集網(wǎng)絡(luò)正常運(yùn)行時(shí)的各種狀態(tài)和報(bào)告輸出參數(shù);熟悉常用的診斷工具,準(zhǔn)確的描述故障現(xiàn)象.
〔1〕李福亮.網(wǎng)絡(luò)故障現(xiàn)場(chǎng)處理實(shí)踐.電子工業(yè)出版社.
〔2〕陳向陽(yáng).網(wǎng)絡(luò)工程規(guī)劃與設(shè)計(jì).清華大學(xué)出版社.
〔3〕斯桃枝.路由與交換技術(shù).北京大學(xué)出版社.
TP393
A
1673-260X(2011)02-0071-03