蔣萍 申志紅
[摘 要] 隨著企業(yè)應(yīng)用系統(tǒng)飛速地發(fā)展,使得網(wǎng)絡(luò)承載能力也得到了考驗(yàn)。此時(shí),各種應(yīng)用系統(tǒng)加載的網(wǎng)絡(luò)也變得更加脆弱,網(wǎng)絡(luò)故障因此層出不窮。在紛繁復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)中,要以技術(shù)為實(shí)力、技巧為主力,逐步分析診治網(wǎng)絡(luò)病癥,確保網(wǎng)絡(luò)的正常運(yùn)行。文章通過(guò)網(wǎng)絡(luò)故障分析與排查為宗指,運(yùn)用工具、命令、實(shí)例、完整而深入地討論了當(dāng)前企業(yè)網(wǎng)絡(luò)應(yīng)用中所遇見(jiàn)的常見(jiàn)故障。
[關(guān)鍵詞] 網(wǎng)絡(luò);故障診斷;分層排查
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2018. 11. 061
[中圖分類號(hào)] TP311 [文獻(xiàn)標(biāo)識(shí)碼] A [文章編號(hào)] 1673 - 0194(2018)11- 0139- 04
1 引 言
企業(yè)信息化是實(shí)現(xiàn)信息技術(shù)與工業(yè)化融合為主體的數(shù)字化生產(chǎn)、運(yùn)營(yíng)、管理的系統(tǒng)平臺(tái)。然而,企業(yè)局域網(wǎng)建設(shè)更是信息化發(fā)展的基石,網(wǎng)絡(luò)運(yùn)維的穩(wěn)定性直接影響著業(yè)務(wù)承載的可靠性和安全性。面對(duì)著網(wǎng)絡(luò)技術(shù)和紛繁復(fù)雜的網(wǎng)絡(luò)維護(hù)變化,網(wǎng)絡(luò)故障的日益加劇,如何快速有效的管理好網(wǎng)絡(luò),預(yù)防故障的發(fā)生,是網(wǎng)絡(luò)管理員面臨的首要任務(wù)。因此,必須掌握網(wǎng)絡(luò)的診斷方法、工具與命令,能夠從廣域網(wǎng)到局域網(wǎng),硬件到軟件進(jìn)行系統(tǒng)的檢測(cè)與運(yùn)維,保障網(wǎng)絡(luò)安全穩(wěn)定的運(yùn)行。
2 排查故障基本原則
排查是一件很抽象的工作,沒(méi)有什么固定的套路可循。因?yàn)橛绊懡Y(jié)果的變量實(shí)在是太多,不同的表象可能有同一個(gè)原因,同樣的現(xiàn)象也可能根本不是一回事。應(yīng)把握一些基本的原則,然后見(jiàn)招拆招,嘗試做去一個(gè)好的網(wǎng)絡(luò)醫(yī)生。目前,在本企業(yè)網(wǎng)中總結(jié)出四項(xiàng)網(wǎng)絡(luò)運(yùn)維故障排查原則,以下予以逐個(gè)說(shuō)明。
2.1 由下至上
由于網(wǎng)絡(luò)是分層的,簡(jiǎn)單的功能在底層實(shí)現(xiàn),復(fù)雜的功能在高層實(shí)現(xiàn),所以測(cè)試時(shí)優(yōu)先測(cè)試相對(duì)底層的功能。
2.2 由近至遠(yuǎn)
網(wǎng)絡(luò)是連接個(gè)人自己的計(jì)算機(jī)到其他計(jì)算機(jī)之間的橋梁。人們自己的計(jì)算機(jī)就擺在面前的桌子上,而對(duì)端的計(jì)算機(jī)可能就是坐在自己旁邊女同事的筆記本,也可能是遠(yuǎn)在天涯海角的一臺(tái)噸級(jí)重的大型機(jī)。再或者,自己根本不知道對(duì)端是什么,在哪里。
很明顯,我們對(duì)自己的計(jì)算機(jī)相對(duì)的更了解一些。能獲得的信息的多少及精確程度對(duì)人們做出準(zhǔn)確的判斷具有至關(guān)重要的作用。能獲得的信息量又隨著距離的增加而減少。因此先從自己的計(jì)算機(jī)開始整個(gè)測(cè)試過(guò)程是個(gè)不錯(cuò)的選擇。
2.3 由點(diǎn)至面
如果自己的計(jì)算機(jī)看起來(lái)還不錯(cuò),沒(méi)有什么明顯的問(wèn)題,測(cè)試也都通過(guò)了,那么是不是可以就此認(rèn)定網(wǎng)絡(luò)壞了或者對(duì)端的計(jì)算機(jī)壞了呢?如果和你同一個(gè)辦公室的同事都沒(méi)問(wèn)題,那十有八九是你自己的問(wèn)題。如果其他公司沒(méi)有問(wèn)題而你所在的公司有問(wèn)題,那基本上是你們公司內(nèi)部的問(wèn)題。如果整個(gè)區(qū)域都有問(wèn)題,那么就有可能是廣域網(wǎng)鏈路、路由的問(wèn)題。如果全國(guó)都有問(wèn)題,很不幸,估計(jì)是哪臺(tái)核心服務(wù)器出問(wèn)題了。
準(zhǔn)確鑒別故障影響的范圍會(huì)對(duì)故障原因的判定起到?jīng)Q定性的作用。故障范圍的不同也會(huì)導(dǎo)致排查步驟的不同。確定了故障范圍基本上也就完成了一多半的排查工作。
2.4 由易至難
當(dāng)故障原因已經(jīng)定位到一個(gè)比較小的范圍,需要做一些測(cè)試才能做出最后的判斷。或者已經(jīng)定位了故障原因,需要用一些不同的方法解決問(wèn)題。這時(shí)適用于由易至難的原則:影響范圍小的操作優(yōu)先、耗用時(shí)間短的操作優(yōu)先、操作可回退的操作優(yōu)先、安全系數(shù)高的操作優(yōu)先。
假設(shè)服務(wù)器上的Web服務(wù)進(jìn)程失去響應(yīng)導(dǎo)致應(yīng)用系統(tǒng)停止服務(wù),則可以通過(guò)重啟Web服務(wù)或者重啟服務(wù)器來(lái)試圖修復(fù)。其中重啟Web服務(wù)耗時(shí)小于10秒,重啟服務(wù)器耗時(shí)約5~10分鐘。而且重啟Web服務(wù)影響范圍較小、危險(xiǎn)程度也比較低,重啟服務(wù)器還可能會(huì)產(chǎn)生其他不可預(yù)料的問(wèn)題?;谟梢字岭y的原則綜合考慮后,可以認(rèn)為重啟Web服務(wù)是應(yīng)該優(yōu)先執(zhí)行的操作。如果重啟Web服務(wù)后故障被修復(fù),就節(jié)省了重啟服務(wù)器所需要的5~10分鐘時(shí)間和對(duì)應(yīng)的風(fēng)險(xiǎn)。就算重啟Web服務(wù)后故障依舊,也只是消耗了不到10秒的時(shí)間,再重啟服務(wù)器也來(lái)得及。
3 日常運(yùn)維思路及方法
3.1 查詢本地信息
首先要了解自己的計(jì)算機(jī)的一些基本信息,這會(huì)幫助你更好的使用計(jì)算機(jī)。表1是一張需要知道的信息的表格,請(qǐng)?zhí)顚懮厦嫠械捻?xiàng)目并經(jīng)常核對(duì)。至于核對(duì)的頻率嘛,把它當(dāng)成家里的水電煤氣表好了。如何獲得這些信息在表格后面會(huì)做出詳細(xì)的說(shuō)明。
具體方法:
(1)<網(wǎng)絡(luò)連接>中<本地連接>的屬性,從此處可以看到:a.IP地址;b.子網(wǎng)掩碼;c.網(wǎng)關(guān);d.是自動(dòng)獲取IP地址還是設(shè)置靜態(tài)IP地址;e.是自動(dòng)獲取DNS還是設(shè)置靜態(tài)IP地址;f.網(wǎng)卡的品牌;g.網(wǎng)卡的型號(hào)。
(2)<控制面板>中的
(3)<控制面板>中的<系統(tǒng)> ,從此處可以看到:
操作系統(tǒng)。
3.2 查詢對(duì)端信息
僅僅了解自己的網(wǎng)絡(luò)基礎(chǔ)信息也是不夠的,還要知道身邊其他人的網(wǎng)絡(luò)基礎(chǔ)信息,這樣做會(huì)讓你安全得多。比較可以暴露出很多的問(wèn)題。如果你和大多數(shù)人都不一樣,那么多半是你錯(cuò)了,趕快向網(wǎng)管咨詢什么是正確的吧。 另外,如果你使用了不該你使用的代理服務(wù)器、DNS之類的基礎(chǔ)服務(wù),人家準(zhǔn)備停機(jī)檢修的時(shí)候你是不會(huì)收到通知的。而平時(shí)與其他人的比較可以幫助你較早地發(fā)現(xiàn)這些安全隱患。
具體方法如下。
3.2.1 了解服務(wù)
企業(yè)網(wǎng)承載著生產(chǎn)、賬務(wù)、OA辦公、郵件等系統(tǒng),這些都是“網(wǎng)絡(luò)服務(wù)”,是通過(guò)網(wǎng)絡(luò)可以實(shí)現(xiàn)的傳輸服務(wù)。如果生產(chǎn)系統(tǒng)的網(wǎng)頁(yè)打不開,準(zhǔn)確的描述應(yīng)該是“服務(wù)中斷”。網(wǎng)絡(luò)中斷可以表現(xiàn)為服務(wù)中斷,但服務(wù)中斷卻有多種原因,而網(wǎng)絡(luò)故障只是其中的一個(gè)而已。
最好在自己的頭腦中梳理一下,自己平時(shí)需要的網(wǎng)絡(luò)服務(wù)都有哪些?當(dāng)某一項(xiàng)服務(wù)中斷的時(shí)候馬上嘗試一下其他的服務(wù)是不是同時(shí)中斷,這樣可以幫你明確排查的方向。
3.2.2 了解網(wǎng)絡(luò)
記住幾個(gè)關(guān)鍵節(jié)點(diǎn)的IP地址絕對(duì)是件很劃算的事情。利用這些關(guān)鍵節(jié)點(diǎn)的IP地址我們可以快速的判斷網(wǎng)絡(luò)在哪里中斷,順便還可以知道該由誰(shuí)修復(fù)、由誰(shuí)負(fù)責(zé)。在企業(yè)網(wǎng)中內(nèi)網(wǎng)是分段維護(hù)的,每段的邊界設(shè)備就是關(guān)鍵節(jié)點(diǎn)。目前大致能分為三個(gè)大段:局域內(nèi)網(wǎng)、骨干廣域網(wǎng)、核心機(jī)房。
例如,局域內(nèi)網(wǎng)的邊界是一臺(tái)華為AR46路由器。AR46到終端用戶側(cè)由局域內(nèi)網(wǎng)自行維護(hù),AR46以外是骨干廣域網(wǎng)。骨干廣域網(wǎng)的另一個(gè)邊界是核心NE40路由器。了解這些信息后,我們就得知鏈路情況和運(yùn)維人員信息。
3.2.3 了解工具
a.從桌面切換到命令行模式下,點(diǎn)擊<開始>菜單->點(diǎn)擊<運(yùn)行>->在出現(xiàn)的輸入框里輸入CMD->點(diǎn)擊”確定”;點(diǎn)擊<開始>菜單->選擇<程序>->選擇<附件>->選擇<命令提示符>。
b.想要關(guān)掉命令行窗口的話可以直接點(diǎn)擊窗口右上角的叉,或者在命令行窗口里面輸入EXIT并回車就好了。常用命令有:Ipconfig,Ping,Tracert,Arp。
c.查詢DNS配置的主備正確性。
d.如有代理服務(wù)器,還要查詢代理服務(wù)器的配置正確性。
了解了以上信息,就如大腦里有了一張很清晰的網(wǎng)絡(luò)地圖,出現(xiàn)故障時(shí)可以很快做出應(yīng)急反應(yīng)。
4 網(wǎng)絡(luò)故障處理實(shí)例
4.1 網(wǎng)絡(luò)中斷排查
測(cè)試步驟一:
判斷中斷服務(wù)器是內(nèi)網(wǎng)還是外網(wǎng),如果你當(dāng)前訪問(wèn)的服務(wù)突然中斷,那么首先看看是內(nèi)網(wǎng)的服務(wù)還是外網(wǎng)的服務(wù)。然后再在內(nèi)網(wǎng)和外網(wǎng)分別自選一種服務(wù)嘗試訪問(wèn)一下。例如生產(chǎn)系統(tǒng)突然無(wú)法訪問(wèn)了,那就嘗試訪問(wèn)一下內(nèi)網(wǎng)的門戶系統(tǒng)和郵件系統(tǒng)和外網(wǎng)的一個(gè)知名網(wǎng)站。
(1)內(nèi)網(wǎng)服務(wù)的網(wǎng)絡(luò)關(guān)鍵節(jié)點(diǎn)如下所示:
a.終端計(jì)算機(jī)->網(wǎng)關(guān)->局域內(nèi)網(wǎng)邊界路由器 -> 骨干廣域網(wǎng)路由器 ->核心機(jī)房的服務(wù)器。
b.依賴的基礎(chǔ)服務(wù)為:內(nèi)網(wǎng)DNS服務(wù)器、AD服務(wù)器。
(2)外網(wǎng)服務(wù)的網(wǎng)絡(luò)關(guān)鍵節(jié)點(diǎn)如下所示:
a.終端計(jì)算機(jī)->網(wǎng)關(guān)->代理服務(wù)器->外網(wǎng)服務(wù)器;
b.依賴的基礎(chǔ)服務(wù)為:內(nèi)網(wǎng)DNS服務(wù)器,公網(wǎng)DNS服務(wù)器。
(3)做信息排查表(表2)分類排查故障信息。
測(cè)試步驟二:
判斷是軟件或硬件導(dǎo)致服務(wù)中斷。如果某個(gè)服務(wù)出現(xiàn)中斷,大致上的原因一般為網(wǎng)絡(luò)鏈路、網(wǎng)絡(luò)設(shè)備、服務(wù)器等硬件問(wèn)題或者服務(wù)器操作系統(tǒng)、應(yīng)用系統(tǒng)等軟件問(wèn)題??梢允褂肞ing這個(gè)操作系統(tǒng)自帶的命令行工具來(lái)對(duì)這兩種原因進(jìn)行區(qū)分。
a.判斷原則:Ping不通服務(wù)的IP地址屬于硬件故障,能Ping通則為軟件故障。
b.只是從自己的機(jī)器對(duì)網(wǎng)絡(luò)和服務(wù)做出判斷還是不夠客觀的,還需要更嚴(yán)謹(jǐn)?shù)恼撟C。前面已經(jīng)大致的推測(cè)出故障原因,在這一節(jié)嘗試對(duì)這個(gè)推測(cè)進(jìn)行證明。
c.判斷原則:可重復(fù)的結(jié)果才是基本可靠的結(jié)果。
網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
假設(shè)1:A用戶Ping不通甲服務(wù)器而B用戶可以。因?yàn)锳與B用戶訪問(wèn)甲服務(wù)器走過(guò)的是同樣的網(wǎng)絡(luò)路徑,都是經(jīng)過(guò)1和6兩臺(tái)路由器,所以問(wèn)題出在甲用戶的自身。
假設(shè)2:A用戶可以訪問(wèn)甲服務(wù)器而不能訪問(wèn)乙服務(wù)器,B用戶有同樣的故障現(xiàn)象。因?yàn)锳與B用戶訪問(wèn)甲、乙兩臺(tái)服務(wù)器走過(guò)的是同樣的網(wǎng)絡(luò)路徑,都是經(jīng)過(guò)1和6兩臺(tái)路由器,所以可以證明是乙服務(wù)器本身問(wèn)題或者是乙服務(wù)器到6路由器之間的鏈路問(wèn)題。
假設(shè)3:E用戶與F用戶不能訪問(wèn)任何一臺(tái)服務(wù)器,其他ABCD四個(gè)用戶沒(méi)問(wèn)題。因?yàn)镋、F用戶訪問(wèn)任何一臺(tái)服務(wù)器都要經(jīng)過(guò)3、5兩臺(tái)路由器,所以應(yīng)該是3、5兩臺(tái)路由器其中的一個(gè)或兩個(gè)有問(wèn)題,或者3到5之間的鏈路有問(wèn)題.
假設(shè)4:C用戶發(fā)現(xiàn)無(wú)法訪問(wèn)丁和丙服務(wù)器,詢問(wèn)后得知其他用戶故障現(xiàn)象相同。由于每個(gè)用戶訪問(wèn)丙丁服務(wù)器的路徑不同,所以大家都要經(jīng)過(guò)的路徑可疑性最大。從圖上來(lái)看大家都要經(jīng)過(guò)的節(jié)點(diǎn)是4路由器。
根據(jù)前面的排查,已經(jīng)可以基本的確定是不是服務(wù)器的問(wèn)題。如果是網(wǎng)絡(luò)的問(wèn)題,那么還要確定出斷點(diǎn)才行?,F(xiàn)在,要使用Ping和Tracert這兩條命令完成這項(xiàng)工作。 假如事前已經(jīng)對(duì)網(wǎng)絡(luò)的拓?fù)浜芰私?,并且知道一些關(guān)鍵節(jié)點(diǎn)的IP地址,那么只需要參考由近至遠(yuǎn)的原則逐個(gè)Ping這些IP地址就可以知道斷點(diǎn)的位置了??墒侨藗?nèi)粘RL問(wèn)的服務(wù)有很多,怎樣才能知道數(shù)據(jù)怎樣從自己的計(jì)算機(jī)流向某個(gè)服務(wù)器的呢?Tracert命令就是為了回答這個(gè)問(wèn)題的。只要Tracert某個(gè)域名或者IP地址,它就會(huì)把經(jīng)過(guò)的設(shè)備的IP地址按照先后順序顯示在屏幕上。如果從某一行開始就不再顯示IP地址,那么它的前一行的IP就是你嘗試訪問(wèn)的目標(biāo)所能到達(dá)的最后一臺(tái)設(shè)備的IP地址。建議在平時(shí)網(wǎng)絡(luò)正常的時(shí)候就Tracert一些經(jīng)常訪問(wèn)服務(wù)器的IP地址,記錄下來(lái)正確的步驟是怎樣的。等服務(wù)中斷時(shí)可以用來(lái)比較路由有沒(méi)有發(fā)生變化。
故障的原因永遠(yuǎn)是匪夷所思的。因此,需要專業(yè)的技能來(lái)做綜合的分析、全盤的考慮和一些專業(yè)的測(cè)試。服務(wù)中斷會(huì)給人們?cè)斐蓳p失,損失大小與中斷時(shí)間成正比。如果能有辦法以更短的時(shí)間排查故障,損失也會(huì)相應(yīng)減小。
下面簡(jiǎn)單介紹一下如何縮短排查時(shí)間。
4.2 經(jīng)常出現(xiàn)的故障原因優(yōu)先測(cè)試
(1)假設(shè)某網(wǎng)站今年已經(jīng)出現(xiàn)了4次服務(wù)中斷,其中3次是因?yàn)镈NS無(wú)法解析造成的。那么當(dāng)?shù)?次發(fā)生服務(wù)中斷時(shí),請(qǐng)優(yōu)先測(cè)試是不是DNS問(wèn)題。
(2)又假設(shè)上周剛剛發(fā)生一起因服務(wù)器某軟件進(jìn)程不穩(wěn)定導(dǎo)致的Web服務(wù)停止,今天又出現(xiàn)了很相似的故障現(xiàn)象,請(qǐng)優(yōu)先測(cè)試。
4.3 最近有變動(dòng)的部分優(yōu)先測(cè)試
如果午飯前改動(dòng)了一些程序代碼,下午就有終端用戶報(bào)告無(wú)法訪問(wèn)服務(wù),那么請(qǐng)優(yōu)先考慮變化對(duì)服務(wù)的影響。
4.4 二分法
假設(shè)從你的計(jì)算機(jī)到服務(wù)器之間途徑10個(gè)網(wǎng)絡(luò)關(guān)鍵節(jié)點(diǎn),很不巧第7個(gè)節(jié)點(diǎn)出了問(wèn)題。如果從第一個(gè)節(jié)點(diǎn)開始Ping的話,需要Ping7次才能確定故障點(diǎn)。如果采用二分法,第一次Ping目標(biāo)服務(wù)器,第二次Ping第5個(gè)節(jié)點(diǎn),第三次Ping第7個(gè)節(jié)點(diǎn),第四次Ping第6個(gè)節(jié)點(diǎn),大約需要4次就可以確定故障點(diǎn)。二分法用于測(cè)試步驟很多的情況下速度優(yōu)勢(shì)比較明顯。
5 結(jié) 語(yǔ)
網(wǎng)絡(luò)故障發(fā)生是在所難免的,企業(yè)網(wǎng)的運(yùn)行維護(hù)需要網(wǎng)絡(luò)管理員堅(jiān)實(shí)的技術(shù)來(lái)支撐。提高網(wǎng)絡(luò)安全平衡的運(yùn)行,需要網(wǎng)管人員注意以下幾個(gè)問(wèn)題:認(rèn)真學(xué)習(xí)有關(guān)網(wǎng)絡(luò)技術(shù)理論,掌握網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì),包括網(wǎng)絡(luò)架構(gòu),網(wǎng)絡(luò)拓?fù)洌溌方涌?,系統(tǒng)配置參數(shù)及軟件知識(shí),收集網(wǎng)絡(luò)運(yùn)行各項(xiàng)參數(shù)和數(shù)據(jù)報(bào)告,熟悉常用診斷工具及命令,準(zhǔn)確描述故障現(xiàn)象。
主要參考文獻(xiàn)
[1]杭州華工通信技術(shù)有限公司.新一代網(wǎng)絡(luò)建設(shè)理論與實(shí)踐[M].北京:電子工業(yè)出版社,2012.
[2]劉希儉.企業(yè)信息化管理實(shí)務(wù)[M].北京:石油工業(yè)出版社,2013.
[3]羅昶,黎連業(yè),潘朝陽(yáng),等.計(jì)算機(jī)網(wǎng)絡(luò)故障診斷與排除[M].北京:清華大學(xué)出版社,2007.