引言:在企業(yè)日常的應(yīng)用中,網(wǎng)絡(luò)管理人員往往會(huì)忽略POE與非POE交換機(jī)的區(qū)別,經(jīng)常將一些不支持POE供電的設(shè)備接入POE交換機(jī)。盡管大部分的網(wǎng)絡(luò)設(shè)備能夠承受微弱的電壓變化,但是仍然有少數(shù)的設(shè)備,特別是一些老舊型號(hào)的設(shè)備對(duì)于電壓穩(wěn)定性的要求特別高,如果沒(méi)有手動(dòng)關(guān)閉POE交換機(jī)對(duì)應(yīng)端口的供電功能,將會(huì)對(duì)設(shè)備的穩(wěn)定運(yùn)行帶來(lái)影響。本文將介紹一起由POE供電引發(fā)的故障及排查方法。
PoE(Power Over Ethernet)供電俗稱以太網(wǎng)供電,是指在現(xiàn)有的以太網(wǎng)布線基礎(chǔ)架構(gòu)不做任何改動(dòng)的情況下,在為一些基于IP的終端傳輸信號(hào)的同時(shí),還能為此類設(shè)備提供直流供電的技術(shù)。POE供電已成為利用以太網(wǎng)同時(shí)傳送數(shù)據(jù)和電功率的最新標(biāo)準(zhǔn)規(guī)范,并保持了與現(xiàn)存以太網(wǎng)系統(tǒng)和用戶的兼容性。
隨著IP電話、無(wú)線AP、網(wǎng)絡(luò)監(jiān)控等設(shè)備被大量引入,POE供電由于具備技術(shù)成熟、維護(hù)簡(jiǎn)單、布線方便等優(yōu)點(diǎn)得到了廣泛應(yīng)用,給企業(yè)信息化建設(shè)帶來(lái)了極大便利。但是不久前,筆者所在單位發(fā)生了一起網(wǎng)絡(luò)故障,最終排查出的故障原因正是由于POE供電不當(dāng)所引起。下面將對(duì)該故障及排查過(guò)程進(jìn)行詳細(xì)介紹。
圖1 改造后的Internet出口拓?fù)鋱D
不久前,筆者所在單位進(jìn)行網(wǎng)絡(luò)改造,目的是對(duì)Internet出口架構(gòu)進(jìn)行優(yōu)化,加強(qiáng)Internet線路保障水平。主要工作是在原有的聯(lián)通Internet線路之外,額外引入一條移動(dòng)的Internet線路作為備用線路。同時(shí),更新出口互聯(lián)交換機(jī)以及撤除老式防毒墻(原互聯(lián)交換機(jī)及防毒墻已使用6年,嚴(yán)重老化)。經(jīng)過(guò)前期準(zhǔn)備及緊張的調(diào)試后,網(wǎng)絡(luò)改造工作順利完成,經(jīng)過(guò)測(cè)試,Internet出口功能和性能都達(dá)到了預(yù)期,改造后的出口拓?fù)淙缦聢D1所示。
正當(dāng)大家還沉浸在改造成功的喜悅中,問(wèn)題出現(xiàn)了:改造后第二天上午9:30左右,聯(lián)通線路突然中斷,筆者趕緊利用traceroute命令進(jìn)行排查,發(fā)現(xiàn)內(nèi)網(wǎng)路由均正常,但是從單位防火墻到運(yùn)營(yíng)商局端設(shè)備間數(shù)據(jù)不能正常跳轉(zhuǎn),說(shuō)明問(wèn)題應(yīng)該出現(xiàn)在防火墻或者局端。登錄防火墻檢查狀態(tài),發(fā)現(xiàn)CPU利用率、內(nèi)存、并發(fā)連接數(shù)等關(guān)鍵指標(biāo)均正常,但是使用Ping命令去測(cè)試聯(lián)通線路局端網(wǎng)關(guān),卻無(wú)法Ping通;而Ping移動(dòng)線路局端網(wǎng)關(guān),卻能夠正常Ping通,這樣就排除了防火墻的問(wèn)題,證明故障肯定出現(xiàn)在防火墻之外的局端。
接著檢查了光貓的狀態(tài),發(fā)現(xiàn)TX(發(fā)送)口和RX(接收)口指示燈時(shí)斷時(shí)續(xù),這與正常時(shí)的狀態(tài)不一致,說(shuō)明光貓收發(fā)數(shù)據(jù)不正常。重啟光貓,線路立即恢復(fù)了正常。但是到11:00左右,線路又一次中斷,現(xiàn)象與之前一模一樣,但是這次故障時(shí)間很短,大概只持續(xù)了1分多鐘,筆者還沒(méi)來(lái)得及做任何操作,線路已經(jīng)自行恢復(fù)正常了。
從故障現(xiàn)象初步分析,聯(lián)通線路中斷的根源很可能是光貓,那么更換光貓后故障應(yīng)該可以解決。于是聯(lián)系聯(lián)通客服人員,要求更換光貓。下午5:30下班后,聯(lián)通人員到達(dá)現(xiàn)場(chǎng),更換了光貓,測(cè)試亦未發(fā)現(xiàn)任何異常。
第三天早上8:10左右,聯(lián)通線路再次閃斷2分鐘,由此看來(lái),故障并不是由光貓自身導(dǎo)致的。在排除線路、設(shè)備等硬件故障后,筆者考慮到了電流、電壓的問(wèn)題。但是經(jīng)過(guò)儀器實(shí)際檢測(cè),機(jī)房電源、UPS設(shè)備以及插線板的電壓都非常穩(wěn)定,而且機(jī)房其他設(shè)備也沒(méi)有出現(xiàn)類似問(wèn)題,所以能夠排除機(jī)房電源的問(wèn)題。
為了盡快解決這個(gè)問(wèn)題,我們采用了“最近變更回退”的方法進(jìn)行排查。由于這次故障是在進(jìn)行網(wǎng)絡(luò)改造后出現(xiàn)的,必須分析這次改造所涉及的變更操作,并與改造前的正常狀態(tài)進(jìn)行對(duì)比,必要時(shí)進(jìn)行回退操作。主要變更操作有如下三項(xiàng):
1.防火墻上新接入一條移動(dòng)Internet線路,設(shè)置了若干條源地址路由,供部分服務(wù)器使用。
2.撤掉了位于防火墻和運(yùn)營(yíng)商局端的一臺(tái)老式防毒墻,該防毒墻一直以透明網(wǎng)橋的模式接入。
3. 更新升級(jí)了互聯(lián)交換機(jī)。由原來(lái)的思科2960百兆交換機(jī)更換為思科3560千兆交換機(jī)。
下面就按照上述三條變更操作逐步進(jìn)行分析。
1.該操作主要是進(jìn)行了路由變更,屬于“軟變更”。通過(guò)仔細(xì)核對(duì)防火墻配置文件,發(fā)現(xiàn)并無(wú)問(wèn)題,而且故障現(xiàn)象是線路時(shí)斷時(shí)續(xù),如果屬于路由設(shè)置錯(cuò)誤,一般不會(huì)出現(xiàn)如此現(xiàn)象,所以能夠排除該變更的可能性。
2.該項(xiàng)操作屬于“硬變更”,由于防毒墻屬于透明網(wǎng)橋接入,所以撤掉防毒墻的操作并不會(huì)影響網(wǎng)絡(luò)的運(yùn)行,反而能夠減少一個(gè)故障點(diǎn),所以也能夠排除可能性。
3.該項(xiàng)操作屬于“硬變更”,前期通過(guò)檢測(cè),新更換的思科3560交換機(jī)運(yùn)行狀態(tài)正常,能夠排除交換機(jī)硬件損壞的可能性。由于交換機(jī)上采用的是默認(rèn)配置,所以不會(huì)出現(xiàn)由于人為配置錯(cuò)誤而導(dǎo)致網(wǎng)絡(luò)故障的可能。但是由于新舊交換機(jī)型號(hào)和IOS內(nèi)核版本并不一致,所以不能完全排除交換機(jī)自身的原因。
為了確定交換機(jī)是否為故障源頭,筆者將原來(lái)的2960交換機(jī)重新上線,替換下3560交換機(jī)。經(jīng)過(guò)兩天的測(cè)試,聯(lián)通線路沒(méi)有出現(xiàn)任何故障,由此看來(lái),故障源頭已經(jīng)確定為交換機(jī),原因肯定是新舊交換機(jī)的邏輯屬性不一致,從而引發(fā)與之互聯(lián)的光貓狀態(tài)異常。
筆者仔細(xì)對(duì)兩款交換機(jī)的邏輯屬性進(jìn)行了對(duì)比,有如下兩點(diǎn)屬性不同:第一,2960交換機(jī)都是百兆端口,而3560交換機(jī)都是千兆端口。第二,2960交換機(jī)不支持POE端口供電,而3560交換機(jī)支持POE端口供電。
光貓的以太網(wǎng)接口為百兆全雙工模式,而3560交換機(jī)為千兆接口,盡管當(dāng)前絕大多數(shù)網(wǎng)絡(luò)設(shè)備均支持端口速率自適應(yīng),但是還是存在端口速率不匹配的可能性。通過(guò)Console口登錄3560交換機(jī),進(jìn)入接口模式,輸入“speed 100”和“duplex full”兩條命令,將對(duì)應(yīng)接口強(qiáng)制指定為百兆全雙工模式。改完后測(cè)試兩天,線路仍然頻繁出現(xiàn)閃斷現(xiàn)象,所以排除了端口速率不匹配的因素。
POE供電系統(tǒng)是由供電端設(shè)備(PSE, Power Sourcing Equipment)和受電端設(shè)備(PD, Powered Device)兩部分組成;其供電流程如下所示:
1.檢測(cè):一開(kāi)始,POE設(shè)備在端口輸出很小的電壓,直到其檢測(cè)到線纜終端的連接為一個(gè)支持IEEE 802.3af標(biāo)準(zhǔn)的受電端設(shè)備。
2.PD端設(shè)備分類:當(dāng)檢測(cè)到受電端設(shè)備PD之后,POE設(shè)備可能會(huì)為PD設(shè)備進(jìn)行分類,并且評(píng)估此PD設(shè)備所需的功率損耗。
3.開(kāi)始供電:在一個(gè)可配置時(shí)間(一般小于15μs)的啟動(dòng)期內(nèi),PSE設(shè)備開(kāi)始從低電壓向PD設(shè)備供電,直至提供48V的直流電源。
4.為PD設(shè)備提供穩(wěn)定可靠的48V直流電,滿足PD設(shè)備不高于 15.4W的功耗。
5.若PD設(shè)備從網(wǎng)絡(luò)上斷開(kāi)時(shí),PSE就會(huì)快速地(一般在300~400ms之內(nèi))停止為PD設(shè)備供電,并重復(fù)檢測(cè)過(guò)程以檢測(cè)線纜的終端是否連接PD設(shè)備。
從上述流程中可以看出,3560交換機(jī)承擔(dān)PSE角色,光貓成為PD角色;在PSE檢測(cè)階段,3560交換機(jī)會(huì)持續(xù)向光貓輸出極小的電壓,而由于光貓是利用外接電源供電,不支持POE供電,所以這個(gè)檢測(cè)電壓可能會(huì)對(duì)光貓的工作電壓帶來(lái)一定沖擊,如果光貓對(duì)工作電壓的穩(wěn)定性要求很高,那么檢測(cè)電壓很可能會(huì)造成光貓運(yùn)行異常。
為驗(yàn)證結(jié)果,筆者登錄3560交換機(jī),在接口配置模式 下,輸 入“power inline never”命令,強(qiáng)制關(guān)閉對(duì)應(yīng)接口的POE供電功能。后經(jīng)過(guò)測(cè)試觀察,聯(lián)通線路再?zèng)]有出現(xiàn)異常。
這起故障發(fā)生的原因值得深思,網(wǎng)絡(luò)管理人員經(jīng)常會(huì)忽視網(wǎng)絡(luò)設(shè)備的電壓、電流等物理參數(shù),殊不知這些參數(shù)是設(shè)備正常運(yùn)行最重要的條件。盡管POE供電的測(cè)試電壓極小,一般不會(huì)對(duì)設(shè)備產(chǎn)生影響,但是為了防微杜漸,在實(shí)際工作中最好將POE和非POE設(shè)備區(qū)分開(kāi),以免造成難以排查的故障隱患。