■
前一段時間,單位將“服役”近十年的思科4506交換機(jī)替換為華三的S7502E交換機(jī),但是在替換后,出現(xiàn)了部分處室無法上網(wǎng)的問題,經(jīng)排查,定位故障的直接原因為VTP協(xié)議的裁剪功能導(dǎo)致某個VLAN的數(shù)據(jù)報文無法正常轉(zhuǎn)發(fā)。之所以裁剪功能生效,是因為華三的S7502E交換機(jī)不支持思科私有的VTP協(xié)議。下面就將對整個故障的定位及排除過程進(jìn)行詳細(xì)介紹。
單位網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,三個樓層機(jī)房中的三個思科2960接入交換機(jī)通過中繼線直接連接到中心機(jī)房的核心交換機(jī)(此次割接替換的設(shè)備),經(jīng)過核心交換機(jī)上聯(lián)的出口連接互聯(lián)網(wǎng)(這里省略了上聯(lián)的出口路由器及相應(yīng)的安全設(shè)備),另外有的樓層由于一臺交換機(jī)的接入接口數(shù)不夠,還下掛了一臺思科2960交換機(jī),各交換機(jī)之間通過中繼線連接,中繼線配置為允許所有的VLAN通過。各樓層用戶直接連接到相應(yīng)樓層的接入交換機(jī)上,不同的處室通過劃分不同的VLAN進(jìn)行邏輯上的隔離以防止廣播風(fēng)暴。
圖1 網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)圖
在華三S7502E交換機(jī)替換掉思科4506交換機(jī)之后,在有的樓層出現(xiàn)一定數(shù)量用戶無法上網(wǎng)的情況,而且問題用戶都是來自于同一處室。
1.通過對各問題用戶進(jìn)行分析,我們注意到,無法上網(wǎng)的用戶都是以處室為單位出現(xiàn)故障,即他們是處于同一個VLAN中;樓層的思科交換機(jī)VLAN是通過思科的私有VTP協(xié)議進(jìn)行配置的,目前所有樓層思科2960都是配置成Client模式,之前替換的思科4506設(shè)備配置的是VTP的Server模式。于是,我們首先將圖1中思科2960-B1設(shè)備修改為Server模式,使各樓層的VLAN能夠保持一致。完成配置后,故障并未消失,這個情況也在意料之內(nèi),于是進(jìn)一步進(jìn)行分析。
2.基于以上的分析結(jié)論,懷疑是因為相應(yīng)的VLAN數(shù)據(jù)報文無法進(jìn)行轉(zhuǎn)發(fā)導(dǎo)致,于是對所有中繼線上的VLAN報文透傳情況進(jìn)行查詢。查看發(fā)現(xiàn),思科2960-A1和思科2960-A2之間的中繼線允許VLAN17通過,而思科2960-A1上聯(lián)華三S7502E的中繼線并未允許VLAN17的報文通過,VLAN17即下掛在思科2960-A2下出問題的處室所處的VLAN。另外,思科2960-B1和思科2960-B2之間的中繼線允許通過VLAN25通過,但是思科2960-B1上聯(lián)華三S7502E的中繼線并未允許VLAN25的報文通過,VLAN25即下掛在思科2960-B2下出問題的處室所處的VLAN。
3.分析至此,我們有兩個疑問:第一,為什么我們配置的是允許所有VLAN數(shù)據(jù)報文都能從中繼線通過,但是特定兩個VLAN未能得到允許?第二,我們已經(jīng)對照過華三S7502E和思科4506的配置,并未發(fā)現(xiàn)有配置缺失,為什么替換之前沒有問題呢?
4.根據(jù)比較替換設(shè)備前后的配置及網(wǎng)絡(luò)環(huán)境差異,我們基本可以將問題集中在思科的私有VTP協(xié)議上,于是對接入交換機(jī)上所有設(shè)備的VTP狀態(tài)進(jìn)行了查詢,發(fā)現(xiàn)所有思科設(shè)備上的VTP裁剪功能都是打開的。VTP裁剪是為了避免不必要的泛洪數(shù)據(jù)流,而選擇性地對個別VLAN數(shù)據(jù)報文不進(jìn)行轉(zhuǎn)發(fā),選擇的依據(jù)為接收端交換機(jī)是否存在活躍的相應(yīng)VLAN的端口。
5.我們推測,VLAN17和VLAN25的數(shù)據(jù)報文很有可能就是被裁剪掉了,基于需要快速恢復(fù)業(yè)務(wù)的原則,先將所有思科交換機(jī)上的VTP裁剪功能進(jìn)行關(guān)閉,觀察業(yè)務(wù)是否恢復(fù),之后再進(jìn)一步的分析。
VTP裁剪功能關(guān)閉之后,VLAN17和VLAN25中的業(yè)務(wù)恢復(fù)正常,通過網(wǎng)管軟件查看各樓層用戶情況,確認(rèn)所有的樓層用戶業(yè)務(wù)也都正常,至此問題全部解決。
業(yè)務(wù)已經(jīng)全部恢復(fù),但是為了確保不再出現(xiàn)類似的問題,還需要將問題根源做進(jìn)一步的分析。
我們已經(jīng)能夠基本確定,故障的原因來自VTP協(xié)議的裁剪功能,但是尚未解決為什么替換之前思科4506在線時不存在此問題的疑問。經(jīng)過查看配置發(fā)現(xiàn),在核心交換機(jī)上存在接口VLAN17和VLAN25的配置,但是在其他樓層的交換機(jī)上并未配置VLAN17和VLAN25接 口。結(jié)合VTP裁剪功能的描述,問題的根源就浮出水面了。
當(dāng)思科4506在線時,由于思科4506上存在接口VLAN17和VLAN25,所以思科2960-A1與思科2960-B1上聯(lián)的中繼線能夠轉(zhuǎn)發(fā)相應(yīng)VLAN的數(shù)據(jù)報文,但是當(dāng)思科4506替換為華三S7502E之后,因為華三S7502E并不支持VTP協(xié)議,所以思科2960-A1認(rèn)為它的接收端并不存在接入VLAN17的設(shè)備(這個信息需要從VTP報文中獲?。?,于是將VLAN17從中繼線上進(jìn)行了裁剪。同理,思科2960-B1也將VLAN25進(jìn)行了裁剪,從而導(dǎo)致了VLAN17和VLAN25中用戶無法上網(wǎng)的問題。
VTP協(xié)議的裁剪功能是默認(rèn)關(guān)閉的,建議只有在泛洪流量占用資源特別嚴(yán)重的情況下開啟,否則,在對思科設(shè)備進(jìn)行替換的操作中,就很有可能出現(xiàn)不希望的裁剪動作。
VTP協(xié)議屬于思科的私有協(xié)議,由于在早些年,大家使用的設(shè)備大多數(shù)都是思科的設(shè)備,所以在整個網(wǎng)絡(luò)中的互聯(lián)互通不存在問題。隨著近些年國內(nèi)設(shè)備廠商的崛起,越來越多的企業(yè)選擇華三、華為等設(shè)備廠商的產(chǎn)品,這樣就可能出現(xiàn)在產(chǎn)品替換過程中一些兼容性問題。
所以,在進(jìn)行不同廠商產(chǎn)品替換的時候,建議最好在替換前搭建模擬環(huán)境進(jìn)行互通性測試,以防止在真正的割接中出現(xiàn)問題,導(dǎo)致業(yè)務(wù)中斷。另外,在替換設(shè)備的割接操作中,如果出現(xiàn)了問題,應(yīng)該嘗試從不同廠商功能實現(xiàn)的差異性方面去分析問題。