張士華
摘要:租線是政企客戶常用的業(yè)務(wù),用來各個(gè)分支機(jī)構(gòu)傳送內(nèi)部數(shù)據(jù)。在新開和后期運(yùn)行中均有可能導(dǎo)致丟包,丟包會(huì)導(dǎo)致傳送效率降低,直接影響用戶使用感知,從而引起客戶投訴甚至離網(wǎng)。作為智網(wǎng)工程師,必須掌握租線丟包常見的原因,在建設(shè)過程中就要做好防控,在后期運(yùn)營(yíng)中出現(xiàn)投訴,要掌握快速排查的方法,從而做到極速極致,提升客戶滿意度。
關(guān)鍵詞:丟包;雙工模式;租線
隨著政企客戶對(duì)網(wǎng)絡(luò)品質(zhì)要求越來越高,特別是些金融的客戶對(duì)網(wǎng)絡(luò)時(shí)延、丟包等要求非??量?,租線中丟包率必須是0。但是由于各種原因,運(yùn)營(yíng)商的租線中經(jīng)常出現(xiàn)丟包問題,從而引發(fā)客戶不滿。有些丟包故障,處理時(shí)長(zhǎng)長(zhǎng),直接引發(fā)客戶離網(wǎng)。所以作為運(yùn)營(yíng)商維護(hù)人員,必須對(duì)租線丟包的原因深入了解,并且掌握快速的定位方法,從而為客戶提供高效的服務(wù)。
一、丟包定義
丟包可以用Ping進(jìn)行檢測(cè),Ping使用了ICMP協(xié)議(Internet Control Message Protocol)回送請(qǐng)求(Echo request)與回送回答報(bào)文(Echo reply)。源主機(jī)向目的主機(jī)發(fā)出Echo request 后,收到此報(bào)文的目的主機(jī)必須給源主機(jī)發(fā)送Echo reply。丟包率 =(Echo request - Echo reply)/Echo request*100%。
比如下圖中的測(cè)試結(jié)果:
丟包率=(10-4)/10*100%=60%
二、租線丟包成因分析
1.雙工模式不一致
當(dāng)兩個(gè)互聯(lián)的端口一邊是半雙工、一邊是全雙工,就會(huì)導(dǎo)致丟包。由于半雙工是收發(fā)不能同時(shí)進(jìn)行,當(dāng)半雙工一方發(fā)送數(shù)據(jù)時(shí)候,必須將接收器關(guān)閉,如果此時(shí)對(duì)方正在發(fā)送數(shù)據(jù)就會(huì)產(chǎn)生丟包。
產(chǎn)生雙工模式不一致的原因是由于端口協(xié)商導(dǎo)致。802.3標(biāo)準(zhǔn)中定義自動(dòng)協(xié)商功能:允許一個(gè)設(shè)備向遠(yuǎn)端設(shè)備通告自己運(yùn)行的工作方式,并偵測(cè)遠(yuǎn)端通告的相應(yīng)運(yùn)行方式。雙方通過“討論”選擇最佳工作方式。電口自協(xié)商是通過快速連接脈沖(Fast Link Pulse)的信號(hào)實(shí)現(xiàn)的,在FLP中有支持的速率能力、雙工能力、流控能力等,雙方通過FLP來交換數(shù)據(jù),適配出最優(yōu)的速率、最優(yōu)雙工能力和是否支持流控等。對(duì)端不支持自協(xié)商的情況下采用并行檢測(cè)機(jī)制。10M設(shè)備在鏈路上發(fā)送普通連接脈沖(Normal Link Pulse)。100M設(shè)備在鏈路上發(fā)送4B/5B編碼的Idle符號(hào)。NLP和Idle中不攜帶雙工能力、流控幀,自動(dòng)協(xié)商一方就會(huì)認(rèn)為對(duì)方不支持雙工和流控,將自己端口置為半雙工。所以兩個(gè)互聯(lián)的端口雙工模式不一致一般出現(xiàn)在一方是自動(dòng)協(xié)商,另外一方是強(qiáng)制模式。但是當(dāng)千兆電口對(duì)接時(shí)候,如果一端配置成強(qiáng)制千兆全雙工模式,一端配置為自動(dòng)協(xié)商,那么協(xié)商結(jié)果很可能是千兆全雙工模式。是因?yàn)檫@里的強(qiáng)制模式是假象,實(shí)際上端口依然工作在自協(xié)商模式,只是取消了千兆全雙工以外的能力。兩個(gè)千兆電口對(duì)接時(shí),一端要工作在master模式,另一端則工作在slave模式。Slave一端不使用自己的時(shí)鐘,而是從接收到的信號(hào)中恢復(fù)時(shí)鐘,自己發(fā)送信號(hào)時(shí)就使用恢復(fù)出來的時(shí)鐘。這樣,可以有效保證雙方的同步。但是,誰當(dāng)master,誰又當(dāng)slave呢?這就要通過自協(xié)商功能做出裁決。正是因?yàn)檫@個(gè)原因,IEEE 802.3ab-1999標(biāo)準(zhǔn)規(guī)定,自協(xié)商功能是1000BASE-T以太網(wǎng)的必選項(xiàng)。
2.網(wǎng)絡(luò)擁塞導(dǎo)致丟包
客戶電路帶寬擁塞或者網(wǎng)絡(luò)異常如環(huán)路等,出現(xiàn)突增的異常流量會(huì)導(dǎo)致PING包被丟棄,從而產(chǎn)生丟包。帶寬利用率可以在網(wǎng)管上查看,日常主動(dòng)監(jiān)控、提前預(yù)警。同時(shí)將服務(wù)衍生到客戶內(nèi)網(wǎng),按照客戶等級(jí)定期對(duì)客戶內(nèi)網(wǎng)進(jìn)行免費(fèi)評(píng)測(cè),如利用wireshark軟件檢測(cè)環(huán)路。高價(jià)值客戶可以提供增值服務(wù),部署第三方的內(nèi)網(wǎng)監(jiān)控,細(xì)化到NetFllow分析。
3.硬件出現(xiàn)故障
硬件故障可能是網(wǎng)線、光纖、網(wǎng)卡、光模塊和外圍環(huán)境導(dǎo)致,達(dá)不到中斷,但是影響數(shù)據(jù)傳送。設(shè)備安裝符合規(guī)范,如接地等。機(jī)房環(huán)境符合要求,如溫濕度。為了防止自然老化,主動(dòng)進(jìn)行老舊設(shè)備改造。 定期巡檢和設(shè)備診斷,及時(shí)發(fā)現(xiàn)隱患。網(wǎng)管性能數(shù)據(jù)定期查看,如光口光功率,特別關(guān)注端口CRC錯(cuò)報(bào)。
4. 網(wǎng)絡(luò)參數(shù)設(shè)置
網(wǎng)絡(luò)參數(shù)包括MTU設(shè)置、MPLS-VPN電路中的QOS設(shè)置和時(shí)鐘設(shè)置等。MTU在線路新建時(shí)候進(jìn)行核對(duì),總體原則是雙方保持一致。MPLS-VPN的QOS在售前方案時(shí)候需要與客戶對(duì)內(nèi)網(wǎng)應(yīng)用進(jìn)行合理規(guī)劃,確保白金等級(jí)的流量不能溢出。? ? 路由器的CPOS接口與SDH設(shè)備相連時(shí),SDH網(wǎng)絡(luò)的時(shí)鐘精度高于CPOS本身內(nèi)部時(shí)鐘源的精度,路由器使用從時(shí)鐘模式。
三、租線丟包排查方法
1.先網(wǎng)管后測(cè)試
當(dāng)遇到丟包故障時(shí)候,先在網(wǎng)管核查各個(gè)網(wǎng)元指標(biāo)、核對(duì)參數(shù)配置,再進(jìn)行測(cè)試。很多故障在網(wǎng)管上就能查看異常,如端口的CRC告警,帶寬擁塞等。無需去現(xiàn)場(chǎng)測(cè)試,從而提高工作效率。
2.先網(wǎng)內(nèi)后網(wǎng)外
先確保運(yùn)營(yíng)商網(wǎng)絡(luò)正常,再與客戶內(nèi)網(wǎng)聯(lián)調(diào)。接到客戶報(bào)障的時(shí)候兩端先在運(yùn)營(yíng)商的設(shè)備上進(jìn)行測(cè)試,確保運(yùn)營(yíng)網(wǎng)內(nèi)正常后再排查客戶的內(nèi)網(wǎng)。而且一定要在客戶內(nèi)網(wǎng)進(jìn)行端到端測(cè)試,因?yàn)檫\(yùn)營(yíng)商的線路最終是交付給客戶使用。
3. 先本地后對(duì)端
在排查運(yùn)營(yíng)商網(wǎng)內(nèi)問題時(shí)候由近到遠(yuǎn)的測(cè)試,先確保本地正常,再協(xié)調(diào)對(duì)端測(cè)試。特別涉及國(guó)際租線,溝通成本高。為了提高溝通效率,先通過分段環(huán)回排查本地、省內(nèi)、國(guó)內(nèi)線路正常,再與對(duì)端進(jìn)行聯(lián)調(diào)。
4. 先儀表后電腦
先掛表進(jìn)行專業(yè)測(cè)試,掛表正常后再下掛電腦測(cè)試。因?yàn)閮x表有專業(yè)的測(cè)試參數(shù),如以太網(wǎng)表可以同時(shí)進(jìn)行大小包、打流量、抖動(dòng)等功能。
5. 先輕載后重載
ping測(cè)先小包,后大包。先空閑測(cè)試,再滿載測(cè)試。因?yàn)榭蛰d不丟包或者丟包很少,如果重載網(wǎng)絡(luò)里面丟包,基本是網(wǎng)絡(luò)中某兩個(gè)互聯(lián)的端口出現(xiàn)了雙工模式不一致導(dǎo)致,從而減少故障的定位時(shí)長(zhǎng)。
四、典型案例
某客戶MV專線東莞至惠陽、東莞至深圳、惠陽至深圳均出現(xiàn)不同程度的丟包,丟包時(shí)間點(diǎn)無規(guī)律,丟包嚴(yán)重時(shí)候達(dá)到10%丟包率,嚴(yán)重影響日常生產(chǎn)。
1.測(cè)試工具:使用PingPlotter ping測(cè)整個(gè)網(wǎng)絡(luò),進(jìn)行7*24小時(shí)ping包測(cè)試,找到準(zhǔn)確的丟包時(shí)間點(diǎn)和丟包段落。
2.網(wǎng)管檢查:三地PE上流量有過載,與丟包時(shí)間點(diǎn)吻合。白金流量存在丟棄,客戶內(nèi)網(wǎng)規(guī)劃混亂,協(xié)助客戶做好內(nèi)網(wǎng)規(guī)劃,將生產(chǎn)流量納入白金,暫時(shí)解決生產(chǎn)線路丟包。
3.分段測(cè)試:分別在各地的PE與CE之間進(jìn)行測(cè)試,發(fā)現(xiàn)深圳PE與CE之間丟包嚴(yán)重,深圳接入機(jī)房空調(diào)故障,更換后丟包率下降到1%,后發(fā)現(xiàn)深圳的CE對(duì)ICMP有限制,取消后不丟包。
4.流量分析:后期客戶仍然反饋丟包,但是均是流量擁塞導(dǎo)致。內(nèi)網(wǎng)部署探針,通過NetFlow流分析發(fā)現(xiàn)客戶高層的筆記本存在定期備份導(dǎo)致流量突增。
結(jié)語
運(yùn)營(yíng)商提供給用戶的租線由接入層、匯聚層和核心層組成,物理距離從幾十公里到幾千公里不等。網(wǎng)絡(luò)中任何一個(gè)細(xì)小的環(huán)節(jié)出現(xiàn)問題均由可能出現(xiàn)丟包。作為運(yùn)營(yíng)商維護(hù)人員必須深知丟包產(chǎn)生的原因,遇到丟包問題排查的時(shí)候必須有章可循,才能高效的響應(yīng)客戶,快速解決丟包故障。
參考文獻(xiàn)
[1] 張強(qiáng). 淺析計(jì)算機(jī)網(wǎng)絡(luò)數(shù)據(jù)丟包問題及應(yīng)對(duì)方法[J].中文科技期刊數(shù)據(jù)庫(kù)(全文版)工程技術(shù)2017年04月(16):300-300.
[2] 賀濤.淺談“網(wǎng)絡(luò)丟包”[J].科技傳播,2010年4月(01):49-50.
[3] 劉欣榮.計(jì)算機(jī)網(wǎng)絡(luò)內(nèi)部丟包節(jié)點(diǎn)檢測(cè)仿真研究[J].計(jì)算機(jī)仿真,2018(035),001:353-356.