屈斌
(河北移動(dòng)公司,河北 石家莊 050021)
運(yùn)營(yíng)商傳輸網(wǎng)目前以SDHPTNOTN承載為主,三種傳輸網(wǎng)絡(luò)要完成的工作基本相同,但工作原理有很大差異。SDH屬于硬管道,業(yè)務(wù)一經(jīng)分配和配置,通道獨(dú)享,通過(guò)幀開(kāi)銷中的固定字節(jié)和比特來(lái)計(jì)算和監(jiān)測(cè)不同斷層的信號(hào)傳輸質(zhì)量并反饋,能夠提前發(fā)起預(yù)警;PTN屬于柔性通道,帶寬共享,通過(guò)在信號(hào)封裝解封裝的固定位置解析監(jiān)測(cè)傳輸?shù)男盘?hào)包的質(zhì)量,以監(jiān)控和發(fā)現(xiàn)誤碼;OTN網(wǎng)絡(luò)類似硬管道,也是通過(guò)不同的開(kāi)銷比特來(lái)計(jì)算和監(jiān)測(cè)不同的斷層信號(hào)質(zhì)量[1]。
在熟悉和了解了傳輸網(wǎng)絡(luò)的誤碼監(jiān)控機(jī)理后,再深入學(xué)習(xí)各維護(hù)手冊(cè)上對(duì)于誤碼處理的措施和方法,應(yīng)用到日常維護(hù)中,不斷的進(jìn)行適應(yīng)和更新,形成一套切實(shí)可行并可落地執(zhí)行的誤碼監(jiān)控、分析、處理的方法,在網(wǎng)絡(luò)運(yùn)維中,由于傳輸網(wǎng)的組網(wǎng)復(fù)雜性,同時(shí)各廠家、各平面對(duì)于誤碼的監(jiān)控監(jiān)測(cè)、告警名稱有些不同,維護(hù)工程師對(duì)于此類誤碼故障的處理比較困難,相信采用此種方法和措施后,將會(huì)對(duì)網(wǎng)絡(luò)工程師處理誤碼類故障起到較好的技術(shù)指導(dǎo)和幫助作用。
針對(duì)當(dāng)前傳輸網(wǎng)誤碼類告警、性能事件較多,對(duì)承載的業(yè)務(wù)造成了一定影響,為分析誤碼類告警的產(chǎn)生原理,不同的誤碼類型對(duì)業(yè)務(wù)造成的不同影響,并進(jìn)行有效地預(yù)防和整治優(yōu)化,特提出本研究課題。
(1)SDH誤碼產(chǎn)生原理。誤碼是指經(jīng)光接收機(jī)的接收與判決再生之后,碼流中的某些比特發(fā)生了差錯(cuò)。SDH系統(tǒng)幀結(jié)構(gòu)中,開(kāi)銷字節(jié)B1、B2、B3、V5分別用于監(jiān)視再生段、復(fù)用段、高階通道和低階通道的誤碼。誤碼監(jiān)視采用比特間插奇偶校驗(yàn)方式(BIP)的偶校驗(yàn)。比特間插奇偶(BIP)校驗(yàn)是一種監(jiān)視傳輸質(zhì)量的方法。其原理是:發(fā)送端將附加的奇偶信息插入發(fā)送信號(hào)中,接收端對(duì)同一奇偶性進(jìn)行核算,并與信號(hào)中插入的奇偶信息相比較,如二者不一致,則表明傳輸過(guò)程中發(fā)生了差錯(cuò)[2]。
(2)SDH誤碼產(chǎn)生的原因:
表1 SDH 誤碼產(chǎn)生的原因
(3)SDH誤碼告警和分類:
表2 誤碼相關(guān)的性能和告警事件
(1)PTN誤碼告警產(chǎn)生原理。通過(guò)計(jì)算以太鏈路錯(cuò)誤包數(shù)占總包數(shù)的比率來(lái)產(chǎn)生誤碼越限(dEXC)/信號(hào)劣化(dDEG)事件,其比率門限值可以設(shè)置。
(2)PTN誤碼告警產(chǎn)生原因:
原因1:線路信號(hào)劣化;
原因2:輸入光功率不正常;
原因3:光纖頭表面不清潔;
原因4:對(duì)端或本端光模塊出現(xiàn)故障。
(3)PTN誤碼告警和分類:
表3 PTN 各廠家的誤碼告警及性能事件
(1)OTN誤碼產(chǎn)生原理
OTN誤碼監(jiān)視采用BIP-8編碼方式,編碼字節(jié)隨業(yè)務(wù)一起傳輸,信號(hào)誤碼監(jiān)視范圍包括SM/PM/TCMn三個(gè)層次,發(fā)送端產(chǎn)生BIP-8編碼置于各段的BIP-8開(kāi)銷字節(jié)內(nèi),接收端從信號(hào)取出BIP-8開(kāi)銷后進(jìn)行誤碼統(tǒng)計(jì)。
(2)OTN誤碼產(chǎn)生原因
原因1:光纜或合波部分的尾纖損耗過(guò)大或熔接頭反射指標(biāo)不合格,或者尾纖接頭不清潔;
原因2:設(shè)備或單板溫度過(guò)高,使信號(hào)處理產(chǎn)生異常,產(chǎn)生誤碼;
原因3:DCM模塊配置不合理,在放大信號(hào)的同時(shí),使噪聲成級(jí)數(shù)放大,信噪比降低;
原因4:合波信號(hào)光功率異常,光功率過(guò)高或過(guò)低都可能導(dǎo)致誤碼的產(chǎn)生;
原因5:光功率非線性;
原因6:設(shè)備到ODF架的法蘭盤損壞[3];
原因7:PMD嚴(yán)重超標(biāo),偏振模色散,它的單位是ps/Km,典型值是0.3~0.5ps/Km,與傳輸光纖的質(zhì)量和長(zhǎng)度有關(guān),主要受雙折射和模式耦合兩個(gè)因素影響。
(3)OTN誤碼告警和分類:
表4 OTN 網(wǎng)絡(luò)與誤碼相關(guān)的性能和告警事件
(1)數(shù)據(jù)業(yè)務(wù):數(shù)據(jù)通信中信息本身幾乎沒(méi)有冗余度,只要數(shù)據(jù)塊錯(cuò)一個(gè)比特,可能會(huì)造成壞包,數(shù)據(jù)塊中錯(cuò)一個(gè)比特或是錯(cuò)多個(gè)比特串效果相同,會(huì)造成數(shù)據(jù)重傳及數(shù)據(jù)丟包。
(2)語(yǔ)音業(yè)務(wù):語(yǔ)音通信中,連續(xù)的零星誤碼通常不會(huì)造成斷話影響,可能造成電話有雜音,音質(zhì)下降,一般可以容忍,但對(duì)于突發(fā)性大誤碼,則很有可能造成掉話或者閃斷等問(wèn)題。
(3)視頻業(yè)務(wù):視頻通信的數(shù)據(jù)往往是壓縮編碼以后的數(shù)據(jù),而壓縮以后的數(shù)據(jù)對(duì)誤碼非常敏感,造成誤碼環(huán)境下恢復(fù)圖像質(zhì)量嚴(yán)重下降。
(4)政企專線:政企專線業(yè)務(wù)具體需要參照用戶具體傳輸?shù)臉I(yè)務(wù)情況,如數(shù)據(jù),語(yǔ)音還是視頻等,可能造成業(yè)務(wù)閃斷、丟包等問(wèn)題。
(5)IPTV:會(huì)造成IPTV接入用戶網(wǎng)速不穩(wěn)定,可能導(dǎo)致IPTV無(wú)法打開(kāi)界面,視頻卡頓等現(xiàn)象。
檢查現(xiàn)網(wǎng)誤碼類告警,無(wú)不說(shuō)明原因的緊急級(jí)別告警;每條告警有合理存在的原因,確保現(xiàn)網(wǎng)誤碼告警清零,不能清零的告警,必須確認(rèn)原因。
通過(guò)查詢?cè)O(shè)備及單板當(dāng)前誤碼性能,判斷設(shè)備運(yùn)行情況是否正常,及時(shí)排除故障:
(1)檢查OTU單板、支線路板的性能,收發(fā)光功率應(yīng)在正常范圍之內(nèi);
(2)檢查OTU單板、支線路板的性能,糾后誤碼率為0;同時(shí),波分側(cè)15m/24h當(dāng)前和歷史性能中,不可糾錯(cuò)幀為0;
(3)數(shù)據(jù)業(yè)務(wù)檢查是否有異常RMON性能事件;
(4)定期查詢光功率:信號(hào)在通過(guò)傳輸系統(tǒng)的時(shí)候,光功率會(huì)產(chǎn)生一些變化。這些變化會(huì)影響傳輸線路上光信號(hào)的強(qiáng)度和靈敏度。光功率過(guò)高或者過(guò)低會(huì)損壞光器件或者產(chǎn)生誤碼,對(duì)業(yè)務(wù)造成影響[4]。
(5)PTN網(wǎng)管上創(chuàng)建了性能實(shí)例進(jìn)行監(jiān)控。主要是監(jiān)控網(wǎng)元/單板運(yùn)行狀況和網(wǎng)絡(luò)流量狀況。
單板性能:網(wǎng)元上的單板是否運(yùn)行狀況,主要包括單板溫度,CPU和內(nèi)存利用率。
端口性能:包括端口所在鏈路是否有誤碼、錯(cuò)包,以及端口上接收和發(fā)送的流量、帶寬利用率
激光器性能:監(jiān)控激光器工作是否正常,主要是關(guān)注激光器的功率、溫度和偏置電流等
通過(guò)性能平臺(tái),可以實(shí)時(shí)采集各網(wǎng)管系統(tǒng)上報(bào)的性能數(shù)據(jù),其中包括光功率、溫度、誤碼等,按照提前設(shè)定的派單規(guī)則,過(guò)濾其中的誤碼性能數(shù)據(jù),并按照誤碼告警名稱(SDH:B1-SD、再生段(RS)背景塊誤碼(BBE)越限、RS_SD;PTN: MAC_FCS_SD、 MAC_FCS_EXC、以太網(wǎng)物理接口(ETPI) 信號(hào)劣化(SD)、CRC_ERR;OTN: BEFFEC_EXC、15分鐘糾錯(cuò)后誤碼越限告警、FEC_D_SD)將誤碼告警推送至故障管理平臺(tái),故障管理平臺(tái)將故障按照規(guī)則進(jìn)行過(guò)濾后,將需要派單的誤碼告警信息推送至工單系統(tǒng),工單系統(tǒng)結(jié)合綜資數(shù)據(jù),產(chǎn)生性能故障工單,分別對(duì)不同地市、不同網(wǎng)絡(luò)相關(guān)的設(shè)備和端口進(jìn)行誤碼派單,同時(shí)通過(guò)IVR語(yǔ)音通知相關(guān)處理人員,督促進(jìn)行處理。
(1)例行查詢誤碼性能:通過(guò)網(wǎng)管,定期查詢網(wǎng)元的誤碼性能事件,及時(shí)發(fā)現(xiàn)問(wèn)題,以達(dá)到在誤碼還沒(méi)有嚴(yán)重到影響業(yè)務(wù)之間就處理完成的目的。
(2)例行查詢單板接收光功率:對(duì)于支持查詢光功率性能事件的單板,應(yīng)例行查詢并記錄全網(wǎng)收光功率是否在合適的范圍之內(nèi);并將本次查詢的數(shù)據(jù),與歷史數(shù)據(jù)進(jìn)行比較,如果數(shù)據(jù)有變化,應(yīng)查明變化的原因[5]。
(3)關(guān)注機(jī)房環(huán)境和溫度:高溫會(huì)影響到設(shè)備的正常運(yùn)行,尤其是高溫對(duì)時(shí)鐘晶振的影響大。如果機(jī)房溫度不能保持在合適的范圍內(nèi),則可能會(huì)影響時(shí)鐘質(zhì)量,導(dǎo)致出現(xiàn)指針調(diào)整甚至是誤碼的情況。
誤碼的處理,常用的方法也先分析、后環(huán)回、再替換等:
(1)告警性能分析法:由于環(huán)回法對(duì)正常業(yè)務(wù)有影響,因此處理誤碼問(wèn)題時(shí),一般主要通過(guò)對(duì)誤碼性能、告警事件仔細(xì)分析,定位出故障點(diǎn)。
(2)逐段環(huán)回法:若條件允許,可使用環(huán)回法快速定位出故障站點(diǎn)。注意: 環(huán)回有可能造成ECC不通,要認(rèn)真分析ECC,確認(rèn)不會(huì)影響網(wǎng)管管理后再進(jìn)行環(huán)回操作
傳輸網(wǎng)是運(yùn)營(yíng)商的基礎(chǔ)網(wǎng)絡(luò),傳輸網(wǎng)上承載的各種業(yè)務(wù)量越來(lái)越大,傳輸誤碼對(duì)業(yè)務(wù)感知造成了一定的影響。通過(guò)必要的監(jiān)控手段來(lái)及時(shí)發(fā)現(xiàn)網(wǎng)絡(luò)中存在的性能隱患,并分類分級(jí)進(jìn)行原因分析和處理,對(duì)改善業(yè)務(wù)性能,提升業(yè)務(wù)感知尤為重要。在實(shí)踐中,通過(guò)以上的方法和手段,可以解決處理網(wǎng)絡(luò)中大部分的誤碼性能事件和故障,對(duì)提升網(wǎng)絡(luò)健康度具有重要的價(jià)值。當(dāng)然,由于作者技術(shù)水平有限,同時(shí)網(wǎng)絡(luò)技術(shù)的發(fā)展變化日新月異,文中所講的內(nèi)容可能會(huì)存在錯(cuò)誤和紕漏,歡迎大家進(jìn)行批評(píng)指正。