許志成 高婷婷 王兆敏 潘志鵬
摘 要:隨著組網方式的多樣化和規(guī)模的不斷擴大,網元數量的不斷增加,網管的監(jiān)控管理和維護工作更加重要,告警信息的增加和故障的處理是最直觀的體現(xiàn)。常見告警和對應的處理方法對于開展通信設備的運維工作起到了至關重要的作用。
關鍵詞:PTN;告警
在日常的維護工作中,設備網元的各種告警是我們經常遇到的。隨著組網方式的多樣化和規(guī)模的不斷擴大,網元數量的不斷增加,網管的監(jiān)控管理和維護工作更加重要,告警信息的增加和故障的處理是最直觀的體現(xiàn)。
日常維護中的網元告警實際上大部分是比較常見的,那么接下來簡單地分析一下這些常見告警和對應的處理方法。
我們常見的告警可以簡單分為:環(huán)境告警、設備告警、業(yè)務告警等。
1 環(huán)境告警我們比較常見的主要有
單路輸入電源電壓丟失:需要到站點現(xiàn)場依次檢查是否是多路供電,電源分配箱是否有供電問題,電源線是否壓接牢固,倒換設備電源板檢查是否是電源模塊問題,依次處理直到告警消除。
電源輸入電壓越限(過壓或欠壓):需要到站點現(xiàn)場逐段檢查供電電源設備——電源分配箱——設備電源模塊的供電電壓,針對檢查出的問題進行處理直到告警消除。
外部環(huán)境告警:需要到站點現(xiàn)場檢查對應的外部環(huán)境指標是否正常,外部傳感器工作是否正常,系統(tǒng)告警門限值配置是否正確,依次檢查找到問題后處理直到告警消除。
2 設備告警可以簡單分為單板告警、接口告警
單板告警常見的主要有:單板CPU利用率越限:出現(xiàn)該告警可能是因為業(yè)務或協(xié)議開啟過多,超過設備實際可提供的帶寬;某些模塊運行異常,導致該模塊長時間占用CPU;網絡不穩(wěn)定,導致長時間處理協(xié)議報文或頻繁倒換。利用降溫手段降低單板CPU的溫度,參照設備規(guī)格檢查業(yè)務數量是否超過設備處理能力并配置合理的業(yè)務數量,檢查網絡狀況,逐項排查處理直到告警消失。
單板脫位:出現(xiàn)該告警可能是因為運行中的單板被人為拔除;運行中的單板與主控板的板間通訊出現(xiàn)異常,導致主控板無法檢測到單板;運行中的單板電源模塊故障導致單板掉電。
到現(xiàn)場檢查單板是否被拔出或掉電,用手電筒查看背板插槽插座部分是否有物理損傷,檢查主控板與背板連接的插針是否有損傷,然后進行復位、倒換、更換單板或背板、機框等操作直到告警消除。
單板類型失配告警:該告警可能是因為在設備物理槽位插入錯誤的單板類型,應安板與實安板類型不一致;新增的單板啟動后上報的類型與網管上邏輯安裝的類型不一致;運行中的單板自身硬件原因。
現(xiàn)場檢查單板類型與應安板類型是否一致,在物理槽位上插入與應安板類型一致的單板并檢查告警,檢查板卡啟動后上報的板卡類型與邏輯安裝板卡是否一致,在網管上安裝與物理槽位類型一致的板卡并檢查告警,更換物理槽位安裝單板,待單板啟動后檢查告警,依次按照以上順序進行排查處理直到告警消失。
常見的接口告警主要有:
以太網物理接口ETPI Ethernet端口未連接:端口處于down狀態(tài),或者從up變到down??赡軐е聵I(yè)務中斷。該告警可能是因為未插光模塊或up狀態(tài)時拔出光模塊;未連接光纖或up狀態(tài)時拔出光纖;收光功率過低;端口shutdown;端口震蕩抑制;對接端口碼型不一致;時鐘子卡異常,無法恢復10GE頻率。
3 業(yè)務告警可以簡單分為
協(xié)議告警、隧道/偽線告警:
3.1 協(xié)議告警常見的主要
有OSPF告警、BGP告警等。
OSPF HELLO包超時:本端接口超時未收到鄰居發(fā)送的hello報文,導致鄰居斷鏈。OSPF鄰居DOWN,學習不到路由,造成業(yè)務中斷。該告警可能是因為報文收發(fā)問題,對端設備CPU越限導致OSPF報文無法發(fā)送,本端設備CPU越限導致OSPF報文上送CPU通道堵塞,報文被丟棄。
管理設備,檢查接口是否有收發(fā)報文,重啟OSPF進程并檢查鄰居是否能夠重建。
BGP鄰居HOLDTIME定時器超時:BGP鄰居在HOLDTIME時間內沒有從鄰居接收到任務的協(xié)議報文。HOLDTIME超時后,引起鄰居down,BGP嘗試重新建立鄰居關系,導致從該鄰居學習到的全路路由被刪除。該告警可能因為BGP的對端鄰居沒有發(fā)送協(xié)議報文,網絡通信異常,導致BGP會話使用的TCP鏈接出現(xiàn)異常斷鏈。
管理設備,檢查BGP鄰居是否發(fā)送協(xié)議報文給對端,檢查對端設備是否接收到BGP協(xié)議報文,檢查兩端設備之間的通信狀況,逐項排查處理直到告警消失。
3.2 隧道/偽線告警
隧道維護點 連通性丟失:這是比較常見的影響通道業(yè)務的告警之一,在3.5倍幀周期內,本端沒有收到對端隧道MEG的MEP發(fā)送過來的CV幀,本端上報隧道維護點LOC告警。影響業(yè)務,存在誤碼。該告警可能是因為配置有誤,NNI側性能異常,OAM參數配置有誤,P節(jié)點單板轉發(fā)故障,單板硬件故障。
分析該隧道業(yè)務處于哪種階段(開通階段或維護階段),由網管檢查網元和該業(yè)務的各項配置是否正確,檢查NNI側路徑性能是否異常,檢查PE節(jié)點OAM參數配置是否正確,檢查P節(jié)點單板是否出現(xiàn)故障,逐項排查處理直到告警消失。
偽線維護點 連通性丟失:在3.5倍幀周期內,本端沒有收到對端隧道MEG的MEP發(fā)送過來的CV幀,本端上報隧道維護點LOC告警。影響業(yè)務,存在誤碼。該告警可能是因為配置有誤,NNI側性能異常,OAM參數配置有誤,P節(jié)點單板轉發(fā)故障,單板硬件故障。
檢查網管上業(yè)務配置是否有誤,檢查是否出現(xiàn)隧道維護點OAM告警,檢查隧道保護組狀態(tài)是否異常,檢查PE/UPE/SPE節(jié)點配置、轉發(fā)情況是否異常,逐項排查處理直到告警消失。
以上是我們日常維護工作中比較常見的告警及其相關的告警原因和處理辦法。而在工作中還有很多我們很少或者沒有遇到過的問題,因此,不斷地學習并充實自己是非常重要的。通信技術在不斷進步,只有隨之更新自己的技術知識,才能夠更好地做好通信維護工作,為通信網絡的暢通做好保障。
參考文獻
[1]魯衛(wèi).PTN網管系統(tǒng)中告警模塊的設計與實現(xiàn)[D].華中科技大學,2013.
[2]PTN:IP分組化傳送[M].北京郵電大學出版社,2009.