賴彩明 鐘興國 王榮
中國聯(lián)通江西省分公司云網(wǎng)運營中心 南昌市 330029
隨著計算機網(wǎng)絡的高速發(fā)展,互聯(lián)網(wǎng)的應用變得越來越廣泛。用戶對網(wǎng)絡故障恢復時限的要求也越來越高,因此運營商的網(wǎng)絡可靠性顯得尤為重要。寬帶遠程接入服務器(BRAS)將用戶管理和業(yè)務控制等功能結合在一起,實現(xiàn)了對各種業(yè)務的認證授權、訪問控制和安全保障。因此,在城域網(wǎng)中,BRAS設備的安全可靠至關重要。為了消除單點故障,運營商通常對BRAS采用雙機熱備方式,以提高網(wǎng)絡可靠性和安全性。
本文是通過將一個典型故障的處理過程記錄下來,并對此故障進行分析總結,以達到提升網(wǎng)絡維護水平的目的。
2022年某天,云網(wǎng)中心接到贛州云網(wǎng)的投訴,某家寬用戶無法在AAA WMAS平臺進行復位。工程師收到故障申告后,Ping測試BRAS無異常,BRAS到DNS/AAA正常,因此排查重點轉移至WMAS。
經(jīng)WMAS對問題進行復現(xiàn)發(fā)現(xiàn)對賬號進行復位時出現(xiàn)“對不起,該會話不能被復位。”的告警報錯。
對于復位用戶失敗的問題,一般是通過收集MML的oplog以及AAA和BRAS之間的抓包信息來定位故障點。登錄ismpmml網(wǎng)元輸入oplog進到日志目錄,發(fā)現(xiàn)oplog的每次測試的結果都是如下的日志:
Excuting command failed[]20[]RESET C280 ACCOUNT[]RETN=1004
從《AAA V200R002C11LG0XXX MML接口開發(fā)指南37(寬帶AAA).pdf》可以查到返回碼1004的意思是“強制用戶下線失敗?!?/p>
從抓包中,可以看出:
第一行:AAA向BRAS發(fā)送的復位DM消息;
第二行:BRAS向AAA請求的計費結束消息(stop),如圖1所示(并未響應AAA下發(fā)的復位DM消息);
圖1 用戶復位抓包分析圖
第三行:AAA向BRAS重發(fā)的DM復位消息(BRAS第一行DM消息未響應,AAA3秒后重發(fā)的);
第四行:BRAS復位找不到會話(因第二行計費結束了)AAA提示報無法復位該用戶(如圖2所示503)。
圖2 無法復位根因圖
通過分析以上數(shù)據(jù),定位故障原因如下:
第一行AAA給BRAS發(fā)DM消息的時候,發(fā)的目標IP是:58.17.116.1。
但是第二行BRAS給AAA響應的時候,源IP是58.17.116.3。經(jīng)過BRAS測抓包發(fā)現(xiàn)在第一行之后BRAS有回一個復位成功DM消息給AAA,然后在發(fā)的計費結束消息(即第三行)。因BRAS響應AAA的DM消息的IP為58.17.116.3與第一行目標IP不一致,兩次的IP不一致,AAA認為BRAS回復的消息不合法,丟棄了。
那為什么AAA發(fā)送DM消息會發(fā)送到58.17.116.1這個IP呢而不是58.17.116.3?
AAA版本發(fā)送DM消息的邏輯如下:
對于本地用戶,如果計費消息中上報的NASIPAddress是個正常的IP,那么AAA的DM消息會下發(fā)到NASIPAddress這個IP。否則的話,會發(fā)送給計費消息的源IP。由此可知道BRAS上報的NASIPAddress是58.17.116.1,故AAA會向此IP發(fā)送DM消息。
原因清楚之后,有兩個解決方法:
1)讓BRAS將計費消息中上報的NASIPAddress的值改成和源IP一樣,如圖3所示。
圖3 解決方案圖
2)讓BRAS響應DM消息的時候,從NASIPAddress這個IP發(fā)來DM響應消息。
現(xiàn)網(wǎng)最終采用了方法1,即BRAS將計費消息中上報的NASIPAddress的值改成和源IP一樣。修改之后WMAS界面可以正常復位用戶。
AAA側會將DM消息發(fā)往計費消息中的NASIPAddress屬性中的IP,并且要求BRAS用這個IP回復DM響應消息,如果兩次IP不一致會被認為非法消息而被丟棄。
如果發(fā)現(xiàn)對同一場景下,有的區(qū)域正常,有的區(qū)域不正常,則應該首先比對不同的區(qū)域配置,快速找出并修改錯誤的配置。
如果該故障涉及多個層面或者需要多個平臺的配合,那么抓包分析是最好的解決辦法,根據(jù)業(yè)務流程逐級排查,以確定故障點。