筆者單位有兩個(gè)辦公區(qū),因業(yè)務(wù)需要,近期在兩個(gè)辦公區(qū)部署了視頻會(huì)議系統(tǒng),每天都要進(jìn)行視頻會(huì)議。在系統(tǒng)使用過程中發(fā)生過一次意想不到的故障,其解決過程也頗有戲劇性。
兩個(gè)辦公區(qū)原來分別配備了中興T800和寶利通8000視頻終端,現(xiàn)在使用華為AR2200系列路由器和S5700交換機(jī),通過一條10M的專線實(shí)現(xiàn)兩臺(tái)視頻終端的連接。由中興T800作為主叫方,呼叫寶利通8000召開會(huì)議。系統(tǒng)調(diào)試很順利,但在日常召開視頻會(huì)議的過程中,出現(xiàn)了一個(gè)奇怪的故障:會(huì)議正常進(jìn)行時(shí),視頻終端會(huì)自動(dòng)掉線,必須重新連接才能繼續(xù)進(jìn)行視頻會(huì)議。
圖1 系統(tǒng)連接示意圖
圖1 T800視頻終端異常呼叫記錄
開始以為是偶發(fā)故障,后來發(fā)現(xiàn)每當(dāng)視頻會(huì)議超過一定時(shí)長,視頻終端必然掉線,嚴(yán)重影響了業(yè)務(wù)工作的開展,必須盡快解決故障。
無論視頻會(huì)議掉線前后,兩臺(tái)視頻終端均能迅速連接,會(huì)議的音、視頻信號(hào)也均正常。因此初步判斷兩套系統(tǒng)硬件設(shè)備及網(wǎng)絡(luò)線路正常,故障原因很大可能是在軟件設(shè)置方面。
首先懷疑是視頻終端的參數(shù)設(shè)置問題。當(dāng)?shù)卿浀街信dT800上查看呼叫記錄時(shí),發(fā)現(xiàn)每次中斷幾乎都發(fā)生在13分 20秒(800秒)左右,如圖2紅線處所示。在中興T800的系統(tǒng)設(shè)置中查找和時(shí)間有關(guān)的選項(xiàng),但沒有收獲。同樣查找了寶利通8000的系統(tǒng)設(shè)置,也沒有發(fā)現(xiàn)。聯(lián)系中興技術(shù)支持,答復(fù)中興T800中沒有相關(guān)的時(shí)間設(shè)置選項(xiàng)。
隨即將目光關(guān)注在網(wǎng)絡(luò)設(shè)備上。網(wǎng)絡(luò)連接兩端的華為S5700交換機(jī)均未做任何設(shè)置。但因安全的需要,在華為AR2220路由器上啟用了防火墻,只開放了部分地址的HTTP和FTP協(xié)議,而對視頻終端的IP地 址192.168.2.12和192.168.1.161之間的通信完全開放。按理防火墻不應(yīng)對視頻會(huì)議產(chǎn)生影響。抱著試一試的心態(tài)關(guān)閉AR2220上的防火墻,打開視頻會(huì)議系統(tǒng),果然故障不再出現(xiàn)??磥碜詣?dòng)掉線的原因找到了,需要從防火墻的配置入手消除故障。
圖3 T800視頻終端正常呼叫記錄
圖4 通過console口抓取到d 信息
華為路由器防火墻與時(shí)間有關(guān)的配置主要是防火墻會(huì)話表老化時(shí)間,各個(gè)協(xié)議的默認(rèn)值不同,常用協(xié)議HTTP為 600秒,UDP為 120秒,ICMP為20秒。在路由器上監(jiān)控通過防火墻的所有會(huì)話,發(fā)現(xiàn)兩臺(tái)視頻終端間的通信使用的是UDP端口。雖然覺得不會(huì)起什么作用,但仍使用“firewall session aging-time”命令將防火墻的UDP協(xié)議老化時(shí)間調(diào)整為1200秒。重新啟用防火墻再進(jìn)行測試,故障重現(xiàn)了,并且故障發(fā)生的時(shí)間沒有隨著老化時(shí)間的調(diào)整而改變。將其他協(xié)議的老化時(shí)間也分別進(jìn)行了調(diào)整,故障依舊。
無奈之下,只好先暫時(shí)關(guān)閉防火墻,保證視頻會(huì)議的正常。同時(shí),聯(lián)系華為技術(shù)人員尋求支持。他們也感覺比較奇怪,要求提取路由器部分運(yùn)行狀態(tài)信息進(jìn)行分析。但當(dāng)執(zhí) 行“display forward error counter”命令時(shí),路由器提示是無效的命令。經(jīng)檢查發(fā)現(xiàn)華為AR2220路由器操作系統(tǒng)版本為V200R001,不支持前述命令。華為技術(shù)人員建議先將路由器的操作系統(tǒng)升級(jí)到目前較新的V200R007版本。于是根據(jù)路由器的具體型號(hào),從華為官網(wǎng)上下載了對應(yīng)的操作系統(tǒng)安裝包。
筆者之前備份路由器操作系統(tǒng),習(xí)慣使用TFTP軟件。由于新的安裝包有100余兆,因此決定使用FTP方式。特地在路由器上添加了FTP用戶,使能路由器的FTP服務(wù)端功能,并配置傳輸格式為binary。 將新安裝包上傳至AR2220路由器。隨后依次執(zhí)行下面幾條命令:
路由器啟動(dòng)后,執(zhí)行命令“display version”,查看路由器操作系統(tǒng)當(dāng)前版本依然為 V200R001C00SPC500,升級(jí)失敗。重新下載升級(jí)文件,檢查了操作步驟,反復(fù)嘗試了幾次均未升級(jí)成功。
查看路由器的日志,找到一條相關(guān)信息: qxzxbgl ENTITYTRAP/4/SYSTEMROLL:OID 1.3.6.1.4.1.2011.5.25.219.2.11.3 System rollback。又通過console口抓取到如圖4所示信息。
很顯然系統(tǒng)升級(jí)到V200R007版本時(shí)出錯(cuò)。幸運(yùn)的是,筆者還未刪除V200R001版本老系統(tǒng),路由器自動(dòng)使用老系統(tǒng)文件進(jìn)行了啟動(dòng)。判斷出現(xiàn)該情況是因?yàn)閂200R001過于陳舊,無法直接升級(jí)到V200R007。只好又從官網(wǎng)下載了AR2220-V200R003C01SPC900.cc安裝包。按照之前的操作,先將系統(tǒng)從V200R001升級(jí)到V200R003,再升級(jí)到V200R007。這兩次操作都非常順利,很快完成了升級(jí)工作,檢查系統(tǒng)版本、配置文件、運(yùn)行狀態(tài)等均正常。
這時(shí)再輸入“display forward error counter”、“display session v”等命令均可正常執(zhí)行。
收集了所需的診斷信息,路由器運(yùn)行狀態(tài)也正常,于是筆者啟動(dòng)視頻會(huì)議系統(tǒng),想再觀察一下故障情況。沒想到有了意外收獲,在防火墻開啟時(shí),視頻終端連續(xù)運(yùn)行40多分鐘依然穩(wěn)定,一到800秒就自動(dòng)掉線的問題消除了。確認(rèn)故障消除后,保持路由器配置不變,在業(yè)務(wù)工作中連續(xù)多次使用視頻會(huì)議系統(tǒng),再未發(fā)生類似情況。
分析原因,認(rèn)為是原來的操作系統(tǒng)版本陳舊,至少在狀態(tài)檢測防火墻方面存在未知Bug。召開視頻會(huì)議時(shí),在某些特定條件下觸發(fā)了這些Bug,導(dǎo)致產(chǎn)生之前的故障。而新版本操作系統(tǒng)軟件從體系架構(gòu)、協(xié)議實(shí)現(xiàn)方式、算法等方面都有了全面改進(jìn),最直觀的表現(xiàn)是僅軟件大小就從60余兆增加到130兆,應(yīng)該修復(fù)了原來系統(tǒng)中的一些隱形Bug,因此系統(tǒng)升級(jí)完成后故障也就自然修復(fù)了。
因?yàn)榘踩C芊矫娴囊?,單位業(yè)務(wù)網(wǎng)絡(luò)與其他網(wǎng)絡(luò)物理隔離,受外界干擾較少,所以之前比較重視操作系統(tǒng)和配置文件的備份工作,而忽視了服務(wù)器、路由器等關(guān)鍵設(shè)備的軟件升級(jí)、安裝補(bǔ)丁等工作。如華為路由器的操作系統(tǒng)五六年來已經(jīng)更新多個(gè)版本了,從功能、性能、安全、穩(wěn)定性等方面都有不同提升。而單位的相關(guān)設(shè)備一直未進(jìn)行更新。
這次故障的發(fā)生和解決,提醒我們必須重視系統(tǒng)軟件的及時(shí)升級(jí)工作,以修復(fù)系統(tǒng)漏洞,實(shí)現(xiàn)系統(tǒng)新功能,提高設(shè)備性能。
另外,通過這次故障處理,還有一些體會(huì)與大家分享:
1.同一系列的設(shè)備往往有多個(gè)細(xì)分型號(hào),下載升級(jí)包時(shí)要注意選擇與自己設(shè)備細(xì)分型號(hào)完全對應(yīng)的版本。
2.新的操作系統(tǒng),其文件尺寸往往較大,因此在升級(jí)前要注意檢查設(shè)備是否有足夠的空間存放新的文件。同時(shí)最好使用二進(jìn)制的FTP方式傳輸大文件。
3.在沒有確認(rèn)升級(jí)成功、系統(tǒng)能夠穩(wěn)定運(yùn)行之前,最好不要?jiǎng)h除舊操作系統(tǒng)文件和配置文件,以便萬一升級(jí)失敗還有備用手段。