羅2 解 決亮方案
中國(guó)聯(lián)通寧夏分公司物資采購(gòu)與管理部,寧夏銀川 750010
構(gòu)建BOSS多層次多角度的網(wǎng)絡(luò)與應(yīng)用性能分析系統(tǒng)
羅2 解 決亮方案
中國(guó)聯(lián)通寧夏分公司物資采購(gòu)與管理部,寧夏銀川 750010
寧夏聯(lián)通BOSS系統(tǒng)以銀川為中心,覆蓋寧夏全省,其業(yè)務(wù)涵蓋了計(jì)費(fèi)、結(jié)算、賬務(wù)、業(yè)務(wù)管理、客服等方面。如何從整體上保障BOSS業(yè)務(wù)系統(tǒng)高效運(yùn)行,對(duì)于提高全省聯(lián)通服務(wù)水平、管理水平和經(jīng)營(yíng)決策水平意義深遠(yuǎn)。
BOSS;網(wǎng)絡(luò) ;應(yīng)用性能
寧夏聯(lián)通BOSS系統(tǒng)以銀川為中心,覆蓋寧夏全省,其業(yè)務(wù)涵蓋了計(jì)費(fèi)、結(jié)算、賬務(wù)、業(yè)務(wù)管理、客服等方面。如何從整體上保障BOSS業(yè)務(wù)系統(tǒng)高效運(yùn)行,對(duì)于提高全省聯(lián)通服務(wù)水平、管理水平和經(jīng)營(yíng)決策水平意義深遠(yuǎn)。
寧夏全省BOSS系統(tǒng)運(yùn)行在負(fù)載均衡層面、WEB層面、中間件層面和數(shù)據(jù)庫(kù)層面的四層系統(tǒng)架構(gòu)下,由各個(gè)設(shè)備廠商維護(hù)自己的設(shè)備;過(guò)去當(dāng)聯(lián)通管理層接收到BOSS系統(tǒng)訪問(wèn)“慢”的反饋時(shí),各層面的維護(hù)人員都可以證明自己的設(shè)備沒(méi)有問(wèn)題,比如CPU、內(nèi)存利用率都正常等的信息,這樣各層面獨(dú)立分析的情況必將導(dǎo)致問(wèn)題的排查進(jìn)入到迂回的僵局中;
為了能站在網(wǎng)絡(luò)的角度,從整體上對(duì)BOSS系統(tǒng)各個(gè)層面的性能進(jìn)行監(jiān)控分析,從技術(shù)手段上保證網(wǎng)絡(luò)和應(yīng)用的可視性、預(yù)防問(wèn)題的出現(xiàn),提高IT工作人員的生產(chǎn)率,具體來(lái)說(shuō),包括以下幾個(gè)方面:
1)對(duì)網(wǎng)絡(luò)與應(yīng)用性能提供全面深入的可視性,快速排障
(1)從多個(gè)角度監(jiān)控BOSS系統(tǒng)架構(gòu)中每一層面的應(yīng)用服務(wù)響應(yīng)水平,呈現(xiàn)關(guān)鍵性能指標(biāo),客觀評(píng)估用戶體驗(yàn)在各個(gè)層面的反映;
(2)從宏觀整體到微觀個(gè)體區(qū)分網(wǎng)絡(luò)響應(yīng)與應(yīng)用響應(yīng)的時(shí)延,快速判斷故障根因;系統(tǒng)提供易用快捷的操作方式,能夠直接在視圖上進(jìn)行關(guān)聯(lián)分析,不需要管理員多次輸入查詢條件就得到分析結(jié)果。
2)通過(guò)歷史基準(zhǔn)與周期對(duì)比實(shí)現(xiàn)故障預(yù)防
(1)為BOSS系統(tǒng)各個(gè)層面建立歷史基準(zhǔn)模型,為實(shí)現(xiàn)故障預(yù)防提供可靠依據(jù);
(2)提供每一層面網(wǎng)絡(luò)流量水平與應(yīng)用響應(yīng)時(shí)延的周期對(duì)比,隨時(shí)監(jiān)控系統(tǒng)調(diào)優(yōu)前后的KPI變化,客觀評(píng)估網(wǎng)絡(luò)與應(yīng)用改造成效。
3)智能告警并提供證據(jù),對(duì)影響性能指標(biāo)的相關(guān)因素進(jìn)行關(guān)聯(lián)分析,提高工作效率
系統(tǒng)提供流量水平與響應(yīng)時(shí)延水平的智能告警并提供導(dǎo)致告警的證據(jù),對(duì)影響性能指標(biāo)的相關(guān)因素進(jìn)行關(guān)聯(lián)分析,體現(xiàn)客戶數(shù)、連接數(shù)與服務(wù)器響應(yīng)時(shí)延的關(guān)系。獲得網(wǎng)絡(luò)與應(yīng)用的實(shí)時(shí)視圖和報(bào)紙格式的歷史報(bào)表。
在項(xiàng)目第一期,BOSS營(yíng)帳系統(tǒng)在寧夏全省數(shù)據(jù)中心部署了一套網(wǎng)絡(luò)與應(yīng)用性能分析系統(tǒng),包括一臺(tái)內(nèi)置存儲(chǔ)的硬件探針與一套管理軟件。如圖所示,在省數(shù)據(jù)中心的思科網(wǎng)絡(luò)交換機(jī)同多個(gè)不同的應(yīng)用服務(wù)器相連接。通過(guò)交換機(jī)端口鏡像,探針采集應(yīng)用服務(wù)器流量,在混合的流量當(dāng)中可以把負(fù)載均衡、WEB、中間件與數(shù)據(jù)庫(kù)各個(gè)層面的流量進(jìn)行區(qū)分并單獨(dú)進(jìn)行分析;探針定時(shí)將各種性能參數(shù)傳送給管理軟件,管理軟件將這些分析數(shù)據(jù)綜合整理并加以分析。網(wǎng)絡(luò)管理人員可以隨時(shí)隨地地通過(guò)WEB瀏覽器
傳統(tǒng)的儀器儀表型工具,其特點(diǎn)是緊急式的反應(yīng)工具,通常是等有故障發(fā)后才接入網(wǎng)絡(luò)進(jìn)行分析,由于缺乏歷史數(shù)據(jù),無(wú)法重現(xiàn)偶發(fā)的故障現(xiàn)象,更不能建立歷史基準(zhǔn),通過(guò)周期對(duì)比實(shí)現(xiàn)故障預(yù)防,另外,在分析數(shù)據(jù)呈現(xiàn)方面,也很難真正做到客戶化、層次化。
在項(xiàng)目第一期部署的網(wǎng)絡(luò)與應(yīng)用性能分析系統(tǒng),雖然僅包括了一臺(tái)硬件探針與一套管理軟件,但基本上滿足了本文需求分析提到的多項(xiàng)具體功能,由于一套管理軟件可支持多臺(tái)硬件探針,因此可以按實(shí)際需要增加部署硬件探針的數(shù)量。
接下來(lái),結(jié)合實(shí)際的工作需要,介紹我們對(duì)BOSS營(yíng)帳系統(tǒng)進(jìn)行網(wǎng)絡(luò)與應(yīng)用性能分析的經(jīng)驗(yàn)案例:
1)從多層面分析網(wǎng)絡(luò)與應(yīng)用性能表現(xiàn),提供全面的可視化
(1)同時(shí)在每一層面中區(qū)分網(wǎng)絡(luò)響應(yīng)時(shí)延與應(yīng)用響應(yīng)時(shí)延,快速判斷故障根因;
(2)從多個(gè)角度監(jiān)控應(yīng)用服務(wù)響應(yīng)水平,呈現(xiàn)關(guān)鍵性能指標(biāo),客觀評(píng)估用戶體驗(yàn);
我們先說(shuō)明如何區(qū)分網(wǎng)絡(luò)響應(yīng)時(shí)延與應(yīng)用響應(yīng)時(shí)延,以及歷史性、多角度報(bào)表所能夠體現(xiàn)的作用;
09年底某天寧夏銀川BOSS運(yùn)維部門(mén)接到營(yíng)業(yè)廳用戶反映,說(shuō)感覺(jué)訪問(wèn)業(yè)務(wù)系統(tǒng)慢,寧夏
網(wǎng)盟的工程師通過(guò)網(wǎng)絡(luò)與應(yīng)用性能分析系統(tǒng),快速定位至在WEB與中間件交互過(guò)程中出現(xiàn)了異常,通過(guò)報(bào)表,得出這樣的一個(gè)結(jié)論:在“只有10.243.xxx.3這臺(tái)WEB服務(wù)器訪問(wèn)中間件層面的網(wǎng)絡(luò)交互過(guò)程出現(xiàn)問(wèn)題”;因?yàn)樗械腤EB服務(wù)器放置于同一網(wǎng)絡(luò)架構(gòu)中,各臺(tái)WEB服務(wù)器性能表現(xiàn)跟歷史同期比較完全正常,只有這臺(tái)服務(wù)器訪問(wèn)中間件層面的服務(wù)器過(guò)程出現(xiàn)異常,因此毫無(wú)疑問(wèn)的是這臺(tái)WEB服務(wù)器自身的問(wèn)題導(dǎo)致網(wǎng)絡(luò)交互的異常出現(xiàn),進(jìn)而導(dǎo)致該WEB服務(wù)器負(fù)載區(qū)域的用戶感覺(jué)到“慢”;得出結(jié)論后告知這個(gè)設(shè)備的廠商,提供以證據(jù),廠商針對(duì)證據(jù)的表現(xiàn),快速給出方案解決問(wèn)題;從①接收問(wèn)題;到②定位至WEB層面;再到③定位至某臺(tái)WEB服務(wù)器;這個(gè)過(guò)程不超過(guò)5min,因?yàn)樗袑用娴男畔⒍荚谝粋€(gè)系統(tǒng)中反映,比起從前“接收問(wèn)題后,通知各個(gè)層面的廠商讓其各自找問(wèn)題,各層面的廠商通常強(qiáng)調(diào)自己沒(méi)有問(wèn)題,需要聯(lián)通公司經(jīng)過(guò)反復(fù)討論驗(yàn)證,才能定位問(wèn)題的根源”這一模式,大大地提高了解決問(wèn)題的效益與運(yùn)維管理水平;
2)從多角度分析每一層面的應(yīng)用服務(wù)水平,提供深入的可視化
接下來(lái),我們?cè)訇U述如何從多個(gè)角度監(jiān)控應(yīng)用服務(wù)響應(yīng)水平,呈現(xiàn)關(guān)鍵性能指標(biāo),客觀評(píng)估用戶體驗(yàn):
BOSS業(yè)務(wù)每一層面的交互中包括有多種應(yīng)用服務(wù),每種應(yīng)用服務(wù)又包括多臺(tái)服務(wù)器,因此,我們首先在各個(gè)層面需要獲得一個(gè)能夠體現(xiàn)全局的所有應(yīng)用服務(wù)性能的概貌(同時(shí)還要了解該應(yīng)用影響用戶體驗(yàn)的關(guān)鍵性能指標(biāo)),然后從這個(gè)概貌關(guān)聯(lián)展開(kāi)分析每個(gè)應(yīng)用的每臺(tái)服務(wù)器性能,再?gòu)奶囟ǚ?wù)器展開(kāi)分析每臺(tái)客戶端的響應(yīng)時(shí)延。
這些視圖即可以通過(guò)自定義的方式自動(dòng)呈現(xiàn)在工作臺(tái)上,也可以通過(guò)應(yīng)用服務(wù)的超時(shí)告警,以提供告警證據(jù)的方式呈現(xiàn)出來(lái)。
(1)應(yīng)用角度
圖2 WEB層面的業(yè)務(wù)應(yīng)用性能參數(shù)
上圖的報(bào)表中是針對(duì)WEB層面的所有應(yīng)用服務(wù)的監(jiān)控,包括所有應(yīng)用服務(wù)的平均時(shí)延、峰值時(shí)延、響應(yīng)次數(shù)、響應(yīng)成功次數(shù),每一種應(yīng)用的關(guān)鍵性能指標(biāo)(以HTTP舉例),以及每一種應(yīng)用服務(wù)在一天中不同時(shí)段,響應(yīng)次數(shù)與響應(yīng)時(shí)延隨時(shí)間變化情況(以HTTP舉例)。
(2)應(yīng)用服務(wù)器角度
圖3 WEB層面的應(yīng)用服務(wù)器性能參數(shù)
上圖的報(bào)表中是針對(duì)WEB層面的所有應(yīng)用服務(wù)器的監(jiān)控,包括所有應(yīng)用服務(wù)的平均時(shí)延、峰值時(shí)延、響應(yīng)次數(shù)、響應(yīng)成功次數(shù),各個(gè)地市訪問(wèn)每一臺(tái)應(yīng)用服務(wù)器的網(wǎng)絡(luò)延遲和應(yīng)用延遲(以10.243.210.113的HTTP應(yīng)用舉例),以及每一種應(yīng)用服務(wù)在一天中不同時(shí)段,響應(yīng)次數(shù)與響應(yīng)時(shí)延隨時(shí)間變化情況。
(3)客戶端角度
圖4 WEB層面的應(yīng)用服務(wù)器性能參數(shù)
上圖針對(duì)HTTP服務(wù)器10.243.210.113對(duì)每一臺(tái)客戶端的響應(yīng)性能進(jìn)行監(jiān)控,包括每臺(tái)客戶端訪問(wèn)服務(wù)器的平均時(shí)延、峰值時(shí)延、響應(yīng)次數(shù)、響應(yīng)成功次數(shù)與響應(yīng)失敗次數(shù);選取指定的客戶端,可快速獲得該客戶端訪問(wèn)服務(wù)器長(zhǎng)時(shí)間的性能曲線圖,包括網(wǎng)絡(luò)響應(yīng)時(shí)延,應(yīng)用響應(yīng)時(shí)延,并從有問(wèn)題的時(shí)間段直接提取數(shù)據(jù)包進(jìn)行解碼驗(yàn)證。
需要說(shuō)明的是,這些視圖即可以通過(guò)自定義的方式自動(dòng)呈現(xiàn)在工作臺(tái)上,也可以通過(guò)應(yīng)用服務(wù)的超時(shí)告警,以提供告警證據(jù)的方式呈現(xiàn)出來(lái)。
該解決方案為寧夏銀川BOSS營(yíng)帳系統(tǒng)所提供的集中和易用的平臺(tái)使用我們整個(gè)網(wǎng)絡(luò)和應(yīng)用的性能管理手段發(fā)生的質(zhì)的變化,網(wǎng)絡(luò)管理人員現(xiàn)在不僅在任何時(shí)候和地點(diǎn)都能獲得豐富細(xì)微的實(shí)時(shí)與歷史性能信息、擺脫了手工操作事倍功半的工作方式,而且可以定期發(fā)布各種客戶化的報(bào)表報(bào)告,滿足不同讀者的工作需要,總而言之,提高了BOSS營(yíng)帳系統(tǒng)IT工作人員的效率和生產(chǎn)率。
TP393
A
1674-6708(2010)23-0205-02