在傳統(tǒng)的可視化看板中,普遍采用單一指標告警進行信息系統(tǒng)狀態(tài)管理,在一定程度上能夠保證信息系統(tǒng)的穩(wěn)定運行。為了繼承發(fā)展既有運維監(jiān)測可視化管理體系,本文從信息系統(tǒng)的角度對數(shù)據(jù)信息進行進一步規(guī)劃和分析,立足自主創(chuàng)新,融合業(yè)界最佳實踐與技術(shù),統(tǒng)一支撐信息系統(tǒng)運維業(yè)務,實現(xiàn)數(shù)據(jù)的融匯貫通,打造了一種新的信息系統(tǒng)可視化看板,全面的對信息系統(tǒng)運行狀態(tài)進行管理和展現(xiàn)。以自動化、智能化和可視化為主線,滿足一線運維人員真實需求。
信息系統(tǒng)的組成具有多樣性,不同的信息系統(tǒng)構(gòu)成之間千差萬別,而且內(nèi)部的業(yè)務邏輯、數(shù)據(jù)、接口的關(guān)聯(lián)關(guān)系錯綜復雜。如何有效地對數(shù)據(jù)進行整理分類、特征提取和關(guān)聯(lián)分析,為運維人員直觀展現(xiàn)最重要、最有價值的數(shù)據(jù),是信息系統(tǒng)運行狀態(tài)可視化看板設計的根本要求和價值所在。
可視化看板重點展現(xiàn)的是信息系統(tǒng)的異常狀態(tài),但常規(guī)的指標級異常展現(xiàn)體驗較差,無法滿足用戶的真實需求。為了更好的展現(xiàn)信息系統(tǒng)的運行情況,根據(jù)歷史運維經(jīng)驗和用戶實際痛點,從業(yè)務層面抽象了斷(可用性)、閑(在用性)、卡(負載情況)和亂(波動情況)四種異常狀態(tài),以一種全新的業(yè)務視角,為運維人員提供信息系統(tǒng)運行狀態(tài)的深度解讀。這種業(yè)務抽象不僅適用于信息系統(tǒng)整體,也可以具體細化到實體對象,包括但不限于各類主機、數(shù)據(jù)庫、中間件、服務應用、網(wǎng)絡設備和安全設備等,通過對實體對象的診斷分析,為信息系統(tǒng)的真實運行狀態(tài)提供更多有力的依據(jù)。
可視化看板支持的四種異常狀態(tài)通過以下具體模型進行定義和支持。
(1)負載模型-卡:通過梳理運維對象的指標中與性能相關(guān)的指標,對于網(wǎng)絡設備、主機設備主要包括計算、網(wǎng)絡負載等;對于數(shù)據(jù)庫主要包括表負載、死鎖率、會話負載等;對于中間件主要包括JVM負載、會話數(shù)、使用率負載等;對于業(yè)務應用主要包括業(yè)務訪問、并發(fā)負載等。
(2)可用模型-斷:通過梳理運維對象的指標中與狀態(tài)相關(guān)的指標,對于網(wǎng)絡設備、主機設備主要包括設備運行狀態(tài)、采集狀態(tài)等;對于數(shù)據(jù)庫類、中間件主要包括運行狀態(tài)、訪問狀態(tài)等;對于業(yè)務應用主要包括業(yè)務運行狀態(tài)、業(yè)務訪問狀態(tài)等。
(3)在用模型-閑:在用模型與性能模型相似度較高,對于網(wǎng)絡設備、主機設備主要包括設備的計算、網(wǎng)絡性能等;對于數(shù)據(jù)庫主要包括表使用、死鎖異常、會話數(shù)性能等;對于中間件主要包括JVM使用、會話數(shù)、使用率性能等;對于業(yè)務應用主要包括業(yè)務訪問、并發(fā)性能等。
(4)波動模型-亂:深入運維對象的性能、流量指標統(tǒng)計,分析波動規(guī)律,整理斷崖式的性能波動,如CPU、內(nèi)存陡然增長或下跌;或不符合規(guī)律的網(wǎng)絡行為,包括IP異常、流量異常等。
可視化看板的卡斷閑亂四種狀態(tài)模型從數(shù)據(jù)層面為信息系統(tǒng)提供了統(tǒng)一的分析,為了更好的對信息系統(tǒng)的運行狀態(tài)進行展現(xiàn),需要從可視化的角度進行簡單、高效、直觀的展現(xiàn)。采用一套基于業(yè)務視角的層次化展現(xiàn)方式,以信息系統(tǒng)、系統(tǒng)對象、對象指標的縱向維度進行統(tǒng)一展現(xiàn),在各層級突出不同的展現(xiàn)重點,幫助運維人員快速的發(fā)現(xiàn)、定位和解決信息系統(tǒng)異常問題。
可視化看板層次化展現(xiàn)具體采用多層下鉆式展現(xiàn)。第一層為信息系統(tǒng)整體狀態(tài)展現(xiàn),可以通過信息系統(tǒng)視角第一時間快速切入異常;第二層為信息系統(tǒng)內(nèi)部構(gòu)成狀態(tài)展現(xiàn),通過卡斷閑亂四種業(yè)務抽象幫助運維人員快速定位異常根源,第三層為指標狀態(tài)展現(xiàn),結(jié)合實時快照、診斷建議指導運維人員解決問題。
(1)抽象業(yè)務狀態(tài):可視化看板重點突出了斷(可用性)、閑(在用性)、卡(負載情況)和亂(波動情況)等運行狀態(tài),區(qū)別于告警僅單一的對指標進行監(jiān)測和越限提示,從業(yè)務的角度大大增強了關(guān)聯(lián)性,并根據(jù)歷史經(jīng)驗定義了各指標的計算權(quán)值,形成完整的業(yè)務模型。有效的描述了運維對象的真實運行情況,并其適用于同類對象的擴展。充分提高了運維人員對運行狀態(tài)的理解,降低對運維內(nèi)容的學習成本。
(2)層次化業(yè)務視角:可視化看板從信息系統(tǒng)整體發(fā)出,打造了三層的業(yè)務視角,各層視角立足于不同的核心需求,切實的幫助運維人員發(fā)現(xiàn)、定位和解決問題,加強了數(shù)據(jù)的關(guān)聯(lián)融合,有效的突出了重要數(shù)據(jù),切實的量化信息系統(tǒng)的運行狀態(tài),使信息系統(tǒng)變得能管、好管。
(3)掛撤牌合理分析:可視化看板采用了基于最近歷史權(quán)重的方式進行掛撤牌分析,不僅著眼于一個時間點的運行狀態(tài)情況,還有效地整合了歷史信息,能客觀地反映運維對象的整體運行狀態(tài),并通過掛撤牌方式進行管理提示。
(4)信息系統(tǒng)快照:可視化看板以信息系統(tǒng)的視角,提供信息系統(tǒng)的整體快照,保留了異常時刻的運行環(huán)境,為運維人員追溯問題和關(guān)聯(lián)分析提供了有力的支撐,相較傳統(tǒng)的單對象快照,意義更加豐富,數(shù)據(jù)更加有效。
通過信息系統(tǒng)遠程診斷狀態(tài)可視化看板的建設,實現(xiàn)對信息系統(tǒng)的遠程狀態(tài)診斷,幫助運維人員快速的發(fā)現(xiàn)、定位、解決問題,從而保障信息系統(tǒng)的長期穩(wěn)定運行。
(1)在實際生產(chǎn)環(huán)境中,當發(fā)生信息系統(tǒng)無法訪問的情況時,勢必造成部分生產(chǎn)事故,需要快速的投入人力進行解決。通過信息系統(tǒng)遠程診斷狀態(tài)可視化看板,在信息系統(tǒng)層面可以在第一時間發(fā)現(xiàn)問題,比大部分的信息系統(tǒng)用
戶更快發(fā)現(xiàn),而不需要等待信息系統(tǒng)用戶反饋。發(fā)現(xiàn)信息系統(tǒng)問題后,在信息系統(tǒng)內(nèi)部對象層面快速的定位到發(fā)生異常的具體對象,通??梢愿鶕?jù)卡(負載情況)和斷(可用性)來進行具體的定位,當某個對象在卡的狀態(tài)時,有幾率因為負載過高導致無法處理更多的請求;當某個對象在斷的狀態(tài)時,則無法提供任何服務。發(fā)現(xiàn)信息系統(tǒng)內(nèi)部對象的問題后,通過定位到更加具體的指標以解決實際問題,通過快照數(shù)據(jù)對異常對象的各類指標進行綜合分析,找到引起異常的具體的指標,并根據(jù)知識庫提供具體的解決建議,快速有效的解決信息系統(tǒng)無法訪問的異常。
(2)信息系統(tǒng)無法訪問的情況一般比較少,而大部分情況更多的是信息系統(tǒng)訪問卡頓的問題。通過信息系統(tǒng)遠程診斷狀態(tài)可視化看板,關(guān)注在信息系統(tǒng)的健康情況,當信息系統(tǒng)健康度持續(xù)下降時,可能出現(xiàn)了訪問卡頓的情況。在信息系統(tǒng)內(nèi)部對象層面快速的定位到可能引起卡頓的具體對象,通??梢愿鶕?jù)卡(負載情況)和亂(波動情況)來進行具體的定位,當某個對象在卡的狀態(tài)時,有幾率因為負載長期居高不下造成處理的延時;當某個對象在亂的狀態(tài)時,則在一定意義上出現(xiàn)了不符合規(guī)律的異常,相比其他同類對象產(chǎn)生影響的機率更大。發(fā)現(xiàn)信息系統(tǒng)內(nèi)部對象的問題后,通過定位到具體的指標,綜合快照數(shù)據(jù)和建議解決問題。
(3)信息系統(tǒng)長期穩(wěn)定正常運行后,可以對信息系統(tǒng)進行調(diào)優(yōu),釋放長期閑置的資源。在信息系統(tǒng)內(nèi)部對象層面快速的定位到可以進行調(diào)優(yōu)的具體對象,通??梢愿鶕?jù)閑(在用性)來進行具體的定位。在信息系統(tǒng)之間,某信息系統(tǒng)對象的閑置時間明顯高于其他信息系統(tǒng),則該信息系統(tǒng)相對于其他信息系統(tǒng)則調(diào)整的可能性更大。當某個對象處于閑的狀態(tài)時,其資源的利用率處于較低的狀態(tài),該對象相比其他對象則調(diào)整的可行性更大。再結(jié)合具體的快照數(shù)據(jù)進行分析,若該對象的各類指標的使用率長期低于其他同類設備,則可以對該對象進行調(diào)優(yōu),釋放閑置的計算、存儲、網(wǎng)絡能力,使信息系統(tǒng)的配置最優(yōu)。
(1)可視化看板創(chuàng)新性的歸納總結(jié)了斷(可用性)、閑(在用性)、卡(負載情況)和亂(波動情況)等運行狀態(tài),并和對象的指標進行有機關(guān)聯(lián),通過掛牌的技術(shù)手段,合理建立運行狀態(tài)模型,分析運維對象的運行情況,減少運維人員的告警學習處理成本,提升對信息系統(tǒng)運行狀態(tài)的理解,提高運維的效率和體驗。
(2)可視化看板基于信息系統(tǒng)視角,提供了一整套狀態(tài)診斷解決方案,其中包括狀態(tài)模型的定義和數(shù)據(jù)層級化展現(xiàn),以一種更直觀更動態(tài)的方式,對信息系統(tǒng)及內(nèi)部的對象進行監(jiān)控和管理,不僅在可視化的效果上大大加強,也直接的提高了工作效率。
(3)可視化看板實現(xiàn)信息系統(tǒng)狀態(tài)異常發(fā)現(xiàn)、定位、解決的閉環(huán)管理,不局限在一個點上,而是深度滿足運維人員工作需求,幫助運維人員加速追溯問題源頭,輕松定位問題明細,有效提供解決方案,確保有效的解決異常,保證信息系統(tǒng)穩(wěn)定運行。