亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        云計算平臺的智能監(jiān)控研究

        2023-02-20 00:57:42陸寧
        大科技 2023年4期
        關(guān)鍵詞:故障分析系統(tǒng)

        陸寧

        (廣西壯族自治區(qū)信息中心,廣西 南寧 530200)

        0 引言

        隨著云計算技術(shù)的不斷發(fā)展,基于云計算平臺部署的網(wǎng)絡(luò)、應(yīng)用系統(tǒng)復(fù)雜度日漸提高,使云平臺運維管理工作難度也隨之急劇上升。而云、網(wǎng)、系統(tǒng)之間的協(xié)同運行管理邊界也越來越復(fù)雜,進一步增加了云平臺日常運維壓力。因此研究云計算平臺的智能監(jiān)控方式,有助于提高云平臺運行管理效率和服務(wù)支撐水平。

        1 云計算平臺運維面臨的問題

        (1)運維管理被動。故障發(fā)生時,管理人員難以主動、及時地發(fā)現(xiàn),往往在故障影響范圍擴大、用戶體驗度下降后,才能被動響應(yīng)。

        (2)故障排查低效。由于云平臺上的應(yīng)用系統(tǒng)規(guī)模龐大復(fù)雜,故障排查效率難以提升。在故障定位方面,存在多種運行環(huán)境、多個運維團隊、多個技術(shù)廠商。缺乏統(tǒng)一的監(jiān)測標(biāo)準(zhǔn)和管理手段,在孤島模式獨立排查將大量耗費人力、時間資源。

        (3)劃分責(zé)任邊界難。云平臺運維管理服務(wù)于各云業(yè)務(wù)資源使用用戶,云平臺作為基礎(chǔ)支撐平臺與在其基礎(chǔ)上運行的系統(tǒng)資源,管理方各不相同,發(fā)生業(yè)務(wù)故障時無法快速界定責(zé)任方。

        (4)故障溯源困難。隨著全國各類關(guān)鍵信息系統(tǒng)的可用性要求變高,需要在發(fā)生故障后,精準(zhǔn)定位問題快速恢復(fù)使用。

        (5)容量性能管理難。對網(wǎng)絡(luò)、應(yīng)用、業(yè)務(wù)的運行狀態(tài)可見性不夠,使得政務(wù)系統(tǒng)整體的容量性能評估依據(jù)不足,無法得知復(fù)雜環(huán)境中每個環(huán)節(jié)的容量、性能情況,也無法準(zhǔn)確了解容量性能瓶頸,并評估云平臺、網(wǎng)絡(luò)等對業(yè)務(wù)造成的影響。

        2 基于云平臺的智能監(jiān)控

        2.1 研究目標(biāo)

        (1)實現(xiàn)運維故障主動感知,主動探測故障。傳統(tǒng)運維監(jiān)控平臺都是出現(xiàn)故障后,先是業(yè)務(wù)系統(tǒng)得到感知,再由業(yè)務(wù)系統(tǒng)通知運維側(cè)。造成故障感知滯后,通過智能監(jiān)測平臺主動發(fā)現(xiàn)故障,并及時通知業(yè)務(wù)系統(tǒng),避免“被動挨打”。從“被動通知有故障”到“主動發(fā)現(xiàn)問題”的轉(zhuǎn)變。著名咨詢機構(gòu)Gartner 把IT 管理體系分為經(jīng)營管理、業(yè)務(wù)監(jiān)控、應(yīng)用分析、網(wǎng)絡(luò)性能分析、系統(tǒng)架構(gòu)監(jiān)控5 個層次(圖1),需將業(yè)務(wù)監(jiān)控入當(dāng)成是第一感知源,才能有效扭轉(zhuǎn)運維工作面臨的故障信息感知滯后的局面[1]。通過構(gòu)建業(yè)務(wù)級端到端視圖和業(yè)務(wù)運行分級預(yù)警,猶如在云網(wǎng)關(guān)鍵節(jié)點設(shè)立業(yè)務(wù)神經(jīng)感知網(wǎng)絡(luò),能夠第一時間發(fā)現(xiàn)“業(yè)務(wù)故障蹤跡”。

        圖1 IT 管理體系

        (2)快速定位故障,責(zé)任邊界劃分。常規(guī)故障定位均是由業(yè)務(wù)系統(tǒng)側(cè)發(fā)起,通知云、網(wǎng)側(cè)去排查云平臺、網(wǎng)絡(luò)和硬件設(shè)備。智能監(jiān)控平臺通過網(wǎng)絡(luò)、設(shè)備、虛機狀態(tài)全局分析,快速定位故障點,為業(yè)務(wù)系統(tǒng)故障排查提供強力佐證。

        (3)平臺和設(shè)備性能狀態(tài)全知曉,提前應(yīng)對風(fēng)險。對網(wǎng)絡(luò)、設(shè)備、虛擬機狀態(tài)的全局分析,對發(fā)生的故障狀態(tài)、閾值進行機器學(xué)習(xí),對故障預(yù)警算法根據(jù)現(xiàn)網(wǎng)環(huán)境進行優(yōu)化。當(dāng)平臺和設(shè)備出現(xiàn)異常波動時,及時做出風(fēng)險預(yù)警。

        2.2 研究技術(shù)思路

        目前主流的業(yè)務(wù)、網(wǎng)絡(luò)、云上數(shù)據(jù)性能分析和監(jiān)控有三大技術(shù)流派,分別是流量分析流派、日志流派和代理插件流派。

        流量分析流派通過旁路鏡像技術(shù)獲得真實的業(yè)務(wù)流量數(shù)據(jù),實時生成各類評估指標(biāo),實現(xiàn)業(yè)務(wù)性能感知、業(yè)務(wù)故障分級預(yù)警、網(wǎng)絡(luò)流量可視化監(jiān)測、網(wǎng)絡(luò)性能回溯分析等能力,用于業(yè)務(wù)和網(wǎng)絡(luò)性能監(jiān)測、故障診斷定位及各類事件的實時分析和數(shù)據(jù)取證[2]。

        日志流派記錄硬件、軟件和各類系統(tǒng)的日志信息,可以監(jiān)視系統(tǒng)中發(fā)生的事件。采用該技術(shù),用戶可以檢查錯誤發(fā)生的原因,尋找受到攻擊時攻擊者留下的痕跡。日志包括系統(tǒng)日志、應(yīng)用程序日志和安全日志等。

        代理插件流派對關(guān)鍵業(yè)務(wù)應(yīng)用進行監(jiān)測和獲取優(yōu)化信息,以實現(xiàn)性能管理和故障診斷,提高關(guān)鍵業(yè)務(wù)應(yīng)用的可靠性和業(yè)務(wù)訪問質(zhì)量,保障用戶得到良好的服務(wù);覆蓋5 個方面的能力,包括終端用戶體驗、應(yīng)用架構(gòu)映射、應(yīng)用事務(wù)的分析、深度應(yīng)用診斷和數(shù)據(jù)分析。

        從占用資源、信源采集方式、覆蓋廣度、實施風(fēng)險、數(shù)據(jù)可靠性、部署周期等維度對比,優(yōu)選技術(shù)成熟,部署影響最小,且見效最快的流量分析流派,作為云智能監(jiān)控平臺的首選技術(shù)。從平臺的組成和分析方法考慮,至少包含4 個層面,即業(yè)務(wù)流量采集層、網(wǎng)絡(luò)報文解析層、監(jiān)控與接口層、數(shù)據(jù)分析層。各層環(huán)環(huán)相扣,從基礎(chǔ)業(yè)務(wù)數(shù)據(jù)采集到業(yè)務(wù)邏輯梳理和建模,再經(jīng)過大數(shù)據(jù)分析加工產(chǎn)生各類業(yè)務(wù)網(wǎng)絡(luò)指標(biāo),最后結(jié)合運維場景進行統(tǒng)一呈現(xiàn)。

        (1)采集層,是平臺架構(gòu)的數(shù)據(jù)來源,在物理網(wǎng)絡(luò)匯聚節(jié)點通過交換機鏡像技術(shù)或云平臺引流技術(shù),采集實時交互的業(yè)務(wù)流量數(shù)據(jù)。

        (2)網(wǎng)絡(luò)報文解析層,對采集到的全部業(yè)務(wù)數(shù)據(jù)進行過濾(業(yè)務(wù)訪問邏輯梳理)、初步加工(數(shù)據(jù)預(yù)處理),最終匯集到智能解碼引擎(業(yè)務(wù)報文解碼)進行實時處理。

        (3)監(jiān)控與接口層,智能解碼引擎基于各類應(yīng)用平臺的協(xié)議規(guī)范完成解碼后,依據(jù)不同的運維場景執(zhí)行監(jiān)控動作,包括業(yè)務(wù)分級預(yù)警、指標(biāo)趨勢分析、訪問明細追蹤、生成運維報表等,相關(guān)數(shù)據(jù)可以通過接口向外推送。

        (4)數(shù)據(jù)分析層,針對不同場景需求,定義分析視圖,完成指標(biāo)與使用場景的匹配和展示。云智能監(jiān)控平臺主要覆蓋的區(qū)域包括云出口、云核心、云匯聚、云主機和云安全管理等的區(qū)域。在核心交換機區(qū)域做端口鏡像流量采集點,實現(xiàn)對全局流量的分析。在云內(nèi)虛機部署微探針,實現(xiàn)對云內(nèi)流量的采集和分析。

        2.3 主要研究過程

        云計算平臺開展智能監(jiān)控,主要從3 個過程進行分析,即主動監(jiān)測分析快速定位故障、端到端精細化追蹤降低監(jiān)測誤報率、統(tǒng)一監(jiān)控度量標(biāo)準(zhǔn)實現(xiàn)精準(zhǔn)預(yù)警。

        2.3.1 主動監(jiān)測分析快速定位故障

        采用網(wǎng)絡(luò)探針、海量日志歸等的技術(shù)對云平臺關(guān)鍵區(qū)域?qū)嵤┤旌?、全流量主動監(jiān)測,結(jié)合網(wǎng)絡(luò)流量報表,基礎(chǔ)設(shè)施日志等信息加以對比分析,縮小故障范圍,快速定位故障發(fā)生的位置,旨在主動發(fā)現(xiàn)網(wǎng)絡(luò)流量突發(fā)性暴增或暴跌、業(yè)務(wù)系統(tǒng)計算資源(CPU、內(nèi)存、存儲等)和網(wǎng)絡(luò)需求超出基礎(chǔ)設(shè)施上限、設(shè)備老化失靈宕機、人為誤操作等可能造成業(yè)務(wù)系統(tǒng)中斷的故障現(xiàn)象[3]。

        通過在基礎(chǔ)網(wǎng)絡(luò)核心節(jié)點部署網(wǎng)絡(luò)探針,云主機側(cè)部署微探針捕捉全應(yīng)用場景的南北向、東西流量,結(jié)合SNMP 協(xié)議、IPMI 和EFK 等工具搜集并歸總分布在基礎(chǔ)網(wǎng)絡(luò)設(shè)備、服務(wù)器運行情況、操作系統(tǒng)及基礎(chǔ)軟件服務(wù)日志。最后將歸總后的日志數(shù)據(jù)進行加工統(tǒng)一日志格式與聚合,存儲到監(jiān)控后端時序型數(shù)據(jù)庫便于后期的檢索和查詢。

        2.3.2 端到端精細化追蹤降低監(jiān)測誤報率

        為進一步提高云平臺主動監(jiān)測的有效性、時效性,采用端到端鏈?zhǔn)礁櫟募夹g(shù),從業(yè)務(wù)系統(tǒng)客戶端發(fā)出請求抵達業(yè)務(wù)系統(tǒng)邊界開始,跟蹤記錄請求流經(jīng)的各個應(yīng)用服務(wù)的跨度(網(wǎng)絡(luò)傳輸、系統(tǒng)調(diào)用、業(yè)務(wù)處理、數(shù)據(jù)落盤等),直到向客戶端返回響應(yīng)為止。分析各階段的響應(yīng)結(jié)果和耗時、系統(tǒng)調(diào)用返回結(jié)果、系統(tǒng)異常信息、消息報文等性能指標(biāo),縮小故障現(xiàn)象的范圍,提高故障排查的速度,確保精準(zhǔn)性和可靠性。

        實現(xiàn)端到端鏈?zhǔn)礁?,目的是為排查故障和分析性能提供?shù)據(jù)支持。在系統(tǒng)對外提供服務(wù)的過程中,持續(xù)地接受請求并處理響應(yīng),同時持續(xù)地生成跟蹤記錄,按次序整理并跟蹤記錄中每一個應(yīng)用服務(wù)跨度的調(diào)用關(guān)系,能夠繪制出一幅系統(tǒng)的服務(wù)調(diào)用拓?fù)鋱D[4]。根據(jù)拓?fù)鋱D中應(yīng)用服務(wù)跨度記錄的時間信息和響應(yīng)結(jié)果(正?;虍惓7祷兀?,可以定位到緩慢或者出錯的服務(wù);將跟蹤記錄與歷史記錄進行對比統(tǒng)計,可以從系統(tǒng)整體層面分析服務(wù)性能,達到優(yōu)化故障定位性能的目標(biāo)。

        基于日志和網(wǎng)絡(luò)流量的跟蹤技術(shù)是將跟蹤記錄、應(yīng)用服務(wù)跨度等信息直接集成到采集的日志中,然后隨著所有節(jié)點的日志歸集過程匯聚到一起,根據(jù)全局日志信息中反推出完整的調(diào)用鏈拓?fù)潢P(guān)系。

        2.3.3 統(tǒng)一監(jiān)控度量標(biāo)準(zhǔn)實現(xiàn)精準(zhǔn)預(yù)警

        從總體上來看,統(tǒng)一監(jiān)控度量可分為網(wǎng)絡(luò)流量和終端日志數(shù)據(jù)的指標(biāo)收集、服務(wù)端的存儲查詢以及終端的監(jiān)控預(yù)警3 個相對獨立的過程。度量的目的是揭示系統(tǒng)的總體運行狀態(tài);統(tǒng)一監(jiān)控度量能夠采用經(jīng)過聚合統(tǒng)計后的高維度信息,以最簡單、直觀的方式分析系統(tǒng)復(fù)雜運行過程,為監(jiān)控、預(yù)警提供決策支持。

        指標(biāo)收集部分要解決兩個問題,即“如何定義指標(biāo)”以及“如何將這些指標(biāo)告訴服務(wù)端”。無論目標(biāo)是何系統(tǒng),都具備一些共性特征。在確定目標(biāo)系統(tǒng)前無法決定要收集什么指標(biāo),但指標(biāo)的數(shù)據(jù)類型是可數(shù)的,即通過設(shè)計指標(biāo)的數(shù)據(jù)類型確定目標(biāo)系統(tǒng)要收集的指標(biāo)。

        (1)計數(shù)度量器。計數(shù)器為最常用的指標(biāo)形式,對有相同量綱、可加減數(shù)值的合計量,像服務(wù)調(diào)用次數(shù)、網(wǎng)站訪問人數(shù)等都屬于計數(shù)器指標(biāo)。

        (2)瞬態(tài)度量器。瞬態(tài)度量器用來表示某個指標(biāo)在某個時點的數(shù)值,比如Java 虛擬機內(nèi)存的使用量或云平臺用戶在線人數(shù)都屬于瞬態(tài)度量器。

        (3)吞吐率度量器。吞吐率度量器是用于統(tǒng)計單位時間的吞吐量,即單位時間內(nèi)某個事件的發(fā)生次數(shù)。譬如交易系統(tǒng)中常以TPS 衡量事務(wù)吞吐率,即一秒內(nèi)發(fā)生了多少筆事務(wù)交易。

        (4)直方圖度量器。直方圖是常見的二維統(tǒng)計圖,包含兩個坐標(biāo),分別是統(tǒng)計樣本和該樣本對應(yīng)的某個屬性的度量,以長條圖的形式表示具體數(shù)值。

        (5)采樣點分位圖度量器。分位圖是統(tǒng)計學(xué)中通過比較各分位數(shù)的分布情況的工具,用于驗證實際值與理論值的差距,評估理論值與實際值之間的擬合度。

        在解決“如何將這些指標(biāo)告訴服務(wù)端”的問題時,通常采用拉取式采集或推送式采集方案。所謂拉取式采集,強調(diào)主動從目標(biāo)系統(tǒng)中拉取指標(biāo)。與之相對,推送式采集就是由目標(biāo)系統(tǒng)主動推送指標(biāo)。指標(biāo)從目標(biāo)系統(tǒng)采集過來之后,應(yīng)存儲在后端監(jiān)控時序型數(shù)據(jù)庫中,方便后續(xù)的分析界面、監(jiān)控預(yù)警所使用。時序數(shù)據(jù)庫用于存儲跟隨時間而變化的數(shù)據(jù),并且以時間(時間點或者時間區(qū)間)來建立索引的數(shù)據(jù)庫[5]。

        指標(biāo)度量是手段,最終目的是做分析和預(yù)警。良好的可視化能力對于提升度量系統(tǒng)的產(chǎn)品力十分重要,長期趨勢分析(如根據(jù)對磁盤增長趨勢的觀察判斷什么時候需要擴容)、對照分析(如版本升級后對比新舊版本的性能、資源消耗等方面的差異)、故障分析(不僅從日志、追蹤自底向上可以分析故障,高維度的度量指標(biāo)也可能自頂向下尋找到問題的端倪)等分析工作,既需要度量指標(biāo)的持續(xù)收集、統(tǒng)計,還需要對數(shù)據(jù)進行可視化,才能完成數(shù)據(jù)規(guī)律挖掘。

        度量信息的另一種主要的消費途徑是用來做預(yù)警。如當(dāng)磁盤消耗超過90%時給用戶發(fā)送一封郵件或是一條微信消息,通知管理員過來處理,則能完成系統(tǒng)故障預(yù)警。通過設(shè)置某個指標(biāo)在多長時間內(nèi)達到何種條件就會觸發(fā)預(yù)警狀態(tài),觸發(fā)預(yù)警后,根據(jù)接收器的策略(郵件接收器、Slack 接收器、微信接收器,或者以通用的WebHook(opens new window)接收器等)自動通知用戶。

        3 結(jié)語

        云網(wǎng)智能監(jiān)測平臺與傳統(tǒng)的主機監(jiān)控有相似和重合的地方,如計算、存儲、網(wǎng)絡(luò)等主機資源的監(jiān)控,對進程、磁盤IO、網(wǎng)絡(luò)流量等系統(tǒng)指標(biāo)的監(jiān)控等。

        針對云網(wǎng)智能監(jiān)測平臺實施運維監(jiān)控,依然需采用傳統(tǒng)的監(jiān)控指標(biāo),但還需考慮到云原生中采用的容器、服務(wù)網(wǎng)格、微服務(wù)等新技術(shù)、新架構(gòu)的監(jiān)控需求和面臨的運維挑戰(zhàn)。例如,在資源層面要實現(xiàn)CPU、內(nèi)存等在容器、Pod、Service、Tenant 等不同層次的識別和映射;在進程的監(jiān)控上要能夠精準(zhǔn)識別到容器,甚至需細化到進程的系統(tǒng)調(diào)用、內(nèi)核功能調(diào)用等層面;在網(wǎng)絡(luò)上,除了主機物理網(wǎng)絡(luò)之外,還包括Pod 之間的虛擬化網(wǎng)絡(luò),并且需對應(yīng)用之間的Mesh 網(wǎng)絡(luò)流量實施觀測。

        從應(yīng)用層來看,在微服務(wù)架構(gòu)下,主機上的應(yīng)用變得異常復(fù)雜,既包括應(yīng)用本身的平均延時、應(yīng)用間的API 調(diào)用鏈、調(diào)用參數(shù)等,還包括應(yīng)用所承載的業(yè)務(wù)信息,比如業(yè)務(wù)調(diào)用邏輯、參數(shù)等信息。

        通過分析應(yīng)用系統(tǒng)的指標(biāo)、鏈路、日志等數(shù)據(jù),構(gòu)建完整的觀測模型,從而實現(xiàn)故障診斷、原因分析和快速恢復(fù)。

        猜你喜歡
        故障分析系統(tǒng)
        Smartflower POP 一體式光伏系統(tǒng)
        WJ-700無人機系統(tǒng)
        隱蔽失效適航要求符合性驗證分析
        ZC系列無人機遙感系統(tǒng)
        北京測繪(2020年12期)2020-12-29 01:33:58
        故障一點通
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
        電力系統(tǒng)及其自動化發(fā)展趨勢分析
        奔馳R320車ABS、ESP故障燈異常點亮
        故障一點通
        色婷婷久久免费网站| 日韩精品一区二区午夜成人版| 怡红院a∨人人爰人人爽| 日日摸夜夜欧美一区二区| 日韩精品极品在线观看视频| 亚洲精品视频1区2区| 成人av鲁丝片一区二区免费| 欧美高大丰满freesex| 亚洲啪啪AⅤ一区二区三区| 女优av一区二区在线观看| 日本最新免费二区三区| 亚洲人成人影院在线观看| 国产 在线播放无码不卡| 亚洲日本中文字幕乱码在线| 正在播放强揉爆乳女教师| 国产午夜成人久久无码一区二区 | 精品久久久无码中文字幕| 国产丝袜免费精品一区二区| 国产激情一区二区三区成人| 艳z门照片无码av| 国内精品久久久久久久久齐齐| 素人系列免费在线观看| 国产精品三区四区亚洲av| 久久精品国产亚洲av麻豆| AV成人午夜无码一区二区| 按摩偷拍一区二区三区| 国产日韩精品suv| 国产山东熟女48嗷嗷叫| 国产9 9在线 | 免费| 四季极品偷拍一区二区三区视频| 日日天干夜夜狠狠爱| 亚洲狠狠网站色噜噜| 一本色道久久88综合| 亚洲精品久久国产精品| 成av人片一区二区三区久久| 精品的一区二区三区| 亚洲伊人av天堂有码在线| 曰本无码人妻丰满熟妇啪啪| 日韩中文字幕不卡网站| 亚洲乱熟妇一区二区三区蜜桃 | 日本最新视频一区二区|