亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        云環(huán)境下保障業(yè)務(wù)連續(xù)性故障診斷技術(shù)研究

        2019-10-19 07:30:58趙瑩王國平路學(xué)剛楊勰劉軍劉賽
        現(xiàn)代計(jì)算機(jī) 2019年25期
        關(guān)鍵詞:故障診斷故障

        趙瑩,王國平,路學(xué)剛,楊勰,劉軍,劉賽

        (1.云南電網(wǎng)有限責(zé)任公司,昆明650011;2.南瑞集團(tuán)有限公司(國網(wǎng)電力科學(xué)研究院有限公司),南京210003;3.南京南瑞信息通信科技有限公司,南京210003)

        0 引言

        在國家大力倡導(dǎo)推進(jìn)云數(shù)據(jù)中心建設(shè)的背景下,眾多服務(wù)依賴于云環(huán)境,一旦云環(huán)境發(fā)生故障錯誤,將會導(dǎo)致嚴(yán)重的后果。近年來,云環(huán)境發(fā)生故障事件頻發(fā),例如,在2018 年一月份,由于谷歌自動化設(shè)備的故障導(dǎo)致長達(dá)93 分鐘的停運(yùn),隨之而來的后果導(dǎo)致谷歌軟件上最受歡迎的一些應(yīng)用程序突然停止服務(wù),指使谷歌資金損失慘重。2018 年2 月28 日,亞馬遜云服務(wù)平臺(AWS)因錯誤指令而導(dǎo)致停電。據(jù)Cyence 報(bào)道的數(shù)據(jù)統(tǒng)計(jì)分析,由于AWS 長達(dá)四小時(shí)的服務(wù)中斷,不僅導(dǎo)致五百家上市公司損失了1.5 億左右的美元而且還引起了大量用戶的投訴意見。網(wǎng)絡(luò)監(jiān)測公司Apica做過相關(guān)研究,其指出世界排名前100 位的互聯(lián)網(wǎng)零售商中起碼有54 家都因?yàn)楣收嫌绊憣?dǎo)致其收益下降了20%以上,甚至有3 家網(wǎng)站因此暫停了服務(wù)。18 年六月份,阿里云的官方網(wǎng)站的控制臺和部分產(chǎn)品功能由于處理不當(dāng)出現(xiàn)故障;阿里云的官方網(wǎng)站的一部分控制功能,還有MQ、NAS、OSS 等產(chǎn)品的一些功能由于人為惡意攻擊同樣也出現(xiàn)了訪問異常的情況,一些用戶報(bào)告說,手機(jī)方面和電腦方面都無法訪問。2018 年七月初,AWS 的管理控制平臺出現(xiàn)間歇性失靈狀況。同年七月中旬,谷歌云平臺由于事先準(zhǔn)備工作不當(dāng)導(dǎo)致大面積負(fù)載均衡服務(wù)發(fā)生故障,這直接導(dǎo)致用戶短時(shí)間內(nèi)無法訪問云平臺。

        當(dāng)今,容災(zāi)備份恢復(fù)的解決已經(jīng)刻不容緩,相關(guān)專家指出該問題已經(jīng)上升到國家信息發(fā)展的戰(zhàn)略高度,成為國家信息安全體系的核心問題之一[1]。針對該問題提出的抗災(zāi)后備和災(zāi)后恢復(fù)系統(tǒng)已成為通向信息化社會道路必不可少的基礎(chǔ)安全設(shè)施,其中容災(zāi)備份的一個應(yīng)用延伸為保障業(yè)務(wù)連續(xù)性,即(Business Continuity),業(yè)務(wù)連續(xù)性主要是指組織在故障事件后可以以預(yù)定的、可接受范圍內(nèi)的水平持續(xù)提供服務(wù)的能力。業(yè)務(wù)連續(xù)保護(hù)目前在國際上受到了相當(dāng)大的關(guān)注,它是由多學(xué)科相互交叉的新興前沿研究熱點(diǎn)領(lǐng)域,因此研究業(yè)務(wù)連續(xù)保護(hù)相當(dāng)有必要。云南電力高度重視業(yè)務(wù)連續(xù)性在公司信息系統(tǒng)中的應(yīng)用研究工作,已開展各類信息系統(tǒng)的數(shù)據(jù)級、應(yīng)用級以及雙活災(zāi)備建設(shè)實(shí)踐。在應(yīng)用中,為了解決數(shù)據(jù)復(fù)制一致性問題,除了采用傳統(tǒng)的基于邏輯級的數(shù)據(jù)復(fù)制技術(shù)外,目前云南電力公司也在開展基于塊復(fù)制的物理級數(shù)據(jù)復(fù)制技術(shù)試點(diǎn)驗(yàn)證工作,但這些技術(shù)僅針對傳統(tǒng)環(huán)境下數(shù)據(jù)庫層面解決數(shù)據(jù)異地災(zāi)備問題。隨著電網(wǎng)公司業(yè)務(wù)上云,傳統(tǒng)的業(yè)務(wù)開通、遷移、資源調(diào)配、故障恢復(fù)等解決方案已無法滿足云環(huán)境下的業(yè)務(wù)連續(xù)性保障要求。如何確保云數(shù)據(jù)中心/云平臺在地震、洪水、火災(zāi)等自然條件引起的事故破壞或失敗后及時(shí)恢復(fù),在這基礎(chǔ)上確保業(yè)務(wù)的連續(xù)性是一個亟待解決的重要問題。而在該問題中,在云平臺下保障業(yè)務(wù)連續(xù)性并對故障進(jìn)行快速的定位和恢復(fù)則是重中之重。

        故障診斷技術(shù)早在40 年之前就已經(jīng)有人開始著手研究,發(fā)展至今已經(jīng)相當(dāng)成熟,主要應(yīng)用于大型電網(wǎng)、軍事、航空航天、汽車工業(yè)等領(lǐng)域中[2-3]。目前常用的故障診斷方法包括、基于專家系統(tǒng)的診斷評估方法、基于貝葉斯網(wǎng)絡(luò)的診斷評估方法和基于故障樹的診斷評估方法等[4]。此外,許多學(xué)者還基于新興的技術(shù)提出了很多新的方法,如基于隱馬爾科夫和神經(jīng)網(wǎng)絡(luò)相結(jié)合的集成模型[5],基于混合鍵合圖模型的綜合診斷方案[6],基于最小動態(tài)貝葉斯網(wǎng)絡(luò)構(gòu)建了最小評價(jià)模型(H-MEMS)[7]等。

        專家系統(tǒng)是由該領(lǐng)域內(nèi)專家所提供的專業(yè)知識為基礎(chǔ)形成的評估體系,可以利用該系統(tǒng)不斷積累知識經(jīng)驗(yàn)來診斷故障,該方法的特點(diǎn)是簡單,但在知識不全面、經(jīng)驗(yàn)不足的條件下,專家系統(tǒng)的表現(xiàn)不佳。貝葉斯網(wǎng)絡(luò)可以通過該網(wǎng)絡(luò)的無環(huán)圖結(jié)構(gòu)描述變量之間的關(guān)系網(wǎng)絡(luò),表達(dá)故障的相關(guān)性,但結(jié)構(gòu)復(fù)雜,計(jì)算復(fù)雜程度很高。故障樹分析法主要用于分析各種導(dǎo)致設(shè)備出現(xiàn)故障的因素,通過構(gòu)建樹,根據(jù)樹狀結(jié)構(gòu),逐層細(xì)化,找出并繪制出出現(xiàn)故障的所有可能組合。該方法適用的環(huán)境非常廣泛,其不僅可以分析軟硬件本身出現(xiàn)故障的原因,推到出導(dǎo)致系統(tǒng)故障的原因組合,還能進(jìn)行定量計(jì)算。雖然故障樹分析法也存在一些問題,包括一旦故障樹規(guī)則確定后續(xù)就不好更改,如果有新的故障將無法很好地診斷,但利用故障樹分析法實(shí)現(xiàn)故障診斷仍然存在非常大的優(yōu)勢。

        基于此,本文針對云環(huán)境,根據(jù)知識庫保存的歷史只是構(gòu)建故障樹,結(jié)合故障樹分析法實(shí)現(xiàn)故障樹規(guī)則的自我更新完善,通過分析云業(yè)務(wù)系統(tǒng)故障,針對這些故障分析出故障處理流程和具體的故障處理建議,達(dá)到對故障進(jìn)行快速的定位和恢復(fù)的目的。

        1 故障樹分析法

        故障樹分析法(Fault Tree Analysis,F(xiàn)TA),是在1961 年由美國貝爾實(shí)驗(yàn)室的研究員華特先生為提升火箭發(fā)射系統(tǒng)安全性、可靠性而提出的[8]。它是一種適用于故障診斷的分析方法,主要通過圖演繹的方式,目前已被成功運(yùn)用于對化工[9]、航空航天[10]、核電站[11]、制造工藝[12]、汽車故障[13]等各個領(lǐng)域的安全性分析。該方法是通過將導(dǎo)致形成故障的因素根據(jù)樹的結(jié)構(gòu)逐級推演,從而得出系統(tǒng)故障的原因,該方法甚至可以進(jìn)一步計(jì)算每種故障發(fā)生的概率,找出產(chǎn)生系統(tǒng)故障因素的所有組合。故障樹分析法的有點(diǎn)非常多:它能夠分析任何故障,不單單局限于分析由于軟硬件本身引起的故障,還包括一些人為導(dǎo)致或者周圍環(huán)境引起的故障原因;它通過分析可以確定最小割集,最小割集可以幫助系統(tǒng)確定系統(tǒng)的缺陷和所有可能存在的故障模式,并通過定量計(jì)算故障分布和發(fā)生概率,從而求得最小割集重要度,確定正確的診斷流程以及確定每個故障相應(yīng)的優(yōu)先級。

        1.1 最小割集

        最小割集是可靠性統(tǒng)計(jì)的基本概念之一,站在故障的角度,由于每個底層事件都是由系統(tǒng)所能測量和控制的最低分析單元組成,因此它其實(shí)表示的是導(dǎo)致系統(tǒng)出現(xiàn)故障的最根本的原因。換句話來說,如果最小割集中所有的部件都出現(xiàn)了故障,這意味著該系統(tǒng)也就出現(xiàn)了故障。所以,最小切割集是那些導(dǎo)致系統(tǒng)出現(xiàn)中斷或者故障的最小因素組合。確定最小割集可以使我們準(zhǔn)確系統(tǒng)所有潛在危機(jī),它是實(shí)現(xiàn)精準(zhǔn)故障診斷的核心。

        除了最小割集之外,頂部事件發(fā)生的概率也是評估系統(tǒng)故障的一個定量描述。因此。通過系統(tǒng)模型中的頂事件以及最小割集的發(fā)生概率,求得系統(tǒng)發(fā)生異常甚至故障的原因。

        假設(shè)某系統(tǒng)模型的最小割集K{X1,X2,…,Xn},其中Xn表示第n 個底事件,值得注意的是最小割集種的每個底事件沒有交集完全獨(dú)立,因此根據(jù)計(jì)算每個底事件的發(fā)生概率的積可以得到最小割集的概率PK,計(jì)算公式如下:

        根據(jù)等式(1),按照故障樹的邏輯結(jié)構(gòu)從下往上逐步計(jì)算,可以求得故障樹頂事件發(fā)生的概率。已知可以通過使用頂事件和最小割集組成的或門來表示任何一種故障,因此頂事件的發(fā)生概率可以通過最小割集計(jì)算得到,假設(shè)已知故障樹的最小割集Mi,其中該故障樹包含m 個最小割集,可以求得該故障樹的頂事件發(fā)生概率為:。通過計(jì)算最小割集重要度PM/T=PM/PT,獲得每個最小割集的優(yōu)先級,從而明確診斷流程及診斷順序。

        1.2 基于故障樹的故障診斷

        故障會給系統(tǒng)帶來很大的損失,而若無法及時(shí)找到故障原因并快速解決故障,則可能會導(dǎo)致更加嚴(yán)重的損失。為了達(dá)到這個目的,需要系統(tǒng)運(yùn)維人員根據(jù)之前的工作經(jīng)驗(yàn)來設(shè)計(jì)一個監(jiān)管控制系統(tǒng)模型,實(shí)現(xiàn)對系統(tǒng)的重要設(shè)備的實(shí)時(shí)監(jiān)控和狀態(tài)數(shù)據(jù)的實(shí)時(shí)采集,而對于那些有著高風(fēng)險(xiǎn)和高故障率的設(shè)備或模塊,需要進(jìn)行比其他設(shè)備更加高頻的監(jiān)控。運(yùn)維人員對采集到的實(shí)時(shí)數(shù)據(jù)進(jìn)行分析,若數(shù)據(jù)超出了閾值,那么便認(rèn)定有故障產(chǎn)生;其次,這些數(shù)據(jù)信息可以用作故障樹的頂事件,然后依據(jù)故障樹定義規(guī)則構(gòu)建分析模型。如圖1 所示。頂事件代表某項(xiàng)業(yè)務(wù)故障,底事件代表某最小單元故障。中間事件指未充分拆解的故障原因。

        圖1 故障樹的建樹規(guī)則及其分析模型圖

        其中,各符號的意義及概率計(jì)算如表1 所示。

        表1 故障樹中各符號意義

        有了分析模型后,就可以對系統(tǒng)異常進(jìn)行診斷,基于故障樹的故障診斷流程如圖2 所示。

        圖2 基于故障樹的故障診斷

        2 基于故障樹和知識庫的故障診斷技術(shù)

        知識是信息經(jīng)過人為整理加工而得來的,知識庫是由事實(shí),概念和規(guī)則組成的知識集合[14]。本文的知識庫用于存儲專家在這一領(lǐng)域提供的專業(yè)知識。

        本文將知識庫添加到故障樹分析方法中,使故障樹規(guī)則可以自我更新和改進(jìn),與此同時(shí),還給出了具體的故障處理建議。具體模型如圖3 所示。

        圖3 基于故障樹的故障診斷

        故障診斷流程主要包括三個步驟:

        (1)收集所需數(shù)據(jù),根據(jù)真實(shí)經(jīng)驗(yàn)積累、實(shí)際項(xiàng)目要求和專家組提供的專業(yè)知識,建立起故障樹的規(guī)則庫,計(jì)算出故障樹底事件的概率,完成故障樹規(guī)則庫的構(gòu)建及初始知識庫的構(gòu)建;

        (2)當(dāng)有告警發(fā)生時(shí),根據(jù)故障樹和知識庫進(jìn)行診斷,輸出一個包含故障診斷順序及故障處理建議的診斷報(bào)告;

        (3)通過故障診斷報(bào)告產(chǎn)生的案例擴(kuò)充故障處理知識庫,之后再根據(jù)擴(kuò)充后的知識庫來更新完善故障規(guī)則庫。

        3 實(shí)驗(yàn)及結(jié)果

        本文針對云環(huán)境下業(yè)務(wù)連續(xù)性運(yùn)行構(gòu)建故障樹實(shí)現(xiàn)故障診斷模型。由于業(yè)務(wù)連續(xù)性運(yùn)行涉及的范圍比較廣,需要從主機(jī)、網(wǎng)絡(luò)、存儲、應(yīng)用、數(shù)據(jù)庫、中間件等方面,結(jié)合云計(jì)算、數(shù)據(jù)庫資源池,形成云環(huán)境下業(yè)務(wù)運(yùn)行安全保障機(jī)制和閉環(huán)管理機(jī)制。通過云南電網(wǎng)調(diào)度系統(tǒng)業(yè)務(wù)運(yùn)行典型場景實(shí)驗(yàn),形成如圖4 所示云環(huán)境下業(yè)務(wù)連續(xù)性運(yùn)行故障診斷故障樹。

        圖4 云環(huán)境下業(yè)務(wù)連續(xù)性運(yùn)行故障診斷

        4 結(jié)語

        本文在分析和處理大量數(shù)據(jù)的基礎(chǔ)上,選擇基于知識庫與故障樹的的云業(yè)務(wù)數(shù)據(jù)中心故障診斷技術(shù),構(gòu)建針對云環(huán)境的故障快速定位和恢復(fù)模型。通過實(shí)驗(yàn)分析表明,本文提出的模型具有良好的表現(xiàn),能夠完成精準(zhǔn)的故障定位、診斷和處理建議,保障業(yè)務(wù)系統(tǒng)在云數(shù)據(jù)中心環(huán)境下運(yùn)行的連續(xù)性。

        猜你喜歡
        故障診斷故障
        凍干機(jī)常見故障診斷與維修
        故障一點(diǎn)通
        基于量子萬有引力搜索的SVM自駕故障診斷
        奔馳R320車ABS、ESP故障燈異常點(diǎn)亮
        因果圖定性分析法及其在故障診斷中的應(yīng)用
        故障一點(diǎn)通
        故障一點(diǎn)通
        故障一點(diǎn)通
        江淮車故障3例
        基于LCD和排列熵的滾動軸承故障診斷
        国产福利姬喷水福利在线观看| 亚洲国产美女精品久久久久∴| 色偷偷色噜噜狠狠网站30根 | 国产成人激情视频在线观看| 精品国产福利在线观看网址2022| 亚洲午夜福利精品久久| 国产69精品一区二区三区| av在线免费观看你懂的| av天堂一区二区三区| 日本免费播放一区二区| 日本精品久久不卡一区二区| 麻豆资源在线观看视频| 男女性爽大片视频| 日日噜噜夜夜爽爽| 亚洲欧洲日产国码无码AV一| 色偷偷女人的天堂亚洲网| 蜜臀一区二区av天堂| 日韩精品一区二区三区人妻在线 | ā片在线观看| 久久精品—区二区三区无码伊人色| 国产精品无码久久AⅤ人妖| 东京热日本道免费高清| 日本超级老熟女影音播放| 久久天天躁狠狠躁夜夜躁2014| 无码毛片视频一区二区本码| 97久久精品人人做人人爽| 精品亚洲一区二区99| 亚洲女同性恋激情网站| 国产色婷婷久久又粗又爽| 国产国语亲子伦亲子| 欧美日韩视频在线第一区| 亚洲久热无码av中文字幕| 久久久久久99精品| 台湾自拍偷区亚洲综合| 色婷婷色丁香久久婷婷| 少妇人妻在线无码天堂视频网| 亚洲精品中文字幕无码蜜桃| 亚洲视频99| 毛片av中文字幕一区二区| 日韩精品免费av一区二区三区| 久久综网色亚洲美女亚洲av|