亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于“采集—預(yù)測—遷移—反饋”機(jī)制的主動容錯技術(shù)

        2020-02-19 03:55:08楊洪章楊雅輝屠要峰孫廣宇吳中海
        關(guān)鍵詞:故障

        楊洪章 楊雅輝 屠要峰 孫廣宇 吳中海

        1(北京大學(xué)軟件與微電子學(xué)院 北京 102600)2(中興通訊股份有限公司 廣東深圳 518057)3(北京大學(xué)信息科學(xué)技術(shù)學(xué)院 北京 100871)

        1 概 述

        1.1 硬盤故障頻發(fā)并帶來災(zāi)難性后果

        據(jù)國際數(shù)據(jù)公司(International Data Corpora-tion, IDC)發(fā)布的《數(shù)據(jù)時代2025》白皮書[1],到2025年全球數(shù)據(jù)量將會達(dá)到175 ZB,如果以12 TB容量的硬盤來計(jì)算,大約需要170億塊.而硬盤的年故障率在1%左右[2],因此全球每年將有數(shù)以億計(jì)的故障硬盤出現(xiàn).對于一個PB級規(guī)模的數(shù)據(jù)中心,硬盤故障每天都在發(fā)生[3].不可否認(rèn)的是,硬盤故障已經(jīng)成為數(shù)據(jù)中心最主要的故障來源[4].硬盤故障會直接導(dǎo)致災(zāi)難性后果,如數(shù)據(jù)丟失、業(yè)務(wù)中斷等,這無疑嚴(yán)重影響了數(shù)據(jù)的可靠性.

        1.2 重新審視硬盤故障

        正如人類個體在一生中經(jīng)歷的“生老病死”,硬盤個體也在經(jīng)歷著“健康態(tài)、亞健康態(tài)、瀕臨故障態(tài)、故障態(tài)”的必然性周期,這是因?yàn)殡S著時間的流逝,硬件各部件的老化、磨損等原因?qū)е碌慕Y(jié)果.并且,與人類因先天生理缺陷導(dǎo)致的新生兒夭折,以及諸如車禍、地震、災(zāi)害、動物襲擊等意外造成的偶發(fā)性死亡類似,硬盤也存在因出廠缺陷和意外故障(如甲醛、震動、電壓突變、空氣濕度過大、運(yùn)維人員操作不當(dāng)?shù)?而造成的偶發(fā)性故障.

        顯然硬盤的必然性故障具有一定時間的瀕臨故障窗口期,是具備預(yù)測的可能性的.如果在瀕臨故障窗口期內(nèi)及時將數(shù)據(jù)遷移,則可避免系統(tǒng)降級服務(wù).而硬盤的偶發(fā)性故障往往是突發(fā)的,幾乎不存在瀕臨故障窗口期,因此不具備預(yù)測的可能性,或需要相當(dāng)大的代價(jià)去預(yù)測,但故障不可避免地迅速發(fā)生,數(shù)據(jù)根本來不及遷移,這樣的預(yù)測也沒有意義.

        1.3 傳統(tǒng)被動容錯存在缺陷

        傳統(tǒng)的數(shù)據(jù)容錯技術(shù)一般都是通過增加數(shù)據(jù)冗余來實(shí)現(xiàn)的[5],主要有副本[6-7]、糾刪碼[8-9]、備份快照[10-11]等.這些技術(shù)都是在硬盤故障發(fā)生后,通過冗余滿足讀寫訪問和數(shù)據(jù)恢復(fù),是被動式的處理手段.其缺陷體現(xiàn)在2方面:

        1) 硬盤容量、恢復(fù)速度、讀寫服務(wù)之間存在矛盾.在數(shù)據(jù)恢復(fù)過程中,系統(tǒng)資源不可避免地被數(shù)據(jù)恢復(fù)占用,系統(tǒng)立即降級服務(wù).因此,系統(tǒng)面臨兩難選擇——如果數(shù)據(jù)恢復(fù)過快,系統(tǒng)正常讀寫受到嚴(yán)重干擾;如果數(shù)據(jù)恢復(fù)過慢,再出現(xiàn)新的故障盤將有可能引發(fā)數(shù)據(jù)永久丟失.并且,大容量硬盤的恢復(fù)需要更多的時間,進(jìn)一步加深了上述矛盾.

        2) 成本、性能、可靠性之間存在矛盾.副本技術(shù)雖然可以保證性能,但是存儲空間利用率僅為1n(其中n為副本個數(shù)),由此帶來成本上漲問題.糾刪碼技術(shù)在每一次讀寫操作時額外增加了計(jì)算量,對性能產(chǎn)生負(fù)面影響,但是存儲空間利用率較副本技術(shù)有了大幅提升.備份及快照技術(shù)可以保證性能,也不占用過多的額外存儲空間,但是備份及快照時間節(jié)點(diǎn)之后的數(shù)據(jù)卻無法保護(hù).

        1.4 新型主動容錯成為研究熱點(diǎn)

        隨著智能運(yùn)維[12]的不斷發(fā)展,通過采集硬盤SMART(self-monitoring analysis and reporting technology)指標(biāo),結(jié)合機(jī)器學(xué)習(xí)算法來預(yù)測硬盤故障,從而提前將數(shù)據(jù)遷移的主動容錯技術(shù)[13]成為新的研究熱點(diǎn).一些國內(nèi)外的研究成果[14-21]對單一品牌型號的硬盤預(yù)測其故障的準(zhǔn)確率達(dá)到85%以上.

        主動容錯的好處不言而喻:1)在硬盤故障之前準(zhǔn)確預(yù)測并將數(shù)據(jù)遷移到其他硬盤,避免了系統(tǒng)降級服務(wù),提升了系統(tǒng)的可靠性.2)能夠有效指導(dǎo)硬盤采購規(guī)劃,克服了傳統(tǒng)被動容錯在故障發(fā)生后才去采購硬盤的缺陷.3)減少了運(yùn)維人員的干預(yù),被動容錯需要運(yùn)維人員的臨場判斷和快速響應(yīng),而主動容錯在預(yù)測和處理過程中充分發(fā)揮了機(jī)器的優(yōu)勢.4)準(zhǔn)確性高,傳統(tǒng)被動容錯依賴運(yùn)維人員的經(jīng)驗(yàn)來對硬盤故障進(jìn)行手工檢測,費(fèi)時費(fèi)力且誤判率高.

        雖然主動容錯的現(xiàn)有技術(shù)在實(shí)驗(yàn)原型系統(tǒng)中取得了令人驚嘆的故障預(yù)測準(zhǔn)確率,但是在真實(shí)的業(yè)務(wù)場景中仍然問題百出、難以商用.其主要體現(xiàn)在:

        1) 大規(guī)模SMART采集引發(fā)的災(zāi)難問題亟待解決.以固定周期對全體硬盤采集SMART時不可避免地占用系統(tǒng)資源.經(jīng)測試,在1萬塊硬盤的情況下,并行采集過程需經(jīng)過6 s以上,期間系統(tǒng)幾乎無法響應(yīng)任何正常讀寫操作,且經(jīng)常出現(xiàn)卡死的情況.因此,在大規(guī)模數(shù)據(jù)中心一次性采集全體硬盤SMART的方式迫切地需要改進(jìn).

        2) 針對SAS(serial attached small computer system interface)硬盤和固態(tài)硬盤(solid state disk, SSD)的故障預(yù)測的空白亟待填補(bǔ).現(xiàn)有文獻(xiàn)均僅針對SATA(serial advanced technology attachment)硬盤建立預(yù)測模型,而在實(shí)際的數(shù)據(jù)中心,SAS硬盤和固態(tài)硬盤的數(shù)量十分龐大.直接將SATA硬盤的預(yù)測模型套用在SAS硬盤和固態(tài)硬盤是不可行的,這是因?yàn)樗鼈兊腟MART 差別巨大.此外,開源采集工具smartmontools直到版本6.0和6.1才陸續(xù)支持了在Windows操作系統(tǒng)和Linux操作系統(tǒng)中對SAS硬盤的SMART采集,直接導(dǎo)致對SAS硬盤的SMART采集年限短、積累的故障樣本少.固態(tài)硬盤作為電子式的存儲器件,相較于機(jī)械硬盤,其年故障率低[22-23],且大規(guī)模應(yīng)用的年限遠(yuǎn)短于SATA硬盤和SAS硬盤,固態(tài)硬盤同樣存在故障數(shù)量少的問題.因此迫切的需要專門對SAS硬盤和固態(tài)硬盤的故障進(jìn)行建模預(yù)測,如此才能完整地預(yù)測數(shù)據(jù)中心的全體硬盤故障.

        3) 正負(fù)樣本嚴(yán)重不均的難題亟待解決.現(xiàn)階段阻礙硬盤故障研究的最大問題是故障盤數(shù)量少、健康盤數(shù)量多、正負(fù)樣本嚴(yán)重不均衡.現(xiàn)有的技術(shù)文獻(xiàn)往往通過SMOTE(synthetic minority over-sampling technique)算法[24]來人工合成若干正樣本,以緩解該問題,但是缺點(diǎn)在于易產(chǎn)生模型過擬合的問題.因此迫切地需要提出新的上采樣方法,在不引起過擬合的前提下增加數(shù)倍的正樣本,從而徹底解決該難題.

        4) 難以快速數(shù)據(jù)修復(fù)的問題亟待解決.現(xiàn)有技術(shù)讓瀕臨故障盤完全獨(dú)立地承擔(dān)數(shù)據(jù)修復(fù),短時間內(nèi)連續(xù)集中的數(shù)據(jù)訪問會加速故障的發(fā)生,并且重構(gòu)時間窗口過長,因此迫切地需要提出多盤聯(lián)合修復(fù),以加快數(shù)據(jù)修復(fù).

        5) 預(yù)測結(jié)果的驗(yàn)證與反饋機(jī)制亟待建立.預(yù)測錯誤包括故障盤的誤判、漏判、遲判.誤判會浪費(fèi)硬盤生命周期.漏判和遲判會使得系統(tǒng)進(jìn)入降級狀態(tài),需要依賴傳統(tǒng)被動容錯保障可靠性.通過算法優(yōu)化能在一定程度上減少預(yù)測錯誤,但無法完全做到100%避免誤判,在出現(xiàn)預(yù)測錯誤時,現(xiàn)有技術(shù)往往通過更新預(yù)測模型的方式進(jìn)行矯正,然而這種方式存在時間滯后性,因此迫切需要更加靈活的反饋機(jī)制.

        1.5 本文的主要貢獻(xiàn)

        為了克服現(xiàn)有主動容錯技術(shù)的上述缺陷,本文提出了一系列的關(guān)鍵技術(shù),涵蓋“采集—預(yù)測—遷移—反饋”的全周期主動容錯,包括:1)提出分時硬盤信息采集方法,解決了大規(guī)模SMART采集引發(fā)的災(zāi)難問題;2)提出滑動窗口記錄合并及樣本構(gòu)建方法,填補(bǔ)了針對SAS硬盤和固態(tài)硬盤故障預(yù)測的空白;3)提出多類型硬盤故障預(yù)測方法,攻克了正負(fù)樣本嚴(yán)重不均的難題;4)提出多盤聯(lián)合數(shù)據(jù)遷移方法,加快了數(shù)據(jù)的修復(fù)速度;5)提出預(yù)測結(jié)果二級驗(yàn)證及快速反饋方法,靈活并快速地處理了預(yù)測錯誤.

        2 相關(guān)研究

        基于硬盤故障預(yù)測和數(shù)據(jù)遷移的主動容錯技術(shù)受到了學(xué)術(shù)界的持續(xù)關(guān)注,國內(nèi)外的研究人員從不同角度相繼提出了一些方案.

        關(guān)于硬盤故障預(yù)測準(zhǔn)確性提升:Pitakrat等人[14]僅選取硬盤SMART作為狀態(tài)特征數(shù)據(jù),測試了21種不同的分類算法,其中NNC,RF,C4.5,REPTree,RIPPER,PART,K-Star,SVM等算法可將故障預(yù)測的準(zhǔn)確性達(dá)到90%以上;Zhu等人[15]使用了SMRAT相關(guān)項(xiàng)在最近一段時間的變化值作為特征數(shù)據(jù)輸入,采用 SVM 作為分類算法建立預(yù)測模型,故障預(yù)測的準(zhǔn)確性達(dá)到最高95%;Li等人[16]提出了基于決策樹的預(yù)測模型,能達(dá)到 95%以上的準(zhǔn)確率,并且能夠提前一周預(yù)測出故障,決策規(guī)則清晰地解釋了SMART屬性值與故障之間的關(guān)系,為采取措施并減少故障提供依據(jù);柳永康[17]提出二級預(yù)測方法,在預(yù)測磁盤是否即將要故障的基礎(chǔ)上,進(jìn)一步預(yù)測磁盤故障的發(fā)生時間范圍,使用邏輯回歸算法,在提前5天預(yù)測的情況下,預(yù)測準(zhǔn)確率最高達(dá)85.01%.

        關(guān)于硬盤故障模型架構(gòu):Xiao等人[18]提出一種基于在線隨機(jī)森林的硬盤故障預(yù)測模型架構(gòu),解決了離線訓(xùn)練和模型老化的問題,故障預(yù)測準(zhǔn)確率達(dá)到93%~99%.Xie等人[19]提出一種基于一對多建模的硬盤故障預(yù)測模型OME(optimized modeling engine),準(zhǔn)確率總體比以前的工作高出18.5%.

        關(guān)于數(shù)據(jù)提前修復(fù):Ji等人[20]在預(yù)測到硬盤將要發(fā)生故障的情況下,主動將該硬盤上的數(shù)據(jù)遷移到健康盤,但限制數(shù)據(jù)遷移的速率,從而在硬盤故障發(fā)生時難以完成全部的數(shù)據(jù)遷移,仍舊需要依靠傳統(tǒng)被動容錯;Qin等人[21]提出了Fatman系統(tǒng),對冷、熱數(shù)據(jù)分別使用RS(Reed Solomon)碼和副本機(jī)制,對于將要發(fā)生故障的硬盤提前進(jìn)行數(shù)據(jù)遷移,在故障發(fā)生以后,熱數(shù)據(jù)可以通過其他副本來提供服務(wù),而冷數(shù)據(jù)需要重構(gòu)丟失的數(shù)據(jù),這樣可減少76.3%的重構(gòu)開銷.

        綜上所述,現(xiàn)有研究工作主要關(guān)注提升SATA硬盤的故障預(yù)測準(zhǔn)確率,忽略了針對SAS硬盤和固態(tài)硬盤的預(yù)測,并且對采集、遷移、反饋的研究較少,難以形成一個完整的主動容錯技術(shù)方案.

        3 主動容錯技術(shù)

        本節(jié)圍繞中興通訊承建并運(yùn)營的國內(nèi)華南某數(shù)據(jù)中心的硬盤情況進(jìn)行分析研究,提出完整的主動容錯機(jī)制,涵蓋采集、預(yù)測、遷移、反饋等各個環(huán)節(jié).該數(shù)據(jù)中心共有129 887塊硬盤,在2018年共出現(xiàn)1995塊故障盤,其品牌、類型的情況如表1所示,Htrue為實(shí)際健康盤的數(shù)量,F(xiàn)true為實(shí)際故障盤的數(shù)量.

        Table 1 Hard Disk Situation in Data Center表1 本文研究數(shù)據(jù)中心的硬盤情況

        Note:Htruestands for the truly healthy disk;Ftruestands for the truly failed disk.

        3.1 分時硬盤信息采集方法

        硬盤在故障前必然存在一系列的內(nèi)外部征兆,現(xiàn)有文獻(xiàn)過多地關(guān)注以SMART為代表的內(nèi)部征兆,而對硬盤IO情況、CPU使用率、內(nèi)存占用等外部征兆研究較少.處于亞健康和瀕臨故障的硬盤,其SMART情況不穩(wěn)定、時好時壞,一旦在采集的瞬間其恰巧處于健康狀態(tài),這會直接導(dǎo)致誤判.在這種情況下,研究硬盤故障的外部征兆則是非常必要的補(bǔ)充,例如硬盤的IOPS和吞吐量很低,并且CPU使用量也很低但時延很高,這種情況同樣預(yù)示了硬盤即將故障.因此,本文采集硬盤的信息主要包括:硬盤SMART、硬盤IO情況、CPU使用率、內(nèi)存占用等.

        在采集頻率上,現(xiàn)有的文獻(xiàn)均采用固定周期的采集方式,例如每天采集1次、每3 h采集1次等.誠然,采集越頻繁越有利于對故障的預(yù)測,能夠更加敏銳地捕捉到“震蕩”型的SMART表現(xiàn).然而考慮到采集硬盤信息對數(shù)據(jù)中心業(yè)務(wù)的必然影響,采集的頻率也不能過于頻繁.結(jié)合中興通訊數(shù)據(jù)中心視頻業(yè)務(wù)的特點(diǎn),本文的采集方法為:1)考慮視頻業(yè)務(wù)高峰,原則上每個盤每小時采集1次,但關(guān)閉業(yè)務(wù)高峰時段(11∶30—13∶00,18∶00—23∶30)的采集.2)考慮視頻業(yè)務(wù)特點(diǎn),電視節(jié)目多數(shù)以整點(diǎn)和半點(diǎn)作為切換點(diǎn),因此每次采集時段為5~25 min,35~55 min.3)避免同時采集全體硬盤,應(yīng)以1 s為間隔,每次采集10塊盤.至此,以2~4 TB構(gòu)成的百PB級的數(shù)據(jù)中心,在1 h之內(nèi)可以采集完畢,且對業(yè)務(wù)影響降到最低.4)在業(yè)務(wù)低谷時段(2∶35—5∶25)更新模型、批量發(fā)送采集數(shù)據(jù)至計(jì)算節(jié)點(diǎn).

        由于采集間隔非固定,對硬盤的寫IO通過當(dāng)前寫入速度描述,其計(jì)算公式為

        (1)

        其中,k表示第k次采集.讀IO的計(jì)算同理,此處不再贅述.

        由于硬盤SMART 數(shù)據(jù)各數(shù)據(jù)項(xiàng)取值的規(guī)整方法不同,所以各數(shù)據(jù)項(xiàng)在數(shù)值上差異很大,如果按原值輸入作模型訓(xùn)練時,數(shù)值較大的項(xiàng)會帶來較大影響,因?yàn)槊總€數(shù)據(jù)項(xiàng)其原始數(shù)值的取值規(guī)則不同,為了防止個別數(shù)據(jù)項(xiàng)對模型帶來較大偏差,因此進(jìn)行歸一化處理,其計(jì)算公式為

        (2)

        3.2 滑動窗口記錄合并及樣本構(gòu)建

        通過3.1節(jié)的采集方式,每天每塊硬盤采集16條記錄,經(jīng)過1年的采集,129 887塊硬盤中共出現(xiàn)故障盤1 995塊.健康盤與故障盤的比例約為64∶1,面對如此嚴(yán)重的不均衡,本文采用滑動窗口記錄合并及樣本構(gòu)建的方法解決該問題.

        如圖1所示,對于故障盤,其在故障時刻前30天之內(nèi)的記錄作為故障記錄,每個記錄項(xiàng)按采樣時間先后進(jìn)行排序,設(shè)定3天為時間窗口,截取時間窗口內(nèi)的48條記錄.時間窗口起始位置放在硬盤的故障時間上,然后時間窗向前滑動0.5天距離,即向前移動8條記錄,共滑動55次,直至?xí)r間窗口涵蓋故障前第30天的所有記錄.如圖2所示,對每次移動時間窗口所截取的記錄,以記錄項(xiàng)為單位對其計(jì)算平均值、方差、極差,從而將連續(xù)多個時間點(diǎn)的各記錄項(xiàng)信息合并為1條正樣本,將其計(jì)入訓(xùn)練樣本集中.通過窗口的滑動,將構(gòu)建55倍于原始故障盤個數(shù)的正樣本數(shù).對于健康盤,則隨機(jī)選取連續(xù)3天的48條記錄,同樣針對每個記錄項(xiàng)計(jì)算平均值、方差、極差,作為負(fù)樣本計(jì)入訓(xùn)練樣本集中.

        Fig. 1 Sliding window record merging圖1 滑動窗口記錄合并

        Fig. 2 Sample construction圖2 樣本構(gòu)建

        通過滑動窗口記錄合并及樣本構(gòu)建方法,構(gòu)建出55倍故障盤的正樣本,相較于健康盤與故障盤之間64倍的比例差距,這幾乎填補(bǔ)了二者之間的鴻溝,正負(fù)樣本達(dá)到了相同的數(shù)量級.此外,在單條樣本中綜合體現(xiàn)多個時間點(diǎn)的硬盤狀態(tài),不再孤立的審視單一時間點(diǎn)的硬盤狀態(tài),能夠更加敏銳地發(fā)現(xiàn)并刻畫硬盤在故障前的各項(xiàng)指標(biāo)的“陡增”、“陡減”、“震蕩”等狀態(tài),從而為故障硬盤的判定提供了充分的依據(jù).

        3.3 多類型硬盤故障預(yù)測

        硬盤SMART是對硬盤各組件,如磁頭、馬達(dá)、盤片等部件的狀態(tài)進(jìn)行分析監(jiān)控的技術(shù),并非所有信息均與硬盤故障相關(guān),圖3展現(xiàn)了4類典型的SMART信息在硬盤故障前的表現(xiàn),分別是震蕩型、陡增型、陡減型以及平靜型,顯然平靜型的SMART是無助于區(qū)分硬盤是否將要故障的,因此需要特征篩選.

        Fig. 3 Typical SMART information before disk failure圖3 典型的SMART信息在硬盤故障前的表現(xiàn)

        本文研究的數(shù)據(jù)中心含有10種不同類型及品牌的硬盤,因不同型號的硬盤其采集到的SMART存在差異,甚至同一個ID的含義也可能不同,因此需針對每一種類型及品牌的硬盤分別進(jìn)行建模.本文在特征篩選時,采用專家經(jīng)驗(yàn)判斷、變化趨勢觀察、卡方檢驗(yàn)、屬性方差、樹的特征選擇這5種方法,在3種以上方法出現(xiàn)的ID最終被選取.受篇幅限制,表2僅展現(xiàn)了3個典型的硬盤類型品牌用于預(yù)測建模的SMART選取情況.這些SMART與3.1節(jié)所述的外部征兆一起,用于建立故障預(yù)測模型.

        Table 2 Selected SMART for Predicting Different Hard Disks表2 本文在不同類型硬盤選取的SMART指標(biāo)

        在算法方面,本文使用人工神經(jīng)網(wǎng)絡(luò)算法,設(shè)置神經(jīng)網(wǎng)絡(luò)隱含層個數(shù)為4個,每層的神經(jīng)元個數(shù)分別設(shè)為1 000,500,200,100,輸入層神經(jīng)元個數(shù)根據(jù)輸入數(shù)據(jù)特征維度確定,輸出層為3個,激活函數(shù)選擇tanh.為避免神經(jīng)網(wǎng)絡(luò)過擬合,將交叉熵代價(jià)函數(shù)和L2正則之和作為網(wǎng)絡(luò)的損失函數(shù).模型網(wǎng)絡(luò)的優(yōu)化算法使用了批量梯度下降法.事實(shí)上,本文在嘗試了10余種不同的算法及百余種不同的參數(shù)設(shè)置后,發(fā)現(xiàn)算法的優(yōu)劣對于硬盤故障預(yù)測的準(zhǔn)確率影響微乎其微,而數(shù)據(jù)質(zhì)量高情形下對預(yù)測的準(zhǔn)確性明顯優(yōu)于數(shù)據(jù)質(zhì)量低的情形,這充分說明了在硬盤故障預(yù)測的問題中數(shù)據(jù)質(zhì)量的重要性遠(yuǎn)高于算法.

        如圖4所示,在對10種硬盤接口、品牌分別進(jìn)行建模后,多類型硬盤故障即具備上線運(yùn)行的能力,在數(shù)據(jù)中心連續(xù)采集3天硬盤信息后,即可預(yù)測硬盤是否將要發(fā)生故障,首先根據(jù)硬盤類型選擇相應(yīng)的模型,隨后將連續(xù)48條樣本進(jìn)行輸入,在超過36條樣本被判定為正樣本的情況下,該硬盤會被預(yù)測為瀕臨故障盤.在商用場景中,先引入初始模型,在系統(tǒng)的運(yùn)行過程中定期進(jìn)行模型更新和參數(shù)調(diào)節(jié).

        Fig. 4 Failure prediction of multi-type hard disk圖4 多類型硬盤故障預(yù)測

        3.4 多盤聯(lián)合數(shù)據(jù)遷移

        主動容錯的最大價(jià)值是在預(yù)測到硬盤即將故障之時,利用該硬盤的剩余壽命把數(shù)據(jù)遷移到健康盤,從而避免進(jìn)入降級模式,能夠同時保證高性能和高可靠.然而現(xiàn)有技術(shù)讓瀕臨故障盤獨(dú)立承擔(dān)數(shù)據(jù)修復(fù),短時間內(nèi)連續(xù)集中的數(shù)據(jù)訪問會加速故障的發(fā)生,往往導(dǎo)致數(shù)據(jù)還未完全修復(fù)時故障就已發(fā)生,最終仍需依靠被動容錯方法.因此,在主動容錯技術(shù)中,恢復(fù)數(shù)據(jù)的任務(wù)不應(yīng)僅由瀕臨故障盤單獨(dú)承擔(dān).

        本節(jié)提出了多盤聯(lián)合數(shù)據(jù)遷移技術(shù),基于糾刪碼系統(tǒng),通過多盤聯(lián)合修復(fù)、拷貝與編解碼計(jì)算相結(jié)合的修復(fù)手段,加快了修復(fù)速度,有效避免系統(tǒng)進(jìn)入降級狀態(tài),同時均衡了網(wǎng)絡(luò)傳輸壓力.

        多盤聯(lián)合數(shù)據(jù)修復(fù)的主要步驟包括:

        1) 在硬盤A被預(yù)測為瀕臨故障后,立即啟動主動容錯數(shù)據(jù)修復(fù).

        2) 確定參與共同修復(fù)的硬盤組,訪問系統(tǒng)元數(shù)據(jù),遍歷硬盤A中的所有p個數(shù)據(jù)塊(strip),讀取其所屬條帶(stripe)的硬盤編號,這些硬盤參與共同修復(fù),稱之為硬盤組B.

        3) 選擇空閑容量最大的健康硬盤作為修復(fù)目標(biāo)盤,上述硬盤A和硬盤組B不得被選入,稱之為硬盤C.

        4) 分別確定由硬盤A和硬盤組B負(fù)責(zé)修復(fù)的數(shù)據(jù)塊集合.假設(shè)共有p個數(shù)據(jù)塊待修復(fù),為集合Q.由硬盤A承擔(dān)p×y個數(shù)據(jù)塊的修復(fù),為集合T.由硬盤組B承擔(dān)剩余的p-p×y個數(shù)據(jù)塊的修復(fù),為集合R.

        5) 隨后同時進(jìn)行硬盤A和硬盤組B的數(shù)據(jù)修復(fù):通過拷貝的方法,將集合T中所有的數(shù)據(jù)塊由硬盤A修復(fù)到硬盤C;通過編解碼計(jì)算的方法,將集合R所有數(shù)據(jù)塊由硬盤組B修復(fù)到硬盤C.

        6) 如果硬盤A修復(fù)完畢,硬盤組B仍有20%以上的數(shù)據(jù)塊尚未修復(fù)完成,則硬盤A接管部分硬盤組B的數(shù)據(jù)修復(fù);反之亦然.

        7) 如果硬盤A未修復(fù)完畢即發(fā)生故障,則系統(tǒng)進(jìn)入降級模式,由硬盤組B承擔(dān)全部剩余修復(fù)任務(wù).

        3.5 預(yù)測結(jié)果二級驗(yàn)證及快速反饋

        現(xiàn)有技術(shù)文獻(xiàn)缺乏對預(yù)測結(jié)果的進(jìn)一步驗(yàn)證,并且在出現(xiàn)誤判情況或主動修復(fù)策略不當(dāng)時,無法及時改進(jìn),需要等待一定時間再將新采集的硬盤信息批量更新預(yù)測模型.因此本節(jié)提出預(yù)測結(jié)果二級驗(yàn)證及快速反饋方法,其原理如圖5所示:

        Fig. 5 Two-level verification and feedback圖5 二級驗(yàn)證及反饋

        對于被預(yù)測為故障的硬盤,立即進(jìn)行主動修復(fù):

        1) 如果在修復(fù)過程中已出現(xiàn)故障,則系統(tǒng)降級服務(wù),由健康盤完成剩余的所有修復(fù)工作,并且需調(diào)整故障閾值,后續(xù)應(yīng)盡早將該盤預(yù)測為故障盤;

        2) 如果該盤的修復(fù)順利完成,但明顯快于或慢于協(xié)助其修復(fù)的其他健康盤的修復(fù)工作,則需調(diào)整修復(fù)策略,增大或減小由瀕臨故障盤承擔(dān)的修復(fù)數(shù)據(jù)比例;

        3) 如果以上情況未出現(xiàn),則對該盤進(jìn)行破壞式寫入,直至該盤發(fā)生故障為止,或?qū)懭霑r間達(dá)剩余生命周期閾值z時為止.記錄寫入時間h.若h=z,則將其認(rèn)定為誤判,反饋給訓(xùn)練模型;若h>z4,則適當(dāng)上調(diào)故障閾值x,并適當(dāng)上調(diào)修復(fù)比例閾值y;若h

        對于被預(yù)測為健康的硬盤,應(yīng)立即協(xié)助故障盤進(jìn)行主動修復(fù):

        1) 如果在聯(lián)合修復(fù)過程中出現(xiàn)故障,則該盤被誤判為健康盤,需要樣本反轉(zhuǎn)為正樣本.

        2) 如果修復(fù)順利完成,則持續(xù)觀察,如果在1個月之內(nèi)未出現(xiàn)故障,則預(yù)測正確,否則為預(yù)測錯誤.

        在上述過程中,有3個重要閾值是反饋機(jī)制的重要組成部分,包括:

        1) 故障閾值x,若同一塊硬盤的連續(xù)多條樣本健康度低于x,則認(rèn)為該硬盤為瀕臨故障盤.

        2) 修復(fù)比例閾值y,由瀕臨故障盤承擔(dān)的數(shù)據(jù)修復(fù)比例y,由其他健康盤承擔(dān)的數(shù)據(jù)修復(fù)比例為1-y.該值的最理想情況是,由瀕臨故障盤的數(shù)據(jù)修復(fù)時間恰好等于其他健康盤承擔(dān)的數(shù)據(jù)修復(fù)時間.一次主動數(shù)據(jù)修復(fù)由該2種修復(fù)同時進(jìn)行,顯然,主動數(shù)據(jù)修復(fù)的時間等于用時較大者的時間.

        3) 剩余生命周期閾值z,在主動數(shù)據(jù)修復(fù)之后,硬盤剩余生命周期越小越理想,最理想的情況是修復(fù)完畢時該盤恰好故障.若剩余生命周期大于該閾值z,則適當(dāng)調(diào)節(jié)x和y.

        通過二次驗(yàn)證及快速反饋方法,針對不合理的主動修復(fù)策略和不及時的故障預(yù)測,能夠及時調(diào)整參數(shù),在避免系統(tǒng)降級的前提下,能夠精準(zhǔn)利用瀕臨故障硬盤的剩余生命周期;針對錯誤的預(yù)測,能夠快速甄別,及時反轉(zhuǎn)正負(fù)樣本標(biāo)記,為模型更新提供準(zhǔn)確的依據(jù).

        3.6 本節(jié)小結(jié)

        主動容錯技術(shù)框架如圖6所示.通過分時硬盤信息采集方法、滑動窗口記錄合并及樣本構(gòu)建方法、多類型硬盤故障預(yù)測方法、多盤聯(lián)合數(shù)據(jù)遷移方法、預(yù)測結(jié)果二級驗(yàn)證及快速反饋方法五大技術(shù),將主動容錯技術(shù)形成完整閉環(huán),從而具備了商業(yè)應(yīng)用的條件.

        Fig. 6 Framework of proactive fault tollerance technology圖6 主動容錯技術(shù)框架

        4 實(shí)驗(yàn)與結(jié)果

        本節(jié)從3個方面對本文工作進(jìn)行測試:

        1) 測試采集硬盤信息對前臺業(yè)務(wù)的干擾,其評價(jià)指標(biāo)是相較于不采集硬盤信息的情況,前臺業(yè)務(wù)的帶寬下降比例以及用戶視頻播放的實(shí)際體驗(yàn)情況;

        2) 測試硬盤故障預(yù)測的準(zhǔn)確率,其評價(jià)指標(biāo)是召回率和誤檢率;

        3)測試數(shù)據(jù)修復(fù)速度,其評價(jià)指標(biāo)是完成數(shù)據(jù)修復(fù)的時間.

        4.1 測試采集硬盤信息對前臺業(yè)務(wù)的干擾

        前臺業(yè)務(wù)是20個客戶端分別播放30 min直播視頻,其正常狀態(tài)是該數(shù)據(jù)中心對所有的客戶端提供等量、恒定的讀數(shù)據(jù)帶寬.圖7(a)為不采集硬盤信息的情況,圖7(b)為傳統(tǒng)方法一次性采集全體硬盤的情況,圖7(c)為本文工作的情況.圖7的縱坐標(biāo)為客戶端的播放帶寬.

        與圖7(a)相比,圖7(b)雖然平均帶寬整體僅下降0.88%,但在采集SMART時連續(xù)9.18 s系統(tǒng)不可服務(wù),其前11.21 s及其后4.23 s出現(xiàn)明顯性能抖動,用戶在觀看直播視頻的過程中出現(xiàn)了超過20 s的嚴(yán)重卡頓;與圖7(a)相比,圖7(c)雖然平均帶寬整體下降0.96%,但全程未出現(xiàn)帶寬性能抖動,用戶對于視頻的播放未察覺任何異常.由此可見,本文工作提升了用戶體驗(yàn),降低了對前臺業(yè)務(wù)的干擾.

        Fig. 7 Client bandwidth under different conditions圖7 在不同情況下客戶端播放視頻帶寬

        4.2 測試硬盤故障預(yù)測準(zhǔn)確率

        在本節(jié)測試中,場景涵蓋:1)基于中興通訊已采集的數(shù)據(jù)進(jìn)行建模和預(yù)測;2)基于中興通訊已采集的數(shù)據(jù)進(jìn)行建模,在中興通訊真實(shí)場景中進(jìn)行預(yù)測;3)基于Backblaze數(shù)據(jù)集進(jìn)行建模和預(yù)測.并與其他文獻(xiàn)公開的方法進(jìn)行了比較.

        4.2.1 面向已采集的硬盤數(shù)據(jù)進(jìn)行預(yù)測

        中興通訊已采集的數(shù)據(jù)包括127 892塊健康盤、1 995塊故障盤,其中70%用于訓(xùn)練建模,30%用于預(yù)測測試.其總體測試結(jié)果如表3所示,HPredicted為被預(yù)測為健康盤的數(shù)量,F(xiàn)Predicted為被預(yù)測為故障盤的數(shù)量.本文工作總體的召回率為94.66%,誤檢率為0.34%.對于各類型的細(xì)分測試結(jié)果如表4所示,SATA,SAS,SSD的召回率分別為94.64%,94.37%,97.14%,誤檢率分別為0.36%,0.35%,0.10%.可以看到,相較于機(jī)械硬盤,固態(tài)硬盤的預(yù)測準(zhǔn)確性高、誤檢率低.

        為了與本文工作進(jìn)行比較,將文獻(xiàn)[15]和文獻(xiàn)[17]的方法分別作為對比系統(tǒng)1和對比系統(tǒng)2,但受困于現(xiàn)有文獻(xiàn)僅針對單一品牌類型的硬盤故障進(jìn)行預(yù)測,本節(jié)僅選取了希捷SATA數(shù)據(jù)作為比較.如表5所示,本文工作、對比系統(tǒng)1、對比系統(tǒng)2的召回率分別為94.12%,88.24%,85.29%,誤檢率分別為0.30%,2.10%,1.01%,本文工作顯著降低了誤檢率.

        Table 3 Prediction Results Based on Collected Data in Overall表3 基于已采集數(shù)據(jù)的總體預(yù)測結(jié)果

        Nete:HPredictedstands for the predicted healthy disk;FPredictedstands for the predicted failed disk.

        Table 4 Prediction Results Based on Collected Data in Detail表4 基于已采集數(shù)據(jù)的細(xì)分預(yù)測結(jié)果

        4.2.2 面向真實(shí)場景進(jìn)行預(yù)測

        為了進(jìn)一步驗(yàn)證預(yù)測的準(zhǔn)確性,本文系統(tǒng)在中興通訊的真實(shí)數(shù)據(jù)中心進(jìn)行了安裝部署,對硬盤未來的故障進(jìn)行預(yù)測,但關(guān)閉數(shù)據(jù)修復(fù),以觀察是否真正故障.對于預(yù)測結(jié)果的判斷,需等待1個月后得出結(jié)論.系統(tǒng)運(yùn)行3個月,共出現(xiàn)故障盤521塊.在模型訓(xùn)練時使用100%已采集的硬盤數(shù)據(jù).測試結(jié)果如表6所示,召回率93.86%;誤檢率0.33%,預(yù)測準(zhǔn)確性得到了真實(shí)場景的驗(yàn)證.

        Table 5 Comparison of Prediction Results Based onSeagate SATA表5 基于希捷SATA數(shù)據(jù)的預(yù)測結(jié)果比較

        Table 6 Prediction Results Based on Real Scene表6 基于真實(shí)場景的預(yù)測結(jié)果

        4.2.3 在Backblaze數(shù)據(jù)集評測

        為了充分驗(yàn)證本文工作的普遍適用性,本文選取了Backblaze網(wǎng)站免費(fèi)公開的2017年的全年故障盤的數(shù)據(jù)集進(jìn)行測試,其中希捷品牌的SATA硬盤共65 003塊,故障盤1 431塊,將其70%用于建模、30%用于測試.然而遺憾的是,該數(shù)據(jù)集的數(shù)據(jù)質(zhì)量較低,主要存在的問題包括:1)硬盤信息采集頻率較低,每天1次,且個別數(shù)據(jù)丟失;2)采集硬盤信息單一化,是僅采集硬盤SMART信息,未采集IO信息,這對于硬盤剩余壽命的衡量是不利的;3)硬盤類型單一化,僅涉及SATA硬盤,不涉及SAS硬盤和固態(tài)硬盤.4)硬盤品牌單一化,該數(shù)據(jù)集中希捷品牌的硬盤占據(jù)絕大多數(shù),其他品牌鳳毛麟角.正因上述原因,測試時無法將4.2.1節(jié)中的模型直接與該數(shù)據(jù)集對接,在經(jīng)過一定的技術(shù)處理,例如不考慮IO、減少樣本合并數(shù)量、剔除故障盤數(shù)量在20塊以下的硬盤型號后,最終建立預(yù)測模型.

        其結(jié)果如表7所示,本文工作、對比系統(tǒng)1、對比系統(tǒng)2的召回率分別為80.43%,75.19%,82.60%,誤檢率分別為3.45%,3.84%,2.57%.可以看到,在數(shù)據(jù)質(zhì)量較低的情況下,本文工作與2個對比系統(tǒng)的預(yù)測準(zhǔn)確性均不理想,充分說明了數(shù)據(jù)質(zhì)量對預(yù)測結(jié)果的重要性.

        Table 7 Test Results from the Backblaze Dataset表7 在Backblaze數(shù)據(jù)集的測試結(jié)果

        4.3 測試數(shù)據(jù)修復(fù)的速度

        在本節(jié)測試時,所有涉及的硬盤均為希捷ST8000DM002型號,糾刪碼類型為6+3型.因硬盤在瀕臨故障期間的讀寫速度不穩(wěn)定,為盡量排除干擾,每項(xiàng)測試都是10次,去掉2個最高值和2個最低值,剩余值取平均值.為了充分體現(xiàn)本文工作的優(yōu)勢,將瀕臨故障盤獨(dú)立且全速修復(fù)的傳統(tǒng)方法作為對比系統(tǒng)3,將文獻(xiàn)[20]的方法作為對比系統(tǒng)4,如圖8所示,在不同修復(fù)數(shù)據(jù)量的情況下,本文的工作均大幅減少了修復(fù)時間,相較于對比系統(tǒng)3,4的方法分別平均減少55.10%和84.56%的修復(fù)時間.

        Fig. 8 Comparison of repair time under different data quantities圖8 在不同數(shù)據(jù)量的情況下的修復(fù)時間對比

        4.4 實(shí)驗(yàn)小結(jié)

        本節(jié)從對前臺業(yè)務(wù)的干擾程度、對故障預(yù)測的準(zhǔn)確性以及故障后的修復(fù)速度這3個維度對本文的工作進(jìn)行了測試,其中采集硬盤信息對前臺業(yè)務(wù)影響僅為0.96%,對硬盤故障預(yù)測的召回率達(dá)到94.66%,數(shù)據(jù)修復(fù)較傳統(tǒng)方法減少55.10%的時間.該系統(tǒng)已在中興通訊的數(shù)據(jù)中心正常運(yùn)行9個月以上,期間超過90%的硬盤故障均通過主動容錯得以解決,系統(tǒng)降級服務(wù)的次數(shù)顯著降低,且未出現(xiàn)數(shù)據(jù)丟失.

        5 總 結(jié)

        主動容錯技術(shù)的核心目標(biāo)包括:1)高可靠.故障預(yù)測準(zhǔn)確率高,避免存儲系統(tǒng)降級服務(wù).2)高智能.解放運(yùn)維人員勞動力,自動處理.3)低干擾.在采集、分析、遷移等階段都盡可能降低對前端業(yè)務(wù)干擾,不影響數(shù)據(jù)中心的正常服務(wù).4)低成本.避免浪費(fèi)硬盤壽命,充分利用硬盤剩余壽命.5)廣適用.能夠適應(yīng)真實(shí)的大規(guī)模數(shù)據(jù)中心業(yè)務(wù)場景,對不同品牌、型號、類型的硬盤都能支持,且安裝部署靈活方便.

        然而遺憾的是,現(xiàn)有的主動容錯技術(shù)僅僅局限于對硬盤故障的高準(zhǔn)確預(yù)測,但對采集、遷移、反饋等方面研究較少,這使得主動容錯技術(shù)在難以真正商用.

        本文首次提出了“采集—預(yù)測—遷移—反饋”的全流程主動容錯技術(shù)方案,包括:1)提出了分時硬盤信息采集方法,解決了大規(guī)模SMART采集引發(fā)的災(zāi)難問題;2)提出了滑動窗口記錄合并及樣本構(gòu)建方法,填補(bǔ)了針對SAS硬盤和固態(tài)硬盤故障預(yù)測的空白;3)提出了多類型硬盤故障預(yù)測方法,攻克了正負(fù)樣本嚴(yán)重不均的難題;4)提出了多盤聯(lián)合數(shù)據(jù)遷移方法,加快了數(shù)據(jù)的修復(fù)速度;5)提出了預(yù)測結(jié)果二級驗(yàn)證及快速反饋方法,靈活并快速地處理了誤判、漏判、遲判的情形.測試表明,采集硬盤信息對前臺業(yè)務(wù)影響僅為0.96%,對硬盤故障預(yù)測的召回率達(dá)到94.66%,數(shù)據(jù)修復(fù)較傳統(tǒng)方法減少55.10%的時間.本文的工作已在中興通訊的大規(guī)模數(shù)據(jù)中心穩(wěn)定商用,滿足了主動容錯技術(shù)在高可靠、高智能、低干擾、低成本、廣適用等方面的核心目標(biāo).

        猜你喜歡
        故障
        故障一點(diǎn)通
        奔馳R320車ABS、ESP故障燈異常點(diǎn)亮
        WKT型可控停車器及其故障處理
        基于OpenMP的電力系統(tǒng)并行故障計(jì)算實(shí)現(xiàn)
        電測與儀表(2016年5期)2016-04-22 01:13:50
        故障一點(diǎn)通
        故障一點(diǎn)通
        故障一點(diǎn)通
        故障一點(diǎn)通
        故障一點(diǎn)通
        江淮車故障3例
        免费观看又色又爽又湿的视频| 亚洲长腿丝袜中文字幕| 国产情侣自拍在线视频| 中文字幕日本人妻久久久免费| 色综合无码av网站| 国产精品久久久久免费看| 中文字幕一区乱码在线观看| 中国女人内谢69xxxxxa片| 99热久久精里都是精品6| 免费一区二区三区视频狠狠| 久久精品国产亚洲av夜夜| 手机在线看片| 国产av无码专区亚洲av琪琪| 亚洲免费一区二区三区视频| 网址视频在线成人亚洲| 国产成人无码a在线观看不卡| 日韩少妇激情一区二区| 中文字幕日产人妻久久| 亚洲精品天堂日本亚洲精品| 东京热人妻系列无码专区| 夜夜揉揉日日人人| 人妻少妇中文字幕久久69堂| 91精品啪在线观九色| 日韩一区国产二区欧美三区| 亚洲欧美精品91| 国产自产在线视频一区| 免费a级毛片在线播放| 午夜亚洲www湿好爽| 免费一级a毛片在线播出| 尤物蜜桃视频一区二区三区| 国产色在线 | 日韩| 国产一品道av在线一二三区| 中文字幕日韩人妻在线| 亚洲天堂精品成人影院| 色多多a级毛片免费看| 女同性恋精品一区二区三区| 日本中文字幕乱码中文乱码| 人妻少妇精品视频专区| 国产精品第1页在线观看| 亚洲av乱码国产精品观看麻豆| 男人吃奶摸下挵进去啪啪软件|