亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        軟件定義的“可靠性”到底可不可靠

        2022-07-19 09:35:04李進才
        計算機與網(wǎng)絡 2022年11期
        關鍵詞:定義機制故障

        李進才

        服務器宕機可能是很多運維工程師最可怕的噩夢。谷歌的一項研究表明大多數(shù)死機故障是由內(nèi)存問題引起的,而且每年有1/3的谷歌服務器都會出現(xiàn)可糾正的內(nèi)存故障,而有1 %的谷歌服務器會出現(xiàn)不可糾正的內(nèi)存故障,后者是造成系統(tǒng)宕機的典型情況之一。

        如果有人說,用軟件的方式,可以解決硬件的內(nèi)存問題,還能減少30 %的服務器宕機故障,你覺得可靠嗎?

        當前的數(shù)據(jù)中心已經(jīng)走向軟件定義的時代,從最初的軟件定義網(wǎng)絡SDN到軟件定義數(shù)據(jù)中心SDDC。為了防止服務器宕機的意外發(fā)生,越來越多的企業(yè)開始考慮軟件定義的解決方案,并通過軟件定義的可靠性屏蔽服務器、內(nèi)存等硬件故障帶來的影響。那么軟件是如何實現(xiàn)對內(nèi)存以及服務器可用性的提升呢?

        內(nèi)存故障非常多,就看系統(tǒng)能不能識別出來,有些故障是內(nèi)存單個或多個bit故障,有些是內(nèi)存顆粒故障,有些是內(nèi)存顆粒上的單行或單列的存儲單元出現(xiàn)故障,還有firmware故障、內(nèi)存控制器故障。另外還有一些是內(nèi)存金手指焊接點老化、主板上的內(nèi)存插槽松動或有灰塵等引起的故障。

        器件質(zhì)量類的故障只能通過工藝的改進來解決,而信服云要解決的是軟件層面可以控制的bit級故障。往往大故障來自于bit級小故障的持續(xù)積累,這時要做的就是“防微杜漸”,在小故障發(fā)生的時候就抓住它、隔離它,避免影響擴大。

        Intel有一種機制叫做MCA(MachineCheck Architecture),可以監(jiān)測這種類型錯誤。這個機制的運行方式是:首先需定義出這些錯誤模型,把可以自動糾正的錯誤叫做CE(Correctable Error),這些往往是任意單比特錯誤、部分是單顆粒比特的錯誤。但是一些錯誤無法自動糾正恢復,會導致系統(tǒng)宕機,這些錯誤被定義為UCE(Uncorrectable Error)。根據(jù)統(tǒng)計,CE/UCE類的問題類型占內(nèi)存所有類型問題的59 %,所以,如果能夠設計一種故障檢查和糾正的機制,其價值會非常大。

        這個全套的錯誤檢查和糾正的機制就是ECC(Error Checking and Correcting)。ECC在遇到故障時首先會進行問題識別,通過設計內(nèi)存主動掃描機制,可以設置一天24 h不休(也可以調(diào)整)掃描和發(fā)現(xiàn)故障。識別后判斷故障位置(這里其實用到了一些特殊的bit計算和校驗算法),認定故障位置后,就嘗試隔離有問題的內(nèi)存空間,避免后續(xù)業(yè)務再次使用該內(nèi)存空間。

        業(yè)界主流的IT服務商都會利用Intel的MCA機制進行內(nèi)存錯誤處理,但是其軟件實現(xiàn)的精細化程度不一,比如有些服務商只是把CE錯誤屏蔽掉,或者只是簡單的告警,沒有做進一步處理;還有一些服務商即使有告警但是無法準確定位到發(fā)生問題的插槽。而信服云則提出了一個風險區(qū)機制,一旦發(fā)生內(nèi)存錯誤,就將問題單元置于一個“緩沖區(qū)”進行觀察,當CE錯誤達到一定閾值則立刻自動隔離有風險的內(nèi)存區(qū)域,避免錯誤繼續(xù)擴大引起嚴重的宕機。

        近年來,信服云在內(nèi)存隔離恢復機制上不斷優(yōu)化,2022年1月推出的超融合HCI6.7.0中還對ECC機制進行了增強。該增強機制的運行方式是:首先通過CPU的BIOS設置CE Record選項,使得硬件識別出內(nèi)存錯誤,一旦發(fā)現(xiàn)CE/UCE錯誤,硬件就會把這個錯誤上報給信服云的軟件。然后輪到軟件機制上場,OS系統(tǒng)先是判斷這個內(nèi)存是否被軟件(包括應用軟件和操作系統(tǒng))使用,如果沒有使用就直接隔離,不允許再分配給軟件使用。

        如果被軟件使用了,就獲取軟件的上下文,判斷區(qū)分其是被操作系統(tǒng)內(nèi)核(in_kernel)還是被用戶應用軟件(in_user)使用。

        如果是被應用軟件(in_user)使用,對于CE可糾正錯誤,信服云的內(nèi)存ECC增強機制就用一塊好的內(nèi)存區(qū)域替換掉有錯誤的內(nèi)存區(qū)域,這個過程中業(yè)務完全不受影響。如果是UCE不可糾正的錯誤,該機制就重新啟動該進程,把錯誤的內(nèi)存區(qū)域釋放出來并隔離出去不再使用,進程重啟后就可以使用完全正常的內(nèi)存了。

        如果是被操作系統(tǒng)內(nèi)核(in_kernel)使用,其內(nèi)存ECC增強機制就把有錯誤的內(nèi)存區(qū)域的信息記錄下來,在系統(tǒng)再次啟動的時候,該機制會隔離這些有錯誤的內(nèi)存,以保證不會被再次使用。

        推出上述機制后,信服云在1 000臺主機環(huán)境中進行了驗證。結果證明,通過軟件控制的ECC機制,能夠提前發(fā)現(xiàn)內(nèi)存異常,并且100 %自動隔離成功,提前處置以規(guī)避更大的故障影響,總體上相對原有方式能夠減少30 %的服務器宕機故障。

        回到開頭的問題,用軟件可以解決硬件層面帶來的問題嗎?毫無疑問,當然可以。信服云的ECC機制就通過創(chuàng)新性的軟件技術,更加準確、智能地控制了服務器的內(nèi)存故障,有效地提高了IT系統(tǒng)的可靠性。

        猜你喜歡
        定義機制故障
        故障一點通
        自制力是一種很好的篩選機制
        文苑(2018年21期)2018-11-09 01:23:06
        奔馳R320車ABS、ESP故障燈異常點亮
        成功的定義
        山東青年(2016年1期)2016-02-28 14:25:25
        破除舊機制要分步推進
        故障一點通
        江淮車故障3例
        注重機制的相互配合
        打基礎 抓機制 顯成效
        中國火炬(2014年4期)2014-07-24 14:22:19
        修辭學的重大定義
        當代修辭學(2014年3期)2014-01-21 02:30:44
        极品美女尤物嫩模啪啪| 青春草在线视频精品| 国产欧美曰韩一区二区三区 | 和黑人邻居中文字幕在线| 一区二区三区中文字幕脱狱者| 新婚少妇无套内谢国语播放| 久久天天躁狠狠躁夜夜躁2014| 人妻aⅴ无码一区二区三区| 一本一道波多野结衣av中文| 永久免费毛片在线播放| 一区二区三区在线观看视频| 国产饥渴的富婆一凶二区 | 中文字幕精品久久一区二区三区| 国产av在线观看一区二区三区 | 国产精品精品| 亚洲AV无码成人精品区日韩密殿| 亚洲国产都市一区二区| 亚洲国产精品国自拍av| 国产精品嫩草99av在线| 少妇白浆高潮无码免费区| 亚洲成av人片无码不卡播放器| 亚洲国产精品成人久久av| av网站免费在线浏览| 国产精品久免费的黄网站| 99久久国产综合精品五月天| 就去吻亚洲精品欧美日韩在线| 精品久久久久88久久久| 国产精品午夜福利亚洲综合网 | 蜜桃视频高清在线观看| 丝袜美腿人妻第一版主| 日本动漫瀑乳h动漫啪啪免费| 日本一卡2卡3卡四卡精品网站| 国产欧美乱夫不卡无乱码 | 亚洲av精品一区二区| 久久久国产精品| 狠狠综合久久av一区二区| 97超级碰碰人妻中文字幕 | 国产一区二区三区视频网 | 国产日产精品一区二区三区四区的特点| 越南女子杂交内射bbwbbw| 51精品视频一区二区三区|