李冬艷陳建峽田立勤
(1.湖北工業(yè)大學計算機學院,湖北武漢 430068;2.華北科技學院計算機系,北京東燕郊 101601)
網(wǎng)絡可用性提高的機制、分析與量化評估①
李冬艷1,2②陳建峽1田立勤3
(1.湖北工業(yè)大學計算機學院,湖北武漢 430068;2.華北科技學院計算機系,北京東燕郊 101601)
隨著網(wǎng)絡應用的不斷普及,網(wǎng)絡系統(tǒng)的中斷所造成的代價和影響與日俱增,網(wǎng)絡的可用性被認為是網(wǎng)絡安全的一個重要方面,因此人們對作為業(yè)務支撐平臺的網(wǎng)絡可用性要求也越來越高。目前拒絕服務比較猖獗,可用性并不能阻止拒絕服務攻擊,但可用性服務可用來減少這類攻擊的影響,并使系統(tǒng)得以正常運行。本文主要論述網(wǎng)絡可用性概念,網(wǎng)絡可用性機制的評價標準,提高網(wǎng)絡可用性的四種機制,并對這四種的機制進行了比較,最后給出了如何量化評估網(wǎng)絡可用性的公式和例子,為提高網(wǎng)絡可用性奠定理論和實踐基礎(chǔ)。
網(wǎng)絡可用性;實現(xiàn)機制;評價標準;量化評估
隨著網(wǎng)絡應用的不斷普及,網(wǎng)絡系統(tǒng)的中斷所造成的代價和影響與日俱增,網(wǎng)絡的可用性被認為是網(wǎng)絡安全的一個重要方面,因此人們對作為業(yè)務支撐平臺的網(wǎng)絡可用性要求也越來越高。例如,當我們正在參加美國計算機學會ACM在線程序設計大賽的時候,如果在提交競賽程序代碼期間網(wǎng)絡不可用,那么我們?yōu)榇硕冻龅木臏蕚浜妥约和瓿傻某晒蜁S著網(wǎng)絡的中斷而付之東流。目前拒絕服務比較猖獗,可用性并不能阻止拒絕服務攻擊,但可用性服務可用來減少這類攻擊的影響,并使系統(tǒng)得以正常運行。造成網(wǎng)絡系統(tǒng)不可用的因素較多,主要包括硬件故障、軟件故障、數(shù)據(jù)故障、人為引起的配置不當故障、網(wǎng)絡攻擊引起的拒絕服務故障和環(huán)境引起的設備故障等。
網(wǎng)絡可用性是指網(wǎng)絡可以提供正確服務的能力,它是為可修復系統(tǒng)提出的,是對系統(tǒng)服務正常和異常狀態(tài)交互變化過程的一種量化,是網(wǎng)絡可以被使用的概率。它是可靠性和可維護性的綜合描述,網(wǎng)絡可靠性越高,可維護性越好則可用性越高。
網(wǎng)絡系統(tǒng)可用性并不是單純的網(wǎng)絡設備、服務器或節(jié)點的通斷,而是一種綜合管理信息,以反映支持業(yè)務的網(wǎng)絡是否具有業(yè)務所要求的可用性。網(wǎng)絡系統(tǒng)的可用性包括:鏈路的可用性,交換節(jié)點的可用性(如交換機和路由器),主機系統(tǒng)的可用性,網(wǎng)絡拓撲結(jié)構(gòu)的可用性,電源的可用性以及配置的可用性等。系統(tǒng)整體的可用性要考慮木桶原理,可用性最低的網(wǎng)絡設備、服務器或節(jié)點是整個系統(tǒng)可用性的關(guān)鍵點。
網(wǎng)絡可用性A用下列公式計算:
其中MTBF(Mean Time Between Failure)為平均故障間隔時間,它反映了網(wǎng)絡系統(tǒng)的可靠性,取決于網(wǎng)絡設備硬件和軟件本身的質(zhì)量,在MTTR一定的情況下,它越大網(wǎng)絡的可用性越大。MTTR(Mean Time To Repair)為平均修復時間,它反映了網(wǎng)絡系統(tǒng)的可維護性,在MTBF一定的情況下,它越小網(wǎng)絡的可用性越大。
高可用性的網(wǎng)絡首先確保不能頻繁出現(xiàn)故障,即使出現(xiàn)很短時間的網(wǎng)絡中斷,都會影響業(yè)務運營,特別是實時性強、對丟包和時延敏感的業(yè)務,如語音、視頻和在線游戲等。其次,高可用性的網(wǎng)絡即使出現(xiàn)故障,也應該能很快恢復。如果一個網(wǎng)絡一年僅出一次故障,但故障需要幾小時,甚至幾天才能恢復,那么這個網(wǎng)絡也算不上一個高可用性的網(wǎng)絡。
通常,廠家用“9”表示法來表示網(wǎng)絡的可用性??捎眯缘摹?”表示法及其故障時間對比情況如表1所示。注意:多少個9的可用性與實現(xiàn)代價緊密相關(guān),因此,要在可用性和費用之間做好折中選擇。
表1 可用性的表示法及其故障時間對比
網(wǎng)絡可用性機制的評價標準包括所采取的機制對網(wǎng)絡可靠性和可維護性的提高程度,在提高可用性時所付出的代價和對系統(tǒng)性能的影響,以及對可用性的提高是否可以進行量化評估與分析。評價標準可以分以下幾部分:
1)對可靠性的提高
這個評價標準是看所采取的措施是否有利于提高平均故障間隔時間(MTBF),即保證網(wǎng)絡在規(guī)定時間內(nèi)不出故障或少出故障,主要的措施避錯和容錯機制。
2)對可維護性的提高
這個評價標準是看所采取的措施是否有利于降低平均修復時間(MTTR),即網(wǎng)絡出了故障要能迅速修復,主要的措施是快速檢錯和快速排錯(恢復)。
3)考慮機制的復雜性對系統(tǒng)性能的影響
為了提高網(wǎng)絡系統(tǒng)的可用性,需要在網(wǎng)絡設備,軟件開發(fā)和管理上要做更復雜的設計、制造工藝和容錯措施等,這些措施直接影響到網(wǎng)絡的性能,因此要考慮提高可用性機制的復雜性與對系統(tǒng)性能的影響,找到合理的折中方案。
4)可用性的量化評估
對于給定的各個部件的可用性,要能定量計算出整個系統(tǒng)的可用性,并給出改進的建議。通常要考慮兩種情況:一種是設計時的考慮:對關(guān)鍵路徑可用性值的理論估算;另一種是網(wǎng)絡維護時的考慮:從用戶的角度出發(fā)對實際服務可用性的測量。關(guān)鍵路徑可用性值的理論估算采用:從元件的可靠性到由元件組成的設備的可靠性,再到由設備組成的網(wǎng)絡系統(tǒng)的可用性的估算遞進過程。其中元件可靠性包括元件的平均故障間隔時間MTBF和平均修復時間MTTR。
從公式1可知,提高系統(tǒng)可用性主要從兩個方面著手解決,一是增加MTBF,二是減少MTTR。增加MTBF的主要措施包括避錯和容錯兩種方法,減少MTTR的主要措施包括檢錯和排錯(恢復)兩種方法。因此提高系統(tǒng)可用性的主要措施有避錯、容錯、檢錯和排錯四個方面:避錯和容錯可以提高系統(tǒng)的可靠性,檢錯和排錯可以提高系統(tǒng)的可維護性。
2.1 基于避錯方法提高網(wǎng)絡的可用性與評價
2.1.1 避錯機制
避錯就是通過改進硬件的制造工藝和設計,選擇技術(shù)成熟可靠的軟硬件等策略來防止網(wǎng)絡系統(tǒng)的錯誤產(chǎn)生,從而提高網(wǎng)絡的可靠性,并通過可靠性來提高網(wǎng)絡的可用性,追求網(wǎng)絡系統(tǒng)的完美性。通俗講就是讓網(wǎng)絡不出現(xiàn)故障或者使出現(xiàn)故障的概率達到最低。避錯方法包括各種硬件、軟件和管理措施。硬件避錯方法是通過改進硬件的制造工藝和設計,防止錯誤的產(chǎn)生,包括網(wǎng)絡中電氣系統(tǒng)的避錯、網(wǎng)絡設備的避錯、服務器的避錯和網(wǎng)絡中傳輸媒體的避錯等。軟件避錯方法包括形式說明、過程管理、軟件測試和程序設計技術(shù)選擇等,例如網(wǎng)絡應用系統(tǒng)的避錯和成熟可靠的網(wǎng)絡操作系統(tǒng)的使用等。管理避錯方法要求網(wǎng)絡運行管理要嚴格按照規(guī)范進行,包括制度建設、任務分配、設備標識、規(guī)范文檔記錄、各種軟硬件日常維護和網(wǎng)絡安全管理標準等,例如管理信息存儲的避錯、網(wǎng)絡中網(wǎng)絡結(jié)構(gòu)選擇的避錯和日常網(wǎng)絡管理的避錯等。
2.1.2 避錯機制的評價
避錯是提高網(wǎng)絡可用性的方法之一,有其自身優(yōu)點和不足,在實際應用中要注意下列問題:
●網(wǎng)絡是一個綜合系統(tǒng),在研究避錯方法時要將木桶原理應用到整個避錯措施中,要重點考慮單點失效以及最容易失效的部分。
●不同的避錯要求付出的代價可能差別很大,因此也要考慮實用性,以獲得較高的性價比。
●各種避錯功能的設計工具為避錯技術(shù)的應用提供了有力保證。
●隨著高性能計算機規(guī)模的擴大,功耗也越來越大,在避錯設計中系統(tǒng)的熱設計越來越受到重視。
●網(wǎng)絡是由硬件、軟件組成的一個有機整體,硬件與軟件之間相互依賴、相互作用,因此為了提高網(wǎng)絡系統(tǒng)的可靠性,必須從軟硬件綜合系統(tǒng)的角度來認識問題。
●在軟件設計中,從開始調(diào)研到最終的系統(tǒng)形成,錯誤的影響是發(fā)散的,所以要盡量把錯誤消除在開發(fā)前期階段。
●按照網(wǎng)絡結(jié)構(gòu)的不同層次進行避錯的設計,比如對同一個企業(yè)網(wǎng)來說,核心層要求較高的避錯措施,匯聚層次之,而接入層基本上不需要考慮。
●在選擇網(wǎng)絡設備時要盡可能選擇技術(shù)成熟
的設備、成熟的軟件、利用成熟的技術(shù)、采
用先進的設計思想和先進的開發(fā)工具。
2.2 基于容錯方法提高網(wǎng)絡的可用性與評價
避錯方法可以提高網(wǎng)絡的可靠性,但無論多么可靠的系統(tǒng)都會出現(xiàn)系統(tǒng)失效,光靠避錯方法是不能完全解決系統(tǒng)的可靠性的。因此容錯技術(shù)成為了提高系統(tǒng)可靠性的另一個設計重點。
2.2.1 容錯機制
容錯就是如何保證在網(wǎng)絡系統(tǒng)出現(xiàn)錯誤的情況下,通過外加冗余資源消除單點故障的措施使系統(tǒng)仍然能夠正常工作。容錯技術(shù)主要是為了提高整個網(wǎng)絡系統(tǒng)的可靠性,即提高網(wǎng)絡可用性中的MTBF,進而提高網(wǎng)絡系統(tǒng)的可用性。容錯方法主要是通過冗余手段來實現(xiàn)的,冗余就是采用多個設備同時工作,當其中一個設備失效時,其它設備能夠接替失效設備繼續(xù)工作的體系?;谌蒎e方法提高網(wǎng)絡的可用性包括各種硬件、軟件和管理方面的容錯措施來提高網(wǎng)絡的可用性。硬件容錯方法部件的冗余、鏈路的冗余和網(wǎng)絡關(guān)鍵節(jié)點的冗余等;軟件方面的容錯包括網(wǎng)絡系統(tǒng)軟件和應用軟件的冗余、網(wǎng)絡信息的冗余和關(guān)鍵服務的冗余等。管理方面的容錯包括拓撲結(jié)構(gòu)的冗余、容錯性服務器集群技術(shù)和信息存儲的冗余等。
各種冗余網(wǎng)絡設計允許通過重復設置網(wǎng)絡鏈路和互連設備來滿足網(wǎng)絡的可用性需求。冗余減少了網(wǎng)絡上由于單點失敗而導致整個網(wǎng)絡失敗的可能性。它的目標是重復設置一個必需的組件,使得它的失敗不會導致關(guān)鍵應用程序的失敗。這個組件可以是一個核心路由器(交換機)、一個電源、一個廣域網(wǎng)主干等等。在選擇冗余設計解決方案之前,首先應該分析用戶目標,以確定關(guān)鍵應用程序、系統(tǒng)、網(wǎng)絡互連設備和鏈路的可用性。通過分析用戶對風險的容忍程度和不實現(xiàn)冗余的后果,需要在冗余與低成本、簡單與復雜之間作取舍。另一方面,冗余增加了網(wǎng)絡拓撲結(jié)構(gòu)和網(wǎng)絡尋址與路由選擇的復雜性,因此需要認真斟酌。
2.2.2 容錯機制的評價
容錯是提高網(wǎng)絡可用性的方法之一,有其自身優(yōu)點和不足,在實際應用中要注意下列問題:
●容錯方法多用在容易單點失效的關(guān)鍵部件、關(guān)鍵鏈路、關(guān)鍵設備和關(guān)鍵的服務上,例如在匯聚層和核心層的設計中,關(guān)鍵設備、關(guān)鍵鏈路和關(guān)鍵服務上采用冗余技術(shù)。
●如果在網(wǎng)絡系統(tǒng)中沒有備用部件,可以設計成隔離開故障部件,但系統(tǒng)能繼續(xù)使用的模式,從而實現(xiàn)系統(tǒng)降級使用,稱為緩慢降級,通過降低系統(tǒng)性能來保證系統(tǒng)的可用性。
●按照網(wǎng)絡結(jié)構(gòu)的不同層次進行容錯的設計,通常對同一個企業(yè)網(wǎng)來說,核心層要求較高的容錯措施,匯聚層次之,而接入層基本上不需要考慮。
●在實際的網(wǎng)絡設計中并不是冗余越多越好,過多的冗余會增加網(wǎng)絡配置和協(xié)議計算的復雜度,反而延長網(wǎng)絡故障的收斂時間,適得其反。另外容錯系統(tǒng)比傳統(tǒng)系統(tǒng)更容易出現(xiàn)軟件問題,也缺乏傳統(tǒng)系統(tǒng)的靈活性和方便性。
●避錯和容錯在網(wǎng)絡系統(tǒng)集成中的規(guī)劃設計階段和設備選型階段體現(xiàn)最為突出。
●具體的協(xié)議、配置優(yōu)劣對可用性有顯著的影響。快速收斂,協(xié)議參數(shù)調(diào)優(yōu)等有助于提高冗余部件間的切換時間,對提高可用性有較大意義。因此需要建立統(tǒng)一的配置模板,并針對路由收斂、冗余協(xié)議等進行優(yōu)化。
2.3 基于快速檢錯方法提高網(wǎng)絡可用性
由于MTBF取決于網(wǎng)絡設備硬件和軟件本身的質(zhì)量,而這一手段的作用對于在正在運行的網(wǎng)絡是有極限的,無法一味的通過提高MTBF數(shù)值來獲得網(wǎng)絡的高可用性,因此通過減小MTTR來實現(xiàn)網(wǎng)絡高可用性成為必然的選擇。從MTTR的構(gòu)成來看,要想減小其數(shù)值需要從兩方面入手,一是快速發(fā)現(xiàn)故障(檢錯),二是快速從故障狀態(tài)中恢復出來(排錯)。因此構(gòu)建高可用性網(wǎng)絡的基礎(chǔ)就是要實現(xiàn)快速故障發(fā)現(xiàn)和快速故障恢復。檢錯就是在網(wǎng)絡出現(xiàn)故障時,故障管理系統(tǒng)能及時發(fā)現(xiàn)故障部位和原因。
2.3.1 快速檢錯機制
實現(xiàn)快速故障發(fā)現(xiàn)包括故障檢測和故障診斷兩個方面,故障檢測的的作用是確定故障是否存在,故障診斷的作用是確定故障的位置。檢測和診斷可以聯(lián)機運行,也可以脫機運行,其中聯(lián)機檢測和診斷是提高系統(tǒng)可用性的重要手段。通常網(wǎng)絡故障產(chǎn)生的原因都比較復雜,特別是故障的產(chǎn)生是由多個網(wǎng)絡共同引起時。因此,要求網(wǎng)絡管理員必須具備較高的技術(shù)水平及業(yè)務素質(zhì),同時還應該積累豐富的實踐經(jīng)驗。
快速檢錯是從故障現(xiàn)象出發(fā),以網(wǎng)絡診斷工具為手段獲取診斷信息,確定網(wǎng)絡故障點,查找問題的根源具體包括:①自動檢錯而不是人工可以更快提高檢錯的速度;②借助線路檢測工具(如線纜測試儀、時間域反射計)可以加快線路故障的檢錯速度;③利用網(wǎng)絡管理系統(tǒng)專門的管理進程不斷地監(jiān)測路由器的關(guān)鍵數(shù)據(jù)并及時給出報警可以加快路由器故障的檢測速度;④通過工具自動監(jiān)視主機流量、掃描主機端口和服務來檢測主機的異常,可以加快主機故障的檢測速度;⑤利用網(wǎng)絡測試儀可以自動定位網(wǎng)絡故障源,找出故障點并顯示其網(wǎng)絡相關(guān)信息,從而加快邏輯故障的檢測速度;⑥利用網(wǎng)絡分析工具進行快速檢錯,如協(xié)議分析程序Snifer,操作系統(tǒng)中內(nèi)置的一些非常有用的軟件網(wǎng)絡測試工具等。
2.3.2 快速檢錯機制的評價
快速檢錯是提高網(wǎng)絡可用性的方法之一,有其自身優(yōu)點和不足,在實際應用中要注意下列問題:
●當分析網(wǎng)絡故障時,首先要清楚故障現(xiàn)象,應該詳細說明故障的癥侯和潛在的原因。為此,要確定故障的具體現(xiàn)象,然后確定造成這種故障現(xiàn)象的原因與類型。例如,主機不響應客戶請求服務,可能的故障原因是主機配置問題、接口卡故障或路由器配置命令丟失等。
●規(guī)范故障檢錯流程,提高檢錯效率:網(wǎng)絡中可能出現(xiàn)的故障多種多樣,往往解決一個復雜的網(wǎng)絡故障需要廣泛的網(wǎng)絡知識與豐富的工作經(jīng)驗。因此要使檢錯速度加快,要求制訂一整套完備的故障檢測流程。
●把專家系統(tǒng)和人工智能技術(shù)引進到網(wǎng)絡故障管理中來,可以加快網(wǎng)絡故障的檢錯速度。
●平時定期收集故障診斷的現(xiàn)象、原因和解決的方法,做好故障管理日志的記錄,在故障出現(xiàn)時,對網(wǎng)絡的快速診斷有很大參考價值。
●要多借助網(wǎng)絡故障診斷工具來加快網(wǎng)絡診斷的速度。
2.4 基于快速排錯方法提高網(wǎng)絡可用性與評價
可用性是相對的,它是通過提高系統(tǒng)的可靠性和可維護性來度量的。因此當系統(tǒng)出現(xiàn)故障不可用時,需要盡快修復系統(tǒng)(排錯),提高網(wǎng)絡系統(tǒng)的可用性。
2.4.1 快速排錯機制
排錯就是在網(wǎng)絡出現(xiàn)故障時,逐一排除故障,恢復系統(tǒng)的可用性。網(wǎng)絡故障排錯的方法分為:①分層故障排錯法,它主要根據(jù)網(wǎng)絡分層的概念進行逐步分析的方法;②分塊故障排錯法,此方法從設備的配置文件入手,將配置文件分為管理部分、端口部分、路由協(xié)議部分、策略部分和接入部分,并對其逐一進行檢查排錯;③分段故障排錯法,此方法是把網(wǎng)絡分段,逐段排除故障以及④替換法,替換法是檢查硬件問題最常用的方法。當懷疑是網(wǎng)線問題時,更換一根確定是好的網(wǎng)線試一試;當懷疑是接口模塊有問題時,更換一個其它接口模塊試一試。在實際網(wǎng)絡故障排錯時,可以先采用分段法確定故障點,再通過分層或其它方法排除故障。
網(wǎng)絡故障的排錯一般從故障現(xiàn)象觀察入手,對故障相關(guān)信息收集,并對此進行分析,找出可能的原因后得出相應的排錯方案,然后逐一排除。一般故障的排錯步驟如圖1所示。
在提高網(wǎng)絡可用性的機制中,重點強調(diào)的是快速排錯,基于快速排錯方法提高網(wǎng)絡可用性主要包括:冗余鏈路的自動切換、使用具有熱交換功能的冗余部件、利用備用部件替換故障部件、無備用部件時要進行隔離與降級處理、服務器集群服務的快速恢復、服務器的故障轉(zhuǎn)移以及使用復制技術(shù)等。
圖1 一般網(wǎng)絡故障排錯步驟
2.4.2 快速排錯機制的評價
快速排錯是提高網(wǎng)絡可用性的方法之一,有其自身優(yōu)點和不足,在實際應用中要注意下列問題:
●有時網(wǎng)絡系統(tǒng)的可用性破壞不是系統(tǒng)隨機產(chǎn)生的,而是由入侵者故意破壞的,對于這種攻擊的防范,應采用類似提高可用性的容錯方法,但新的名稱是“容侵”,是容忍入侵(Intrusion Tolerance)的意思,也就是說,當一個網(wǎng)絡系統(tǒng)遭受入侵,而一些安全技術(shù)都失效或者不能完全排除入侵所造成的影響時,容侵可以作為系統(tǒng)的最后一道防線,即使系統(tǒng)的某些組件遭受攻擊者的破壞,但整個系統(tǒng)仍能提供全部或者降級服務。
●故障轉(zhuǎn)移過程應該對用戶透明,應該僅是一次重新啟動,不應該讓用戶感覺到發(fā)生了停機事件,或者用戶也僅需要重新刷新一次,再次進入服務器即可。
●故障排除后必須認真分析網(wǎng)絡故障產(chǎn)生的原因,它是防止類似故障的再次發(fā)生的基本環(huán)節(jié)。
3.1 設備串聯(lián)形成的系統(tǒng)可用性評估方法
若網(wǎng)絡系統(tǒng)是由n個網(wǎng)絡設備串聯(lián)而成的,每個設備的可用性都已知道,設為Ai,則整個系統(tǒng)的
由上面的計算公式可知,n個設備串聯(lián)的可用性會隨著設備串聯(lián)結(jié)構(gòu)的增多越來越低,例如,假設每個設備可用性值是0.9,5個設備串聯(lián)后的可用性就低于0.6,10個設備串聯(lián)后的可用性就已經(jīng)接近0.3。
例3.1三個網(wǎng)絡元素進行串聯(lián),如圖2所示,各個設備的可用性均為0.99,則串聯(lián)后所形成的系統(tǒng)的可用性為:A=0.99×0.99×0.99= 0.97??梢姶?lián)后整體的可用性降低了??捎眯訟就是n個可用性的累乘,其計算公式為:
圖2 網(wǎng)絡元素串聯(lián)形成的網(wǎng)絡系統(tǒng)
3.2 設備并聯(lián)形成的系統(tǒng)可用性評估方法
n個網(wǎng)絡設備并聯(lián)(冗余)的可用性是用1減去n個設備不可用性的累乘,整體系統(tǒng)的可用性是隨著并聯(lián)設備的增加而增加的,其計算公式為:
例3.2路由器B和路由器D按圖6-5所示進行并聯(lián),其可用性分別為0.97和0.95,則并聯(lián)所形成的系統(tǒng)的可用性為:ABD=1-(1-0.97)×(1-0.95)=0.9985。可見并聯(lián)后整體的可用性增加了。
例3.3四個路由器進行混合連接,如圖3所示,每個路由器的可用性分別為0.99,0.98,0.97和0.95,則所形成的系統(tǒng)的可用性可用下列公式計算:
圖3 四個路由器冗余連接形成的網(wǎng)絡系統(tǒng)
先計算兩個并聯(lián)形成的可用性:ABD=1-(1-0.97)×(1-0.95)=0.9985。
然后計算三個串聯(lián)形成的可用性:A=AA× ABD×AC=99%×99.85%×98%=96.9
對于傳輸網(wǎng)絡來說,更多的保護方式是1+1的保護,即平時只用其中的一個主用路徑,當主用路徑不可用的時候再切換到備用路徑,此時可用性的計算公式為:
其中:Aa是主用(active)路徑的可用性,As是備用(standby)路徑的可用性,c是網(wǎng)絡切換成功率。很明顯,有保護系統(tǒng)的可用性A1+1要高于無保護系統(tǒng)的可用性Aa。
對于復雜網(wǎng)絡結(jié)構(gòu),可通過化簡、合并等手段形成串并聯(lián)結(jié)構(gòu),然后按上述方法計算。
3.3 可用性與可靠性的區(qū)別
可用性常常容易跟可靠性混淆,要注意它們的區(qū)別??煽啃允翘峁┱_服務的連續(xù)性,它可以描述為系統(tǒng)在一個特定時間內(nèi)能夠持續(xù)執(zhí)行特定任務的概率。它側(cè)重分析服務正常運行的連續(xù)性。而可用性是為可修復系統(tǒng)提出的,是對系統(tǒng)服務正常和異常狀態(tài)交互變化過程的一種量化,是可靠性和可維護性的綜合描述。例如系統(tǒng)發(fā)生了故障,需要維修,對于可用性來說,這個維修處理需要的時間越短越好。但不能說這個維修處理時間越短,可靠性越高,因為假如你在很短的3分鐘就讓系統(tǒng)恢復正常了,但是系統(tǒng)出問題的頻率很高,十天半月就出一次故障,那系統(tǒng)的可用性可能很高,但可靠性仍然很低。相反,如果你系統(tǒng)出問題的頻率很低,一年才出一次故障,即使維修時間較長,可靠性還是比較高的。
假設某一網(wǎng)絡的MTBF為45,000小時(約5.1年),發(fā)生故障后的平均修復時間MTTR為4小時。這樣,該網(wǎng)絡的停運時間就是每隔45,000小時發(fā)生故障4小時??捎眯訟的計算方法為:MTBF/(MTBF+MTTR),即45000/45004 =99.9911%。
從上述公式可以看出可用性和可靠性是不同的:如果平均失效間隔時間(MTBF)遠大于平均修復時間(MTTR),那么系統(tǒng)的可用性將很高。同樣的,如果平均修復時間很小,那么可用性也將很高。如果可靠性下降(MTBF變小),那么就需要減小MTTR(提高可維護性)才能達到同樣的可用性。當然對于一定的可用性,可靠性增長了,可維護性就不那么重要了。所以我們可以在可靠性和可維護性之間做出平衡,來達到同樣的可用性目的。
本文主要論述了網(wǎng)絡可用的含義、評價標準、具體機制,并對每種機制的利弊進行了評價,最后給出如何計算網(wǎng)絡的可用性公式和示例。由于各種方法的內(nèi)涵和形式隨著計算機學科的長足發(fā)展而日益豐富,沒有一成不變的方法,要不斷改進,因此要結(jié)合實際項目,運用標準化的方法,逐步形成完整的提高網(wǎng)絡可用性的方法。
[1]黃永勤,金利峰,劉耀.高性能計算機的可靠性技術(shù)現(xiàn)狀與趨勢[J].計算機研究與發(fā)展,2010,47(4):589-594
[2]林闖,蔣屹新,尹浩箸.網(wǎng)絡安全控制機制[M].北京:清華大學出版社,2008
[3]田立勤,張巧紅,等.網(wǎng)絡工程技術(shù)教程[M].江蘇:中國礦業(yè)大學出版社,2007
[4]席振元,田立勤,等.數(shù)據(jù)通信與計算機網(wǎng)絡[M].北京:煤炭工業(yè)出版社,2010
Mechanism Analysis and Quantitative Evaluation to Improve Network Availability
LI Dongyan1,2,CHENG Jianxia1,TIAN Liqin2
(1.Computer College of Hubei Industry university,Wuhan Hubei430068;
2.North China Institute of Science and Technology,Yanjiao Beijing-East101601)
With the growing popularity of network applications,increasing costs and effects caused by the interruption of network system is very clear.DoS(Denial of service)is very rampant now,although availability can't prevent denial of service attacks,availability is available to reduce the impact of such attacks and it allows the system to normal operation.This paper discusses the concept of network availability,evaluation criteria of Network availability mechanism,and four mechanisms to improve network availability and compared between four mechanisms.Finally,the formula and examples of quantitative assessment network availability is given,which lay to enhance network availability based on the theory and practice.
Network Availability;Mechanism;Evaluation Criteria;Quantitative Evaluation
TP393.02
A
1672-7169(2011)01-0076-06
2011-01-10
李冬艷(1967-),女,吉林榆樹人,大學畢業(yè),湖北工業(yè)大學在讀碩士研究生,華北科技學院計算機系副教授,研究方向:計算機網(wǎng)絡。