黃浩
在過去的一年里,國內(nèi)的數(shù)據(jù)中心市場,獲得了高速的發(fā)展。來自IDC的數(shù)據(jù)顯示,2012年中國數(shù)據(jù)中心建設(shè)IT投資規(guī)模達(dá)1190億元,同比2011年1018億元增長16.9%;中國數(shù)據(jù)中心服務(wù)市場規(guī)?;?qū)⑦_(dá)248.7億元,相比2011年的174.3億元,增長率為42.7%。
這些數(shù)字從一定程度上反映出了社會信息化的進(jìn)程,也暗含了“兩化深度融合”的國家戰(zhàn)略的萌發(fā)??梢哉f,在這一背景下,企業(yè)發(fā)展到一定程度大多將擁有IT的屬性。這種屬性,一方面優(yōu)化了企業(yè)的管理、生產(chǎn)流程,便捷了企業(yè)服務(wù),然而另一方面,一旦IT系統(tǒng)出現(xiàn)問題,企業(yè)的服務(wù)、生產(chǎn)、管理都要受到不同程度的影響,尤其是企業(yè)的數(shù)據(jù)中心,一旦宕機(jī)往往意味著業(yè)務(wù)中斷。
服務(wù)器宕機(jī),業(yè)務(wù)中斷,這不僅僅是一個(gè)令企業(yè)IT運(yùn)維人員極度頭疼的概念,CFCA副總經(jīng)理曹小青表示,如果銀行系統(tǒng)中斷1小時(shí),將直接影響該行的基本支付業(yè)務(wù);中斷1天,將對其聲譽(yù)造成極大傷害;中斷2天以上不能恢復(fù),將直接危及其他銀行乃至整個(gè)金融系統(tǒng)的穩(wěn)定。而調(diào)研機(jī)構(gòu)Qualix Group曾有一組數(shù)字量化了不同行業(yè)關(guān)鍵業(yè)務(wù)中斷帶來的經(jīng)濟(jì)損失:服務(wù)器宕機(jī)1分鐘,平均會使運(yùn)輸業(yè)損失15萬美元,銀行業(yè)損失27萬美元,通信業(yè)損失35萬美元,制造業(yè)損失42萬美元,證券業(yè)損失45萬美元。這也從直接經(jīng)濟(jì)效益的角度解釋了關(guān)鍵業(yè)務(wù)平臺對穩(wěn)定性和可靠性的要求。
因此,在遍及2012全年的服務(wù)器宕機(jī)事件中,我們從中梳理了一些有代表性的事件,希望通過剝繭抽絲的方式,能夠找到一些應(yīng)對措施。
事件因果
從服務(wù)器宕機(jī)事件的起因上來看,至少分為5種:災(zāi)害性天氣、停電、黑客入侵、系統(tǒng)bug、運(yùn)維失誤。并且每一種起因的背后都會找到長長的一串名單。
災(zāi)害性天氣。
2012年10月24至30日,超級颶風(fēng)桑迪橫掃了大西洋,古巴、多米尼加、牙買加、巴哈馬、海地、美國等國家和地區(qū)。這些區(qū)域的數(shù)據(jù)中心受到了嚴(yán)重的影響。其中,紐約市Datagram公司的服務(wù)器機(jī)房被洪水淹沒,導(dǎo)致《赫芬頓郵報(bào)》和Gawker等多家媒體網(wǎng)站宕機(jī)。颶風(fēng)桑迪所帶來的影響超出了一般單一的中斷事故,為受災(zāi)地區(qū)數(shù)據(jù)中心產(chǎn)業(yè)帶來了規(guī)模空前的災(zāi)難。
問題:在災(zāi)害性天氣已經(jīng)準(zhǔn)確預(yù)報(bào)的前提下,數(shù)據(jù)中心為何沒有制定相應(yīng)的應(yīng)急措施?
停電。
由于停電,凡客五周年的線上慶典活動(dòng)被迫中斷了至少3個(gè)小時(shí)。2012年10月18日,由于北京酒仙橋附件區(qū)域出現(xiàn)大面積停電,導(dǎo)致凡客在此的服務(wù)器宕機(jī),進(jìn)而網(wǎng)站無法正常訪問。而隨后,凡客為彌補(bǔ)給用戶帶來的不便,決定將原本僅限于10月18日的滿200減50的店慶促銷活動(dòng),延長一天至次日24點(diǎn)。但業(yè)內(nèi)人士分析,3個(gè)小時(shí)的服務(wù)中斷,至少讓凡客損失了幾千萬元的利潤。
在當(dāng)日停電風(fēng)波中,遇到同樣問題的電子商務(wù)網(wǎng)站還有亞馬遜中國、維棉等。
問題:當(dāng)日8時(shí)左右酒仙橋出現(xiàn)大面積停電,經(jīng)電力公司搶修9點(diǎn)20分恢復(fù)供電,但實(shí)際上凡客截至10點(diǎn)45分依然無法訪問,為什么?
系統(tǒng)BUG。
域名巨頭GoDaddy是一家重要的DNS服務(wù)器供應(yīng)商,其擁有500萬個(gè)網(wǎng)站,管理超過5000萬的域名。這也解釋了為什么2012年9月10日宕機(jī)事故會是全年最具破壞性的代表。GoDaddy官方聲明該事件的起因是,由于內(nèi)部的一系列路由器的數(shù)據(jù)表造成的網(wǎng)絡(luò)事件損壞。
問題:這次宕機(jī)事件持續(xù)T6個(gè)小時(shí),盡管最后GoDaddy給出了免費(fèi)一個(gè)月的補(bǔ)償,但是,恢復(fù)速度還是太慢了。
黑客入侵。
2012年6月21日,Twitter中斷了數(shù)小時(shí),而五周后,7月26日,用戶在登錄Twitter的網(wǎng)站上只看到一則不完整的提示信息:“Twitter目前不可用,預(yù)計(jì)稍后恢復(fù)。”而后一名名為Cosmo黑客表示,他對UGNazi進(jìn)行了一項(xiàng)針對社交網(wǎng)站的拒絕服務(wù)攻擊。
問題:黑客入侵與安全防護(hù)之間的關(guān)系,就像是矛與盾。不過,拒絕服務(wù)攻擊(DDoS)已不是啥新鮮的手法了。
運(yùn)維失誤。
2012年7月28日Hosting.com被迫停運(yùn)。停機(jī)事故的發(fā)生是由于該公司位于特拉華州紐瓦克的數(shù)據(jù)中心正進(jìn)行UPS系統(tǒng)預(yù)防性維護(hù),“服務(wù)供應(yīng)商執(zhí)行斷路器操作順序不正確造成的UPS關(guān)閉是造成數(shù)據(jù)中心套房內(nèi)的設(shè)施損失的關(guān)鍵因素之一。”Hosting.com首席執(zhí)行官ArtZeile說?!皼]有任何重要的電力系統(tǒng)或備用電源系統(tǒng)出現(xiàn)故障,完全是一種人為的錯(cuò)誤造成的”。
問題:人為錯(cuò)誤通常被認(rèn)為是數(shù)據(jù)中心停機(jī)的主導(dǎo)因素之一,因此管住人、規(guī)范人很重要。
不只是“馬后炮”
說到應(yīng)對服務(wù)器宕機(jī),保持業(yè)務(wù)連續(xù)性,似乎上至企業(yè)CIO下至普通的IT運(yùn)維人員,都能講出一堆套路:不差錢的就搞兩地三中心,一般的也至少會在容災(zāi)段做軟容災(zāi),設(shè)置應(yīng)急庫;在技術(shù)操作手冊上,也會列個(gè)幾十條須知。
然而,宕機(jī)事件還是頻頻發(fā)生。究竟是為什么?
2012年12月15日下午,中國銀行信用卡服務(wù)器宕機(jī)4小時(shí)。而按照銀監(jiān)會的要求,其必然已經(jīng)做了兩地三中心的容災(zāi)備份。問題的關(guān)鍵在于,持續(xù)4小時(shí)的宕機(jī)本身就是一個(gè)問題。
那么,很多人會問,為什么不做備份切換呢?
關(guān)于這個(gè)問題,記者并沒有得到中國銀行方面的正面回答。而隨后在記者的采訪過程中,日立一位負(fù)責(zé)金融行業(yè)的系統(tǒng)工程師表示,如果啟用備份系統(tǒng),由于存在應(yīng)用上的未知性,沒人知道啟動(dòng)之后會出現(xiàn)什么問題。事實(shí)上,任何時(shí)候銀行系統(tǒng)出現(xiàn)問題,都需要一把手拍板做決定,其他人沒有這個(gè)責(zé)任和膽量啟動(dòng)預(yù)備系統(tǒng)。由此也不難理解為什么本次中國銀行宕機(jī)事件沒有迅速解決的原因了。
因此,問題的關(guān)鍵不在于是否做了容災(zāi)備份,而是平時(shí)演練是否到位,關(guān)鍵時(shí)刻才能頂上去。同時(shí),也要防止關(guān)鍵應(yīng)用因系統(tǒng)開發(fā)和歷史延續(xù)等問題而綁死在某一服務(wù)器上。