北京時間 3 月 1 日凌晨,亞馬遜 AWS S3 服務(wù)突然出現(xiàn)故障,停擺四個多小時,影響了數(shù)千個在線服務(wù),Netflix、Airbnb、Slack、Spotify、雅虎網(wǎng)絡(luò)郵箱等互聯(lián)網(wǎng)服務(wù)受到明顯影響。同時受到波及的一大批流行網(wǎng)站和服務(wù),包括 Airbnb、 Pinterest、Time,、CNBC、Docker、IFTTT、Medium、Nest、News Corp、Quora、Razer、Slack、Sailthru 和 Zendesk 等。
科普一下:S3 主要負責(zé)托管網(wǎng)站的圖片或者整站,也有一些物聯(lián)網(wǎng)服務(wù)將應(yīng)用后端放置在上面。有數(shù)據(jù)顯示,S3 托管著 148213 個網(wǎng)站和 121761 個獨立域名,幾乎都是美國網(wǎng)站。在前排前 100 萬的網(wǎng)站里,S3 的使用率為 0.8%,低于 CloudFlare 的 6.2%,但影響力依然巨大。
5 個小時之后,亞馬遜宣布所有服務(wù)恢復(fù)正常。
事后調(diào)查顯示,亞馬遜簡單存儲服務(wù)(S3)團隊當(dāng)時在調(diào)試一個問題,該問題導(dǎo)致S3計費系統(tǒng)的處理速度比預(yù)期慢。上午9:37分,一名獲得授權(quán)的S3團隊成員使用預(yù)先編寫的playbook,執(zhí)行一條命令。該命令旨在為S3計費流程中一個子系統(tǒng)刪除少量服務(wù)器。
不幸地是,輸入命令時輸錯一個字母,結(jié)果刪除了一大批本不該刪除的服務(wù)器。重新啟動時,S3無法處理服務(wù)請求。該區(qū)域依賴S3進行存儲的其他AWS服務(wù)也受到影響,包括S3控制臺、亞馬遜彈性云計算(EC2)、亞馬遜彈性塊存儲(EBS)以及AWSLambda。
據(jù)亞馬遜報告稱,云服務(wù)S3云存儲桶出現(xiàn)了“越來越高的錯誤率”,造成了AWS與主要網(wǎng)站和服務(wù)之間的連接中斷,之后影響迅速蔓延,政府、技術(shù)、銷售、市場、學(xué)術(shù)和電子商務(wù)網(wǎng)站不是停用,就是速度過慢以至于無法運行。
Commvault亞太區(qū)企業(yè)解決方案架構(gòu)師李可表示:“亞馬遜AWS云服務(wù)宕機主要是在存儲層出現(xiàn)的故障,除了造成服務(wù)響應(yīng)延遲或中斷之外,還可能造成數(shù)據(jù)的丟失,從而給用戶帶來巨大的經(jīng)濟損失。對于企業(yè)用戶來說,在享受云服務(wù)帶來的便利的同時,也面臨著云服務(wù)宕機帶來的巨大挑戰(zhàn)。所以,企業(yè)需要根據(jù)自身的需求提前制定數(shù)據(jù)管理策略,并應(yīng)用全面的數(shù)據(jù)管理解決方案,確保云中數(shù)據(jù)安全無虞?!?/p>
李可從以下四點闡述了云數(shù)據(jù)恢復(fù)的方法,幫助企業(yè)以更加有效的方式管理云中數(shù)據(jù)的安全。
1云數(shù)據(jù)恢復(fù)第一點:分區(qū)域管理數(shù)據(jù)
對于企業(yè)而言,可以把所有的數(shù)據(jù)都放在一個公有云上,但是需要在不同的區(qū)域進行完整的數(shù)據(jù)備份,并了解各區(qū)域數(shù)據(jù)所在的位置。如果某一區(qū)域的云服務(wù)發(fā)生中斷,企業(yè)可以在其他區(qū)域快速恢復(fù)數(shù)據(jù),并且在服務(wù)中斷期間保證業(yè)務(wù)的正常運營。
這里的重點是數(shù)據(jù)備份。關(guān)鍵數(shù)據(jù)和服務(wù)必須在云內(nèi)、各個云之間以及從云上進行備份,以確保數(shù)據(jù)始終可用。自動數(shù)據(jù)備份與數(shù)據(jù)備份驗證能夠確保云中數(shù)據(jù)的安全,減輕企業(yè)因宕機或中斷帶來的壓力。而Commvault數(shù)據(jù)備份解決方案可以借助一個Web的控制臺來管理多個應(yīng)用、位置和環(huán)境的保護、保留和搜索功能,從而減低風(fēng)險、復(fù)雜性和成本,提高可用性。
2云數(shù)據(jù)恢復(fù)第二點:掌握數(shù)據(jù)存儲的位置
鑒于本次亞馬遜S3 web宕機事件的經(jīng)驗教訓(xùn),企業(yè)應(yīng)該隨時掌握所有可訪問數(shù)據(jù)的位置。當(dāng)數(shù)據(jù)遷移到公有云時,并不意味著各個區(qū)域的數(shù)據(jù)都得到了保護。所以,企業(yè)應(yīng)該主動管理數(shù)據(jù)存儲,掌握數(shù)據(jù)所在的位置。
一旦云服務(wù)宕機或中斷,企業(yè)需要迅速了解哪些數(shù)據(jù)受到影響,從而能夠快速創(chuàng)建分析報告,找出故障,降低損失。所以,如果某一個地點發(fā)生中斷或宕機,企業(yè)可以在其他地點快速恢復(fù)數(shù)據(jù)。
數(shù)據(jù)備份或云數(shù)據(jù)恢復(fù)的點解決方案無法讓企業(yè)縱觀整體數(shù)據(jù)情況,一旦發(fā)生宕機或中斷,企業(yè)往往就會措手不及。Commvault數(shù)據(jù)管理方法可以提供一個跨越現(xiàn)代數(shù)據(jù)中心的物理、虛擬(VMware和Hyper-V)和云計算組件的一體化解決方案,融合了災(zāi)難恢復(fù)、數(shù)據(jù)挖掘、合規(guī)搜索、滿足合規(guī)或監(jiān)管要求等各種用途,是一種整體獨特和現(xiàn)代的數(shù)據(jù)管理方法,可以幫助企業(yè)應(yīng)對復(fù)雜的數(shù)據(jù)保護的挑戰(zhàn)。
3云數(shù)據(jù)恢復(fù)第三點:制定數(shù)據(jù)恢復(fù)備用計劃
對于企業(yè)而言,如果你的數(shù)據(jù)都是亞馬遜AMI格式并且你的預(yù)置基礎(chǔ)架構(gòu)是微軟Hyper-V或VMware,一旦發(fā)生宕機或中斷,將會怎樣?因此,無論是將本地數(shù)據(jù)備份到云,還是將云中數(shù)據(jù)備份到本地,企業(yè)都需要在主要地點之外保留一份數(shù)據(jù)副本。
企業(yè)需要在各地點和平臺之間遷移數(shù)據(jù),而這種數(shù)據(jù)遷移的靈活性是目前任何原生云工具所不具備的。如果某一個地點不可用,企業(yè)需要能夠在本地、異地以及不同的管理程序平臺之間實現(xiàn)數(shù)據(jù)恢復(fù)。如果美國東1區(qū)不可用,企業(yè)需要能夠在本地或在AWS美國西區(qū)、微軟Azure、Oracle Cloud等平臺上恢復(fù)這些數(shù)據(jù)。通過Commvault,企業(yè)可以在本機上將工作負載遷移到任何地方-從內(nèi)部到云平臺、從云平臺到云平臺、或者從云平臺回到內(nèi)部。
最后再馬上制定數(shù)據(jù)管理策略
亞馬遜云停擺4小時,百度移動端和客戶端搜索也掛掉了30多分鐘,這一系列云服務(wù)宕機事件給需要數(shù)據(jù)保護的企業(yè)敲響了警鐘。許多企業(yè)IT團隊正在制定從云到本地、以及從云到云的數(shù)據(jù)策略。Commvault亞太區(qū)企業(yè)解決方案架構(gòu)師李可表示:“企業(yè)需要根據(jù)自身的業(yè)務(wù)和要求,制定全面的數(shù)據(jù)保護方案,特別包括容災(zāi)方案,盡可能規(guī)避單個節(jié)點或者單個中心導(dǎo)致的損失。“
作為一家領(lǐng)先的數(shù)據(jù)保護及信息管理解決方案提供商, Commvault的解決方案由一系列在數(shù)據(jù)保護與恢復(fù)、云計算、虛擬化、歸檔、文件同步與共享領(lǐng)域領(lǐng)先業(yè)界的產(chǎn)品組成,被廣泛部署在本地、移動平臺和云端,并提供軟件即服務(wù)型方案。作為獨立、值得信賴的行業(yè)專家,Commvault專注于數(shù)據(jù)管理和保護,積極與全球客戶探討云中數(shù)據(jù)管理,致力于為全球企業(yè)客戶提供最完善、全面的數(shù)據(jù)管理解決方案。endprint