2014年7月1日15時37分,寧夏銀行核心系統(tǒng)數(shù)據(jù)庫系統(tǒng)出現(xiàn)故障,導致其全部業(yè)務中斷超過37個小時,在此期間,全部業(yè)務只能依靠手工完成?;叵霂啄昵?,記者曾經(jīng)親赴寧夏銀行,現(xiàn)場見證了寧夏銀行進行800公里異地容災演練的全過程。前后反差之大不禁令人感嘆。由寧夏銀行此次事故再聯(lián)想到其他一些銀行今年曾出現(xiàn)的業(yè)務中斷,對業(yè)務連續(xù)性要求極高且大多建有較完備的容災系統(tǒng)的銀行,為什么會頻頻發(fā)生業(yè)務宕機的事件呢?
銀行業(yè)在數(shù)據(jù)大集中方面一直走在各行業(yè)的前列。數(shù)據(jù)大集中在帶來業(yè)務管控便利性的同時也增加了數(shù)據(jù)的風險,這就像把所有雞蛋放進了同一個籃子。在客觀上,銀行業(yè)確實面臨著巨大的安全壓力。
為了應對風險,銀行業(yè)在容災方面表現(xiàn)得十分積極,甚至容災系統(tǒng)是否完備已成為銀行能否開業(yè)的重要條件。但即使在這種情況下,業(yè)務中斷現(xiàn)象仍然頻發(fā),這就要深究一下導致業(yè)務中斷的到底是技術、管理還是其他方面的原因了。從已經(jīng)對外公布的資料看,引發(fā)這次事故的主要原因是核心數(shù)據(jù)庫版本嚴重老化,且從2007年至今未再購買維保服務,而在系統(tǒng)出現(xiàn)故障后,應急恢復處置不當和應急管理體系的缺失也是不容忽視的重要原因。
事件曝光后,記者也通過相關渠道了解了一些情況。據(jù)稱,提供容災解決方案的廠商在事故發(fā)生半年前進行巡檢時已經(jīng)發(fā)現(xiàn)了一些不好的苗頭(比如備份盤被挪作他用),并向客戶發(fā)出了公函,但沒有收到回應?,F(xiàn)在,銀監(jiān)會還在對整個事件進行調(diào)查,提供相關硬件和軟件的廠商也都在積極配合調(diào)查。我們不好評論此次事故到底是由于技術上的原因還是管理上的疏漏造成的,但這次事故確實又給我們上了一課:技術雖然重要,但對容災和安全來說,管理更重要。投入大把銀子建成的容災系統(tǒng)在有些單位中確實只是一個擺設,沒有定期的容災演練,也沒有應急預案,當事故真正發(fā)生時,系統(tǒng)切換也就成了一句空話。
企業(yè)的IT系統(tǒng)正變得越來越復雜。在業(yè)務系統(tǒng)之外,企業(yè)還要建備份、容災、監(jiān)控等更多保障性的系統(tǒng)。對于企業(yè)來說,每一個系統(tǒng)的建設和維護都不能馬虎,而且要實現(xiàn)全面的監(jiān)控和均衡發(fā)展,只有這樣才不會像“木桶理論”說的那樣,因為某一塊木板的缺失而造成整個木桶失效。
就在完稿之時,記者接到了一個提供數(shù)據(jù)中心服務的廠商的電話,他們也注意到了此次寧夏銀行事故在業(yè)界引起的強烈反響,準備借此時機推廣一下他們的數(shù)據(jù)中心機房安全評估服務。安全是一項系統(tǒng)工程,由諸多微小的細節(jié)組成,任何一個細節(jié)的疏忽都可能釀成大禍。愿此次寧夏銀行的事故對各行業(yè)的客戶都是一個警醒,讓大家注意系統(tǒng)的均衡發(fā)展。(郭濤)