□ 孟士清
(一)新老架構并存,數(shù)據中心建設缺乏前瞻性。作為銀行數(shù)據中心,承擔著保護客戶信息安全的重要任務,因此數(shù)據中心建設時優(yōu)先選用可靠性最高、技術最成熟的架構。這種做法的優(yōu)勢是能夠最可靠地保證數(shù)據的安全性,同時提供滿足業(yè)務需求的處理能力。近年來數(shù)據中心的保守建設導致多種架構并存的弊端日漸凸顯。為了保證業(yè)務的可靠性,銀行核心金融交易無疑要運行在性能穩(wěn)定可靠的主機上。對于其他重要性不高的業(yè)務,主流做法已經普遍由小型機為核心的架構轉向彈性更好、成本更低的虛擬化為基礎的開放平臺架構。出于對業(yè)務平穩(wěn)過渡的考慮,銀行數(shù)據中心轉型速度較慢,仍有相當數(shù)量的小型機在運行。新老架構并行不僅制約著數(shù)據中心的橫向擴展能力和兼容性,還給數(shù)據中心災備、數(shù)據遷移等工作增加了難度,并且不同架構帶來的機器品牌多、型號雜的問題也為以后的運維工作增加了難度。隨著銀行業(yè)務量急劇上升、大數(shù)據的推廣應用以及高可用架構部署,銀行對數(shù)據中心規(guī)模增加需求旺盛,但現(xiàn)階段缺乏科學估算數(shù)據中心擴張速度的手段,往往新數(shù)據中心建成后,規(guī)模常常無法滿足建成時的業(yè)務需要。如果不能前瞻性地擴容,數(shù)據中心將成為制約銀行業(yè)務擴張的短板。
(二)依靠人力,系統(tǒng)部署運維缺乏主動性和敏捷性。業(yè)務線上化大趨勢下,對銀行業(yè)務的連續(xù)運行以及新業(yè)務上線速度提出了更高的要求。目前國內大部分銀行數(shù)據中心在業(yè)務部署上仍主要依賴人力。從物理環(huán)境準備到軟件環(huán)境準備再到應用部署投產,僅小型應用的全流程人工部署時間就可能達到1到2周,再加上業(yè)務測試時間,整體來看業(yè)務部署上線時間較長,缺乏敏捷性。在競爭日益激烈的背景下,系統(tǒng)部署速度慢就意味著市場份額的丟失,這將給銀行造成不可估量的損失。除了系統(tǒng)部署層面以外,日常的系統(tǒng)運維工作也主要依靠人力。硬件設備巡檢上,巡檢人員通過觀察硬件設備的報警燈來判斷設備是否存在問題,如確認故障再聯(lián)系廠商維修。考慮到數(shù)據中心設備往往多達數(shù)千臺甚至上萬臺,人工巡檢常常不能及時、準確地發(fā)現(xiàn)所有硬件故障,致使故障維修不及時不徹底的現(xiàn)象時有發(fā)生。對于軟件運行狀態(tài),多通過監(jiān)測軟件進行監(jiān)控,如發(fā)現(xiàn)告警則人工聯(lián)系相關負責人進行恢復。這樣的流程缺乏主動性,對于簡單問題也不能立刻處理,造成業(yè)務從中斷到恢復時滯長。從發(fā)展趨勢看,通過自動化手段替代部署和運維中的人力是必然趨勢,先進互聯(lián)網企業(yè)已經對此展開諸多探索,從銀行數(shù)據中心現(xiàn)狀來看,提升自動化工作占比任重道遠。
(三)管理精細化程度不高,成本控制乏力。金融新常態(tài)下,銀行利潤增長乏力,不良率高企,因此壓降成本和費用的需求強烈。由于金融科技重要性日益提升,在前幾年的費用壓降潮中,大多數(shù)銀行對科技的投入并沒有下降,甚至略有上升。即便如此,不斷的投入但缺乏成本管理的粗放模式是難以為繼的。數(shù)據中心成本管理主要分為兩個方面:一是新數(shù)據中心建設和設備新購、換代涉及的各種成本,這部分成本由科技部門核算申請,財審會審核通過,數(shù)據中心能夠主動把控;另一項成本則是數(shù)據中心日常運營成本,主要是電力消耗、散熱消耗、物業(yè)和人力等成本,其中電力和散熱成本占比較高,僅兩項就占整體運營成本的一半。但目前大多數(shù)銀行數(shù)據中心對這類成本的管理較為粗獷,表現(xiàn)在只關注整體能耗,對各種類、各品牌設備以及設備內部各組件的能耗水平缺少監(jiān)測和統(tǒng)計。這樣一來,在運營成本控制上,數(shù)據中心缺乏抓手。除此以外,數(shù)據中心能耗與業(yè)務支撐能力之間的關系也沒有精細核算,造成不同數(shù)據中心之間能耗和負載比例失衡,因而常常出現(xiàn)資源分配不合理導致寶貴資源浪費的現(xiàn)象。
目前銀行數(shù)據中心運營面臨高可用、敏捷性和成本管理三方面的挑戰(zhàn),傳統(tǒng)數(shù)據中心架構和管理方式亟待轉型,構建可靠性好、自動化程度高的智慧數(shù)據中心是銀行數(shù)據中心的轉型方向。
(一)建立從部署到投產的系統(tǒng)全生命周期云管理體系。在《中國銀行業(yè)信息科技十三五規(guī)劃(征求意見稿)》中,監(jiān)管部門明確要求各金融機構要探索構建金融私有云。云平臺建設的核心思想是通過云平臺統(tǒng)一集中納管,實現(xiàn)底層物理資源的池化,通過云管平臺實現(xiàn)對資源的自動化調度管理。從實際工作來看,云平臺對當前數(shù)據中心的主要意義在于資源的標準化快速部署。相比傳統(tǒng)人工部署資源,云平臺通過前期的集中納管大大節(jié)省系統(tǒng)部署的準備時間。在管理方面,云平臺可以實現(xiàn)應用系統(tǒng)的全流程生命周期管理,“測試資源部署—生產投產—系統(tǒng)變更—資源回收”的全流程都可以自動化管理,大大縮短了各環(huán)節(jié)所需時間。得益于高效的云平臺,數(shù)據中心系統(tǒng)管理員可以從繁雜的應用部署工作中解放,從而專注于技術含量更高的新技術研究和儲備工作上。未來,云平臺還可以根據應用負載實現(xiàn)應用的彈性伸縮以支持應用系統(tǒng)快速響應如支付寶、財付通、紀念幣預約等業(yè)務高峰。目前,國內主要金融機構紛紛根據自身需求進行云平臺建設探索,就進度來看,云平臺還主要應用于測試環(huán)境中,距離生產環(huán)境投產應用還有一定的差距。筆者認為,規(guī)模大的機構可以構建自己的金融私有云,規(guī)模較小的機構則可以聯(lián)合開發(fā)金融云,共同加快推進云平臺建設,以便更好地集約社會資源,提升開發(fā)效率。
(二)建立從主動監(jiān)測到主動修復的自動化運維管理體系。數(shù)據中心的主要工作之一是日常的系統(tǒng)運維工作,包括硬件設備、軟件系統(tǒng)、應用狀態(tài)的監(jiān)測和維護。傳統(tǒng)數(shù)據中心的運維工作主要依賴人力進行,物理設備專人巡檢、軟硬件監(jiān)控專人負責、故障修復由具體負責人承擔,這樣的運維方式十分被動,且割裂了底層硬件設備和上層軟件監(jiān)控的相關關系,故障恢復時間長,因此銀行數(shù)據中心迫切需要建立一套自動化運維體系。自動化運維核心工作主要包括兩方面:一是建立軟硬件、應用監(jiān)控為一體的自動化監(jiān)控平臺,這個自動化平臺可以通過軟硬件故障之間的相關性快速定位問題發(fā)生的根本原因,形成各組件間故障的關系視圖,為修復工作提供參考。二是構建主動系統(tǒng)修復平臺,系統(tǒng)管理員和應用管理人員根據不同故障發(fā)生的原因,事先部署應急維護腳本或者應急切換系統(tǒng),問題發(fā)生時運維平臺可以自動或根據管理員指令手動快速恢復系統(tǒng),從而大大縮短應用中斷時間,使數(shù)據中心運行更加穩(wěn)健。
(三)建立大數(shù)據為核心的資源管理和規(guī)劃體系。長久以來,數(shù)據中心的成本控制一直是困擾金融企業(yè)的棘手問題。根據數(shù)據中心的業(yè)務價值承載能力來核算數(shù)據中心成本是未來智慧數(shù)據中心基礎工作。首先,要著手建立數(shù)據中心成本測算平臺,實時對數(shù)據中心各類設備,包含設備的各種組件的能耗水平進行監(jiān)測,采集能耗類運營成本的基礎數(shù)據。之后經過一段時間數(shù)據積累,探索合理的大數(shù)據分析模型來核算數(shù)據中心能耗和業(yè)務承載能力之間的相關性,據此形成成本控制方案。參照科學的成本管控建議,不僅可以在不影響生產的情況下最大程度地節(jié)約當前運營成本,還能夠根據大數(shù)據分析結論科學地確定未來數(shù)據中心規(guī)模擴張速度,避免盲目擴張引發(fā)的各種問題。此外,銀行數(shù)據中心一般根據企業(yè)會計制度要求定期淘汰舊設備。在實際工作中,繼續(xù)使用老設備的成本高于投產新設備所產生的成本??梢钥紤]通過成本管理大數(shù)據平臺科學規(guī)劃各類硬件的使用期限,取代固定期限的淘汰方式,這樣一方面能夠節(jié)約數(shù)據中心運營成本,還能通過更快的設備更替速度來提升數(shù)據中心整體運行效率。