□ 孟士清
自互聯(lián)網(wǎng)公司加入金融創(chuàng)新競爭中以來,銀行不僅要面臨同業(yè)間激烈競爭,還要應(yīng)對互聯(lián)網(wǎng)金融的挖角,為此銀行的業(yè)務(wù)產(chǎn)品和信息技術(shù)迭代達(dá)到前所未有的速度。作為銀行的科技部門,一方面要做好開發(fā)工作來支持業(yè)務(wù)創(chuàng)新,另一方面還要做好運(yùn)維工作來保障傳統(tǒng)業(yè)務(wù)和創(chuàng)新業(yè)務(wù)的持續(xù)穩(wěn)定運(yùn)行。產(chǎn)品開發(fā)對底層技術(shù)架構(gòu)依賴較少,轉(zhuǎn)型和創(chuàng)新速度快;與開發(fā)相比,作為科技后臺支持的運(yùn)維工作受限于底層軟、硬件架構(gòu),無法快速實(shí)現(xiàn)轉(zhuǎn)型,現(xiàn)有資源和管理方式已經(jīng)難以滿足開發(fā)部門快速部署、快速迭代和持續(xù)運(yùn)行的需求。
云平臺也被稱為按需平臺(on-dema nd platform),顧名思義,是根據(jù)使用部門實(shí)際需求定制的管理平臺,通過開放平臺技術(shù)池化底層物理資源,使用自動化手段替代手工部署和運(yùn)維等相關(guān)操作。云平臺的出現(xiàn)為銀行IT系統(tǒng)架構(gòu)轉(zhuǎn)型指明了方向,已有不少銀行就云平臺建設(shè)進(jìn)行探索,監(jiān)管部門也鼓勵銀行根據(jù)自身情況搭建云平臺,提升IT運(yùn)維、管理工作水平。
農(nóng)行江蘇分行作為系統(tǒng)和同業(yè)內(nèi)的業(yè)務(wù)大行和體量大行,其科技工作具有較強(qiáng)代表性。本文以江蘇農(nóng)行為例,分析了當(dāng)前銀行IT運(yùn)維工作中普遍存在的問題,并據(jù)此對銀行云平臺構(gòu)建提出建議。
(一)日益增長的軟硬件設(shè)備數(shù)量同有限運(yùn)維人力之間的矛盾。近年來,銀行管理的IT系統(tǒng)和硬件設(shè)備數(shù)量不斷增加,就江蘇農(nóng)行實(shí)際情況來看,其原因主要有兩個(gè):一是金融業(yè)務(wù)不斷發(fā)展創(chuàng)新,技術(shù)層面的迭代導(dǎo)致系統(tǒng)迭代更加頻繁,銀行需要根據(jù)應(yīng)用架構(gòu)升級不斷部署新系統(tǒng),且業(yè)務(wù)創(chuàng)新不斷涌現(xiàn),亟需更多的測試和生產(chǎn)系統(tǒng)支持。另一方面,銀行的系統(tǒng)架構(gòu)正逐步轉(zhuǎn)型,計(jì)算資源由幾年前的小型機(jī)為主向開放平臺轉(zhuǎn)變,小型機(jī)數(shù)量不斷縮減,X86服務(wù)器的數(shù)量快速增加;同時(shí)存儲資源則隨著數(shù)據(jù)量的增加不斷擴(kuò)張,分行存儲設(shè)備如NAS和SAN設(shè)備的數(shù)量也在逐漸增加。運(yùn)維人員不但要投入到硬件設(shè)備部署、應(yīng)用系統(tǒng)變更上線上,還要應(yīng)對突發(fā)的軟硬件故障。在運(yùn)維規(guī)模持續(xù)擴(kuò)張的情況下,這些勞動密集型的工作消耗了愈來愈多的人力資源。而銀行系統(tǒng)運(yùn)維人員數(shù)量基本維持不變,長此以往,運(yùn)維壓力繼續(xù)增加,系統(tǒng)運(yùn)維工作將陷于疲于應(yīng)對的不利局面。
(二)日益增強(qiáng)的業(yè)務(wù)連續(xù)性要求同傳統(tǒng)系統(tǒng)架構(gòu)之間的矛盾。作為金融企業(yè),確保業(yè)務(wù)的連續(xù)運(yùn)行至關(guān)重要,尤其是自助機(jī)具、網(wǎng)銀、掌銀上部署的業(yè)務(wù),更是要求24小時(shí)無間斷運(yùn)行。銀行業(yè)務(wù)系統(tǒng)極短時(shí)間的中斷也可能會給客戶帶來嚴(yán)重的經(jīng)濟(jì)損失,進(jìn)而導(dǎo)致聲譽(yù)風(fēng)險(xiǎn)。目前江蘇農(nóng)行重要的業(yè)務(wù)系統(tǒng)大多實(shí)現(xiàn)了通過負(fù)載均衡系統(tǒng)接入應(yīng)用服務(wù)器,這在應(yīng)用層面保證了業(yè)務(wù)的連續(xù)性,但是底層的sybase數(shù)據(jù)庫大多以單實(shí)例方式部署在小型機(jī)分區(qū)上,得益于小型機(jī)的穩(wěn)定工作,大部分時(shí)間數(shù)據(jù)庫的連續(xù)工作是能夠保證的。而停機(jī)窗口的數(shù)據(jù)庫維護(hù)仍將不可避免地造成一段時(shí)間的業(yè)務(wù)中斷。分行的數(shù)據(jù)庫維護(hù)均在總行的停機(jī)窗口進(jìn)行(一般為周末凌晨2點(diǎn)),雖然從時(shí)間上選擇了業(yè)務(wù)量較少的時(shí)段,但無法確保此期間內(nèi)沒有客戶使用相關(guān)系統(tǒng)。2018年以來,分行已經(jīng)提出了不停機(jī)維護(hù)的明確要求,但就目前的架構(gòu)來看,尚無可能實(shí)現(xiàn)完全的不停機(jī)、不停業(yè)務(wù)的維護(hù)。
(三)日益提升的系統(tǒng)安全性要求同有限的災(zāi)備技術(shù)手段之間的矛盾。系統(tǒng)的安全性要求所有的系統(tǒng)和數(shù)據(jù)都要有備份,理想的災(zāi)備手段是使災(zāi)備切換時(shí)間盡量短、恢復(fù)的時(shí)點(diǎn)盡量接近。銀行現(xiàn)有的備份和災(zāi)難恢復(fù)工作中包含了大量人工操作的部分,因此備份更新頻率和切換速度均不太理想。從江蘇農(nóng)行具體情況來看,虛擬服務(wù)器備份方面,運(yùn)維人員每個(gè)季度通過腳本對全量虛擬機(jī)進(jìn)行手工備份,備份周期為季度,備份的粒度過大,對于數(shù)據(jù)庫來說,每天晚上對生產(chǎn)上的數(shù)據(jù)庫進(jìn)行導(dǎo)出操作,結(jié)束后導(dǎo)入到備份數(shù)據(jù)庫中,備份周期為一天。上述備份方式不僅自動化程度不高,而且備份周期過長,如遇到生產(chǎn)數(shù)據(jù)庫恢復(fù),則會丟失當(dāng)天的交易數(shù)據(jù),這是不能容忍的。在災(zāi)備恢復(fù)方面,一般流程包括“故障發(fā)現(xiàn)——故障判斷——備份切換”三部分,目前后面兩個(gè)流程完全依賴運(yùn)維人員判斷和操作,導(dǎo)致切換時(shí)間過長,影響應(yīng)急切換的效率。整體來看,在災(zāi)備方式上,分行現(xiàn)有技術(shù)手段比較單一,災(zāi)難恢復(fù)效率低,愈發(fā)無法滿足IT系統(tǒng)安全性要求。
(四)日益精細(xì)化、集約化的管理要求同手工管理之間的矛盾。傳統(tǒng)銀行運(yùn)維工作中,由于缺少自動化管理軟件,一般依靠文本和表格記錄資源申請、部署和變更情況。目前江蘇農(nóng)行所有的系統(tǒng)部署、變更申請基本上通過IT服務(wù)平臺進(jìn)行申請、審批,同時(shí)填寫紙質(zhì)系統(tǒng)部署申請表,這一套流程僅僅實(shí)現(xiàn)了系統(tǒng)申請部分的信息化,而對于系統(tǒng)部署和變更操作以及后續(xù)資料管理上較為粗放,基本上是依靠手工記臺賬,僅系統(tǒng)信息采集類的臺賬表格就多達(dá)十幾張,每次系統(tǒng)操作之后,維護(hù)對應(yīng)項(xiàng)目的臺賬占用了運(yùn)維人員相當(dāng)一部分時(shí)間,形成了額外的工作壓力。此外,依靠手工維護(hù)的臺賬在準(zhǔn)確性和規(guī)范性方面存在不足,這也給以此為基礎(chǔ)的統(tǒng)計(jì)和管理工作帶來困難。除臺賬之外,系統(tǒng)的變更和部署操作也多為手工完成,缺乏自動化手段。人工部署交付的系統(tǒng)在參數(shù)、環(huán)境以及配置方面普遍存在細(xì)微差異,這種差異在投產(chǎn)后很可能導(dǎo)致服務(wù)器性能無法達(dá)到最優(yōu)水平,且在部署時(shí)如果不能嚴(yán)格按照總行安全和配置規(guī)范實(shí)施,則會引發(fā)系統(tǒng)安全問題,給未來的生產(chǎn)運(yùn)行埋下隱患。
綜上所述,銀行現(xiàn)有的運(yùn)維體系在應(yīng)對新形勢下的運(yùn)維需求上存在諸多不足。云平臺技術(shù)的出現(xiàn)和日臻成熟為銀行走出現(xiàn)有架構(gòu)下的運(yùn)維困境提供了思路。目前,政府部門和大型企業(yè)紛紛就建設(shè)私有云平臺做出探索,系統(tǒng)內(nèi)農(nóng)行和建行已在測試環(huán)境下試用了云平臺。在此背景下,銀行構(gòu)建符合實(shí)際運(yùn)維需求的金融云平臺、實(shí)現(xiàn)傳統(tǒng)架構(gòu)轉(zhuǎn)型是必行之路。根據(jù)銀行目前的系統(tǒng)架構(gòu)和實(shí)際工作需求,筆者認(rèn)為可初步構(gòu)建如圖1所示的云平臺架構(gòu)。
圖1 分行云平臺架構(gòu)簡圖
(一)資源層——構(gòu)建物理設(shè)備資源池。實(shí)現(xiàn)不同品牌的異構(gòu)物理資源的池化是云平臺建設(shè)的一項(xiàng)基礎(chǔ)工作,資源池化(IaaS,基礎(chǔ)結(jié)構(gòu)即服務(wù)),即把最底層不同類型的物理設(shè)備通過平臺或接口進(jìn)行統(tǒng)一調(diào)度,使運(yùn)維人員從學(xué)習(xí)和掌握各類不同類型、不同品牌設(shè)備具體操作的復(fù)雜工作中脫身,從而能夠更加專注于統(tǒng)籌規(guī)劃和日常管理等方面的工作。從各行實(shí)際情況來看,每年采購的設(shè)備品牌不斷變化,多年積累下來,銀行現(xiàn)有服務(wù)器品牌多達(dá)幾十種,主流存儲品牌超過10種,還有各種品牌的交換機(jī)、小型機(jī)等硬件設(shè)備,分門別類地進(jìn)行管理工作量大,單個(gè)運(yùn)維人員很難做到熟練操作所有硬件設(shè)備,因此構(gòu)建物理資源池意義重大。IaaS在構(gòu)建方式上可以通過OpenStack等開源平臺對接實(shí)現(xiàn),也可以通過創(chuàng)建定制接口池來實(shí)現(xiàn)。通過開源平臺調(diào)用底層物理設(shè)備的優(yōu)點(diǎn)是功能強(qiáng)大、可擴(kuò)展型好、兼容性佳,但前期開發(fā)成本高和工作量大,實(shí)現(xiàn)周期較長。考慮到銀行現(xiàn)有主流的Vmware虛擬化架構(gòu)短期內(nèi)不會改變的情況,筆者認(rèn)為構(gòu)建物理資源池可以分兩步走,短期內(nèi)通過調(diào)用Vmware接口實(shí)現(xiàn)初步的基于VMware的計(jì)算資源、存儲資源和網(wǎng)絡(luò)資源的統(tǒng)籌管理調(diào)度,以滿足當(dāng)前的運(yùn)維需要;與此同時(shí),使用部分測試用物理設(shè)備來開發(fā)和測試基于開源平臺的物理資源的池化技術(shù),為未來系統(tǒng)架構(gòu)轉(zhuǎn)型做技術(shù)儲備。
(二)調(diào)度層——實(shí)現(xiàn)自動化部署、自動化災(zāi)備恢復(fù)和自動化運(yùn)維機(jī)制。資源池化是云平臺建設(shè)的基礎(chǔ),而在調(diào)度層實(shí)現(xiàn)自動化則是云平臺構(gòu)建的核心技術(shù)。筆者認(rèn)為,分行金融云應(yīng)爭取實(shí)現(xiàn)部署、災(zāi)備恢復(fù)和運(yùn)維三類自動化工作。自動化部署是第一步,是云平臺根據(jù)管理員的指令自動部署各類資源包括服務(wù)器、負(fù)載均衡、標(biāo)準(zhǔn)化軟件等。與手工部署相比,自動化部署通過事先設(shè)定部署參數(shù)和組件實(shí)現(xiàn)標(biāo)準(zhǔn)化、規(guī)范化部署,避免了部署過程中的人為差錯,縮短了部署過程中各環(huán)節(jié)工作的銜接時(shí)間,部署的質(zhì)量和效率均可得到顯著提升。災(zāi)備切換是IT運(yùn)維工作中的重要環(huán)節(jié),其包括自動備份和自動恢復(fù)兩項(xiàng)工作。自動備份是按照事先約定的規(guī)則對應(yīng)用、數(shù)據(jù)庫和配置等分別進(jìn)行備份;自動恢復(fù)則是平臺定期根據(jù)檢測條件進(jìn)行健康檢查,如檢測異??商崾具\(yùn)維人員切換,或根據(jù)規(guī)則自動切換。云平臺能夠提供多種災(zāi)備切換方式,通過合理的設(shè)置完全可以實(shí)現(xiàn)秒級切換,可靠保證了業(yè)務(wù)的連續(xù)性。自動化運(yùn)維是云平臺建設(shè)的高層次目標(biāo),其致力于打造一個(gè)能夠自動發(fā)現(xiàn)問題并自動修復(fù)問題的智能運(yùn)維平臺。由于生產(chǎn)中出現(xiàn)的問題種類多樣,同一問題的原因可能各不相同,實(shí)現(xiàn)完全的自動化運(yùn)維較為困難。前期可以實(shí)現(xiàn)一些簡單的自動化運(yùn)維工作,解決一些常見的簡單問題,也可以在一定程度上降低運(yùn)維人員的工作壓力。在云平臺架構(gòu)中,調(diào)度層將根據(jù)實(shí)際工作中的需求進(jìn)行“量身”打造,力爭覆蓋運(yùn)維工作中占用精力多、簡單、重復(fù)的勞動,既要切實(shí)減輕運(yùn)維人員壓力,又要提升運(yùn)維工作質(zhì)量。
(三)管理層——打造高效的綜合管理平臺。管理層是云平臺的展現(xiàn)層和操作層,通過Web界面實(shí)現(xiàn)與用戶之間的交互,也被稱為云管平臺。用戶通過Web界面訪問云平臺提出資源申請、變更請求等;管理員登陸運(yùn)管平臺對所有申請進(jìn)行審批、發(fā)送指令進(jìn)行資源部署,并能對所有系統(tǒng)資源進(jìn)行統(tǒng)一管理。在分行云管平臺設(shè)計(jì)上,首先要實(shí)現(xiàn)操作留痕,平臺應(yīng)保存所有對底層資源的操作記錄,做到每一筆部署和變更均有據(jù)可查。第二,要實(shí)現(xiàn)資源從申請、審批、部署、變更、回收的全流程關(guān)聯(lián),做到所有資源有名有主、所有操作有憑有據(jù),從而達(dá)到流程管理的規(guī)范性。第三,依托云管平臺建立分行的IT架構(gòu)配置信息庫(CMDB),取代手工維護(hù)的excel表格,通過平臺抽取底層資源的詳細(xì)信息,并根據(jù)部署、變更記錄實(shí)現(xiàn)配置庫自動更新,同時(shí)還可提供多維度的查詢展示功能,方便相關(guān)的管理工作。總體來看,云管平臺聯(lián)接了申請、變更/部署、配置庫更新等工作,自動化采集的數(shù)據(jù)更加精確,其可以把寶貴人力資源從維護(hù)復(fù)雜的表格等枯燥的日常工作解放出來,運(yùn)維人員可以專注于平臺管理和資源運(yùn)行狀態(tài)監(jiān)控等相對重要的工作。
未來,隨著傳統(tǒng)系統(tǒng)架構(gòu)向開放平臺轉(zhuǎn)型,銀行IT基礎(chǔ)設(shè)施建設(shè)的復(fù)雜度將陡然增加;同時(shí)金融創(chuàng)新和線上業(yè)務(wù)規(guī)模不斷擴(kuò)張,IT系統(tǒng)需求也將更加旺盛,銀行信息系統(tǒng)運(yùn)維工作正面臨空前的壓力,轉(zhuǎn)型和創(chuàng)新勢在必行。云平臺的出現(xiàn)為解決傳統(tǒng)運(yùn)維痛點(diǎn)提供了思路,通過云平臺建設(shè),將大幅提升傳統(tǒng)運(yùn)維工作的效率和質(zhì)量,加快系統(tǒng)需求的響應(yīng)速度。作為傳統(tǒng)金融業(yè)的支柱,農(nóng)業(yè)銀行應(yīng)走在時(shí)代前沿,抓住這一跨越式發(fā)展的寶貴機(jī)遇,提升IT運(yùn)維水平,為金融業(yè)務(wù)發(fā)展提供更有力的科技支持。
[1]李小慶,《銀行云數(shù)據(jù)中心的構(gòu)建》,《金融科技時(shí)代》,2016年第8期。
[2]劉鋒,《央行分支機(jī)構(gòu)私有云平臺的應(yīng)用研究》,《電腦編程技巧與維護(hù)》,2017年第22期。
[3]張正、王孚瑤、張玉明,《云創(chuàng)新與互聯(lián)網(wǎng)金融生態(tài)系統(tǒng)構(gòu)建——以阿里金融云為例》,《經(jīng)濟(jì)與管理研究》,2017年第3期。
[4]周衡昌,《商業(yè)銀行金融云發(fā)展之路》,《金融電子化》,2016年第12期。
[5]朱文生,《大數(shù)據(jù)時(shí)代商業(yè)銀行面臨的挑戰(zhàn)及對策》,《中國金融電腦》,2015年第12期。