謝洪波
【摘要】 從技術支撐和精細化管理兩個方面,對網上支付系統(tǒng)的應急響應及恢復預案進行分析研究,建立應急保障和恢復工作機制,保證應急工作迅速、高效、有序地進行,滿足突發(fā)事件下在線支付系統(tǒng)及其承載的數據業(yè)務保障和恢復工作的需要,提高對緊急事件快速反應和抗風險的綜合能力。
【關鍵詞】 在線支付系統(tǒng) 應急響應 災難恢復 應急預案
網上支付是通過第三方提供的與銀行之間的支付接口進行的即時支付方式。網上支付方式方便快捷,極大的節(jié)省了交易的開銷,因此越來越成為電子商務中不可或缺的重要環(huán)節(jié)。近年來隨著電子商務的蓬勃發(fā)展,網上支付系統(tǒng)的穩(wěn)定和安全成了首要問題。如果出現了故障,勢必引起網上交易業(yè)務中斷、信息阻隔,可能導致交易的局部甚至整體癱瘓。因此,有必須研究并編制重大故障應急響應及恢復預案,建立應急響應和恢復機制。這是平臺運行維護和運營支撐工作的重要內容,其價值在故障發(fā)生之后的恢復工作中體現出來。
一、應急預案編制
1.1制定應急響應方針
故障發(fā)生時,以恢復業(yè)務為第一要務原則。應采取各種措施盡可能先快速恢復業(yè)務,后再進一步追溯原因,解決具體故障。根據業(yè)務的重要性、緊急程度和故障時長,升級事故,逐層上報。
1.2建立應急響應組織
應急響應組織的人員主要由公司內部運維人員組成,也包括供應商、代維商人員等外部支撐人員。應規(guī)定應急組織中所有相關人員的角色和職責,并指定第一責任人和備份人選。對應急組織架構中的人員建立響應方法和考核機制,明確考核指標。
1)應急領導小組。職責:負責應急預案執(zhí)行的總體指揮和協(xié)調,對重大應急措施進行決策,組織重大事件的應急處置和上報。輸出物或指標:決策、上報。指標值:不定時。
2)應急業(yè)務小組。職責:包括市場、客服、運營、產品部門的人員。負責業(yè)務驗證、應急業(yè)務處理;產品公告和合作伙伴告知;根據內部通報內容,對外擇詞公告。輸出物或指標:渠道掛公告、客服應急、服務群的通知。指標值:每1小時。
3)技術統(tǒng)籌人員。職責:負責把技術部內部信息向公司管理層/部門領導發(fā)布;負責傳導領導層面指示信息;負責協(xié)調各種資源;負責把技術部內部信息及處理情況向外發(fā)布。輸出物或指標:信息公布時間間隔;公布階段性產出物。指標值:每30分鐘信息通告,每階段情況匯報。
4)故障分析崗。職責:現場運維專家或支撐專家,負責現場操作指揮,向信息公布組反饋進度,技術方案制訂。輸出物或指標:階段性產出物。指標值:每階段情況匯報。
5)技術執(zhí)行人員。職責:包括技術部應用組、網絡組、主機組、數據庫組的技術人員。負責故障實際操作,方案編寫。輸出物或指標:嚴格按方案既定指令及時間操作;異常情況及時上報。指標值:輸出操作結果;操作實施后過程記錄。
1.3明確應急處置流程
應急處置流程包括以下三個階段:故障報告階段、故障處理階段、故障恢復后階段。1)事件報告。相關技術人員主動通過監(jiān)控告警、巡檢等手段發(fā)現或接到客戶/商戶反饋不能正常使用平臺等故障事件,及時進行故障定位和排除,如果未能及時解決,達到預案所定義的重大故障事件后,立即向故障分析崗報告。2)影響評估和現場響應。接到事件報告時,故障分析崗詢問了解并詳細記錄故障最開始時間、故障影響范圍和影響范圍擴散情況,并立即協(xié)調組織各專業(yè)組技術人員初步核實平臺故障原因、業(yè)務受影響狀況、緊急程度等情況。3)停止交易。在全部業(yè)務受影響的情況下,啟動停止交易流程。4)故障原因分析定位。各技術專業(yè)組查看平臺相關的基礎設施和應用的運行狀態(tài);根據故障現象、狀態(tài),故障分析崗召集各專業(yè)組在1小時內分析定位出故障原因,并制訂恢復方案,報應急技術指揮小組審批。對于事件原因和影響清晰、處置措施明確的事件(如供電系統(tǒng)故障,外系統(tǒng)不可用等),由應急技術指揮小組授權應急執(zhí)行人員按照預定技術恢復預案進行處置。5)技術恢復。如可以實施問題隔離,則隔離問題,首先恢復系統(tǒng)運行;根據影響評估情況,借助廠商支持,按照預先制定的技術恢復預案,或者緊急制定問題解決具體技術方案,解決問題,徹底恢復系統(tǒng)。6)情況上報和信息通報。根據業(yè)務受影響情況和處理進展,開展情況上報、信息通報和發(fā)布工作。7)恢復后工作。平臺徹底恢復運行后,需要開展通告、上報、總結等后續(xù)工作。8)事后清算。平臺徹底恢復運行后,開展事后清算工作。
1.4制定應急場景操作規(guī)程
對各類故障進行分類和分析,制定各種應急場景下的排障步驟和具體恢復方法。
二、應急預案培訓和演練
對相關人員進行應急預案內容的培訓,并通過現場推演的方式,論證應急響應及恢復預案的可行性,優(yōu)化完善在線支付平臺的重大故障處理流程,使相關人員掌握平臺的應急處理流程,檢驗在重大故障突發(fā)時反應是否快速,應急措施是否合理,工作是否到位。
三、總結
應急預案不是一成不變的,而是不斷完善的過程,要根據業(yè)務變化持續(xù)更新,保持與生產環(huán)境一致性;要根據運維經驗不斷優(yōu)化和完善,增強針對性和可行性;要定期組織演練提高應急處置能力。