摘 要:本文主要介紹了備份和容災的概念與技術、分析了本油田的科研系統(tǒng)現(xiàn)狀,結合本油田的科研系統(tǒng)特點詳細闡述了科研系統(tǒng)備份策略的實施,并對備份的實施進行了總結。
關鍵詞:備份;容災;數(shù)據(jù);恢復
中圖分類號:TP309
隨著信息時代的到來,人類社會所創(chuàng)造的信息數(shù)據(jù)呈幾何級數(shù)累積增長,企業(yè)對數(shù)據(jù)信息的依賴程度超過了任何一個時代。數(shù)據(jù)是已成為企業(yè)最為寶貴的財富,是企業(yè)持續(xù)運作和成功的保證。在實際應用中,人為錯誤、硬件故障、電腦病毒、自然災難等都可以造成系統(tǒng)和數(shù)據(jù)的破壞乃至丟失,給企業(yè)造成無法估量的損失,因此數(shù)據(jù)的備份與容災至關重要。對一個完整的IT系統(tǒng)而言,備份工作是其中必不可少的組成部分,其意義不僅在于防范意外事件的破壞,而且還是歷史數(shù)據(jù)保存歸檔的最佳方式。
1 油田科研系統(tǒng)現(xiàn)狀
我們油田目前的科研軟件系統(tǒng)主要有六大板塊:勘探,開發(fā),地質,處理,測井、繪圖。
科研軟件系統(tǒng)主要包括GeoFrame綜合解釋系統(tǒng)、LandMark DSD綜合解釋系統(tǒng),油藏數(shù)值模擬Petrel系統(tǒng),地震資料處理Echos系統(tǒng),地震資料反演Hrs系統(tǒng),地質建模PetroMod系統(tǒng),測井解釋Geolog系統(tǒng)以及繪圖軟件ZEH系統(tǒng)等。
科研軟件運行的操作系統(tǒng)主要有Solaris,Red Hat Linux和Windows。
油田科研數(shù)據(jù)包勘探采集原始數(shù)據(jù),處理成果數(shù)據(jù),綜合解釋成果數(shù)據(jù),油藏數(shù)值模擬數(shù)據(jù),油田開發(fā)生產數(shù)據(jù),GeoFrame工區(qū)數(shù)據(jù),OpenWorks工區(qū)數(shù)據(jù),Oracle數(shù)據(jù)庫。我們的科研數(shù)據(jù)一般存放在NAS網絡存儲上,少數(shù)放在服務器的磁盤陣列上,數(shù)據(jù)總量大約90TB。
我們目前的科研系統(tǒng)的備份機制是通過Veritas的NBU備份軟件將科研數(shù)據(jù)備份到IBM帶庫?,F(xiàn)有的備份方式雖然可以滿足一般故障導致的數(shù)據(jù)丟失,但數(shù)據(jù)恢復的速度有所欠缺,另外一方面,在發(fā)生災害導致生產存儲宕機的情況下,現(xiàn)有的備份機制則不能滿足生產業(yè)務連續(xù)不間斷的需求。
2 備份
2.1 備份
備份就是將數(shù)據(jù)以某種方式加以保留,以便在系統(tǒng)和數(shù)據(jù)遭受破壞時,數(shù)據(jù)可以恢復利用。備份可以分為系統(tǒng)備份和數(shù)據(jù)備份。
當前應用比較廣泛的備份介質主要有光盤,磁盤和磁帶。光盤的數(shù)據(jù)存儲速度較快,單位存儲成本較高,主要應用于重要數(shù)據(jù)的永久歸檔存儲。硬盤的主要特點是數(shù)據(jù)存取速度快,單位存儲成本高,主要應用于在線數(shù)據(jù)的存儲。磁帶存儲時間長,可靠性也高,但存取速度較慢,主要應用于對備份設備可靠性要求較高,而對存取速度要求不高的情況。在實際應用中,要綜合考慮介質的可靠性、速度、費用等多重因素來選擇適合自己備份需要的備份介質。
2.2 容災
容災是為了在遭遇災害時能保證信息系統(tǒng)能正常運行以實現(xiàn)業(yè)務生產的連續(xù)性,備份是為了應對災難來臨時造成的數(shù)據(jù)丟失問題,所以備份是容災的基礎。
容災備份系統(tǒng)是指在相隔較遠的異地,建立兩套或多套功能相同的IT系統(tǒng),相互之間可以進行狀態(tài)監(jiān)視和功能切換,當一處系統(tǒng)因意外停止工作時,整個應用系統(tǒng)可以切換到另一處,使得該系統(tǒng)功能可以繼續(xù)正常工作。
構建容災備份系統(tǒng)會應用到多種技術,如NAS技術、遠程鏡像技術、基于IP的SAN的互連技術、快照技術等。衡量容災備份的兩個技術指標為RPO和RTO。RPO(Recovery Point Objective)即數(shù)據(jù)恢復點目標,主要指業(yè)務系統(tǒng)所能容忍的數(shù)據(jù)丟失量。RTO(Recovery Time Objective)即恢復時間目標,主要指所能容忍的業(yè)務停止服務的最長時間,也就是從災難發(fā)生到業(yè)務系統(tǒng)恢復服務功能所需要的最短時間周期。在實際應用中,我們應根據(jù)不同的應用需求來選擇適合自己應用的技術,并且制定滿足自己需求的技術指標。
3 備份策略的實施
基于我們油田當前的科研系統(tǒng)現(xiàn)狀,我們制定了如下4個層次的備份策略:科研軟件系統(tǒng)的備份、oracle數(shù)據(jù)庫的備份、科研數(shù)據(jù)的近線備份以及科研數(shù)據(jù)的容災備份。我們所制定的4級備份機制,對我們的科研系統(tǒng)實現(xiàn)了全面保護。在硬件發(fā)生故障或用戶操作不當導致軟件系統(tǒng)遭到破壞或者科研數(shù)據(jù)遭到破壞的情況下,我們的各層備份機制都會即時工作,將科研軟件系統(tǒng)和科研數(shù)據(jù)在最短的時間內恢復到正常的工作狀態(tài),以保障科研生產業(yè)務的連續(xù)進行。
3.1 科研軟件系統(tǒng)的備份
我們在科研軟件初次安裝配置結束后和軟件升級安裝配置結束后,均會打包備份到網絡存儲指定位置,然后和網絡存儲上的科研數(shù)據(jù)一起進行近線備份和容災備份。
科研軟件的備份一般都是完全備份,備份時間則根據(jù)實際需要靈活調整。
3.2 科研軟件oracle數(shù)據(jù)庫的物理備份
我們的Oracle數(shù)據(jù)庫是為GeoFrame和OpenWorks軟件服務的,數(shù)據(jù)庫運行在linux和solaris系統(tǒng)上。針對oracle數(shù)據(jù)庫,我們編寫了shell腳本,對數(shù)據(jù)庫進行隔天一次的自動冷備份,并且保留1個月的備份文件。備份文件我們放在網絡存儲制定的位置,然后和網絡存儲上的科研數(shù)據(jù)一起進行近線備份和容災備份。
此外,我們還利用NetApp所特有的SMO(Snapmanager for oracle)技術做oracle數(shù)據(jù)庫的在線備份,將數(shù)據(jù)庫在線備份同步到近線存儲。SnapManager通過Snapshot、SnapRestore和FlexClone技術可以創(chuàng)建數(shù)據(jù)庫的檔案文件,完成數(shù)據(jù)庫的備份和數(shù)據(jù)庫的恢復工作。針對GeoFrame軟件和OpenWorks軟件的oracle數(shù)據(jù)庫我們選取每12小時同步到近線存儲的策略。
3.3 科研數(shù)據(jù)的近線備份
我們的科研數(shù)據(jù)主要存放于網絡存儲上,我們的主生產存儲為NetApp,考慮到近線備份數(shù)據(jù)要與生產存儲數(shù)據(jù)格式保持一致,我們的近線備份存儲選擇的是和生產存儲同構的存儲,即NetApp網絡存儲。
近線備份的數(shù)據(jù)主要包括三部分,一是生產在線應用數(shù)據(jù)和項目工區(qū)的備份數(shù)據(jù);二是最近的30份增量備份數(shù)據(jù)(每天一次增量備份);三是軟件系統(tǒng)的備份文件及Oracle數(shù)據(jù)庫的備份。
對于存放于網絡存儲上的科研數(shù)據(jù),我們利用NetApp的SnapMirror功能完成科研數(shù)據(jù)的近線備份,數(shù)據(jù)的備份和生產存儲保持同步,即數(shù)據(jù)格式和生產存儲數(shù)據(jù)格式保持一致。對于存放于服務器掛接的磁盤陣列上的科研數(shù)據(jù),對這部分異構平臺上的科研數(shù)據(jù),我們利用Netapp特有的OSSV(Open System SnapVault)技術,完成了異構數(shù)據(jù)的近線備份。當主生產存儲發(fā)生數(shù)據(jù)丟失或者硬件故障時,數(shù)據(jù)能快速地從近線備份中恢復,必要時能快速地切換,替代主生產存儲,以保障科研生產業(yè)務的持續(xù)性。
數(shù)據(jù)的近線備份的策略是2小時同步一次數(shù)據(jù),近線存儲的快照每天2次,并且保留最近2周的快照,每周一次的備份保留最近的14份。
3.4 科研數(shù)據(jù)的容災備份
綜合考慮到備份的重要程度以及硬件的投資成本,容災備份的存儲我們選擇了DELL存儲,異地容災地點選為北京。
容災備份的數(shù)據(jù)主要包括三部分:一是近線存儲上的數(shù)據(jù);二是24份為期2年的增量備份(每月一次增量備份);三是歷史數(shù)據(jù),主要是離線的綜合解釋工區(qū)和歸檔的成果數(shù)據(jù)。我們通過測算,容災備份的數(shù)據(jù)總量約是近線備份數(shù)據(jù)總量的1.5倍,考慮到數(shù)據(jù)量較大,異地容災存儲采用去重或壓縮格式來保存數(shù)據(jù)。
我們根據(jù)應用需求,制定了詳細策略,利用DELL zNAS的Auto-Tier復制功能將一級近線備份系統(tǒng)NetApp的數(shù)據(jù)同步到本地DELL zNAS的二級備份系統(tǒng)中,然后再利用DELL的遠程CDP功能將本地二級備份的CDP持續(xù)數(shù)據(jù)保護點異步復制到異地災備系統(tǒng)中,實現(xiàn)數(shù)據(jù)本地、異地兩個級別的CDP持續(xù)數(shù)據(jù)保護,從而完善本地數(shù)據(jù)生產存儲->一級近線備份->二級備份->異地備份的全面保護。在生產系統(tǒng)與一級備份的數(shù)據(jù)不可用時,可以通過二級備份和容災備份本地的CDP持續(xù)保護點將科研數(shù)據(jù)恢復到需要的歷史時間點。
二級備份的策略是每天與近線存儲同步一次數(shù)據(jù),存儲zNAS的快照每天備份一次并且保留最近一周的天備份,每周一次的備份保留28份,每月一次的備份保留24份。異地容災備份每天與二級備份系統(tǒng)同步一次,日CDP保護點每天7份且保留一周,周CDP保護點每周5份且保留5周,月CDP保護點每月24份且保留2年。我們容災備份的容災級別接近數(shù)據(jù)容災4級,即數(shù)據(jù)丟失容忍度(RPO)為1小時至2天,恢復時間目標(RTO)為1小時至2天。
4 結束語
我們通過制定各級的備份策略,使得我們的科研系統(tǒng)實現(xiàn)了從本地生產存儲->一級近線備份->二級備份->異地備份的全面保護。在硬件發(fā)生故障或用戶操作不當導致軟件系統(tǒng)遭到破壞或者科研數(shù)據(jù)遭到破壞的情況下,我們的各層備份機制都會即時工作,將科研軟件系統(tǒng)和科研數(shù)據(jù)在最短的時間內恢復到正常的工作狀態(tài),以保障科研生產業(yè)務的連續(xù)進行。
參考文獻:
[1]朱斌.油田開發(fā)生產數(shù)據(jù)庫備份策略[J].石油工業(yè)計算機應用,2012(03):10-12.
[2]文領章,劉財,魏旭光.網絡存儲技術在石油地震資料處理中的應用[J].吉林大學學報(地球科學版),2012(40):63-66.
[3]宋紅,張冬萍,馮宗凡.基于存儲虛擬化數(shù)據(jù)復制及恢復實現(xiàn)異地容災技術在吐哈油田的應用[J].中國信息界,2011(07):89-90.
[4]郭靜,劉文昌.淺談石油企業(yè)信息安全管理[J].科技資訊,2010(13):160-162.
[5]孫宏志,黃亮,楊群山.數(shù)據(jù)備份系統(tǒng)的設計與實現(xiàn)[J].東北地震研究,2008(24):50-54.
[6]肖翔,解利軍.完善油田開發(fā)數(shù)據(jù)安全的備份機制[J].計算機光盤軟件與應用,2012(16):216-217.
作者簡介:王梅英,女,碩士,工程師,畢業(yè)于中國石油大學(華東),從事系統(tǒng)管理工作;張樂波,男,學士學位,工程師,畢業(yè)于山東理工大學,從事安全工作。
作者單位:中海石油(中國)有限公司上海分公司,上海 200030;上??迫势髽I(yè)管理咨詢有限公司,上海 200436