王建文
北京數(shù)字檔案館(電子文件中心)系統(tǒng)存儲(chǔ)體系是檔案數(shù)字資源的載體,是系統(tǒng)軟硬件基礎(chǔ)環(huán)境建設(shè)的核心,也是檔案數(shù)字資源的信息安全基礎(chǔ)保障。高效可靠的檔案數(shù)字資源存儲(chǔ)體系,將確保核心應(yīng)用能夠穩(wěn)定支撐多種關(guān)鍵業(yè)務(wù)、相關(guān)業(yè)務(wù)按需獲得資源;能夠按照數(shù)據(jù)存儲(chǔ)量和分步實(shí)施的需要,擴(kuò)展未來(lái)的存儲(chǔ)、備份相關(guān)設(shè)備。
一、概述
北京數(shù)字檔案館(電子文件中心)的存儲(chǔ)體系建設(shè),以先進(jìn)性、擴(kuò)展性、實(shí)用性、可靠性為原則,基于信息技術(shù)行業(yè)標(biāo)準(zhǔn)進(jìn)行了系統(tǒng)設(shè)計(jì)與實(shí)施,在北京市檔案館專網(wǎng)(內(nèi)部局域網(wǎng))、北京市政務(wù)外網(wǎng)及因特網(wǎng)進(jìn)行部署,建設(shè)完成專網(wǎng)存儲(chǔ)系統(tǒng)、政務(wù)外網(wǎng)和互聯(lián)網(wǎng)存儲(chǔ)系統(tǒng)。存儲(chǔ)系統(tǒng)分別采用云存儲(chǔ)架構(gòu),并通過(guò)分級(jí)存儲(chǔ),滿足按需獲取和分級(jí)資源管理的要求。
二、需求分析
北京數(shù)字檔案館(電子文件中心)的存儲(chǔ)備份系統(tǒng)需要對(duì)各種來(lái)源的數(shù)據(jù)進(jìn)行充分整合集中,提高協(xié)同能力,由“面向單系統(tǒng)”的結(jié)構(gòu)轉(zhuǎn)變成“面向資源”的檔案館云系統(tǒng)。存儲(chǔ)體系部分主要需求包括:整合不同類型、不同階段的檔案數(shù)字資源形成統(tǒng)一的存儲(chǔ)管理;按照特定應(yīng)用需求規(guī)劃存儲(chǔ)資源分級(jí)管理;根據(jù)數(shù)據(jù)生命周期管理理念,兼顧數(shù)據(jù)特性和數(shù)據(jù)訪問(wèn)規(guī)律,實(shí)現(xiàn)設(shè)備內(nèi)部磁盤間和跨設(shè)備間的數(shù)據(jù)分層存儲(chǔ)管理;結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化文件存儲(chǔ)的高效訪問(wèn)以及原有存儲(chǔ)的利舊整合。根據(jù)北京市檔案館現(xiàn)有存儲(chǔ)所承載業(yè)務(wù)及檔案數(shù)據(jù)的現(xiàn)狀,要解決以下六個(gè)方面關(guān)鍵問(wèn)題:
(一)對(duì)數(shù)據(jù)集中、媒資系統(tǒng)、檔案管理系統(tǒng)等多個(gè)存儲(chǔ)系統(tǒng)進(jìn)行資源整合共享、數(shù)據(jù)統(tǒng)一管理
(二)檔案數(shù)字資源多個(gè)平臺(tái),文件系統(tǒng)不一,大量非結(jié)構(gòu)化檔案數(shù)據(jù)文件存儲(chǔ)受原有操作系統(tǒng)限制,單盤容量較小,檔案數(shù)據(jù)無(wú)法集中,數(shù)據(jù)訪問(wèn)效率低、系統(tǒng)平臺(tái)整合存在結(jié)構(gòu)性缺陷
(三)隨著電子文件的累積以及檔案數(shù)字化程度越來(lái)越高,檔案數(shù)字資源數(shù)據(jù)量級(jí)對(duì)計(jì)算資源和存儲(chǔ)資源要求越來(lái)越高,計(jì)算系統(tǒng)的單一架構(gòu)處理檔案數(shù)據(jù)已無(wú)法滿足性能要求,同時(shí)存儲(chǔ)空間也不能滿足檔案數(shù)字資源的存儲(chǔ)
(四)現(xiàn)有數(shù)據(jù)訪問(wèn)模式使用NAS方式,通過(guò)IP網(wǎng)絡(luò)對(duì)數(shù)據(jù)進(jìn)行共享訪問(wèn),性能和穩(wěn)定性都難以得到保證
(五)本地存儲(chǔ)空間越來(lái)越緊張,尤其是音視頻檔案管理系統(tǒng)數(shù)據(jù)量很大,在前期項(xiàng)目設(shè)計(jì)中,由磁帶庫(kù)保存全集數(shù)據(jù),而且設(shè)計(jì)磁帶庫(kù)主要功能為數(shù)據(jù)集中及備份,實(shí)際工作中無(wú)法利用歸檔模式,直接調(diào)閱磁帶庫(kù)數(shù)據(jù),嚴(yán)重影響了數(shù)字化音視頻檔案利用效率
(六)檔案數(shù)據(jù)的增長(zhǎng)以及檔案業(yè)務(wù)逐漸走向熱點(diǎn),存儲(chǔ)系統(tǒng)的存儲(chǔ)量以及數(shù)據(jù)讀取性能都不可能在一次建設(shè)中完備,應(yīng)考慮存儲(chǔ)架構(gòu)未來(lái)的發(fā)展方向,統(tǒng)籌設(shè)計(jì)系統(tǒng)擴(kuò)展性能
三、功能設(shè)計(jì)
根據(jù)需求分析以及存儲(chǔ)技術(shù)現(xiàn)狀,系統(tǒng)建設(shè)主要運(yùn)用存儲(chǔ)虛擬化、多協(xié)議文件共享等技術(shù)滿足系統(tǒng)關(guān)鍵需求,這里主要就系統(tǒng)功能設(shè)計(jì)中的五個(gè)方面進(jìn)行說(shuō)明。
(一)統(tǒng)一存儲(chǔ)池
配置具有存儲(chǔ)虛擬化功能的高端存儲(chǔ)陣列建立統(tǒng)一存儲(chǔ)池,兼容各品牌、各型號(hào)、各存儲(chǔ)介質(zhì),實(shí)現(xiàn)存儲(chǔ)設(shè)備的開放式統(tǒng)一管理,將眾多獨(dú)立系統(tǒng)、分布在各種存儲(chǔ)介質(zhì)中和各個(gè)來(lái)源的檔案數(shù)據(jù)融合在其中,實(shí)現(xiàn)面向所有數(shù)據(jù)的統(tǒng)一優(yōu)化平臺(tái),解決業(yè)務(wù)系統(tǒng)對(duì)存儲(chǔ)資源透明的統(tǒng)一存儲(chǔ)的要求,也為統(tǒng)一容災(zāi)備份打下堅(jiān)實(shí)的基礎(chǔ)。
(二)分級(jí)分類存儲(chǔ)
指按照數(shù)據(jù)生命周期的發(fā)展規(guī)則,將數(shù)據(jù)分成三級(jí),一級(jí)是業(yè)務(wù)系統(tǒng)結(jié)構(gòu)化數(shù)據(jù)庫(kù)數(shù)據(jù)、服務(wù)器虛擬化存儲(chǔ)、業(yè)務(wù)處理中的數(shù)據(jù),這些數(shù)據(jù)需要存放在高性能、快速磁盤陣列中,保證本部分?jǐn)?shù)據(jù)存儲(chǔ)的高性能、高可靠性和高可用性。二級(jí)存儲(chǔ)承接在線數(shù)據(jù)的近線備份和共享文件系統(tǒng)的遷移歸檔數(shù)據(jù),部署轉(zhuǎn)速稍慢容量大的SAS NL磁盤。三級(jí)存儲(chǔ)承接長(zhǎng)期遷移歸檔數(shù)據(jù)以及系統(tǒng)、數(shù)據(jù)庫(kù)等結(jié)構(gòu)化數(shù)據(jù)的備份,部署更為廉價(jià)的磁帶介質(zhì)。
(三)存儲(chǔ)動(dòng)態(tài)邏輯分區(qū)
動(dòng)態(tài)邏輯分區(qū)主要包括存儲(chǔ)邏輯分區(qū)、動(dòng)態(tài)供給和動(dòng)態(tài)分區(qū)等三個(gè)主要功能點(diǎn)。存儲(chǔ)邏輯分區(qū)針對(duì)不同的安全域在磁盤陣列上劃分不同的業(yè)務(wù)分類存儲(chǔ)邏輯分區(qū),實(shí)現(xiàn)對(duì)所有服務(wù)和業(yè)務(wù)的數(shù)據(jù)資源分配。動(dòng)態(tài)供給使得用戶可以將上述邏輯分區(qū)中沒(méi)有被真正使用的存儲(chǔ)空間分配給其他應(yīng)用系統(tǒng),動(dòng)態(tài)伸縮邏輯分區(qū)的空間,而不改變分區(qū)的安全屬性。動(dòng)態(tài)分區(qū)根據(jù)數(shù)據(jù)訪問(wèn)頻率,自動(dòng)化地遷移數(shù)據(jù)到最適合的磁盤類型;動(dòng)態(tài)分層技術(shù),高效地使用閃存或磁盤,以較低的成本提高性能,會(huì)將最經(jīng)常訪問(wèn)到的數(shù)據(jù),遷移到更高速度的磁盤,也會(huì)自動(dòng)地將很少訪問(wèn)的數(shù)據(jù)遷移到低速的磁盤如SAS NL盤上,這樣可以提升存儲(chǔ)的整體效率。
(四)多協(xié)議文件共享
多臺(tái)服務(wù)器組成高性能集群進(jìn)行數(shù)據(jù)處理,利用多協(xié)議文件共享,在原有IP網(wǎng)絡(luò)數(shù)據(jù)共享的基礎(chǔ)上,實(shí)現(xiàn)FC網(wǎng)絡(luò)的共享,不僅提供更高的性能滿足業(yè)務(wù)快速處理的需要,由FC網(wǎng)絡(luò)層實(shí)現(xiàn)非應(yīng)用層的數(shù)據(jù)遷移,可提升檔案數(shù)據(jù)業(yè)務(wù)流轉(zhuǎn)中的安全性。
(五)橫向擴(kuò)展
根據(jù)檔案業(yè)務(wù)前端應(yīng)用的需求擴(kuò)展,有較好的系統(tǒng)容量、性能擴(kuò)展能力,以支撐海量檔案數(shù)據(jù)的保存和處理,并提供主機(jī)到存儲(chǔ)系統(tǒng)的I/O通道負(fù)載平衡和故障自動(dòng)切換功能。
四、存儲(chǔ)體系架構(gòu)
北京數(shù)字檔案館(電子文件中心)存儲(chǔ)系統(tǒng)建設(shè)包括專網(wǎng)存儲(chǔ)系統(tǒng)建設(shè)、政務(wù)外網(wǎng)和因特網(wǎng)存儲(chǔ)系統(tǒng)建設(shè)相關(guān)部分。
(一)專網(wǎng)云存儲(chǔ)系統(tǒng)
專網(wǎng)的統(tǒng)一存儲(chǔ)系統(tǒng)采用統(tǒng)一的SAN分級(jí)管理存儲(chǔ)池結(jié)構(gòu),利用高性能存儲(chǔ)通過(guò)存儲(chǔ)虛擬化技術(shù)掛接原有的存儲(chǔ)陣列,把大容量低速存儲(chǔ)陣列作為二級(jí)存儲(chǔ),所有物理存儲(chǔ)設(shè)備在一個(gè)虛擬化存儲(chǔ)池統(tǒng)一調(diào)度和管理,然后再結(jié)合超大容量的磁帶庫(kù)設(shè)備作為三級(jí)存儲(chǔ),在保證擴(kuò)容和利舊的同時(shí),實(shí)現(xiàn)整體存儲(chǔ)池的分級(jí)管理(見圖1)。
(二)政務(wù)外網(wǎng)和因特網(wǎng)存儲(chǔ)系統(tǒng)
政務(wù)外網(wǎng)在集中存儲(chǔ)基礎(chǔ)上,針對(duì)不同的數(shù)據(jù)類型添加相應(yīng)的優(yōu)化的數(shù)據(jù)處理節(jié)點(diǎn),以實(shí)現(xiàn)數(shù)據(jù)統(tǒng)一后的面向各區(qū)檔案館、各檔案移交單位數(shù)據(jù)的統(tǒng)一平臺(tái)。為統(tǒng)一各區(qū)檔案館、委辦局檔案信息管理進(jìn)行數(shù)據(jù)組織并獲得硬件級(jí)的技術(shù)支持。
因特網(wǎng)使用共享的SAN存儲(chǔ)網(wǎng)絡(luò)和存儲(chǔ)設(shè)備,只需要在存儲(chǔ)端根據(jù)因特網(wǎng)的業(yè)務(wù)應(yīng)用劃分不同的分區(qū)給因特網(wǎng)生產(chǎn)服務(wù)器,整體仍然采用SAN存儲(chǔ)架構(gòu)。
政務(wù)外網(wǎng)和互聯(lián)網(wǎng)存儲(chǔ)系統(tǒng)從架構(gòu)層次上分為主機(jī)層、網(wǎng)絡(luò)層和存儲(chǔ)層,如圖2所示。
1.主機(jī)層。采用以太網(wǎng)連接方式,與內(nèi)容云網(wǎng)關(guān)集群建立連接,結(jié)合各區(qū)縣檔案館部署的前置存儲(chǔ)收集器,形成內(nèi)容云存儲(chǔ)網(wǎng)絡(luò),為各服務(wù)器提供內(nèi)容云存儲(chǔ)通道。
2.網(wǎng)絡(luò)層。采用全冗余鏈路通過(guò)FC交換機(jī)連接光纖磁盤陣列,實(shí)現(xiàn)數(shù)據(jù)雙鏈路,保證鏈路安全性。同時(shí)通過(guò)云架構(gòu)設(shè)計(jì)的內(nèi)容網(wǎng)關(guān)集群模塊,實(shí)現(xiàn)對(duì)內(nèi)容云存儲(chǔ)的管理。
3.存儲(chǔ)層。由磁盤陣列提供存儲(chǔ)空間給內(nèi)容云平臺(tái)的網(wǎng)關(guān)模塊,其上存儲(chǔ)所有應(yīng)用系統(tǒng)的數(shù)據(jù),并針對(duì)不同的安全域在磁盤陣列上劃分存儲(chǔ)分區(qū),各安全域只能存取對(duì)應(yīng)分區(qū)上的數(shù)據(jù)。存儲(chǔ)設(shè)備上的存儲(chǔ)分區(qū)與LAN業(yè)務(wù)網(wǎng)絡(luò)中的安全域一一對(duì)應(yīng),通過(guò)對(duì)其配置的高性能SAS磁盤和高容量SAS NL磁盤進(jìn)行劃分,形成單獨(dú)的存儲(chǔ)空間,作為各區(qū)檔案館、檔案移交單位集中到數(shù)據(jù)中心的云存儲(chǔ)容器,并實(shí)現(xiàn)高可用、高性能的存儲(chǔ)訪問(wèn)。
五、結(jié)語(yǔ)
隨著社會(huì)以及政務(wù)信息化的發(fā)展和進(jìn)步,在大數(shù)據(jù)時(shí)代的今天,檔案數(shù)據(jù),不管是結(jié)構(gòu)化還是非結(jié)構(gòu)化的數(shù)據(jù)都呈幾何級(jí)增長(zhǎng),檔案數(shù)字資源的數(shù)據(jù)存儲(chǔ)需求將不再只是簡(jiǎn)單的安全存放、數(shù)據(jù)的共享訪問(wèn)和實(shí)時(shí)共享交換、海量數(shù)據(jù)的快速訪問(wèn)和檢索,同時(shí)還要能進(jìn)行數(shù)據(jù)分析和挖掘、數(shù)據(jù)的內(nèi)容管理等。檔案信息化工作者必須思考這些業(yè)務(wù)發(fā)展模式,在現(xiàn)有塊存儲(chǔ)、文件存儲(chǔ)模式的基礎(chǔ)上,就最適合檔案數(shù)據(jù)的對(duì)象存儲(chǔ)技術(shù)模式進(jìn)行探索,為檔案信息資源的安全保管,整合共享奠定技術(shù)與設(shè)施基礎(chǔ)。同時(shí),北京數(shù)字檔案館作為區(qū)域性數(shù)字檔案館,符合國(guó)家信息化建設(shè)集約化的發(fā)展趨勢(shì),其功能擴(kuò)展特別是全市檔案數(shù)字資源數(shù)據(jù)量的累積,決定其存儲(chǔ)體系必須滿足大數(shù)據(jù)處理,存儲(chǔ)體系應(yīng)融入數(shù)據(jù)中心構(gòu)建模式來(lái)統(tǒng)籌規(guī)劃設(shè)計(jì)。