摘 要:在以數(shù)據(jù)為中心大數(shù)據(jù)時代,存儲系統(tǒng)成為IT基礎設施的核心,存儲系統(tǒng)建設與資金投入的矛盾日顯。本文以廣東省科技圖書館為例,從數(shù)據(jù)類型特點與存儲策略的角度探討圖書館存儲系統(tǒng)建設問題,構思獨特新穎,具有較高針對性和實用參考價值。
關鍵詞:需求分析;存儲系統(tǒng);存儲策略;存儲解決方案
中圖分類號:TP333
在以數(shù)據(jù)為中心大數(shù)據(jù)時代,存儲系統(tǒng)重要性逐步取代服務器,成為IT基礎設施的核心。圖書館作為信息資源和服務的提供者,電子資源數(shù)據(jù)類型豐富,服務種類多樣,對圖書館存儲系統(tǒng)有更高的需求,存儲系統(tǒng)建設與資金投入的矛盾日顯。圖書館的電子資源類型不同,對存儲安全性、訪問效率的要求是相差很大的;不同的存儲結構,不同的冗余措施,單位容量的設備價格也相差很大。探討研究建設滿足圖書館需求的高性價比的存儲系統(tǒng)日益重要[1-2]。
探討圖書館儲存系統(tǒng)建設方面的論文很多,絕大多數(shù)是基于存儲技術層面論述圖書館存儲系統(tǒng)建設[3]。本文以廣東省科技圖書館為例,嘗試從另一個角度,探討圖書館存儲系統(tǒng)建設問題,即從數(shù)據(jù)類型特點與存儲策略的角度探討圖書館存儲系統(tǒng)建設問題。本文構思獨特新穎,具有較高針對性和實用參考價值。
本文的存儲策略是指:以圖書館業(yè)務系統(tǒng)數(shù)據(jù)類型為依據(jù),高性價比為主軸,對圖書館數(shù)據(jù)進行分類,分析存儲系統(tǒng)性能指標,從數(shù)據(jù)安全性,擴展性,可用性和數(shù)據(jù)管理方面研究探討建設高性價比圖書館存儲系統(tǒng)問題。
1 圖書館數(shù)據(jù)類型與存儲系統(tǒng)需求分析
圖書館的數(shù)據(jù),僅從存取角度看,可分為兩大類:第一類是以文件形式存取的數(shù)據(jù),基于文件級(file)的操作;第二類是采用關系型數(shù)據(jù)庫形式存儲的數(shù)據(jù),是基于數(shù)據(jù)塊級(Block)操作。而從數(shù)據(jù)存儲與應用的角度,圖書館電子資源和各業(yè)務系統(tǒng)的數(shù)據(jù)主要有以下幾類(以廣東省科技圖書館為例)[4-5]:
(1)目錄類關系數(shù)據(jù)庫:包括館藏書目數(shù)據(jù)庫、聯(lián)合目錄數(shù)據(jù)庫、電子期刊導航數(shù)據(jù)庫等;(2)文摘題錄和電子資源索引數(shù)據(jù)庫:包括CNKI學術期刊全文索引數(shù)據(jù)庫、學位論文索引數(shù)據(jù)庫、超星院士文庫、書生之家等電子期刊與圖書的索引部分;(3)電子資源全文數(shù)據(jù)庫:包括CNKI學術期刊全文數(shù)據(jù)庫、維普科技期刊全文數(shù)據(jù)庫、學位論文全文數(shù)據(jù)庫、萬方數(shù)據(jù)庫、超星院士文庫、電子報刊、書生之家電子書等電子期刊與圖書;(4)光盤數(shù)據(jù):CD、VCD、DVD 等多媒體音視頻資源;(5)自建文件型數(shù)據(jù):包括隨書光盤的壓縮文件等;(6)自建關系數(shù)據(jù)庫:包括高新技術數(shù)據(jù)庫、西文聯(lián)合目錄、多媒體導航數(shù)據(jù)庫等;(7)網(wǎng)站數(shù)據(jù):包括圖書館網(wǎng)站,內部辦公網(wǎng),廣東發(fā)明網(wǎng),高新技術網(wǎng)等系列網(wǎng)站的網(wǎng)頁數(shù)據(jù);(8)各應用系統(tǒng)的數(shù)據(jù):包括自動化系統(tǒng),原文傳遞系統(tǒng),發(fā)現(xiàn)系統(tǒng),郵件系統(tǒng),DNS系統(tǒng)的數(shù)據(jù);
上述數(shù)據(jù),(1),(6)類資源占用的存儲空間較少,增長量也不大,對存儲空間要求較低,但對安全性要求很高,對效率要求也很高;(2),(5),(7)類資源占用的存儲空間比較大,增長平穩(wěn),對安全性與效率有較高的要求;(3),(4)類需要海量存儲空間,而且空間增長迅速,但對安全性要求不高。(8)類數(shù)據(jù)原文傳遞系統(tǒng),發(fā)現(xiàn)系統(tǒng)等圖書館業(yè)務系統(tǒng)對存儲容量和性能有很高的需求。
圖書館的數(shù)據(jù)種類不同,對存儲系統(tǒng)安全性、容量、訪問效率的要求是相差很大的;而不同的存儲介質,不同的存儲結構,不同的冗余措施,單位容量的設備價格相差很大。針對不同數(shù)據(jù)特點,采取不同的存在策略,對降低圖書館存儲建設的成本,提高可用性用著重大意義。
2 圖書館數(shù)據(jù)類型特點與存儲策略研究
2.1 數(shù)據(jù)的安全性及策略
2.1.1 數(shù)據(jù)分類
從安全性的角度,筆者將圖書館數(shù)據(jù)分為3種類型:(1)敏感數(shù)據(jù),對存儲系統(tǒng)安全性需求高,數(shù)據(jù)丟失不可恢復,對業(yè)務影響大。比如自動化系統(tǒng)讀者信息庫;(2)普通數(shù)據(jù),對存儲系統(tǒng)安全性需求較高,數(shù)據(jù)丟失可回復,但工作量很大。例如自建的隨書光盤,如果丟失數(shù)據(jù),雖然可以用光盤重建,但工作量巨大;(3)非敏感數(shù)據(jù):對存儲系統(tǒng)安全性需求不高,數(shù)據(jù)丟失可回復,但工作量不大,但費時。如全文期刊數(shù)據(jù),如果丟失數(shù)據(jù),可以讓數(shù)據(jù)庫提供商重新拷貝數(shù)據(jù),但由于是海量數(shù)據(jù),需要長時間恢復。數(shù)據(jù)類型與存儲系統(tǒng)安全性需求關系如表1所示。
表1 數(shù)據(jù)類型與存儲系統(tǒng)安全性需求
敏感數(shù)據(jù)普通數(shù)據(jù)非敏感數(shù)據(jù)
數(shù)據(jù)來源自動化系統(tǒng),自建數(shù)據(jù)庫系統(tǒng)等自建光盤庫等電子刊,電子書等
對存儲的安全需求高一般低
2.1.2 存儲介質與數(shù)據(jù)安全比較
數(shù)據(jù)最終存放在存儲介質,介質的安全性是起決定作用的。目前常用的存儲介質有磁盤,光盤,SSD固態(tài)盤。表2列舉了常用介質的安全性、性能與價格的關系比較。
表2 不同介質安全性、性能與價格比較比較
介質光盤SATAFCSASSSD
性能低中高高極高
安全性較低一般高高較高
價格低低高高昂貴
2.1.3 RAID水平與安全性、性能和價格比較
數(shù)據(jù)的冗余也是提供存儲安全行的重要方面。陣列技術,可以提高磁盤系統(tǒng)性能,增加數(shù)據(jù)安全性,陣列的級別不同,冗余及安全性也不同,表3列舉了常用RAID水平與安全性、性能與價格的關系。
表3 不同RAID水平的安全性、性能、價格比較與適合存儲的數(shù)據(jù)類型
RAID級別RAID0RAID1RAID5RAID6
允許故障無是是是
冗余類型無復制奇偶校驗雙重校驗
熱備份選擇無有有有
單位容量價格低最高較低較高
2.1.4 數(shù)據(jù)的安全性存儲策略分析
根據(jù)表2和表3比較結果,安全敏感數(shù)據(jù),普通業(yè)務數(shù)據(jù),非敏感數(shù)據(jù),可選擇的應用策略如表4。
表4 數(shù)據(jù)的安全性與存儲策略分析
敏感數(shù)據(jù)普通數(shù)據(jù)非敏感數(shù)據(jù)
存儲介質FC或SAS硬盤SAS SATASATA
RAID水平RAID5 或者RAID6
1-2塊全局熱備盤RAID5
RAID5
1-2塊全局熱備盤RAID5
有效容量N-3或N-4塊盤N-2塊盤N-3或N-4塊盤N-2塊盤
存儲單位價格貴較貴較便宜便宜
2.2 存儲系統(tǒng)擴展性及策略
從數(shù)據(jù)容量及重要性角度,筆者將圖書館的數(shù)據(jù)分為3種類型:
(1)核心數(shù)據(jù),比如圖書館自動化系統(tǒng)讀者的數(shù)據(jù),圖書館自建的數(shù)據(jù)庫等,這類數(shù)據(jù)容量不是很大一般在1-3T,年增量不到1T,但對安全有最高要求,不允許丟失失效;(2)業(yè)務數(shù)據(jù),如書附光盤數(shù)據(jù),多媒體數(shù)據(jù)等,數(shù)據(jù)容量較大容量在5-10T,年增量在1-2T,對安全有較高要求;(3)海量數(shù)據(jù),例如電子刊,電子圖書等,容量大,年增量也大,但對安全的需求不是很高。如表5 所示。
表5 業(yè)務數(shù)據(jù)與容量需求分析
核心數(shù)據(jù)業(yè)務數(shù)據(jù)海量數(shù)據(jù)
數(shù)據(jù)來源自動化系統(tǒng)數(shù)據(jù),自建數(shù)據(jù)庫等檢索數(shù)據(jù)庫,書附光盤,多媒體等電子刊,電子書等
容量小中大
增量小一般大
存儲的性能需求高一般低
存儲的擴展性有兩個層次的含義:一是存儲陣列容量的擴容;二是陣列服務的擴展。
2.2.1 容量的擴展
不同存儲介質容量價格比較及適合存儲數(shù)據(jù)類型分析,如表6所示。
表6 不同存儲介質價格比較及存儲數(shù)據(jù)庫類型分析表
介質光盤SATAFCSASSDD
性能低中高高極高
容量較低一般高高較高
多次讀寫否是是是是
單位容量
價格低低高高昂貴
適于存儲的數(shù)據(jù)類型離線或備份的數(shù)據(jù)海量數(shù)據(jù)核心數(shù)據(jù)核心數(shù)據(jù)存儲系統(tǒng)本身的數(shù)據(jù)
2.2.2 陣列服務的擴展
訪問量的增長。比如中文期刊網(wǎng),服務需求的增長。
業(yè)務的擴展,圖書館新業(yè)務的擴展,比如自建特色網(wǎng)站,發(fā)現(xiàn)系統(tǒng)等等新建業(yè)務系統(tǒng)的需求。
圖書館業(yè)務系統(tǒng)對存儲擴展性需求分析表7。
表7 業(yè)務系統(tǒng)對存儲擴展性的需求分析
訪問量增長業(yè)務擴展
圖書館業(yè)務系統(tǒng)需求中文期刊,多媒體,書附光盤,讀報系統(tǒng)等自建特色網(wǎng)站,原文傳遞,發(fā)現(xiàn)系統(tǒng)等
表8 典型存儲系統(tǒng)擴展性綜合比較
DASNASFC-SANIP-SAN
安裝、維護較復雜簡單復雜簡單
協(xié)議SCSITCP/IPFibre ChannelTCP/IP
數(shù)據(jù)共享困難容易容易容易
兼容性一般好差好
可靠性較差較高高高
可擴展性差好好好
安全性高一般高一般
效率高低高較高
價格低較低高一般
2.2.3 存儲系統(tǒng)擴展性及其策略分析
根據(jù)2.2.1和2.2.2比較及分析結果,圖書館存儲系統(tǒng)在擴展性方面采取的存儲策略:
(1)容量擴展策略如表9所示;(2)服務擴展策略如表10所示。
表9 容量擴展策略分析表
核心數(shù)據(jù)業(yè)務數(shù)據(jù)海量數(shù)據(jù)
存儲介質FC或SAS硬盤SASSATASATA
表10 服務擴展策略分析表
訪問量增長業(yè)務擴展
對存儲擴展性需求分析DAS,F(xiàn)C-SANNAS,IP-SAN
2.3 性能與可用性及其策略
通過對圖書館存儲數(shù)據(jù)的分析,不僅不同類型的數(shù)據(jù)被訪問的頻率不同,就算同一類型數(shù)據(jù)也是具有生命周期的,不同時期其重要性和被訪問的頻率相差很大。因此對存儲系統(tǒng)性能的需求也就不同。例如:索引數(shù)據(jù)庫比全文數(shù)據(jù)庫訪問頻率要高;新刊的數(shù)據(jù)訪問頻率最高,為讀者帶來的使用價值也最高,隨著時間的推移,訪問頻率降低,數(shù)據(jù)的價值也隨之下降。表11是作者對圖書館熱點數(shù)據(jù)及數(shù)據(jù)來源的分析歸類。
表11 數(shù)據(jù)熱點及數(shù)據(jù)來源
熱點數(shù)據(jù)非熱點數(shù)據(jù)歷史數(shù)據(jù)歸檔數(shù)據(jù)
數(shù)據(jù)來源新建數(shù)據(jù)庫,主要業(yè)務系統(tǒng),新的電子刊,電子書,目錄及索引數(shù)據(jù)等電子刊,電子書,自建書附光盤,多媒體庫等舊電子刊,電子書,冷門學科數(shù)據(jù)離線歸檔數(shù)據(jù)
為滿足業(yè)務需要,從存儲策略角度,對分級分層存儲及虛擬存儲作簡單的描述。
2.3.1 分級分層存儲策略
分層存儲就是將數(shù)據(jù)存儲在不同層級的介質中,并在不同的介質之間進行自動或者手動的數(shù)據(jù)遷移,復制等操作。[6]
圖書館數(shù)據(jù)中非熱點的數(shù)據(jù)量遠多于熱點數(shù)據(jù)量,如果全部用成本高、速度快的存儲介質來存儲所有數(shù)據(jù),不僅費用高,也沒有必要。對不同的數(shù)據(jù)類型、不同的數(shù)據(jù)周期的數(shù)據(jù)存放對應層次的存儲空間,熱點數(shù)據(jù)存放高性能空間;非熱點數(shù)據(jù)存放普通空間,既能最大限度地滿足用戶需求,又可使存儲成本最小化,從而獲得更高的性價比。
數(shù)據(jù)的活躍度與存儲性能的關系如圖1所示:
圖1 數(shù)據(jù)生命周期與數(shù)據(jù)活躍度與存儲系統(tǒng)示意圖
采用統(tǒng)一存儲系統(tǒng),利用各類磁盤不同性能的特點,構建不同性能層級的存儲空間,結合算法對負荷進行分析,自動管理各層級存儲空間,數(shù)據(jù)在線遷移,實現(xiàn)高活躍數(shù)據(jù)以及生命周期各階段數(shù)據(jù)在存儲系統(tǒng)中分級分層存儲,在保持成本不變的前提下,達到滿足業(yè)務系統(tǒng)對存儲空間不同性能的需要。
2.3.2 虛擬存儲技術
實際上,要實現(xiàn)上述存儲功能,不僅復雜,而且動態(tài)變化,如果僅通過“手工”配置實現(xiàn),是相當困難的。因此對統(tǒng)一存現(xiàn)系統(tǒng)提出了虛擬存儲要求。
所謂的虛擬存儲(Storage Virtualization)是指將多個不同類型、獨立存在的物理存儲體,通過軟、硬件技術,集成轉化為一個邏輯上的虛擬的存儲單元,集中管理供用戶統(tǒng)一使用。虛擬存儲的實質是對物理存儲設備進行邏輯化的處理,并將統(tǒng)一的邏輯視圖呈現(xiàn)給用戶。因此,用戶在使用時,操作的是虛擬設備,無需關心底層的物理環(huán)境。因而,可以充分利用基于異構平臺的存儲空間,達到最優(yōu)化的使用效率。
3 圖書館存儲系統(tǒng)解決方案
通過對圖書館數(shù)據(jù)類型特點及存儲策略的分析,以安全、高效、易管理、高性價比為原則,提出建設圖書館統(tǒng)一存儲的解決方案,具有下列特點:(1)支持多種不同性能的磁盤,方便容量擴展,滿足不同業(yè)務的需求;(2)支持Fcsan和Ipsan網(wǎng)絡存儲,方便業(yè)務系統(tǒng)服務擴展;(3)支持分級分層存儲與數(shù)據(jù)動態(tài)遷移;(4)支持虛擬存儲概念,高效管理存儲空間。
4 結束語
云計算,大數(shù)據(jù),物聯(lián)網(wǎng),移動商務,信息安全等是目前IT熱點,這些都與存儲系統(tǒng)密切相關。本文從數(shù)據(jù)類型特點與存儲策略的角度探討圖書館存儲系統(tǒng)建設問題,在解決圖書館存儲需求與資金投入的矛盾是一個有益的嘗試,具有較高針對性和實用參考價值。
參考文獻:
[1]竇天芳,張成昱.數(shù)字圖書館存儲系統(tǒng)的建設方案與技術[J].現(xiàn)代圖書情報技術,2005(01):15-18.
[2]劉海峰,李偉,朱江嶺.存儲技術在數(shù)字圖書館的應用[J].河北工業(yè)科技,2003(06):61-63.
[3]吳廷照,李興國,李秉嚴.數(shù)字圖書館存儲系統(tǒng)解決方案[J].四川圖書館學報,2004(02):26-30.
[4]黃意安.存儲系統(tǒng)在數(shù)字圖書館建設中的應用分析[J].福建圖書館理論與實踐,2008(01):42-45.
[5]朱培毅.大學圖書館基于SAN架構的混合存儲解決方案探索[J].圖書館論壇,2004(04):99-102.
[6]史敏鴿.,淺析數(shù)據(jù)分級存儲在高校數(shù)字圖書館建設中的運用[J].現(xiàn)代情報,2005(07):86-88.
作者簡介:鄧重斌(1963-),男,廣東連州人,碩士,總工程師,高級工程師,研究方向:計算機網(wǎng)絡與應用。
作者單位:廣東省科技圖書館,廣州 510070