徐晟
摘 要:大數(shù)據(jù)時(shí)代的到來,使我國在現(xiàn)代化建設(shè)過程中對信息化技術(shù)的應(yīng)用不斷加深,這也使數(shù)據(jù)量增長速度不斷加快,隨之而來的數(shù)據(jù)存儲問題也變得越來越突出。如何對海量數(shù)據(jù)進(jìn)行有效存儲,大幅提高數(shù)據(jù)訪問率,保障數(shù)據(jù)安全,已經(jīng)成為亟待解決的重要問題。而數(shù)據(jù)分級存儲技術(shù)的出現(xiàn),為這一問題的解決提供了可靠的技術(shù)支持。鑒于此,本文首先分析大數(shù)據(jù)時(shí)代數(shù)據(jù)分級存儲及其基本要求,然后對數(shù)據(jù)分級存儲的優(yōu)化方向進(jìn)行深入研究,以期為我國數(shù)據(jù)分級存儲技術(shù)的優(yōu)化與改進(jìn)指明方向。
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)分級存儲;優(yōu)化
中圖分類號:TP391.41 文獻(xiàn)標(biāo)識碼:A 文章編號:1003-5168(2019)14-0025-03
Research on the Optimal Direction of Data Hierarchical
Storage in the Age of Big Data
XU Sheng
(Geomatics Center of Guangxi,Nanning Guangxi 530023)
Absrtact: The arrival of the era of Big Data has deepened the application of information technology in the process of modernization construction in China, which has also accelerated the growth of data volume, and the consequent problem of data storage has become more and more prominent. How to effectively store massive data, greatly improve data access rate and ensure data security has become an important problem to be solved urgently. The emergence of data hierarchical storage technology provides reliable technical support for solving this problem. In view of this, this paper first analysed the data hierarchical storage and its basic requirements in the era of big data, and then made a thorough study on the optimization direction of data hierarchical storage, with a view to pointing out the direction for the optimization and improvement of data hierarchical storage technology in China.
Keywords: Big Data;hierarchical data storage;optimization direction
統(tǒng)計(jì)表明,數(shù)據(jù)存儲時(shí)間超過一個(gè)月被再次利用的概率不超過5%,硬盤中存儲的數(shù)據(jù)超過80%是不被經(jīng)常訪問的。這些數(shù)據(jù)雖然利用率不高,但卻占用了大量的磁盤空間。因此,對這些數(shù)據(jù)進(jìn)行處理,以實(shí)現(xiàn)對存儲空間的合理利用,最大限度地降低存儲成本,已成為信息管理部門亟待解決的重要問題。而通過分級存儲,可有效解決該問題,不僅能節(jié)約存儲成本,而且能實(shí)現(xiàn)對數(shù)據(jù)的最大化利用,并使數(shù)據(jù)存儲變得更加高效,保障數(shù)據(jù)存儲安全。
1 數(shù)據(jù)分級存儲概述
所謂數(shù)據(jù)分級存儲,是根據(jù)數(shù)據(jù)自身價(jià)值的高低,選擇與數(shù)據(jù)價(jià)值相匹配的存儲設(shè)備來進(jìn)行數(shù)據(jù)存儲,數(shù)據(jù)的利用價(jià)值越高,則存儲設(shè)備的級別及性能就越高,其存儲成本也就越大,反之則越小[1]。數(shù)據(jù)分級存儲需要按照用戶所設(shè)定的策略來執(zhí)行,而數(shù)據(jù)利用價(jià)值的高低可依據(jù)其數(shù)據(jù)種類、時(shí)限、利用頻率及重要程度來判斷,可對不同價(jià)值的數(shù)據(jù)有選擇地進(jìn)行遷移,使其能在不同級別的存儲介質(zhì)中進(jìn)行拷貝。在數(shù)據(jù)被拷貝完畢后,會(huì)創(chuàng)建一個(gè)和原文件名相同的標(biāo)志文件,不過其所占用的磁盤空間要比原文件小很多。用戶在訪問該標(biāo)志文件時(shí),系統(tǒng)會(huì)從對應(yīng)的分級存儲介質(zhì)中恢復(fù)原始文件,然后對標(biāo)志文件進(jìn)行覆蓋。數(shù)據(jù)分級存儲的應(yīng)用優(yōu)勢主要表現(xiàn)在以下四方面。第一,數(shù)據(jù)分級存儲能有效降低存儲成本,不經(jīng)常訪問的數(shù)據(jù)駐留在較低成本的存儲器中,以確保磁盤驅(qū)動(dòng)器的性能得到最大限度的發(fā)揮[2]。第二,分級存儲策略使存儲設(shè)備的性能得到最大限度的發(fā)揮,能確保性價(jià)比不同的存儲設(shè)備充分發(fā)揮其作用。第三,分級存儲使數(shù)據(jù)的可用性得到改善,使訪問頻率較低的數(shù)據(jù)自動(dòng)遷移至輔助存儲器中,從而避免對這些數(shù)據(jù)的反復(fù)存儲,不僅縮短了存儲時(shí)間,而且提高了數(shù)據(jù)可用性。第四,分級存儲能使數(shù)據(jù)在不同的存儲器中移動(dòng),且此過程不需要改變應(yīng)用程序,數(shù)據(jù)遷移和應(yīng)用更為透明化。
2 大數(shù)據(jù)時(shí)代數(shù)據(jù)分級存儲的基本要求
在大數(shù)據(jù)時(shí)代,進(jìn)行數(shù)據(jù)分級存儲要滿足以下基本要求。其一,數(shù)據(jù)安全。在對數(shù)據(jù)進(jìn)行分級存儲時(shí),必須要確保數(shù)據(jù)的自身安全,可通過在線、離線和近線等多層次備份方式,對數(shù)據(jù)進(jìn)行周期性存儲。這樣即使數(shù)據(jù)在分級存儲過程中被損壞,也能利用備份數(shù)據(jù)來進(jìn)行恢復(fù),從而保證用戶能正常訪問和使用數(shù)據(jù)。數(shù)據(jù)分級存儲需要建立相應(yīng)的備份策略,明確操作流程,以確保備份數(shù)據(jù)安全。其二,數(shù)據(jù)具有可用性。在對數(shù)據(jù)進(jìn)行分級存儲時(shí),必須要確保訪問這些數(shù)據(jù)的速度不會(huì)受到影響,尤其是在線數(shù)據(jù),需要確保其獲取的實(shí)時(shí)性。同時(shí),在分級存儲時(shí),還要充分考慮存儲設(shè)備的災(zāi)備性能,以確保存儲的數(shù)據(jù)能夠完整、真實(shí),并可進(jìn)行長期使用。其三,容量可擴(kuò)展性。在大數(shù)據(jù)時(shí)代,數(shù)據(jù)量呈現(xiàn)出幾何式增長的趨勢,數(shù)據(jù)規(guī)模急劇擴(kuò)大。在管理數(shù)據(jù)的過程中,相關(guān)部門必須要充分考慮數(shù)據(jù)的增長速度。而這就需要在分級存儲過程中,對存儲設(shè)備自身的容量可擴(kuò)展性進(jìn)行分析,確保存儲設(shè)備能在后續(xù)存儲數(shù)據(jù)時(shí)具有足夠的容量。其四,設(shè)備兼容性。在對數(shù)據(jù)進(jìn)行分級存儲時(shí),主要處理方式包括兩種:一種是數(shù)據(jù)遷移;另一種是數(shù)據(jù)回遷。也就是說,工作人員要依據(jù)數(shù)據(jù)的主要類型、使用頻率、存儲時(shí)間及其重要程度來對其進(jìn)行級別劃分,使其能在不同級別的存儲設(shè)備中得以順利遷移。因不同存儲設(shè)備在結(jié)構(gòu)上存在差異,所以,要保證各級存儲設(shè)備間的兼容性,而這需要確保數(shù)據(jù)的存儲格式能得到各級存儲設(shè)備的支持。其五,管理高效性。在對數(shù)據(jù)進(jìn)行分級存儲時(shí),需要堅(jiān)持分布式存儲的原則,對數(shù)據(jù)進(jìn)行集中式管理,而這需要對存儲設(shè)備及空間權(quán)限等進(jìn)行完備的定義,以實(shí)現(xiàn)對數(shù)據(jù)存儲管理流程的有效優(yōu)化,提高數(shù)據(jù)在分級存儲中的管理效率。其六,經(jīng)濟(jì)效益性。對于一些訪問頻率較低的數(shù)據(jù),可將其存儲于級別較低的存儲設(shè)備中,以節(jié)約存儲成本;而對于一些訪問頻率較高的數(shù)據(jù),則可存儲于級別較高的存儲設(shè)備中,這些存儲設(shè)備雖然存儲成本較高,但其性能卻較強(qiáng)[3]。在分級存儲過程中,要結(jié)合應(yīng)用多種不同的存儲方式和介質(zhì),并充分發(fā)揮各存儲方式的優(yōu)勢,進(jìn)而在節(jié)約存儲成本的基礎(chǔ)上,實(shí)現(xiàn)數(shù)據(jù)利用最大化的目標(biāo),保障數(shù)據(jù)安全。
3 大數(shù)據(jù)時(shí)代數(shù)據(jù)分級存儲的優(yōu)化方向
在大數(shù)據(jù)時(shí)代,數(shù)據(jù)分級存儲技術(shù)的應(yīng)用優(yōu)勢顯而易見:能顯著提高數(shù)據(jù)的利用效率,降低數(shù)據(jù)存儲成本,保障數(shù)據(jù)存儲安全。但在數(shù)據(jù)分級存儲過程中,仍存在一些問題,需要對其進(jìn)行優(yōu)化。具體來說,數(shù)據(jù)分級存儲的優(yōu)化方向主要體現(xiàn)在三方面,分別是數(shù)據(jù)分類能力優(yōu)化、數(shù)據(jù)存儲能力優(yōu)化以及數(shù)據(jù)遷移能力優(yōu)化[4]。
3.1 數(shù)據(jù)分類能力優(yōu)化
通過對數(shù)據(jù)進(jìn)行分析,可對數(shù)據(jù)所具有的訪問屬性進(jìn)行定義,結(jié)合用戶邏輯業(yè)務(wù)主題的不同,根據(jù)數(shù)據(jù)的利用價(jià)值來實(shí)現(xiàn)其類別劃分,可以為數(shù)據(jù)遷移打下良好的基礎(chǔ)。現(xiàn)階段,我國尚未對數(shù)據(jù)分類的標(biāo)準(zhǔn)進(jìn)行統(tǒng)一,但卻可以結(jié)合數(shù)據(jù)的用途及應(yīng)用環(huán)境,將其劃分為軟件系統(tǒng)運(yùn)營數(shù)據(jù)、硬件系統(tǒng)運(yùn)行數(shù)據(jù)等。除此之外,還可以將數(shù)據(jù)原始類型作為分類依據(jù),將其劃分成結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化數(shù)據(jù);還可依據(jù)人們對數(shù)據(jù)的訪問頻率,將其劃分為非熱點(diǎn)數(shù)據(jù)與熱點(diǎn)數(shù)據(jù)。總而言之,數(shù)據(jù)分類的方法較多,通過數(shù)據(jù)分類,可使數(shù)據(jù)的有效性及精準(zhǔn)度得到顯著提高?,F(xiàn)階段,我國在對數(shù)據(jù)進(jìn)行分類時(shí),主要采用的策略有專家系統(tǒng)分類、人工經(jīng)驗(yàn)分類、知識分類、靜態(tài)分類和動(dòng)態(tài)分類等。這些分類策略的出現(xiàn),都實(shí)現(xiàn)了對數(shù)據(jù)分類能力的優(yōu)化,大幅度降低了人們管理數(shù)據(jù)時(shí)的難度。
3.2 數(shù)據(jù)存儲能力優(yōu)化
在數(shù)據(jù)分級存儲過程中,其存儲問題已經(jīng)引起人們的關(guān)注。隨著人們對數(shù)據(jù)分級存儲的需求變得更加多樣化,數(shù)據(jù)存儲問題也變得愈發(fā)復(fù)雜化。數(shù)據(jù)可以放置在不同的存儲位置,但不同的存儲位置又會(huì)對分級存儲系統(tǒng)的性能帶來不同程度的影響。此外,數(shù)據(jù)存儲方式也較多,如文件分割存儲、隨機(jī)存儲和順序存儲等。如何選擇正確的存儲方式才能使分級存儲系統(tǒng)的性能得以最大化發(fā)揮,也是需要重點(diǎn)考慮的問題。為了解決這些問題,就必須要弄清具體的存儲介質(zhì)及存儲方式,只有合理選擇存儲介質(zhì)和存儲方式,才能最大限度地優(yōu)化系統(tǒng)的數(shù)據(jù)存儲能力。為此,可根據(jù)塊級別來利用元數(shù)據(jù)屬性,根據(jù)文件塊的大小來確定存儲方式,這樣既能提高系統(tǒng)對數(shù)據(jù)的訪問效率,而且能節(jié)約數(shù)據(jù)存儲成本。
3.3 數(shù)據(jù)遷移能力優(yōu)化
在數(shù)據(jù)分級存儲中,數(shù)據(jù)的服務(wù)質(zhì)量及訪問頻率是動(dòng)態(tài)變化的。因此,在對數(shù)據(jù)進(jìn)行分類存儲時(shí),也應(yīng)以動(dòng)態(tài)化的方式來匹配相應(yīng)的存儲設(shè)備,即數(shù)據(jù)可以在同一級別或不同級別的存儲設(shè)備中進(jìn)行遷移??梢哉f,數(shù)據(jù)遷移能力是數(shù)據(jù)分級存儲的核心能力,主要體現(xiàn)在同級遷移與異級遷移兩個(gè)方面。其中,同級遷移是當(dāng)存儲系統(tǒng)的硬件配置改變時(shí),為了對各個(gè)存儲設(shè)備的負(fù)載進(jìn)行均衡而實(shí)施的;而異級遷移則是為了對存儲系統(tǒng)進(jìn)行優(yōu)化而實(shí)施的。異級遷移的出現(xiàn)更為頻繁,既可以從高級的存儲設(shè)備向低級的存儲設(shè)備進(jìn)行遷移,也可進(jìn)行反方向遷移。遷移方法主要包括在線遷移與離線遷移兩種。根據(jù)業(yè)務(wù)的復(fù)雜程度,復(fù)雜性較高的遷移適用于在線遷移,而復(fù)雜性較低的遷移則適用于離線遷移。但無論是哪種遷移方法,只要遷移策略正確,都能提高數(shù)據(jù)存儲系統(tǒng)的綜合性能,降低數(shù)據(jù)存儲成本。
4 結(jié)語
大數(shù)據(jù)時(shí)代的到來,使人們對數(shù)據(jù)的依賴性不斷增強(qiáng),數(shù)據(jù)在現(xiàn)代社會(huì)中的重要程度也不斷提高。與此同時(shí),人們對數(shù)據(jù)的存儲需求也變得越來越強(qiáng)烈。由此,數(shù)據(jù)的安全存儲及利用問題也受到越來越多人的關(guān)注。在此背景下,數(shù)據(jù)分級存儲技術(shù)應(yīng)運(yùn)而生,有效解決了數(shù)據(jù)存儲難題,使數(shù)據(jù)能以最小的存儲成本實(shí)現(xiàn)最大化利用。隨著數(shù)據(jù)分級存儲技術(shù)的不斷革新,其必將向著更加智能化、虛擬化的方向發(fā)展,從而使數(shù)據(jù)在分級存儲過程中具備更加強(qiáng)大的分類、存儲與遷移能力。
參考文獻(xiàn):
[1]楊文暉,袁進(jìn)俊,苗放.面向海量空間數(shù)據(jù)的分級存儲模型研究[J].物探化探計(jì)算技術(shù),2015(6):783-789.
[2]郭剛,于炯,魯亮,等.內(nèi)存云分級存儲架構(gòu)下的數(shù)據(jù)遷移模型[J].計(jì)算機(jī)應(yīng)用,2015(12):3392-3397.
[3]蔡雨蒙,冷鍇,單紅偉,等.大型醫(yī)院影像分級存儲架構(gòu)下歸檔的策略及應(yīng)用[J].中國數(shù)字醫(yī)學(xué),2017(1):48-51.
[4]張瑞杰,張文生,李戰(zhàn)懷.基于文件隊(duì)列的分級存儲系統(tǒng)FQ-HSM的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)與現(xiàn)代化,2017(2):67-72,97.