一.引言
2012年初,中央電臺媒資備份存儲系統(tǒng)正式投入使用。經(jīng)過一年的運行,大量的節(jié)目內(nèi)容,豐富的歷史資料迅速將中央電臺媒資備份存儲系統(tǒng)填滿,嚴重掣肘了節(jié)目歸檔、素材入庫等媒資管理工作。近期中央電臺完成了媒資備份存儲系統(tǒng)在線擴容工作。備份存儲的磁盤容量由之前的20TB,增加30TB,總計達到50TB。短短一年時間,磁盤空間需求已經(jīng)翻番,可以預(yù)見,中央電臺媒資備份存儲系統(tǒng)還將面臨磁盤空間短缺的問題。面對日益爆炸的數(shù)據(jù)增長和由此不斷上升產(chǎn)生的存儲壓力難題,如何控制和有效降低海量數(shù)據(jù)顯得尤為重要。重復(fù)數(shù)據(jù)刪除技術(shù)無疑是“瘦身”的一項不錯選擇。
二.?dāng)?shù)據(jù)冗余
三.重復(fù)數(shù)據(jù)刪除概念
通過相關(guān)研究和對實際系統(tǒng)的分析發(fā)現(xiàn),在海量數(shù)字存儲系統(tǒng)中,存在大量的重復(fù)數(shù)據(jù)和相似數(shù)據(jù)。通過重復(fù)數(shù)據(jù)刪除技術(shù)可以有效去除這些重復(fù)數(shù)據(jù),對相同數(shù)據(jù)只存儲一份和只存儲相似數(shù)據(jù)的不同部分,可以有效利用存儲空間,從而有效降低存儲系統(tǒng)成本。
重復(fù)數(shù)據(jù)刪除是一種數(shù)據(jù)縮減技術(shù),旨在最小化文件之間的冗余和重復(fù)的無損壓縮,并對存儲容量進行有效優(yōu)化。它通過刪除數(shù)據(jù)集中重復(fù)的數(shù)據(jù),只保留其中一份,從而達到消除冗余數(shù)據(jù)目的。
目前,絕大多數(shù)的重復(fù)數(shù)據(jù)刪除算法都工作在二進制數(shù)據(jù)層次上,通常使用一些數(shù)據(jù)切分算法,如以整個文件為切分粒度,固定大小的數(shù)據(jù)切分,或者某些HASH函數(shù)(如Rabin Fingerprinting算法),將每一個帶歸檔的文件切分成若干相互不重疊的數(shù)據(jù)片段,并把這些數(shù)據(jù)片段作為邏輯單位進行后續(xù)處理和存儲操作。在這些數(shù)據(jù)片段中,只有不重復(fù)的數(shù)據(jù)片段才真正存儲到存儲設(shè)備中,而其他的重復(fù)數(shù)據(jù)片段只需記錄其ID和相應(yīng)的依賴文件的對應(yīng)關(guān)系即可。
2. 文件切分
重復(fù)數(shù)據(jù)刪除對于S48音頻文件切分算法的實現(xiàn)基于以下的觀察和思考:許多不同的文件有著相同的音頻內(nèi)容和不同的TAG描述信息,即相同的歌曲由同一個歌手演唱,但發(fā)布在不同專輯,或者相同的內(nèi)容由不同編輯制作,這樣就有了不同的TAG。因此,一般把每個S48文件劃分成三個部分:幀頭、音頻幀、TAG,其中幀頭和音頻幀被解析和存在元數(shù)據(jù)服務(wù)器數(shù)據(jù)庫的某張表中,音頻幀作為一個邏輯數(shù)據(jù)片段存儲,以便進一步被打包成物理對象實際存儲在磁盤設(shè)備上。
具有相同音頻的數(shù)據(jù)內(nèi)容被切成一個數(shù)據(jù)片段,只需保存其中一份即可。由于某些HASH函數(shù)(如Rabin Fingerprinting算法)可以捕獲到二進制層次上的重復(fù),所以若兩個數(shù)據(jù)對象具有相同的內(nèi)容,則可進一步進行重復(fù)數(shù)據(jù)刪除,只存不重復(fù)的數(shù)據(jù)對象。圖3展示了上述過程,并說明在存儲系統(tǒng)中數(shù)據(jù)組織的層次關(guān)系。
3. 方案實施
重復(fù)數(shù)據(jù)刪除主要是針對大規(guī)模存儲系統(tǒng)設(shè)計,其進程可以部署在不同的應(yīng)用服務(wù)器上,且可作為核心進程運行。因此,其方案需要有較好的可擴展性,易于進行數(shù)據(jù)容災(zāi)的部署。
因此在媒資備份存儲系統(tǒng)內(nèi)部署重復(fù)刪除技術(shù)至少需要包括應(yīng)用服務(wù)器,文件歸檔服務(wù)器,元數(shù)據(jù)服務(wù)器和智能存儲節(jié)點等四部分組件實現(xiàn)重復(fù)數(shù)據(jù)刪除和數(shù)據(jù)存儲。圖4展示存儲系統(tǒng)體系結(jié)構(gòu)。
應(yīng)用服務(wù)器為各種應(yīng)用的宿主服務(wù)器,如WEB服務(wù)器,流媒體服務(wù)器等部署應(yīng)用服務(wù)端軟件。文件歸檔服務(wù)器主要是將文件歸檔到存儲節(jié)點,同時部署重復(fù)數(shù)據(jù)刪除軟件的地方。元數(shù)據(jù)服務(wù)器主要對元數(shù)據(jù)管理、與應(yīng)用服務(wù)器交互、安全機制的部署等服務(wù)。智能存儲節(jié)點是完全由通用組件,即操作系統(tǒng)、陣列柜、磁帶庫、文件系統(tǒng)等組成。
對于每個存儲文件首先根據(jù)其相應(yīng)的元數(shù)據(jù)信息,被文件歸檔服務(wù)器切分成若干不重疊的數(shù)據(jù)片段。每一個數(shù)據(jù)片段將對內(nèi)容通過某些Hash函數(shù)計算得到的簽名作為其標識符,用以判斷當(dāng)前是否有重復(fù)的數(shù)據(jù)片段存在。不重復(fù)的數(shù)據(jù)片段將被封裝成定長的數(shù)據(jù)對象,由元數(shù)據(jù)服務(wù)器決定將它們存儲到對應(yīng)的智能存儲節(jié)點中。最后當(dāng)數(shù)據(jù)的存儲位置信息將會返回到文件歸檔服務(wù)器。文件歸檔服務(wù)器可以與智能存儲節(jié)點直接進行數(shù)據(jù)傳輸。這樣應(yīng)用服務(wù)器產(chǎn)生、調(diào)用的節(jié)目素材等內(nèi)容就通過入庫、切割、計算、存儲等步驟進行了“瘦身”,最大限度的精減系統(tǒng)內(nèi)冗余、重復(fù)數(shù)據(jù)的產(chǎn)生,從而實現(xiàn)了重復(fù)數(shù)據(jù)刪除。
六.總結(jié)
隨著中央電臺編播系統(tǒng)數(shù)字化的發(fā)展,節(jié)目內(nèi)容、節(jié)目素材將呈現(xiàn)爆炸式增長趨勢,數(shù)據(jù)總量將急劇膨脹。我們將面臨諸多挑戰(zhàn),如媒資備份存儲空間不足、成本高昂等問題。本文通過對重復(fù)數(shù)據(jù)刪除技術(shù)的探討,采用標準、科學(xué)、先進和可靠的技術(shù),闡述了全新的媒資備份存儲系統(tǒng),為今后的媒資備份存儲系統(tǒng)發(fā)展規(guī)劃,提供了有效的支持,并確保系統(tǒng)在今后相當(dāng)長一段時間留有擴充余地。希望能為廣播電視的媒資備份存儲系統(tǒng)建設(shè)提供一種新思路。BP
參考文獻
[1] 袁玉宇 劉川意 郭松柳 . 云計算時代的數(shù)據(jù)中心. 電子工業(yè)出版社 .2010
[2] 李棟 數(shù)字聲音廣播 北京廣播學(xué)院出版社 2001
[3] Dave Reinesl. Our Expanding Digital World:Can we contain it? Can we manage it? Intelligent Storage Workshop(ISW2008),UMN,MN,2008
[4] 張為民 唐劍鋒 羅治國 錢嶺 . 云計算:深刻改變未來 . 01版 . 北京 . 科學(xué)出版社 . 2009
[5] 朱近之 張振倫 金海龍 蔣建華 王春海未來,在云端 微型計算機 2011(2)