王晶晶
摘要:隨著大數(shù)據(jù)技術(shù)的發(fā)展,新型數(shù)據(jù)中心的建設(shè)面臨著投資規(guī)模、數(shù)據(jù)來源、信息安全等方面的挑戰(zhàn),該文提出了分布式存儲建設(shè)方案,為基于大數(shù)據(jù)和云計(jì)算的新型數(shù)據(jù)中心建設(shè)提供新的模型。
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)中心建設(shè);分布式存儲
隨著計(jì)算機(jī)技術(shù)和信息技術(shù)的飛速發(fā)展,人類已經(jīng)進(jìn)入大數(shù)據(jù)時(shí)代。什么是大數(shù)據(jù)?大數(shù)據(jù)指的是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。某種程度說,大數(shù)據(jù)是數(shù)據(jù)分析的前沿技術(shù),其最核心的價(jià)值是在于對海量數(shù)據(jù)進(jìn)行存儲和分析。業(yè)界將其歸納為4個(gè)V——Volume(數(shù)據(jù)體量大)、Variety(數(shù)據(jù)類型繁多)、Velocity(處理速度快)、Value(價(jià)值密度低)。隨著信息爆炸的到來,大數(shù)據(jù)時(shí)代引發(fā)了重大的社會變革。傳統(tǒng)的數(shù)據(jù)中心已經(jīng)無法適應(yīng)大數(shù)據(jù)時(shí)代的要求,新型數(shù)據(jù)中心的建設(shè)面臨更大挑戰(zhàn)。如何適應(yīng)新技術(shù)的發(fā)展、盡快實(shí)現(xiàn)數(shù)據(jù)中心建設(shè)對大數(shù)據(jù)應(yīng)用的環(huán)境支撐,是當(dāng)前亟待解決的問題。
新型數(shù)據(jù)中心主要實(shí)現(xiàn)對大數(shù)據(jù)產(chǎn)品的支撐,包括基礎(chǔ)數(shù)據(jù)匯總、數(shù)據(jù)計(jì)算、數(shù)據(jù)產(chǎn)品發(fā)布。其中,數(shù)據(jù)匯總是基礎(chǔ),數(shù)據(jù)計(jì)算是核心,數(shù)據(jù)產(chǎn)品發(fā)布是實(shí)現(xiàn)大數(shù)據(jù)成果的轉(zhuǎn)化。為實(shí)現(xiàn)大數(shù)據(jù)的高效利用,數(shù)據(jù)中心應(yīng)該將投入重點(diǎn)放在數(shù)據(jù)計(jì)算上,但基礎(chǔ)數(shù)據(jù)的存儲環(huán)境建設(shè)在傳統(tǒng)數(shù)據(jù)中心建設(shè)中往往需要很高投人。如何解決這方面的矛盾,是新型大數(shù)據(jù)中心建設(shè)的研究主要方面。
1數(shù)據(jù)中心建設(shè)面臨的難點(diǎn)
傳統(tǒng)的數(shù)據(jù)中心主要以服務(wù)器為主,集中存儲設(shè)備主要用于容災(zāi)備份,隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,網(wǎng)絡(luò)產(chǎn)品深度開發(fā),對數(shù)據(jù)分析的需求不斷提高。作為數(shù)據(jù)分析的基礎(chǔ),數(shù)據(jù)存儲量不斷提高,需要大量的數(shù)據(jù)存儲設(shè)備,傳統(tǒng)的數(shù)據(jù)中心環(huán)境配置方案已經(jīng)不能支撐當(dāng)前飛速發(fā)展的大數(shù)據(jù)技術(shù)應(yīng)用。由于本地存儲能力不能適應(yīng)不斷增長的數(shù)據(jù)量,導(dǎo)致大數(shù)據(jù)計(jì)算能力無法體現(xiàn),大數(shù)據(jù)的應(yīng)用無法規(guī)?;?/p>
作為大數(shù)據(jù)建設(shè)的基礎(chǔ),新型大數(shù)據(jù)中心建設(shè)面臨新的挑戰(zhàn)。數(shù)據(jù)中心的建設(shè)存在以下幾個(gè)難點(diǎn):
1.1數(shù)據(jù)中心的規(guī)模設(shè)計(jì)
一個(gè)要承載政府級數(shù)據(jù)匯總和數(shù)據(jù)產(chǎn)品提供功能的數(shù)據(jù)中心,要將所需數(shù)據(jù)都存儲在本地,規(guī)模要保證在大型數(shù)據(jù)中心的標(biāo)準(zhǔn)以上。而且,當(dāng)今社會隨著物聯(lián)網(wǎng)、云計(jì)算技術(shù)的發(fā)展,數(shù)據(jù)量以前所未有的速度發(fā)展,數(shù)據(jù)中心的規(guī)模冗余計(jì)算是更大的挑戰(zhàn)。如此大規(guī)模的數(shù)據(jù)中心建設(shè)面臨著諸多困難。首先由于占地規(guī)模大,選址方案需要得到政府支持。制冷方案也需要探索,集裝箱式制冷不適合,空氣制冷成本太高,循環(huán)水制冷對于建筑群的統(tǒng)一制冷還沒有標(biāo)準(zhǔn)。大型數(shù)據(jù)中心的運(yùn)維監(jiān)控系統(tǒng)建設(shè)和維護(hù)成本都很高。為適應(yīng)大數(shù)據(jù)應(yīng)用,新型數(shù)據(jù)中心需要研究新的設(shè)備配比方案,數(shù)據(jù)存儲設(shè)備的比例需要大幅提高。另外,數(shù)據(jù)中心網(wǎng)絡(luò)出口的帶寬要求很高,提高了運(yùn)維成本。
1.2數(shù)據(jù)中心的數(shù)據(jù)來源
更多的基礎(chǔ)數(shù)據(jù)意味著更精確更高效的數(shù)據(jù)產(chǎn)品。數(shù)據(jù)來源多種多樣,除了已有的傳統(tǒng)數(shù)據(jù),還有不到增加的物聯(lián)網(wǎng)數(shù)據(jù)。數(shù)據(jù)格式也多種多樣,文本、音頻、視頻數(shù)據(jù)等,尤其是視頻數(shù)據(jù)在當(dāng)今社會生活中使用越來越廣泛。這些就對數(shù)據(jù)的存儲需求提出了更高要求。傳統(tǒng)的數(shù)據(jù)中心將各種數(shù)據(jù)存儲在本地,數(shù)據(jù)的存儲設(shè)備數(shù)量和冗余量都是巨大的,數(shù)據(jù)轉(zhuǎn)移的時(shí)間和更新的速度也是影響數(shù)據(jù)質(zhì)量的關(guān)鍵因素。
1.3數(shù)據(jù)信息的安全
環(huán)境破壞,將數(shù)據(jù)存儲在本地,地震、火災(zāi)等物理破壞會造成無法恢復(fù)的數(shù)據(jù)丟失。信息破解,一旦本地?cái)?shù)據(jù)管理員的信息被獲取,所有的數(shù)據(jù)都將面臨泄露的危險(xiǎn)。網(wǎng)絡(luò)破壞,對集中存儲的數(shù)據(jù)網(wǎng)絡(luò)出口進(jìn)行攻擊也將造成數(shù)據(jù)信息的整體破壞。
2分布式存儲
根據(jù)以上關(guān)鍵問題和目前數(shù)據(jù)中心建設(shè)的技術(shù)現(xiàn)狀,本文提出大數(shù)據(jù)建設(shè)的新的解決方案——分布式存儲。
分布式存儲簡單地說就是將數(shù)據(jù)分成若干部分,存儲在不同的位置。分布式存儲分為兩種方式。舉例說明,下面的表格數(shù)據(jù)按照分布式存儲方式存儲。
如表1所示,同一行的每個(gè)特征數(shù)據(jù)是直接相關(guān)聯(lián)的,而同一列的數(shù)據(jù)是沒有直接關(guān)聯(lián)性的。
存儲方式一,將具有直接關(guān)聯(lián)性的信息存在相同位置,例如將遼河流域的水質(zhì)信息存儲在位置甲,形成數(shù)據(jù)表“遼河流域2016年第44周水質(zhì)狀況表”,如表2所示。
而將海河流域水質(zhì)信息存儲在位置乙,形成數(shù)據(jù)表“海河流域2016年第44周水質(zhì)狀況表”,如表3所示。
存儲方式二,將具有直接關(guān)聯(lián)性的信息分別存儲。例如:將水系、點(diǎn)位名稱、NH3-N(mg/1)、本周水質(zhì)、上周水質(zhì)、主要污染指標(biāo)數(shù)據(jù)存儲在甲處,將河流名稱、斷面狀況、pH*、D0、c0DMn(mg/1)數(shù)據(jù)存儲在乙處。分別以表4、表5的形式存儲。
3分布式存儲的關(guān)鍵技術(shù)
第一,異地?cái)?shù)據(jù)傳輸。由于數(shù)據(jù)存儲的位置分散,進(jìn)行數(shù)據(jù)分析時(shí)要調(diào)取異地?cái)?shù)據(jù)信息,因此對網(wǎng)絡(luò)傳輸速率和可靠性要求較高。可以通過租用專線,并設(shè)計(jì)冗余路徑實(shí)現(xiàn)。
第二,數(shù)據(jù)編碼。由于數(shù)據(jù)是分布存儲的,并存儲在多個(gè)位置,在異地調(diào)取數(shù)據(jù)時(shí),為實(shí)現(xiàn)數(shù)據(jù)快速、準(zhǔn)確的定位數(shù)據(jù),需要對數(shù)據(jù)進(jìn)行編碼。數(shù)據(jù)編碼需要進(jìn)行統(tǒng)一規(guī)范。編碼規(guī)則需要用盡可能少的字符實(shí)現(xiàn)唯一性和可擴(kuò)展性。
第三,數(shù)據(jù)安全。數(shù)據(jù)中心的安全措施需要合理部署。主要從以下幾方面把握:異地?cái)?shù)據(jù)傳輸通道部署編解碼器等信息加密設(shè)備;區(qū)別本地?cái)?shù)據(jù)管理和異地?cái)?shù)據(jù)調(diào)用,設(shè)置不同級別的管理員權(quán)限;數(shù)據(jù)應(yīng)用配置安全認(rèn)證系統(tǒng);數(shù)據(jù)中心的對外出口配置安全策略;編碼信息和數(shù)據(jù)發(fā)布方案嚴(yán)格保密。
3.1分布式存儲在大數(shù)據(jù)建設(shè)方面的優(yōu)點(diǎn)
第一,分布式存儲能有效降低硬件環(huán)境建設(shè)成本。目前,大數(shù)據(jù)中心多由政府投資,其中重要原因之一就是投資巨大。大數(shù)據(jù)建設(shè)需要大量的存儲設(shè)備、高速運(yùn)算計(jì)算機(jī),這些設(shè)備的集中放置導(dǎo)致需要投入更多的環(huán)境建設(shè)成本,包括制冷系統(tǒng)、供電系統(tǒng)、顯控系統(tǒng)等。分布式存儲可以在已有的傳統(tǒng)大、中型數(shù)據(jù)中心的基礎(chǔ)上進(jìn)行擴(kuò)展。根據(jù)數(shù)據(jù)中心存儲容量合理分配數(shù)據(jù)存儲量。數(shù)據(jù)中心的核心區(qū)建設(shè)規(guī)??梢钥刂圃谥行⌒停蟠鬁p少了前期硬件建設(shè)投入。
第二,分布式存儲有利于數(shù)據(jù)的引接與更新。數(shù)據(jù)中心的數(shù)據(jù)維護(hù)主要包括新類型數(shù)據(jù)引接和已有數(shù)據(jù)更新兩方面難點(diǎn)。集中式存儲在新類型數(shù)據(jù)引接時(shí)需要增加存儲設(shè)備、數(shù)據(jù)導(dǎo)人等工作;分布式存儲引接新類型數(shù)據(jù)時(shí)在硬件方面只需要增加數(shù)據(jù)存儲地與數(shù)據(jù)中心核心區(qū)之間的信道,數(shù)據(jù)不需要導(dǎo)入,只有完成數(shù)據(jù)編碼就能實(shí)現(xiàn)數(shù)據(jù)利用。分布式數(shù)據(jù)存儲數(shù)據(jù)有本地維護(hù)人員隨時(shí)更新,而集中式存儲的數(shù)據(jù)要及時(shí)更新需要投入更多的人力成本。
第三,分布式存儲的數(shù)據(jù)安全性更高。將數(shù)據(jù)存儲在不同的位置,不同位置數(shù)據(jù)分別部署安全策略,同時(shí)設(shè)置多級管理權(quán)限,這種存儲方式比將數(shù)據(jù)存儲在同一位置更安全。而分布式存儲的第二種方式比第一種方式更安全。第二種存儲方式中,要想得到一條完整數(shù)據(jù)需要從所有數(shù)據(jù)的位置獲取信息,還要取得數(shù)據(jù)編碼信息,這就使人為竊取數(shù)據(jù)的難度非常高。
4結(jié)束語
大數(shù)據(jù)時(shí)代已經(jīng)到來,新的機(jī)遇伴隨新的挑戰(zhàn),提高數(shù)據(jù)使用效能,,實(shí)現(xiàn)數(shù)據(jù)產(chǎn)品的市場化,必須以數(shù)據(jù)中心建設(shè)為基礎(chǔ)。新型分布式存儲數(shù)據(jù)中心將投入集中在數(shù)據(jù)計(jì)算方面,在降低成本、提高數(shù)據(jù)使用率和數(shù)據(jù)安全方面具有突出優(yōu)點(diǎn)。數(shù)據(jù)中心的建設(shè)還需要在實(shí)踐中不斷探索,在實(shí)際數(shù)據(jù)基礎(chǔ)上形成新的數(shù)據(jù)中心建設(shè)標(biāo)準(zhǔn)。