劉建斌 王明乾
摘要:隨著移動信息技術(shù)不斷得到發(fā)展,傳統(tǒng)的數(shù)據(jù)存儲系統(tǒng)已經(jīng)無法應對海量數(shù)據(jù)信息的沖擊。在此背景下,Hadoop技術(shù)因為其開源免費的特點,能夠在構(gòu)建科研大數(shù)據(jù)存儲系統(tǒng)節(jié)省不少經(jīng)費開支同時,還能為科研大數(shù)據(jù)存儲系統(tǒng)提供較強的存儲可靠性?;诖耍疚耐ㄟ^分析Hadoop技術(shù)下科研大數(shù)據(jù)存儲系統(tǒng)的需求,為Hadoop技術(shù)下的科研大數(shù)據(jù)存儲系統(tǒng)提供設計理念和思路。
關(guān)鍵詞:Hadoop技術(shù);科研大數(shù)據(jù);存儲系統(tǒng)
Hadoop最早是由Apache基金會所發(fā)布的一款分布式系統(tǒng)基礎架構(gòu)。借助Hadoop技術(shù),可以使用戶在完全不了解分布式底層細節(jié)的情況下,開發(fā)分布式程序,并利用其中的集群功能進行高速運算和存儲。此外,Hadoop還具有可靠性高、擴展性強、容錯率大等顯著特點,將其應用于科研大數(shù)據(jù)存儲系統(tǒng)的設計構(gòu)造中,能夠滿足現(xiàn)代社會日益擴大的海量存儲需求[1]。因此,在Hadoop技術(shù)下對科研大數(shù)據(jù)存儲系統(tǒng)展開研究,具有與時俱進的現(xiàn)實意義。
1Hadoop技術(shù)下科研大數(shù)據(jù)存儲系統(tǒng)的需求
1.1海量存儲需求
當前階段,隨著數(shù)據(jù)量逐漸由TB、PB朝著EB的量級方向發(fā)展,傳統(tǒng)的存儲系統(tǒng)已經(jīng)無法快速處理海量的存儲需求。因此,在Hadoop技術(shù)下的科研大數(shù)據(jù)存儲系統(tǒng),首先要具備處理海量數(shù)據(jù)信息,并根據(jù)大數(shù)據(jù)采集信息,對信息做出分析、決策的能力[2]。其次,面對用戶的數(shù)據(jù)存儲需求,科研大數(shù)據(jù)存儲系統(tǒng)需要具備數(shù)據(jù)的快速存儲、查詢、讀取、傳輸?shù)哪芰ΑW詈?,科研大?shù)據(jù)存儲系統(tǒng)通常具有多種結(jié)構(gòu)類型或數(shù)據(jù)源,導致其存儲方式主要以半結(jié)構(gòu)化存儲為主。因此,為了滿足這一需求,基于Hadoop技術(shù)的科研大數(shù)據(jù)存儲系統(tǒng)還要具備存儲格式、存儲介質(zhì)并存的能力。
1.2安全性需求
隨著互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)的安全性問題被不斷提及。因此,確保系統(tǒng)擁有足夠的安全性,將成為Hadoop技術(shù)下科研大數(shù)據(jù)存儲系統(tǒng)研究的重點。首先,科研大數(shù)據(jù)存儲系統(tǒng)應該確保數(shù)據(jù)時刻處于完整狀態(tài),并確保數(shù)據(jù)不會被截獲、接聽、丟失或破壞。同時,還應借助監(jiān)控功能為系統(tǒng)中的大數(shù)據(jù)傳輸提供安全保障。其次,對科研大數(shù)據(jù)存儲系統(tǒng)的用戶權(quán)限加以限制,以防止用戶通過獲取超級權(quán)限侵犯數(shù)據(jù)庫安全。再次,科研大數(shù)據(jù)存儲系統(tǒng)要想順利運行,需要依托互聯(lián)網(wǎng)。因此,需要確??蒲写髷?shù)據(jù)存儲系統(tǒng)運行的互聯(lián)網(wǎng)絡,并通過檢查運行日志的方式,確保其安全性。最后,為了確保大數(shù)據(jù)存儲的安全性和準確性,快速備份功能十分重要。另外,為了不讓數(shù)據(jù)過于冗余,還需要對數(shù)據(jù)庫中的過期信息進行及時清理,從而為新數(shù)據(jù)騰出空間。
1.3可靠性需求
對于Hadoop技術(shù)下的科研大數(shù)據(jù)存儲系統(tǒng),除了安全性外,最重要的就是系統(tǒng)的可靠性。首先,傳統(tǒng)的存儲系統(tǒng)在數(shù)據(jù)備份時,通常使用將數(shù)據(jù)強行寫入磁盤的方式進行。這種方式雖然能夠提升系統(tǒng)的準確性,但是在使用成本以及效率方面,和Hadoop技術(shù)相比均處于劣勢。其次,傳統(tǒng)的存儲系統(tǒng)主要基于SAN和NAS網(wǎng)絡運行。身處這兩種網(wǎng)絡中,其網(wǎng)絡帶寬將明顯小于大數(shù)據(jù)傳輸?shù)乃俾剩瑥亩泳彺髷?shù)據(jù)傳輸?shù)男?。而在Hadoop技術(shù)下的科研大數(shù)據(jù)存儲系統(tǒng),則能夠借助直連式存儲(DAS)大幅度降低網(wǎng)絡帶寬延遲,從而提升系統(tǒng)的可靠性。再次,為了在確保大數(shù)據(jù)運行效率的同時,降低系統(tǒng)運行成本,Hadoop技術(shù)是當前階段的最好選擇。最后,科研大數(shù)據(jù)存儲系統(tǒng)通常要面對多用戶登陸使用的情況,因此科研大數(shù)據(jù)存儲系統(tǒng)還應該具備在多用戶訪問情況,大數(shù)據(jù)傳輸穩(wěn)定、可靠的能力。
2Hadoop技術(shù)下科研大數(shù)據(jù)存儲系統(tǒng)設計
2.1文件系統(tǒng)設計
在文件系統(tǒng)設計中,通常以節(jié)點作為數(shù)據(jù)的劃分點,并分為數(shù)據(jù)節(jié)點和非數(shù)據(jù)節(jié)點兩種。其中,數(shù)據(jù)節(jié)點包括DateNode節(jié)點,非數(shù)據(jù)節(jié)點包括Master節(jié)點。在Hadoop技術(shù)下的科研大數(shù)據(jù)存儲系統(tǒng)中,DateNode節(jié)點的作用在于讓系統(tǒng)保持正常運行。而Master節(jié)點的作用在于能夠為整個系統(tǒng)狀態(tài)提供監(jiān)控。
2.2文件塊存儲策略
在文件塊存儲過程中,文件塊的主副本有且只有一個。簡單而言,在科研大數(shù)據(jù)存儲過程中,文件塊的更新完全由主副本進行控制。因此,可以基于Hadoop技術(shù)設計控制信息快。首先,主副本節(jié)點編號。在節(jié)點添加過程中,可以借助Hadoop技術(shù)中的Master節(jié)點得出節(jié)點編號。其次,副本數(shù)量。副本數(shù)量包含主副本和其他副本。通過查詢,如果結(jié)果顯示為1,則沒有其他副本。如果結(jié)果顯示為0,則沒有此文件塊。最后,副本節(jié)點編號列表。通過保存節(jié)點編號的方式,對編號地址進行訪問。基于此,科研大數(shù)據(jù)存儲系統(tǒng)先通過Master節(jié)點為用戶生成快照,然后借助快照創(chuàng)建文件塊。
2.3科研資源網(wǎng)架構(gòu)
為了方便用戶隨時查詢、檢索、使用科研資源網(wǎng),需要通過Hadoop技術(shù)重新設計科研資源網(wǎng)架構(gòu)。一方面,通過向云計算服務商發(fā)送申請,然后借由云存儲中的NameNode找尋Block中的ID,然后憑借該ID獲取所需的數(shù)據(jù)信息。在此過程中,為了有效節(jié)約服務器的存儲空間,將由系統(tǒng)管理員決定是否對發(fā)送過的數(shù)據(jù)進行刪除。另一方面,當NameNode將數(shù)據(jù)發(fā)送至云計算服務商DataNoe時,數(shù)據(jù)將在映像文件中保存,并通過Sceondary、NameNode等對數(shù)據(jù)進行備份。
結(jié)語
Hadoop技術(shù)作為一種面向海量數(shù)據(jù)信息的分布式系統(tǒng),能夠有效應對TB量級以上的數(shù)據(jù)量。因此,將Hadoop技術(shù)應用于科研大數(shù)據(jù)存儲系統(tǒng)中,并通過文件系統(tǒng)設計、文件塊存儲策略、科研資源網(wǎng)架構(gòu)、數(shù)據(jù)庫訪問層構(gòu)建四個方面的設計,充分發(fā)揮Hadoop技術(shù)的效能,從而為科研大數(shù)據(jù)存儲系統(tǒng)的建立奠定技術(shù)基礎。
參考文獻
[1]李特,楊萌.基于Hadoop技術(shù)的科研大數(shù)據(jù)存儲系統(tǒng)設計[J].信息與電腦(理論版),2021,33(16):114-116.
[2]謝翌.基于Hadoop架構(gòu)的高??蒲袛?shù)據(jù)存儲系統(tǒng)設計[J].現(xiàn)代電子技術(shù),2021,44(11):182-186.
第一作者簡介:劉建斌(1990年5月),男,漢族,籍貫:山西省忻州市人,學歷:碩士,職稱:助教,研究方向:數(shù)據(jù)存儲技術(shù)。
第二作者簡介:王明乾(1989年12月),男,漢族,籍貫:河北清河,學歷:碩士,職稱:助教,研究方向:云計算。