貴州省信息中心 袁繼會(huì)
芻議面向大數(shù)據(jù)分析的分布式文件系統(tǒng)關(guān)鍵技術(shù)
貴州省信息中心袁繼會(huì)
隨著我國(guó)互聯(lián)網(wǎng)應(yīng)用技術(shù)水平的提高,互聯(lián)網(wǎng)企業(yè)正在加強(qiáng)對(duì)數(shù)據(jù)處理能力的研究與提高,以便于能夠很好地應(yīng)對(duì)多樣化和大規(guī)模信息數(shù)據(jù)的處理需求?;诋?dāng)前的發(fā)展新形勢(shì),數(shù)據(jù)儲(chǔ)存量大是典型特征,現(xiàn)階段分布式文件系統(tǒng)的傳統(tǒng)性能已經(jīng)不能滿足當(dāng)前的發(fā)展需求,為此,需要注重?cái)?shù)據(jù)的擴(kuò)展以及操作的一致性。本文就面向大數(shù)據(jù)分析的分布式文件系統(tǒng)關(guān)鍵技術(shù)進(jìn)行分析。
大數(shù)據(jù);分布式;關(guān)鍵技術(shù)
當(dāng)前,我國(guó)互聯(lián)網(wǎng)發(fā)展正是迎來(lái)大數(shù)據(jù)時(shí)代,數(shù)據(jù)信息的處理以及分析技術(shù)成為了相關(guān)人士關(guān)注的重點(diǎn)。數(shù)據(jù)量的不斷增加使得文件數(shù)量也在不斷增加,這是當(dāng)前存儲(chǔ)數(shù)據(jù)的典型特征,其對(duì)延遲的文件訪問(wèn)和元數(shù)據(jù)的性能也提出了更為嚴(yán)格的要求。就當(dāng)前的問(wèn)題,相關(guān)學(xué)者應(yīng)該依據(jù)互聯(lián)網(wǎng)數(shù)據(jù)和分布式文件的特點(diǎn),優(yōu)化技術(shù)手段,以減少數(shù)據(jù)遷移產(chǎn)生的成本,實(shí)現(xiàn)系統(tǒng)空間的擴(kuò)大和優(yōu)化,提高數(shù)據(jù)的處理效率和質(zhì)量。
海量非確定性異構(gòu)數(shù)據(jù)產(chǎn)生的原因比較復(fù)雜,其應(yīng)用也和以往有所不同,主要表現(xiàn)在:隨著數(shù)據(jù)應(yīng)用規(guī)模的擴(kuò)大以及應(yīng)用領(lǐng)域的擴(kuò)張,數(shù)據(jù)量會(huì)不斷增加,數(shù)據(jù)存數(shù)量也會(huì)有很大漲幅。在非確定數(shù)據(jù)的一般應(yīng)用中,其數(shù)據(jù)來(lái)源較多,數(shù)據(jù)類型多元化,數(shù)據(jù)訪問(wèn)形式也各有差異。元計(jì)算、物聯(lián)網(wǎng)應(yīng)用日益普及,數(shù)據(jù)的產(chǎn)生量和訪問(wèn)方式都是發(fā)生較大改變,此時(shí)的數(shù)據(jù)具有時(shí)效性和空間性特征,且訪問(wèn)量較大。非確定數(shù)據(jù)應(yīng)用中需要海量數(shù)據(jù)的支撐,這就要求對(duì)數(shù)據(jù)的存儲(chǔ)體系結(jié)構(gòu)進(jìn)行調(diào)整和優(yōu)化。第一,海量數(shù)據(jù)的組織結(jié)構(gòu)可以采用分布式數(shù)據(jù)管理模式,其更加適用于非確定數(shù)據(jù)應(yīng)用以及數(shù)據(jù)組織方式;第二,因?yàn)楹A繑?shù)據(jù)不斷積累的,在積累的過(guò)程中,需要較大的存儲(chǔ)空間,其性能也需要擴(kuò)張,這就需要建立與之匹配的存儲(chǔ)組織模式和索引機(jī)制。
對(duì)于海量不確定性數(shù)據(jù)的處理,采用傳統(tǒng)的信息存儲(chǔ)結(jié)構(gòu)以及對(duì)象查詢方法,運(yùn)行效率低下,所以需要采用新型的元數(shù)據(jù)組織結(jié)構(gòu)以及查詢方法,這樣可為用戶提供更加高效的服務(wù),也可提高數(shù)據(jù)查詢的準(zhǔn)確率。因?yàn)樵诜植际江h(huán)境中,數(shù)據(jù)源分布的網(wǎng)絡(luò)結(jié)點(diǎn)有所不同,這就會(huì)使得網(wǎng)絡(luò)傳輸?shù)男阅茌^為弱化。同時(shí),因?yàn)楦鱾€(gè)數(shù)據(jù)源自治性較強(qiáng),其需要通過(guò)改變自身的結(jié)構(gòu)實(shí)現(xiàn)數(shù)據(jù)的高效更新,提高數(shù)據(jù)的實(shí)時(shí)性,這就會(huì)給數(shù)據(jù)集成系統(tǒng)的一致性造成阻礙。因?yàn)閿?shù)據(jù)的非確定性,對(duì)于大量的非確定性異構(gòu)數(shù)據(jù)來(lái)說(shuō),其集成難度就會(huì)提高,因此可以采用分布式處理技術(shù)實(shí)現(xiàn)計(jì)算資源以及存儲(chǔ)資源的統(tǒng)一管理。
數(shù)據(jù)的海量性、非確定性、異構(gòu)性是數(shù)據(jù)挖掘算法需要改進(jìn)的重點(diǎn),因?yàn)閿?shù)據(jù)的異構(gòu)、海量、分布性以及決策控制的實(shí)時(shí)性,需要對(duì)數(shù)據(jù)挖掘引擎的布局和多引擎進(jìn)行調(diào)整。結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)都和數(shù)據(jù)的存儲(chǔ)以及管理息息相關(guān),這是因?yàn)楫?dāng)前用戶對(duì)于大數(shù)據(jù)的應(yīng)用需求所造成的,使得數(shù)據(jù)邏輯結(jié)構(gòu)和物理存儲(chǔ)方式都需要做出相應(yīng)的改變和調(diào)整。
3.1元數(shù)據(jù)的高可擴(kuò)展服務(wù)
第一,全域名空間,即每個(gè)文件都有其自己的名稱,用戶可以直接搜索名字查詢并閱覽文件,且無(wú)需知道文件的具體存儲(chǔ)位置。StorageTank就技術(shù)層面來(lái)說(shuō)其已經(jīng)可以起到協(xié)調(diào)復(fù)數(shù)服務(wù)器的作用,并對(duì)系統(tǒng)進(jìn)行分化,實(shí)現(xiàn)各個(gè)分布的獨(dú)立,但相互依存,每個(gè)部分都有單獨(dú)的服務(wù)器,但是多個(gè)部分共同作用,以快速解決過(guò)載問(wèn)題,也提升了系統(tǒng)的可靠性。第二,緩存,分布式系統(tǒng)的錄入通常分為兩種形式,即write-back、write-through。第三,可用性,分布式系統(tǒng)一般由多個(gè)節(jié)點(diǎn)共同構(gòu)成,其需要相互協(xié)作才能實(shí)現(xiàn)服務(wù)功能。一般情況下,可以通過(guò)RAID技術(shù)保證磁盤(pán)的實(shí)用性和可靠性,并且保障數(shù)據(jù)源的穩(wěn)定性。第四,擴(kuò)展性,分布式系統(tǒng)可以通過(guò)擴(kuò)展規(guī)模的途徑以獲取大存儲(chǔ)空間和較高的性能,其中比較核心的技術(shù)類型為虛擬化存儲(chǔ),Virtualization,該技術(shù)的應(yīng)用可基本滿足分布式系統(tǒng)的擴(kuò)展性要求。
3.2高可用的元數(shù)據(jù)機(jī)制
3.2.1恢復(fù)元數(shù)據(jù)服務(wù)器狀態(tài)機(jī)制
很多的元數(shù)據(jù)服務(wù)器都有特定的狀態(tài),就目錄中文件數(shù)據(jù)信息的存儲(chǔ)來(lái)說(shuō),其需要各個(gè)服務(wù)器之前的連接與協(xié)調(diào),從而保證通信的順暢,若在重啟過(guò)程中出現(xiàn)故障,則需要在短時(shí)間內(nèi)回復(fù)元數(shù)據(jù),在此過(guò)程中Hadoop分布式文件系統(tǒng)可以依據(jù)文件的不同,共享存儲(chǔ)池中可以良好保存數(shù)據(jù)信息,也可以將其轉(zhuǎn)化為鏡像文件形式,在數(shù)據(jù)恢復(fù)之后,以保證運(yùn)行狀態(tài)正常。可以將虛擬存儲(chǔ)池當(dāng)做共享存儲(chǔ)池使用,存儲(chǔ)以及加載元數(shù)據(jù)文件,可以在重啟發(fā)生故障的服務(wù)器之后通過(guò)一定的邏輯卷試圖形式實(shí)現(xiàn)對(duì)文件信息的構(gòu)件以及深度分析,并且通過(guò)統(tǒng)一的手段實(shí)現(xiàn)對(duì)數(shù)據(jù)的校正,避免訪問(wèn)失敗等問(wèn)題的發(fā)生。
3.2.2基于共享的存儲(chǔ)池節(jié)點(diǎn)熱備
對(duì)于共享的存儲(chǔ)池節(jié)點(diǎn)熱備來(lái)說(shuō)(如圖1所示),若元數(shù)據(jù)服務(wù)器群體中某個(gè)元數(shù)據(jù)服務(wù)器發(fā)生故障,則不能提供空間名字狀態(tài)的維護(hù)和提供服務(wù),這就會(huì)對(duì)上層文件系統(tǒng)的出入造成影響。基于此,若需要恢復(fù)數(shù)據(jù)的相關(guān)狀態(tài)信息,則需要重啟等待,但是此操作耗費(fèi)的時(shí)間較長(zhǎng)。同時(shí),也可以通過(guò)備份實(shí)現(xiàn)元數(shù)據(jù)信息的重新加載,保證元數(shù)據(jù)的完整性,在共享的存儲(chǔ)池節(jié)點(diǎn)熱備基礎(chǔ)上可以采用影子節(jié)點(diǎn)的方法,對(duì)不同的元數(shù)據(jù)服務(wù)器進(jìn)行熱備,采用專業(yè)的機(jī)械設(shè)備快速排除故障。
圖1 基于共享存儲(chǔ)池的節(jié)點(diǎn)熱備
綜上所述,大數(shù)據(jù)是我國(guó)當(dāng)前的互聯(lián)網(wǎng)發(fā)展形勢(shì),需要對(duì)以往的分布式文件系統(tǒng)進(jìn)行優(yōu)化,從而實(shí)現(xiàn)對(duì)數(shù)據(jù)文件信息的深化分析,也可以采用相關(guān)的技術(shù)手段避免操作故障,提升操作系統(tǒng)的穩(wěn)定性和可靠性,擴(kuò)展存儲(chǔ)空間。
[1]姜博.大數(shù)據(jù)分析的分布式MOLAP技術(shù)[J].通訊世界,2015(24):331-332.
[2]董守斌,趙鐵柱.面向搜索引擎的分布式文件系統(tǒng)性能分析[J].華南理工大學(xué)學(xué)報(bào):自然科學(xué)版,2011,39(4):7-14.
[3]宋杰,郭朝鵬,王智,等.大數(shù)據(jù)分析的分布式MOLAP技術(shù)[J].軟件學(xué)報(bào),2014,25(4):731-752.
[4]王鵬,黃焱,劉峰,等.大數(shù)據(jù)技術(shù)中計(jì)算與數(shù)據(jù)的協(xié)作機(jī)制[J].成都信息工程學(xué)院學(xué)報(bào),2014,29(1):1-12.