張娟
【摘 要】隨著我院GPU集群的引進,迫切需要構(gòu)建一個“優(yōu)異的存儲系統(tǒng)”,兩者共同建設(shè)一個“高速運算、高速通訊、高速存儲”的地震勘探系統(tǒng),解決長期困擾我院的勘探難題。本文通過Lustre技術(shù)研究,構(gòu)建一個Lustre并行存儲系統(tǒng),測試結(jié)果及生產(chǎn)應(yīng)用驗證了該系統(tǒng)與GPU集群是一個完美的匹配,疊前時間偏移等耗時的技術(shù)納入常規(guī)化,進行規(guī)?;a(chǎn),解決了我院油氣勘探復(fù)雜構(gòu)造成像難度大的的勘探難題。
【關(guān)鍵字】 Lustre;OSD;MDT
1 .引言
我院勘探任務(wù)主要在老區(qū),老區(qū)勘探程度高,勘探面臨的對象復(fù)雜,且新區(qū)勘探開發(fā)難度大,勘探現(xiàn)狀需要采用多項高端地球物理成像技術(shù),包括Kirchhoff疊前時間偏移、逆時偏移(RTM)等,有助于解決油氣勘探復(fù)雜構(gòu)造成像難度大的問題,運算時間長卻是長期困擾我院的難題,為此,我院引進了GPU集群,將疊前時間偏移等耗時的技術(shù)納入常規(guī)化,進行規(guī)模化生產(chǎn)。
GPU集群具有高速運算、高速通訊和高度穩(wěn)定的特征,要求高速存儲與之保持同步,建設(shè)一個“高速運算、高速通訊、高速存儲”地震勘探系統(tǒng),才能解決我院勘探難題。本文采取開源的高性能分布式并行文件系統(tǒng)Lustre和低延遲、高帶寬的InfiniBand網(wǎng)絡(luò)實現(xiàn)“高速存儲”,Lustre確保存儲系統(tǒng)的內(nèi)部數(shù)據(jù)的高速存取,InfiniBand確保存儲系統(tǒng)和GPU集群的高速數(shù)據(jù)通訊。
2 .技術(shù)研究
Lustre是應(yīng)用廣泛的開源性的集群分布式并行文件系統(tǒng),采用了數(shù)據(jù)和元數(shù)據(jù)分離技術(shù)、智能存儲技術(shù)和高速區(qū)域網(wǎng)技術(shù),由OSD、MDD和client組成, OSD負責(zé)實際對象數(shù)據(jù)的存儲及智能管理,多個OSD以并行的方式被直接的訪問,增加更多的OSD會增加存儲的容量,同時線性增加數(shù)據(jù)吞吐量。MDD管理整個系統(tǒng)的命名空間、控制client與 OSD 上對象的交互,client和OSD直接進行實際對象數(shù)據(jù)的交互。client在需要訪問文件系統(tǒng)的文件數(shù)據(jù)時,先訪問MDS,獲取文件相關(guān)的元數(shù)據(jù)信息,然后就直接和相關(guān)的OSD通信,取得文件的實際數(shù)據(jù)。通過子網(wǎng)LNET實現(xiàn)文件系統(tǒng)的內(nèi)部通訊。MDS、OSS和Client通過InfiniBand高速網(wǎng)相互通訊,連接成一個“高速存儲”的Lustre并行存儲系統(tǒng)。
2.1 OSD
OSD是一種網(wǎng)絡(luò)存儲磁盤設(shè)備,它有自己的磁盤、處理器、RAM存儲器和網(wǎng)絡(luò)接口。OSD用其自身的存儲器和處理器優(yōu)化磁盤的數(shù)據(jù)分布并從磁盤預(yù)取數(shù)據(jù)。
OSD由OSS和OST構(gòu)成,OSS提供了文件I/O服務(wù)和用來處理一個或多個當?shù)豋ST的網(wǎng)絡(luò)請求。每個OSS節(jié)點可以有多個OST。OST負責(zé)實際數(shù)據(jù)的存儲,處理所有客戶端和物理存儲之間的交互。OST和實際的物理存儲設(shè)備之間通過設(shè)備驅(qū)動方式來實現(xiàn)交互。通過驅(qū)動程式的作用,Lustre能繼承新的物理存儲技術(shù)及文件系統(tǒng),實現(xiàn)對物理存儲設(shè)備的擴展。
2.2 MDD
MDD存儲了文件系統(tǒng)的基本信息,負責(zé)管理整個系統(tǒng)的命名空間,維護整個文件系統(tǒng)的目錄結(jié)構(gòu)、用戶權(quán)限,并負責(zé)維護文件系統(tǒng)數(shù)據(jù)的一致性。
MDD由MDS和MDT構(gòu)成。Client通過MDS讀取保存到MDT上的元數(shù)據(jù),得到文件信息,從OSS中得到數(shù)據(jù)。通過MDS的文件和目錄訪問管理,Lustre能夠控制Client對文件系統(tǒng)中文件和目錄的創(chuàng)建、刪除、修改,控制Client與 OSD 上對象的交互。
2.3 Client
Client通常是典型的集群計算節(jié)點,它們運行Lustre客戶端軟件并通過以太網(wǎng)或InfiniBand與Lustre 服務(wù)器進行通信??蛻舳塑浖蒐ustre服務(wù)器和運行在計算節(jié)點上的應(yīng)用程序之間的接口組成。為了使計算節(jié)點能夠直接從OSD讀、寫對象,必須配置一個文件系統(tǒng)。
2.4 Lustre
Lustre文件系統(tǒng)為其上層的應(yīng)用提供一個透明的POSIX接口,它允許應(yīng)用去執(zhí)行標準的文件系統(tǒng)操作。文件系統(tǒng)在Client計算節(jié)點上為輸入的數(shù)據(jù)提供Caching以補充 OSD中的Cache。文件系統(tǒng)在每個對象的基礎(chǔ)上處理跨越多個OSD的對象的條帶。由于對象以并行的方式讀寫,條帶的寬度將直接與對象的帶寬相關(guān)。
2.5 Network
Lustre并行存儲系統(tǒng)是由LNET守護進程來控制網(wǎng)絡(luò)環(huán)境,Client通過LNET協(xié)議和MDS/OSS通信。通過Infiniband和客戶端計算節(jié)點、OSD、MDD進行物理互聯(lián),Infiniband體系架構(gòu)( IBA)的本質(zhì)是把網(wǎng)絡(luò)技術(shù)引入I/O體系之中,形成一個“I/O交換網(wǎng)”。IBA物理構(gòu)建減少了傳輸過程中對CPU的使用,硬件承擔許多I/O通信操作,減輕了CPU的負擔。因此,多個進程同時通信時,沒有相關(guān)的管理開銷,這是與現(xiàn)有通訊協(xié)議的一個主要不同之處。為了更好地支持現(xiàn)有網(wǎng)絡(luò),Infiniband使用IPOIB提供了對IP網(wǎng)絡(luò)的支持。
3.構(gòu)建Lustre存儲系統(tǒng)
在GPU集群的1個管理節(jié)點和9個計算節(jié)點上安裝Lustre客戶端,作為Lustre并行存儲系統(tǒng)的客戶端,使用5臺OSD、1臺MDD和Infiniband交換機共同構(gòu)成140TB(裸盤)的Lustre并行存儲系統(tǒng),可用存儲110TB。
3.1配置安裝
存儲系統(tǒng)的OSD、MDD、Client都安裝Lustre支持的Centos5.6 X86_64操作系統(tǒng),存儲節(jié)點gfs01(MDD)包含兩個磁盤,sda為操作系統(tǒng)盤,sdb上100G分區(qū)作為mdt元數(shù)據(jù)存儲盤。gfs02-gfs06(OSD)等5個存儲節(jié)點都有兩個磁盤,sda為操作系統(tǒng)盤,sdb分出三個8T分區(qū)為OST數(shù)據(jù)存儲盤。在gpu00-gpu09等GPU集群節(jié)點上實現(xiàn)存儲系統(tǒng)的Client,安裝Lustre文件系統(tǒng)客戶端程序,并掛載Lustre文件系統(tǒng)。OSD、MDD、Client都需要經(jīng)過內(nèi)核編譯、驅(qū)動安裝與軟件安裝配置等實現(xiàn)并行存儲系統(tǒng)。
主要配置安裝內(nèi)容如下:
(1)內(nèi)核編譯:將lustre文件系統(tǒng)主程序及Infiniband驅(qū)動編譯進內(nèi)核,以保證文件系統(tǒng)在高負荷運行情況下穩(wěn)定使用。
(2)驅(qū)動安裝:陣列卡驅(qū)動在內(nèi)核編譯時已被自動加載進去。以下是Infiniband網(wǎng)口驅(qū)動配置內(nèi)容。
(3)軟件安裝:lustre軟件包和內(nèi)核版本有非常嚴格的對應(yīng)關(guān)系,根據(jù)實際內(nèi)核版本選擇軟件包。內(nèi)核編譯包括lustre主程序和lustre內(nèi)置文件系統(tǒng)軟件ldiskfs。
(4)格式化用軟件工具e2fsprogs。
(5)系統(tǒng)配置:Lustre文件存儲系統(tǒng)是由LNET守護進程來控制網(wǎng)絡(luò)環(huán)境,LNET是Lustre的網(wǎng)絡(luò)子系統(tǒng)。通過修改/etc/modprobe.conf文件配置LNET參數(shù)。
(6)MDT、OST和Client的創(chuàng)建。
3.2性能測試
1個客戶端讀寫數(shù)據(jù)時,文件系統(tǒng)讀寫速度可達到999MB/s。
2個客戶端同時讀寫同一個數(shù)據(jù)時,總速度可達1924MB/s,每個客戶端讀寫速率在511MB/s與987MB/s之間,隨著客戶端數(shù)目增加,幾乎感受不到彼此的操作,反映了lustre并行存儲系統(tǒng)優(yōu)異的并行性能。
對我院某地區(qū)達330平方公里三維逆時偏移處理測試,分選12TB輸出數(shù)據(jù),抽取道集,只用了不到5小時完成,證明數(shù)據(jù)存儲的方式是合理的,合并數(shù)據(jù)的效率可以達到應(yīng)用要求。
3.3 生產(chǎn)應(yīng)用
我院某地區(qū)逆時偏移項目:處理炮數(shù)49680、面積220km2、深度 12000米;處理前的原始數(shù)據(jù)2.4TB,過程數(shù)據(jù)48TB;該并行存儲系統(tǒng)中所有Client參與處理,所有存儲設(shè)備參與存取,逆時偏移耗時7天。
4.結(jié)論
lustre并行存儲系統(tǒng)的研究構(gòu)建、性能測試及生產(chǎn)應(yīng)用表明,該系統(tǒng)與GPU集群是一個完美的匹配,為我院建設(shè)了一個“高速運算、高速通訊、高速存儲”地震勘探系統(tǒng),疊前時間偏移等耗時的技術(shù)納入常規(guī)化,進行規(guī)?;a(chǎn),解決了長期困擾我院的勘探難題。
參考文獻:
[1]聶剛,卿秀華.基于對象存儲的Lustre文件系統(tǒng)的研究[J].信息技術(shù).2007(09).
[2]賈志國,趙青蘋,董小社,吳維剛.InfiniBand:一種新型的高速互連網(wǎng)絡(luò)[J].計算機工程與應(yīng)用.2003(09).
[3]張曉波.基于高性能集群計算的并行文件系統(tǒng)關(guān)鍵技術(shù)研究[D].西安電子科技大學(xué) 2011.
[4]董勇,周恩強,陳娟.基于Infiniband技術(shù)構(gòu)建高性能分布式文件系統(tǒng)-Lustre.計算機工程與應(yīng)用2005.
[5]錢迎進.大規(guī)模Lustre集群文件系統(tǒng)關(guān)鍵技術(shù)的研究.國防科學(xué)技術(shù)大學(xué)2011.