亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于隨機森林的高能物理數(shù)據(jù)放置策略

        2020-11-10 07:10:20程振京程耀東李海波胡慶寶
        計算機工程與應用 2020年21期
        關(guān)鍵詞:高能物理批處理硬盤

        程振京 ,程耀東,3,陳 剛,汪 璐,李海波 ,胡慶寶

        1.中國科學院 高能物理研究所,北京100049

        2.中國科學院大學,北京100049

        3.中國科學院 高能物理研究所 天府宇宙線研究中心,成都 610041

        1 引言

        隨著高海拔宇宙線觀測實驗LHAASO[1]、大亞灣及江門中微子實驗JUNO 等高能物理實驗建成運行和陸續(xù)建成,數(shù)據(jù)累積規(guī)模不斷擴大。超大規(guī)模的數(shù)據(jù)量對數(shù)據(jù)存儲的性能和效率提出了更高的要求。高能物理領(lǐng)域一般使用EOS[2]、Lustre[3]等分布式集群文件系統(tǒng),整合集群存儲空間,數(shù)據(jù)分散存儲在集群各個節(jié)點服務器上,對外提供統(tǒng)一的文件訪問服務。

        為了應對超大規(guī)模數(shù)據(jù)集的存儲和降低系統(tǒng)構(gòu)建成本、提供較好的訪問性能,集群系統(tǒng)一般使用統(tǒng)一命名空間的分級存儲架構(gòu),使用介質(zhì)包括傳統(tǒng)機械磁盤HDD 和固態(tài)硬盤SSD 等。在現(xiàn)有計算和存儲架構(gòu)上,大數(shù)據(jù)集在節(jié)點和存儲設(shè)備之間的移動會與性能和用戶體驗產(chǎn)生諸多負面影響。因此,合理的數(shù)據(jù)放置策略對于提升集群存儲系統(tǒng)效率非常重要。

        海量數(shù)據(jù)治理的公認最佳實踐是分類分級管理[4]。傳統(tǒng)的高能物理文件放置方法是根據(jù)文件內(nèi)容,對實驗原始數(shù)據(jù)、蒙特卡洛模擬數(shù)據(jù)和重建數(shù)據(jù)進行簡單分類。這種方式是基于規(guī)則的,非常依賴系統(tǒng)管理員和用戶的先驗知識[5]。文獻[6]利用文件已創(chuàng)建時間與訪問熱度之間的相關(guān)性完成文件放置,保持各存儲節(jié)點的負載均衡,但未考慮存儲節(jié)點異構(gòu)情況。文獻[7]考慮節(jié)點負載、節(jié)點硬件性能和網(wǎng)絡距離找到最佳文件副本放置節(jié)點,但未考慮文件的訪問特點和訪問場景。

        本文在這些方法的基礎(chǔ)上,提出了基于隨機森林算法的高能物理文件放置策略。綜合考慮訪問場景和訪問特點將文件劃分為兩類:交互式文件和批處理文件。相比于批處理文件,交互式文件隨機訪問占總體訪問的比例較大,讀寫帶寬和用戶體驗聯(lián)系更加緊密。數(shù)據(jù)放置過程中優(yōu)先將交互式文件放置在隨機IO性能更好的固態(tài)硬盤SSD 中,同時考慮各存儲設(shè)備當前負載情況。實驗結(jié)果表明,使用此算法可以在不升級擴容現(xiàn)有存儲節(jié)點和硬盤的情況下,優(yōu)化數(shù)據(jù)放置和用戶體驗,發(fā)揮固態(tài)硬盤的性能優(yōu)勢,同時維持各節(jié)點的負載均衡。

        2 相關(guān)工作

        2.1 高能物理計算模式

        典型的高能物理計算模式是從海量數(shù)據(jù)中挖掘出稀有事例。事例以文件形式存儲在分布式存儲系統(tǒng)中。基于上述特點,高能物理領(lǐng)域普遍采用集群文件系統(tǒng)以及計算和存儲分離的模式,如圖1所示。

        海量實驗數(shù)據(jù)存儲在I/O服務器中,通過EOS分布式存儲系統(tǒng)來管理,計算節(jié)點通過高速網(wǎng)絡從I/O 服務器中獲取數(shù)據(jù)[8]。中科院高能物理研究所計算中心開發(fā)了基于DNS負載均衡的前端登錄系統(tǒng)[9],提供大規(guī)模用戶登錄服務,作為用戶在計算和存儲集群的單一入口點。用戶在前端登錄節(jié)點可以進行數(shù)據(jù)文件檢查、計算程序調(diào)試、分析作業(yè)提交等交互式操作,存儲系統(tǒng)的數(shù)據(jù)訪問性能對于用戶使用體驗影響較大。后端計算集群通過作業(yè)調(diào)度系統(tǒng)統(tǒng)一調(diào)度和執(zhí)行用戶批處理計算作業(yè)。作業(yè)執(zhí)行時間受任務類型、CPU 主頻、I/O、網(wǎng)絡等因素共同影響。作業(yè)完成后,用戶將數(shù)據(jù)分析結(jié)果拷貝到個人計算機上做進一步分析,存儲系統(tǒng)的數(shù)據(jù)訪問性能對于用戶使用體驗影響相對較小。

        圖1 高能物理計算系統(tǒng)典型結(jié)構(gòu)

        2.2 EOS架構(gòu)及數(shù)據(jù)放置策略

        為了滿足PB 級甚至EB 級的高能物理數(shù)據(jù)存儲與分析壓力,歐洲核子中心CERN 于2010 年開發(fā)了EOS文件存儲系統(tǒng)。EOS 是一種基于xrootd 協(xié)議[10]框架實現(xiàn)的分布式并行文件系統(tǒng),采用基于內(nèi)存的元數(shù)據(jù)管理架構(gòu),節(jié)點支持條帶化、文件多副本,可擴展性較好。它提供較高的聚合I/O 帶寬,數(shù)據(jù)可以透明地在不同存儲池間轉(zhuǎn)儲,特別適合高能物理高吞吐量的計算模式,和其他傳統(tǒng)分布式文件系統(tǒng)相比具有很大優(yōu)勢。EOS 主要由元數(shù)據(jù)管理服務器(MGM)、消息隊列(MQ)和文件存儲服務器(FST)、客戶端四部分組成,如圖2所示。

        圖2 EOS典型架構(gòu)

        元數(shù)據(jù)服務器MGM管理文件系統(tǒng)的元數(shù)據(jù),維護數(shù)據(jù)條帶和文件位置等信息,并且提供命名空間、用戶配額、用戶認證等功能。文件存儲服務器FST使用本地文件系統(tǒng)存儲數(shù)據(jù)條帶,響應客戶端請求讀出或?qū)懭霐?shù)據(jù)。消息隊列MQ負責元數(shù)據(jù)管理服務器MGM和文件存儲服務器FST之間的信息同步,數(shù)據(jù)傳輸?shù)?。在EOS元數(shù)據(jù)服務器設(shè)計了存儲池(storage group),存儲池是一組存儲服務器FST 和本地文件系統(tǒng)目錄FS 的集合??梢詾槊總€存儲池配置不同的用戶配額、負載均衡策略、數(shù)據(jù)冗余、副本和糾刪碼級別等。實際應用中通常根據(jù)硬件性能劃分不同存儲池,對用戶提供透明、統(tǒng)一的文件訪問入口。

        EOS 中文件寫入過程如圖3 所示??蛻舳藢⒄埱蟀l(fā)給元數(shù)據(jù)服務器,元數(shù)據(jù)服務器收到請求后首先檢查用戶權(quán)限和文件邏輯路徑,如果成功則創(chuàng)建一條元數(shù)據(jù)記錄,包括用戶名uid、用戶組名gid、創(chuàng)建時間、訪問權(quán)限、邏輯路徑、文件名等,但不會記錄文件大小和文件在存儲集群中的物理路徑??蛻舳顺跏紩r先把文件寫入本地緩存,完成后再借助放置策略確定數(shù)據(jù)在存儲集群中的物理位置。最后客戶端和相應存儲服務器FST 建立連接,通過xrootd協(xié)議將文件或數(shù)據(jù)條帶寫入到各存儲設(shè)備中。

        圖3 EOS文件寫入過程

        3 改進的數(shù)據(jù)放置策略

        3.1 問題描述

        EOS 默認的文件放置策略是隨機選擇一個當前活躍的存儲池,通過GroupBalancer 組均衡程序選擇一個存儲服務器FST 和本地文件系統(tǒng)目錄FS,但只考慮了存儲空間利用率。高能物理實驗交互式訪問數(shù)據(jù)和批處理訪問數(shù)據(jù)(見2.1節(jié))混合放置在不同性能的存儲設(shè)備上,可能導致某些存儲設(shè)備比較空閑,造成存儲節(jié)點負載不均衡。

        3.2 策略基本思想

        EOS 在數(shù)據(jù)放置過程中沒有考慮高能物理數(shù)據(jù)訪問特點和訪問場景的差異。考慮EOS 使用的存儲設(shè)備既包含前期部署的基于SATA協(xié)議的廉價HDD盤,又包含后期擴展的基于PCIE等協(xié)議的高性能SSD盤,將存儲服務器FST和硬盤設(shè)備按照性能劃分為快慢兩種存儲池。

        改進的數(shù)據(jù)放置策略首先使用基于決策樹的隨機森林對文件訪問場景進行識別。決策樹[11]是一種無參數(shù)的有監(jiān)督學習模型,本質(zhì)上是從帶有標簽的訓練數(shù)據(jù)集中學習分類和決策規(guī)則。決策樹計算速度快,能處理訓練數(shù)據(jù)的離散值和連續(xù)值,訓練后的決策樹能夠生成在邏輯上解釋的規(guī)則,缺點是容易過擬合,對輸入噪聲和異常值敏感,準確率不高。隨機森林(Random Forest,RF)[12]是一種基于決策樹的集成模型,包含多棵決策樹的弱分類器,通過重采樣從原始訓練樣本集N中有放回地抽取n個樣本構(gòu)成新的訓練樣本集,進而訓練m棵決策樹,輸出的類別由個別樹輸出的類別的眾數(shù)而定。因此隨機森林有很好的抗噪聲和泛化能力。本文使用sklearn[13]數(shù)據(jù)挖掘和分析工具,在隨機森林訓練和推理過程中利用多核CPU 的并行計算能力,對于大規(guī)模數(shù)據(jù)集計算速度比較快,適合對于性能要求較高的存儲系統(tǒng)場景。

        如圖4 所示,在文件寫入本地緩存后,采集文件后綴名、文件大小、文件目錄、訪問權(quán)限、創(chuàng)建時間、文件所屬用戶uid、用戶組gid 等信息,經(jīng)過預處理、特征提取、One-hot編碼[14]作為隨機森林的輸入數(shù)據(jù)。隨機森林模型保存了文件訪問場景的識別規(guī)則。例如,同種訪問場景中的高能物理實驗數(shù)據(jù)往往文件格式一致,訪問權(quán)限相似,甚至共同的父級目錄等。

        圖4 基于隨機森林的文件放置框架結(jié)構(gòu)圖

        硬盤性能和IO負載是影響存儲節(jié)點數(shù)據(jù)寫入和讀出快慢的重要因素之一。隨機森林根據(jù)輸入將文件識別為交互式數(shù)據(jù)或批處理數(shù)據(jù),根據(jù)系統(tǒng)管理員事先定義的規(guī)則,分別存儲在快速存儲池和慢速存儲池中。存儲池的劃分標準主要考慮硬盤IOPS和吞吐量[15]。同時本文定義了IO 負載指標來衡量存儲設(shè)備的負載情況。在存儲池內(nèi)部選擇FST和硬盤時,綜合考慮所有服務器和硬盤的當前負載。負載指標可以用以下公式來表示:

        其中,avgqu表示服務器平均I/O隊列長度;svctm表示服務器平均每次I/O 請求的服務時間;util表示每個硬盤用于I/O操作時間的百分比;iowait表示CPU等待I/O請求時間的百分比。Linux中的top命令和iostat命令[16]主要用于監(jiān)控節(jié)點系統(tǒng)設(shè)備的I/O 負載情況,以時間段為單位提供了上述硬盤負載指標。改進的策略模型對同一存儲池內(nèi)所有服務器和硬盤的負載進行計算,選取負載最低的存儲位置。

        3.3 算法描述

        算法思想:針對高能物理計算和存儲模式,在文件創(chuàng)建時,從本地客戶端緩存寫入到集群存儲系統(tǒng)之前,根據(jù)文件元數(shù)據(jù)特征,識別為交互式訪問文件或批處理訪問文件,分別選擇合適的數(shù)據(jù)放置位置,提升數(shù)據(jù)訪問效率和用戶體驗。

        輸入:文件屬性信息,各節(jié)點和存儲設(shè)備空間利用率、負載指標等

        輸出:可以放置文件的FST節(jié)點和硬盤

        偽代碼如下:

        1.while(客戶端發(fā)出數(shù)據(jù)提交至存儲系統(tǒng)的請求){

        2.i(f在EOS中分離了快速和慢速存儲池){

        3.提取新創(chuàng)建文件元數(shù)據(jù)特征,包括文件名后綴、文件大小、文件路徑(各級目錄)、訪問權(quán)限、創(chuàng)建時間、文件所屬用戶uid、用戶組gid等

        4.if(已訓練隨機森林模型){

        5.文件元數(shù)據(jù)特征輸入隨機森林模型進行推理

        6.對文件進行分類,并轉(zhuǎn)至步驟10

        }

        7.else{

        8.根據(jù)用戶使用場景不同標記訓練數(shù)據(jù)

        9.離線訓練隨機森林模型,并轉(zhuǎn)至步驟4

        }

        10.根據(jù)文件類別選擇快速或慢速存儲池

        11.統(tǒng)計節(jié)點FST 空間利用率以及集群平均空間利用率

        12.從步驟11 中挑選空間利用率小于集群平均值的FST節(jié)點,計算節(jié)點下各存儲設(shè)備的IO負載,挑選負載最低的存儲設(shè)備作為文件存儲位置。算法結(jié)束

        }

        13.else{

        14.使用EOS原有數(shù)據(jù)放置策略,隨機選擇一個可用存儲池,根據(jù)存儲空間利用率選擇一個節(jié)點和硬盤存儲設(shè)備。算法結(jié)束

        }

        }

        4 實驗結(jié)果及分析

        4.1 實驗環(huán)境

        本文以中科院高能物理所部署的分布式集群存儲系統(tǒng)EOS 0.4.31[17]為基礎(chǔ),重寫了元數(shù)據(jù)服務器MGM中Scheduler 類,該類負責將新創(chuàng)建的文件從客戶端緩存?zhèn)鬏斨链鎯海J隨機選擇一個可用存儲池并調(diào)用GroupBalancer類,調(diào)用Strategy類選擇FST節(jié)點。繼承Strategy 類并重載了其中的FilePlacement 方法,增加了使用隨機森林推理文件類型的PredictFileCategory方法,同時增加了GetServerLoad和ChooseDisk方法,計算服務器和硬盤IO負載,選擇一個當前時間段(10 min)內(nèi)負載最低的存儲節(jié)點和硬盤。

        實驗環(huán)境配置如下:EOS的MGM元數(shù)據(jù)管理器操作系統(tǒng)選用centos7.4,通過虛擬機構(gòu)建了四個FST文件存儲服務器節(jié)點,根據(jù)硬盤介質(zhì)種類分別定義了快速和慢速兩個存儲池。fst01 和fst02 節(jié)點位于快速存儲池,分別配有兩塊240 GB固態(tài)硬盤SSD(SSD01-04)。fst03和fst04 節(jié)點位于慢速存儲池,分別配有兩塊2 TB 機械硬盤HDD(HDD01-04)。

        4.2 實驗結(jié)果分析

        在算法驗證中,以位于四川稻城的高海拔宇宙線觀測實驗LHAASO為例,針對2019年1月1日至2019年2月1日這一個月內(nèi)新創(chuàng)建的565 254個數(shù)據(jù)樣本文件作為訓練集。并根據(jù)文件創(chuàng)建后,數(shù)據(jù)訪問請求的主要來源(前端登錄節(jié)點或計算節(jié)點)標注不同訪問場景,包含交互式樣本文件80 135 個和批處理樣本文件485 099個,離線訓練隨機森林模型。文件大小介于十幾KB和GB之間。在測試中采集2019年2月2日這一天內(nèi)新創(chuàng)建的19 149個實驗數(shù)據(jù)文件樣本作為測試集,其中交互式文件樣本2 731 個,批處理文件樣本16 418 個。本文首先驗證隨機森林模型對高能物理實驗中產(chǎn)生的交互式訪問的數(shù)據(jù)和批處理訪問的數(shù)據(jù)分類和識別的準確率,如圖5所示。

        圖5 文件類別識別結(jié)果

        測試中分別使用了RF1(單棵決策樹)、RF7(集成7棵決策樹的隨機森林)、RF15、RF31、RF63、XGBoost(eXtreme Gradient Boosting)極端梯度提升樹、GBDT(Gradient Boosting Decision Tree)梯度下降樹、SVM支持向量機等模型。使用隨機森林對文件類別識別準確率最好能達到84%以上,超過了XGBoost、GBDT、SVM等機器學習分類模型。本文假設(shè)初始時各存儲節(jié)點都處于空載狀態(tài),硬盤空間使用也是從0開始。數(shù)據(jù)分布分別如圖6所示。

        使用EOS 原有放置策略(圖6(a)),LHAASO 交互式訪問的物理數(shù)據(jù)和批處理訪問的物理數(shù)據(jù)混合存儲在所有節(jié)點,固態(tài)硬盤SSD 和機械硬盤HDD 盤上數(shù)據(jù)分布幾乎無差異。使用改進的放置策略(圖6(b)),交互式訪問的數(shù)據(jù)集中存儲在fst01、fst02 節(jié)點以及掛載的固態(tài)硬盤SSD上,批處理訪問的數(shù)據(jù)集中存儲在fst03、fst04節(jié)點以及掛載的機械硬盤HDD上。

        圖6 原有策略和改進策略下數(shù)據(jù)在存儲節(jié)點的分布

        數(shù)據(jù)放置完成后集群存儲節(jié)點和硬盤空間使用率如圖7所示,可以看到,相比原有放置策略,改進放置策略提升了固態(tài)硬盤存儲池對于交互數(shù)據(jù)的空間使用率。由于固態(tài)硬盤不需要尋道,隨機讀寫速度快,能夠極大提升交互式數(shù)據(jù)操作效率和用戶使用體驗。改進放置策略同時保證了同一個存儲池內(nèi)部下各硬盤的負載均衡。

        圖7 原有策略和改進策略下集群空間使用率

        5 結(jié)束語

        高能物理一般使用分布式集群存儲系統(tǒng)來存放實驗產(chǎn)生的海量物理數(shù)據(jù)。傳統(tǒng)數(shù)據(jù)放置策略沒有考慮用戶不同訪問場景,也沒有考慮同時包含固態(tài)硬盤和機械硬盤的異構(gòu)存儲環(huán)境。針對上述問題,本文利用隨機森林模型提出了一種改進的數(shù)據(jù)放置策略,提取文件大小、文件路徑、權(quán)限、用戶id 等多個維度的數(shù)據(jù)原始特征,對文件創(chuàng)建后的讀寫訪問場景進行預測和識別,分別選取適合放置的存儲池和存儲節(jié)點、硬盤。實驗結(jié)果表明,改進的放置策略將交互式訪問數(shù)據(jù)放置在固態(tài)硬盤存儲池,批處理訪問數(shù)據(jù)放置在機械硬盤存儲池,能夠提升用戶交互式訪問體驗,發(fā)揮固態(tài)硬盤速度快和機械硬盤容量大的優(yōu)勢。目前以LHAASO為代表的高能物理實驗已積累超過8 200 萬個樣本文件,下一步的工作是在更大規(guī)模的樣本文件集中驗證算法的性能和有效性。同時在放置策略中考慮硬盤磨損程度和壽命,以減少數(shù)據(jù)放置時間和降低數(shù)據(jù)風險。

        猜你喜歡
        高能物理批處理硬盤
        國家高能物理科學數(shù)據(jù)安全保障體系
        基于智能機器學習的高能物理技術(shù)研究
        科技資訊(2024年24期)2024-02-09 00:00:00
        盛宴已經(jīng)結(jié)束
        HiFi級4K硬盤播放機 億格瑞A15
        Egreat(億格瑞)A10二代 4K硬盤播放機
        我區(qū)電視臺對硬盤播出系統(tǒng)的應用
        基于PSD-BPA的暫態(tài)穩(wěn)定控制批處理計算方法的實現(xiàn)
        批處理天地.文件分類超輕松
        批處理天地.批量為文件更名(續(xù))
        近代物理系的高能物理研究現(xiàn)狀
        物理(2008年8期)2008-08-25 10:08:06
        精品蜜臀国产av一区二区| 成年女人毛片免费视频| 欧美成人精品三级在线观看| 中文字幕精品乱码一二三区| 国产不卡在线视频观看| 亚洲av不卡一区二区三区| 精品国产网红福利在线观看| 日本黄色一区二区三区视频| 日本一区三区三区在线观看| 亚洲av无码专区在线播放| 福利一区在线观看| 一区二区三区四区四色av| 爆操丝袜美女在线观看| 特黄特色的大片观看免费视频| 色欲av一区二区久久精品| 国内精品久久人妻互换| 黄片视频免费在线观看国产| 日本免费一区二区三区| 国产午夜视频免费观看| 亚洲中文字幕一区二区三区多人| 精品av熟女一区二区偷窥海滩| 丰满少妇愉情中文字幕18禁片| 久久精品国产亚洲AV古装片| 亚洲av综合色一区二区| 中国老熟女重囗味hdxx| 六月丁香久久| 丝袜美腿诱惑一二三区| 久久成人成狠狠爱综合网| 人妻丰满熟妇av无码处处不卡| 无码 免费 国产在线观看91| 日本一区二区三区视频免费在线 | 国产又黄又爽视频| 亚洲美女av二区在线观看| 国产福利一区二区三区在线视频| 海角国精产品一区一区三区糖心 | 中文字幕乱码日本亚洲一区二区| 日韩毛片无码永久免费看 | 免费在线观看蜜桃视频| 国产精品一区二区黄色| 久久综合九色综合欧美狠狠| 久久精品成人91一区二区|