亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        Hadoop平臺數(shù)據(jù)訪問監(jiān)控機(jī)制研究

        2014-08-04 02:37:44王玉鳳梁毅金翊李光瑞
        計算機(jī)工程與應(yīng)用 2014年22期
        關(guān)鍵詞:監(jiān)控物理節(jié)點

        王玉鳳,梁毅,金翊,李光瑞

        1.北京工業(yè)大學(xué)計算機(jī)學(xué)院,北京 100124

        2.北京市計算中心,北京 100094

        Hadoop平臺數(shù)據(jù)訪問監(jiān)控機(jī)制研究

        王玉鳳1,梁毅1,金翊2,李光瑞1

        1.北京工業(yè)大學(xué)計算機(jī)學(xué)院,北京 100124

        2.北京市計算中心,北京 100094

        WANG Yufeng,LIANG Yi,JIN Yi,et al.Data access monitoring mechanism in Hadoop platform.Computer Engineering and Applications,2014,50(22):43-49.

        1 引言

        全球信息化推動大數(shù)據(jù)時代的到來。海量數(shù)據(jù)處理技術(shù)在網(wǎng)絡(luò)服務(wù)、科學(xué)計算、生物工程等各個領(lǐng)域得到廣泛應(yīng)用[1-4]。Hadoop開源數(shù)據(jù)處理平臺是海量數(shù)據(jù)處理領(lǐng)域的最新技術(shù)進(jìn)展,提供新型Map/Reduce并行計算模型及其運(yùn)行時環(huán)境[5-7]。Hadoop平臺中Map/Reduce并行作業(yè)可由多個Map任務(wù)和Reduce任務(wù)組成。Map任務(wù)首先完成輸入數(shù)據(jù)的形變或過濾,然后Reduce任務(wù)完成數(shù)據(jù)歸約。

        數(shù)據(jù)訪問監(jiān)控是海量數(shù)據(jù)處理平臺保障數(shù)據(jù)可用和優(yōu)化數(shù)據(jù)存取效率的主要依據(jù)[4]。與傳統(tǒng)數(shù)據(jù)處理平臺相比,Hadoop平臺所提供的運(yùn)行時環(huán)境支持海量數(shù)據(jù)基于計算節(jié)點分布存儲,Map任務(wù)調(diào)度通過感知數(shù)據(jù)的分布信息實現(xiàn)數(shù)據(jù)本地化處理,從而提高作業(yè)執(zhí)行效率[5]。顯然,數(shù)據(jù)分布和訪問情況成為了Hadoop平臺中任務(wù)調(diào)度需考慮的影響因素,這使得Hadoop平臺中數(shù)據(jù)不僅作為存儲對象存在,還成為任務(wù)調(diào)度需感知的資源。因此,本文提出Hadoop平臺中數(shù)據(jù)訪問監(jiān)控不僅服務(wù)于數(shù)據(jù)存取效率的提升,還應(yīng)服務(wù)于Map/Reduce并行作業(yè)執(zhí)行效率提升的基本思想。同時,在Map/Reduce作業(yè)中,Map任務(wù)處理的數(shù)據(jù)規(guī)模往往占有較大比例[8]。因此,本文的工作主要圍繞Hadoop平臺中Map任務(wù)數(shù)據(jù)訪問監(jiān)控機(jī)制展開,提出了服務(wù)于并行作業(yè)執(zhí)行效率的目標(biāo),Hadoop平臺數(shù)據(jù)訪問監(jiān)控應(yīng)增加對并行執(zhí)行的多Map任務(wù)數(shù)據(jù)訪問開銷均衡性的監(jiān)控。本文的主要貢獻(xiàn)如下:

        (1)定義了Hadoop平臺數(shù)據(jù)訪問監(jiān)控的粒度和監(jiān)控信息的組成。以物理數(shù)據(jù)塊作為數(shù)據(jù)訪問監(jiān)控的基本粒度,監(jiān)控信息主要包括物理數(shù)據(jù)塊靜態(tài)屬性信息、物理數(shù)據(jù)塊動態(tài)訪問事件信息、邏輯文件塊訪問熱度信息和文件訪問并行度及均衡度信息。其中,文件訪問并行度及均衡度信息體現(xiàn)了并行執(zhí)行的多Map任務(wù)數(shù)據(jù)訪問開銷的均衡性。

        (2)給出了Hadoop平臺數(shù)據(jù)訪問監(jiān)控體系結(jié)構(gòu)。依托Hadoop平臺現(xiàn)有結(jié)構(gòu),采用基于master-slave結(jié)構(gòu),由一個用于數(shù)據(jù)訪問監(jiān)控信息匯總與統(tǒng)計的功能模塊(master)和多個具有監(jiān)控信息收集能力的功能模塊(slave)構(gòu)成。slave模塊進(jìn)行物理數(shù)據(jù)塊靜態(tài)屬性信息和物理數(shù)據(jù)塊動態(tài)訪問事件信息收集;master模塊進(jìn)行slave模塊收集信息的匯總,統(tǒng)計形成邏輯文件塊訪問熱度信息和文件訪問并行度及均衡度信息,并實現(xiàn)對上述信息的存儲。

        (3)給出了Hadoop平臺數(shù)據(jù)訪問監(jiān)控機(jī)制具體實現(xiàn)技術(shù)。通過對Hadoop源代碼進(jìn)行插樁,以在Hadoop已有框架上增加新的線程的形式實現(xiàn)各監(jiān)控功能模塊;監(jiān)控信息收集線程基于socket通信,周期性將監(jiān)控信息發(fā)送到監(jiān)控信息匯總與統(tǒng)計線程;并給出邏輯文件塊訪問熱度信息和文件訪問并行度及均衡度信息的統(tǒng)計計算方法。

        2 Hadoop平臺數(shù)據(jù)訪問需求分析

        圖1給出了傳統(tǒng)平臺與Hadoop平臺架構(gòu)的差異。傳統(tǒng)數(shù)據(jù)處理平臺中,數(shù)據(jù)基于后端存儲集中存放,計算資源和存儲資源在部署和管理上相對獨立。調(diào)度模塊根據(jù)作業(yè)對計算資源的需求進(jìn)行任務(wù)調(diào)度。而Hadoop平臺中數(shù)據(jù)基于計算節(jié)點分布存儲,任務(wù)調(diào)度不僅需要獲取計算資源的狀態(tài)信息,而且需要通過感知數(shù)據(jù)的分布信息,來實現(xiàn)數(shù)據(jù)的本地化處理,進(jìn)而提升Map/Reduce并行作業(yè)的執(zhí)行效率。這意味著Hadoop平臺中數(shù)據(jù)不僅是存儲對象,還應(yīng)作為調(diào)度資源存在。因此,Hadoop平臺中數(shù)據(jù)訪問監(jiān)控信息不僅服務(wù)于數(shù)據(jù)存取效率(如數(shù)據(jù)訪問響應(yīng)時間等)的提升,還應(yīng)服務(wù)于任務(wù)調(diào)度需求,提升Map/Reduce并行作業(yè)執(zhí)行效率(如作業(yè)響應(yīng)時間等)。

        圖1 傳統(tǒng)數(shù)據(jù)處理平臺與Map/Reduce數(shù)據(jù)處理平臺架構(gòu)比較

        如圖2所示,Hadoop平臺中Map/Reduce作業(yè)的數(shù)據(jù)處理過程被抽象為Map和Reduce階段。其中,Map任務(wù)處理的數(shù)據(jù)規(guī)模往往占有較大比例,而Reduce階段以Map階段處理結(jié)果作為輸入數(shù)據(jù),需等待所有Map任務(wù)結(jié)束后才開始執(zhí)行。而大數(shù)據(jù)場景下,數(shù)據(jù)讀取開銷往往占據(jù)Map任務(wù)執(zhí)行時間的相當(dāng)比重,這使得均衡的數(shù)據(jù)訪問開銷成為保障并行執(zhí)行的多Map任務(wù)執(zhí)行效率的對稱性,減少后續(xù)Reduce任務(wù)啟動等待時間,進(jìn)而提升Map/Reduce作業(yè)執(zhí)行效率的關(guān)鍵因素之一。圖3給出示例,雖然(a)、(b)方案具有相同的數(shù)據(jù)訪問平均響應(yīng)時間,但在(a)方案中,由于隸屬于同一作業(yè)的多個并行Map任務(wù)數(shù)據(jù)訪問開銷存在差異,導(dǎo)致其Map/Reduce并行作業(yè)執(zhí)行效率低于方案(b)。

        圖2 Hadoop平臺并行計算模型

        因此,在Hadoop平臺數(shù)據(jù)訪問監(jiān)控中,應(yīng)增加對并行執(zhí)行的多Map任務(wù)數(shù)據(jù)訪問開銷均衡性信息的監(jiān)控,以滿足數(shù)據(jù)作為調(diào)度資源這一新角色的需求。

        圖3 Map任務(wù)數(shù)據(jù)訪問開銷均衡性對作業(yè)執(zhí)行效率的影響

        3 Hadoop平臺數(shù)據(jù)訪問監(jiān)控信息的組成與定義

        通常而言,數(shù)據(jù)處理平臺的數(shù)據(jù)訪問監(jiān)控信息包含兩類:數(shù)據(jù)靜態(tài)屬性信息和數(shù)據(jù)動態(tài)訪問信息。其中,數(shù)據(jù)靜態(tài)屬性信息主要包括數(shù)據(jù)的存儲、歸屬等靜態(tài)配置信息;數(shù)據(jù)動態(tài)訪問信息則包含平臺運(yùn)行時數(shù)據(jù)動態(tài)訪問事件相關(guān)的信息。各類數(shù)據(jù)處理平臺根據(jù)其不同的服務(wù)目標(biāo),定義數(shù)據(jù)訪問監(jiān)控的粒度以及上述兩類監(jiān)控信息的具體組成。

        在Hadoop平臺中,任一文件由多個邏輯文件塊組成,每個邏輯文件塊在物理存儲上對應(yīng)多個互為副本的物理數(shù)據(jù)塊(通常以獨立小文件的形式存放)。Hadoop平臺中,作業(yè)通常以全文件為單位進(jìn)行數(shù)據(jù)處理(即需要處理一個數(shù)據(jù)文件中的全部數(shù)據(jù)),而構(gòu)成作業(yè)的多個Map任務(wù)通常處理文件所包含的一個或多個物理數(shù)據(jù)塊。在這種文件組織結(jié)構(gòu)和訪問模式下,本文選擇物理數(shù)據(jù)塊作為數(shù)據(jù)訪問監(jiān)控的基本粒度。

        以物理數(shù)據(jù)塊為基本粒度,數(shù)據(jù)靜態(tài)屬性信息被定義為物理數(shù)據(jù)塊的靜態(tài)屬性信息,主要包括物理數(shù)據(jù)塊所屬文件信息和物理數(shù)據(jù)塊的存儲節(jié)點信息。上述信息可滿足在優(yōu)化平臺數(shù)據(jù)存取效率及作業(yè)執(zhí)行效率時,對基本數(shù)據(jù)存儲單元以及數(shù)據(jù)處理單元的快速定位。

        服務(wù)于提升數(shù)據(jù)存取效率和作業(yè)執(zhí)行效率的目標(biāo),對數(shù)據(jù)動態(tài)訪問信息的定義包含三個部分:物理數(shù)據(jù)塊動態(tài)訪問事件信息、邏輯文件塊訪問熱度信息以及文件訪問并行度及均衡度信息。其中,物理數(shù)據(jù)塊動態(tài)訪問事件信息是指Map任務(wù)對物理數(shù)據(jù)塊的一次訪問所包含的信息。物理數(shù)據(jù)塊動態(tài)訪問事件信息作為數(shù)據(jù)訪問的基礎(chǔ)監(jiān)控信息,為其他兩類數(shù)據(jù)動態(tài)訪問信息的監(jiān)控提供依據(jù)。邏輯文件塊訪問熱度信息則是在物理數(shù)據(jù)塊動態(tài)訪問事件信息的基礎(chǔ)上,通過統(tǒng)計邏輯文件塊所對應(yīng)多個物理數(shù)據(jù)塊副本被訪問次數(shù)的均值和方差獲得。邏輯文件塊訪問熱度信息可服務(wù)于提升數(shù)據(jù)存取效率,為定位數(shù)據(jù)訪問瓶頸提供依據(jù)。

        數(shù)據(jù)動態(tài)訪問信息中的文件訪問并行度及均衡度信息則服務(wù)于Hadoop平臺提升作業(yè)執(zhí)行效率的新需求。文件訪問并行度信息被定義為文件所包含的物理數(shù)據(jù)塊被Map/Reduce作業(yè)所包含的Map任務(wù)并發(fā)訪問的數(shù)量。文件訪問均衡度信息則被定義為Hadoop平臺中作業(yè)所包含多個并行執(zhí)行的Map任務(wù)對物理數(shù)據(jù)塊訪問開銷的方差。根據(jù)定義可知,通過對文件訪問均衡度的監(jiān)控,可感知Map/Reduce作業(yè)中Map任務(wù)數(shù)據(jù)訪問開銷的差異,定位影響Map任務(wù)并行執(zhí)行效率的文件;而通過文件訪問并行度的監(jiān)控,則為物理數(shù)據(jù)塊的重分布等優(yōu)化方案提供量化依據(jù),進(jìn)而提升Map/Reduce并行作業(yè)的執(zhí)行效率。

        4 Hadoop平臺數(shù)據(jù)訪問監(jiān)控體系結(jié)構(gòu)

        Hadoop平臺由一個管理節(jié)點(master)節(jié)點和多個計算節(jié)點(slave)組成。Hadoop平臺中的海量數(shù)據(jù)管理是由NameNode模塊和DataNode模塊完成的。其中,NameNode模塊部署于管理節(jié)點,負(fù)責(zé)數(shù)據(jù)文件元數(shù)據(jù)信息的存儲和管理,DataNode模塊則駐留在各計算節(jié)點,負(fù)責(zé)本地數(shù)據(jù)的存儲并實現(xiàn)數(shù)據(jù)塊的讀、寫操作。

        圖4給出Hadoop平臺數(shù)據(jù)訪問監(jiān)控的體系結(jié)構(gòu)以及與Hadoop平臺既有模塊間的交互關(guān)系。其中,白色方框模塊表示數(shù)據(jù)訪問監(jiān)控相關(guān)模塊,灰色方框模塊則表示Hadoop平臺的既有模塊(為使圖4更簡潔明了現(xiàn)有Hadoop平臺中既有模塊間通信并沒有在圖中給出)。由圖4可知,Hadoop平臺數(shù)據(jù)訪問監(jiān)控采用master-slave結(jié)構(gòu),即由一個用于數(shù)據(jù)訪問監(jiān)控信息匯總與統(tǒng)計的功能模塊和多個具有監(jiān)控信息收集能力的功能模塊構(gòu)成[9]。其中,監(jiān)控信息收集模塊的主要功能是獲取物理數(shù)據(jù)塊的靜態(tài)屬性信息和物理數(shù)據(jù)塊的動態(tài)訪問事件信息;數(shù)據(jù)訪問監(jiān)控信息匯總與統(tǒng)計模塊的主要功能包括匯總監(jiān)控信息收集模塊收集的信息,統(tǒng)計形成邏輯文件塊訪問熱度信息和文件訪問并行度及均衡度信息,并實現(xiàn)對上述信息的存儲。

        圖4 Hadoop平臺數(shù)據(jù)訪問監(jiān)控體系結(jié)構(gòu)

        在實際部署中,監(jiān)控信息收集模塊部署于管理節(jié)點及所有計算節(jié)點上。部署于管理節(jié)點的監(jiān)控信息收集模塊負(fù)責(zé)與NameNode模塊交互,周期性獲取物理數(shù)據(jù)塊靜態(tài)屬性信息,并將信息發(fā)送到數(shù)據(jù)訪問監(jiān)控信息匯總與統(tǒng)計模塊。部署于各計算節(jié)點的監(jiān)控信息收集模塊則負(fù)責(zé)與該節(jié)點上的DataNode模塊交互,實時收集Map任務(wù)對物理數(shù)據(jù)塊的動態(tài)訪問事件信息,并將數(shù)據(jù)塊動態(tài)訪問事件信息周期性地發(fā)送到數(shù)據(jù)訪問監(jiān)控信息匯總與統(tǒng)計模塊。數(shù)據(jù)訪問監(jiān)控信息匯總與統(tǒng)計模塊可部署于管理節(jié)點或獨立的第三方節(jié)點,數(shù)據(jù)訪問監(jiān)控信息匯總與統(tǒng)計模塊接收各監(jiān)控信息收集模塊發(fā)送的信息,并以物理數(shù)據(jù)塊靜態(tài)屬性信息和物理數(shù)據(jù)塊動態(tài)訪問事件信息為依據(jù),統(tǒng)計形成邏輯文件塊訪問熱度信息和文件訪問并行度及均衡度信息;數(shù)據(jù)訪問監(jiān)控信息匯總與統(tǒng)計模塊將收集所得以及統(tǒng)計所得的監(jiān)控信息以獨立文件的形式存儲于監(jiān)控信息庫中。

        5 Hadoop平臺數(shù)據(jù)訪問監(jiān)控的具體實現(xiàn)

        5.1 數(shù)據(jù)訪問監(jiān)控信息的描述形式

        本文設(shè)計的Hadoop平臺數(shù)據(jù)訪問監(jiān)控中的監(jiān)控信息,包括物理數(shù)據(jù)塊靜態(tài)屬性信息、物理數(shù)據(jù)塊動態(tài)訪問事件信息、邏輯文件塊訪問熱度信息和文件訪問并行度及均衡度信息,分別以獨立文件的形式存儲于監(jiān)控信息庫中。以下給出各類監(jiān)控信息的描述形式。

        (1)物理數(shù)據(jù)塊靜態(tài)屬性信息

        物理數(shù)據(jù)塊靜態(tài)屬性信息以四元組<TimeStamp, File,BlockID,Host>描述。其中TimeStamp為時間戳,即獲取物理數(shù)據(jù)塊靜態(tài)屬性信息的時刻點,F(xiàn)ile為物理數(shù)據(jù)塊從屬文件路徑信息,BlockID為物理數(shù)據(jù)塊對應(yīng)邏輯文件塊的標(biāo)識信息,Host為物理數(shù)據(jù)塊所在計算節(jié)點IP信息。

        (2)物理數(shù)據(jù)塊動態(tài)訪問事件信息

        物理數(shù)據(jù)塊動態(tài)訪問事件信息以六元組<StartTime,EndTime,BlockID,Host,TaskID,JobID>描述。其中StartTime、EndTime均為時間戳,分別表示Map任務(wù)開始訪問物理數(shù)據(jù)塊和結(jié)束訪問物理數(shù)據(jù)塊的時刻點,BlockID為物理數(shù)據(jù)塊對應(yīng)邏輯文件塊的標(biāo)識信息,Host為物理數(shù)據(jù)塊所在計算節(jié)點IP信息,TaskID為Map任務(wù)的標(biāo)識信息,JobID為Map任務(wù)從屬的Map/ Reduce作業(yè)的標(biāo)識信息。

        (3)邏輯文件塊訪問熱度信息

        邏輯文件塊訪問熱度信息以五元組<TimeStamp,F(xiàn)ile,BlockID,Mean,Variance>描述。其中TimeStamp為時間戳,即記錄邏輯文件塊訪問熱度信息的時刻點,F(xiàn)ile為邏輯文件塊所屬文件路徑信息,BlockID為邏輯文件塊的標(biāo)識信息,Mean為邏輯文件塊所對應(yīng)多個物理數(shù)據(jù)塊副本被訪問次數(shù)均值信息,Variance為邏輯文件所對應(yīng)多個物理數(shù)據(jù)塊副本被訪問次數(shù)方差信息。

        (4)文件訪問并行度及均衡度信息

        文件訪問并行度及均衡度信息以四元組<TimeStamp,F(xiàn)ile,ParallelismDegree,BalanceDegree>描述。其中TimeStamp為時間戳,即記錄文件訪問并行度及均衡度信息的時刻點,F(xiàn)ile為文件路徑信息,ParallelismDegree為文件訪問并行度信息,BalanceDegree為文件訪問均衡度信息。

        5.2 監(jiān)控信息收集模塊

        監(jiān)控信息收集模塊部署于管理節(jié)點及所有計算節(jié)點上,分別實現(xiàn)收集物理數(shù)據(jù)塊靜態(tài)屬性信息和物理數(shù)據(jù)塊動態(tài)訪問事件信息的功能。

        (1)收集物理數(shù)據(jù)塊靜態(tài)屬性信息

        Hadoop平臺中數(shù)據(jù)文件的元數(shù)據(jù)信息主要包括文件包含的物理數(shù)據(jù)塊信息,不同計算節(jié)點擁有的物理數(shù)據(jù)塊信息。元數(shù)據(jù)信息由NameNode模塊負(fù)責(zé)存儲和管理。物理數(shù)據(jù)塊靜態(tài)屬性信息收集模塊、NameNode模塊均表現(xiàn)為獨立的線程。NameNode線程啟動時,實例化物理數(shù)據(jù)塊靜態(tài)屬性信息收集線程,之后物理數(shù)據(jù)塊靜態(tài)屬性信息收集線程開始執(zhí)行。物理數(shù)據(jù)塊靜態(tài)屬性信息收集線程周期性從NameNode線程拉取物理數(shù)據(jù)塊靜態(tài)屬性信息,并使用socket通信機(jī)制將物理數(shù)據(jù)塊靜態(tài)屬性信息發(fā)送到數(shù)據(jù)訪問監(jiān)控信息匯總與統(tǒng)計模塊。

        (2)收集物理數(shù)據(jù)塊動態(tài)訪問事件信息

        Map任務(wù)在訪問物理數(shù)據(jù)塊時,建立與特定DataNode模塊的socket連接,然后進(jìn)行數(shù)據(jù)傳輸。為抓取物理數(shù)據(jù)塊的動態(tài)訪問事件信息,在DataNode模塊接收到讀物理數(shù)據(jù)塊請求時,在現(xiàn)有讀物理數(shù)據(jù)塊操作執(zhí)行前,首先將物理數(shù)據(jù)塊動態(tài)訪問事件信息發(fā)送給物理數(shù)據(jù)塊動態(tài)訪問事件信息收集模塊。物理數(shù)據(jù)塊動態(tài)訪問事件信息收集模塊、DataNode模塊均以線程的方式運(yùn)行。DataNode線程啟動時實例化物理數(shù)據(jù)塊動態(tài)訪問事件信息收集線程,之后物理數(shù)據(jù)塊動態(tài)訪問事件信息收集線程開始執(zhí)行。DataNode線程將物理數(shù)據(jù)塊動態(tài)訪問事件信息實時發(fā)送到物理數(shù)據(jù)塊動態(tài)訪問事件信息收集線程,物理數(shù)據(jù)塊動態(tài)訪問事件信息收集線程使用socket通信機(jī)制周期性地將物理數(shù)據(jù)塊動態(tài)訪問事件信息發(fā)送到數(shù)據(jù)訪問監(jiān)控信息匯總與統(tǒng)計模塊。

        由于DataNode線程提供的訪問物理數(shù)據(jù)塊的接口不只服務(wù)于Map任務(wù)讀取輸入數(shù)據(jù)的操作,對于其他讀取物理數(shù)據(jù)塊的操作,如讀取運(yùn)行作業(yè)的jar文件、xml文件和split文件,均通過相同的接口完成。因此,需要區(qū)分不同的讀物理數(shù)據(jù)塊操作,只抓取Map任務(wù)執(zhí)行時讀取輸入數(shù)據(jù)的操作。采用的方法為針對每個發(fā)送到DataNode線程的讀數(shù)據(jù)請求,根據(jù)請求中包含的Client值進(jìn)行區(qū)分。Map任務(wù)發(fā)送給DataNode線程的Client值為:DFSClient_taskID,而其余讀請求發(fā)送的Client值為:DFSClient_整型隨機(jī)數(shù),因此通過Client值的不同捕捉到執(zhí)行Map任務(wù)時讀取物理數(shù)據(jù)塊的請求。

        5.3 數(shù)據(jù)訪問監(jiān)控信息匯總與統(tǒng)計模塊

        監(jiān)控信息收集模塊周期性地將監(jiān)控信息發(fā)送到數(shù)據(jù)訪問監(jiān)控信息匯總與統(tǒng)計模塊。數(shù)據(jù)訪問監(jiān)控信息匯總與統(tǒng)計模塊以線程的方式運(yùn)行,并啟動兩個子線程。兩個子線程根據(jù)父線程最新接收到的物理數(shù)據(jù)塊靜態(tài)屬性信息和物理數(shù)據(jù)塊動態(tài)訪問事件信息分別統(tǒng)計計算邏輯文件塊訪問熱度信息和文件訪問并行度及均衡度信息。

        (1)統(tǒng)計邏輯文件塊訪問熱度信息

        對于邏輯文件塊訪問熱度信息的計算,首先根據(jù)Host和BlockID項對所獲得的物理數(shù)據(jù)塊動態(tài)訪問事件信息進(jìn)行分組,確保每個分組中的事件記錄具有相同的Host和BlockID項值,則每個分組內(nèi)包含的事件記錄總數(shù),即為由BlockID和Host項值唯一確定的物理數(shù)據(jù)塊被訪問次數(shù)。然后,對所有具有相同BlockID項值的分組統(tǒng)計其事件總數(shù)的均值和方差,即為標(biāo)識為Block-ID的邏輯文件塊綜合其所對應(yīng)多個物理數(shù)據(jù)塊副本被訪問次數(shù)后,統(tǒng)計得到的訪問熱度信息。

        (2)統(tǒng)計文件訪問并行度及均衡度信息

        對于文件訪問并行度信息的計算,首先根據(jù)物理數(shù)據(jù)塊動態(tài)訪問事件信息中的BlockID信息查找物理數(shù)據(jù)塊的靜態(tài)屬性信息,獲得該動態(tài)訪問事件中Map任務(wù)訪問物理數(shù)據(jù)塊所屬的文件信息File;然后根據(jù)File、JobID和StartTime項對所獲得的物理數(shù)據(jù)塊動態(tài)訪問事件信息進(jìn)行分組,確保每個分組中的事件記錄具有相同的File、JobID和StartTime項值,則每一個分組表示作業(yè)號為JobID的Map/Reduce作業(yè)在StartTime標(biāo)識的時刻點并行訪問和處理File所標(biāo)識的文件數(shù)據(jù)的所有Map任務(wù);分別統(tǒng)計各分組中的事件記錄總數(shù),并對所有具有相同F(xiàn)ile項值的分組統(tǒng)計其事件總數(shù)的均值,作為File所標(biāo)識文件的文件訪問并行度信息。

        對于文件訪問均衡度信息的計算,則是在上述根據(jù)File、JobID和StartTime項對所獲得的物理數(shù)據(jù)塊動態(tài)訪問事件信息進(jìn)行分組的基礎(chǔ)上,分別對每個分組的事件記錄統(tǒng)計其EndTime與StartTime項差值的方差,并對所有具有相同F(xiàn)ile項值的分組統(tǒng)計該方差的均值,作為File所標(biāo)識文件的訪問均衡度信息。

        6 實驗結(jié)果

        6.1 功能驗證

        本章給出所設(shè)計的Hadoop平臺數(shù)據(jù)訪問監(jiān)控界面,如圖5所示。Hadoop平臺中文件及文件所包含邏輯文件塊信息以樹型結(jié)構(gòu)顯示在界面左側(cè)。物理數(shù)據(jù)塊靜態(tài)屬性信息中物理數(shù)據(jù)塊所在計算節(jié)點信息以圖形方式顯示在界面右上側(cè)。物理數(shù)據(jù)塊動態(tài)訪問事件信息、邏輯文件塊訪問熱度信息和文件訪問并行度及均衡度信息在界面右下側(cè)顯示。當(dāng)用戶在界面左側(cè)選中文件時,在界面右上側(cè)高亮顯示文件包含的所有物理數(shù)據(jù)塊,從而顯示出物理數(shù)據(jù)塊與文件間的從屬關(guān)系;同時,在右下側(cè)顯示該文件訪問并行度及均衡度信息。當(dāng)用戶在界面左側(cè)選中邏輯文件塊時,在界面右上側(cè)高亮顯示邏輯文件所對應(yīng)多個物理數(shù)據(jù)塊副本,在界面右下側(cè)顯示該邏輯文件塊訪問熱度信息。當(dāng)用戶將鼠標(biāo)移動到界面右上側(cè)所示的物理數(shù)據(jù)塊上時,在界面右下側(cè)顯示該物理數(shù)據(jù)塊動態(tài)訪問事件信息。

        圖5 Hadoop平臺數(shù)據(jù)訪問監(jiān)控界面

        6.2 性能測試

        實驗環(huán)境為包含10個物理節(jié)點的Hadoop平臺,其中一個物理節(jié)點運(yùn)行NameNode線程,其余物理節(jié)點運(yùn)行DataNode線程。Hadoop版本為0.20.2。每個物理節(jié)點配置如下:雙核處理器,CPU為Intel?Pentium?4,3.00 GHz;80 GB磁盤,8個物理節(jié)點的內(nèi)存大小為2.5 GB,2個物理節(jié)點的內(nèi)存大小為512 MB。物理節(jié)點間使用百兆以太網(wǎng)互聯(lián)。

        首先對Hadoop平臺數(shù)據(jù)訪問監(jiān)控統(tǒng)計一次物理數(shù)據(jù)塊靜態(tài)屬性信息、物理數(shù)據(jù)塊動態(tài)訪問事件信息、邏輯文件塊訪問熱度信息和文件訪問并行度及均衡度信息所需時間進(jìn)行測試。測試作業(yè)為處理1 GB數(shù)據(jù)的WordCount作業(yè),監(jiān)控周期為10 s。在包含4、6、8、10個物理節(jié)點的Hadoop平臺中依次進(jìn)行測試。測試結(jié)果如圖6所示。物理節(jié)點規(guī)模從4增加到10時,統(tǒng)計一次信息所需時間僅增加1.56 s,遠(yuǎn)小于監(jiān)控周期10 s。

        圖6 Hadoop平臺數(shù)據(jù)訪問監(jiān)控統(tǒng)計一次信息所需時間

        下面對Hadoop平臺數(shù)據(jù)訪問監(jiān)控消耗平臺資源情況進(jìn)行測試。在包含8個物理節(jié)點的Hadoop平臺中分別部署監(jiān)控節(jié)點資源使用情況的腳本程序。監(jiān)控資源包括:CPU和內(nèi)存。在兩種模式下執(zhí)行wordcount作業(yè),一是原始Hadoop平臺,二是增加數(shù)據(jù)訪問監(jiān)控的Hadoop平臺。作業(yè)輸入數(shù)據(jù)為1 GB。測試結(jié)果如圖7、8所示。由測試結(jié)果可知,對CPU使用情況而言,增加數(shù)據(jù)訪問監(jiān)控的Hadoop平臺較原始Hadoop平臺CPU資源消耗最小僅增加0.2%,平均增加值為5.1%;對內(nèi)存使用情況而言,增加數(shù)據(jù)訪問監(jiān)控的Hadoop平臺較原始Hadoop平臺內(nèi)存資源消耗最小僅增加0.8%,平均增加值為3.6%。總體而言,數(shù)據(jù)訪問監(jiān)控對Hadoop平臺資源消耗有較小影響。

        圖7 不同計算節(jié)點CPU使用百分比平均值比較

        圖8 不同計算節(jié)點內(nèi)存使用平均值比較

        最后對數(shù)據(jù)訪問監(jiān)控對Hadoop平臺中作業(yè)執(zhí)行效率的影響進(jìn)行測試。分別在4、6、8、10個物理節(jié)點規(guī)模的Hadoop平臺中運(yùn)行GridMix提交的作業(yè),作業(yè)以1 GB數(shù)據(jù)作為輸入。在兩種模式下執(zhí)行作業(yè),一是原始Hadoop平臺,二是增加數(shù)據(jù)訪問監(jiān)控的Hadoop平臺。由圖9可知,與原始Hadoop平臺比較,增加數(shù)據(jù)訪問監(jiān)控的Hadoop平臺中作業(yè)執(zhí)行時間最小僅延長0.87%,最大延長5.38%。

        圖9 數(shù)據(jù)訪問監(jiān)控對作業(yè)執(zhí)行效率的影響

        7 相關(guān)工作

        對于海量數(shù)據(jù)處理應(yīng)用的性能研究已有較多成果[10-11]。本文著力于Hadoop平臺中數(shù)據(jù)訪問情況的研究。文獻(xiàn)[12-14]以離線的方式對日志信息進(jìn)行分析,這與本文在線對數(shù)據(jù)訪問情況進(jìn)行監(jiān)控不同。文獻(xiàn)[12]通過對日志的分析,抽取控制流和數(shù)據(jù)流的情況??刂屏髦饕╩ap、reduce任務(wù)的運(yùn)行情況;數(shù)據(jù)流指由于作業(yè)執(zhí)行導(dǎo)致節(jié)點間的數(shù)據(jù)流動情況,這里的數(shù)據(jù)統(tǒng)計以字節(jié)為單位。文獻(xiàn)[13]通過對Hadoop平臺運(yùn)行日志進(jìn)行分析,從而捕獲控制流和數(shù)據(jù)流。在此基礎(chǔ)上提出錯誤診斷的方法。錯誤診斷包括:對執(zhí)行時間過長的任務(wù)的診斷和發(fā)生錯誤的節(jié)點的診斷。文獻(xiàn)[14]通過分析系統(tǒng)日志,對集群上作業(yè)的形態(tài)進(jìn)行全面的分析,并對作業(yè)的完成時間進(jìn)行預(yù)測,給出預(yù)測算法。文獻(xiàn)[15]通以作業(yè)執(zhí)行整體流程為目標(biāo)進(jìn)行分析,與本文針對于Map任務(wù)訪問數(shù)據(jù)行為進(jìn)行監(jiān)控不同。文獻(xiàn)[15]通過為控制流關(guān)聯(lián)相應(yīng)的數(shù)據(jù)流,進(jìn)而給出控制流和數(shù)據(jù)流間的關(guān)系,并進(jìn)行詳細(xì)分析及異常檢測。文獻(xiàn)[16]進(jìn)行HDFS層面和作業(yè)層面的監(jiān)控。在HDFS層面主要包含文件包含的物理數(shù)據(jù)塊信息,即本文中數(shù)據(jù)塊靜態(tài)屬性信息,但文獻(xiàn)[16]中不包括Map任務(wù)對物理數(shù)據(jù)塊的動態(tài)訪問信息。總結(jié)而言,文獻(xiàn)[12-16]均基于作業(yè)層面對作業(yè)生命周期進(jìn)行監(jiān)控,在數(shù)據(jù)塊層面僅局限于對數(shù)據(jù)塊靜態(tài)分布屬性的監(jiān)控。與文獻(xiàn)[12-16]不同,本文提出Hadoop平臺中數(shù)據(jù)訪問監(jiān)控不僅服務(wù)于數(shù)據(jù)存取效率的提升,還應(yīng)服務(wù)于Map/Reduce并行作業(yè)執(zhí)行效率提升的基本思想,并增加對并行執(zhí)行多Map任務(wù)數(shù)據(jù)訪問開銷均衡性的監(jiān)控。

        8 總結(jié)及下一步工作

        本文針對Hadoop平臺數(shù)據(jù)被任務(wù)調(diào)度感知,進(jìn)行本地化處理的新特征,研究面向Hadoop平臺的數(shù)據(jù)訪問監(jiān)控機(jī)制。本文提出Hadoop平臺中數(shù)據(jù)訪問監(jiān)控不僅服務(wù)于數(shù)據(jù)存取效率的提升,還應(yīng)服務(wù)于Map/ Reduce并行作業(yè)執(zhí)行效率提升的基本思想,并增加對并行執(zhí)行多Map任務(wù)數(shù)據(jù)訪問開銷均衡性的監(jiān)控?;谠撍枷?,本文的主要貢獻(xiàn)有:(1)定義數(shù)據(jù)訪問監(jiān)控的粒度和監(jiān)控信息組成;(2)設(shè)計基于master-slave的數(shù)據(jù)訪問監(jiān)控體系結(jié)構(gòu);(3)給出數(shù)據(jù)訪問監(jiān)控機(jī)制具體實現(xiàn)技術(shù)及測試結(jié)果。在該成果的基礎(chǔ)上,課題組下一步的工作主要包括并行多Map任務(wù)數(shù)據(jù)本地化處理優(yōu)化機(jī)制的研究。

        [1]Bell G,Gray J,Szalay A.Petascale computational systems[J]. Computer,2006,39(1):110-112.

        [2]Newman H B,Ellisman M H,Orcutt J A.Data-intensive E-Science frontier research[J].Communications of the ACM, 2003,46(11):68-77.

        [3]Cannataroa M,Taliab D,Sriman P K.Parallel data intensive computing in scientific and commercial applications[J]. Parallel Computing,2002,28(5):673-704.

        [4]Middleton A M.Data-intensive technologies for cloud computing[R].Handbook of Cloud Computing.[S.l.]:Springer,2010.

        [5]Dean J,Ghemawat S.MapReduce:Simplified data processing on large clusters[C]//USENIX Symposium on Operating Systems Design and Implementation,2004:137-150.

        [6]Ghemawat S,Gobioff H,Leung S T.The Google file system[J].SIGOPS Operating Systems Review,2003,37(5):29-43.

        [7]Apache Software Foundation,“Hadoop”[EB/OL].[2012-06-12]. http://hadoop.apache.org/core.

        [8]Ananthanarayanan G,Ghodsi A,Wang A,et al.PACMan:Coordinated memory caching for parallel jobs[C]//USENIX Symposium on Networked Systems Design and Implementation,2012.

        [9]Tanenbaum A S,Steen M V.Distributed systems:principles and paradigms[Z].2008.

        [10]劉超,金海,蔣文斌,等.基于MapReduce的數(shù)據(jù)密集型應(yīng)用性能優(yōu)化研究[J].武漢理工大學(xué)學(xué)報,2010,32(20):36-41.

        [11]鄭湃,崔立真,王海洋,等.云計算環(huán)境下面向數(shù)據(jù)密集型應(yīng)用的數(shù)據(jù)布局策略與方法[J].計算機(jī)學(xué)報,2010,33(8):1472-1480.

        [12]Tan J,Pan X,Kavulya S,et al.Mochi:visual log-analysis based tools for debugging hadoop[C]//USENIX Workshop on Hot Topics in Cloud Computing(HotCloud),2009.

        [13]Tan J,Pan X,Kavulya S,et al.SALSA:Analyzing logs as state machines[C]//USENIX Workshop on Analysis of System Logs(WASL),2008.

        [14]Kavulya S,Tan J,Gandhi R,et al.An Analysis of Traces fromaproductionMapReducecluster[C]//IEEE/ACM International SymposiumonCluster,Cloud,andGrid Computing(CCGrid),2010:94-103.

        [15]Tan J,Kavulya S,Gandhi R,et al.Visual,log-based causal tracing for performance debugging of MapReduce systems[C]//International Conference on Distributed Computing Systems,2010:795-806.

        [16]Huang D,Shi X,Ibrahim S,et al.MR-Scope:A real-time tracing tool for MapReduce[C]//The MapReduce of HPDC,2010:849-855.

        WANG Yufeng1,LIANG Yi1,JIN Yi2,LI Guangrui1

        1.College of Computer Science,Beijing University of Technology,Beijing 100124,China
        2.Beijing Computing Center,Beijing 100094,China

        Aiming on the issue of task scheduler considering the data location information for locality-based data processing in Hadoop Map tasks,a novel data access behavior monitoring mechanism is proposed in this paper.It is argued that the data access monitoring mechanism of Hadoop platform should not only serve to promote the efficiency of data access,but also serve to promote the execution efficiency of parallel Map/Reduce jobs.It is necessary to monitor the balance of data access overhead in the parallel execution of multiple Map tasks.The granularity and information set of data access monitoring in Hadoop platform is defined;The master-slave-based monitoring architecture is presented,which works with the support of Hadoop existing function modules;The detail implementation of the main monitoring function modules is discussed and the experimental results is analyzed.

        Hadoop;Map/Reduce;monitoring;data access

        針對Hadoop平臺數(shù)據(jù)被任務(wù)調(diào)度感知,進(jìn)行本地化處理的新特征,探索Haoop平臺中Map任務(wù)數(shù)據(jù)訪問監(jiān)控機(jī)制。提出Hadoop平臺數(shù)據(jù)訪問監(jiān)控不僅應(yīng)服務(wù)于數(shù)據(jù)存取效率的提升,還應(yīng)服務(wù)于Map/Reduce并行作業(yè)執(zhí)行效率提升的基本思想,并增加對并行執(zhí)行多Map任務(wù)數(shù)據(jù)訪問開銷均衡性的監(jiān)控?;谠撍枷?,定義Hadoop平臺數(shù)據(jù)訪問監(jiān)控的粒度和監(jiān)控信息組成;依托Hadoop平臺現(xiàn)有結(jié)構(gòu),設(shè)計了基于master-slave的監(jiān)控體系結(jié)構(gòu),并給出了監(jiān)控主要功能模塊的具體實現(xiàn)技術(shù)及測試結(jié)果。

        Hadoop;Map/Reduce;監(jiān)控;數(shù)據(jù)訪問

        A

        TP302

        10.3778/j.issn.1002-8331.1212-0302

        北京市教委科技計劃項目(No.JC007013201101);國家自然科學(xué)基金(No.61202075);北京市自然科學(xué)基金預(yù)探索項目(No.4133081)。

        王玉鳳(1988—),女,碩士研究生,主要研究領(lǐng)域為云計算、高性能計算;梁毅(1975—),女,博士,副教授,主要研究領(lǐng)域為云計算、高性能計算;金翊(1978—),男,博士,高級工程師,主要研究領(lǐng)域為云計算、高性能計算;李光瑞(1989—),男,碩士研究生,主要研究領(lǐng)域為云計算、高性能計算。E-mail:wangyf@emails.bjut.edu.cn

        2012-12-26

        2013-04-17

        1002-8331(2014)22-0043-07

        CNKI網(wǎng)絡(luò)優(yōu)先出版:2013-04-27,http://www.cnki.net/kcms/detail/11.2127.TP.20130427.1446.007.html

        猜你喜歡
        監(jiān)控物理節(jié)點
        只因是物理
        井岡教育(2022年2期)2022-10-14 03:11:44
        CM節(jié)點控制在船舶上的應(yīng)用
        The Great Barrier Reef shows coral comeback
        Analysis of the characteristics of electronic equipment usage distance for common users
        基于AutoCAD的門窗節(jié)點圖快速構(gòu)建
        處處留心皆物理
        你被監(jiān)控了嗎?
        Zabbix在ATS系統(tǒng)集中監(jiān)控中的應(yīng)用
        看監(jiān)控攝像機(jī)的4K之道
        三腳插頭上的物理知識
        亚洲成a人片在线观看导航| 国产精品亚洲综合色区| 少妇人妻中文字幕hd| 亚洲欧洲∨国产一区二区三区| 国产又黄又猛又粗又爽的a片动漫| 亚洲人成7777影视在线观看| 亚洲国产一区二区三区在观看| 亚洲av高清不卡免费在线 | 欧美老妇牲交videos| 亚洲丁香五月天缴情综合| 国产91 对白在线播放九色| 亚洲国产日韩在线精品频道| 一区两区三区视频在线观看| 高潮精品熟妇一区二区三区| 久久精品中文闷骚内射| 无套内射无矿码免费看黄| 国产内射合集颜射| 老熟女熟妇嗷嗷叫91| 日韩一区二区中文天堂| 丰满人妻猛进入中文字幕| 午夜福利理论片高清在线观看| 精品伊人久久香线蕉| 久久精品国产亚洲AV香蕉吃奶 | a级毛片免费观看在线| 欧美老妇人与禽交| 久久精品日本美女视频| 亚洲av本道一本二本三区| 国产乱人伦偷精品视频免观看| 久久久av精品波多野结衣| 人妻丰满av无码中文字幕| 亚洲视频中文字幕更新| 蜜桃视频免费进入观看| 国产成人亚洲精品无码mp4| 伊人22综合| 亚洲日本国产一区二区三区| 一边捏奶头一边高潮视频| 免费少妇a级毛片人成网| 久久九九青青国产精品| 亚洲av成熟国产精品一区二区| 亚洲精品无码专区| 亚洲欧美另类自拍|