亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        Spark效用感知的檢查點(diǎn)緩存并行清理策略①

        2022-05-10 08:41:10宋一鑫于俊洋王錦江
        關(guān)鍵詞:檢查點(diǎn)效用內(nèi)存

        宋一鑫,于俊洋,何 欣,王錦江

        (河南大學(xué) 軟件學(xué)院,開封 475004)

        Spark 是主流基于內(nèi)存的大數(shù)據(jù)計(jì)算框架,因其低延時(shí),高性能,生態(tài)豐富被廣泛使用[1].傳統(tǒng)的機(jī)器學(xué)習(xí)系統(tǒng)正在遷移到Spark 平臺(tái)上,利用并行計(jì)算和內(nèi)存迭代等特點(diǎn)提升訓(xùn)練效率,優(yōu)化Spark 框架執(zhí)行效能可以節(jié)約用電成本,降低碳排放[2-4].基于內(nèi)存迭代計(jì)算不具有穩(wěn)定性,易發(fā)生數(shù)據(jù)丟失,在多次迭代計(jì)算中,RDD 數(shù)據(jù)丟失會(huì)導(dǎo)致高度冗余計(jì)算,Spark 引入檢查點(diǎn)機(jī)制避免因內(nèi)存數(shù)據(jù)丟失導(dǎo)致的重復(fù)計(jì)算問題.Spark 檢查點(diǎn)備份過程是在作業(yè)計(jì)算完成后觸發(fā)且需要根據(jù)檢查點(diǎn)RDD 血統(tǒng)依賴重新計(jì)算備份數(shù)據(jù)結(jié)果集,具有較大計(jì)算開銷.在實(shí)際使用中,為了避免檢查點(diǎn)寫入HDFS 時(shí)的RDD 重算過程,一般在作業(yè)初次計(jì)算時(shí)將需要保存為檢查點(diǎn)的RDD 進(jìn)行緩存,在寫入HDFS時(shí)從緩存中讀取檢查點(diǎn)RDD 數(shù)據(jù).然而,檢查點(diǎn)緩存數(shù)據(jù)需要由編程人員手動(dòng)清理,而在Spark 框架中檢查點(diǎn)執(zhí)行過程對編程人員是透明的,過早清理檢查點(diǎn)緩存數(shù)據(jù)可能無法避免檢查點(diǎn)寫入HDFS 時(shí)的重復(fù)計(jì)算問題,太遲清理檢查點(diǎn)緩存數(shù)據(jù)影響內(nèi)存使用,所以檢查點(diǎn)緩存數(shù)據(jù)清理策略就成為一個(gè)值得研究的問題.為此,本文建模推導(dǎo)出檢查點(diǎn)緩存在大量檢查點(diǎn)環(huán)境下不具有可擴(kuò)展性,并提出基于效用熵的檢查點(diǎn)緩存并行清理(PCC)策略,通過在效用最佳時(shí)間點(diǎn)自動(dòng)清理失效檢查點(diǎn)緩存數(shù)據(jù),達(dá)到避免重復(fù)計(jì)算效果,同時(shí)優(yōu)化內(nèi)存占用和程序執(zhí)行效能.

        1 相關(guān)工作

        基于內(nèi)存計(jì)算的缺點(diǎn)是數(shù)據(jù)易丟失且對內(nèi)存資源要求較高,高效容錯(cuò)機(jī)制可以提升作業(yè)恢復(fù)執(zhí)行效率,提高內(nèi)存利用率[5].目前國內(nèi)外學(xué)者針對并行計(jì)算框架容錯(cuò)效率優(yōu)化研究做了大量工作.

        針對檢查點(diǎn)容錯(cuò)效率優(yōu)化,易會(huì)戰(zhàn)等[6]提出基于異步緩存的異步檢查點(diǎn)技術(shù),主要思想是將檢查點(diǎn)備份過程分為兩步,第一步將需要備份的數(shù)據(jù)寫入內(nèi)存,第二步通過幫助程序異步寫入磁盤,節(jié)省同步寫入的時(shí)間開銷.Ying 等[7]針對Spark 作業(yè)內(nèi)檢查點(diǎn)選擇問題建模作業(yè)恢復(fù)模型,提出關(guān)鍵RDD 權(quán)重計(jì)算公式,優(yōu)先最大權(quán)重 RDD 實(shí)現(xiàn)容錯(cuò)優(yōu)化.Zhu 等[8]提出分離Spark 檢查點(diǎn)選擇和寫入時(shí)機(jī)的策略,選擇作業(yè)間重用RDD 作為待寫入檢查點(diǎn),當(dāng)堆棧區(qū)老生代負(fù)載超過閾值,將所有待寫入的檢查點(diǎn)寫入HDFS,降低垃圾全回收次數(shù),提高容錯(cuò)效率.

        容錯(cuò)機(jī)制涉及多級(jí)存儲(chǔ),針對緩存級(jí)別優(yōu)化,Duan 等[9]提出分布式緩存替換策略,以計(jì)算代價(jià)、分區(qū)大小、使用次數(shù)等建立清理權(quán)值,當(dāng)內(nèi)存不足時(shí)優(yōu)先清理低權(quán)值分區(qū),實(shí)驗(yàn)證明有效提升內(nèi)存利用率,缺點(diǎn)是該策略無法感知分區(qū)數(shù)據(jù)是否使用完畢,未使用的檢查點(diǎn)緩存數(shù)據(jù)可能被清理.劉恒等[10]提出考慮任務(wù)的Locality Level 因素綜合計(jì)算代價(jià)、分區(qū)大小、使用次數(shù)、RDD 生命周期等參數(shù)建立分區(qū)清理權(quán)值,優(yōu)先清理低價(jià)值分區(qū),實(shí)驗(yàn)證明整體效率優(yōu)于LRU 策略,但是由于檢查點(diǎn)緩存被后臺(tái)作業(yè)引用,該策略無法收集相關(guān)權(quán)值參數(shù).More 等[11]提出利用閃存優(yōu)勢提升緩存性能,但需要增加硬件設(shè)備,有一定開銷成本.廖旺堅(jiān)等[12]提出適當(dāng)用基于DAG 圖重算代替緩存的策略優(yōu)化內(nèi)存消耗,但是應(yīng)用場景有限,僅當(dāng)RDD 計(jì)算代價(jià)很小時(shí)該策略有效,對檢查點(diǎn)數(shù)據(jù)來說并無效果.趙俊先等[13]立足單節(jié)點(diǎn)、大內(nèi)存服務(wù)器環(huán)境,針對內(nèi)存不足頻繁調(diào)用垃圾回收機(jī)制且大內(nèi)存使得垃圾回收開銷巨大問題,拆分原本主要服務(wù)各節(jié)點(diǎn)間的數(shù)據(jù)傳輸序列化功能和緩存功能,提出非序列化RDD 存儲(chǔ)結(jié)構(gòu)減小序列化帶來的計(jì)算開銷,利用堆下存儲(chǔ)區(qū)域無垃圾回收特點(diǎn)降低垃圾回收開銷,提升緩存效率,從而提升作業(yè)整體執(zhí)行效率,然而單節(jié)點(diǎn)環(huán)境影響Spark并行執(zhí)行能力,應(yīng)用場景有限.卞琛等[14]構(gòu)建用戶程序RDD 結(jié)構(gòu)樹記錄緩存引用待使用次數(shù),當(dāng)樹節(jié)點(diǎn)引用值為零時(shí),清理緩存RDD,實(shí)驗(yàn)證明該策略有效提升緩存利用率.但由于檢查點(diǎn)緩存是Spark 后臺(tái)檢查點(diǎn)作業(yè)引用,結(jié)構(gòu)樹無法感知運(yùn)行狀態(tài),故尚不能對檢查點(diǎn)緩存起到清理優(yōu)化效果.

        與以往工作不同,本文重點(diǎn)在于通過優(yōu)化Spark檢查點(diǎn)緩存清理過程提升容錯(cuò)效率.

        2 基于檢查點(diǎn)緩存效用熵的并行清理策略

        2.1 問題建模與分析

        本節(jié)抽象出來相關(guān)屬性和定義,分析檢查點(diǎn)執(zhí)行流程,并推導(dǎo)出現(xiàn)有檢查點(diǎn)緩存清理方法隨著檢查點(diǎn)數(shù)量增多,其失效緩存清理時(shí)延和空間占用增大,不具有可擴(kuò)展性.

        定義1.作業(yè)檢查點(diǎn).作業(yè)檢查點(diǎn)Checkpointi由三元組(mark_ti,write_ti,sizei)描述,表示該作業(yè)中第i個(gè)檢查點(diǎn)在執(zhí)行過程的時(shí)間屬性和空間屬性.其中,mark_ti為檢查點(diǎn)標(biāo)記的時(shí)間,write_ti為檢查點(diǎn)寫入HDFS 時(shí)間,sizei為檢查點(diǎn)空間占用大小.

        定義2.作業(yè)檢查點(diǎn)緩存.作業(yè)檢查點(diǎn)緩存CA-Checkpointi三元組(write-cti,clean-cti,sizei)描述,表示作業(yè)第i個(gè)檢查點(diǎn)緩存的時(shí)間屬性和空間屬性.其中,write_cti為檢查點(diǎn)緩存寫入時(shí)間,claen_cti檢查點(diǎn)緩存清理時(shí)間,sizei為檢查點(diǎn)空間占用大小.CA-Checkpointi的寫入時(shí)間需要滿足write_cti<write_ti,即檢查點(diǎn)緩存寫入時(shí)間需要早于檢查點(diǎn)寫入HDFS 時(shí)間.

        定義3.內(nèi)存資源槽.內(nèi)存資源槽Sloti使用三元組(start_ti,end_ti,size_maxi)描述,表示第i個(gè)內(nèi)存資源槽在start_ti,end_ti時(shí)間范圍內(nèi),內(nèi)存空間上限為size_maxi.

        檢查點(diǎn)執(zhí)行流程.設(shè)第i道作業(yè)中,檢查點(diǎn)集合為Jobi={Checkpoint1,Checkpoint2,···,Checkpointn}.檢查點(diǎn)執(zhí)行分3 個(gè)階段,第一階段中cache()算子由于懶執(zhí)行機(jī)制并不執(zhí)行,checkpoint()算子依次將Checkpointn標(biāo)記并移交給管理器.遇到action()算子后進(jìn)入第二階段,計(jì)算真正觸發(fā),cache()算子將Checkpointn數(shù)據(jù)寫入緩存中,等待action()算子完成.第三階段,啟動(dòng)檢查點(diǎn)線程讀取Jobi中CA_Checkpoint集合信息并依次寫入HDFS 內(nèi),作業(yè)i完成,清理所有Checkpoint緩存.

        定義4.失效檢查點(diǎn)緩存.若CA_Checkpointi滿足(claen_cti≥write_ti)∩(write_cti>mark_ti)∩(sizei≤size_maxi)∩(write_cti≥start_ti)∩(claen_cti≤end_ti),則稱嚴(yán)格滿足失效檢查點(diǎn)緩存LA_Checkpointi條件.

        定義5.失效檢查點(diǎn)緩存清理時(shí)延.第i個(gè)失效檢查點(diǎn)緩存時(shí)延delayi表示CA_Checkpointi清理出內(nèi)存時(shí)間與Checkpointi寫入HDFS 時(shí)間的時(shí)間差:

        推論1.隨著檢查點(diǎn)數(shù)量增加,失效檢查點(diǎn)緩存清理時(shí)延增大.

        證明:設(shè)第一個(gè)檢查點(diǎn)寫入HDFS 用時(shí)為t1,第二個(gè)用時(shí)為t2,依次類推,最后一個(gè)為tn,第一個(gè)檢查點(diǎn)緩存釋放消耗時(shí)間為tm1,第二個(gè)時(shí)間為tm2,依次類推,最后一個(gè)時(shí)間為tmn,結(jié)合式(1)可知,當(dāng)有n個(gè)檢查點(diǎn)時(shí),第k個(gè)檢查點(diǎn)失效緩存清理時(shí)延為:

        當(dāng)有n+j個(gè)檢查點(diǎn)時(shí),第k個(gè)失效檢查點(diǎn)緩存清理時(shí)延為:

        證明完畢.

        推論2.隨著檢查點(diǎn)數(shù)量增加,失效檢查點(diǎn)緩存占用總空間增大.

        證明:設(shè)第一個(gè)檢查點(diǎn)RDD 大小為size1,第二個(gè)大小為size2,依次類推,第n個(gè)為sizen.

        當(dāng)有k個(gè)檢查點(diǎn)時(shí),最后一個(gè)檢查點(diǎn)寫入HDFS后,失效檢查點(diǎn)緩存占用空間為:

        當(dāng)有k+j個(gè)檢查點(diǎn)時(shí),最后一個(gè)檢查點(diǎn)寫入HDFS后,失效檢查點(diǎn)緩存占用空間為:

        證明完畢.

        2.2 最佳清理時(shí)間點(diǎn)計(jì)算

        本節(jié)提出檢查點(diǎn)緩存效用熵定義,量化檢查點(diǎn)緩存效用和占用的內(nèi)存資源槽匹配度,利用效用最佳匹配原則計(jì)算最小化資源占用時(shí)的最佳清理時(shí)間點(diǎn),為算法設(shè)計(jì)與實(shí)現(xiàn)提供理論依據(jù).

        定義6.檢查點(diǎn)緩存累加和.檢查點(diǎn)緩存累加和刻畫在內(nèi)存資源槽S loti內(nèi),作業(yè)運(yùn)行過程中第i個(gè)檢查點(diǎn)緩存占用內(nèi)存槽大小情況:

        定義7.檢查點(diǎn)緩存效用熵.衡量檢查點(diǎn)緩存和內(nèi)存資源槽的匹配程度,用檢查點(diǎn)效用函數(shù)值Fr(CA_Checkpointi)和檢查點(diǎn)緩存累加和SUMi比值表示.對檢查點(diǎn)緩存CA-Checkpointi,其效用為write_ti時(shí)寫入HDFS過程節(jié)省的檢查點(diǎn)RDD 重算代價(jià)Ft(CA_Checkpointi),故效用函數(shù)表示為:

        執(zhí)行器m內(nèi)檢查點(diǎn)緩存效用熵記為:

        檢查點(diǎn)緩存效用熵越大,說明檢查點(diǎn)緩存與內(nèi)存槽越匹配,內(nèi)存資源槽利用率越高,故檢查點(diǎn)緩存清理的優(yōu)化目標(biāo)函數(shù)為:

        定理1.效用最佳匹配原則.在保證檢查點(diǎn)緩存效用的前提下,當(dāng)且僅當(dāng)claen_cti=write_ti,檢查點(diǎn)緩存效用熵最大.

        證明.若不影響檢查點(diǎn)緩存效用,則檢查點(diǎn)緩存數(shù)量k、緩存大小sizei均保持不變,效用值Fr(CA_Checkpointi)>0,此時(shí)claen_cti≥write_ti.

        由定義2、定義4 可知,write_cti<write_ti,sizei>0,故SUMi>0.此時(shí)需min(SUMi),結(jié)合定義6 可知,claen_cti=write_ti時(shí)SUMi取最小值.

        證明完畢.

        2.3 算法設(shè)計(jì)與實(shí)現(xiàn)

        上節(jié)基于效用熵概念,通過效用最佳匹配原則證明給出避免檢查點(diǎn)重復(fù)計(jì)算,同時(shí)最小化其內(nèi)存占用時(shí)長的檢查點(diǎn)緩存清理時(shí)間點(diǎn)是檢查點(diǎn)寫入HDFS 時(shí)刻,本節(jié)結(jié)合Spark 檢查點(diǎn)實(shí)現(xiàn)原理和編程接口給出具體算法設(shè)計(jì)與實(shí)現(xiàn)步驟.

        檢查點(diǎn)緩存并行清理(PCC)算法初始化一個(gè)空的檢查點(diǎn)對象集合,通過插入后臺(tái)監(jiān)聽代碼片段捕獲程序運(yùn)行中設(shè)置的檢查點(diǎn)對象,對檢查點(diǎn)對象集合中元素狀態(tài)改變監(jiān)聽.通過分析Spark 檢查點(diǎn)源碼可知,在檢查點(diǎn)數(shù)據(jù)寫入HDFS 系統(tǒng)時(shí),檢查點(diǎn)RDD 的完成狀態(tài)標(biāo)志發(fā)生改變,此刻立即清理該RDD 占用的內(nèi)存空間.具體步驟如下:

        (1)在主進(jìn)程中啟動(dòng)后臺(tái)監(jiān)控程序,建立RDD 監(jiān)聽集合.

        (2)依次掃描作業(yè)中所有檢查點(diǎn)RDD,并將其對象引用添加到監(jiān)聽集合中.

        (3)監(jiān)聽RDD 引用集合中檢查點(diǎn)的狀態(tài),檢測集合中檢查點(diǎn)完成狀態(tài)是否發(fā)生改變.

        (4)對集合中完成狀態(tài)發(fā)生改變的RDD 立即釋放緩存空間,并從該集合中刪除該RDD 引用.

        (5)檢測集合中剩余RDD 的狀態(tài),重復(fù)(3)(4),直至集合為空.

        (6)所有作業(yè)運(yùn)行完畢,后臺(tái)監(jiān)聽程序退出.具體執(zhí)行過程如算法1所示.

        算法1.檢查點(diǎn)緩存并行清理算法輸入:檢查點(diǎn)RDD 對象 CheckPointRDD.初始化:QUEUE ← new List<RDD>;// 初始化清理隊(duì)列作業(yè)線程:1.WHILE( CheckPointRDD NOT IN QUEUE)2.CheckPointRDD.cache();3.CheckPointRDD.checkpoint();

        4.QUEUE.append(CheckPointRDD);5.END WHILE監(jiān)控線程:6.WHILE TRUE 7.FOR qs IN QUEUE 8.IF qs.checkpointed()THEN 9.qs.unpersist();//釋放失效檢查點(diǎn)緩存空間10.QUEUE.pop(qs);//刪除已經(jīng)釋放空間的RDD 引用11.END IF 12.END FOR 13.IF QUEUE.size()== 0 THEN 14.break;15.END IF 16.END WHILE

        算法1 中檢查點(diǎn)狀態(tài)監(jiān)聽隊(duì)列及時(shí)刪除已經(jīng)釋放空間的檢查點(diǎn)對象引用,提高隊(duì)列元素掃描速度,避免出現(xiàn)內(nèi)存泄露問題.同時(shí),該算法通過后臺(tái)監(jiān)控線程響應(yīng)檢查點(diǎn)狀態(tài)改變事件從而觸發(fā)檢查點(diǎn)清理動(dòng)作,其異步并行過程不影響作業(yè)線程執(zhí)行.從整體執(zhí)行過程看,檢查點(diǎn)緩存完成重算效用后,此刻效用熵最大,立即被清理出內(nèi)存,避免失效緩存占用和累積問題.

        3 實(shí)驗(yàn)驗(yàn)證與分析

        3.1 實(shí)驗(yàn)環(huán)境設(shè)置

        實(shí)驗(yàn)環(huán)境用14 臺(tái)節(jié)點(diǎn)服務(wù)器創(chuàng)建14 個(gè)Spark 計(jì)算節(jié)點(diǎn)的計(jì)算集群,使用Cloudera Manager 管理和監(jiān)控集群,啟動(dòng)參數(shù)按Spark 默認(rèn)配置,服務(wù)器配置如表1所示.

        表1 節(jié)點(diǎn)服務(wù)器配置參數(shù)

        3.2 檢查點(diǎn)緩存清理時(shí)間點(diǎn)分析

        實(shí)驗(yàn)設(shè)置檢查點(diǎn)大小均為1 GB,通過監(jiān)聽單道PageRank 作業(yè)執(zhí)行中每個(gè)檢查點(diǎn)寫入HDFS 時(shí)刻,每個(gè)檢查點(diǎn)緩存清理時(shí)刻,分析PCC 策略在選擇清理時(shí)機(jī)上的特點(diǎn)以及PCC 策略縮短檢查點(diǎn)緩存清理時(shí)延的效果.

        如圖1(a)所示,檢查點(diǎn)寫入HDFS 的時(shí)刻呈現(xiàn)分批次,逐個(gè)寫入的特點(diǎn),且次序大的檢查點(diǎn)寫入HDFS時(shí)刻晚于次序小的檢查點(diǎn).對比圖1(a)和圖1(b),通過基于PCC 算法優(yōu)化的程序,檢查點(diǎn)緩存清理時(shí)間是逐批次進(jìn)行,每當(dāng)檢查點(diǎn)寫入HDFS 后,即時(shí)清理失效檢查點(diǎn)緩存,檢查點(diǎn)緩存清理時(shí)延近似為0.未優(yōu)化的程序檢查點(diǎn)緩存清理時(shí)間是在最終所有檢查點(diǎn)寫入HDFS 完畢后開始清理.對比基于PCC 算法優(yōu)化的程序和未優(yōu)化的程序檢查點(diǎn)緩存清理情況,未優(yōu)化的程序存在失效檢查點(diǎn)緩存長時(shí)間占用情況,且隨著檢查點(diǎn)個(gè)數(shù)增加,未優(yōu)化的程序累積失效檢查點(diǎn)緩存增多,失效檢查點(diǎn)緩存數(shù)據(jù)清理時(shí)延增大,驗(yàn)證了推論1,推論2.觀察圖1(c),由于失效檢查點(diǎn)緩存存在累積效應(yīng),使用PCC 算法優(yōu)化后,緩存清理時(shí)延總和隨著檢查點(diǎn)個(gè)數(shù)增多,縮短明顯.

        圖1 檢查點(diǎn)寫入HDFS 時(shí)刻、緩存清理時(shí)刻和PCC 算法縮短清理時(shí)延總和

        3.3 失效檢查點(diǎn)緩存空間占用分析

        實(shí)驗(yàn)采用基于公平調(diào)度的模式并行提交3 個(gè)pagerank 作業(yè),每個(gè)作業(yè)用(網(wǎng)頁數(shù)量/億,迭代次數(shù)/次,檢查點(diǎn)個(gè)數(shù)/個(gè))三元組表示,作業(yè)一、二、三依次為(1.2,10,30)、(1.2,15,30)、(1.2,30,30),測試在多作業(yè)并行執(zhí)行環(huán)境下,失效檢查點(diǎn)緩存內(nèi)存占用情況.

        如圖2所示,3 道作業(yè)先后分別出現(xiàn)失效檢查點(diǎn)緩存占用情況.且多作業(yè)環(huán)境下,未優(yōu)化程序失效緩存占用總和出現(xiàn)累積的負(fù)面效應(yīng).觀察PCC 優(yōu)化程序失效檢查點(diǎn)緩存總和可知,每當(dāng)出現(xiàn)檢查點(diǎn)緩存失效情況,PCC 算法立即清理失效檢查點(diǎn)緩存,內(nèi)存槽被釋放,有效避免失效檢查點(diǎn)緩存累積,提高內(nèi)存利用率.

        圖2 失效檢查點(diǎn)緩存占用空間

        3.4 程序執(zhí)行效能分析

        實(shí)驗(yàn)采用公平調(diào)度模式測試top-n 任務(wù),K-means任務(wù)和PageRank 任務(wù)下3 作業(yè)同時(shí)提交,每個(gè)作業(yè)用三元組表示,設(shè)置實(shí)驗(yàn)組如表2所示,每個(gè)實(shí)驗(yàn)組內(nèi)作業(yè)一為最短作業(yè),作業(yè)三為最長作業(yè),A 組、B 組、C 組、D 組、E 組實(shí)驗(yàn)依次增加計(jì)算規(guī)模和檢查點(diǎn)個(gè)數(shù),測試在多作業(yè)并行執(zhí)行環(huán)境下,失效檢查點(diǎn)緩存對長作業(yè)執(zhí)行的影響.通過后臺(tái)監(jiān)控進(jìn)程收集程序執(zhí)行時(shí)間、GC 時(shí)間等實(shí)驗(yàn)結(jié)果數(shù)據(jù),使用數(shù)顯電表記錄程序執(zhí)行前后服務(wù)器用電量大小.

        表2 實(shí)驗(yàn)組設(shè)置

        圖3 顯示不同實(shí)驗(yàn)組中,各任務(wù)下3 道作業(yè)并行執(zhí)行時(shí),使用PCC 優(yōu)化程序和未優(yōu)化的程序?qū)?zhí)行時(shí)間、用電量和GC 時(shí)間的影響.

        圖3 程序執(zhí)行時(shí)間、用電量和GC 時(shí)間

        如圖3所示,隨著最大迭代輪次和檢查點(diǎn)數(shù)量的增加,作業(yè)執(zhí)行時(shí)間不斷增加,GC 時(shí)間、用電量也不斷增加.A 組中top-n 作業(yè)檢查點(diǎn)數(shù)量為1,PCC 未表現(xiàn)出優(yōu)化效果,K-means 和PageRank 作業(yè)檢查點(diǎn)數(shù)量大于1,PCC 開始表現(xiàn)出優(yōu)化效果.隨著最大迭代輪次和檢查點(diǎn)數(shù)量的增加,PCC 優(yōu)化3 種任務(wù)的效果逐漸明顯,且3 種任務(wù)均在E 組出現(xiàn)最顯著的優(yōu)化效果,其中top-n 作業(yè)執(zhí)行時(shí)長縮短6.3%,GC 時(shí)間縮短9.3%,用電量節(jié)約5.2%,K-means 作業(yè)執(zhí)行時(shí)長縮短9.7%,GC 時(shí)間縮短17.1%,用電量節(jié)約9%,PageRank 的執(zhí)行時(shí)長縮短10.1%,GC 時(shí)間縮短19.5%,用電量節(jié)約9.5%.

        4 結(jié)論與展望

        針對編程人員清理緩存不及時(shí)可能引起的Spark作業(yè)檢查點(diǎn)失效緩存長時(shí)間累積占用資源問題,通過分析檢查點(diǎn)執(zhí)行流程,推導(dǎo)出隨著檢查點(diǎn)數(shù)量增加,失效檢查點(diǎn)緩存存在累積現(xiàn)象,影響內(nèi)存利用率.本文提出一種基于檢查點(diǎn)緩存效用熵的并行清理策略,保證檢查點(diǎn)緩存效用前提下,最小化資源占用.實(shí)驗(yàn)結(jié)果表明,PCC 策略即時(shí)自動(dòng)清理失效檢查點(diǎn)緩存數(shù)據(jù),避免失效檢查點(diǎn)緩存累積,有效提升內(nèi)存利用率,且隨著計(jì)算規(guī)模和檢查點(diǎn)數(shù)量增加,程序執(zhí)行時(shí)間、用電量和GC 時(shí)間優(yōu)化效果明顯.下一步研究方向是不同作業(yè)負(fù)載下緩存管理策略對程序執(zhí)行性能影響.

        猜你喜歡
        檢查點(diǎn)效用內(nèi)存
        免疫檢查點(diǎn)抑制劑相關(guān)內(nèi)分泌代謝疾病
        小學(xué)美術(shù)課堂板書的四種效用
        “春夏秋冬”的內(nèi)存
        免疫檢查點(diǎn)抑制劑在腫瘤治療中的不良反應(yīng)及毒性管理
        分層檢查點(diǎn)的近似最優(yōu)周期計(jì)算模型
        納米硫酸鋇及其對聚合物的改性效用
        中國塑料(2016年9期)2016-06-13 03:18:48
        分布式任務(wù)管理系統(tǒng)中檢查點(diǎn)的設(shè)計(jì)
        幾種常見葉面肥在大蒜田效用試驗(yàn)
        玉米田不同控釋肥料效用研討
        基于內(nèi)存的地理信息訪問技術(shù)
        大肉大捧一进一出好爽视频动漫 | 亚洲精品动漫免费二区| 韩国免费一级a一片在线| 96中文字幕一区二区| 日本av在线一区二区| 国产无遮挡又爽又刺激的视频老师| 永久免费av无码网站yy| 98国产精品永久在线观看| 玩50岁四川熟女大白屁股直播 | 国产亚洲婷婷香蕉久久精品| 亚洲av永久无码精品成人| 国产亚洲av一线观看| 亚洲精品国产av成拍| 久久精品中文少妇内射| 免费人妻精品一区二区三区| 成人做爰69片免费看网站| 无码人妻丰满熟妇区免费| 自拍偷区亚洲综合激情| 国产亚洲欧美精品永久| 激情航班h版在线观看| 最新亚洲人AV日韩一区二区| 国产天堂av手机在线| 论理视频二区三区四区在线观看| 性无码一区二区三区在线观看| 狠狠色噜噜狠狠狠狠米奇777| 精品久久久中文字幕人妻| 久久99精品国产99久久| 久久精品女人天堂AV一个| 亚洲精品国产综合久久| 亚洲另类丰满熟妇乱xxxx| 欧美xxxx做受欧美| 精品综合久久久久久97超人| 亚洲成熟丰满熟妇高潮XXXXX| 福利视频偷拍一区二区| 女人18毛片a级毛片| 亚洲日韩中文字幕一区| 精品视频在线观看一区二区三区| 日韩一区三区av在线| 色多多性虎精品无码av| 欧美激情内射喷水高潮| 国产精品自拍首页在线观看|