亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于近鄰回歸的Spark性能優(yōu)化方法

        2022-10-08 11:31:22
        電視技術(shù) 2022年9期
        關(guān)鍵詞:樣本性能優(yōu)化

        張 威

        (湖北中醫(yī)藥大學(xué),湖北 武漢 430065)

        0 引 言

        現(xiàn)階段,移動(dòng)互聯(lián)網(wǎng)服務(wù)、電子商務(wù)、感知網(wǎng)絡(luò)等技術(shù)廣泛地應(yīng)用于人們的日常生活,大量的應(yīng)用系統(tǒng)的業(yè)務(wù)以及運(yùn)行過程都產(chǎn)生了海量的數(shù)據(jù)。國際數(shù)據(jù)中心相關(guān)報(bào)告指出,當(dāng)前人們已經(jīng)處于大數(shù)據(jù)時(shí)代。隨著大數(shù)據(jù)技術(shù)需求的增加,很多大數(shù)據(jù)分布式框架產(chǎn)生,其中Apache Spark因其出色的性能和豐富的應(yīng)用支持成為當(dāng)下最流行的大數(shù)據(jù)分布式計(jì)算框架。

        隨著Spark的應(yīng)用越來越廣泛,一些Spark應(yīng)用的問題也暴露了出來。其中最為重要的一個(gè)問題就是Spark的性能優(yōu)化問題。由于Spark在運(yùn)行過程中很容易受到不同因素的影響,很難發(fā)現(xiàn)其理論的最佳性能,因此,如何優(yōu)化配置提升Spark的性能,成為一個(gè)熱門的研究問題。

        配置分為功能性配置和非功能配置兩種。其中,非功能性配置中有相當(dāng)數(shù)量的配置參數(shù)對(duì)Spark的性能有著非常大的影響。Apache Spark官網(wǎng)提供了很多默認(rèn)配置。這些配置在大多數(shù)情況下可以得到相對(duì)良好且正確的性能表現(xiàn)。但是,GOUNARIS A[1]和PANAGIOTIS P等人[2]提出,有一些參數(shù)會(huì)根據(jù)實(shí)驗(yàn)數(shù)據(jù)規(guī)模的大小和應(yīng)用程序的差異對(duì)性能產(chǎn)生影響。BEI Z D等[3]人主要研究了參數(shù)配置對(duì)Spark工作負(fù)載的影響,研究表明,通過改變默認(rèn)參數(shù)配置,Spark性能的變化可能高達(dá)20.7倍[4]。這個(gè)數(shù)據(jù)也說明參數(shù)對(duì)于性能優(yōu)化有著舉足輕重的作用。

        1 算法設(shè)計(jì)動(dòng)機(jī)

        Spark平臺(tái)有多種優(yōu)化方式,其中,通過調(diào)整Spark的配置參數(shù)值獲得最優(yōu)執(zhí)行時(shí)間的方式最為簡(jiǎn)便有效。通過大量的日常工作實(shí)踐能夠發(fā)現(xiàn),Spark平臺(tái)的執(zhí)行時(shí)間除受到配置參數(shù)影響之外,還與平臺(tái)執(zhí)行的應(yīng)用類型以及處理的數(shù)據(jù)規(guī)模有關(guān)。其中,應(yīng)用類型是按照在Spark平臺(tái)執(zhí)行應(yīng)用程序?qū)τ谄脚_(tái)的系統(tǒng)和硬件資源依賴進(jìn)行分類。

        通過實(shí)驗(yàn)觀察發(fā)現(xiàn),Spark集群在運(yùn)行過程中會(huì)受到運(yùn)行環(huán)境動(dòng)態(tài)變化的影響而產(chǎn)生執(zhí)行時(shí)間的波動(dòng)。這種波動(dòng)在某些特殊情況下產(chǎn)生較大的異常波動(dòng),但是經(jīng)過統(tǒng)計(jì),大量的樣本都會(huì)集中在“合理”的運(yùn)行時(shí)間周圍,個(gè)別樣本會(huì)產(chǎn)生離群現(xiàn)象?;诿芏鹊姆绞娇赡軐⑿∫?guī)模樣本誤判為異常,因此采用基于近鄰的模型構(gòu)建方法一方面可以保證近鄰樣本能夠?yàn)猷徲虻漠惓颖九卸ㄌ峁┬畔?,同時(shí)也能夠識(shí)別小規(guī)模樣本,也保證這些數(shù)據(jù)不會(huì)被作為異常數(shù)據(jù)處理。因此,首先通過K最鄰近(K-NearestNeighbor,KNN)分類算法計(jì)算出每一個(gè)樣本的5個(gè)鄰居,近鄰樣本用于訓(xùn)練循環(huán)神經(jīng)網(wǎng)絡(luò)(Rerrent Neural Network,RNN)構(gòu)建當(dāng)前樣本的近鄰模型,近鄰模型的信息與該樣本通過一同訓(xùn)練全連接網(wǎng)絡(luò)。最終通過粒子群(Particle Swarm Optimization,PSO)算法搜索模型的配置定義域,從而獲得最佳配置,獲得任務(wù)的最佳模型。整體方案如圖1所示。

        圖1 基于近鄰的Spark參數(shù)優(yōu)化方案

        2 優(yōu)化方案設(shè)計(jì)

        為了獲取全面且準(zhǔn)確的工作負(fù)載,本文采用Hibench軟件生成工作負(fù)載。Hibench內(nèi)部集成了6大類、29種工作負(fù)載。為了能夠獲取充足的Spark平臺(tái)的配置性能樣本,本文通過不同的Hibench配置,將各類標(biāo)準(zhǔn)負(fù)載存儲(chǔ)于Hadoop分布式文件系統(tǒng)(HDFS)上。接下來用改進(jìn)的正交設(shè)計(jì)方法構(gòu)建的出10因素10水平的正交實(shí)驗(yàn)方案。

        所謂10因素10水平正交實(shí)驗(yàn),不是用一個(gè)正交實(shí)驗(yàn)設(shè)計(jì)一次完成10水平實(shí)驗(yàn),而是利用10因素3水平實(shí)驗(yàn)方法完成一輪實(shí)驗(yàn),接下來,對(duì)正交結(jié)果進(jìn)行分析。正交分析傾向?qū)嶒?yàn)結(jié)果極差大的情況,所以算法會(huì)保留實(shí)驗(yàn)結(jié)果中的極大值和極小值做下一輪實(shí)驗(yàn),被去掉的中間值樣本會(huì)由沒有試驗(yàn)過新的水平替換,迭代前面的過程直到所有的水平都按照正交組合的方式進(jìn)行了實(shí)驗(yàn)。

        因?yàn)樵赟park的配置參數(shù)樣本是含有單位字符串類型的數(shù)據(jù),所以數(shù)據(jù)收集模塊獲取數(shù)據(jù)后首先去掉參數(shù)上的單位,進(jìn)行數(shù)據(jù)類型轉(zhuǎn)換。所有的數(shù)據(jù)中包含值域?yàn)門rue或者False的布爾類以及數(shù)值型兩類參數(shù)。為了便于后面構(gòu)建配置性能模型,需要將布爾型參數(shù)轉(zhuǎn)換為1和0。

        此歸一化結(jié)果將通過KNN算法計(jì)算樣本集合的5個(gè)近鄰。近鄰計(jì)算結(jié)果分別用來訓(xùn)練RNN[5]和全連接網(wǎng)絡(luò)。首先用近鄰數(shù)據(jù)對(duì)RNN進(jìn)行訓(xùn)練,RNN模型可以有效描述樣本點(diǎn)的緊鄰信息。其次,RNN輸出結(jié)果與當(dāng)前樣本信息共同對(duì)全連接網(wǎng)絡(luò)進(jìn)行訓(xùn)練。如果只是使用全連接網(wǎng)絡(luò)構(gòu)建模型,模型容易受到異常樣本的影響,而RNN模型中含有的近鄰信息能夠有效降低異常樣本對(duì)于預(yù)測(cè)結(jié)果的影響。最后,通過PSO粒子群算法搜索樣本空間求解預(yù)測(cè)模型的最小值。這個(gè)最小值就是Spark執(zhí)行類似類型應(yīng)用的最短時(shí)間,而對(duì)應(yīng)的配置樣本就是優(yōu)化Spark的配置。

        3 基于RNN的近鄰混合設(shè)計(jì)

        即使在相同的樣本條件下,Spark應(yīng)用的執(zhí)行時(shí)間仍然有一定的波動(dòng)性。利用算法對(duì)近鄰樣本提取上下文信息,能夠提升模型的質(zhì)量。近鄰算法易于實(shí)現(xiàn),不易受到低概率異常數(shù)據(jù)影響。本文設(shè)計(jì)的混合網(wǎng)絡(luò)模型對(duì)近鄰算法進(jìn)行了改進(jìn)。這種改進(jìn)將克服數(shù)據(jù)對(duì)于模型的負(fù)面影響,同時(shí)利用近鄰算法的優(yōu)勢(shì)降低異常數(shù)據(jù)對(duì)模型訓(xùn)練產(chǎn)生的干擾。網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。

        圖2 基于RNN的近鄰混合網(wǎng)絡(luò)結(jié)構(gòu)

        由圖2可見,算法由三個(gè)部分構(gòu)成。第一部分是計(jì)算含有n個(gè)樣本的模型訓(xùn)練集Xtrain={x(i)},1≤i≤n中每一個(gè)樣本的5個(gè)近鄰,并將近鄰按照距離由遠(yuǎn)及近的規(guī)則構(gòu)建序列其中1≤t≤5表示x(i)樣本的近鄰元素。第二部分,利用近鄰構(gòu)建的序列對(duì)循環(huán)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,應(yīng)用LeakyRelu激勵(lì)函數(shù)處理數(shù)據(jù)。此部分的更新方程如式(1)所示。

        式中:W和U表示連同權(quán)重矩陣,b表示偏置向量,z(t)表示當(dāng)前樣本的第t個(gè)近鄰。h(t)輸出值作為第三部分3層全連接網(wǎng)絡(luò)的輸入,最終計(jì)算獲得回歸結(jié)果。

        4 算法評(píng)估

        實(shí)驗(yàn)平臺(tái)構(gòu)建在基于Intel(R)Xeon(R) CPU E5-2699的物理服務(wù)器集群上。在集群上創(chuàng)建8個(gè)虛擬機(jī)服務(wù)器,每個(gè)虛擬機(jī)服務(wù)器擁有16核CPU、16 GB內(nèi)存以及256 GB的存儲(chǔ)空間。

        實(shí)驗(yàn)方案如表1所示。

        表1 實(shí)驗(yàn)方案

        Hibench軟件提出的Wordcount負(fù)載負(fù)責(zé)計(jì)算輸入數(shù)據(jù)中單個(gè)單詞出現(xiàn)的頻次,代表了一種比較典型的MapReduce作業(yè)。Hibench中的micro Benchmarks的sort負(fù)載是對(duì)文本輸入數(shù)據(jù)進(jìn)行排序,數(shù)據(jù)是由RandomTextWriter生成的。Hibench提出的PageRank負(fù)載中,數(shù)據(jù)源主要通過Web數(shù)據(jù)獲得,提供了包含數(shù)據(jù)和需要大量迭代計(jì)算的搜索引擎,又提供了用來測(cè)試大規(guī)模搜索子系統(tǒng)的Nutchindexing,所以這種負(fù)載屬于混合型負(fù)載。

        利用本文模型建模后,利用PSO算法對(duì)模型配置空間進(jìn)行搜索,將獲得的最優(yōu)配置作為Spark的配置參數(shù),執(zhí)行所需時(shí)間與Spark默認(rèn)參數(shù)配置的執(zhí)行時(shí)間進(jìn)行對(duì)比,如圖3所示。

        圖3 優(yōu)化配置與默認(rèn)配置性能對(duì)比

        在Wordcount負(fù)載中,優(yōu)化算法用時(shí)29.7 min,性能提升了約10.5%;在Sort負(fù)載中,優(yōu)化算法用時(shí)29.08 min,執(zhí)行效率提升了約4.6%;在混合型PageRank負(fù)載中,優(yōu)化算法用時(shí)45.45 min,運(yùn)行效率提升了約30%。

        5 結(jié) 語

        本文利用RNN網(wǎng)絡(luò)對(duì)Spark樣本進(jìn)行性能建模,并采用粒子群算法獲取最佳配置,以此優(yōu)化Spark的執(zhí)行效率。RNN對(duì)近鄰樣本的分析,有效地降低了異常樣本對(duì)于模型的影響,提升了算法的魯棒性。然而,對(duì)于近鄰的分析,增加了模型構(gòu)建過程的算法開銷。在后面的工作中,將對(duì)此進(jìn)行改進(jìn)。

        猜你喜歡
        樣本性能優(yōu)化
        超限高層建筑結(jié)構(gòu)設(shè)計(jì)與優(yōu)化思考
        民用建筑防煙排煙設(shè)計(jì)優(yōu)化探討
        關(guān)于優(yōu)化消防安全告知承諾的一些思考
        一道優(yōu)化題的幾何解法
        用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
        提供將近80 Gbps的帶寬性能 DisplayPort 2.0正式發(fā)布
        推動(dòng)醫(yī)改的“直銷樣本”
        隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
        村企共贏的樣本
        Al-Se雙元置換的基于LGPS的thio-LISICON的制備與性能表征
        人人妻人人添人人爽日韩欧美| 漂亮人妻出轨中文字幕| 亚洲一区二区三区日本久久九| 天天摸夜夜摸夜夜狠狠摸| 国产av剧情精品麻豆| 日本一区二区在线播放视频 | 亚洲国产91精品一区二区| 亚洲国产色一区二区三区| 精品久久久久成人码免费动漫| 亚洲依依成人综合在线网址| 精品久久免费一区二区三区四区| 亚洲国产av一区二区不卡| 国产做无码视频在线观看| 日日碰狠狠躁久久躁| 中文字幕人成人乱码亚洲| 五月激情在线观看视频| 精品无码国产一区二区三区麻豆| 国产乱人视频在线播放| 国产精品偷伦免费观看的| 亚洲香蕉久久一区二区| 国产精品成人无码久久久久久 | 国产一区二区三区在线观看精品| 扒下语文老师的丝袜美腿| 精品视频在线观看日韩| 岳好紧好湿夹太紧了好爽矜持| 中文字幕在线码一区| av二区三区在线观看| 99久久国产精品网站| 搡老熟女中国老太| 亚洲中文字幕乱码免费| 日韩精品一区二区亚洲专区| 免费观看交性大片| 国产精品熟妇视频国产偷人| 亚洲av熟女天堂系列| 日本激情网站中文字幕| 久久久久亚洲av片无码v| 久久精品视频91| 黑丝美女喷水在线观看| 亚洲综合一区中文字幕| 东京无码熟妇人妻av在线网址| 国产91对白在线观看|