亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度強化學習的多數(shù)據(jù)中心一體化調(diào)度優(yōu)化

        2023-07-03 14:12:16方和平劉曙光冉泳屹鐘坤華
        計算機應用 2023年6期
        關鍵詞:成本智能

        方和平,劉曙光,冉泳屹,鐘坤華

        (1.中國科學院 重慶綠色智能技術研究院,重慶 400714;2.中國科學院大學 重慶學院,重慶 400714;3.重慶郵電大學 通信與信息工程學院,重慶 400065)

        0 引言

        隨著大數(shù)據(jù)、人工智能等技術的發(fā)展和應用,數(shù)據(jù)中心成為新型基礎設施。各地的數(shù)據(jù)中心建設和擴容的步伐得以加快。國內(nèi)建成的數(shù)據(jù)中心大都是獨立營運的數(shù)據(jù)中心[1],通常分布在不同的地理區(qū)域,根據(jù)服務區(qū)域的需求規(guī)劃建設,規(guī)模較小且配備的資源也有限,配置也都是差異化的[2]。

        獨立營運的數(shù)據(jù)中心受限于計算資源的有限性,會出現(xiàn)可用資源與任務需求不匹配,導致數(shù)據(jù)中心資源利用率低;受限于傳統(tǒng)的計算任務調(diào)度系統(tǒng)只為保證服務質(zhì)量,忽視了數(shù)據(jù)中心整體能效,冷卻系統(tǒng)往往會過度制冷,導致不必要的能耗損失[3]。

        為了響應我國提出的“雙碳”目標,數(shù)據(jù)中心在提供算力的同時還要保障數(shù)據(jù)中心綠色可持續(xù)發(fā)展,引導數(shù)據(jù)中心走高效、清潔、集約、循環(huán)的發(fā)展道路[4]。多數(shù)據(jù)中心調(diào)度通過分階段的方法解決上述提到的資源利用率低、能效低的問題:在多數(shù)據(jù)中心層面,整合各地獨立營運的數(shù)據(jù)中心差異化的計算資源,通過合理調(diào)度任務提高計算資源的利用率;在數(shù)據(jù)中心內(nèi)部層面,避免熱點產(chǎn)生,降低制冷設備能耗。

        近年來國內(nèi)外學者在多數(shù)據(jù)中心調(diào)度任務的方法上,在數(shù)據(jù)中心選擇階段,更多考慮的是通信網(wǎng)絡層面的優(yōu)化,較少將資源使用成本和網(wǎng)絡通信成本都納入優(yōu)化因素。Xu等[5]提出了一種基于成本感知的資源分配和任務調(diào)度算法為使用云計算的用戶提供服務。Shen 等[6]通過動態(tài)分配資源的最佳權重和遷移目的地的分散選擇,有效地降低了數(shù)據(jù)中心之間虛擬機遷移的通信成本,同時確保了物理機的負載平衡。在數(shù)據(jù)中心內(nèi)部任務調(diào)度階段,大多數(shù)的研究[7-8]只考慮服務質(zhì)量,也有一些考慮到降低數(shù)據(jù)中心能耗的相關研究。Yi 等[9]通過使用長短時記憶(Long Short-Term Memory,LSTM)模型描述服務器功率和產(chǎn)生熱量的關系,然后使用深度Q 網(wǎng)絡(Deep Q Network,DQN)方法與LSTM 模型進行離線交互式訓練,通過訓練后的DQN 調(diào)度任務到合適的服務器,這種離線訓練的方式提高了收斂速度,避免了潛在的服務器過熱。Ran 等[10]提出了一種基于參數(shù)化動作空間的PADQN(Parameterized Action space based Deep Q-Network)算法解決混合動作空間的問題,聯(lián)合優(yōu)化IT(Information Technology)系統(tǒng)的作業(yè)調(diào)度和冷卻系統(tǒng)的氣流速率。針對多數(shù)據(jù)中心分階段進行任務調(diào)度的研究,Li 等[1]針對多數(shù)據(jù)中心中難以選擇最優(yōu)數(shù)據(jù)中心租用和使用虛擬機的問題,在虛擬機租賃階段,使用深度強化學習算法獲得用戶與數(shù)據(jù)中心之間的最短通信路徑;在虛擬機使用階段,為了提高對用戶的服務質(zhì)量,使用深度強化學習算法獲得最優(yōu)的任務調(diào)度策略,縮短了總體任務完成時間。Cheng 等[11]利用多個DQN模型構建一種分層混合的在線任務調(diào)度框架H2O-CLOUD(Hierarchical and Hybrid Online task scheduler for CLOUD computing)將動作空間解耦為幾個子動作空間:服務器集群、服務器、小時和分鐘,其中每個子動作空間對應的決策由一個特定的DQN 作出。

        上述的相關研究存在著以下的不足:1)當多個數(shù)據(jù)中心形成一個復雜龐大網(wǎng)絡時,缺乏尋找最優(yōu)通信路徑的方法;2)借助神經(jīng)網(wǎng)絡模型擬合數(shù)據(jù)中心內(nèi)部狀態(tài)(包括IT 狀態(tài)、環(huán)境溫度等)存在著可解釋性、泛化性差的問題;3)數(shù)據(jù)中心內(nèi)部大量的服務器構成了高維的狀態(tài)空間和動作空間,大多數(shù)的優(yōu)化方法難以求解;4)傳統(tǒng)數(shù)據(jù)中心內(nèi)的任務調(diào)度大都只考慮服務質(zhì)量,較少從溫度感知的角度設計降低能耗的任務調(diào)度策略。“服務質(zhì)量”調(diào)度是為了滿足不同用戶對IT 系統(tǒng)的任務截止時間、系統(tǒng)安全性和系統(tǒng)穩(wěn)定性等差異性服務質(zhì)量的需求[12-13],它能夠提高IT 系統(tǒng)的運行效率,并滿足不同用戶提交不同任務類型的服務質(zhì)量要求,但在數(shù)據(jù)中心整體能效上沒有明顯的提升;“溫度感知”調(diào)度是為了避免數(shù)據(jù)中心產(chǎn)生過熱區(qū)域,導致冷卻系統(tǒng)過度制冷造成能耗增加,它能夠在滿足基本服務質(zhì)量的前提下,將數(shù)據(jù)中心溫度分布情況納入任務部署考慮因素,讓溫度變化更加均勻、平穩(wěn),降低平均制冷功耗,提高數(shù)據(jù)中心整體能效。

        針對獨立營運的單個數(shù)據(jù)中心處理任務面臨的資源利用率和能效低的問題,本文提出了基于深度強化學習的一體化任務調(diào)度優(yōu)化策略。參考已有的分階段任務調(diào)度[1],分別從“選擇數(shù)據(jù)中心租賃虛擬機”和“虛擬機任務調(diào)度”兩個階段研究如何更好地使用云計算資源。在選擇數(shù)值型租賃虛擬機階段,以用戶成本最低為目標;在虛擬機任務調(diào)度階段以保證服務質(zhì)量、縮短任務完成時間為目標。因此,本文聚焦于“數(shù)據(jù)中心選擇”和“數(shù)據(jù)中心內(nèi)部任務分配”兩個階段的問題。這兩個階段分別對應用戶和服務商,待解決的兩個問題的場景和目標都有所不同。用戶只知道多個數(shù)據(jù)中心各自的計算資源收費和到達各個數(shù)據(jù)中心的通信成本,對于數(shù)據(jù)中心內(nèi)部的能效并不關注,因此在第一階段主要以降低用戶的成本的標準選擇數(shù)據(jù)中心;服務商為了更低的數(shù)據(jù)中心運行、維護成本,就必須同時考慮冷卻系統(tǒng)和IT 系統(tǒng)的能耗,因此在第二階段主要以提高數(shù)據(jù)中心整體能效為標準將任務部署到服務器上。本文分別對兩個階段以不同的標準進行優(yōu)化。

        本文提出的基于深度強化學習的一體化任務調(diào)度優(yōu)化策略在數(shù)據(jù)中心選擇階段,首先利用網(wǎng)絡連接將多數(shù)據(jù)中心進行一體化整合,根據(jù)不同地區(qū)和不同時間的任務量變化、通信成本和資源價格等因素,采用一種基于具有優(yōu)先經(jīng)驗回放 的 DQN(DQN with Prioritized Experience Replay,PER-DQN)的數(shù)據(jù)中心選擇算法以解決在多數(shù)據(jù)中心環(huán)境下尋找最優(yōu)通信路徑問題;然后計算路徑對應的總成本,根據(jù)總成本大小將任務調(diào)度到不同的數(shù)據(jù)中心執(zhí)行,從而提高一體化數(shù)據(jù)中心的整體資源利用率并降低任務調(diào)度成本;選定數(shù)據(jù)中心之后,進入數(shù)據(jù)中心內(nèi)部任務部署階段,提出了一種溫度感知的、基于雙深度Q 網(wǎng)絡(Double Deep Q Network,Double DQN)的任務部署算法。溫度的感知通過構建計算流體動力學(Computational Fluid Dynamics,CFD)仿真模型解決了數(shù)據(jù)驅(qū)動擬合方法可解釋性差的問題;通過基于Double DQN 的算法將任務部署到數(shù)據(jù)中心內(nèi)部不同位置的服務器節(jié)點,解決了在高維狀態(tài)、動作空間下的決策問題,可以有效避免過熱、過載的情況,從而間接地減少了冷卻系統(tǒng)能耗,并提高了能效。

        本文主要工作內(nèi)容包括以下3 點。

        1)在多數(shù)據(jù)中心構建的復雜網(wǎng)絡條件下,通過PER-DQN 算法快速獲取最小網(wǎng)絡通信成本的路徑,任務調(diào)度的網(wǎng)絡通信成本得以表示和計算。

        2)實現(xiàn)了溫度感知的、基于Double DQN 的任務部署算法,根據(jù)數(shù)據(jù)中心當前溫度狀態(tài)和IT 狀態(tài)作出決策,讓數(shù)據(jù)中心服務器之間避免負載失衡和局部過熱,達到降低能耗的效果。

        3)利用CFD 軟件6SigmaDCX 和數(shù)據(jù)中心計算仿真程序構建數(shù)據(jù)中心數(shù)據(jù)仿真平臺,解決了真實數(shù)據(jù)中心作為生產(chǎn)環(huán)境,不能直接用于優(yōu)化算法訓練和策略校驗的問題。

        1 系統(tǒng)建模

        多數(shù)據(jù)中心一體化任務調(diào)度系統(tǒng)架構如圖1 所示,由數(shù)據(jù)中心選擇和選定的數(shù)據(jù)中心內(nèi)部任務部署兩階段組成。在這兩個階段中,依次由每個階段對應的智能體作出相應的決策,前一個階段選擇的數(shù)據(jù)中心是后一個階段展開數(shù)據(jù)中心內(nèi)部任務部署的場景。

        圖1 多數(shù)據(jù)中心一體化任務調(diào)度系統(tǒng)架構Fig.1 Architecture of integrated task scheduling system for multiple data centers

        系統(tǒng)的工作流程為:首先,將需要服務的多個任務上傳至任務調(diào)度服務器;在開始調(diào)度的第一階段,即數(shù)據(jù)中心選擇,任務調(diào)度服務器在充分考慮該任務調(diào)度執(zhí)行產(chǎn)生的資源使用成本、網(wǎng)絡通信成本的前提下,選擇多數(shù)據(jù)中心的其中一個數(shù)據(jù)中心提交任務;在調(diào)度的第二個階段,即數(shù)據(jù)中心內(nèi)部任務部署,基于Double DQN 的任務部署算法根據(jù)數(shù)據(jù)中心內(nèi)溫度、IT 狀態(tài)將任務調(diào)度到合適的服務器上執(zhí)行。

        1.1 多數(shù)據(jù)中心一體化建模

        任務調(diào)度服務器通過因特網(wǎng)或者專用網(wǎng)絡和分布在不同地域的數(shù)據(jù)中心相互聯(lián)通,并對這些數(shù)據(jù)中心做一體化調(diào)度。首先,需要從多數(shù)據(jù)中心中選擇某個數(shù)據(jù)中心提交任務,這里主要考慮每個數(shù)據(jù)中心的資源使用成本和任務調(diào)度服務器到該數(shù)據(jù)中心的網(wǎng)絡通信成本。資源使用成本主要指的是硬件資源使用成本,考慮到各地由于市場的波動,不同的數(shù)據(jù)中心的硬件資源價格可能也會有所不同[14-16];網(wǎng)絡通信成本指的是任務調(diào)度服務器到數(shù)據(jù)中心,任務在不同網(wǎng)絡通信路徑上傳輸?shù)馁M用[17]。

        任務調(diào)度服務器連接多數(shù)據(jù)中心的網(wǎng)絡,可以將它抽象表示為網(wǎng)絡拓撲圖G=(V(G),E(G)),其中E(G)為圖中邊的集合,通過邊表示網(wǎng)絡連接;V(G)為圖中頂點的集合,通過頂點表示數(shù)據(jù)中心。任意兩個vi,vj∈V(G),它們之間只要存在高速或者普通網(wǎng)絡的連接,那么必存在邊ei,j(vi,vj∈V(G))。在圖G的基礎上添加一個頂點s表示數(shù)據(jù)中心間的調(diào)度服務器,從調(diào)度服務器將任務分發(fā)給選擇的數(shù)據(jù)中心。頂點s表示的調(diào)度服務器與圖G任意頂點表示的數(shù)據(jù)中心vi存在網(wǎng)絡連接,則構成圖G':

        其中:V'(G')、E'(G')分別表示在圖G'中的頂點集合和邊集合。在圖G'中,邊的權重值用表示,代表兩點vi,vj∈V(G)的網(wǎng)絡通信距離。頂點vi的權重值代表任務提交到當前數(shù)據(jù)中心的資源使用成本。在圖G'中,兩頂點之間的路徑表示為:

        1.1.1 資源使用成本

        由于各個數(shù)據(jù)中心位于不同的物理位置并且具有不同的資源配置,所以不同數(shù)據(jù)中心的計算資源價格也不同。大多數(shù)數(shù)據(jù)中心采取的計費方式按不同計算資源的單位時間價格、計算資源使用量和任務運行時間的乘積收費。計算資源費用示例如表1 所示。

        表1 資源費用示例Tab.1 Resource price examples

        假設一個任務需要a個CPU 核,bGB 內(nèi)存,cGB 磁盤容量和gMb 通信帶寬,運行時間為ts,該任務提交到表1 所示收費標準的數(shù)據(jù)中心v i后,計算資源成本如式(1)所示:

        1.1.2 網(wǎng)絡通信成本

        任務調(diào)度器通過網(wǎng)絡和多數(shù)據(jù)中心連通。任務提交需要的網(wǎng)絡通信成本主要由帶寬、傳輸數(shù)據(jù)量和延遲決定。在確定帶寬和任務數(shù)據(jù)量后,延遲主要由傳輸距離決定[1]。在多數(shù)據(jù)中心抽象化表示的圖G'的基礎上,任務調(diào)度服務器s到任意一個數(shù)據(jù)中心v的通信成本由式(2)表示:

        1.1.3 數(shù)據(jù)中心選擇優(yōu)化目標

        在選擇合適的數(shù)據(jù)中心提交任務時,假設所有數(shù)據(jù)中心的可用資源都能滿足執(zhí)行任務的需求。選擇合適的數(shù)據(jù)中心的主要目標是最小化總成本,總成本包括資源使用成本和網(wǎng)絡通信成本兩項。最小化總成本由式(3)表示:

        1.2 數(shù)據(jù)中心內(nèi)部任務部署的子系統(tǒng)建模

        1.2.1 任務模型

        本文主要針對數(shù)據(jù)中心的計算密集型任務[18]。計算密集型任務(如特定領域的優(yōu)化和模擬、深度學習等)構成了當今計算需求的主要部分。主要具有以下特征。

        1)當任務所需資源大于單個服務器節(jié)點可用資源,需要將任務劃分為多個子任務,每個子任務僅在單個服務器節(jié)點上運行。

        2)每個CPU 核都只能由單個任務獨占使用,否則多個任務間對核的爭用將增加開銷并導致計算效率低下。

        提交的任務包含執(zhí)行文件、輸入數(shù)據(jù)、需要的CPU 核數(shù)、預計運行時間和運行優(yōu)先級等。在分配任務時,將所需CPU核數(shù)作為計算密集型任務分配給某個服務器主要因素。

        1.2.2 負載模型

        其中:crunning表示當前服務器處在運行狀態(tài)下CPU 核數(shù),pidle和pfull分別表示服務器在空閑狀態(tài)和滿載狀態(tài)下的功耗。線性功率的模型在估算機架式服務器是可用的事實得到了證明[19]。

        1.2.3 熱模型

        1.2.4 數(shù)據(jù)中心內(nèi)部任務部署優(yōu)化目標

        其中:rjob是單個任務成功分配至服務器執(zhí)行獲得的獎勵,φT和φu分別表示溫度閾值和利用率閾值。式(7)等號右邊后兩項表示對服務器過熱和過載的懲罰。

        2 任務調(diào)度算法

        在多數(shù)據(jù)中心一體化任務調(diào)度策略的選擇數(shù)據(jù)中心階段,計算網(wǎng)絡通信成本與選擇的通信路徑是密切相關的,在復雜網(wǎng)絡中,如何快速尋找到最短通信路徑是需解決的問題;在數(shù)據(jù)中心的內(nèi)部任務部署階段,面臨著任務的多樣化、環(huán)境的動態(tài)化的情況,在保證服務質(zhì)量的前提下,避免發(fā)生數(shù)據(jù)中心內(nèi)部出現(xiàn)負載失衡、局部熱點的情況。深度強化學習的方法憑借強大的決策和感知能力,能夠分別解決上述兩個階段的問題。下面將介紹深度強化學習DQN 方法的背景知識,以及利用DQN 解決上述問題的過程。

        2.1 DQN

        谷歌DeepMind 較早將強化學習(Reinforcement Learning,RL)同深度神經(jīng)網(wǎng)絡相結合,形成了深度強化學習這一研究方向,其中深度學習部分具有環(huán)境感知的功能,強化學習部分通過決策完成從狀態(tài)到動作的映射。DQN 是深度強化學習領域的一個重要方法,并且已被成功用于高維度輸入環(huán)境的策略求解[20-21]。如圖2 所示,在傳統(tǒng)強化學習中,智能體通過迭代地向環(huán)境發(fā)送動作、監(jiān)視環(huán)境的狀態(tài)并評估獎勵用以指導下一個動作與環(huán)境交互,學習的目標是最大化累積獎勵,最終獲得接近最佳的動作策略。

        圖2 智能體與環(huán)境的交互Fig.2 Interaction between agent and environment

        在交互的過程中智能體構建一個查找表,反映每個狀態(tài)-動作對(st,at)和動作-價值函數(shù)Q(st,at)之間的關系,Q(st,at)如式(8)所示:

        其中:π是智能體的動作策略,智能體通過與環(huán)境的交互訓練網(wǎng)絡,從而獲取最佳動作策略。r是智能體做決策獲得獎勵(reward)值。DQN 用神經(jīng)網(wǎng)絡近似式(10)所示的最優(yōu)動作價值函數(shù),有了Q*就可以指導智能體的決策,最大化未來的累計獎勵。DQN 將均方誤差(Mean Square Error,MSE)函數(shù)作為損失函數(shù),由式(11)表示。計算損失函數(shù)的梯度更新網(wǎng)絡參數(shù),采用隨機梯度下降(Stochastic Gradient Descent,SGD)來更新參數(shù)。

        根據(jù)狀態(tài)st+1對應的動作-價值函數(shù)Q(st,at)最大化原則選出的動作a',θ-表示深度強化學習中的目標網(wǎng)絡參數(shù)。

        在訓練DQN 模型過程中,可以運用以下技巧:1)考慮到DQN 在復雜環(huán)境下訓練的收斂過程中速度緩慢的情況,引入了優(yōu)先經(jīng)驗回放(Prioritized Experience Replay,PER)[22],PER 是針對經(jīng)驗回放的改進,核心思想是強化學習智能體可以從某些經(jīng)驗中更高效地學習。更多地采樣高期望值的經(jīng)驗,通過時間差分(Temporal Difference,TD)算法誤差衡量。2)目標網(wǎng)絡,計算目標網(wǎng)絡的Q 值時使用兩套不同的參數(shù),有效地避免了DQN 過高估計動作值的問題。3)使用ε-greedy 策略,智能體用1 -ε的概率選擇貪心動作,以ε的概率隨機選擇動作。

        在數(shù)據(jù)中心選擇、數(shù)據(jù)中心內(nèi)部任務部署兩個階段分別采用PER-DQN 和Double DQN 的算法,第一階段加入PER 使智能體能夠在復雜網(wǎng)絡環(huán)境下更快地找到到達任意數(shù)據(jù)中心的最短通信路徑。這兩種算法都采用圖3 所示的智能體訓練過程訓練智能體。智能體通過在不同階段分別與連接多數(shù)據(jù)中心的網(wǎng)絡拓撲環(huán)境、數(shù)據(jù)中心仿真平臺進行迭代交互,積累寶貴的經(jīng)驗以獲得最優(yōu)的調(diào)度策略。

        圖3 智能體訓練過程Fig.3 Process of agent training

        2.2 基于PER-DQN的數(shù)據(jù)中心選擇算法

        由于服務器規(guī)模大、資源異構多樣、用戶群體廣泛、應用任務類型多樣,多數(shù)據(jù)中心需要處理海量任務和數(shù)據(jù)。傳統(tǒng)的啟發(fā)式算法能夠很好地進行靜態(tài)任務調(diào)度,但不適用于動態(tài)環(huán)境。多數(shù)據(jù)中心的任務調(diào)度需要一種實時在線的方法。深度強化學習作為一種通用的學習模型,將深度學習的感知能力與強化學習的決策能力相結合,可以有效解決復雜多數(shù)據(jù)中心環(huán)境下的決策問題。因此在數(shù)據(jù)中心的選擇問題上,采用基于深度強化學習的方法是可行的。在數(shù)據(jù)中心選擇過程中,采用PER-DQN 獲取在復雜網(wǎng)絡中快速找到到達各個數(shù)據(jù)中心的最短通信路徑,然后根據(jù)路徑計算選擇最小化資源使用成本、網(wǎng)絡通信成本之和的數(shù)據(jù)中心。把數(shù)據(jù)中心間的任務調(diào)度服務器看作網(wǎng)絡節(jié)點,各個數(shù)據(jù)中心也作為網(wǎng)絡上的節(jié)點,求解的問題即:代表數(shù)據(jù)中心的頂點到代表任務調(diào)度服務器的頂點的最短路徑的問題。

        任務調(diào)度服務器連接多數(shù)據(jù)中心的網(wǎng)絡環(huán)境下,深度強化學習的狀態(tài)空間、動作空間和獎勵的定義如下。

        1)狀態(tài)空間。網(wǎng)絡中有D個數(shù)據(jù)中心,每個數(shù)據(jù)中心都有一個編號i(i∈{1,2,…,D})。數(shù)據(jù)傳輸就是從拓撲圖中的一個頂點到達另外一個頂點,同時任務調(diào)度服務器也有一個編號為0 的頂點。那么對于任意頂點vi的任務調(diào)度的狀態(tài)空間為:

        2)動作空間。動作空間是智能體在當前狀態(tài)下可能執(zhí)行的所有動作。當前數(shù)據(jù)中心節(jié)點vi做出動作j,動作j表示狀態(tài)i(頂點vi)到狀態(tài)j(頂點vj)的邊ei,j,即下一步從頂點vi前往頂點vj。因此智能體的動作空間為:

        3)獎勵函數(shù)。獎勵函數(shù)表示智能體在某一狀態(tài)下執(zhí)行某個動作獲得的獎勵的定義。在任務調(diào)度服務器連接多數(shù)據(jù)中心的網(wǎng)絡環(huán)境中,目標頂點代表了數(shù)據(jù)中心間的任務調(diào)度服務器,通過智能體的決策可以求解出任意一個數(shù)據(jù)中心到任務調(diào)度服務器的最短通信路徑,對得到的路徑取相反方向后,便可得到任務調(diào)度服務器到網(wǎng)絡中任意一個數(shù)據(jù)中心的最短通信路徑。智能體在當前頂點的狀態(tài)下,沿動作選定的邊進入下一個頂點,如果下一個頂點不存在,這個動作將會有懲罰值-1;如果下一個頂點不是目標節(jié)點,為了找到最短的路徑,需滿足路徑越長獎勵值越小,因而獎勵值設為邊上權重值的倒數(shù)如果下一個頂點是目標節(jié)點,獎勵值設為遠大于的目標頂點的資源使用成本tr,它表示智能體通過作出的一系列決策后,成功到達目標頂點。因此智能體的獎勵函數(shù)為:

        基于上述PER-DQN 模型,獲取任務調(diào)度服務器到各個數(shù)據(jù)中心的最短路徑,然后根據(jù)得到的路徑運用式(2)計算任務調(diào)度到該數(shù)據(jù)中心的網(wǎng)絡通信成本;資源使用成本根據(jù)任務需求的情況運用式(1)計算。通過將各個數(shù)據(jù)中心資源使用成本和網(wǎng)絡通信成本相加,得到任務調(diào)度到各個數(shù)據(jù)中心的總成本,選擇總成本最小的數(shù)據(jù)中心作為當前任務的調(diào)度對象。

        2.3 基于Double DQN的任務部署算法

        在數(shù)據(jù)中心內(nèi)部任務部署,由于接收到的任務類型、數(shù)量和IT 系統(tǒng)運行狀態(tài)都是不斷變化的,通過基于Double DQN 的任務部署算法選擇部署提交的任務的服務器。任務調(diào)度到數(shù)據(jù)中心后,根據(jù)任務的規(guī)模和數(shù)據(jù)中心服務器資源使用情況,將規(guī)模較大的任務解耦,劃分為多個子任務;子任務加入數(shù)據(jù)中心任務隊列中;根據(jù)先到先服務(First-Come First-Served,F(xiàn)CFS)原則依次通過智能體學習的調(diào)度策略將任務調(diào)度到數(shù)據(jù)中心服務器中部署[23]。為了避免在真實數(shù)據(jù)中心環(huán)境的訓練中,智能體做出不符合規(guī)范的動作,智能體通過與構建的仿真平臺進行交互,智能體在訓練過程中學習如何解決造成數(shù)據(jù)中心局部熱點和服務器過載的問題。

        在數(shù)據(jù)中心內(nèi)部,深度強化學習的狀態(tài)空間、動作空間、獎勵函數(shù)定義如下。

        2)動作空間。智能體根據(jù)當前數(shù)據(jù)中心內(nèi)部的狀態(tài)作出決策,將任務調(diào)度到合適的服務器k運行,其中k=0 表示當前任務不會被分配給任何服務器。動作空間表示為:

        3)獎勵函數(shù)。數(shù)據(jù)中心內(nèi)部任務部署的目的是在保證服務質(zhì)量的同時,保持服務器間的負載均衡和防止局部服務器過熱。為了實現(xiàn)上述的目標,獎勵函數(shù)如下:

        基于Double DQN 的任務部署算法在訓練完成后,在任務需調(diào)度的時刻,根據(jù)數(shù)據(jù)中心內(nèi)部環(huán)境狀態(tài)選擇合適的服務器用于部署提交的任務。

        3 實驗與結果分析

        本章主要通過針對多數(shù)據(jù)中心一體化任務調(diào)度的兩個階段做相關實驗驗證。首先在任務調(diào)度服務器連接多數(shù)據(jù)中心的網(wǎng)絡環(huán)境中,驗證和評估PER-DQN 算法,同時與傳統(tǒng)的方法做相關對比實驗;然后在建立的數(shù)據(jù)中心仿真模擬平臺上進行仿真實驗,驗證和評估基于Double DQN 的任務部署算法,并對仿真結果進行分析。

        3.1 多數(shù)據(jù)中心任務調(diào)度的實驗與分析

        3.1.1 實驗設置

        如圖4 所示,假設有任務調(diào)度服務器連接到11 個(頂點編號為1~11)數(shù)據(jù)中心的網(wǎng)絡,頂點編號為0 表示數(shù)據(jù)中心間的任務調(diào)度服務器。通過對多數(shù)據(jù)中心環(huán)境抽象形成網(wǎng)絡拓撲圖,每條網(wǎng)絡連接對應的邊上,根據(jù)通信距離給出相應的權值。

        圖4 任務調(diào)度服務器到多數(shù)據(jù)中心網(wǎng)絡拓撲Fig.4 Network topology of task scheduling server to multiple data centers

        采用如表2 所示的模型參數(shù)設置,智能體通過在網(wǎng)絡拓撲環(huán)境中迭代交互訓練,訓練完成的智能體能夠在網(wǎng)絡拓撲環(huán)境中快速、準確地找到任務調(diào)度服務器到各個數(shù)據(jù)中心的最短距離。

        表2 多數(shù)據(jù)中心任務調(diào)度模型參數(shù)設置Tab.2 Multiple data center task scheduling model parameters setting

        3.1.2 基于PER-DQN的任務調(diào)度算法的訓練

        采用式(11)定義的獎勵函數(shù),分別采用PER-DQN 和DQN 求解多數(shù)據(jù)中心的最短路徑,跟蹤記錄兩種算法獲得的獎勵,實驗結果如圖5 所示。圖5 中的兩條曲線已經(jīng)過平滑處理,PER-DQN 在經(jīng)歷大約60 000 次訓練后,獲得的獎勵值趨于平穩(wěn);DQN 在經(jīng)歷約70 000 次訓練,獲得的獎勵值趨于平穩(wěn)。PER-DQN 比DQN 在訓練過程中收斂更快,且震蕩的幅度更小,這是因為優(yōu)先經(jīng)驗回放為訓練樣本加入了優(yōu)先級信息,即重要的樣本給予較大的采樣優(yōu)先級,從而讓智能體更加高效地學習。

        圖5 兩種多數(shù)據(jù)中心任務調(diào)度算法的獎勵函數(shù)收斂曲線Fig.5 Convergence curves of reward functions for two kinds of multiple data center task scheduling algorithms

        3.1.3 實驗結果與分析

        假設當前任務調(diào)度服務器需調(diào)度一個需要如下資源的計算密集型任務:2 048 個CPU、4 GB 內(nèi)存、200 Mb 帶寬、128 GB 磁盤空間。那么就需要在考慮計算資源成本和通信資源成本后,選擇成本最小的數(shù)據(jù)中心執(zhí)行調(diào)度任務。傳統(tǒng)的路徑選擇常用方法有:1)計算資源優(yōu)先(Computing Resource First,CRF)[1],優(yōu)先選擇計算資源成本更低的數(shù)據(jù)中心,通信路徑采用隨機選擇的方式;2)最短路徑優(yōu)先(Shortest Path First,SPF)[1],優(yōu)先選擇通信距離最近的數(shù)據(jù)中心。

        實驗通過分別采用PER-DQN、CRF 和SPF 路徑選擇方法將上述提到的計算密集型任務分別調(diào)度到編號為1~11 的數(shù)據(jù)中心,計算每個數(shù)據(jù)中心對應的總成本大小,全面檢驗PER-DQN 在將任務調(diào)度到任意數(shù)據(jù)中心對總成本控制的優(yōu)勢。其中數(shù)據(jù)中心計算資源單價如表3[1,24]所示。實驗結果如圖6 所示。

        表3 數(shù)據(jù)中心資源單位時間價格Tab.3 Prices of data center resources in unit time

        圖6 數(shù)據(jù)中心選擇成本Fig.6 Data center selection cost

        由于PER-DQN 在圖5 的任務調(diào)度服務器連接多數(shù)據(jù)中心的網(wǎng)絡拓撲環(huán)境下,始終獲得了相較于CRF、SPF 更短或相同的通信路徑長度。在相同的資源需求下,代表任務調(diào)度服務器的頂點在到達相鄰頂點代表的數(shù)據(jù)中心路徑時,基于PER-DQN、CRF 和SPF 這3 種方法獲得的總成本并沒有差異,隨著選擇其他非相鄰的頂點時,3 種方法獲得的總成本出現(xiàn)了較大差異,整體上基于PER-DQN 的數(shù)據(jù)中心選擇的總成本更低。采用任務調(diào)度到所有數(shù)據(jù)中心總成本的均值評價3 種方法的性能?;赑ER-DQN 求出的平均總成本分別相對于CRF、SPF 求出的平均總成本下降約3.6%、10.0%。

        3.2 數(shù)據(jù)中心內(nèi)部任務調(diào)度的實驗與分析

        3.2.1 數(shù)據(jù)中心仿真平臺

        數(shù)據(jù)中心內(nèi)部任務部署算法是在建立的數(shù)據(jù)中心仿真平臺上訓練和驗證的,數(shù)據(jù)中心仿真平臺如圖7 所示。仿真平臺主要由IT 模擬系統(tǒng)和數(shù)據(jù)中心內(nèi)部環(huán)境模擬系統(tǒng)兩部分構成:IT 系統(tǒng)主要是對任務按FCFS 原則進行任務調(diào)度和模擬數(shù)據(jù)中心負載的動態(tài)變化情況。數(shù)據(jù)中心內(nèi)部環(huán)境模擬系統(tǒng)由CFD 軟件構建,模擬數(shù)據(jù)中心內(nèi)部動態(tài)變化的環(huán)境溫度。除了上述的IT 系統(tǒng)之外,數(shù)據(jù)中心最重要的就是數(shù)據(jù)中心的冷卻系統(tǒng),這里采用具有架空地板供冷和天花板回程結構的風冷數(shù)據(jù)中心。數(shù)據(jù)中心的ACU(Air Cooling Units,ACU)跟IT 系統(tǒng)是獨立的,ACU 的制冷根據(jù)自身的控制系統(tǒng)調(diào)控制冷量。

        圖7 數(shù)據(jù)中心仿真平臺Fig.7 Simulation platform of data center

        3.2.2 實驗設置

        參考傳統(tǒng)數(shù)據(jù)中心的配置,本次實驗采用的配置為共有N=16 個機架,每個機架有Mn=42 個1U 服務器,每個服務器的pidle=100 W、pfull=300 W,每個服務器的資源配置都是同構的,任務將根據(jù)智能體的決策調(diào)度到一個服務器,每個服務器有total_c=24 個CPU 核,這里主要針對計算密集型任務,所以調(diào)度任務考慮的資源的需求主要是CPU 核數(shù)。當任務需求的CPU 核數(shù)超過24,則需要劃分子任務,每個子任務需求CPU 核數(shù)最大不超過8。數(shù)據(jù)中心內(nèi)部冷卻系統(tǒng)配有2 臺ACU,ACU 的最大顯冷量為450 kW,平均送風溫度設置在20℃。

        使用LLNL Thunder[25]的真實工作負載日志生成任務請求。在LLNL Thunder 中,每條日志數(shù)據(jù)包括任務編號、提交時間、運行時間、運行時間和CPU 需求數(shù)等多項任務屬性,從日志中選取5 500 個任務:2 000 個任務用于初始化IT 系統(tǒng)和數(shù)據(jù)中心內(nèi)部溫度環(huán)境,3 000 個任務用于算法的訓練,500 個任務用于驗證和評估算法。

        采用如表4 所示的模型參數(shù)設置,通過在集成仿真平臺提供的環(huán)境中訓練,訓練完成的智能體能夠快速、準確地將任務調(diào)度到合適的服務器并避免過熱、過載極端情況的產(chǎn)生。

        表4 數(shù)據(jù)中心內(nèi)部任務部署模型參數(shù)設置Tab.4 Data center internal task deployment model parameters settings

        3.2.3 基于Double DQN的任務部署算法

        采用式(12)中的獎勵函數(shù),圖8 為智能體在訓練過程中獲得的獎勵情況,可以看出經(jīng)過大約7 000 次訓練之后,獎勵值趨于平穩(wěn),Double DQN 開始收斂。

        圖8 數(shù)據(jù)中心內(nèi)部任務部署算法的獎勵函數(shù)收斂曲線Fig.8 Reward function convergence curve of task deployment algorithm in data center

        3.2.4 實驗結果與分析

        為了驗證采用基于Double DQN 的任務部署算法在數(shù)據(jù)中心內(nèi)部任務調(diào)度的問題上相較于傳統(tǒng)算法的有效性,本文基于Double DQN 的任務部署算法與傳統(tǒng)算法在測試數(shù)據(jù)集上進行對比。實驗采用的對比傳統(tǒng)調(diào)度算法如下。

        1)輪詢調(diào)度(Round Robin,RR)。RR 每次以循環(huán)方式將任務隊列前面的任務分配給數(shù)據(jù)中心的服務器。如果當前服務器沒有足夠空閑CPU 處理任務,RR 將跳過該服務器并檢查下一個服務器的資源剩余情況。

        2)貪心調(diào)度(Greedy)。該方法試圖減少為作業(yè)服務的服務器數(shù)量。它首先確定一組合格的服務器,這些服務器具有足夠的CPU 數(shù),可以優(yōu)先接收任務隊列中任務的調(diào)度。在用該方法調(diào)度時,將任務以貪心的方式分配給當前資源利用率最高的服務器。

        分別采用基于Double DQN 的任務部署算法、RR 和Greedy 在相同的數(shù)據(jù)中心初始化狀態(tài)下,對參與評估的任務進行調(diào)度并記錄調(diào)度過程中獎勵、負載、電源使用效率(Power Usage Effectiveness,PUE)和溫度的變化情況。PUE是數(shù)據(jù)中心總能耗與IT 設備能耗的比值,其中數(shù)據(jù)中心總能耗主要包括IT 設備能耗和制冷等系統(tǒng)的能耗,值大于1,越接近1 表明非IT 設備耗能越少,即能效水平越高。

        從表5 可以看出,基于Double DQN 的任務部署算法在平均獎勵、平均PUE、平均過載數(shù)上都比RR、Greedy 兩種算法取得的效果更好。平均獎勵的提升主要是因為基于Double DQN 的任務部署算法在保證任務分配到服務器執(zhí)行的條件下,將任務分配到利用率更低和局部熱量更低的機架內(nèi)服務器。通過將任務調(diào)度到不會產(chǎn)生局部熱點的服務器,從而避免空調(diào)的過度制冷,平均PUE 相較于RR、Greedy 分別下降約2.5%、1.7%,考慮到現(xiàn)有的數(shù)據(jù)中心改造冷卻系統(tǒng)高昂的成本,這里沒有對制冷系統(tǒng)進行聯(lián)合調(diào)控,所以PUE 下降的效果并不是很明顯。將過載的閾值設定為0.8,在出現(xiàn)服務器過載的數(shù)量上,基于Double DQN 的任務部署算法相較于RR、Greedy 調(diào)度算法分別減少約42.1%、13.2%。

        表5 實驗結果數(shù)據(jù)Tab.5 Experimental results data

        圖9 表示基于Double DQN 的任務部署算法、RR、Greedy這3 種算法調(diào)度過程中服務器機架背面出風的平均溫度變化,3 種算法在溫度變化趨勢上保持基本一致,但基于Double DQN 的任務部署算法在作出調(diào)度決策時考慮到了避免過載和過熱的情況,在平均溫度上比其他兩種算法更低,相較于RR、Greedy 調(diào)度算法平均溫度分別減少約0.4℃、0.2℃。

        圖9 機架平均輸出溫度Fig.9 Average output temperature of racks

        綜合上述的實驗,可以得出基于Double DQN 的任務部署算法相較于傳統(tǒng)的調(diào)度算法能夠讓數(shù)據(jù)中心負載狀態(tài)更加均衡,同時減少局部熱點的產(chǎn)生,間接提高了數(shù)據(jù)中心整體能效。

        4 結語

        針對獨立運營的單個數(shù)據(jù)中心處理任務面臨的資源利用率和能效低的問題,采用任務調(diào)度服務器連接多數(shù)據(jù)中心的網(wǎng)絡整合有限的計算資源,以及溫度感知的數(shù)據(jù)中心內(nèi)的任務調(diào)度的方案進行解決。本文分別從兩階段任務調(diào)度解決方案中涉及到數(shù)據(jù)中心選擇和數(shù)據(jù)中心內(nèi)部任務部署的兩個角度,設計了基于深度強化學習的多數(shù)據(jù)中心一體化調(diào)度策略。引入網(wǎng)絡拓撲圖,通過PER-DQN 獲取到達各個數(shù)據(jù)中心最短網(wǎng)絡通信路徑,然后與傳統(tǒng)的路徑選擇方法進行成本對比,實驗結果表明PER-DQN 相對于CRF、SPF 有更低的總成本,能夠在相同的資源需求下,選擇總成本更低的數(shù)據(jù)中心執(zhí)行調(diào)度的任務;數(shù)據(jù)中心內(nèi)部任務調(diào)度通過將基于Double DQN 的任務部署算法與RR、Greedy 算法在相同的驗證數(shù)據(jù)集的調(diào)度結果進行對比分析,發(fā)現(xiàn)基于Double DQN的任務部署算法能夠在PUE、過載數(shù)量、溫度方面能夠取得更好的效果。

        由于時間和精力的有限,本文研究還存在以下3 個方面的缺點:1)多數(shù)據(jù)中心選擇和數(shù)據(jù)中心內(nèi)部任務部署兩個階段的任務調(diào)度,只是在各自獨立的階段進行優(yōu)化,無法實現(xiàn)選擇數(shù)據(jù)中心成本最低,同時能在數(shù)據(jù)中心內(nèi)部任務部署達到能耗最小的全局最優(yōu)解決方案;2)在復雜網(wǎng)絡環(huán)境下的數(shù)據(jù)中心選擇上,網(wǎng)絡通信成本應同網(wǎng)絡質(zhì)量密切相關的,且是動態(tài)變化的;3)數(shù)據(jù)中心內(nèi)部任務調(diào)度階段,本文以每個服務器節(jié)點作為動作空間,每個服務器節(jié)點的狀態(tài)和溫度狀態(tài)作為狀態(tài)空間,當數(shù)據(jù)中心規(guī)模很大,就會導致智能體的動作空間、狀態(tài)空間維度很高,給作出合理的決策帶來了更大的挑戰(zhàn),下一步研究考慮通過分層強化學習[26-28]的方法降低動作空間、狀態(tài)空間維度。

        猜你喜歡
        成本智能
        2021年最新酒駕成本清單
        河南電力(2021年5期)2021-05-29 02:10:00
        智能制造 反思與期望
        溫子仁,你還是適合拍小成本
        電影(2018年12期)2018-12-23 02:18:48
        智能前沿
        文苑(2018年23期)2018-12-14 01:06:06
        智能前沿
        文苑(2018年19期)2018-11-09 01:30:14
        智能前沿
        文苑(2018年17期)2018-11-09 01:29:26
        智能前沿
        文苑(2018年21期)2018-11-09 01:22:32
        智能制造·AI未來
        商周刊(2018年18期)2018-09-21 09:14:46
        鄉(xiāng)愁的成本
        特別健康(2018年2期)2018-06-29 06:13:42
        “二孩補貼”難抵養(yǎng)娃成本
        熟妇人妻精品一区二区视频| 国产jizzjizz视频免费看| 秋霞日韩一区二区三区在线观看| 国产精品国产三级在线专区| 精品一区二区av天堂色偷偷| 久久精品国产视频在热| 精品十八禁免费观看| 亚洲av乱码一区二区三区观影| 国产一区二区三区激情视频 | 亚洲精品一区二区成人精品网站| 少妇被爽到高潮喷水久久欧美精品| 国产国语熟妇视频在线观看 | 亚洲欧美日韩综合久久| 国产乱子伦农村xxxx| 一本大道久久a久久综合精品| 亚洲av成人片在线观看| 国产亚洲精久久久久久无码77777| 69堂在线无码视频2020| 一区二区三区国产色综合| 国产乱人激情h在线观看| 色老头一区二区三区| 午夜一区二区在线视频| 中国免费看的片| 国产一区二区三区在线观看免费| 国产成人亚洲精品2020| 国产自拍91精品视频| 亚洲最大av网站在线观看| 婷婷成人亚洲| 一个人的视频免费播放在线观看| 色婷婷av一区二区三区久久| 天天弄天天模| 男人天堂av在线成人av| 国产亚洲综合另类色专区| 永久黄网站色视频免费看| 欧美色五月| 亚洲av手机在线一区| 精品国产免费一区二区三区香蕉| 粗一硬一长一进一爽一a级| 国产精品_国产精品_k频道| 日韩精品网| 国产在线视频网友自拍|