亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于強(qiáng)化學(xué)習(xí)的DASH自適應(yīng)碼率決策算法研究

        2020-05-27 12:55:00馮蘇柳姜秀華
        關(guān)鍵詞:策略

        馮蘇柳,姜秀華

        (中國傳媒大學(xué)信息與通信工程學(xué)院,北京100024)

        1 引言

        隨著無線通信技術(shù)的飛速發(fā)展和智能手機(jī)、平板電腦、移動(dòng)電視等視頻觀看設(shè)備的多樣化,內(nèi)容提供商和用戶對可變網(wǎng)絡(luò)環(huán)境下提供高QoE(用戶體驗(yàn)質(zhì)量)視頻流服務(wù)的需求不斷增加。在這樣的背景下,能夠根據(jù)網(wǎng)絡(luò)環(huán)境動(dòng)態(tài)調(diào)節(jié)請求碼率以最大化QoE的自適應(yīng)流媒體傳輸應(yīng)運(yùn)而生。目前基于HTTP的動(dòng)態(tài)自適應(yīng)流媒體傳輸(MPEG-DASH)標(biāo)準(zhǔn)具有覆蓋廣泛、兼容性良好、部署較簡便等特性,成為自適應(yīng)流媒體傳輸?shù)难芯恐攸c(diǎn)。在DASH中,一個(gè)視頻流被切割成固定時(shí)長的分片,每個(gè)分片存儲有多種碼率,客戶端的播放器根據(jù)當(dāng)前網(wǎng)絡(luò)狀況以及播放信息,采用碼率自適應(yīng)(ABR)決策算法,選擇下個(gè)分片請求的最優(yōu)碼率。DASH標(biāo)準(zhǔn)中并沒有指定ABR算法,所以存在很大的研究空間。ABR算法的總體目標(biāo)是:1)避免由緩沖區(qū)下溢引起的播放中斷,即重緩沖;2)最大化視頻質(zhì)量;3)最小化視頻質(zhì)量切換次數(shù)及幅度以保證視頻播放平滑度。而實(shí)現(xiàn)最優(yōu)的ABR算法存在著以下挑戰(zhàn):1)動(dòng)態(tài)網(wǎng)絡(luò)環(huán)境下實(shí)現(xiàn)精確的吞吐量預(yù)測難度較大;2)ABR算法必須平衡各種QoE指標(biāo),但這些指標(biāo)存在著內(nèi)在沖突,例如高碼率和重緩沖;3)當(dāng)前的碼率決策會(huì)對后續(xù)的決策產(chǎn)生級聯(lián)效應(yīng);4)ABR算法可用的決策碼率是粗粒度的,僅限于給定視頻的可用碼率。所以對ABR算法的研究一直在不斷提升中。

        目前基于客戶端的ABR算法主要有基于吞吐量、基于緩沖和基于混合/控制理論這三類,但這些算法都存在局限性,即它們都使用基于特定環(huán)境的低準(zhǔn)確性的建模來實(shí)現(xiàn)固定的控制算法,這使它們很難捕獲和反映真實(shí)網(wǎng)絡(luò)環(huán)境中動(dòng)態(tài)網(wǎng)絡(luò)的變化情況,并且很難在不同的網(wǎng)絡(luò)環(huán)境下和不同的QoE目標(biāo)上實(shí)現(xiàn)最佳決策。強(qiáng)化學(xué)習(xí)(RL)作為新興的機(jī)器學(xué)習(xí)方法,通過學(xué)習(xí)環(huán)境的動(dòng)態(tài)特性,反復(fù)試驗(yàn)并通過反饋的回報(bào)不斷調(diào)整執(zhí)行策略,逐漸收斂到最優(yōu)策略,目前已廣泛應(yīng)用于無人駕駛、智能控制機(jī)器人等領(lǐng)域。近幾年開始有研究將強(qiáng)化學(xué)習(xí)應(yīng)用于ABR算法并取得了比啟發(fā)式算法更好的效果。所以,采用強(qiáng)化學(xué)習(xí)來研究自適應(yīng)流媒體傳輸中的ABR算法,為用戶提供更加智能化的視頻流服務(wù),對提升用戶體驗(yàn)質(zhì)量,具有重大的意義。

        本文采用了強(qiáng)化學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)相結(jié)合的深度強(qiáng)化學(xué)習(xí)算法,對動(dòng)態(tài)網(wǎng)絡(luò)環(huán)境下的DASH客戶端碼率決策算法進(jìn)行優(yōu)化。

        本文第二章介紹目前的基于客戶端的碼率自適應(yīng)算法研究現(xiàn)狀,第三章介紹本文所采用的的基于深度強(qiáng)化學(xué)習(xí)的碼率決策算法,第四章為實(shí)驗(yàn)部分,新算法和現(xiàn)有算法進(jìn)行比較并分析,最后一章為結(jié)論。

        2 研究現(xiàn)狀

        目前基于客戶端的ABR算法主要有基于吞吐量、基于緩沖和基于混合/控制理論這三類。

        文獻(xiàn)[1]提出了一種基于TCP的AIMD算法,使用平滑的吞吐量測量來探測空閑網(wǎng)絡(luò)容量并檢測擁塞,漸進(jìn)向上切換碼率,檢測到網(wǎng)絡(luò)擁塞時(shí)乘性減小碼率。文獻(xiàn)[2]提出了一種多個(gè)商業(yè)DASH播放器共享瓶頸鏈路,基于公平性、效率和穩(wěn)定性三個(gè)評估指標(biāo)的碼率自適應(yīng)算法,采用歷史吞吐量的調(diào)和均值估計(jì)當(dāng)前帶寬,并且采用有狀態(tài)和延遲的碼率更新以及隨機(jī)下載塊調(diào)度。文獻(xiàn)[3]提出了一種基于緩沖區(qū)的碼率自適應(yīng)算法,構(gòu)建了基于重緩沖、分片質(zhì)量和質(zhì)量切換的QoE模型,并表示為非線性隨機(jī)最優(yōu)控制問題,設(shè)計(jì)了基于動(dòng)態(tài)緩沖區(qū)的PID控制器,該控制器可以確定每個(gè)分片的比特率并穩(wěn)定緩沖區(qū)級別。文獻(xiàn)[4]提出了基于緩沖區(qū)的Lyapunov 算法(BOLA),將碼率自適應(yīng)表示為效用最大化問題,并使用Lyapunov優(yōu)化技術(shù)來求解最優(yōu)策略。BOLA現(xiàn)在是dash.js中實(shí)驗(yàn)算法的一部分。文獻(xiàn)[5]提出了一種基于模型預(yù)測控制(MPC)的算法,該算法結(jié)合吞吐量和緩沖區(qū)占用反饋信號,使用過去5個(gè)塊的吞吐量調(diào)和均值進(jìn)行吞吐量預(yù)測,并采用CPLEX等現(xiàn)有技術(shù)來解決QoE優(yōu)化問題。他們還提出了robust-MPC[6],其控制器等效于吞吐量取下限估計(jì)值輸入的MPC。

        近年來開始出現(xiàn)了基于馬爾可夫決策過程(MDP)的碼率自適應(yīng)算法,將碼率決策模型化為有限狀態(tài)的MDP,在波動(dòng)的網(wǎng)絡(luò)環(huán)境下做出決策。文獻(xiàn)[7]提出了基于Q-learning算法的控制算法,客戶端通過學(xué)習(xí)網(wǎng)絡(luò)環(huán)境的動(dòng)態(tài)特性,根據(jù)每個(gè)狀態(tài)下不同動(dòng)作的Q值選擇當(dāng)前的最佳動(dòng)作,并更新狀態(tài)-動(dòng)作值Q表。與現(xiàn)有的啟發(fā)式算法相比,QoE增加了9.7%。文獻(xiàn)[8]將狀態(tài)空間減少為兩個(gè)變量:緩沖區(qū)級別和可用帶寬,并簡化了回報(bào)函數(shù)。文獻(xiàn)[9][10]也提出了一種基于Q-learning的控制模型,改進(jìn)之處主要在于對回報(bào)函數(shù)的調(diào)整。但由于Q-learing算法要求狀態(tài)空間必須是離散的以及維度災(zāi)難問題,因此出現(xiàn)了使用神經(jīng)網(wǎng)絡(luò)來逼近價(jià)值函數(shù)的深度Q-learning算法(DQN)。文獻(xiàn)[11]采用double-DQN,其主網(wǎng)絡(luò)輸出不同動(dòng)作的近似Q值,目標(biāo)網(wǎng)絡(luò)輸出目標(biāo)Q值。D-DASH[12]根據(jù)分片大小來估計(jì)SSIM代替碼率來作為分片質(zhì)量度量標(biāo)準(zhǔn)[13],還使用混合神經(jīng)網(wǎng)絡(luò)框架,包括前饋神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)。Pensieve[14]采用A3C算法,該算法結(jié)合了策略梯度和基于值函數(shù)的方法,用值函數(shù)來指導(dǎo)策略更新,取得了更高的QoE值。

        本文同樣采用了深度強(qiáng)化學(xué)習(xí)的方法,通過學(xué)習(xí)環(huán)境的動(dòng)態(tài)特性做出決策,并根據(jù)回報(bào)來調(diào)整策略,強(qiáng)化學(xué)習(xí)算法本文采用了OpenAI推出的將值迭代和策略梯度算法相結(jié)合的近似策略優(yōu)化算法(PPO)[15]。

        3 基于并行PPO的ABR算法研究

        3.1 PPO算法簡介

        強(qiáng)化學(xué)習(xí)采用近端策略優(yōu)化算法(PPO),PPO是2017年OpenAI推出的一種新的基于Actor-Critic算法。本文選用該算法的原因是PPO結(jié)合了策略梯度算法和值函數(shù)的優(yōu)勢,但是之前的策略梯度算法存在著學(xué)習(xí)步長難以確定的問題,在訓(xùn)練過程中新舊策略的的變化差異如果過大,相當(dāng)于用了一個(gè)較大的學(xué)習(xí)率,不利于學(xué)習(xí)。而PPO提出了新的目標(biāo)函數(shù),經(jīng)過理論推導(dǎo)得出只要策略參數(shù)朝著增大目標(biāo)函數(shù)的方向更新,就可以保證策略的期望回報(bào)是單調(diào)遞增的,解決了策略梯度算法中步長難以確定的問題。

        原始的AC算法的策略網(wǎng)絡(luò)的損失函數(shù)如式(1)所示。

        (1)

        其中pθ(st,at)為狀態(tài)s下采取動(dòng)作a的概率,優(yōu)勢函數(shù)Aθ(st,at)的含義是在狀態(tài)s下采取動(dòng)作a所獲得的價(jià)值相比于平均價(jià)值有多好,損失函數(shù)的含義是增大獲得較大回報(bào)價(jià)值的動(dòng)作發(fā)生的概率。

        (2)

        為了保證策略的回報(bào)期望是單調(diào)遞增,PPO限制新舊策略不能相差過大。PPO有兩種算法,第一種是PPO-penalty,目標(biāo)函數(shù)如式(3)所示,增加了兩個(gè)策略的KL散度懲罰項(xiàng)。

        KL散度的系數(shù)β隨KL散度而變化,若大于設(shè)定目標(biāo)值,則增大懲罰系數(shù)使得參數(shù)朝著減小KL散度的方向更新,反之亦然。

        (3)

        第二種是PPO-clip,它不在損失函數(shù)中加KL散度懲罰項(xiàng),而是直接對式(3)的第一部分進(jìn)行裁剪,限制在預(yù)設(shè)范圍(1-ε,1+ε)內(nèi),損失函數(shù)如式(4)所示。

        (4)

        為了增加模型探索性,在目標(biāo)函數(shù)中加入了概率熵,熵權(quán)值隨著訓(xùn)練次數(shù)增加而減小。

        本文將實(shí)現(xiàn)PPO-penalty和PPO-clip這兩種算法。

        3.2 算法實(shí)現(xiàn)

        3.2.1 強(qiáng)化學(xué)習(xí)元素

        狀態(tài)選用六種特征,包括過去k個(gè)視頻塊的吞吐量測量矢量;過去k個(gè)視頻塊的下載時(shí)間矢量,代表了吞吐量測量的時(shí)間間隔;下一個(gè)視頻塊的可下載大小的矢量,矢量長度為可選碼率數(shù)量;當(dāng)前緩沖水平;視頻還存留的塊數(shù);上一個(gè)塊下載的碼率。

        回報(bào)函數(shù)選用了ABR算法中常用的線性Qoe模型,包括三個(gè)部分:媒體分片質(zhì)量、重緩沖事件、碼率切換事件,如式(5)所示。碼率切換部分需要先判斷當(dāng)前緩沖是否小于預(yù)設(shè)最低閾值,若小于預(yù)設(shè)閾值,則獎(jiǎng)勵(lì)減小決策碼率的行為,懲罰增大碼率的行為;若大于預(yù)設(shè)閾值,則懲罰減小決策碼率的行為,獎(jiǎng)勵(lì)增大碼率的行為。

        (5)

        3.2.2 網(wǎng)絡(luò)框架

        本文采用PPO結(jié)合神經(jīng)網(wǎng)絡(luò)的算法,包括actor策略網(wǎng)絡(luò)和critic值網(wǎng)絡(luò),網(wǎng)絡(luò)框架圖如圖1所示。

        圖1 PPO算法框架

        Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)的輸入層和隱藏層設(shè)置相同。輸入層為6個(gè)狀態(tài)特征,輸入的狀態(tài)中的三個(gè)序列,包括吞吐量、分片下載完成時(shí)間、當(dāng)前分片大小列表,經(jīng)過一個(gè)一維卷積層,卷積層的size為4,濾波器個(gè)數(shù)設(shè)置為128。輸入狀態(tài)的其他單值特征則輸入一層全連接層,節(jié)點(diǎn)數(shù)設(shè)為128,然后第一層隱藏層的所有輸出合在一起輸入一層全連接層,最后接輸出層。

        Actor網(wǎng)絡(luò)的輸出層為softmax層,輸出節(jié)點(diǎn)數(shù)為動(dòng)作數(shù)量,對應(yīng)輸入狀態(tài)s下不同動(dòng)作a對應(yīng)的概率分布p(a|s),Critic網(wǎng)絡(luò)的輸出層為全連接層,輸出節(jié)點(diǎn)為1,對應(yīng)為輸入狀態(tài)s的狀態(tài)價(jià)值V(s)。

        3.2.3 算法訓(xùn)練

        本文采用并行訓(xùn)練的方法訓(xùn)練PPO算法,即采用多個(gè)不同訓(xùn)練環(huán)境采集樣本,可以提升訓(xùn)練速度,并且樣本分布更加均勻,更利于網(wǎng)絡(luò)的訓(xùn)練。相比于值函數(shù)方法中用經(jīng)驗(yàn)池來存儲歷史樣本,再隨機(jī)抽取樣本訓(xùn)練,并行訓(xùn)練可以大大地節(jié)省存儲空間。并行訓(xùn)練的框架如圖2所示。

        圖2 并行訓(xùn)練框架

        各個(gè)agent在各自的環(huán)境下進(jìn)行不斷決策,獲取到?jīng)Q策軌跡(s,a,r,s_next),然后積累到一定樣本時(shí)送到central_agent,對網(wǎng)絡(luò)參數(shù)進(jìn)行更新,更新完之后把參數(shù)復(fù)制給agent網(wǎng)絡(luò)。

        本文采用了兩種并行訓(xùn)練的方式,一種是同步并行,即等所有agent采集完足夠的樣本,把所有agent的(s,a,r,s_next)送入到central_agent,計(jì)算梯度然后更新網(wǎng)絡(luò)參數(shù),更新完后把參數(shù)分發(fā)給各個(gè)agent。另一種是異步并行,即只要有一個(gè)agent采集完足夠的樣本,就把該agent的(s,a,r,s_next)送入到central_agent,計(jì)算梯度然后更新網(wǎng)絡(luò)參數(shù),更新完后把參數(shù)分發(fā)給該agent。本文將同時(shí)采用這兩種訓(xùn)練方式。

        4 實(shí)驗(yàn)結(jié)果

        4.1 實(shí)驗(yàn)準(zhǔn)備

        測試視頻選用DASH-246 JavaScript參考客戶端的“Envivio-Dash3”序列,該視頻采用H.264/MPEG-4編碼,總時(shí)長為193秒,被分割成48個(gè)分片,每個(gè)分片的可用碼率包括{300,750,1200,1850,2850,4300}六種,分片時(shí)長為4秒。訓(xùn)練和測試的網(wǎng)絡(luò)軌跡選用挪威收集的3G / HSDPA移動(dòng)數(shù)據(jù)集,由傳輸過程中(如通過公交、火車等)流媒體視頻的移動(dòng)設(shè)備生成。訓(xùn)練集包含了127個(gè)軌跡文件,每個(gè)文件包括300-1500個(gè)時(shí)刻的吞吐量測量值;測試集包含了147個(gè)軌跡文件,每個(gè)文件只有50-250個(gè)時(shí)刻的吞吐量測量值。吞吐量范圍在0.2~6Mbps。本實(shí)驗(yàn)是在ubuntu16.04的Pycharm中下進(jìn)行仿真,模擬碼率決策和分片下載過程。

        4.2 實(shí)驗(yàn)結(jié)果

        采用PPO-clip的算法,且同步并行訓(xùn)練。輸出本課題算法及現(xiàn)有算法在測試軌跡集上的總回報(bào)均值,如表1所示。

        表1 不同算法在各個(gè)測試軌跡的總回報(bào)均值

        可以看出,本文的算法在相同的測試軌跡下獲得的總回報(bào)均值要高于現(xiàn)有算法。繪制不同算法在測試軌跡集上的總回報(bào)的累積分布曲線,如圖3所示。

        圖3 不同算法在測試軌跡上的總回報(bào)累積分布曲線

        可以看出,在橫軸相同的區(qū)間范圍內(nèi),本文算法在縱軸的比例較大,說明PPO算法落在較高回報(bào)值區(qū)間的比例最大。

        隨機(jī)選取一個(gè)軌跡,輸出各個(gè)算法在測試軌跡下的碼率選擇,緩存區(qū)余量,帶寬隨時(shí)間變化曲線,如圖4所示。

        可以看出,PPO算法能夠保證選擇較高碼率并且較穩(wěn)定,碼率切換頻率較小,并且能夠充分利用緩沖,在吞吐量即使較小時(shí),如果緩沖區(qū)較充足,仍然選擇較大碼率,同時(shí)在緩存區(qū)低于門限值時(shí)能夠立即減小碼率。

        選用ppo-pen、ppo-clip和同步并行、異步并行組合訓(xùn)練,輸出四種方法下在測試軌跡集上的總回報(bào)均值,如表2所示。

        表2 ppo-pen、ppo-clip及同步并行、異步并行組合訓(xùn)練在測試軌跡上的總回報(bào)均值

        從ppo算法上看,ppo-clip總回報(bào)值要略高于ppo-pen,從并行訓(xùn)練方式上看,同步并行總回報(bào)值較高于異步并行。

        從ppo算法分析,從式(3)和式(4)可以看出,ppo-clip是直接對新舊策略的比值進(jìn)行一定程度的裁剪,可以保證兩次更新之間的分布差距不大。從并行訓(xùn)練方式分析,異步并行會(huì)導(dǎo)致過期梯度情況,即cenral_agent在更新當(dāng)前網(wǎng)絡(luò)參數(shù)時(shí)使用的從agent傳來的梯度可能是多次更新之前的參數(shù),這樣會(huì)導(dǎo)致梯度下降的過程變得不穩(wěn)定,而實(shí)驗(yàn)中輸出agent使用的參數(shù),小于當(dāng)前central_agent的參數(shù)版本在10-16,充分說明過期梯度的問題。對于這個(gè)問題,目前有研究提出給梯度增加延時(shí)補(bǔ)償,利用梯度函數(shù)的泰勒展開來有效逼近損耗函數(shù)的Hessian矩陣。

        輸入狀態(tài)的時(shí)間序列長度slen分別設(shè)置為1,4,8,16,采用ppo-clip及同步并行訓(xùn)練,輸出這四種設(shè)置在測試軌跡上的總回報(bào)均值,如表3所示。

        表3 四種不同的時(shí)間序列長度在測試軌跡上的總回報(bào)均值

        可以看出,時(shí)間序列由1增大到4、由4增大到8時(shí),總回報(bào)均值均有較大提升,但是由8增大到16時(shí),總回報(bào)均值沒有增大,反而有略微減小。

        結(jié)果說明一定程度的增大歷史吞吐量的數(shù)量可以提升碼率決策性能,因?yàn)橐欢ǖ臍v史吞吐量信息有利于較為準(zhǔn)確地預(yù)測當(dāng)前帶寬,但是歷史吞吐量數(shù)量增大到一定程度性能不再提升,因?yàn)楫?dāng)前動(dòng)作對未來回報(bào)的影響是逐漸衰減的,越久之前的信息對當(dāng)前影響越小。

        5 結(jié)論

        本文采用了強(qiáng)化學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)相結(jié)合的DRL算法,實(shí)現(xiàn)了DASH客戶端的自適應(yīng)碼率決策算法。在真實(shí)網(wǎng)絡(luò)軌跡數(shù)據(jù)集上進(jìn)行多種算法的測試,實(shí)驗(yàn)結(jié)果表明:本文所采用的算法能夠獲得比現(xiàn)有算法更高質(zhì)量的用戶體驗(yàn),并且具有較少的重緩沖事件和質(zhì)量切換事件。

        猜你喜歡
        策略
        基于“選—練—評”一體化的二輪復(fù)習(xí)策略
        幾何創(chuàng)新題的處理策略
        求初相φ的常見策略
        例談未知角三角函數(shù)值的求解策略
        我說你做講策略
        “我說你做”講策略
        數(shù)據(jù)分析中的避錯(cuò)策略
        高中數(shù)學(xué)復(fù)習(xí)的具體策略
        “唱反調(diào)”的策略
        幸福(2017年18期)2018-01-03 06:34:53
        價(jià)格調(diào)整 講策略求互動(dòng)
        日本乱子人伦在线视频| 亚洲av午夜一区二区三| 久久不见久久见免费影院| 国产无遮挡又黄又爽又色| 免费高清日本中文| 人妖与人妖免费黄色片| 激情人妻另类人妻伦| 国产人妻精品一区二区三区| 久久精品国产99久久丝袜| 亚洲在线一区二区三区| 色佬精品免费在线视频| 亚洲h在线播放在线观看h| 亚洲精品中文字幕无乱码麻豆| 久久免费网站91色网站| 在线观看国产成人自拍视频| 久久青青草原亚洲av无码麻豆| 少妇精品无码一区二区三区| 加勒比东京热久久综合| 日韩精品极品免费视频观看| 国产真实乱对白精彩| 亚洲午夜精品a区| 日美韩精品一区二区三区| 巨爆中文字幕巨爆区爆乳| 色屁屁www影院免费观看入口| 全免费a级毛片免费看| 日韩国产自拍视频在线观看| 国产一精品一av一免费爽爽| 无码国产精品一区二区vr老人| 精品久久久无码不卡| 久久女人精品天堂av影院麻 | 日韩精品久久午夜夜伦鲁鲁| 夜夜躁狠狠躁日日躁2022| 亚洲熟妇少妇69| 偷拍一区二区三区在线观看| 国产精品一区二区日本| 人妻无码aⅴ不卡中文字幕| 国产黑色丝袜在线观看视频| 丰满少妇被爽的高潮喷水呻吟| 东京道一本热中文字幕| 在线欧美不卡| 日韩女同一区二区三区久久|