亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度強化學(xué)習(xí)的碼率自適應(yīng)算法研究

        2022-07-07 08:03:20李澤平
        電子學(xué)報 2022年5期
        關(guān)鍵詞:策略

        易 令,李澤平

        (貴州大學(xué)計算機科學(xué)與技術(shù)學(xué)院,貴州貴陽 550025)

        1 引言

        隨著視頻觀眾不斷增加,視頻流量呈上升趨勢,預(yù)計未來幾年內(nèi)視頻流量將占據(jù)互聯(lián)網(wǎng)流量的80%以上[1].研究表明[2]:觀眾會因視頻啟動緩慢、播放碼率較低或經(jīng)??D等問題而縮短觀看時長,甚至放棄觀看視頻,從而減少視頻供應(yīng)商創(chuàng)收的機會.用戶希望觀看到高質(zhì)量的視頻,視頻質(zhì)量可以通過視頻編碼的碼率來量化.當(dāng)視頻以較高的碼率呈現(xiàn)時,用戶觀看更加投入,觀看時間更長[3].然而,由于網(wǎng)絡(luò)帶寬限制,用戶并不能夠持續(xù)觀看高碼率的視頻.如果選擇高于可用網(wǎng)絡(luò)帶寬的碼率將導(dǎo)致視頻在播放過程中重新緩沖,因為視頻的播放速率超過了視頻的下載速率.

        基于HTTP(HyperText Transfer Protocol)的動態(tài)自適應(yīng)流(Dynamic Adaptive Streaming over HTTP,DASH)[4]是目前視頻在線傳輸?shù)闹饕问?視頻文件被切分為不同碼率的視頻塊存儲在服務(wù)器上,視頻客戶端的ABR(Adaptive BitRate)算法根據(jù)緩沖區(qū)占用率和網(wǎng)絡(luò)吞吐量向服務(wù)器請求最優(yōu)碼率的視頻,服務(wù)器根據(jù)請求的碼率找到對應(yīng)的視頻塊發(fā)送給視頻客戶端.

        針對ABR 算法Pensieve[5]存在訓(xùn)練時間長、不穩(wěn)定、收斂困難和不能請求最優(yōu)碼率等問題,本文提出DRLA,一種基于深度強化學(xué)習(xí)的碼率自適應(yīng)算法.DRLA 利用基線(baseline)函數(shù)減少因不同獎勵值造成的策略梯度方差,加速收斂;同時,通過限制新舊策略的更新幅度,避免了因新舊策略差異過大而造成收斂困難,提升了算法的魯棒性;最后采用置信域方法優(yōu)化策略,進一步提升ABR算法的性能.

        2 相關(guān)工作

        圖1 是ABR 算法工作原理:ABR 算法根據(jù)客戶端當(dāng)前緩沖區(qū)占用率和網(wǎng)絡(luò)吞吐量通過HTTP 協(xié)議向視頻服務(wù)器請求最優(yōu)碼率的視頻,服務(wù)器根據(jù)請求找到對應(yīng)碼率的視頻發(fā)送給播放器.ABR 算法需優(yōu)化QoE(Quality of Experience):(1)最小化重新緩沖事件,防止緩沖區(qū)為空導(dǎo)致沒有視頻播放;(2)盡可能請求高碼率的視頻;(3)維持緩沖區(qū)穩(wěn)定,盡量避免頻繁緩沖或頻繁碼率切換.

        圖1 ABR算法工作原理

        ABR 算法目前主要分為3 類[5]:基于傳統(tǒng)啟發(fā)式、基于強化學(xué)習(xí)和基于深度強化方法.基于傳統(tǒng)啟發(fā)式的ABR 算法研究進展:Spiteri 等[6]使用李雅普諾夫算法優(yōu)化緩沖區(qū)占用率(Buffer Occupancy based Lyapunov Algorithm,BOLA),目的是穩(wěn)定緩沖區(qū)容量以減少重新緩沖時間,提高視頻質(zhì)量.Sun 等[7]根據(jù)視頻塊的下載情況(Cross Session Stateful Predictor,CS2P)采用馬爾科夫模型來預(yù)測網(wǎng)絡(luò)吞吐量,在網(wǎng)絡(luò)帶寬增加的情況下,CS2P 將會請求更高碼率的視頻.Festive 算法[8]根據(jù)過去幾個視頻塊的網(wǎng)絡(luò)吞吐量下載情況,使用諧波均值方法預(yù)測碼率,將預(yù)測的碼率限制在一定范圍內(nèi).Yin 等[9]應(yīng)用控制論方法(Model Predictive Control,MPC)結(jié)合緩沖區(qū)占用率和網(wǎng)絡(luò)吞吐量預(yù)測碼率,然而該算法嚴(yán)重依賴于網(wǎng)絡(luò)吞吐量的準(zhǔn)確預(yù)測.由于網(wǎng)絡(luò)吞吐量是實時變化的,因此MPC 很難準(zhǔn)確預(yù)測網(wǎng)絡(luò)吞吐量.

        基于強化學(xué)習(xí)的ABR 算法研究進展:Claeys 等[10]采用強化學(xué)習(xí)Q-learning 預(yù)測碼率,該算法以表格的形式存儲和學(xué)習(xí)狀態(tài)價值函數(shù),而不是采用神經(jīng)網(wǎng)絡(luò)近似方法;但在真實的網(wǎng)絡(luò)條件下存在大量的狀態(tài)與動作空間,由于表格的存儲有限,因此不適應(yīng)真實的網(wǎng)絡(luò)帶寬條件.Mao 等[11]提出了基于強化學(xué)習(xí)的ABR 算法(Reinforcement Learning based ABR,ABRL),利用貝葉斯[12]優(yōu)化QoE 的各項指標(biāo),通過訓(xùn)練線性策略來減少視頻客戶端與后臺模擬環(huán)境之間的時延;但線性函數(shù)會導(dǎo)致ABR算法性能下降.

        基于深度強化學(xué)習(xí)的ABR 算法研究進展:Pensieve[5]使用異步優(yōu)勢方法[13]訓(xùn)練神經(jīng)網(wǎng)絡(luò)生成ABR算法,比簡單固定的啟發(fā)式ABR 算法提升了QoE.但Pensieve 在訓(xùn)練時存在收斂慢和不穩(wěn)定等不足,造成訓(xùn)練難以獲得最優(yōu)的ABR 算法模型.Lekharu 等[14]采用長短記憶(Long Short-Term Memory)網(wǎng)絡(luò)替換卷積網(wǎng)絡(luò)進行時序特征提取,從而提高QoE;但該方法不能有效地學(xué)習(xí)基線函數(shù),導(dǎo)致訓(xùn)練效率低.Gadaleta 等[15]提出了一種Deep Q-learning 的ABR 算法,與Actor-Critic 方法相比,具有更快的收斂速度;但Q 學(xué)習(xí)的最大化策略函數(shù)會造成高估問題,導(dǎo)致預(yù)測碼率不準(zhǔn)確.針對現(xiàn)有方法沒有考慮優(yōu)化多用戶偏好QoE 問題,因此Huo 等[16]提出了基于元學(xué)習(xí)的ABR 算法,將元學(xué)習(xí)與多任務(wù)深度強化學(xué)習(xí)相結(jié)合,能夠優(yōu)化不同用戶的多樣化QoE.

        3 問題建模

        強化學(xué)習(xí)(Reinforce Learning,RL)是Agent 與環(huán)境交互以獲得最大累計獎勵的學(xué)習(xí)方法.Agent 從環(huán)境中觀察到狀態(tài)st(視頻碼率Rn、緩沖區(qū)占用率Bt和網(wǎng)絡(luò)吞吐量C)t并采取動作at(視頻碼率Rn)給環(huán)境,環(huán)境反饋給Agent 獎勵rt,且狀態(tài)轉(zhuǎn)移到st+1.整個過程遵循馬爾科夫狀態(tài)轉(zhuǎn)移(Markov Decision Process,MDP),MDP 用元組<st,at,rt>來描述.其中st={Rn,Bt,C}t,有關(guān)RL 的各項參數(shù)定義如下:

        輸入(狀態(tài)st)神經(jīng)網(wǎng)絡(luò)的輸入由視頻碼率Rn、緩沖區(qū)占用率Bt和網(wǎng)絡(luò)吞吐量Ct三部分組成.詳細描述如下:

        (1)視頻碼率(Rn):視頻V由N個連續(xù)的視頻塊組成,即V={1,2,…,N},每一個視頻塊包含M秒的視頻并以不同的碼率進行編碼.令Z為所有可用視頻碼率的集合,視頻播放器能夠選擇下載視頻塊n在碼率Rn∈Z,令dn(Rn)為視頻碼率Rn的大小.在恒定碼率的情況下:dn(Rn)=M×Rn,在不同碼率的情況下:dn~Rn為不同碼率的視頻塊.選擇的碼率Rn越高,用戶感知視頻的質(zhì)量q(Rn)就越高.

        (2)緩沖區(qū)占用率(Bt):視頻塊從播放器的緩沖區(qū)下載時,包含已經(jīng)下載和剩余的視頻塊.令Bt∈[0,Bmax]為時間t的緩沖區(qū)占用率,即緩沖區(qū)內(nèi)剩余視頻塊的播放時間Bmax為緩沖區(qū)的最大容量,取決于具體的播放器.

        (3)網(wǎng)絡(luò)吞吐量(Ct):視頻塊n在時間t的網(wǎng)絡(luò)吞吐量為Ct.視頻播放器從時間tn開始下載視頻塊n,該塊的下載時間為dn(Rn)/Cn,取決于所選塊的碼率Rn和下載過程中的平均下載速率Cn.一旦塊n被完全下載,視頻播放器將等待Δtn并開始下載在時間tn+1的視頻塊n+1.

        輸出(動作at) 在狀態(tài)空間st下采取對應(yīng)動作at可能的概率,輸出是一個n維向量.視頻碼率Rn對應(yīng)下載速率Cn,即視頻流傳輸?shù)骄彌_區(qū)的過程中,播放器根據(jù)下載速率Cn選擇對應(yīng)碼率Rn,輸出為離散的動作空間.

        獎勵值(rt)RL 的目標(biāo)是使累積獎勵值rt最大,即使用戶感知的視頻質(zhì)量q(Rn)、不同塊之間的切換頻率|q(Rn+1)-q(Rn)|和重新緩沖時間Tn三個指標(biāo)的加權(quán)值QoE 最大,QoE 線性公式已經(jīng)被廣泛用于評估ABR 算法[3,5~11].用戶觀看一段視頻由N個連續(xù)的視頻塊組成,因此本文的QoE公式總結(jié)為

        其中α,λ,μ分別是視頻質(zhì)量,視頻質(zhì)量變化和重新緩沖時間變化對應(yīng)的非負權(quán)重系數(shù).QoE 的各項指標(biāo)之間的變量關(guān)系滿足文獻[9].

        4 DRLA算法設(shè)計

        DRLA 算法的目標(biāo)是使式(1)的QoE 值最大,在問題建模的基礎(chǔ)上,通過優(yōu)化策略得到最優(yōu)策略函數(shù),且端到端訓(xùn)練神經(jīng)網(wǎng)絡(luò)生成ABR 算法模型.下面將詳細介紹DRLA 算法具體優(yōu)化、模擬環(huán)境、神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計和訓(xùn)練過程.

        4.1 算法優(yōu)化

        對于DRLA 算法,存在最優(yōu)策略π,優(yōu)于或至少等于其余所有策略.訓(xùn)練采用策略梯度[17]方法,該方法是使累計期望獎勵值最大,優(yōu)化策略π的參數(shù)θ.通過搜索最佳策略π來訓(xùn)練Agent 沿軌跡(動作、狀態(tài)和獎勵)方向移動,該優(yōu)化過程目的是最大化目標(biāo)函數(shù)J(π)并求梯度:

        (1)基線函數(shù)方法優(yōu)化損失函數(shù)L

        關(guān)于損失函數(shù)L定義如下:

        (2)熵損失函數(shù)

        為防止L局部收斂到次優(yōu)確定性策略π,將π的熵H添加到目標(biāo)函數(shù),鼓勵A(yù)gent 隨機探索達到最優(yōu)策略.關(guān)于熵正則項[13]以及包含策略函數(shù)的梯度表示為

        其中超參數(shù)β控制熵正則項更新幅度,?θlogπθ(st,at)指導(dǎo)優(yōu)勢函數(shù)A的策略梯度更新方向,優(yōu)勢函數(shù)A是對狀態(tài)價值函數(shù)的蒙特卡羅近似.優(yōu)勢函數(shù)定義為

        A(st,at)為動作at帶來的優(yōu)勢,即Agent 從環(huán)境中觀察到獎勵rt與基線bt之差.

        (3)新舊策略的散度

        由于策略π在更新過程中具有隨機性,如果新策略與舊策略差距過大,損失函數(shù)L難以收斂,Agent在探索過程中則會浪費很多時間,導(dǎo)致DRLA算法不能收斂到最優(yōu)策略.因此約束新舊策略的KL散度[21]有利于收斂.表示如下:

        (4)置信域優(yōu)化

        通過πold進行抽樣,得

        又因為πθ?logπθ=?πθ,得

        該策略梯度對應(yīng)的目標(biāo)函數(shù)為

        為了約束新舊策略的更新幅度,加入KL 散度作為正則項:

        其中,超參數(shù)β1是在實驗迭代過程中動態(tài)調(diào)整,約束KL散度.

        Actor網(wǎng)絡(luò)的參數(shù)更新是根據(jù)Critic網(wǎng)絡(luò)進行的,以最大化J(πθ).策略網(wǎng)絡(luò)參數(shù)θ更新為

        因此得到目標(biāo)函數(shù)J(π)之后,Agent在訓(xùn)練過程中每次都能請求最優(yōu)碼率,能夠讓式(1)的QoE 最大,DRLA算法最優(yōu).

        4.2 詳細設(shè)計

        模擬環(huán)境模擬環(huán)境表示視頻客戶端的內(nèi)置緩沖區(qū),包括緩沖區(qū)容量Bmax和當(dāng)前緩沖區(qū)大小Bt.當(dāng)每個視頻塊n被下載后,模擬環(huán)境調(diào)用ABR 算法,由ABR 算法決策下一個視頻塊的碼率Rn.對于每一個視頻塊的下載,模擬環(huán)境根據(jù)視頻塊的碼率Rn和跟蹤得到的平均下載速率Cn來確定下載時間dn(Rn)/Cn.如果下載完當(dāng)前所有的視頻塊,將會清空緩沖區(qū)置Bt=0.如果當(dāng)前緩沖區(qū)的容量Bt小于下載時間dn(Rn)/Cn,將會清空緩沖區(qū)并停止下載.然后,模擬環(huán)境將下載視頻塊的持續(xù)時間添加到緩沖區(qū).當(dāng)緩沖區(qū)容量Bt大于設(shè)置值Bmax時,模擬環(huán)境則停止下載視頻塊.

        視頻流通過緩沖區(qū)進行播放,每一個視頻塊從緩沖區(qū)下載后,模擬環(huán)境需記錄:(1)預(yù)測的網(wǎng)絡(luò)吞吐量Ct+1;(2)下載前一個視頻塊的網(wǎng)絡(luò)吞吐量Ct;(3)下載前一個視頻塊消耗的時間dn(Rn)/Cn;(4)緩沖區(qū)內(nèi)剩余視頻塊的數(shù)量N.根據(jù)以上信息預(yù)測的碼率Rn作為輸出,輸出是一個離散的動作空間.

        神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)DRLA 算法的網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示,隱藏層數(shù)為1,采用128個卷積核和全連接網(wǎng)絡(luò)進行特征提取,其中卷積核大小為4,步長為1.結(jié)合了卷積網(wǎng)絡(luò)的局部感知和全連接網(wǎng)絡(luò)的全局感知特性有效進行特征提取,從而提高了算法的泛化性和魯棒性.

        圖2 DRLA算法框架

        我們做了大量對比實驗,通過改變神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),比較不同神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)對QoE 值的影響.表1 首先是固定隱藏層的數(shù)量,改變卷積核和隱藏層神經(jīng)元的數(shù)量.這些參數(shù)的使用是并行的,例如神經(jīng)元的數(shù)量為4,卷積核的數(shù)量也為4.神經(jīng)元和卷積核的數(shù)量如表1 所示,數(shù)量從4 增加到128.當(dāng)數(shù)量超過16 時,QoE 值逐漸趨向于平穩(wěn).當(dāng)數(shù)量達到128 時(DRLA 算法的設(shè)置值),QoE值和穩(wěn)定性達到最優(yōu).

        表1 不同卷積核和神經(jīng)元的數(shù)量對QoE值和算法穩(wěn)定性的影響

        由表2可知,當(dāng)神經(jīng)元和卷積核的數(shù)量固定為128,改變隱藏層的數(shù)量.我們發(fā)現(xiàn)當(dāng)隱藏層的數(shù)量為1 時,性能最好,這也是本文算法所采用的.隨隱藏層數(shù)增加,QoE 值逐漸減小.增加隱藏層數(shù)花費了大量的訓(xùn)練時間,但沒有提高算法的性能.

        表2 不同隱藏層的數(shù)量對QoE值和算法穩(wěn)定性的影響

        訓(xùn)練過程DRLA 算法在訓(xùn)練過程中使用RL actor-critic方法,訓(xùn)練過程如下:

        步驟1:狀態(tài)st作為輸入,輸入狀態(tài)包括6 個變量,分別是網(wǎng)絡(luò)吞吐量(throughtput)、視頻塊的下載時間(chunk download time)、下一個視頻塊的大小(next chunk sizes)、緩沖區(qū)的容量(buffer size)、緩沖區(qū)剩余視頻塊的數(shù)量(remaining chunks)和視頻塊的碼率(chunk bitrate).

        步驟2:在接收到狀態(tài)st后,Agent 基于策略π選擇相應(yīng)的動作at,概率分布定義為π:π(st,a)t→[0,1],π(st,a)t是動作at在狀態(tài)st下可能采取的動作概率.由于有許多的動作、狀態(tài)和獎勵,因此采用神經(jīng)網(wǎng)絡(luò)參數(shù)θ來調(diào)整所有的策略參數(shù).

        步驟3:在采取每個動作at之后,環(huán)境反饋給Agent對應(yīng)at的獎勵rt,目標(biāo)是從環(huán)境中獲得累計獎勵最大.因此,獎勵是根據(jù)式QoE 的各項參數(shù)進行設(shè)置,反映QoE的各項指標(biāo).

        步驟4:Agent 對碼率決策的軌跡進行采樣,然后使用經(jīng)驗數(shù)據(jù)值計算優(yōu)勢函數(shù)A作為無偏估計,Actor 網(wǎng)絡(luò)每次更新如下:

        其中β約束熵的更新幅度;策略πθ更新概率大小取決于優(yōu)勢函數(shù)A,優(yōu)勢函數(shù)A越大表明帶來的獎勵值越大,則增加該方向的動作概率.

        步驟5:從經(jīng)驗數(shù)據(jù)中計算優(yōu)勢函數(shù)A,需要對狀態(tài)價值函數(shù)進行估計,即從狀態(tài)st開始遵循策略πθ的累計期望獎勵.Critic 網(wǎng)絡(luò)的作用是從經(jīng)驗數(shù)據(jù)中觀察到獎勵值rt并對進行估計,利用Reinforce 算法訓(xùn)練Critic 網(wǎng)絡(luò)參數(shù)θv:

        其中α是Critic 網(wǎng)絡(luò)的學(xué)習(xí)率.優(yōu)勢函數(shù)A表示為,其中bt為基線函數(shù),bt采用文獻[18]的輸入依賴(input-dependent)方法,能夠孤立獎勵函數(shù),消除外部因素產(chǎn)生的方差.

        5 實驗結(jié)果與分析

        5.1 實驗環(huán)境與參數(shù)設(shè)置

        選擇2 臺PC 機,配置為Intel Xeon E5-2620 CPU、64 GB 內(nèi)存、64 位Ubuntu20.04、64 位Windows7 操作系統(tǒng)作為實驗平臺,Python3.5、TensorFlow1.5、Apache2、Google Chrome和FFmpeg等開發(fā)工具.

        本文使用FCC[23],HSDPA[24]和4G LTE[25]網(wǎng)絡(luò)帶寬數(shù)據(jù)集,數(shù)據(jù)集特征如下:

        FCC 數(shù)據(jù)集是用戶在火車、汽車和公交車觀看視頻所產(chǎn)生,粒度為5 s,超過100 萬條軌跡吞吐量范圍為0~111 Mbit/s.

        HSDPA 數(shù)據(jù)集用戶在地鐵、電車、火車、公共汽車和渡輪產(chǎn)生的,粒度為1 s,軌跡條數(shù)為86,吞吐量范圍為0~3 Mbit/s.

        4G LTE 數(shù)據(jù)集靜態(tài)、行人、汽車、公共汽車和火車等移動模式,粒度為1 s,持續(xù)時間為15 min,軌跡條數(shù)為135,吞吐量范圍為0~173 Mbit/s.

        在本次實驗中,選取的網(wǎng)絡(luò)吞吐量大于0.2 Mbps小于6 Mbps,選取相對較低值的網(wǎng)絡(luò)吞吐量是為了讓訓(xùn)練生成的ABR 算法模型更優(yōu)[5].本次實驗選取2000條網(wǎng)絡(luò)軌跡,其中使用80%用于訓(xùn)練,20%用于測試.

        式(1)的QoE 參數(shù)設(shè)置:N為8,α為1,λ為4.3,μ為1.訓(xùn)練過程中熵因子從1到0.1迭代超過16萬輪,每輪大小為100,γ=0.99,使用了Relu 激活函數(shù)和Adam 優(yōu)化器.在整個實驗過程中,根據(jù)損失函數(shù)的變化,調(diào)整Actor 和Critic 網(wǎng)絡(luò)的學(xué)習(xí)率,分別調(diào)整為0.0001 和0.001,環(huán)境反饋給Agent的獎勵值是QoE值.

        5.2 結(jié)果分析

        實驗結(jié)果使用TensorBoard 深度學(xué)習(xí)工具可視化DRLA 與Pensieve 訓(xùn)練過程中的熵(entropy)和獎勵(reward)值,如圖3和4所示.

        圖3 DRLA訓(xùn)練情況

        圖4 Pensieve訓(xùn)練情況

        從圖3 與4 對比的獎勵值和熵損失函數(shù)值可以看出DRLA 收斂、穩(wěn)定.DRLA 通過優(yōu)化ABR 策略并限制新舊策略的更新幅度,利用基線函數(shù)減少方差,使得累計獎勵值不斷增加.而Pensieve 由于Agent 在探索過程中新舊策略的更新幅度是隨機的,沒有消除外部因素產(chǎn)生的方差,所以導(dǎo)致獎勵值波動很大且不穩(wěn)定.從累計獎勵值可以看出,DRLA 收斂之后平均獎勵值是0.861,而Pensieve 是0.768,平均獎勵值差距是9.3%,表明DRLA 獲得的期望累計獎勵值更高.由獎勵函數(shù)的收斂情況可知,DRLA 訓(xùn)練效率更高,訓(xùn)練到6 萬輪收斂,而Pensieve 訓(xùn)練到16 萬輪仍然沒有收斂.

        5.3 DRLA與現(xiàn)有ABR算法比較

        為評估DRLA,比較了DRLA 與現(xiàn)有最先進ABR 算法的QoE,QoE 的表達式為式(1).實驗評估:3 類網(wǎng)絡(luò)帶寬數(shù)據(jù)集(FCC,HSDPA 和4G LTE);視頻:切分為48個視頻塊,每個視頻塊時長約為4 s,共計時長為193 s;H.264/MPEG-4編碼:{300,750,1200,1850,2850,4300}kbps,對應(yīng)視頻播放器的顯示分辨率為{240,360,480,720,1080,1440}p;視頻播放器:Google Chrome;視頻服務(wù)器:Apache2.

        (1)BOLA 算法[6]:基于緩沖區(qū)占用率的ABR 算法,只單獨考慮了緩沖區(qū)占用率使用李雅普諾夫來優(yōu)化請求的碼率.

        (2)ABRL 算法[11]:基于強化學(xué)習(xí)的ABR 算法,為了有利于部署和實現(xiàn),將神經(jīng)網(wǎng)絡(luò)ABR 策略翻譯為線性策略,通過擬合線性模型做出碼率決策

        CDF(Cumulative Distribution Function)概率分布圖能夠評估QoE 總體變化情況,越往右表明QoE 越高.如圖5所示,DRLA的QoE平均高于ABRL的10.3%,BOLA的23.7%.在開始的一段獎勵中,差距在15%以上,表明DRLA算法播放視頻的平均質(zhì)量高、重新緩沖時間少和不同碼率之間切換頻率少.在復(fù)雜的網(wǎng)絡(luò)條件下,當(dāng)網(wǎng)絡(luò)帶寬變得很差時,由于DRLA學(xué)會調(diào)節(jié)緩沖區(qū)占用率,通過低碼率的視頻補償當(dāng)前的低帶寬,一旦網(wǎng)絡(luò)帶寬增加,就會請求高碼率的視頻來提升QoE.但是BOLA 只考慮緩沖區(qū)占用率,沒有充分利用網(wǎng)絡(luò)帶寬信息,則不能根據(jù)可用網(wǎng)絡(luò)帶寬請求最佳碼率的視頻.而ABRL 將神經(jīng)網(wǎng)絡(luò)翻譯為線性策略,這使得決策時泛化能力下降,則不能適應(yīng)不同的網(wǎng)絡(luò)帶寬.

        圖5 FCC數(shù)據(jù)集上的QoE概率分布情況

        為進一步說明DRLA 算法的泛化性,即QoE 更高,訓(xùn)練過程中我們也與最先進的ABR 算法Comyco[26](基于緩沖區(qū)占用率與網(wǎng)絡(luò)吞吐量的ABR 算法,采用深度強化學(xué)習(xí)模仿學(xué)習(xí)方法,在實現(xiàn)過程中我們也采取了這種方法進行訓(xùn)練)進行了比較,實驗結(jié)果如圖6所示.

        圖6 DRLA與Comyco累計獎勵值變化情況

        由圖6 可知,DRLA 的累計獎勵值高于Comyco 的3.4%~7.8%,由于DRLA 的熵損失函數(shù)值H能夠逐漸減少,輸入依賴基線函數(shù)bt消除方差,有利于Agent向高獎勵值方向探索,因此QoE更高.

        實驗過程中我們也在HSDPA 與4G LTE 數(shù)據(jù)集上進行了測試.實驗結(jié)果如圖7和圖8所示.

        圖7 HSDPA 數(shù)據(jù)集上的QoE概率分布情況

        圖8 4G LTE 數(shù)據(jù)集上的QoE概率分布情況

        由圖7 可知,DRLA 的QoE 比Comyco 與Pensieve 分別提高了4.6%和17.4%.在整個QoE 概率分布情況中,Pensieve 的QoE 均低于另外2 類算法.由于Pensieve 沒有解決因大量不同的網(wǎng)絡(luò)吞吐量產(chǎn)生的策略梯度方差,因此難以獲得較好的ABR策略.DRLA與Comyco利用基線函數(shù)解決了方差問題,整體QoE 均表現(xiàn)較好.但DRLA 的QoE 更高,由于DRLA 優(yōu)化了策略,能適應(yīng)大量不同的網(wǎng)絡(luò)吞吐量,在沒有遇見的網(wǎng)絡(luò)吞吐量情況下也能平衡QoE 的各項指標(biāo),最大化QoE,減少重新緩沖時間與不同碼率之間的切換頻率.

        由 圖8 可 知,DRLA 的QoE 比Pensieve 與BOLA 分別提高了12.4%和16.8%.DRLA 在整個概率分布圖中均高于另外2 類算法,表明在所有ABR 策略決策中,DRLA 能夠平衡視頻碼率與卡頓時長以最大化QoE.因為DRLA 消除了策略梯度方差且優(yōu)化了ABR 策略,在不同的網(wǎng)絡(luò)吞吐量條件下,ABR 具有泛化性.而Pensieve 沒有解決訓(xùn)練過程中因回報值差異產(chǎn)生的方差,BOLA 采用傳統(tǒng)啟發(fā)式方法不能適應(yīng)大量的網(wǎng)絡(luò)帶寬數(shù)據(jù)集,ABR決策時泛化能力較弱.

        5.4 DRLA在實際環(huán)境中測試

        在5.3 章節(jié)仿真測試中,訓(xùn)練集與測試集是同一數(shù)據(jù)集,為進一步說明DRLA算法在實際網(wǎng)絡(luò)環(huán)境下的泛化性,將算法部署在dash.js[27]播放器上,采用Python BaseHTTPServer 和SocketServer 實現(xiàn),通過在真實的4G和WiFi 網(wǎng)絡(luò)條件下進行多次測試.實驗過程中,視頻客戶端與ABR 算法均運行在Window7 筆記本電腦上,通過HTTP 協(xié)議訪問另外一臺Linux 視頻服務(wù)器.根據(jù)圖1 的ABR 算法設(shè)計原理,視頻播放器向服務(wù)器請求碼率時首先需經(jīng)過ABR 算法,然后由ABR 算法向服務(wù)器發(fā)出請求視頻的信號.因此,ABR算法與視頻客戶端之間存在往返時延.在WiFi 網(wǎng)絡(luò)條件下的平均往返時延為16.67 ms,4G 網(wǎng)絡(luò)條件下的平均往返時延為77.14 ms.實驗過程中DRLA 對比了Pensieve 和BOLA,在真實的網(wǎng)絡(luò)條件下,對收集得到的QoE 數(shù)據(jù)集進行歸一化處理,實驗結(jié)果如圖9所示.

        圖9 不同網(wǎng)絡(luò)條件下平均QoE

        由圖9 可知,在WiFi 網(wǎng)絡(luò)條件下的QoE 總體高于4G 網(wǎng)絡(luò),由于WiFi 網(wǎng)絡(luò)帶寬相對穩(wěn)定且往返時延低,能夠持續(xù)請求高碼率視頻,因此QoE 較高.DRLA 在4G和WiFi 網(wǎng)絡(luò)條件下,QoE 分別提升了3.8%~9.4%和5.2%~8.5%.在模擬環(huán)境中訓(xùn)練生成的DRLA 算法具有較強的泛化性,在未知的網(wǎng)絡(luò)條件下也能最大化視頻質(zhì)量并減少卡頓時間.

        6 結(jié)論

        本文提出的DRLA 算法,利用基線減少方差,通過優(yōu)化策略得到最優(yōu)策略,與現(xiàn)有的ABR 算法進行了比較.實驗結(jié)果表明:DRLA 能夠減少訓(xùn)練時間,魯棒性更強;QoE 提升了3.4%~23.7%.DRLA 為自適應(yīng)流媒體系統(tǒng)提供理論與實踐依據(jù),優(yōu)化視頻分發(fā),提升了用戶視頻觀看體驗.

        猜你喜歡
        策略
        基于“選—練—評”一體化的二輪復(fù)習(xí)策略
        幾何創(chuàng)新題的處理策略
        求初相φ的常見策略
        例談未知角三角函數(shù)值的求解策略
        我說你做講策略
        “我說你做”講策略
        數(shù)據(jù)分析中的避錯策略
        高中數(shù)學(xué)復(fù)習(xí)的具體策略
        “唱反調(diào)”的策略
        幸福(2017年18期)2018-01-03 06:34:53
        價格調(diào)整 講策略求互動
        亚洲VR永久无码一区| 国产成人精品久久综合| 日韩乱码人妻无码中文字幕视频 | 国产高清在线精品一区αpp| 性色av一区二区三区四区久久| 亚洲av久播在线一区二区| 精品亚洲成a人片在线观看| 黄色资源在线观看| 久久麻豆精亚洲av品国产精品| 日韩人妻中文字幕专区| 偷偷色噜狠狠狠狠的777米奇| 中文字幕久久久精品无码| 99久久亚洲精品加勒比| 丝袜美腿av在线观看| 无码ol丝袜高跟秘书在线观看| 日韩AV有码无码一区二区三区 | 精品卡一卡二卡3卡高清乱码| 性久久久久久久| 精品一区二区三区在线观看l| 日日麻批免费高清视频| 国产伦人人人人人人性| 热の国产AV| 青春草在线观看免费视频| 一本色综合网久久| 无码国产69精品久久久孕妇| 国产96在线 | 免费| 亚洲av午夜福利精品一区不卡| 少妇愉情理伦片| 欧美激情在线不卡视频网站| 在线视频日韩精品三区| 人妻夜夜爽天天爽三区丁香花 | 亚欧免费无码AⅤ在线观看| 成人自拍一二在线观看| 中文字幕人妻被公上司喝醉| 国产成人美女AV| 久久精品视频日本免费| 99久热在线精品视频观看| 国产国拍亚洲精品mv在线观看| 亚洲av永久综合网站美女| 国产精品久久久福利| 在教室伦流澡到高潮h麻豆|