摘要:準(zhǔn)確預(yù)測流媒體視頻的用戶體驗質(zhì)量(QoE)是提升其服務(wù)的關(guān)鍵所在。流媒體QoE預(yù)測模型通常基于視頻質(zhì)量和網(wǎng)絡(luò)傳輸質(zhì)量等客觀指標(biāo)進行評估,然而,QoE的主觀性為準(zhǔn)確評估帶來了極大的挑戰(zhàn)。為了更精確地預(yù)測用戶體驗質(zhì)量,文章首次將自動機器學(xué)習(xí)用于流媒體視頻的QoE預(yù)測,提出了基于自動機器學(xué)習(xí)的QoE預(yù)測模型。該模型通過特征分析從視頻質(zhì)量評估指標(biāo)和網(wǎng)絡(luò)質(zhì)量評估指標(biāo)中選擇最優(yōu)特征作為輸入,采用H2O AutoML自動機器學(xué)習(xí)算法進行QoE建模。為了評估方法的有效性,在公開數(shù)據(jù)集SQoE-Ⅲ數(shù)據(jù)庫上進行實驗,并與基于傳統(tǒng)機器學(xué)習(xí)的XGBoot算法的QoE模型結(jié)果進行對比分析。實驗結(jié)果顯示,通過自動選擇和調(diào)優(yōu),基于自動機器學(xué)習(xí)的QoE預(yù)測模型取得了顯著的進展。該模型的MAE為5.53699、RMSE為7.35987,有效提升了QoE預(yù)測的準(zhǔn)確性。該研究為QoE建模提供了新的思路和方法,精確預(yù)測了用戶對視頻流的感知滿意度。
關(guān)鍵詞:流媒體視頻;用戶體驗質(zhì)量;自動機器學(xué)習(xí);機器學(xué)習(xí)
中圖分類號:TP311文獻標(biāo)志碼:A
0引言
2023年,全球互聯(lián)網(wǎng)現(xiàn)象報告顯示視頻流量已經(jīng)占互聯(lián)網(wǎng)流量的65.93%,成為全球網(wǎng)絡(luò)流量的主要貢獻者[1]。就中國而言,網(wǎng)絡(luò)視頻用戶規(guī)模為10.44億人,網(wǎng)民使用率達96.8%[2]。面對如此龐大的需求,如何提升網(wǎng)絡(luò)視頻的用戶體驗質(zhì)量(Quality of Experience,QoE)以獲得更大的市場份額,成為服務(wù)提供商和學(xué)術(shù)界的研究熱點。目前,基于HTTP的動態(tài)自適應(yīng)流(Dynamic Adaptive Streaming over HTTP,DASH)是視頻流業(yè)務(wù)的主要解決方案,其將多媒體文件分割為一個或多個片段,并使用超文本傳輸協(xié)議傳遞給客戶端。客戶端根據(jù)當(dāng)前網(wǎng)絡(luò)條件利用自適應(yīng)比特流算法自動選擇合適的比特率下載,從而避免播放卡頓或重新緩沖事件,提高用戶的QoE[3]。其面臨的最大挑戰(zhàn)是準(zhǔn)確評價終端用戶的QoE并在此基礎(chǔ)上優(yōu)化自適應(yīng)比特流算法。
QoE是用戶情緒體驗,具有主觀性,受到視頻質(zhì)量、網(wǎng)絡(luò)傳輸情況、觀看終端設(shè)備等各種因素的影響,如何評價QoE并制定面向更精確的QoE訓(xùn)練方案一直是研究的熱點。隨著人工智能的進步,自動機器學(xué)習(xí)應(yīng)運而生。自動機器學(xué)習(xí)可以自動執(zhí)行模型選擇、調(diào)優(yōu)和特征工程等任務(wù);可以在大量模型和超參數(shù)組合中進行搜索,找到最優(yōu)模型和配置;可以通過交叉驗證等技術(shù),減輕過擬合風(fēng)險。為了深入理解并精確預(yù)測用戶對視頻流的感知滿意度,本研究提出將自動機器學(xué)習(xí)技術(shù)融入QoE建模中,通過實現(xiàn)模型的自動選擇和調(diào)優(yōu),節(jié)省時間和資源,適應(yīng)不同的數(shù)據(jù)集和網(wǎng)絡(luò)條件,為DASH流提供更靈活的QoE預(yù)測,從而提高QoE預(yù)測的準(zhǔn)確性。
本文的主要工作如下:
(1)研究視頻質(zhì)量、網(wǎng)絡(luò)傳輸情況等客觀指標(biāo)與用戶體驗主觀性之間的關(guān)聯(lián)性,選出重要特征;
(2)首次提出將自動機器學(xué)習(xí)技術(shù)應(yīng)用于DASH流媒體的QoE預(yù)測領(lǐng)域,構(gòu)建基于H2O AutoML自動機器學(xué)習(xí)的QoE預(yù)測模型;
(3)在公開數(shù)據(jù)集SQoE-Ⅲ中進行驗證,并對結(jié)果進行對比分析。
1相關(guān)工作
目前,DASH視頻流QoE預(yù)測模型的常用方法是:通過找到影響用戶體驗質(zhì)量的關(guān)鍵因素,利用數(shù)學(xué)建模的方法建立QoE預(yù)測模型去逼近平均意見分?jǐn)?shù)MOS值。該方法主要分為以下2類:一是參數(shù)化的模型,利用線性模型或者指數(shù)模型將卡頓、視頻質(zhì)量、比特率等指標(biāo)建立公式,并用幾個參數(shù)平衡這些指標(biāo)的關(guān)系;二是采用機器學(xué)習(xí)的方法,將卡頓、視頻質(zhì)量、比特率等指標(biāo)作為輸入,利用各種機器算法進行預(yù)測。
Mok等[4]最早提出QoE模型,利用簡單的線性公式建立了初始加載延時、卡頓次數(shù)和卡頓時長與MOS值的映射關(guān)系;Rodríguez等[5]提出模型VsQMDASH,利用指數(shù)公式建立了初始加載延時、卡頓和模式切換與MOS值的映射關(guān)系;Robiza等[6]提出模型P.NATS,將視頻質(zhì)量、新近效應(yīng)、卡頓位置和時長作為指標(biāo)。Bampis等[7]提出了基于各種機器算法的模型Video ATLAS,采用了Support Vector Regression (SVR)、Random Forest (RF)、Gradient Boosting (GB)、Extra Trees (ET) 以及Ridge and Lasso regression等方法,并且利用數(shù)據(jù)庫LIVE_NFLX_PublicData預(yù)測整體的QoE;隨后提出NARX模型和增強NARX模型[8-9],利用非線性自回歸網(wǎng)絡(luò)預(yù)測連續(xù)QoE。Zhang等[10]提出了DeepQoE,利用詞嵌入和3D卷積神經(jīng)網(wǎng)絡(luò)篩選特征值,結(jié)合深度學(xué)習(xí)預(yù)測QoE。類似地,Huyen等[11]使用自建數(shù)據(jù)庫,采用adLSTM和baLSTM預(yù)測QoE。Duanmu等[12]創(chuàng)建數(shù)據(jù)庫SQoE-Ⅲ,在此數(shù)據(jù)庫上,IVCHENKO A. V.等采用了算法模型Linear Regression、Gradient Boosting Regression、Support Vector Machine Regression、Random Forest Regression預(yù)測QoE,并對其進行了性能比較。Eswara等[13]提出LSTM-QoE,基于遞歸神經(jīng)網(wǎng)絡(luò)的LSTM網(wǎng)絡(luò)QoE預(yù)測模型,預(yù)測時變的QoE。
然而,參數(shù)化模型的過度簡化無法充分捕捉用戶體驗的細(xì)微差異;Video ATLAS和NARX模型的復(fù)雜性導(dǎo)致其在實時預(yù)測中面臨延遲問題,并且調(diào)參及維護極具挑戰(zhàn);同時,LSTM模型在處理長序列數(shù)據(jù)時的高計算成本以及難以捕捉長期依賴關(guān)系的問題限制了其實際應(yīng)用。傳統(tǒng)機器學(xué)習(xí)方法依賴手動特征工程和參數(shù)調(diào)整,難以適應(yīng)網(wǎng)絡(luò)條件的動態(tài)變化。為了克服這些局限性,探索自適應(yīng)和自動化特征選擇方法至關(guān)重要。
2基于自動機器學(xué)習(xí)的QoE預(yù)測模型
本次研究主要基于自動機器學(xué)習(xí)實現(xiàn)QoE的預(yù)測,其總體技術(shù)路線如圖1所示。首先,該方法獲取流媒體視頻數(shù)據(jù)庫SQoE-Ⅲ[12],包括450個流媒體視頻以及對應(yīng)的視頻質(zhì)量評價指標(biāo)和網(wǎng)絡(luò)質(zhì)量評價指標(biāo);其次,分別對視頻質(zhì)量評價指標(biāo)和網(wǎng)絡(luò)質(zhì)量評價指標(biāo)進行特征選擇;然后,采用自動機器學(xué)習(xí)算法進行模型構(gòu)建,此次采用的自動機器學(xué)習(xí)模型是H2O AutoML;最后,將自動機器學(xué)習(xí)算法的預(yù)測結(jié)果進行分析比較。
2.1數(shù)據(jù)庫描述
本文采用SQoE-Ⅲ數(shù)據(jù)庫,該數(shù)據(jù)庫包括20個不同內(nèi)容類型的源序列和在不同的失真模式下創(chuàng)建的450個流媒體視頻,涵蓋了6種具有不同特征的自適應(yīng)算法,并在13種代表性的網(wǎng)絡(luò)條件下進行了測試。該數(shù)據(jù)庫是專門為視頻質(zhì)量評估和用戶體驗研究設(shè)計的,其提供了大量的主觀和客觀的視頻質(zhì)量評分。這些數(shù)據(jù)點可以用來訓(xùn)練和驗證QoE預(yù)測模型,因此使用這個數(shù)據(jù)庫可以確保研究的基礎(chǔ)數(shù)據(jù)是可靠和有代表性的。
2.2自動機器學(xué)習(xí)
自動機器學(xué)習(xí)(Automatic Machine Learning, AutoML)是一種利用自動化技術(shù)來簡化和加速機器學(xué)習(xí)模型開發(fā)的方法[14]。該方法減少了傳統(tǒng)機器學(xué)習(xí)方法中所需的手動工作量和專業(yè)知識。自動機器學(xué)習(xí)的流程包括數(shù)據(jù)預(yù)處理、特征工程、模型選擇、超參數(shù)調(diào)整甚至部署,其組織框架如圖2所示[15]。
目前,常見的自動機器學(xué)習(xí)方法如下:Auto-sklearn,基于scikit-learn構(gòu)建的自動化機器學(xué)習(xí)工具,通過使用貝葉斯優(yōu)化來搜索模型空間,并使用元學(xué)習(xí)器來選擇最佳模型[16];Auto-Keras,基于Keras構(gòu)建的自動化深度學(xué)習(xí)工具,通過搜索神經(jīng)網(wǎng)絡(luò)架構(gòu)和超參數(shù)來優(yōu)化模型[17];Google Cloud AutoML,由Google提供的一系列AutoML工具,包括AutoML Vision、AutoML Natural Language等,用于圖像分類、文本分類等任務(wù)[18];H2O AutoML,H2O.ai提供的自動機器學(xué)習(xí)平臺,可以自動執(zhí)行數(shù)據(jù)預(yù)處理、特征工程、模型選擇和調(diào)參等任務(wù)。本次研究采用H2O AutoML,其是一個開源、分布式的機器學(xué)習(xí)平臺,使用快速隨機搜索和堆疊集成的組合來實現(xiàn)高效訓(xùn)練。H2O AutoML通過培訓(xùn)一系列算法(例如GBM、隨機森林、深度神經(jīng)網(wǎng)絡(luò)和GLM等),促成了候選模型之間的多樣性。這種多樣性為堆疊集成提供了可充分利用的基礎(chǔ),最終塑造出強大而穩(wěn)健的模型。
2.3模型評價指標(biāo)
本文使用以下統(tǒng)計學(xué)評價指標(biāo)來度量提出的QoE預(yù)測模型的質(zhì)量,分別是平均絕對誤差(Mean Absolute Error,MAE)、均方誤差(Mean Squared Error,MSE)、均方根誤差(Root Mean Square Error,RMSE)和決定系數(shù)(Coefficient of Determination,R2)。其中MAE、MSE、RMSE的取值越小表示該模型性能最優(yōu)。R2取值范圍是0~1,其值越接近1表示模型越能解釋目標(biāo)變量的方差。
MAE的定義公式為:
MAE=1n∑ni=1y^i-yi(1)
MSE的定義公式為:
MSE=1n∑ni=1y^i-yi2(2)
RMSE的定義公式為:
RMSE=1n∑ni=1y^i-yi2(3)
R2的定義公式為:
R2=1-∑ni=1yi-y^i2∑ni=1yi-y-2(4)
其中,yi是實際觀測值,y^i是對應(yīng)觀測值的模型預(yù)測值,y-是目標(biāo)變量的均值,n是樣本數(shù)量。
3實驗
3.1實驗環(huán)境
本次研究的編程工具為Python3.10,編程集成環(huán)境為PyCharm Community Edition2023.3.2,使用自動機器學(xué)習(xí)庫H2OautoML。研究實驗環(huán)境為處理器Intel(R) Core(TM) Ultra 7 155H 1.40 GHz;機帶RAM:32.0 GB;系統(tǒng)類型:64 Bits操作系統(tǒng),基于x64的處理器。
3.2特征選取
在視頻流媒體領(lǐng)域,QoE預(yù)測是復(fù)雜且具有挑戰(zhàn)性的任務(wù),其受視頻質(zhì)量、內(nèi)容、網(wǎng)絡(luò)波動、用戶行為以及觀看環(huán)境等多種因素的綜合影響。在視頻質(zhì)量評估方面,客觀評估方法通過模擬人類視覺系統(tǒng)以量化方式評估視頻質(zhì)量,包含以下評估模型:全參考模型PSNR(峰值信噪比)、SSIM(結(jié)構(gòu)相似性指標(biāo))、MSSSIM(多尺度結(jié)構(gòu)相似性指標(biāo))、VQM(視頻質(zhì)量度量)和VMAF(視頻多方法評估框架)、SSIMplus;半?yún)⒖寄P蚐TRRED(空間-時間減少參考熵差異)和無參考模型TLVQM、BRISQUE和NIQE、V-BLIINDS等。在網(wǎng)絡(luò)傳輸性能評估方面,流媒體視頻聯(lián)盟(Streaming Video Alliance)定義如下關(guān)鍵指標(biāo):視頻起播時間(initialBufferTime)、緩沖次數(shù)(rebufferCount)、緩沖速率(rebufferRate)、緩沖比率(rebufferPercentage)、平均媒體碼率(average VideoBitrate)、比特率切換次數(shù)(audioSwitchCount)、比特率切換率(bitrateSwitchRateAudio)以及掉幀次數(shù)(droppedFrameCount)。
為了在QoE預(yù)測中找到關(guān)鍵指標(biāo),本研究利用SQoE-Ⅲ數(shù)據(jù)庫,并以MOS(Mean Opinion Score)值作為標(biāo)簽。通過應(yīng)用斯皮爾曼相關(guān)系數(shù)(SROCC)和皮爾遜相關(guān)系數(shù)(PLCC),對特征進行篩選和優(yōu)化,以確保模型的準(zhǔn)確性和效率。其計算方法如下所示。
PLCC=∑ni=1xi-x-yi-y-2∑ni=1xi-x-2yi-y-2(5)
SROCC=1-6∑ni=1(yi-xi)2n(n2-1)(6)
PLCC和SROCC是用于衡量特征變量之間相關(guān)性的指標(biāo),其絕對值越大說明兩者之間的相關(guān)性越強。視頻質(zhì)量評估方法與目標(biāo)變量MOS值之間PLCC和SROCC計算結(jié)果如表1所示。
視頻質(zhì)量評估方法與MOS值的PLCC結(jié)果如圖3所示。視頻質(zhì)量評估方法與MOS值的SROCC結(jié)果如圖4所示。VQM與目標(biāo)變量MOS值之間相關(guān)性最大,因此,選取VQM作為特征變量。
在網(wǎng)絡(luò)性能方面,參考流媒體視頻聯(lián)盟定義的關(guān)鍵指標(biāo),計算這些關(guān)鍵指標(biāo)與目標(biāo)變量MOS值之間的PLCC和SROCC,結(jié)果如表2所示。
網(wǎng)絡(luò)性能指標(biāo)與MOS值的PLCC結(jié)果如圖5所示。網(wǎng)絡(luò)性能指標(biāo)與MOS值的SROCC結(jié)果如圖6所示。Rebuffer count、averageWeightedBitrate、Rebuffer percentage、average duration of stalling event與MOS值之間相關(guān)性大,因此選取為特征變量。
最終確定的特征變量如下:Rebuffer count、averageWeightedBitrate、Rebuffer percentage、average duration of stalling event和VQM。
3.3實驗結(jié)果分析
本次實驗采用SQoE-Ⅲ數(shù)據(jù)庫,共450條視頻。將此數(shù)據(jù)庫按照8∶2進行劃分,80%為訓(xùn)練集,20%為驗證集。采用K折交叉驗證,K設(shè)置為10。模型數(shù)量設(shè)置為6,最終自動選擇模型為以下6種,分別是Stacked Ensemble_AllModels_1、DeepLearning_grid_3、GBM_grid_1、GLM_1、XRT_1、DRF_1模型。各個自動機囂學(xué)習(xí)模型的預(yù)測結(jié)果如表3所示。最終,StackedEnsemble_AllModels_1獲得最優(yōu)性能,MAE為5.53699、MSE為54.16774、RMSE為7.35987、R2為0.77622。
利用最好模型StackedEnsemble_AllModels_1進行預(yù)測,預(yù)測結(jié)果與真實MOS值的關(guān)系如圖7所示,從中可以看出預(yù)測結(jié)果能夠較好地跟隨MOS值。
4結(jié)語
本文基于SQoE-Ⅲ數(shù)據(jù)庫,利用自動機器學(xué)習(xí)的方法建立了DASH視頻流的QoE自動機器學(xué)習(xí)預(yù)測模型。所提出的模型具有無需調(diào)參的特點,顯著提高了建模效率,適用于實際互聯(lián)網(wǎng)視頻服務(wù)質(zhì)量評估。此次研究采用H2O AutoML自動機器學(xué)習(xí)算法,后續(xù)工作還可以繼續(xù)探索將其他自動機器學(xué)習(xí)算法用于DSAH視頻流的QoE預(yù)測。并且,隨著短視頻和直播的興起,課題組還可以研究多種場景下的QoE預(yù)測模型,增強模型的魯棒性。
參考文獻
[1]SANDVINE. 2023 Global internet phenomena report[EB/OL]. (2023-01-19)[2024-03-25]. https://www.sandvine.com/hubfs/Sandvine_Redesign_2019/Downloads/2023/reports/Sandvine%20GIPR%202023.pdf.
[2]中國互聯(lián)網(wǎng)絡(luò)信息中心.第52次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告[EB/OL].(2023-08-28)[2024-03-25].https://www.cnnic.net.cn/n4/2023/0828/c88-10829.html.
[3]SEUFERT M, EGGER S, SLANINA M, et al. A survey on quality of experience of HTTP adaptive streaming[J]. IEEE Communications Surveys amp; Tutorials, 2014(17):469-492.
[4]MOK R, CHAN E, CHANG R.Measuring the quality of experience of HTTP video streaming[EB/OL].(2021-05-23)[2024-03-25].https://www.semanticscholar.org/paper/Measuring-the-quality-of-experience-of-HTTP-video-Mok-Chan/02160860e66ac561530f7339ad343781a055147b.
[5]RODRIGUEZ D, ROSA R, ALFAIA E, et al. Video quality metric for streaming service using DASH standard[J]. IEEE Transactions on Broadcasting, 2016(62):628-639.
[6]ROBIZA W, GARCIA M, RAAKE A.A modular HTTP adaptive streaming QoE model-Candidate for ITU-T P.1203 ('P. NATS')[EB/OL].(2021-05-31)[2024-03-25].https://www.xueshufan.com/publication/2728546541.
[7]BAMPIS C, BOVIK A. Learning to predict streaming video QoE: distortions, rebuffering and memory [EB/OL]. (2017-03-02)[2024-03-25]. http://arxiv.org/abs/1703.00633.
[8]BAMPIS C, LI Z, and BOVIK A. Continuous prediction of streaming video QoE using dynamic networks[J]. IEEE Signal Processing Letters, 2017(24):1083-1087.
[9]BAMPIS C, BOVIK A. An augmented autoregressive approach to HTTP video stream quality prediction [EB/OL]. (2017-07-10)[2024-03-25]. https://arxiv.org/abs/1707.02709.
[10]ZHANG H, DONG L, GAO G, et al. DeepQoE: A multimodal learning framework for video quality of experience (QoE) prediction[J]. IEEE Transactions on multimedia, 2020(22):3210-3223.
[11]HUYEN T, DUC V, NAM P, et al. Overall quality prediction for HTTP adaptive streaming using LSTM network[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2021(31):3212-3226.
[12]DUANMU Z, REHMAN A, WANG Z. A quality-of-experience database for adaptive video streaming[J]. IEEE Transactions on Broadcasting, 2018(64): 474-487.
[13]ESWARA N, MANASA K, AVINASH K, et al. A continuous QoE evaluation framework for video streaming over HTTP[J]. IEEE Transactions on Circuits Systems for Video Technololy 2018(28):3236-3250.
[14]KAMAT P, ZHANG YY, TRAPPE W, et al.Enhancing source-location privacy in sensor network routing[EB/OL].(2021-06-06)[2024-03-25].https://ieeexplore.ieee.org/document/1437121.
[15]IMRUS S, MD I, PRITOM S, et al. AutoML: A systematic review on automated machine learning with neural architecture search[J]. Journal of Information and Intelligence,2024(2):52-81.
[16]MATTHIAS F, KATHARINA E, STEFAN F, et al. Auto-Sklearn 2.0: The Next Generation[EB/OL]. (2020-06-01)[2024-03-24]. https://www.researchgate.net/publication/342801746_Auto-Sklearn_20_The_Next_Generation.
[17]JIN H, SONG Q, HU X.Auto-Keras: An efficient neural architecture search system[EB/OL].(2021-07-25)[2024-03-25].https://www.nstl.gov.cn/paper_detail.html?id=980e804ca0f5c7683fdc68f7056861ea.
[18]EKABA B. Building Machine learning and deep learning models on Google cloud platform[M]. CA: Apress Berkeley, 2019:581-598.
(編輯沈強編輯)
Research on QoE prediction model based on automatic machine learning
WANG" Wendie
(School of Physics and Electronic Engineering,Sichuan Normal University, Chengdu 610000, China)
Abstract: Accurately predicting the users’ quality of experience(QoE) for streaming video is crucial for enhancing its service. QoE prediction models for streaming media typically rely on objective metrics such as video quality and network transmission quality. However, the subjectivity of users’ QoE poses significant challenges for accurate assessment. In order to more precisely predict user experience quality, this paper introduces, for the first time, the application of automated machine learning to QoE prediction for streaming video, proposing an automated machine learning-based QoE prediction model. The model utilizes feature analysis to select optimal features from video quality assessment metrics and network quality assessment metrics as input, employing the H2O AutoML automated machine learning algorithm for QoE modeling. To evaluate the effectiveness of the method, the experiments are conducted on the publicly available SQoE-Ⅲ database, comparing the results with a traditional machine learning XGBoost-based QoE model. The experimental results demonstrate the significant progress in QoE prediction by adopting the automated machine learning-based model through automatic feature selection and model tuning. The model’s MAE is 5.53699, and RMSE is 7.35987, effectively improving the accuracy of QoE prediction. Therefore, this study provides new perspectives and methods for QoE modeling, contributing to a deeper understanding and precise prediction of user perceptual satisfaction with streaming video.
Key words: streaming video; quality of experience; automatic machine learning; machine learning