亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于YouTube視頻分享系統(tǒng)的信息挖掘

        2018-06-20 03:34:56盧紅波錢亞冠
        關(guān)鍵詞:視頻流概率分布編碼

        盧紅波,錢亞冠,馬 駿

        (浙江科技學(xué)院曙光大數(shù)據(jù)學(xué)院,杭州310023)

        隨著Web2.0技術(shù)的成熟以及智能手機(jī)的普及,用戶可以通過視頻分享網(wǎng)站觀看、創(chuàng)建、共享和發(fā)布自己拍攝的視頻文件[1]。據(jù)統(tǒng)計(jì),目前互聯(lián)網(wǎng)流量中大概有25%~40%的成分是視頻流[2]。其中全球著名的視頻分享網(wǎng)站YouTube在視頻流量中占有很大的比例,因此也成為了網(wǎng)絡(luò)界重點(diǎn)研究和關(guān)注的對(duì)象。像YouTube這樣的視頻分享服務(wù)提供商與傳統(tǒng)上的VoD(video on demand)系統(tǒng)存在著很大的區(qū)別,最顯著的不同是YouTube具有在線社交網(wǎng)絡(luò)的特點(diǎn)[3]。在YouTube上,用戶可以自由地上傳自己拍攝的視頻文件,并分享給其他用戶;而其他用戶在看完視頻后,可以對(duì)其發(fā)表評(píng)論和評(píng)分。這種用戶之間的交互性是傳統(tǒng)VoD系統(tǒng)所不具備的。除了在用戶的交互性上存在差異外,兩者在傳輸協(xié)議上也存在差異[4]。YouTube采用HTTP/TCP協(xié)議從Web服務(wù)器將視頻流信息傳送到客戶端;而VoD系統(tǒng)則采用RTP/UDP協(xié)議,從專用的視頻服務(wù)器上將視頻流信息傳送到客戶端。YouTube在傳輸層采用面向連接的TCP協(xié)議,而在應(yīng)用層則采用傳統(tǒng)上用于傳輸HTML文件的HTTP協(xié)議封裝視頻流數(shù)據(jù),因此其行為特征和流量模式必然有別于普通的HTTP流量。由于商業(yè)上的保密性,YouTube等視頻分享服務(wù)商并沒有公開具體的技術(shù)細(xì)節(jié)[5]。因此,研究人員只能通過網(wǎng)絡(luò)爬蟲的方式收集分享視頻系統(tǒng)的元數(shù)據(jù)或通過被動(dòng)測(cè)量的方式從網(wǎng)絡(luò)節(jié)點(diǎn)上獲取視頻數(shù)據(jù)。以往很多研究工作集中在服務(wù)器元數(shù)據(jù)的統(tǒng)計(jì)特性上,如視頻的長(zhǎng)度、觀看的數(shù)量等信息或從流量中抽取的信息,如視頻流的持續(xù)長(zhǎng)度等[6-9]。但我們的研究發(fā)現(xiàn),從YouTube內(nèi)容服務(wù)器上挖掘出的信息和從網(wǎng)絡(luò)節(jié)點(diǎn)中挖掘出的信息并不完全一致,視頻長(zhǎng)度和觀看時(shí)間,編碼率和下載速率等均存在不一致性,服務(wù)器上的靜態(tài)信息不能完整地反映用戶的動(dòng)態(tài)行為特征。而用戶的動(dòng)態(tài)行為分析對(duì)提高視頻傳輸性能,設(shè)計(jì)視頻緩存算法和內(nèi)容分發(fā)網(wǎng)絡(luò)具有重要的意義。因此,本文綜合這兩方面的數(shù)據(jù)來進(jìn)行對(duì)比分析。

        1 數(shù)據(jù)集

        第一個(gè)數(shù)據(jù)集是通過YouTube提供的API[10],利用網(wǎng)絡(luò)爬蟲技術(shù)遍歷所有的視頻文件后抽取的元數(shù)據(jù)。這些元數(shù)據(jù)包括視頻ID、上傳者、視頻年齡、視頻類型、視頻長(zhǎng)度、觀看量、編碼率、評(píng)級(jí)、評(píng)論、相關(guān)視頻等。我們獲得2個(gè)不同時(shí)間跨度的流量數(shù)據(jù)集,其中一個(gè)數(shù)據(jù)子集的時(shí)間跨度為14 d,另一個(gè)數(shù)據(jù)子集的時(shí)間跨度為1 d。第二個(gè)數(shù)據(jù)集是從網(wǎng)絡(luò)中的路由器上采集到的流量數(shù)據(jù),分離出YouTube視頻流量。我們通過五元組(源IP、源端口、目的IP、目的端口、協(xié)議號(hào))來確定網(wǎng)絡(luò)流,又通過接收到第一個(gè)SYN包確定該網(wǎng)絡(luò)流的起始,接收到FIN包或超過某個(gè)時(shí)間間隔未收到數(shù)據(jù)包確定為網(wǎng)絡(luò)流的結(jié)束。該數(shù)據(jù)集包含的YouTube視頻網(wǎng)絡(luò)流的統(tǒng)計(jì)屬性有源IP地址、源端口號(hào)、目的IP地址、目的端口號(hào)、視頻傳輸開始時(shí)間、結(jié)束時(shí)間、數(shù)據(jù)包數(shù)、數(shù)據(jù)包平均大小、速率等。

        2 從服務(wù)器端分析用戶行為模式

        2.1 用戶請(qǐng)求數(shù)模型

        用戶請(qǐng)求的到達(dá)過程是用戶行為模式的主要特征,深入分析用戶請(qǐng)求的到達(dá)過程是容量規(guī)劃、用戶接納策略等的重要基礎(chǔ)。因此,我們對(duì)兩個(gè)不同時(shí)間跨度的流量數(shù)據(jù)集進(jìn)行了分析,其中一個(gè)數(shù)據(jù)集的時(shí)間跨度為14 d,共有16 637個(gè)用戶的611 968個(gè)視頻觀看請(qǐng)求;而另一個(gè)數(shù)據(jù)集的時(shí)間跨度為1 d,共有2 377個(gè)用戶發(fā)送的18 750個(gè)請(qǐng)求。

        用戶的視頻觀看請(qǐng)求數(shù)量是用戶的一個(gè)重要行為特征。圖1顯示了每個(gè)用戶分別在14 d和1 d內(nèi)發(fā)送的請(qǐng)求數(shù)累積概率分布(cumulative distribution function,CDF)情況,是典型的偏斜分布。由圖1可知,80%的用戶在1 d內(nèi)發(fā)出的觀看請(qǐng)求數(shù)少于10,在14 d內(nèi)少于40。圖2是雙對(duì)數(shù)坐標(biāo)下用戶請(qǐng)求數(shù)和用戶數(shù)之間的關(guān)系,由此可知這是典型的冪律關(guān)系。我們用Pareto、Weibull和Log-Normal這3種經(jīng)典偏斜分布對(duì)上述用戶請(qǐng)求分布建模,發(fā)現(xiàn)Log-Normal分布的擬合度最佳。其中14 d數(shù)據(jù)的Log-Normal分布的參數(shù) μ=2.353 7,σ=1.576 9;1 d 數(shù)據(jù)的分布參數(shù) μ=1.386 7,σ=1.130 3。

        圖1 單個(gè)用戶的請(qǐng)求數(shù)的累積概率分布Fig.1 CDF of request per client

        圖2 用戶數(shù)和請(qǐng)求數(shù)之間的冪律關(guān)系Fig.2 Scatter graph of requests and clients

        2.2 用戶請(qǐng)求的到達(dá)過程

        由于服務(wù)器的服務(wù)策略并不區(qū)分具體的用戶,它關(guān)注的僅是用戶請(qǐng)求的到達(dá)過程,因此對(duì)請(qǐng)求到達(dá)過程的建模對(duì)認(rèn)識(shí)用戶的行為特征及構(gòu)建高效的服務(wù)策略具有重要的意義。圖3顯示了用戶請(qǐng)求在內(nèi)容服務(wù)器端到達(dá)間隔的累積概率分布。通過擬合度最優(yōu)檢驗(yàn),Log-Normal分布最適合建模請(qǐng)求到達(dá)間隔,其中14 d數(shù)據(jù)集上的模型參數(shù) μ=-0.020 37,σ=1.195 2;1 d數(shù)據(jù)集上的模型參數(shù) μ=0.859 39,σ=1.169 6。上述概率模型的分析推翻了傳統(tǒng)上認(rèn)為請(qǐng)求到達(dá)間隔服從指數(shù)分布的假設(shè),即認(rèn)為到達(dá)過程是Poisson過程,例如文獻(xiàn)[11]把Web會(huì)話的到達(dá)建立為Poisson過程,即認(rèn)為請(qǐng)求到達(dá)過程是長(zhǎng)相關(guān)的(long-range dependent,LRD)。但是我們的分析發(fā)現(xiàn),盡管YouTube等視頻分享網(wǎng)站的采用了HTTP協(xié)議,但其用戶行為卻具有自身特點(diǎn),與普通的Web用戶并不一致,因此不適合用以往研究Web的結(jié)論和假設(shè)來研究視頻分享服務(wù)。

        2.3 連續(xù)請(qǐng)求之間的空閑期

        圖3 請(qǐng)求到達(dá)間隔的累積概率分布Fig.3 CDF of request inter-arrival time

        用戶在整個(gè)視頻觀看會(huì)話過程中大致可以分為搜索視頻、發(fā)出觀看請(qǐng)求、觀看視頻、思考、評(píng)論視頻或評(píng)分等行為,這幾個(gè)階段可能是反復(fù)進(jìn)行的。本文把觀看視頻的時(shí)間段稱為激活期,而把連續(xù)2次觀看期間的搜索、思考、評(píng)論等稱為空閑期。在研究Web用戶行為的論文中把前者稱為on階段,后者為off階段,采用on/off模型來描述這種過程的變換[12]。由于視頻分享系統(tǒng)具有社交網(wǎng)絡(luò)的特點(diǎn),用戶除了搜索、瀏覽信息外,還會(huì)有主動(dòng)的評(píng)論、評(píng)分等交互過程,行為比普通的Web瀏覽更加豐富。因此,我們認(rèn)為在空閑期更能反映視頻分享系統(tǒng)的用戶行為特征。

        圖4 空閑期的累積概率分布Fig.4 CDF of idle time between viewing actions of per user

        圖4 給出了空閑期的累積概率分布。假設(shè)空閑期超過1 h的不屬于2個(gè)連續(xù)請(qǐng)求之間的會(huì)話,這類情況不計(jì)入本文提出的有研究?jī)r(jià)值的空閑期。空閑期少于10 s的被認(rèn)為沒有評(píng)論或評(píng)分行為發(fā)生,即用戶觀看完一個(gè)視頻后,緊接著觀看另一個(gè)視頻。從圖4可知,這種情況只占到15%左右。發(fā)生在空閑期的典型行為是搜索新視頻,假設(shè)這類行為的空閑期區(qū)間為[10,400]s,從上述統(tǒng)計(jì)分析發(fā)現(xiàn)約占55%~65%。而發(fā)表評(píng)論等行為往往需要更多的時(shí)間,大約占10%~15%的比例。由此可以推斷,大多數(shù)的用戶在空閑期的主要行為是搜索新視頻,而發(fā)表評(píng)論的只占少數(shù)。

        3 從網(wǎng)絡(luò)端分析分享視頻系統(tǒng)的特點(diǎn)

        3.1 視頻長(zhǎng)度和觀看時(shí)間

        視頻長(zhǎng)度即完整播放該視頻需要的時(shí)間,在上傳視頻到內(nèi)容服務(wù)器時(shí)往往作為一個(gè)描述該視頻的元數(shù)據(jù)保存在服務(wù)器上。以往的研究多把視頻長(zhǎng)度作為一個(gè)靜態(tài)的特征進(jìn)行研究,而忽略了用戶實(shí)際觀看行為的模式。大多數(shù)用戶并不會(huì)從頭到尾完整地觀看整個(gè)視頻,有的用戶僅觀看開頭的一部分,而有的用戶則喜歡以快進(jìn)的方式快速瀏覽。因此,從服務(wù)器端獲得的關(guān)于視頻長(zhǎng)度的信息并不能衡量用戶的實(shí)際觀看時(shí)間。

        為了分析用戶的實(shí)際觀看時(shí)間,我們根據(jù)網(wǎng)絡(luò)節(jié)點(diǎn)中獲得的YouTube視頻流量數(shù)據(jù),用數(shù)據(jù)流的持續(xù)時(shí)間來衡量用戶的實(shí)際觀看時(shí)間。圖5顯示了從網(wǎng)絡(luò)中獲得的YouTube視頻流持續(xù)時(shí)間和視頻內(nèi)容服務(wù)器上獲得的視頻長(zhǎng)度的累積概率分布,從中可知,網(wǎng)絡(luò)中獲得的2個(gè)數(shù)據(jù)集的持續(xù)時(shí)間在概率分布上非常相似,而與視頻內(nèi)容服務(wù)器上獲得的視頻長(zhǎng)度的分布卻存在很大的差異。我們進(jìn)一步發(fā)現(xiàn),大多數(shù)視頻并沒有被用戶看完,如80%的觀看時(shí)間少于100 s,而80%的視頻長(zhǎng)度卻超過300 s。這一發(fā)現(xiàn)進(jìn)一步印證了大多數(shù)用戶沒有完整看視頻的行為模式。

        圖6給出了在雙對(duì)數(shù)坐標(biāo)系下觀看時(shí)間和視頻長(zhǎng)度的互補(bǔ)累積概率分布,由此可知,對(duì)于長(zhǎng)度超過10 min的視頻,用戶的觀看時(shí)間與視頻長(zhǎng)度具有相似的概率分布特性。這意味著當(dāng)視頻長(zhǎng)度超過10 min時(shí),用戶更愿意看完視頻內(nèi)容,即長(zhǎng)度超過10 min的視頻更能吸引用戶看完整個(gè)視頻。這個(gè)發(fā)現(xiàn)有助于更好地設(shè)計(jì)高效的視頻緩存系統(tǒng)和調(diào)度策略。

        圖5 視頻長(zhǎng)度和實(shí)際觀看時(shí)間的累積概率分布Fig.5 CDF of viewing duration and video length

        圖6 視頻長(zhǎng)度和實(shí)際觀看時(shí)間的互補(bǔ)累積概率分布Fig.6 CCDF of viewing duration and video length

        3.2 編碼率和下載速率

        為了節(jié)省存儲(chǔ)空間和帶寬,YouTube上的視頻都采用H.264編碼器進(jìn)行了壓縮。編碼率和圖像的質(zhì)量直接相關(guān),更低的編碼率可以獲得更高的壓縮比,但代價(jià)是犧牲圖像的畫面質(zhì)量。反之,更高的編碼率需要更高的網(wǎng)絡(luò)帶寬來傳輸視頻。為此,YouTube必須在圖像的分辨率和網(wǎng)絡(luò)的可用帶寬之間做出合理的平衡。圖7給出了YouTube視頻編碼率和下載速率的累積概率分布。由此可知,大約80%的視頻其編碼率在很窄的范圍:[285,350]kB/s。這意味著YouTube采用的是中等編碼率來平衡畫面質(zhì)量和傳輸帶寬。

        YouTube上的視頻文件是典型的流式媒體,采用FLV(Adobe flash video)格式可使用戶在瀏覽器上方便地觀看視頻。為了使用戶在視頻還沒有完全下載完之前就可觀看,YouTube采用了累進(jìn)下載技術(shù),即只要在緩沖區(qū)裝入足夠的視頻就可以啟動(dòng)視頻播放,余下的視頻內(nèi)容可以邊播放邊下載[13-14]。因此,只要保證下載速率略大于編碼率就可以保證播放過程不出現(xiàn)停頓。從圖7可知,99%的視頻流下載速率大于編碼率。這一方面反映出傳輸視頻的網(wǎng)絡(luò)狀況,另一方面反映出HTTP/TCP流控機(jī)制。由前面的分析可知,大多數(shù)用戶并不看完完整的視頻,緩存中的視頻不會(huì)再被觀看。因此,過高的下載速率反而會(huì)浪費(fèi)大量帶寬。為此,除了采用TCP進(jìn)行下載速率的流控機(jī)制外,推斷YouTube還有自己的速率控制機(jī)制。在圖7中,下載速率的CDF曲線有2個(gè)接近垂直的陡峭上升部分,其中一個(gè)表明大約有20%的視頻流速率在500 kB/s,另一個(gè)則表明48%的視頻流速率在1 250 kB/s,即大約有70%的視頻流下載速率控制在500 kB/s或1 250 kB/s。因此我們可以推斷YouTube除了采用TCP流控機(jī)制外,在服務(wù)器端還有專門的下載速率控制機(jī)制。由此我們可以得出如下結(jié)論:在保證圖像質(zhì)量的前提下,合理的下載速率控制可以節(jié)省大量的網(wǎng)絡(luò)帶寬資源,而過快的速率對(duì)播放視頻并沒有額外的好處。

        圖7 視頻編碼率和下載速率的累積概率分布Fig.7 CDF of video coding rate and download rate

        4 結(jié)論

        我們通過YouTube視頻服務(wù)器的數(shù)據(jù)和網(wǎng)絡(luò)流量數(shù)據(jù)來研究用戶行為和視頻服務(wù)器的機(jī)制,通過比較研究挖掘出有價(jià)值的信息。結(jié)果表明,從YouTube內(nèi)容服務(wù)器上挖掘出的信息和從網(wǎng)絡(luò)節(jié)點(diǎn)中挖掘出的信息并不完全一致,因此,本文綜合這兩方面的數(shù)據(jù)來進(jìn)行對(duì)比分析。視頻長(zhǎng)度和觀看時(shí)間,編碼率和下載速率等均存在不一致性,服務(wù)器上的靜態(tài)信息不能完整地反映用戶的動(dòng)態(tài)行為特征。而用戶的動(dòng)態(tài)行為分析對(duì)提高視頻傳輸性能,設(shè)計(jì)視頻緩存算法和內(nèi)容分發(fā)網(wǎng)絡(luò)具有重要的意義,通過此研究可為提高視頻傳輸性能,如視頻緩存和內(nèi)容分發(fā)網(wǎng)絡(luò)的設(shè)計(jì)提供參考。

        [1] JIANG J,SEKAR V,ZHANG H.Improving fairness,efficiency,and stability in http-based adaptive video streaming with festive[C]//Proceedings of the 8th international conference on Emerging networking experiments and technologies.Nice:ACM,2012:97.

        [2] MAIER G,F(xiàn)ELDMANN A,PAXSON V,et al.On dominant characteristics of residential broadband internet traffic[C]//Proceedings of the 9th ACM SIGCOMM conference on Internet measurement.Chicago:ACM,2009:90.

        [3] SPART Z,JAMEST,SU L,et al.YouTube,social norms and perceived salience of climate change in the American mind[J].Environmental Communication,2017,11(1):1.

        [4] AMEUR C B,MORY E,COUSIN B,et al.TcpHas:TCP for HTTP adaptive streaming[C]//2017 IEEE International Conference on Communications(ICC).Paris:IEEE,2017:1.

        [5] CHENG X,MEHRDAD F,MA X Q,et al.Understanding the YouTube partners and their data:measurement and analysis[J].China Communications,2014,11(12):26.

        [6] CHENG X,DALE C,LIU J.Statistics and social network of youtube videos[C]//16th IEEE International Workshop on Quality of Service.Enschede:IEEE,2008:229.

        [7] ADHIKARI V,JAIN S,CHEN Y,et al.Vivisecting youtube:an active measurement study[C]//The 31st Annual IEEE International Conference on Computer Communications.Orlando:IEEE,2012:2521.

        [8] GORCITZ R A.A data-driven analysis of YouTube community features[C]//Asian Internet Engineering Conference.Bangkok:ACM,2011:17.

        [9] CHE X H,IP B,LIN L.Bangkok:A survey of current YouTube video characteristics[J].IEEE Multimedia,2015,22(2):56.

        [10] 夏凝.基于CDN的VoD服務(wù)用戶行為分析與系統(tǒng)性能優(yōu)化技術(shù)研究[D].武漢:華中科技大學(xué),2010.

        [11] WAMSER F,CASASP,SEUFERT M,et al.Modeling the YouTube stack:from packets to quality of experience[J].Computer Networks,2016,109(2):211.

        [12] ZVIRONIENE A,NAVICKAS Z,RINDZEVICIUS R.Bursty traffic simulation by ON-OFF model[J].Elektronika Ir Elektrotechnika,2006,6(70):65.

        [13] CHEN L,ZHOU Y P,CHIU D M.Smart streaming for online video services[J].IEEE Transactions on Multimedia,2015,17(4):485.

        [14] KRISHNAPPA D K,ZINK M,SITARAMAN R K.Optimizing the video transcoding workflow in content delivery networks[C]//Proceedings of the 6th ACM Multimedia Systems Conference.Portland:ACM,2015:37.

        猜你喜歡
        視頻流概率分布編碼
        邊緣實(shí)時(shí)視頻流分析系統(tǒng)配置動(dòng)態(tài)調(diào)整算法研究
        基于SAR-SIFT和快速稀疏編碼的合成孔徑雷達(dá)圖像配準(zhǔn)
        離散型概率分布的ORB圖像特征點(diǎn)誤匹配剔除算法
        基于視頻流傳輸中的擁塞控制研究
        《全元詩》未編碼疑難字考辨十五則
        子帶編碼在圖像壓縮編碼中的應(yīng)用
        電子制作(2019年22期)2020-01-14 03:16:24
        Genome and healthcare
        關(guān)于概率分布函數(shù)定義的辨析
        科技視界(2016年19期)2017-05-18 10:18:46
        基于概率分布的PPP項(xiàng)目風(fēng)險(xiǎn)承擔(dān)支出測(cè)算
        美國(guó)視頻流市場(chǎng)首現(xiàn)飽和征兆
        国产亚洲精品久久久久久久久动漫| 摸丰满大乳奶水www免费| 一本色道久久爱88av| 最近最新中文字幕| 国产激情在观看| 日韩成人精品一区二区三区| 国产人妖av在线观看| 一二三四区中文字幕在线| 极品少妇一区二区三区四区视频 | 亚洲精品99久久久久久| 在线视频精品少白免费观看| 亚洲av免费不卡在线观看| 人妖一区二区三区四区| 美女网站免费福利视频| 国内老熟妇对白xxxxhd| 北岛玲中文字幕人妻系列| av免费在线观看在线观看| 羞涩色进入亚洲一区二区av| 91人妻一区二区三区蜜臀| 亚洲一区二区在线观看网址| 人妻中文字幕在线网站| 少妇中文字幕乱码亚洲影视| 影音先锋每日av色资源站| 九九在线精品视频xxx| 牛仔裤人妻痴汉电车中文字幕| 亚洲综合精品亚洲国产成人| 一本久道综合在线无码人妻| 麻豆国产人妻欲求不满| 人妻av一区二区三区av免费| 国产一区二区三区涩涩| 国产激情一区二区三区成人| 久久精品丝袜高跟鞋| 毛片大全真人在线| 国产精品一区二区三区精品| 久久精品国产亚洲av日韩精品| 日韩精品熟妇一区二区三区| 人妻丰满熟妇av无码区不卡| 国产乱子伦在线观看| 1234.com麻豆性爰爱影| 亚洲精品一区二区三区在线观| 中国妇女做爰视频|