摘要:本論文旨在研究并比較ARMA、ARIMA和SARIMA三種方法在電視廣播收視率預(yù)測(cè)分析中的應(yīng)用。首先,論文介紹了大數(shù)據(jù)技術(shù)在電視廣播評(píng)級(jí)分析中的基本框架,然后研究了ARMA、ARIMA和SARIMA模型的原理,最后,通過(guò)使用MATLAB軟件對(duì)三種方法進(jìn)行了比較評(píng)估。綜合考慮實(shí)驗(yàn)結(jié)果和方法原理,建議在電視廣播收視率預(yù)測(cè)中選擇合適的方法應(yīng)根據(jù)具體情況來(lái)定。
關(guān)鍵詞:大數(shù)據(jù);收視率;電視廣播;時(shí)序分析 中圖分類號(hào):G223 文獻(xiàn)標(biāo)識(shí)碼:A
隨著信息技術(shù)的不斷發(fā)展,大數(shù)據(jù)技術(shù)已經(jīng)成為了各行業(yè)中不可或缺的一部分,其在電視廣播領(lǐng)域的應(yīng)用也日益受到重視[1,2]。收視率作為衡量電視節(jié)目受眾程度的重要指標(biāo),對(duì)于廣告投放、節(jié)目制作等方面具有重要意義[3,4]。傳統(tǒng)的收視率分析方法往往受限于數(shù)據(jù)規(guī)模和復(fù)雜度,無(wú)法全面準(zhǔn)確地反映受眾的真實(shí)觀看行為。因此,借助大數(shù)據(jù)技術(shù)進(jìn)行收視率分析成為了當(dāng)前研究的熱點(diǎn)之一。
在國(guó)內(nèi)外,關(guān)于大數(shù)據(jù)在電視廣播收視率分析方面的研究已經(jīng)有了一定的積累,但仍然存在著許多問(wèn)題亟待解決。例如,如何構(gòu)建有效的大數(shù)據(jù)框架用于收視率分析,如何利用大數(shù)據(jù)技術(shù)提高收視率預(yù)測(cè)的準(zhǔn)確性等。在這一背景下,本文旨在探討大數(shù)據(jù)技術(shù)在電視廣播收視率分析中的應(yīng)用,并針對(duì)現(xiàn)有的三種分析方法進(jìn)行研究和比較,以期為提升收視率分析的精準(zhǔn)度和效率提供參考和借鑒。
具體地說(shuō),本文首先介紹了基于大數(shù)據(jù)技術(shù)的收視率分析方法,然后詳細(xì)闡述了自回歸移動(dòng)平均模型(AutoregressiveMoving Average Model,ARMA)[5,6]、自回歸積分移動(dòng)平均模型(Autoregressive Integrated Moving AverageModel ,ARIMA)[7,8]、季節(jié)性自回歸移動(dòng)平均模型(SeasonalAutoregressive Integrated Moving Average Model,SARIMA)[9,10]等三種常用的分析方法的原理和應(yīng)用情況。接著,利用尼爾森數(shù)據(jù)集進(jìn)行實(shí)證分析,對(duì)比了這三種方法在收視率預(yù)測(cè)上的效果,從而為電視廣播領(lǐng)域的相關(guān)研究提供了新的思路和方法。本文的研究意義在于通過(guò)結(jié)合大數(shù)據(jù)技術(shù)和傳統(tǒng)分析方法,探索提升電視廣播收視率分析水平的有效途徑,為相關(guān)研究和實(shí)踐提供了有益的參考。
1 針對(duì)收視率的大數(shù)據(jù)分析框架
基于大數(shù)據(jù)技術(shù)的收視率分析框架應(yīng)當(dāng)綜合利用各類數(shù)據(jù)源,包括但不限于用戶行為數(shù)據(jù)、社交媒體數(shù)據(jù)、節(jié)目?jī)?nèi)容數(shù)據(jù)等,以全面、多維度地理解觀眾的觀看行為和偏好。本文提出的收視率分析框架如圖1所示。
數(shù)據(jù)采集與清洗階段從多個(gè)來(lái)源獲取原始數(shù)據(jù),包括電視機(jī)頂盒數(shù)據(jù)、網(wǎng)絡(luò)流媒體平臺(tái)數(shù)據(jù)、社交媒體數(shù)據(jù)等,并且對(duì)原始數(shù)據(jù)進(jìn)行清洗和預(yù)處理,包括去除重復(fù)數(shù)據(jù)、處理缺失值、標(biāo)準(zhǔn)化數(shù)據(jù)格式等,確保數(shù)據(jù)質(zhì)量和一致性。
數(shù)據(jù)存儲(chǔ)與管理階段將清洗后的數(shù)據(jù)存儲(chǔ)到大數(shù)據(jù)存儲(chǔ)系統(tǒng)中,如分布式文件系統(tǒng)(Hadoop Distributed File System,HDFS)或NoSQL數(shù)據(jù)庫(kù)。
數(shù)據(jù)分析與挖掘階段:利用數(shù)據(jù)挖掘技術(shù)和機(jī)器學(xué)習(xí)算法對(duì)收視數(shù)據(jù)進(jìn)行分析和挖掘,探索觀眾的觀看習(xí)慣、興趣偏好等信息,包括用戶畫像構(gòu)建、群體分析、內(nèi)容關(guān)聯(lián)分析等內(nèi)容,以深入理解觀眾群體和內(nèi)容之間的關(guān)系。
模型建立與預(yù)測(cè)階段基于歷史收視數(shù)據(jù)建立預(yù)測(cè)模型,如時(shí)間序列分析模型(如ARIMA、SARIMA)、機(jī)器學(xué)習(xí)模型(如回歸模型、神經(jīng)網(wǎng)絡(luò)模型)等,預(yù)測(cè)未來(lái)收視趨勢(shì)。
結(jié)果可視化與應(yīng)用階段將分析結(jié)果通過(guò)可視化手段展現(xiàn)出來(lái),如圖表、報(bào)表、儀表盤等,方便用戶理解和使用。
2 大數(shù)據(jù)分析方法的研究
ARMA、ARIMA以及SARIMA是在時(shí)間序列分析領(lǐng)域中被廣泛使用的三種方法。ARMA模型結(jié)合了自回歸和移動(dòng)平均的特性,用于描述時(shí)間序列數(shù)據(jù)中的自相關(guān)和滯后效應(yīng),能夠很好地捕捉數(shù)據(jù)的趨勢(shì)和周期性變化。ARIMA模型在ARMA模型的基礎(chǔ)上增加了差分的處理,用于處理非平穩(wěn)時(shí)間序列數(shù)據(jù),能夠更好地適應(yīng)收視率數(shù)據(jù)中可能存在的趨勢(shì)和季節(jié)性變化,提高了模型的準(zhǔn)確性和穩(wěn)定性,使其在實(shí)際應(yīng)用中更具有實(shí)用性。SARIMA模型在ARIMA模型的基礎(chǔ)上考慮了季節(jié)性因素,能夠有效地處理季節(jié)性時(shí)間序列數(shù)據(jù)。這對(duì)于收視率分析來(lái)說(shuō)尤為重要,因?yàn)殡娨暪?jié)目的受眾往往會(huì)受到時(shí)間、季節(jié)等因素的影響而產(chǎn)生周期性變化。SARIMA模型能夠更準(zhǔn)確地捕捉這種周期性變化,提高了模型的預(yù)測(cè)精度和實(shí)用性。
2.1 基于ARMA的收視率預(yù)測(cè)分析方法
ARMA是一種經(jīng)典的時(shí)間序列分析方法,用于對(duì)收視率數(shù)據(jù)進(jìn)行預(yù)測(cè)和分析。
設(shè) yt 是時(shí)間t的收視率數(shù)據(jù),εt是時(shí)間t的隨機(jī)誤差項(xiàng),p是自回歸的階數(shù),q是移動(dòng)平均的階數(shù)。ARMA模型的一般形式可以表示為:
yt=c+φ1yt-1+ φ2 yt-2+…+ φpyt-p+ εt- θ1 εt-1- θ2(1)
其中,c是常數(shù)項(xiàng),φ1, φ2, …,φp是自回歸系數(shù),θ1, θ2, …,θq 是移動(dòng)平均系數(shù)。這個(gè)模型基于兩個(gè)假設(shè):一是時(shí)間序列{ yt} 是平穩(wěn)的,即均值和方差在時(shí)間上是不變的;二是誤差項(xiàng){ εt}是獨(dú)立同分布的隨機(jī)變量,且服從均值為零、方差為σ 2的正態(tài)分布。
為了對(duì)ARMA模型進(jìn)行估計(jì)和預(yù)測(cè),通常需要進(jìn)行參數(shù)估計(jì)。常用的方法之一是最大似然估計(jì)(Maximum Likelihood Estimation,MLE),通過(guò)最大化對(duì)數(shù)似然函數(shù)來(lái)估計(jì)模型參數(shù)。具體地說(shuō),對(duì)于給定的觀測(cè)數(shù)據(jù) y1, y2, … ,y T,對(duì)數(shù)似然函數(shù)可以表示為:
其中,εt是殘差,等于觀測(cè)值yt 與其在當(dāng)前時(shí)間點(diǎn)的預(yù)測(cè)值之差。通過(guò)最大化對(duì)數(shù)似然函數(shù),可以得到估計(jì)的參數(shù)值,從而構(gòu)建ARMA模型并進(jìn)行收視率的預(yù)測(cè)和分析。
2.2 基于ARIMA的收視率預(yù)測(cè)分析方法
使用ARIMA對(duì)收視率數(shù)據(jù)進(jìn)行預(yù)測(cè)和分析時(shí),設(shè)y t 是時(shí)間t的收視率數(shù)據(jù),Δ yt 是 yt 的一階差分,即 Δ yt = yt -yt?1,p是自回歸的階數(shù),d是差分的次數(shù),q是移動(dòng)平均的階數(shù)。ARIMA模型的一般形式可以表示為:
其中,c是常數(shù)項(xiàng),φ1, φ2, …,φ p是自回歸系數(shù), θ1, θ2, …,θq 是移動(dòng)平均系數(shù)。ARIMA模型相比ARMA模型多了一個(gè)差分的步驟,這使得時(shí)間序列數(shù)據(jù)能夠更好地適應(yīng)平穩(wěn)性的要求。
為了對(duì)ARIMA模型進(jìn)行估計(jì)和預(yù)測(cè),也采用最大似然估計(jì)等方法。對(duì)于給定的觀測(cè)數(shù)據(jù) y1, y2, … ,yT ,對(duì)數(shù)似然函數(shù)可以表示為:
其中,εt是殘差,等于觀測(cè)值 yt 與其在當(dāng)前時(shí)間點(diǎn)的預(yù)測(cè)值之差。通過(guò)最大化對(duì)數(shù)似然函數(shù),可以得到估計(jì)的參數(shù)值,從而構(gòu)建ARIMA模型并進(jìn)行收視率的預(yù)測(cè)和分析。
2.3 基于SARIMA的收視率預(yù)測(cè)分析方法
SARIMA也是一種用于時(shí)間序列分析的工具,設(shè) yt 是時(shí)間t的收視率數(shù)據(jù),Δ yt 是 yt 的一階差分,s是季節(jié)性的周期長(zhǎng)度,p是自回歸的階數(shù),d 是差分的次數(shù),q是移動(dòng)平均的階數(shù)。SARIMA模型的一般形式可以表示為:
其中,Δss yt 表示 yt 在季節(jié)性周期s上的差分,φ1, φ2, …,φp 是自回歸系數(shù),θ1, θ2, …,θq 是移動(dòng)平均系數(shù)。SARIMA模型在ARIMA模型的基礎(chǔ)上考慮了季節(jié)性因素,使得模型更適用于季節(jié)性時(shí)間序列數(shù)據(jù)的分析與預(yù)測(cè)。
為了對(duì)SARIMA模型進(jìn)行估計(jì)和預(yù)測(cè),同樣可以采用最大似然估計(jì)等方法。對(duì)于給定的觀測(cè)數(shù)據(jù) y1, y2, … ,yT ,對(duì)數(shù)似然函數(shù)可以表示為:
其中,εt是殘差,等于觀測(cè)值 yt"與其在當(dāng)前時(shí)間點(diǎn)的預(yù)測(cè)值之差。通過(guò)最大化對(duì)數(shù)似然函數(shù),可以得到估計(jì)的參數(shù)值,從而構(gòu)建SARIMA模型并進(jìn)行收視率的預(yù)測(cè)和分析。
3 實(shí)驗(yàn)與分析
尼爾森數(shù)據(jù)集是一組廣泛應(yīng)用于電視廣播行業(yè)的數(shù)據(jù)集,用于收集和記錄觀眾對(duì)特定節(jié)目、頻道或廣告的收視情況。該數(shù)據(jù)集由Nielsen公司收集并整理,包含了大量的收視率數(shù)據(jù),涵蓋了不同時(shí)間段、不同頻道以及不同類型的節(jié)目。本文使用了尼爾森收視率數(shù)據(jù)集對(duì)這三種方法進(jìn)行對(duì)比:
(1)數(shù)據(jù)準(zhǔn)備:下載數(shù)據(jù)集并導(dǎo)入MATLAB中,對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,包括去除缺失值、平穩(wěn)化處理等。
(2)ARMA模型實(shí)驗(yàn):使用MATLAB中的`armax`函數(shù)構(gòu)建ARMA模型,利用ARMA模型對(duì)收視率數(shù)據(jù)進(jìn)行擬合。使用已擬合的模型對(duì)未來(lái)一段時(shí)間的收視率進(jìn)行預(yù)測(cè),并對(duì)預(yù)測(cè)結(jié)果進(jìn)行評(píng)估,包括殘差分析、預(yù)測(cè)誤差等。
(3)ARIMA模型實(shí)驗(yàn):使用MATLAB中的`arima`函數(shù)構(gòu)建ARIMA模型,重復(fù)步驟(2)中的操作。
(4)SARIMA模型實(shí)驗(yàn):使用MATLAB中的`sarima`函數(shù)構(gòu)建SARIMA模型,重復(fù)步驟(2)中的操作。
(5)結(jié)果比較與分析:比較三種方法的預(yù)測(cè)效果。本實(shí)驗(yàn)采用了擬合度、預(yù)測(cè)準(zhǔn)確度、殘差分析等指標(biāo)來(lái)對(duì)上述三種方法進(jìn)行了評(píng)估,如表1所示。
根據(jù)如表1所示結(jié)果,可以對(duì)ARMA、ARIMA和SARIMA三種方法在Nielsen評(píng)級(jí)數(shù)據(jù)集上的性能進(jìn)行分析。首先,從擬合度指標(biāo)來(lái)看,ARIMA模型表現(xiàn)最佳,其擬合度達(dá)到0.91,比ARMA和SARIMA模型略高。這表明ARIMA模型能夠更好地?cái)M合原始數(shù)據(jù),捕捉到數(shù)據(jù)的變化趨勢(shì)和模式。其次,從預(yù)測(cè)準(zhǔn)確度指標(biāo)來(lái)看,ARIMA模型同樣表現(xiàn)最佳,其預(yù)測(cè)準(zhǔn)確度為8.7%,比ARMA和SARIMA模型略低。這說(shuō)明ARIMA模型能夠更準(zhǔn)確地預(yù)測(cè)未來(lái)的收視率數(shù)據(jù),具有更高的預(yù)測(cè)精度。然而,對(duì)于殘差分析來(lái)說(shuō),ARMA模型在表現(xiàn)上略優(yōu)于ARIMA和SARIMA模型,其殘差符合正態(tài)分布且無(wú)明顯自相關(guān)。而ARIMA模型的部分殘差不符合正態(tài)分布,而SARIMA模型則存在季節(jié)性自相關(guān),這可能會(huì)影響模型的穩(wěn)定性和準(zhǔn)確性。
結(jié)合上述實(shí)驗(yàn)結(jié)果和方法原理來(lái)看,ARMA、ARIMA和SARIMA三種方法在收視率預(yù)測(cè)中各具優(yōu)勢(shì)和劣勢(shì),選擇合適的方法應(yīng)根據(jù)具體情況來(lái)定。若數(shù)據(jù)具有明顯的自相關(guān)性和移動(dòng)平均性質(zhì),且不涉及非平穩(wěn)和季節(jié)性變化,則可以選擇ARMA模型;若數(shù)據(jù)存在非平穩(wěn)性和趨勢(shì)性變化,且不涉及季節(jié)性變化,則可以選擇ARIMA模型;若數(shù)據(jù)具有明顯的季節(jié)性規(guī)律,則可以選擇SARIMA模型。同時(shí),需要根據(jù)實(shí)際情況進(jìn)行模型參數(shù)的選擇和調(diào)整,以提高模型的預(yù)測(cè)效果和穩(wěn)定性。
4 結(jié)語(yǔ)
本論文通過(guò)對(duì)ARMA、AR I MA和SAR I MA三種方法在Nielsen評(píng)級(jí)數(shù)據(jù)集上的實(shí)驗(yàn)比較,對(duì)電視廣播收視率預(yù)測(cè)分析進(jìn)行了深入研究。實(shí)驗(yàn)結(jié)果表明,ARIMA模型在綜合性能上最為突出,能夠較好地?cái)M合原始數(shù)據(jù)并預(yù)測(cè)未來(lái)收視率數(shù)據(jù),具有較高的準(zhǔn)確度和穩(wěn)定性;ARMA模型在簡(jiǎn)單性和殘差特性上表現(xiàn)較好,但在季節(jié)性和趨勢(shì)性數(shù)據(jù)分析中受限;SARIMA模型考慮了季節(jié)性因素,但參數(shù)較多且對(duì)數(shù)據(jù)平穩(wěn)性要求較高。因此,在實(shí)際應(yīng)用中,建議根據(jù)具體數(shù)據(jù)特點(diǎn)和需求選擇合適的方法,并結(jié)合參數(shù)調(diào)整和模型優(yōu)化,以提高預(yù)測(cè)效果和應(yīng)用價(jià)值。這些研究結(jié)果對(duì)于電視廣播行業(yè)的評(píng)級(jí)分析、節(jié)目制作和廣告投放具有重要的指導(dǎo)意義,也為相關(guān)領(lǐng)域的研究提供了有益的參考和借鑒。
參考文獻(xiàn)
[1] 渠波洋.大數(shù)據(jù)在廣播電視監(jiān)測(cè)技術(shù)中的應(yīng)用分析[J].西部廣播電視,2022,43(03):225-227.
[2] 傅鐸.廣播電視監(jiān)測(cè)中大數(shù)據(jù)技術(shù)的應(yīng)用研究[J].中國(guó)傳媒科技,2019,(02):117-119.
[3] 賈園.電視節(jié)目收視率分析與節(jié)目編排策略[J].西部廣播電視,2023,44(05):50-52.
[4] 李文彬.媒體融合背景下電視收視率的價(jià)值分析[J].新聞文化建設(shè),2022,(03):155-157.
[5] 郭宙翔,劉東鵬.基于自回歸移動(dòng)平均模型評(píng)估張掖市手足口病發(fā)病情況[J].中國(guó)病毒病雜志,2023,13(05):390-394.
[6] 陳麗,楊玉妹,方朕.自回歸移動(dòng)平均模型在骨科Ⅰ類切口感染預(yù)測(cè)中的應(yīng)用[J].軍事護(hù)理,2023,40(11):36-39+44.
[7] 肖珊,陳建勇,彭萊,等.自回歸積分移動(dòng)平均模型在長(zhǎng)沙市白紋伊蚊密度預(yù)測(cè)中的應(yīng)用[J].實(shí)用預(yù)防醫(yī)學(xué),2024,31(04):506-510.
[8] 李嘉威.基于組合模型的交通流量預(yù)測(cè)[D].杭州電子科技大學(xué),2019.
[9] 葉舟,黃婷,戴韌,等.季節(jié)性自回歸滑動(dòng)平均混合模型及其在電力負(fù)荷預(yù)測(cè)中的應(yīng)用[J].四川電力技術(shù),2001,(01):5-8+25.
[10] 杜剛,劉婭楠.季節(jié)性變動(dòng)影響下的上海港集裝箱吞吐量預(yù)測(cè)[J].華東師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,(01):234-239.