張 濤,翁康年,張倩帆*,張玥杰
基于情境案例推理的播前收視率預(yù)測方法
張 濤1,翁康年1,張倩帆1*,張玥杰2
(1.上海財(cái)經(jīng)大學(xué) 信息管理與工程學(xué)院,上海市金融信息技術(shù)研究重點(diǎn)實(shí)驗(yàn)室,上海 200433;2.復(fù)旦大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,上海市智能信息處理重點(diǎn)實(shí)驗(yàn)室,上海 200433)
本文旨在研究基于情境案例推理的電視節(jié)目播前收視率預(yù)測方法,充分利用大量積累的歷史收視數(shù)據(jù),通過歷史電視節(jié)目案例與新節(jié)目案例的匹配與重用對(duì)新節(jié)目收視率進(jìn)行播前預(yù)測,彌補(bǔ)傳統(tǒng)播前預(yù)測方法成本高、效率低的缺陷,為電視節(jié)目的播前收視率預(yù)測提供新思路。該方法在以下三方面顯著不同于其他已有相關(guān)研究工作:1) 引入心理學(xué)和知識(shí)領(lǐng)域的情境至基于案例推理的播前收視率預(yù)測中,構(gòu)建一種內(nèi)外部情境相交融的電視節(jié)目案例表達(dá)多層次情境結(jié)構(gòu);2) 基于電視節(jié)目案例表達(dá)中所存在的多值情境,構(gòu)建多值符號(hào)情境的局部相似度計(jì)算模式,即多值匹配策略;3) 針對(duì)案例重用中目標(biāo)案例與相似案例的情境匹配,構(gòu)建基于差異情境的情境系數(shù)調(diào)整規(guī)則。基于華東地區(qū)8個(gè)月的收視數(shù)據(jù),以電視劇收視率調(diào)查作為實(shí)驗(yàn)分析的具體案例,實(shí)驗(yàn)結(jié)果表明,本文提出的播前收視率預(yù)測方法具有良好的預(yù)測效果,并展示出其有效性與合理性。
播前收視率預(yù)測;案例推理;多值情境;案例檢索;案例重用
20世紀(jì)90年代初,我國電視業(yè)開始嘗試從“制播合一”向“制播分離”轉(zhuǎn)變,在電視產(chǎn)業(yè)鏈中電視臺(tái)僅負(fù)責(zé)節(jié)目的購買、編排和播放,而制作環(huán)節(jié)是由社會(huì)制片機(jī)構(gòu)完成,電視臺(tái)需向制片公司購買電視節(jié)目的播映權(quán)或版權(quán)[1]。這種交易發(fā)生在電視節(jié)目正式播出之前,是在未能完全確定電視節(jié)目的真正市場價(jià)值之前所產(chǎn)生的投資。若能在購買電視節(jié)目之前對(duì)電視節(jié)目的收視效果進(jìn)行有效評(píng)估和預(yù)測,電視臺(tái)就能準(zhǔn)確把握電視節(jié)目的潛在市場價(jià)值,降低電視節(jié)目的經(jīng)營風(fēng)險(xiǎn)。收視率作為媒介調(diào)查的重要數(shù)據(jù),是衡量電視節(jié)目收視效果的重要指標(biāo),電視臺(tái)通過把握電視節(jié)目收視率來提高其傳播的針對(duì)性與有效性,并以此作為電視廣告營銷與市場定位的重要依據(jù)[2]。電視節(jié)目播前收視率的準(zhǔn)確預(yù)測可幫助電視臺(tái)進(jìn)行電視節(jié)目的合理購買,降低投資風(fēng)險(xiǎn)和經(jīng)營風(fēng)險(xiǎn)[3]。同時(shí),電視廣告商也需要根據(jù)電視節(jié)目收視率,進(jìn)行廣告播出時(shí)段價(jià)值評(píng)估和選擇性購買,收視率的播前預(yù)測可為廣告投放策略提供決策依據(jù)[4]。因此,如何準(zhǔn)確預(yù)測電視節(jié)目收視率特別是播前收視率,對(duì)于電視媒體至關(guān)重要同時(shí)也是電視媒體領(lǐng)域的研究焦點(diǎn)。
目前,國內(nèi)外有關(guān)收視率預(yù)測的研究主要側(cè)重于播后預(yù)測,即電視節(jié)目播出后,根據(jù)影響收視率的相關(guān)因素,運(yùn)用時(shí)間序列、線性回歸、決策樹、貝葉斯及神經(jīng)網(wǎng)絡(luò)等方法來預(yù)測未來一段時(shí)期內(nèi)該節(jié)目的收視率[5][6]。對(duì)于播前預(yù)測的研究則相對(duì)較少,主要通過播前測試與播前評(píng)估的方式來預(yù)測電視節(jié)目收視率或電影票房[7]。針對(duì)播前測試,美國電視業(yè)普遍使用小安妮(Little Annie)節(jié)目分析系統(tǒng),在播放樣片的同時(shí)記錄觀眾反應(yīng)和情緒對(duì)節(jié)目情節(jié)進(jìn)行深入分析,進(jìn)而預(yù)估電視節(jié)目收視率。在此基礎(chǔ)上,上海電視臺(tái)(Shanghai Media Group, SMG)建立受眾測試中心,對(duì)新節(jié)目與改版節(jié)目進(jìn)行播前受眾測試,首先通過看片系統(tǒng)實(shí)時(shí)監(jiān)測觀眾在收看節(jié)目時(shí)的意愿變化,并以曲線形式展現(xiàn)其興趣點(diǎn);然后通過填寫問卷了解觀眾對(duì)關(guān)鍵要素的評(píng)價(jià),最后對(duì)收視率進(jìn)行預(yù)測。相關(guān)研究者也對(duì)播前評(píng)估體系與方法進(jìn)行研究,提出包括品牌和內(nèi)容質(zhì)量指標(biāo)在內(nèi)的電視節(jié)目評(píng)價(jià)指標(biāo)體系,將觀眾進(jìn)行分類取樣,然后進(jìn)行電視節(jié)目試播和觀眾實(shí)時(shí)評(píng)價(jià)記錄,根據(jù)評(píng)價(jià)指標(biāo)的權(quán)重以及觀眾的打分而得到電視節(jié)目收視率的預(yù)測結(jié)果[8]。雖然播前測試/評(píng)估方法取得較好的效果,但在構(gòu)建看片室、組織觀眾和專家試看節(jié)目、及對(duì)評(píng)價(jià)結(jié)果進(jìn)行統(tǒng)計(jì)分析上卻要耗用大量的人力與物力,測試方式耗時(shí)長、流程復(fù)雜,對(duì)于電視制播機(jī)構(gòu)是一項(xiàng)不小的開支。
電視節(jié)目播前收視率的智能預(yù)測研究尚處于起步階段,難以滿足電視媒體領(lǐng)域?qū)嶋H需求[9]??紤]到電視節(jié)目收視率在短時(shí)間內(nèi)較為平穩(wěn),電視節(jié)目的受眾群體相對(duì)穩(wěn)定且極少受突發(fā)事件影響,灰色預(yù)測、時(shí)間序列分析、線性回歸等方法被逐步引入至電視節(jié)目播前收視率預(yù)測,并獲得一定的預(yù)測效果[10]。這些方法偏重于對(duì)電視節(jié)目收視數(shù)據(jù)的整體傾向性進(jìn)行統(tǒng)計(jì)分析,針對(duì)預(yù)測模型的變量間呈現(xiàn)顯著線性關(guān)系、或者經(jīng)過數(shù)據(jù)轉(zhuǎn)換可構(gòu)建變量間線性關(guān)系的情形,對(duì)電視節(jié)目播前收視率預(yù)測具有一定的優(yōu)勢。但現(xiàn)實(shí)中的電視節(jié)目播放通常存在一些干擾因素,使得播前預(yù)測問題的變量間呈現(xiàn)非線性關(guān)系,這可能增大預(yù)測誤差甚至?xí)?dǎo)致預(yù)測失敗。因此,上述預(yù)測方法難以對(duì)電視節(jié)目播前收視率的線性及非線性規(guī)律進(jìn)行有效分析與歸納,其預(yù)測的播前收視率準(zhǔn)確性往往也較為有限。針對(duì)該問題,電視媒體領(lǐng)域的學(xué)者嘗試采納電視節(jié)目收視率的各種影響因素作為統(tǒng)計(jì)依據(jù),利用數(shù)據(jù)挖掘與統(tǒng)計(jì)學(xué)習(xí)方法進(jìn)行電視節(jié)目播前收視率預(yù)測[11][12]。目前,有關(guān)電視節(jié)目播前收視率的智能預(yù)測方法主要包括決策樹算法、貝葉斯算法、以及神經(jīng)網(wǎng)絡(luò)算法三類?;跊Q策樹的收視率預(yù)測模式充分發(fā)揮其能夠有效解決高維數(shù)據(jù)分類且分類效率高、準(zhǔn)確性高、生成模式簡化等諸多優(yōu)勢,使用決策樹中的ID3算法實(shí)現(xiàn)電視節(jié)目收視率分類預(yù)測建模[13]?;谪惾~斯算法的收視率預(yù)測模式充分發(fā)揮其易于結(jié)合先驗(yàn)知識(shí)和樣本數(shù)據(jù)、具有因果與概率性清晰語義、有效描述數(shù)據(jù)間相互關(guān)系、以及蘊(yùn)含所有變量間依賴關(guān)系等諸多優(yōu)勢,構(gòu)建考慮先驗(yàn)知識(shí)的電視節(jié)目播前收視率預(yù)測模型[14][15]?;谏窠?jīng)網(wǎng)絡(luò)算法的收視率預(yù)測模式充分發(fā)揮其良好的自學(xué)習(xí)功能、高速尋優(yōu)能力等諸多優(yōu)勢,融合電視節(jié)目播前收視率指標(biāo)體系而建立基于BP神經(jīng)網(wǎng)絡(luò)的收視率預(yù)測模型[16][17]??梢钥闯?,當(dāng)前已有的電視節(jié)目播前收視率預(yù)測相關(guān)研究工作取得一定效果,但由于主客觀因素,目前的主流方法在電視節(jié)目播前收視率預(yù)測方面仍存在一定的局限性[18][19]。基于決策樹的預(yù)測模式雖然對(duì)電視節(jié)目影響因素的分析較為深入,但在具體的播前收視率預(yù)測上不能給出確切的預(yù)測值,同時(shí)隨著數(shù)據(jù)規(guī)模變大,決策樹也會(huì)隨之變化。類似地,基于貝葉斯網(wǎng)絡(luò)的預(yù)測模式同樣無法對(duì)具體的電視節(jié)目播前收視率數(shù)值進(jìn)行預(yù)測。基于神經(jīng)網(wǎng)絡(luò)的預(yù)測模式,雖可給出電視節(jié)目播前收視率預(yù)測值,但網(wǎng)絡(luò)訓(xùn)練學(xué)習(xí)在很大程度上取決于電視節(jié)目自身的特點(diǎn),通常采用5分制對(duì)影響節(jié)目收視的因素進(jìn)行評(píng)分,不同的人對(duì)不同因素的評(píng)分存在主觀性,該預(yù)測模式所得到的結(jié)果存在較大的主觀局限性,在某些情況下所構(gòu)建的網(wǎng)絡(luò)學(xué)習(xí)模型可能精度較低。
案例推理(Case-Based Reasoning, CBR)是人工智能領(lǐng)域一種基于經(jīng)驗(yàn)的問題求解方法,其模擬人類求解問題的思路,通過修改已有解決方案來滿足求解新問題的需要[20][21]。隨著數(shù)字電視與機(jī)頂盒技術(shù)的成熟,收視數(shù)據(jù)的采集越來越方便,電視媒體機(jī)構(gòu)積累的收視數(shù)據(jù)也不斷增長,這些激增的收視數(shù)據(jù)背后蘊(yùn)藏著大量具有決策價(jià)值的信息均為問題求解的經(jīng)驗(yàn)。案例推理主要基于兩個(gè)假設(shè):(1)相同或相似問題有相同或相似的解決方案;(2)相同或相似的問題會(huì)重復(fù)出現(xiàn)[22] [23]。它可被認(rèn)為是基于類比的推理,采用目標(biāo)案例和源案例的相似性匹配進(jìn)行問題求解,當(dāng)遇到一個(gè)新問題時(shí),會(huì)在存儲(chǔ)以往解決問題經(jīng)驗(yàn)的案例庫中查找與新問題相似的案例,并將相似案例的解決方法進(jìn)行一定的調(diào)整作為新問題的解決方案,同時(shí)新問題也作為一個(gè)新的案例加入至案例庫中[24]。本文擬利用從某公司獲取的大量歷史收視數(shù)據(jù),研究基于情境案例推理的電視節(jié)目播前收視率預(yù)測方法??紤]到電視劇是電視臺(tái)播出量最大、觀眾收視時(shí)間最長的節(jié)目類型,是大部分電視臺(tái)及新媒體播出機(jī)構(gòu)投入量最大、產(chǎn)出最多、覆蓋效果最好的產(chǎn)品,結(jié)合電視劇的特點(diǎn),將案例推理機(jī)制應(yīng)用于電視節(jié)目播前收視率預(yù)測,同時(shí)引入心理學(xué)和知識(shí)研究領(lǐng)域中的情境概念至案例知識(shí)表達(dá),構(gòu)建局部相似度計(jì)算的改進(jìn)策略與案例重用的調(diào)整規(guī)則[25]。由此,針對(duì)電視節(jié)目播前收視率預(yù)測而提出有別于傳統(tǒng)播前預(yù)測方式的新思路,有效降低播前評(píng)估成本且提高預(yù)測效率,支持電視媒體與廣告商在節(jié)目的交易、編排、及廣告投放中進(jìn)行合理決策。
案例表示是案例推理的基礎(chǔ),準(zhǔn)確的案例表示是保證案例推理高效求解問題的前提。在案例表示方法中,框架法能夠表達(dá)結(jié)構(gòu)性知識(shí),既可減少知識(shí)冗余,又可保證知識(shí)一致性。鑒于本文所研究的電視節(jié)目案例具有結(jié)構(gòu)性強(qiáng)的特點(diǎn),利用框架法對(duì)其進(jìn)行案例表示有利于案例知識(shí)的進(jìn)一步擴(kuò)充,因此采用框架法來對(duì)電視節(jié)目構(gòu)建有效合理的案例表示。同時(shí),在案例表示中引入情境的概念作為案例的一種具體表達(dá)形式,建立電視節(jié)目案例表示的多層次情境結(jié)構(gòu)[26]。其中,將演員、類型、題材、年代等電視節(jié)目本身的要素定義為內(nèi)部情境,將電視節(jié)目播出的頻道、時(shí)段、檔期等環(huán)境因素定義為外部情境。內(nèi)外部情境兩者相結(jié)合共同組成電視節(jié)目案例表示中的問題描述,解描述即為播前收視率。
一般案例中的情境按取值可分為兩類,即確定數(shù)情境與確定符號(hào)情境。確定數(shù)情境是指情境值是確定數(shù)字的案例情境,這些情境值可連續(xù)也可為離散;確定符號(hào)情境是指情境值為確定字符串的案例情境,這些情境值通常用明確的術(shù)語表示。根據(jù)內(nèi)外部情境的定義,本文將內(nèi)外部情境的取值均定義為確定符號(hào)型,事先將各情境的可能取值一一列出,情境值僅限于所列舉的取值范圍內(nèi)。
本文將案例表示成框架、槽和側(cè)面的形式。在電視劇案例中,設(shè)電視劇是一個(gè)框架,其演員類型、演員知名度等問題描述以及解描述都是電視劇這個(gè)框架下的槽/情境,每個(gè)情境的取值即為槽值。本文采用歸納法總結(jié)出電視劇案例的內(nèi)、外部情境及其取值,用框架法對(duì)電視劇案例進(jìn)行表示的形式如下:
<電視劇>
<案例編號(hào)> (1, 2, …)
<電視劇名> (瑯琊榜,偽裝者,歡樂頌,…)
<演員類型> (偶像派,實(shí)力派)
<演員知名度> (一線,二線,三線)
<地區(qū)> (大陸,港臺(tái),日韓)
<年代> (當(dāng)代,現(xiàn)代,近代,古代)
<類型> (愛情,搞笑,懸疑,犯罪,動(dòng)作,恐怖,科幻,偶像,…)
<題材> (軍旅,都市,農(nóng)村,青少,涉案,傳紀(jì),革命,神話,…)
<編劇知名度> (一般編劇,知名編劇)
<導(dǎo)演知名度> (一般導(dǎo)演,知名導(dǎo)演)
<劇本來源> (小說改編,原創(chuàng),電影改編,游戲改編,真實(shí)案例)
<制片人等級(jí)> (甲證,乙證)
<頻道影響力> (一線,二線,三線)
<播出時(shí)段> (黃金時(shí)段,次黃金時(shí)段,非黃金時(shí)段,深夜時(shí)段)
<播出檔期> (暑期檔,賀歲檔,公休日,工作日)
<播出方式> (首播,重播,非首播1,非首播2,非首播3)
<收視率>
案例情境的權(quán)重決定著案例間相似度的大小,影響著案例推理的質(zhì)量[27]。常用的客觀賦權(quán)法包括主成分分析法、熵權(quán)法、信息增益法等。主成分分析法進(jìn)行特征權(quán)重的計(jì)算是一個(gè)變量降維的過程,即所提取的主成分個(gè)數(shù)小于原始數(shù)據(jù)變量的個(gè)數(shù),且對(duì)主成分含義的解釋一般帶有模糊性。在針對(duì)案例推理的研究中,若用主成分分析法對(duì)情境進(jìn)行降維,則案例表示中的內(nèi)外部情境將減少,案例庫中案例間的區(qū)分度也將降低,影響案例檢索的結(jié)果,同時(shí)對(duì)所提取的主成分含義的解釋也具有一定的模糊性,不利于后續(xù)的預(yù)測。熵權(quán)法是根據(jù)信息的離散程度對(duì)各指標(biāo)賦熵權(quán),能充分利用原始數(shù)據(jù)所提供的信息來得到客觀指標(biāo)權(quán)重。然而,熵權(quán)法僅考察各指標(biāo)內(nèi)部信息的離散程度,缺乏指標(biāo)間的橫向?qū)Ρ取H舨捎渺貦?quán)法來計(jì)算各案例情境的權(quán)重,則僅能根據(jù)各情境的離散程度來衡量每一情境的重要性,缺乏各情境對(duì)收視率影響程度的對(duì)比。信息增益法被廣泛應(yīng)用在機(jī)器學(xué)習(xí)領(lǐng)域,用來處理文本分類中的特征選擇問題,是最有效的特征選擇算法之一[28]。信息增益法通過特征為系統(tǒng)帶來的信息量來衡量特征的重要度,充分考慮了特征對(duì)文本類別的信息表示量,根據(jù)信息量的多少來確定特征的權(quán)值,并進(jìn)行特征的選取。因此,信息增益能夠?qū)⑻卣髋c系統(tǒng)分類目標(biāo)聯(lián)系起來,客觀地衡量特征對(duì)系統(tǒng)分類的影響,不僅有利于后續(xù)的預(yù)測,而且還利于實(shí)現(xiàn)各情境對(duì)收視率影響程度的對(duì)比。因此,本文采用信息增益法來計(jì)算各案例情境的權(quán)重,過程如下:
案例推理過程包括案例表示、案例庫構(gòu)建、案例檢索與匹配、案例重用、案例修改、及案例存儲(chǔ)等諸多環(huán)節(jié)。由于電視節(jié)目案例表達(dá)中存在多值情境,因此在案例檢索階段對(duì)最近鄰(K-Nearest Neighbor, KNN)算法中局部相似度的計(jì)算進(jìn)行補(bǔ)充與改進(jìn),建立多值符號(hào)情境的局部相似度計(jì)算方法,即多值匹配策略。在案例重用階段,構(gòu)建基于差異情境的情境系數(shù)調(diào)整規(guī)則,對(duì)最相似案例的解進(jìn)行調(diào)整,得到目標(biāo)案例的建議解。
案例推理是基于知識(shí)的問題求解和學(xué)習(xí)方法,相關(guān)學(xué)者已構(gòu)建一些將案例推理思想有效應(yīng)用的模型框架,其中R4模型被大部分學(xué)者接受與認(rèn)可,并在實(shí)際中被廣泛應(yīng)用[29]。R4模型將案例推理的過程分為四個(gè)階段,包括檢索(Retrieve)、重用(Reuse)、修正(Revise)和存儲(chǔ)(Retain)。案例庫的構(gòu)建是案例推理的基礎(chǔ),有學(xué)者在R4模型的基礎(chǔ)上,又將案例推理的模型擴(kuò)展為R5模型[30],即增加了重分配(Repartition),在R4模型中的案例檢索階段考慮了案例表示的重要性,強(qiáng)調(diào)案例表示是案例推理過程中的重要組成部分。本文采用R5模型,以融合多層次情境的案例框架表示為基礎(chǔ),構(gòu)建基于情境案例推理的播前收視率預(yù)測模型,如圖1所示。
圖1 面向案例推理的R5模型
Figure 1 An illustration of the R5 model for case-based reasoning
案例檢索是案例推理中的重要環(huán)節(jié),通過目標(biāo)案例與源案例的檢索與匹配來找到目標(biāo)案例的相似案例。KNN算法結(jié)合領(lǐng)域知識(shí),解釋能力強(qiáng),在很多案例推理系統(tǒng)的研究中都取得較好效果,因此采用KNN算法來實(shí)現(xiàn)案例檢索,通過計(jì)算目標(biāo)案例與源案例在特征空間中的距離來得到兩個(gè)案例間的相似度。首先計(jì)算目標(biāo)案例與源案例各情境間的距離,然后根據(jù)各情境的權(quán)值計(jì)算出兩個(gè)案例間的距離,從而得到兩者之間的相似度,這里采用歐式距離計(jì)算相似度。
使用KNN算法進(jìn)行案例檢索時(shí)涉及局部相似度與全局相似度的計(jì)算,局部相似度是目標(biāo)案例與源案例各個(gè)情境之間的相似度,全局相似度則是目標(biāo)案例與源案例之間整體的相似度。局部相似度計(jì)算根據(jù)情境值類型的不同而不同,本文電視節(jié)目案例的情境均為符號(hào)型,其中類型和題材兩個(gè)情境是復(fù)雜的多值符號(hào)型,其余情境為簡單符號(hào)型。所謂復(fù)雜多值符號(hào)型是指情境取值為多值且各取值之間存在層次結(jié)構(gòu),而簡單符號(hào)型是指情境各取值之間相對(duì)獨(dú)立且不存在層次結(jié)構(gòu)。各類型情境的局部相似度計(jì)算方法如下:
(1)簡單符號(hào)型局部相似度計(jì)算
若目標(biāo)案例與源案例的某情境取值完全一致,則該情境的局部相似度為1,否則為0。即:
(2)復(fù)雜符號(hào)型局部相似度計(jì)算
這里,利用分類體系表示情境取值之間的關(guān)系,例如,有關(guān)“題材”情境的分類體系示意圖如圖2所示。
圖2 題材情境的分類體系表示
Figure 2 The classification system representation of subject context
1)檢索值和案例值均為葉節(jié)點(diǎn),其局部相似度為:
2)檢索值為葉節(jié)點(diǎn),案例值為內(nèi)部節(jié)點(diǎn),其局部相似度為:
3)檢索值為內(nèi)部節(jié)點(diǎn),案例值為葉節(jié)點(diǎn),其局部相似度為:
4)檢索值和案例值均為內(nèi)部節(jié)點(diǎn),其局部相似度為:
(3)改進(jìn)的多值符號(hào)型局部相似度計(jì)算方法
對(duì)于多值符號(hào)型情境,以往對(duì)其局部相似度計(jì)算的方法大都較為簡略。例如,“類型”和“題材”兩種都是復(fù)雜多值符號(hào)型情境,即一個(gè)電視節(jié)目可以有多個(gè)類型和題材,且不同類型和題材有不同的收視群體,題材和類型的差別可能導(dǎo)致較大收視率差異。因此,對(duì)于多值情境的相似度計(jì)算,本文提出一種多值匹配策略,將目標(biāo)案例的類型或題材逐一與源案例的類型或題材相匹配,只有類型或題材的所有取值都完全匹配時(shí),兩者間局部相似度為1;否則,局部相似度需要按公式(8)計(jì)算。
案例重用是案例推理的關(guān)鍵步驟,也是案例推理中的難點(diǎn),主要?dú)w因于其具有領(lǐng)域依賴性。一個(gè)新問題通常不可能和先前已解決的問題完全一致,即在案例檢索階段得到的最相似案例解通常不能完全適用于目標(biāo)案例的解決方案[31]。因此,當(dāng)檢索出最相似案例之后,還需重用檢索出的相似案例的解,對(duì)解進(jìn)行一定的調(diào)整,以得到更好的解決方案。案例調(diào)整通常采用完善規(guī)則與調(diào)整規(guī)則。完善規(guī)則是對(duì)目標(biāo)案例的問題描述進(jìn)行修改,調(diào)整規(guī)則是對(duì)相似案例的解進(jìn)行修改。本文采用調(diào)整規(guī)則來對(duì)相似案例進(jìn)行重用,提出一種基于差異情境的情境系數(shù)調(diào)整規(guī)則,根據(jù)目標(biāo)案例與相似案例中存在的差異情境,采用事先定義的情境系數(shù)對(duì)相似案例的解進(jìn)行調(diào)整,從而得到目標(biāo)案例的建議解。
所提出的調(diào)整規(guī)則其思想源于構(gòu)建電視節(jié)目評(píng)估體系時(shí)所關(guān)注的收視指標(biāo)標(biāo)準(zhǔn)化,即將頻道、時(shí)段等外部因素對(duì)電視節(jié)目收視指標(biāo)的影響降至最低,從而形成客觀的評(píng)價(jià)指標(biāo)。標(biāo)準(zhǔn)收視指標(biāo)的表示形式為:標(biāo)準(zhǔn)收視指標(biāo)=基礎(chǔ)指標(biāo)*時(shí)段系數(shù)*頻道系數(shù)*節(jié)目類型系數(shù),其中時(shí)段系數(shù)是指某時(shí)段與全天其他時(shí)段相比的收視貢獻(xiàn)程度;頻道系數(shù)是指某頻道與市場競爭頻道相比的收視貢獻(xiàn)程度;節(jié)目類型系數(shù)是指某節(jié)目類型與其他節(jié)目類型相比的收視貢獻(xiàn)程度。
(1)情境系數(shù)定義
以標(biāo)準(zhǔn)收視指標(biāo)以及時(shí)段、頻道和節(jié)目類型系數(shù)的定義為基礎(chǔ),提出電視節(jié)目案例情境系數(shù)的概念。情境系數(shù)即為某情境取值與其他情境取值相比的收視貢獻(xiàn)程度,如下所示:
(2)基于差異情境的情境系數(shù)調(diào)整規(guī)則
3)根據(jù)差異情境各取值的調(diào)整系數(shù),將相似案例的收視率調(diào)整至一個(gè)標(biāo)準(zhǔn)值,即:
4)根據(jù)目標(biāo)案例中對(duì)應(yīng)差異情境的取值,利用這些情境取值的系數(shù)對(duì)標(biāo)準(zhǔn)值進(jìn)行調(diào)整,使其與目標(biāo)案例相匹配,得到目標(biāo)案例的建議解,即目標(biāo)案例收視率的預(yù)測值為:
本文實(shí)驗(yàn)數(shù)據(jù)來源于華東地區(qū)8個(gè)月的十多萬條收視數(shù)據(jù),包含每天各個(gè)時(shí)段各個(gè)頻道播放的不同電視劇。按照案例情境表示的方法,將收視數(shù)據(jù)以電視劇案例的形式表示,形成包含2,000條電視劇案例的案例庫。
-Means算法屬于一種成熟的聚類方法[32],以數(shù)據(jù)的均值作為對(duì)象集的聚類中心,均值體現(xiàn)了數(shù)據(jù)集的整體特征,從而可以達(dá)到掩蓋數(shù)據(jù)本身特性的目的。-Means算法的基本思想是選取個(gè)數(shù)據(jù)對(duì)象作為初始聚類中心,通過迭代將數(shù)據(jù)對(duì)象劃分到不同的簇中,使簇內(nèi)部對(duì)象之間的相似度很大,而簇之間對(duì)象的相似度很小,-Means算法是理論上可靠、應(yīng)用上高效的聚類方法[33]。應(yīng)用-Means算法需要首先確定分類數(shù),的確定直接影響最終的聚類結(jié)果。通??梢圆捎镁垲悆?yōu)度的方法來選擇出最優(yōu)類別數(shù)。本文選取2000個(gè)案例樣本,分別選取類別數(shù)1到20進(jìn)行測試,并比較各類別下的聚類優(yōu)度。結(jié)果顯示,在類別數(shù)小于等于3時(shí)候,隨著類別數(shù)的更加,聚類效果越來越好(類別為3時(shí)聚類優(yōu)度為96.0%);但是當(dāng)類別數(shù)大于3時(shí),聚類效果基本不再提高。因此,本文選擇類別數(shù)3,即將案例庫中的案例分為三類。
根據(jù)信息增益法某一次計(jì)算出的情境權(quán)重值如表1所示。因利用信息增益確定情境權(quán)重隨案例庫變化而變化,在后續(xù)實(shí)驗(yàn)中每次選取不同的訓(xùn)練集來訓(xùn)練出各情境的權(quán)重,每一次實(shí)驗(yàn)中權(quán)重取值不同。
表1 情境權(quán)重計(jì)算結(jié)果
以案例庫作為原始數(shù)據(jù)計(jì)算出各情境不同取值的情境系數(shù)。以外部情境為例,其情境系數(shù)某一次計(jì)算結(jié)果如表2所示。由于情境系數(shù)的取值隨案例庫的變化而變化,因此在后續(xù)實(shí)驗(yàn)中,每次實(shí)驗(yàn)將訓(xùn)練出不同的情境系數(shù)。
表2 外部情境調(diào)整系數(shù)表
在案例檢索階段,需設(shè)定檢索閾值,即只有當(dāng)案例庫中源案例與目標(biāo)案例的相似度大于該閾值時(shí),源案例才會(huì)被檢索出來。對(duì)于案例推理求解過程,檢索閾值的設(shè)定尤為重要,其決定著目標(biāo)案例的求解結(jié)果。若針對(duì)目標(biāo)案例的各情境取值,能在案例庫中檢索出相似度大于檢索閾值的案例,則該目標(biāo)案例求解成功,否則目標(biāo)案例求解失敗。因此,本文對(duì)檢索閾值的設(shè)定進(jìn)行對(duì)比實(shí)驗(yàn),以期找到使案例檢索效果最佳的檢索閾值。這里,以查全率(Recall)和查準(zhǔn)率(Precision)來衡量案例檢索的效果。
設(shè)為案例庫中與目標(biāo)案例真實(shí)相似的案例集合,是檢索出的與目標(biāo)案例相似的案例集合,則:
首先將目標(biāo)案例的問題情境(演員、類型、題材等)和解情境(收視率)同時(shí)作為檢索條件在案例庫中進(jìn)行檢索,找出案例庫T中與目標(biāo)案例真實(shí)相似的案例集合。真實(shí)相似是指除案例的各內(nèi)外部情境相似之外,其實(shí)際收視率也相似。在案例檢索中,檢索閾值的確定不僅影響到案例檢索的結(jié)果,對(duì)查全率和查準(zhǔn)率也產(chǎn)生直接影響,選擇合適的檢索閾值非常重要。本文在原始案例庫中選擇5%的案例進(jìn)行測試,計(jì)算其在不同檢索閾值下的平均查全率與平均查準(zhǔn)率,相關(guān)實(shí)驗(yàn)結(jié)果如圖3所示。
Figure 3 The recall and precision rates under different retrieval thresholds
從圖3可看出,當(dāng)相似度閾值設(shè)置在0.87附近時(shí),查全率與查準(zhǔn)率達(dá)到一個(gè)基本平衡的點(diǎn),在該點(diǎn)上案例檢索的查全率與查準(zhǔn)率均接近0.50。由于案例檢索階段的目標(biāo)是得到高查準(zhǔn)率的檢索效果,要獲得較高查準(zhǔn)率就要提高檢索閾值,而檢索閾值的提高又會(huì)導(dǎo)致案例推理求解失敗率的上升。為得到較好的求解和預(yù)測效果,特別針對(duì)大于平衡點(diǎn)相似度閾值下的推理失敗率進(jìn)行對(duì)比,如圖4所示。
圖4 針對(duì)不同檢索閾值設(shè)置的推理失敗率
Figure 4 The reasoning failure rates under different retrieval threshold settings
從圖4可看出,當(dāng)檢索閾值小于0.91時(shí),推理失敗率為10%;而當(dāng)檢索閾值設(shè)置為0.93時(shí),推理失敗率上升為40%,進(jìn)而影響案例推理的求解效果。因此,在保證案例推理求解效果的情況下,為獲得較高查準(zhǔn)率而設(shè)置檢索閾值為0.91,此時(shí)案例檢索的查準(zhǔn)率在0.70左右。
為驗(yàn)證所提出的多值符號(hào)情境相似度計(jì)算模式有效性,以查全率與查準(zhǔn)率作為評(píng)價(jià)指標(biāo),分別比較使用多值匹配策略與不使用多值匹配策略所獲得的查全率與查準(zhǔn)率。在原始案例庫中選擇5%的案例進(jìn)行測試,得到實(shí)驗(yàn)結(jié)果如表3所示。
表3 不同多值情境相似度計(jì)算模式下的查全率與查準(zhǔn)率
從表3可看出,在案例檢索階段進(jìn)行多值符號(hào)情境相似度計(jì)算時(shí),使用多值匹配策略時(shí)的查全率與查準(zhǔn)率均比未使用該策略的查全率與查準(zhǔn)率高。這是由于未使用多值匹配策略時(shí),目標(biāo)案例與源案例的多值情境只要有一個(gè)情境值相匹配,該情境的相似度即為1。而針對(duì)電視節(jié)目案例,類型與題材細(xì)微的差別就可能導(dǎo)致收視率的不同。在案例檢索時(shí),只有類型與題材的每一個(gè)情境取值都匹配時(shí),其局部相似度才為1,否則為一個(gè)小于1的數(shù)。因此,使用多值匹配策略能更加準(zhǔn)確地檢索到與目標(biāo)案例相似的案例。
案例重用階段需要對(duì)檢索出的相似案例進(jìn)行調(diào)整,以得到目標(biāo)案例的建議解。本文針對(duì)重用案例的方案選擇,對(duì)比分別使用檢索出的最相似案例(方案1)與使用相似度最高的前三個(gè)案例(方案2)進(jìn)行重用的播前預(yù)測效果。以預(yù)測準(zhǔn)確率以及準(zhǔn)確預(yù)測和偏離預(yù)測的案例所占比例來衡量預(yù)測效果,其中預(yù)測準(zhǔn)確率=1-|預(yù)測收視率-實(shí)際收視率|/實(shí)際收視率,準(zhǔn)確預(yù)測表示預(yù)測準(zhǔn)確率大于或等于60%,偏離預(yù)測表示預(yù)測收視率和實(shí)際收視率相差較大?;诎咐龓爝M(jìn)行十次交叉驗(yàn)證,將2000條案例集合隨機(jī)分為10份,每次隨機(jī)選擇其中的一份即200條案例作為測試集,其余案例作為訓(xùn)練集用于訓(xùn)練情境權(quán)重與調(diào)整系數(shù),相關(guān)實(shí)驗(yàn)結(jié)果如圖5和表4所示。
圖5 選擇不同重用案例方案的預(yù)測準(zhǔn)確率
Figure 5 The prediction accuracy rates under different case reuse schemes
表4 不同重用案例方案下準(zhǔn)確預(yù)測和偏離預(yù)測案例的平均占比
由圖5和表4可見,方案1的準(zhǔn)確預(yù)測案例占比要高于方案2,且預(yù)測結(jié)果偏離的案例占比要低于方案2,說明方案1優(yōu)于方案2,因此本文在案例重用階段選擇對(duì)檢索到的最相似案例進(jìn)行調(diào)整。
為驗(yàn)證所構(gòu)建調(diào)整規(guī)則的有效性,特別針對(duì)案例重用階段使用調(diào)整規(guī)則與未使用調(diào)整規(guī)則所得到的預(yù)測結(jié)果進(jìn)行對(duì)比實(shí)驗(yàn)。以預(yù)測準(zhǔn)確率以及準(zhǔn)確預(yù)測和偏離預(yù)測案例的占比為評(píng)價(jià)指標(biāo),十次交叉驗(yàn)證的實(shí)驗(yàn)結(jié)果如圖6和表5所示。
圖6 使用調(diào)整規(guī)則與未使用調(diào)整規(guī)則的預(yù)測準(zhǔn)確率
Figure 6 The prediction accuracy rates with and without adjustment rules
從圖6和表5可見,當(dāng)采用調(diào)整規(guī)則時(shí),收視率預(yù)測準(zhǔn)確率要高于未使用調(diào)整規(guī)則的預(yù)測準(zhǔn)確率,且預(yù)測結(jié)果中準(zhǔn)確案例占比較高,而偏離案例占比略高。因此,案例重用階段使用調(diào)整規(guī)則得到的預(yù)測結(jié)果更佳。
表5 使用調(diào)整規(guī)則與未使用調(diào)整規(guī)則的平均預(yù)測結(jié)果
為驗(yàn)證基于案例推理的電視節(jié)目播前收視率預(yù)測方法的有效性,本文針對(duì)整體性能進(jìn)行十次交叉驗(yàn)證,交叉驗(yàn)證可以在一定程度上避免過擬合問題[34][35],隨著交叉驗(yàn)證重?cái)?shù)的增加,誤差總量度的均值與誤差減小,驗(yàn)證樣本的正確率增加。因此,交叉驗(yàn)證可以有效避免陷入局部最小與過擬合。實(shí)驗(yàn)結(jié)果如表6所示。
表6 針對(duì)整體性能的十次交叉驗(yàn)證實(shí)驗(yàn)結(jié)果
以一次測試中200條案例為例,實(shí)際收視率和預(yù)測收視率的對(duì)比曲線如圖7所示。
圖7 實(shí)際收視率與預(yù)測收視率對(duì)比圖
Figure 7 The comparison results between actual and predicted audience ratings
由上述實(shí)驗(yàn)結(jié)果,在進(jìn)行電視節(jié)目的播前收視率預(yù)測時(shí),基于情境案例推理的播前收視率預(yù)測機(jī)制的平均準(zhǔn)確率可達(dá)71.09%,其中準(zhǔn)確預(yù)測案例平均占比為68.9%,預(yù)測偏離案例平均占比為7.65%,基于案例推理技術(shù)的電視節(jié)目播前收視率預(yù)測模型具有良好的泛化能力。通過對(duì)產(chǎn)生預(yù)測偏離的情況進(jìn)行分析,發(fā)現(xiàn)其主要?dú)w因于案例情境的選擇與情境權(quán)重的確定還需進(jìn)一步優(yōu)化。在播前預(yù)測準(zhǔn)確率方面,雖然所提出方法的預(yù)測準(zhǔn)確率未如小安妮節(jié)目分析系統(tǒng)的預(yù)測準(zhǔn)確率(85%)高,但小安妮系統(tǒng)需要構(gòu)建看片室,組織受試的觀眾觀看樣片,同時(shí)需要儀器記錄觀眾的情緒反應(yīng),這樣的播前測試方式和預(yù)測過程比較復(fù)雜而且預(yù)測成本也相對(duì)較高[36]?;谇榫嘲咐评淼牟デ笆找暵暑A(yù)測方法,利用歷史收視數(shù)據(jù)構(gòu)建電視節(jié)目播前收視率預(yù)測模型,可以直接根據(jù)目標(biāo)電視節(jié)目各情境的取值在案例庫中進(jìn)行檢索與匹配,通過對(duì)最相似案例收視率的調(diào)整得到目標(biāo)電視節(jié)目收視率的預(yù)測值,相對(duì)于小安妮系統(tǒng)來說,能夠在很大程度上節(jié)約預(yù)測成本并顯著提高預(yù)測效率。另外,從理論上講,本文預(yù)測方法也可以用于節(jié)目未制作完成之時(shí),即可為制片機(jī)構(gòu)提供借鑒。
本文采用基于情境案例推理方法進(jìn)行電視節(jié)目播前收視率預(yù)測的研究,將心理學(xué)和知識(shí)管理領(lǐng)域的情境概念引入至案例表達(dá)中,建立電視節(jié)目案例表達(dá)的多層次情境結(jié)構(gòu),面向案例檢索而提出多值符號(hào)情境的局部相似度計(jì)算策略,以媒體公司的標(biāo)準(zhǔn)收視指標(biāo)為參考而構(gòu)造基于差異情境的情境系數(shù)調(diào)整規(guī)則。該方法不僅能夠有效解決傳統(tǒng)的播前收視率預(yù)測方法成本偏高、預(yù)測效率偏低的問題,而且能夠得到較為理想的預(yù)測效果。本文的研究成果不僅能夠幫助電視臺(tái)在電視節(jié)目交易之前把握其潛在市場價(jià)值,進(jìn)行合理購買而降低投資風(fēng)險(xiǎn)和電視節(jié)目經(jīng)營風(fēng)險(xiǎn),還可以根據(jù)預(yù)測結(jié)果搭建一套合理、有效的節(jié)目編排體系,從而提高電視臺(tái)的經(jīng)濟(jì)效益;同時(shí)也能幫助廣告商進(jìn)行時(shí)段價(jià)值評(píng)估,預(yù)判電視節(jié)目的廣告?zhèn)鞑r(jià)值,為廣告商的廣告投放計(jì)劃提供有益的決策依據(jù);另外能夠?yàn)楣?jié)目制作及定位提供參考,幫助制片機(jī)構(gòu)預(yù)測節(jié)目的市場前景,在一定程度上降低投資風(fēng)險(xiǎn);最后,還可以為運(yùn)營商實(shí)施電視節(jié)目智能推送提供參考。
在當(dāng)今的大數(shù)據(jù)時(shí)代,本文基于情境案例推理進(jìn)行電視節(jié)目播前收視率預(yù)測的方法,采用數(shù)據(jù)驅(qū)動(dòng)策略進(jìn)行播前預(yù)測,不僅為有效預(yù)測電視節(jié)目收視率提供了一條新的途徑,而且對(duì)網(wǎng)絡(luò)視頻、電影等數(shù)字節(jié)目的預(yù)測也具有一定的借鑒意義。后續(xù)研究工作包括:首先,針對(duì)案例庫構(gòu)建的特征選擇以及案例檢索策略優(yōu)化還可以做進(jìn)一步的深入研究,以期獲得更好的播前預(yù)測性能;其次,本文僅分析了華東地區(qū)的收視數(shù)據(jù)源,未來可以進(jìn)一步增大樣本量,延長時(shí)間跨度,豐富數(shù)據(jù)特征,進(jìn)行更大規(guī)模的收視率趨勢研究。
[1] 邢亞彬, 史茲國. 大數(shù)據(jù)背景下江蘇有線電視收視率預(yù)測[J]. 江蘇社會(huì)科學(xué), 2015, (3): 257-265.
Xing Y B, Shi Z G. A cable television (CATV) audience rating forecast in Jiangsu province in the context of big data [J]. Jiangsu Social Sciences, 2015, (3): 257-265.
[2] 陳青, 薛惠鋒, 閆莉. 基于半模糊核聚類算法的收視率預(yù)測研究[J]. 計(jì)算機(jī)工程與應(yīng)用, 2012, 48(6): 151-154.
Chen Q, Xue H F, Yan L. Study on audio rating prediction based on semi-fuzzy kernel clustering algorithm. Computer Engineering and Applications, 2012, 48(6): 151-154.
[3] 張茜, 吳超, 喬晗, 等. 基于TEL@I方法論的中國季播電視綜藝節(jié)目收視率預(yù)測[J]. 系統(tǒng)工程理論與實(shí)踐, 2016, 36(11): 2905-2914.
Zhang Q, Wu C, Qiao H, et al. Forecasting audience ratings of China’s seasonal entertainment TV shows based on TEI@I methodology [J]. Systems Engineering -Theory & Practice, 2016, 36(11): 2905-2914.
[4] Cheng Y H, Wu C M, Ku T, et al. A predicting model of TV audience rating based on the facebook [A]. in: International Conference on Social Computing [C], USA: IEEE, 2014. 1034- 1037.
[5] 姚芳, 李越, 肖春來. 基于時(shí)間序列模型的全國30家電臺(tái)收視率分析[J]. 數(shù)學(xué)的實(shí)踐與認(rèn)識(shí), 2011, 41(13): 34-39.
Yao F, Li Y, Xiao C L. Based on time series the analysis of TV ratings of 30 TV channels [J]. Mathematics in Practice and Theory, 2011, 41(13): 34-39.
[6] Danaher P J, Dagger T S, Smith M S. Forecasting television ratings [J]. International Journal of Forecasting, 2011, 27(4): 1215-1240.
[7] 王煉, 賈建民. 基于網(wǎng)絡(luò)搜索的票房預(yù)測模型-來自中國電影市場的證據(jù)[J]. 系統(tǒng)工程理論與實(shí)踐, 2014, 34(12): 3079-3090.
Wang L, Jia J M. Forecasting box office performance based on online search: evidence from Chinese movie industry [J]. Systems Engineering — Theory & Practice, 2014, 34(12): 3079-3090.
[8] Fukushima Y, Yamasaki T, Aizawa K. Audience ratings prediction of TV dramas based on the cast and their popularity [A]. In: IEEE Second International Conference on Multimedia Big Data [C]. USA: IEEE Computer Society, 2016. 279-286.
[9] Hunter S D, Breen Y P. W(h)ither the full season: An empirical model for predicting the duration of new television series’ first season [J]. Advances in Journalism & Communication, 2017, 05(2): 83-97.
[10] 張方紅, 李浩, 張明輝. 基于時(shí)間序列模型的收視率研究[J]. 中國傳媒大學(xué)學(xué)報(bào)(自然科學(xué)版), 2015, 22(3): 35-39.
Zhang F H, Li H, Zhang M H. Study on the ratings based on time sequence model [J]. Journal of Communication University of China (Science and Technology), 2015, 22(3): 35-39.
[11] 陳青, 薛惠鋒. 改進(jìn)P-SVM收視率預(yù)測方法及其應(yīng)用研究[J]. 西安工業(yè)大學(xué)學(xué)報(bào), 2011, 31(6): 535-542.
Chen Q, Xue H F. Modified potential support vector machine and its application in predicting audience rating [J]. Journal of Xi’an Technological University, 2011, 31(6): 535-542.
[12] Navarathna R, Carr P, Lucey P, et al. Estimating audience engagement to predict movie ratings [J]. IEEE Transactions on Affective Computing, 2017, PP(99): 1-11.
[13] Quellec G, Lamard M, Bekri L, et al. Medical case retrieval from a committee of decision trees.[J]. IEEE Transactions on Information Technology in Biomedicine, 2010, 14(5):1227-1235.
[14] Prakash S, Darbari M. ‘Quality & Popularity’ prediction modeling of TV programme through fuzzy QFD approach [J]. Journal of Advances in Information Technology, 2012, 3(2): 77-90.
[15] Danaher P, Dagger T. Using a nested logit model to forecast television ratings [J]. International Journal of Forecasting, 2012, 28(3):607-622.
[16] 鄔麗云, 曲洲青. 基于BP神經(jīng)網(wǎng)絡(luò)的收視率預(yù)測[J]. 中國傳媒大學(xué)學(xué)報(bào)(自然科學(xué)版), 2011, 18(3): 59-62.
Wu L Y, Qu Z Q. The prediction of audience rating research based on BP networks [J]. Journal of Communication University of China (Science and Technology), 2011, 18(3): 59-62.
[17] 李思屈, 諸葛達(dá)維. 認(rèn)知神經(jīng)科學(xué)方法在媒體效果測評(píng)中的應(yīng)用研究——以電視劇收視率預(yù)測為例[J]. 現(xiàn)代傳播(中國傳媒大學(xué)學(xué)報(bào)), 2016, 9: 37-43.
Li S Q, Zhuge D W. The application of cognitive neuroscience in media effectiveness evaluation: a case study of TV audience rating prediction [J]. Modern Communication (Journal of Communication University of China), 2016, 9: 37-43.
[18] Iii SDH, Chinta R, Smith S, et al. Moneyball for TV: a model for forecasting the audience of new dramatic television series [J]. Studies in Media & Communication, 2016, 4(2): 13-22.
[19] Ferro R, Hernández C, Puerta G. Rating prediction in a platform IPTV through an ARIMA model [J]. International Journal of Engineering and Technology, 2016, 7(6): 2018-2029.
[20] Richter M M, Weber R O. Case-based reasoning: A text book [M]. Germany: Springer, 2013.
[21] 趙輝, 嚴(yán)愛軍, 王普. 提高案例推理分類器的可靠性研究[J]. 自動(dòng)化學(xué)報(bào), 2014, 40(9): 2029-2036.
Zhao H, Yan A J, Wang P. On improving reliability of case-based reasoning classifier [J]. Acta Automatica Sinica, 2014, 40(9): 2029-2036.
[22] 趙衛(wèi)東, 盛昭瀚. 基于快速模擬退火的案例檢索模型研究[J]. 管理工程學(xué)報(bào), 2001, 15(1): 77-79.
Zhao W D, Shang Z H. Research on case retrieval model based on fast simulated annealing [J]. Journal of Industrial Engineering and Engineering Management, 2001, 15(1): 77-79.
[23] Fan Z P, Li Y H, Wang X,et al. Hybrid similarity measure for case retrieval in CBR and its application to emergency response towards gas explosion [J]. Expert Systems with Applications, 2014, 41(5):2526-2534.
[24] 嚴(yán)愛軍, 趙輝, 王普. 基于可信度閾值優(yōu)化的案例推理評(píng)價(jià)分類方法[J]. 控制與決策, 2016, 31(6): 1253-1257.
Yan A J, Zhao H, Wang P. Trustworthiness evaluation method with threshold optimization for case-based reasoning classification [J]. Control and Decision, 2016, 31(6): 1253-1257.
[25] 路云, 吳應(yīng)宇, 達(dá)慶利. 基于案例推理技術(shù)的企業(yè)可持續(xù)競爭能力的模型建立與應(yīng)用[J]. 管理工程學(xué)報(bào), 2005, 19(3): 1-5.
Lu Y, Wu Y Y, Da Q L. A sustainable competitive power model of enterprise based on case-based reasoning [J]. Journal of Industrial Engineering and Engineering Management, 2005, 19(3): 1-5.
[26] 錢靜, 劉奕, 劉呈, 等. 案例分析的多維情景空間方法及其在情景推演中的應(yīng)用[J]. 系統(tǒng)工程理論與實(shí)踐, 2015, 35(10): 2588-2595.
Qian J, Liu Y, Liu C,et al. Study on case analysis and scenario deduction based on multi-dimensional scenario space method [J]. Systems Engineering - Theory & Practice, 2015, 35(10): 2588-2595.
[27] 吳登生, 李建平, 孫曉蕾. 基于加權(quán)案例推理模型族的軟件成本SVR組合估算[J]. 管理工程學(xué)報(bào), 2015, 29(2): 210-216.
Wu D S, Li J P, Sun X L. Combination estimation of software effort by support vector regression based on multiple case-based reasoning with optimized weight [J]. Journal of Industrial Engineering and Engineering Management, 2015, 29(2): 210-216.
[28] 徐燕, 李錦濤, 王斌, 等.文本分類中特征選擇的約束研究[J]. 計(jì)算機(jī)研究與發(fā)展, 2008, 45(4): 596-602.
Xu Y, Li J T, Wang B,et al. A study on constraints for feature selection in text categorization [J]. Journal of Compution Research and Development, 2008, 45(4): 596-602.
[29] Qi J, Hu J, Peng Y H, et al. A case retrieval method combined with similarity measurement and multi-criteria decision making for concurrent design [J]. Expert Systems with Applications, 2009, 36(7): 10357-10366.
[30] Finnie G, Sun Z. R5 model for case-based reasoning [J]. Knowledge -Based Systems, 2003, 16(1):59-65.
[31] Tsymbal A, Huber M, Zhou S K. Learning discriminative distance functions for case retrieval and decision support [J]. Transactions on Case-Based Reasoning, 2010, 3(1): 1-16.
[32] Kumar K M, Reddy ARM. An efficient-means clustering filtering algorithm using density based initial cluster centers [J]. Information Sciences, 2017, 418–419, 286-301.
[33] 邵必林, 邊根慶, 張維琪, 等.采用-均值聚類算法的資源搜索模型研究[J].西安交通大學(xué)學(xué)報(bào),2012, 46(10): 55-59.
Shao B L, Bian G Q, Zhang W Q, et al. A resource search model using-means clustering analysis [J]. Journal of Xi’an Jiaotong University, 2012, 46(10): 55-59.
[34] Faber N M, Rajkó R. How to avoid over-fitting in multivariate calibration-The conventional validation approach and an alternative [J]. Analytica Chimica Acta , 2007, 595 (1): 98-106.
[35] Kokkinos Y, Margaritis K G. Managing the computational cost of model selection and cross-validation in extreme learning machines via Cholesky, SVD, QR and eigen decompositions [J]. Neurocomputing, 2018, 295: 29-45.
[36] 洪皓軼. 電視劇收視率預(yù)估的市場化操作模式構(gòu)建探析[J]. 電視研究, 2013, (2): 71-73.
Hong H Y. Analysis on the construction of market - oriented operation mode of TV series audience rating prediction [J]. TV Research, 2013, (2): 71-73.
Audience rating predication before broadcasting based on context case-based reasoning
ZHANG Tao1, WENG Kangnian1, ZHANG Qianfan1*, ZHANG Yuejie2
(1. School of Information Management and Engineering, Shanghai Key Laboratory of Financial Information Technology, Shanghai University of Finance and Economics, Shanghai 200433, China;2. School of Computer Science, Shanghai Key Laboratory of Intelligent Information Processing, Fudan University, Shanghai 200433, China)
In the early 1990s, China's television industry began to change from "integration of production and broadcasting" to "separation of production and broadcasting". As broadcast institutions, Television stations need to buy the right or copyright of television programs from production companies. The accurate audience rating prediction of the pre-broadcast ratings of TV programs can help TV stations to make reasonable purchases of TV programs, reducing investment risks and operating risks of TV programs. At the same time, the audience rating prediction of pre-broadcast ratings can also provide a basis for advertisers to formulate advertising strategies. Therefore, it is of great significance to study the audience rating prediction of TV ratings before broadcasting.
This paper studies the pre-broadcast audience ratings prediction method based on situational case reasoning, makes full use of the accumulated historical ratings data, and uses the matching and reuse of historical TV program cases and new program cases to predict the pre-broadcast audience ratings of new programs to make up the shortcomings of high cost and low efficiency for the traditional rating prediction method, and provide new ideas for the prediction of pre-broadcast ratings of TV programs. The main research work of this paper includes the following three aspects: 1) In view of the strong structural characteristics of TV programs, the framework method is used to construct an effective and reasonable case representation for TV programs, which is conducive to the further expansion of case knowledge. At the same time, introducing psychology and the context of knowledge managements a specific form of expression of the case, we build a multi-level context structure of TV drama case expression that blends internal and external context; 2) In the case retrieval, firstly the distance between the target case and the source case is calculated, the distance between the two cases according to the weight of each situation is then calculated, so as to obtain the similarity between the two cases. For the multi-valued context that exists in the TV program case expression, we construct a local similarity measurement method for the multi-value symbolic context, that is, multi-value matching strategy; 3) Case reuse is the difficult part in case-based reasoning, which is mainly attributed to its domain dependence. For the case matching of the target case and similar cases in case reuse, we construct a context coefficient adjustment rule based on the difference context, that is, according to the context matching of the target case and the most similar case retrieved, the solution of the difference context is used to adjust the solution of the most similar case to obtain the proposed solution of the target case.
Finally, based on the 8-month audience rating data of East China region, this paper uses TV drama ratings as a specific case for experimental analysis. The results show that when calculating the similarity between the target case and the source case in the case retrieval phase, for the calculation of similarity degree of the multi-valued symbolic situation, the recall rate and the precision rate with using the multi-value matching strategy are higher than those without using the strategy; when the adjustment rules are adopted, the prediction accuracy rate of the ratings is higher than that without such rules, and the proportion of accurate cases and deviation cases in the prediction results is higher; from the overall performance test, it can be seen that the pre-broadcast audience ratings prediction model proposed in this paper has achieved good prediction results and demonstrated its effectiveness and rationality.
Predicting the ratings of TV programs based on case-base reasoning and adopting a data-driven strategy to predict the broadcasts not only provides a new way to effectively predict the ratings of TV programs, but also it has certain reference significance for predicting digital programs such as online videos and movies.
Subsequent work will further study the feature selection of case-base construction and case retrieval strategy optimization to obtain better pre-broadcast prediction performance; in the future, we can further increase the sample size, extend the time span, enrich data features, and conduct larger scale of ratings trend research.
Audience rating prediction before broadcasting; Case-based reasoning; Multi-value context; Case retrieval; Case reuse
TP39
A
1004-6062(2020)06-0156-009
10.13587/j.cnki.jieem.2020.06.016
2018-06-07
2019-05-27
This work is supported by the National Natural Science Fund of China under Grant (61572140), the Humanities and Social Sciences Planning Fund of Ministry of education of China under Grant ( 19YJA630116), the Natural Science Fund of Shanghai under Grant (19ZR1417200) and the Shanghai Municipal R&D Foundation under Grant ( 17DZ1100504)
2018-06-07
2019-05-27
國家自然科學(xué)基金資助項(xiàng)目(61572140);教育部人文社會(huì)科學(xué)研究規(guī)劃基金資助項(xiàng)目(19YJA630116);上海市自然科學(xué)基金資助項(xiàng)目(19ZR1417200);上海市“科技創(chuàng)新行動(dòng)計(jì)劃”資助項(xiàng)目(17DZ1100504)
張倩帆(1992—),女,云南臨滄人;碩士生;研究方向:數(shù)據(jù)挖掘、智能優(yōu)化算法。
中文編輯:杜 ?。挥⑽木庉嫞築oping Yan