陳 萌,楊 成,王 歡,陳潔超
(中國傳媒大學(xué) 信息工程學(xué)院,北京100024)
交互式電視是一種雙向電視,用戶能夠通過電視屏幕的交互界面進(jìn)行信息反饋,從而建立用戶和電視信息的雙向聯(lián)系[1]。隨著三網(wǎng)融合的深入和數(shù)字家庭的興起,交互式電視走進(jìn)千家萬戶。與此同時,交互式電視用戶也面臨著“信息迷霧”的問題:大量的資源同時呈現(xiàn),導(dǎo)致用戶無從選擇,資源利用率低,資源與用戶間形成一條無形的“信息鴻溝”。在這種情況下,把個性化推薦系統(tǒng)引入交互式電視,為用戶提供個性化信息過濾服務(wù),成為一種迫切的需求。
個性化推薦系統(tǒng)最初是針對互聯(lián)網(wǎng)“信息過載”問題而提出的,不同于一般的信息過濾系統(tǒng),其特點有:1)將傳統(tǒng)的用戶發(fā)起請求變?yōu)橄到y(tǒng)自動向用戶提供服務(wù),引導(dǎo)用戶發(fā)掘潛在興趣點;2)以社會網(wǎng)絡(luò)為基礎(chǔ)、個性化需求為中心建立用戶喜好模型[2]。
個性化推薦系統(tǒng)可以分為信息采集和預(yù)處理、模型分析、推薦以及存儲4個功能模塊,其中包含用戶、項目和推薦算法3個關(guān)鍵要素,而推薦算法是整個系統(tǒng)的核心。后文將對基于內(nèi)容的推薦、協(xié)同過濾推薦、基于關(guān)聯(lián)規(guī)則的推薦以及混合推薦幾個重要的算法加以分析和比較。根據(jù)算法的比較結(jié)果,總結(jié)得出交互式電視中個性化推薦系統(tǒng)的3個研究重點——精確性、實時性和自動性,以及冷啟動、數(shù)據(jù)稀疏性、推薦“孤峰”等幾個研究難點。此外,本文還從節(jié)目推薦、電視商務(wù)和廣告定向投放3個方面闡述了個性化推薦系統(tǒng)在未來交互式電視中的實際應(yīng)用,并且從應(yīng)用角度分析預(yù)測了未來該研究的幾個潛在的研究方向。
個性化推薦系統(tǒng)要完成整個推薦過程需有3個要素:項目、用戶和推薦算法。設(shè)C是所有用戶的集合,S是所有項目的集合,效用函數(shù)u()用于計算項目s對用戶c的推薦度。而推薦算法研究的問題就是找到推薦度最大的對象s*[3],即
從功能角度看,個性化推薦系統(tǒng)(如圖1所示)可劃分為:信息采集和預(yù)處理模塊、喜好模型建立分析模塊、推薦模塊和信息存儲模塊。用戶通過系統(tǒng)的交互界面提供信息或由系統(tǒng)自動收集用戶行為信息,預(yù)處理量化后存入數(shù)據(jù)庫作為后續(xù)分析的基礎(chǔ);提取存儲模塊中用戶或項目的量化信息,按推薦算法的需要進(jìn)行數(shù)據(jù)分析,得到用戶與項目或項目間或用戶間的關(guān)聯(lián)模型;把分析后的模型導(dǎo)入推薦模塊,運行的推薦結(jié)果通過交互界面顯示給用戶,同時記錄用戶的反饋信息,用于修正推薦機(jī)制。
推薦系統(tǒng)的核心部分是推薦算法,推薦算法的優(yōu)劣直接決定了整個個性化推薦系統(tǒng)的性能。下面將對幾個主流算法進(jìn)行分析和對比。
基于內(nèi)容的推薦算法(Content-based Recommendation)[4]是把特征作為描述項目的基本單位。從用戶看過的資料中提取特征,采用神經(jīng)網(wǎng)絡(luò)、決策樹等機(jī)器學(xué)習(xí)方法學(xué)習(xí)用戶興趣,建立用戶喜好模型ContentBasedProfile(c);根據(jù)不同特征在項目中出現(xiàn)的位置和頻率的不同,確定待預(yù)測項目與用戶喜好相匹配的程度。用效用函數(shù)表示[3],即
式中:sim()即為相似度計算,可采用歐幾里得距離、皮爾遜相似度和向量夾角余弦距離等方法計算。該算法的處理對象多為項目的文字描述,推薦過程不需用戶介入,只考慮項目間的關(guān)系,實時性好。
協(xié)同過濾(Collaborative Filtering)算法是社會化方式移植到網(wǎng)絡(luò)環(huán)境中的產(chǎn)物,其核心是基于社會網(wǎng)絡(luò)進(jìn)行統(tǒng)計預(yù)測,即通過用戶-項目矩陣(如圖2所示)尋找用戶間或項目間的相似性,再結(jié)合用戶的歷史信息得出項目的推薦度,根據(jù)推薦值排序獲得推薦項。因無須提取項目特征信息,該類算法更適合處理電影、音樂等特征結(jié)構(gòu)復(fù)雜的項目。具體可分為基于用戶和基于項目兩種。
圖2 m×n用戶-項目矩陣
基于用戶的協(xié)同過濾(User-based Collaborative Filtering)[5]的具體思路是:1)以用戶對項目的評分為向量,計算用戶c與其他用戶的相似度sim(c,c′),確定用戶c的喜好相似鄰c′;2)把相似鄰c′對項目s的評分以及與用戶c的相似度進(jìn)行加權(quán)平均(ave),得出用戶c對項目s的效用值。所以效用函數(shù)為
基于項目的協(xié)同過濾(Item-based Collaborative Filtering)[6]基于以下假設(shè):能夠引起用戶興趣的項目,必與其之前評分高的項目相似。根據(jù)假設(shè),計算用戶c已評價的項目s'與待預(yù)測項目s的相似度sim(s,s');然后將用戶c對項目s'的評分和相似度sim(s,s')加權(quán)平均,得出用戶c對項目s的效用值。故效用函數(shù)為
基于項目協(xié)同算法與基于內(nèi)容算法的區(qū)別在于:挖掘項目間關(guān)系時,基于內(nèi)容的算法不需要用戶信息,僅通過項目的特征決定;而基于項目的協(xié)同算法是通過用戶的評分來確定項目間關(guān)系的。
基于關(guān)聯(lián)規(guī)則的推薦(Association Rules-based Recommendation)的本質(zhì)在于挖掘一個數(shù)據(jù)集中項目之間的關(guān)系。該推薦算法有兩個關(guān)鍵要素:支持度support(s? s′)=P(s∪ s′)和置信度confidence(s? s′)=P(s′|s)(其中s是待預(yù)測項目,是用戶c的喜好項目)。支持度是數(shù)據(jù)剪枝的重要依據(jù),而置信度反映了項目s與用戶喜好項s′的關(guān)聯(lián)性,即效用值的衡量標(biāo)準(zhǔn)。關(guān)聯(lián)規(guī)則可以采用Apriori,AprioriTid和DHP等方法進(jìn)行挖掘,其結(jié)果具有很大的未知性。
在實際中往往將多個算法混合,以達(dá)到更好的推薦效果。關(guān)于如何組合各個推薦算法,有研究者提出了以下幾種組合方法[7]:
1)加權(quán)混合。用線性公式按照一定權(quán)重組合幾種算法,權(quán)重值通過測試數(shù)據(jù)集反復(fù)實驗后確定。
2)變換混合。對于不同的情況,選擇最為合適的推薦機(jī)制計算推薦。
3)分層混合。采用多種推薦算法,將一種算法的結(jié)果作為另一種算法的輸入。
以上幾種推薦算法各有千秋,采用的相似度計算公式不同、建立喜好模型時選擇的訓(xùn)練模型不同等都會影響個性化推薦系統(tǒng)的性能。在此,將主流算法的優(yōu)缺點進(jìn)行總結(jié)比較(如表1所示)。
基于內(nèi)容的算法和基于規(guī)則的算法都可以實現(xiàn)離線處理且無須用戶-項目矩陣分析,所以實時性和自動性都不錯,但精確性方面卻遜于協(xié)同過濾算法。這3種算法在可擴(kuò)展性和冷啟動問題上都存在一定程度的問題。此外,協(xié)同過濾算法的稀疏性問題較為嚴(yán)重,而基于內(nèi)容算法的推薦多樣性明顯不足。
表1 主要推薦算法比較分析表
交互式電視中個性化推薦系統(tǒng)的研究重點有:精確性、實時性和自動性。對于用戶方面,能夠基于用戶的喜好提供相關(guān)的精確推薦,而且對用戶信息的采集要盡量減少用戶的手動操作;根據(jù)收看節(jié)目的需要,推薦的結(jié)果要具有實時性,這樣用戶才能在開機(jī)后立刻根據(jù)推薦結(jié)果選擇收看的節(jié)目,并對推薦結(jié)果做出及時反饋。對于運營方,高精度的推薦可以為營運方建立起忠實客戶群,增加經(jīng)濟(jì)收益;實時對用戶的反饋做出響應(yīng),能更準(zhǔn)確地把握用戶動向。
在研究過程中,還發(fā)現(xiàn)以下幾個普遍的研究難點:
1)冷啟動
冷啟動包括新用戶和新項目兩個問題。數(shù)據(jù)庫中沒有新用戶的歷史數(shù)據(jù),既不能根據(jù)訓(xùn)練集訓(xùn)練用戶興趣模型,也無法根據(jù)社會網(wǎng)絡(luò)尋找相似鄰用戶。雖然可通過用戶注冊信息或者熱點推薦在一定程度上緩解,但收效并不理想。新項目加入數(shù)據(jù)庫的初期因為評價信息不足,無法使用協(xié)同等算法進(jìn)行分析推薦,這很可能導(dǎo)致該項目沉沒在大量的項目中無人問津。對于“冷啟動”問題,目前一般考慮使用混合推薦方法來應(yīng)對。
2)數(shù)據(jù)稀疏問題
對單個用戶來說,已經(jīng)評論過的項目集僅是整個龐大項目集的一小部分;另一方面,因為地域、文化或者喜好的差異,用戶間的評價項也存在稀疏問題,嚴(yán)重影響推薦的準(zhǔn)確度。SVD算法通過把矩陣分解降維,使系數(shù)矩陣降到低維稠密矩陣;或是使用基于人口統(tǒng)計學(xué)的方法,提取用戶年齡、地域、性別等信息輔助用戶興趣建模[8]。
3)推薦“孤峰”問題
“孤峰”問題是推薦算法精確度研究的悖論面,也就是說,推薦項目與用戶主興趣點過于相似,總是集中在有限的范圍內(nèi)。造成該問題的原因:一是新用戶加入時,歷史數(shù)據(jù)不足,不能全面分析用戶在多個范圍的興趣度;二是用戶給系統(tǒng)的反饋不斷地加深了主興趣點的峰值。故在滿足用戶個性化需求的同時,要兼顧推薦多樣性,不能一味地去迎合用戶,還應(yīng)適當(dāng)引導(dǎo)用戶挖掘新的興趣點。
一個優(yōu)秀的交互電視個性化推薦系統(tǒng),在滿足用戶個性化需求的同時,又可以為運營商達(dá)到提高業(yè)績或優(yōu)化管理等目的,從而實現(xiàn)用戶與運營方的雙贏。以個性化推薦算法為基礎(chǔ)搭建的推薦系統(tǒng)可與用戶形成長期穩(wěn)定的關(guān)系,建立起以忠實用戶為內(nèi)核的球狀發(fā)散用戶群,減少用戶的流失。
視音頻節(jié)目推薦是個性化推薦技術(shù)在交互式電視中最基本也是目前發(fā)展最好的應(yīng)用。利用用戶的觀看歷史信息和行為信息,以及鄰居用戶的觀看喜好,建立用戶喜好模型,為用戶自動推薦可能感興趣的節(jié)目,既優(yōu)化了用戶體驗又提高了運營商的收視率。此外,工程師在開發(fā)時還應(yīng)注意簡化反饋過程的用戶參與度,盡量采用用戶行為信息收集模式而非打分反饋。
濟(jì)南有線曾對該應(yīng)用進(jìn)行過小范圍的試點,一方面根據(jù)用戶的個性化喜好建立個人頻道,與公共綜合頻道形成互補之勢,另一方面利用基于用戶的協(xié)同過濾算法為用戶推薦節(jié)目。從對此次試點進(jìn)行的基于長尾效應(yīng)KPI的跟蹤分析結(jié)果來看,節(jié)目長尾效應(yīng)和用戶長尾效應(yīng)的“頭”“尾”都獲得提升,尤其是節(jié)目的指標(biāo)尤為明顯。這次試點從實際應(yīng)用角度驗證了個性化推薦技術(shù)對于交互電視發(fā)展運營的支持推動作用十分富有成效[9]。
電視購物推薦面向的服務(wù)對象是用戶,任務(wù)是為用戶提供對商品的推薦,幫助用戶決定購買什么產(chǎn)品。根據(jù)用戶的年齡、職業(yè)、愛好等基本信息,分析用戶喜好,定期推薦他們感興趣的項目。當(dāng)用戶在查找項目時,進(jìn)行跟蹤分析,以便向用戶提供合適的可選擇推薦。收集用戶購物歷史,自動分析用戶的購買記錄,為每個用戶提供對其個性化專門定制的推薦列表[10]。根據(jù)已有的用戶-商品表格,挖掘與當(dāng)前用戶曾經(jīng)購買過且評分相似的商品,然后推薦最暢銷或關(guān)聯(lián)最強(qiáng)的商品給用戶。通過推薦算法可以在海量顧客基數(shù)和商品目錄上進(jìn)行擴(kuò)展,及時對用戶數(shù)據(jù)的變化做出反應(yīng)。
廣告定向投放的終極目標(biāo)是希望每個廣告都投遞給有需要的用戶,對這些用戶來說,廣告更能成為需求信息的來源。廣告定向投放一方面可以根據(jù)數(shù)據(jù)庫中用戶的興趣信息以及電視購物歷史,對用戶分類進(jìn)行廣告投放。例如,用戶經(jīng)常觀看育兒節(jié)目,購買過尿不濕等產(chǎn)品,可以猜想該用戶家庭中有幼兒,進(jìn)而選擇對其投放奶粉廣告。另一方面,可以把廣告和正在播出的節(jié)目加以關(guān)聯(lián),例如在體育類節(jié)目中間插播體育用品廣告,實現(xiàn)真正的以用戶為中心開展業(yè)務(wù)。
推薦系統(tǒng)是基于用戶的歷史數(shù)據(jù)進(jìn)行分析的,那么這些涉及個人隱私的信息在存入數(shù)據(jù)庫的一刻就面臨著泄露的風(fēng)險[11]。使用匿名進(jìn)行注冊可在一定程度上緩解該問題,但是又會帶來用戶信譽危機(jī)和推薦精確度下降等后續(xù)問題。此外,個性化推薦還面臨著欺詐推薦的問題,這和搜索引擎上的欺詐排名相似。如某出版商為使自己的影片盡可能成為推薦項,偽造多個用戶抬高該項目的評價度。這就需要設(shè)計算法檢測用戶的評分行為和信用度,過濾虛假用戶。
目前個性化推薦算法的研究基本是針對單個用戶的,沒有考慮到家庭中的多成員問題。不同于計算機(jī)的個體化屬性,電視機(jī)終端是面向整個家庭的娛樂設(shè)備。這就存在當(dāng)前用戶是自己看還是和家人一起看,不同家庭的成員年齡性別分布,如何區(qū)分同一家庭的不同用戶等問題,研究中需要考慮到家庭多用戶的實際因素,進(jìn)一步增強(qiáng)推薦的智能化。目前有人提出時間段統(tǒng)計方法,例如在暑假白天向有孩子的家庭多推送少兒節(jié)目等。
個性化推薦系統(tǒng)往往沒有對地域、時間、周圍人員等環(huán)境信息做過多的考慮,其實這些環(huán)境信息大大影響了用戶對推薦系統(tǒng)的期望[12]。系統(tǒng)使用數(shù)據(jù)集進(jìn)行推薦研究時,往往忽略時間衰減度。需要進(jìn)一步考慮到短、長期喜好的差別,平滑的記錄并模擬用戶喜好隨時間的變化。再者,用戶對節(jié)目觀看的時長可在一定程度上反應(yīng)用戶的喜好,若把對項目的評價聚合到時間軸上,可以更全面地采集用戶信息。在空間方面,不同地域的用戶具有不同的文化背景,聚合地域因素可以使地方運營商有的放矢,針對性地引進(jìn)影視劇,有效地規(guī)劃廣告的定向投放。
個性化推薦系統(tǒng)不單單是技術(shù)問題,更涉及到社會學(xué)、傳播學(xué)、心理學(xué)的多學(xué)科交叉課題。其中包括了從眾心理和行為、熱點傳播、輿論引導(dǎo)、文化融合與碰撞等一系列人文社科的研究熱點。想要更好地研究和發(fā)展個性化推薦系統(tǒng),就需要多學(xué)科的縱深和交流。
隨著交互媒體的發(fā)展和用戶個性化需求的增長,個性化推薦在交互式電視中扮演著越來越重要的角色。盡管個性化推薦在交互式電視中的應(yīng)用剛剛起步,依舊存在安全隱私、多用戶推薦、時空聚合等一系列待研究的問題,但是相信隨著個性化推薦研究與社會學(xué)、傳播學(xué)、心理學(xué)等多學(xué)科交叉研究的深入,以及交互式電視應(yīng)用的推廣,個性化推薦系統(tǒng)在交互式電視中的發(fā)展將上升到一個新的高度,為更多的交互式電視用戶帶來更優(yōu)化的體驗。
[1]LEE B,LEE R S.How and why people watch TV:implications for the future of interactive television[J].Journal of Advertising Research,1995,35(6):9-18.
[2]許海玲,吳瀟,李曉東.互聯(lián)網(wǎng)推薦系統(tǒng)比較研究[J].軟件學(xué)報,2009(2):350-362.
[3]ADOMAVICIUS G,TUZHILIN A.Toward the next generation of recommender systems:a survey of the state-of-the-art and possible extensions[J].IEEE Trans.Knowledge and Data Engineering,2005,17(6):734-749.
[4]KOVACS A I,UENO H.Recommending in context:a spreading activation model that is independent of the type of recommender system and its contents[EB/OL].[2012-02-02].http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.100.9239&rep=rep1&type=pdf.
[5]SCHAFER J B,F(xiàn)RANKOWSKI D,HERLOCKER J,et al.Collaborative filtering recommender systems[J].The Adaptive Web:Lecture Notes in Computer Science,2007,4321:291-324.
[6]SARWAR B,KARYPIS G,KONSTAN J,et al.Item-based collaborative filtering recommendation algorithms[C]//Proc.Tenth International Conference on World Wide Web.Hong Kong:ACM Press,2001:285-295.
[7]BURKE R.Hybrid recommender systems:survey and experiments[J].User Modeling and User-Adapted Interaction,2002,12:331-370.
[8]PAZZANI M.A framework for collaborative,content-basedand demographic filtering[J].Artificial Intelligence Review,1999,13(5/6):393-408.
[9]季文.個性化視頻推薦——互動電視運營趨勢淺析[J].中國數(shù)字電視,2011(5):36-37.
[10]LINDEN G,SMITH B,YORK J.Amazon.com recommendations:item-to-item collaborative filtering[J].IEEE Internet Computing,2003(7):76-80.
[11]吳成鋼,楊光,張翔,等.推薦系統(tǒng)應(yīng)用及其安全性研究[J].信息網(wǎng)絡(luò)安全,2011(8):69-71.
[12]ADOMAVICIUS G,TUZHILIN A.Multidimensional recommender systems:a data warehousing approach[J].Computer Science,2001,2232:180-192.