潘旭偉 王瑞奇
關(guān)鍵詞 過濾氣泡;新聞;推薦系統(tǒng);用戶視野
中圖分類號 G2 文獻標(biāo)識碼 A 文章編號 2096-0360(2021)05-0030-03
隨著個性化推薦系統(tǒng)的發(fā)展與應(yīng)用,人們開始擔(dān)心推薦系統(tǒng)對用戶帶來的負(fù)面作用。其中一個越來越受人關(guān)注的便是“過濾氣泡”問題[1],即推薦系統(tǒng)是否會因為總是推薦相似內(nèi)容而使得用戶視野被窄化。如Poulain通過對音樂平臺的研究發(fā)現(xiàn)了內(nèi)容多樣性的缺失[2]。然而也有研究對該問題進行了否定,如moller通過數(shù)據(jù)科學(xué)實驗更進一步地提出推薦系統(tǒng)不僅無負(fù)面影響,反而增加了用戶推薦集的主題多樣性[3]。如今,隨著“今日頭條”等新聞平臺不斷使用推薦系統(tǒng),更多的學(xué)者也將“過濾氣泡”問題聚焦到在線新聞平臺,本文則針對新聞領(lǐng)域探究推薦系統(tǒng)是否導(dǎo)致“過濾氣泡”現(xiàn)象。
為探究個體用戶過濾氣泡現(xiàn)象基于時間的變化,本文采用改進的三分圖作為研究框架,如圖1所示,底層v表示單個用戶,中間層為該用戶按時間順序排列的瀏覽記錄,上層為所有新聞所涵蓋的主題。其中,所有文章所涵蓋的主題以及單個文章所涉及的主題采用LDA建模算法得出。
最終可得到單個用戶v與主題之間的權(quán)重關(guān)系為
其中,ω(v,Ti)為用戶在主題Ti下的權(quán)重,表示對該主題的喜愛程度;ω(v,Nj)為用戶對所瀏覽新聞的喜好程度,根據(jù)該用戶對新聞項目采取的行為決定,如瀏覽記1分,點贊記2分,轉(zhuǎn)發(fā)記3分;ω(Nj,Ti)為新聞j在主題i下的權(quán)重,由LDA算法得出;J為該用戶瀏覽的所有新聞項的個數(shù)。
另外,為刻畫用戶“過濾氣泡”本文采用基尼系數(shù)和信息熵作為測量指標(biāo),計算公式分別為
其中,I為LDA所劃分的所有主題的個數(shù)。
本研究選取平臺DeskDrop產(chǎn)生的新聞數(shù)據(jù)集,包含對2 000個用戶為期一年的取樣(2016.3—2017.2),且清晰記錄了所瀏覽文章的項目特征(如文章原始URL、標(biāo)題、內(nèi)容)、項目上下文特征(用戶瀏覽時間、點贊分享等行為)。
2.1 數(shù)據(jù)預(yù)處理
對所選取的數(shù)據(jù)進行預(yù)處理,包括:對原始數(shù)據(jù)內(nèi)容進行整理;時間戳轉(zhuǎn)換;篩選英文數(shù)據(jù);交互記錄數(shù)量篩選。
2.2 LDA主題建模
為計算不同新聞所涵蓋的主題,以及單個新聞所設(shè)計的主題及權(quán)重,本文采用LDA算法進行主題建模。其中主題數(shù)Ktopic的選取十分重要,為保證建模質(zhì)量,采用困惑度指標(biāo)進行評估,并按照困惑度最小的Ktopic進行主題劃分。
圖2展示了主題個數(shù)與困惑度之間的關(guān)系,當(dāng)主題個數(shù)選取55時困惑度最低,因而將所有新聞劃分為55個主題。表1呈現(xiàn)了主題建模后所得到的結(jié)果,匯總了每篇新聞在每個主題下的權(quán)重。
為按照時間順序觀測所有用戶熵和基尼系數(shù)的變化,需要將每個用戶的瀏覽記錄進行分塊處理,以月為單位,計算每個月內(nèi)用戶的基尼系數(shù)和熵,并統(tǒng)計所有用戶的指標(biāo)值。圖3和圖4分別展示了不同月份下基尼系數(shù)和熵的分布圖。首先,我們統(tǒng)計了1013個用戶初始(首月)、中間時期(7月和11月)和最終時期基尼多樣性和熵多樣性的密度分布。我們發(fā)現(xiàn)在初期用戶指標(biāo)普遍較小,而隨著時間推移,指標(biāo)值分布開始出現(xiàn)出一種分化的趨勢:即部分用戶更小,而部分用戶更大,這一現(xiàn)象在基尼系數(shù)指標(biāo)下反應(yīng)為尾部突起越加明顯,而在熵指標(biāo)下表現(xiàn)更明顯,從形狀上由原來的近似倒U形逐漸變?yōu)榻芃形。
這反映了在推薦系統(tǒng)參與下,所存在的分化作用使得原先集中在較小視野范圍的用戶慢慢分為兩類:一類視野更加開闊,而另一類則趨于狹窄。然而這一結(jié)果只針對了分布的變化,未能明確表明個體用戶視野的縱向變化,如無法解釋原先視野較寬的用戶后期視野是更大還是更小,是更加狹窄還是更加開闊。因此我們測試了所有用戶從起始階段到最終階段基于時間的縱向指標(biāo)變化,并基于不同時間段對所有用戶求均值,繪制出用戶平均視野隨時間的變化曲線,如圖5所示,可以發(fā)現(xiàn)平均用戶指標(biāo)變化表現(xiàn)為“S”形上升的變化規(guī)律,即平均用戶視野雖然在前期有輕微下降,但是從整個時間上看最終視野是比初始視野更高的,即用戶的視野并非被窄化,反而得到了一定程度的拓展。
通過上述實證分析,發(fā)現(xiàn)在推薦系統(tǒng)參與下的新聞平臺中,指標(biāo)表現(xiàn)出了與“用戶被陷進過濾氣泡”相反的趨勢。圖5結(jié)果表現(xiàn)出用戶“視野”總體上出現(xiàn)被擴展的情形,而非下降的情形。因此我們認(rèn)為,新聞推薦系統(tǒng)產(chǎn)生的副作用或許被過分夸大了,用戶視野在推薦系統(tǒng)參與下不僅沒有出現(xiàn)視野上的縮減,反而出現(xiàn)很大程度的拓展。該結(jié)果表示,在新聞平臺瀏覽新聞時,可以較放心地使用推薦算法所列舉的項目以提升自己的視野。
該結(jié)論與我們直覺上認(rèn)為的“推薦算法會因為推薦相似項目而窄化用戶視野”不同,其原因存在如下幾種可能:首先,每天所發(fā)生的事件存在很大的隨機性,這導(dǎo)致平臺每日提供的新聞項目之間往往存在很大的差異性,推薦算法雖致力于推薦與用戶偏好相似的項目,但由于不同項目之間固有的差異性和隨機性[4],導(dǎo)致所推薦的項目也只能時盡可能相似。另外,用戶在心理上存在“幸存者偏差”[5]可解釋這一現(xiàn)象,用戶所瀏覽的新聞內(nèi)容中往往或多或少存在與自身認(rèn)知相近的信息片段,這些重復(fù)的信息片段會使用戶在結(jié)束瀏覽后產(chǎn)生一種“仍在原有知識體系中徘徊”的錯覺,而與用戶原有知識體系不接近或用戶原先不關(guān)注的信息片段卻在潛移默化中提升了用戶視野,只不過用戶“視而不見”并將這一誤解歸咎于推薦系統(tǒng)。
參考文獻
[1]薛堯云.算法推薦機制下的短視頻“過濾氣泡”問題研究:以抖音為例[J].新媒體研究,2019,5(14):21-22.
[2]Poulain,R.,F(xiàn).Tarissan.Investigating the lack of diversity in user behavior:The case of musical content on online platforms:Information Processing & Management,2020,57:102169.
[3]M?ller,J.,D.Trilling,N.Helberger,B. van Es.Do not blame it on the algorithm:an empirical assessment of multiple recommender systems and their impact on content diversity:Information,Communication & Society,2018,21:959-977.
[4]黃昌林.新聞敘事:確定性與隨機性[J].成都大學(xué)學(xué)報(社會科學(xué)版),2011(4):68-71.
[5]常江.互聯(lián)網(wǎng)與幸存者偏差[J].青年記者,2019(19):92.