文/曹 剛
受眾研究在傳播學(xué)領(lǐng)域占有突出位置。一方面,它連接著媒介功能和效果研究,幾乎每一項(xiàng)重要的效果研究都離不開(kāi)受眾研究;另一方面,它是媒介產(chǎn)業(yè)運(yùn)營(yíng)中不可或缺的一個(gè)環(huán)節(jié),是連接傳媒產(chǎn)業(yè)和廣告產(chǎn)業(yè)的紐帶。進(jìn)入新世紀(jì)以來(lái),面對(duì)加速演變的媒介技術(shù),受眾研究從未止步。與此同時(shí),一個(gè)源自計(jì)算機(jī)界的技術(shù)概念——“大數(shù)據(jù)”,近年來(lái)旋風(fēng)般“橫掃”政治經(jīng)濟(jì)社會(huì)諸多領(lǐng)域,其能量不容小覷。大數(shù)據(jù)能給受眾研究帶來(lái)什么?大數(shù)據(jù)時(shí)代受眾研究將面臨哪些挑戰(zhàn)?本文將對(duì)這些問(wèn)題進(jìn)行深入研究,并探討應(yīng)對(duì)之策。
傳統(tǒng)的受眾研究在捕捉受眾媒介接觸、使用行為時(shí)主要針對(duì)隨機(jī)樣本或固定樣本(定期更新)進(jìn)行,調(diào)查方式以入戶面訪、電話訪問(wèn)、日記卡回收等人工測(cè)量為主。即使是20世紀(jì)80年代興起的各種主動(dòng)、被動(dòng)測(cè)量?jī)x,也是以少數(shù)樣本為測(cè)量對(duì)象。進(jìn)入21世紀(jì),隨著互聯(lián)網(wǎng)、尤其是移動(dòng)互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,各類智能化手持電子設(shè)備逐漸推廣普及,報(bào)紙、雜志、廣播、電視等傳統(tǒng)媒介紛紛通過(guò)互聯(lián)網(wǎng)平臺(tái)拓展原有傳播渠道,受眾媒介接觸和使用行為日趨多元化、復(fù)合化。新興電子媒體在測(cè)量受眾媒介使用行為時(shí)具有突出優(yōu)勢(shì)。作為交互媒體,互聯(lián)網(wǎng)對(duì)于用戶的訪問(wèn)都會(huì)通過(guò)log日志的形式進(jìn)行記錄,而且是以一種旁觀者的身份、不必驚動(dòng)受眾的方式進(jìn)行觀察記錄。針對(duì)智能設(shè)備的電子訪問(wèn)記錄成為受眾研究不斷增長(zhǎng)的測(cè)量數(shù)據(jù)的主要來(lái)源。這些數(shù)據(jù)符合大數(shù)據(jù)的主要特征:第一,海量數(shù)據(jù)。傳統(tǒng)受眾調(diào)查1000個(gè)樣本就算較大規(guī)模,而現(xiàn)在電子設(shè)備的訪問(wèn)記錄幾乎是以普查的方式在進(jìn)行,伴隨移動(dòng)互聯(lián)設(shè)備和軟件的飛速發(fā)展,某些熱門(mén)端點(diǎn)用戶訪問(wèn)數(shù)量動(dòng)輒百萬(wàn)、千萬(wàn),甚至過(guò)億,而且數(shù)據(jù)量隨時(shí)間不斷增長(zhǎng)。第二,高維數(shù)據(jù)。數(shù)據(jù)集的維度是數(shù)據(jù)集合中的對(duì)象具有的屬性數(shù)目,簡(jiǎn)言之,就是記錄單個(gè)受眾時(shí)可能涉及的屬性有多少。傳統(tǒng)受眾調(diào)查由于訪問(wèn)成本所限,面向受測(cè)樣本的問(wèn)題數(shù)量往往精簡(jiǎn)到最小程度,特別是電話訪問(wèn)時(shí)。而現(xiàn)在電子設(shè)備對(duì)于受眾的媒介使用行為可以近乎全方位、無(wú)遺漏地詳細(xì)記錄下來(lái);不僅如此,由于蘋(píng)果、亞馬遜等大型公司構(gòu)建的網(wǎng)上商店系統(tǒng),受眾往往實(shí)名注冊(cè),大量個(gè)人信息與受眾媒介使用行為可以進(jìn)行關(guān)聯(lián)分析,這在過(guò)去是難以想象的。第三,數(shù)據(jù)記錄的非目的性。傳統(tǒng)受眾研究在調(diào)查之前有明確的理論框架或商業(yè)用途,根據(jù)這些既定目標(biāo)設(shè)計(jì)相應(yīng)的需要調(diào)查的受眾屬性。而電子設(shè)備訪問(wèn)記錄事無(wú)巨細(xì)地記錄受眾各種信息和媒介使用行為,并非出于事先規(guī)劃好的調(diào)查目標(biāo)。
1.受眾媒介使用行為的海量數(shù)據(jù),給數(shù)據(jù)分析帶來(lái)困難。由于電子設(shè)備在記錄受眾媒介使用行為時(shí)并不進(jìn)行抽樣,而是全部納入測(cè)量范圍,加之日積月累,因此記錄的數(shù)據(jù)量不再是傳統(tǒng)受眾研究的兆字節(jié),而是以指數(shù)級(jí)增長(zhǎng),達(dá)到了驚人的吉字節(jié)、太字節(jié)。這樣龐大的數(shù)據(jù)甚至不能放進(jìn)計(jì)算機(jī)內(nèi)存中運(yùn)算,而用非內(nèi)存算法可能相當(dāng)耗時(shí)。而數(shù)據(jù)更新越來(lái)越快,時(shí)效性也越來(lái)越強(qiáng),等計(jì)算機(jī)對(duì)海量數(shù)據(jù)分析出結(jié)果,有可能已失去應(yīng)用價(jià)值,難以幫助媒介經(jīng)營(yíng)者及時(shí)決策。
2.受眾媒介使用行為的高維數(shù)據(jù),傳統(tǒng)統(tǒng)計(jì)方法難以應(yīng)對(duì)。傳統(tǒng)受眾調(diào)查常見(jiàn)的是由少量受眾屬性集合而成的數(shù)據(jù),為這些低維數(shù)據(jù)開(kāi)發(fā)傳統(tǒng)的數(shù)據(jù)分析技術(shù)和軟件通常不能很好地處理高維數(shù)據(jù)。現(xiàn)在,研究者往往要面對(duì)成百上千的受眾屬性,中、高維度數(shù)據(jù)與低維度數(shù)據(jù)有質(zhì)的不同,傳統(tǒng)統(tǒng)計(jì)方法和軟件失去用武之地,這就使計(jì)算機(jī)在分析高維數(shù)據(jù)時(shí)會(huì)陷入所謂的維災(zāi)難。
3.受眾測(cè)量數(shù)據(jù)量非常大,而其中有價(jià)值的信息卻很少。傳統(tǒng)受眾調(diào)查與統(tǒng)計(jì)分析是在有明確研究假設(shè)條件或媒介運(yùn)營(yíng)指標(biāo)指導(dǎo)下,精心設(shè)計(jì)問(wèn)題收集相應(yīng)數(shù)據(jù),以達(dá)到檢驗(yàn)假設(shè)真假或判斷媒介運(yùn)營(yíng)成敗的目的。因此,數(shù)據(jù)分析的方法基本上在數(shù)據(jù)收集之前已確定?,F(xiàn)在,研究者事先并不知道在海量多維數(shù)據(jù)中隱含著哪些有用的信息,就像從礦石中淘金一樣,需要應(yīng)用各種算法探索和揭示隱藏的、未知的規(guī)律性,這無(wú)疑加大了數(shù)據(jù)挖掘的難度。
1.利用抽樣技術(shù)有效壓縮受眾測(cè)量數(shù)據(jù)量。抽樣是一種選擇數(shù)據(jù)對(duì)象子集進(jìn)行分析的常用方法。在調(diào)查研究中,抽樣常常用于縮小調(diào)查對(duì)象或不宜做普查的情形。傳統(tǒng)受眾研究正是建立在對(duì)受眾進(jìn)行抽樣調(diào)查的基礎(chǔ)上。在大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘中,抽樣也非常有用。與傳統(tǒng)受眾調(diào)查不同的是,大數(shù)據(jù)背景下數(shù)據(jù)挖掘的抽樣對(duì)象不是受眾,而是海量數(shù)據(jù)集。當(dāng)直接處理所有海量數(shù)據(jù)的費(fèi)用太高、太費(fèi)時(shí)間時(shí),只好退而求其次對(duì)龐大數(shù)據(jù)集合進(jìn)行抽樣。在合理選擇抽樣方案的基礎(chǔ)上,使用抽樣的算法可以有效壓縮數(shù)據(jù)量。除了傳統(tǒng)的抽樣方法,面對(duì)大數(shù)據(jù),研究者還可以采用漸進(jìn)式抽樣。這種抽樣方法的優(yōu)點(diǎn)是可以不用事先確定樣本規(guī)模(事先往往不知道合適的樣本規(guī)模),先從一個(gè)小樣本開(kāi)始,然后逐漸增加樣本容量,當(dāng)預(yù)測(cè)模型準(zhǔn)確率的增加趨于穩(wěn)定時(shí),就可以停止增加樣本容量。
2.利用維歸約技術(shù)降低受眾的數(shù)據(jù)維度。電子設(shè)備自動(dòng)記錄的受眾數(shù)據(jù)集可能包含大量屬性。數(shù)據(jù)預(yù)處理的一個(gè)重要方面就是減少維度,稱為維歸約。相比高維數(shù)據(jù),經(jīng)過(guò)維歸約處理后的低維數(shù)據(jù)在后續(xù)分析中具有明顯優(yōu)勢(shì):第一,目前開(kāi)發(fā)的數(shù)據(jù)挖掘算法通常對(duì)低維數(shù)據(jù)的計(jì)算結(jié)果更具實(shí)際意義;第二,基于低維數(shù)據(jù)建立的數(shù)據(jù)模型可視化效果更好,更易于非專業(yè)人士理解。
維歸約技術(shù)常常通過(guò)創(chuàng)建新屬性,將一些舊屬性合并在一起來(lái)降低數(shù)集的維度。
3.充分利用受眾研究的背景知識(shí)增加數(shù)據(jù)挖掘的預(yù)判性。傳統(tǒng)受眾研究方法較為成熟,研究者在計(jì)算機(jī)輔助下,可以完成調(diào)查設(shè)計(jì)、數(shù)據(jù)分析、結(jié)果詮釋等一系列受眾研究環(huán)節(jié)。但是,在大數(shù)據(jù)時(shí)代,面對(duì)復(fù)雜的海量數(shù)據(jù),需要有不同專長(zhǎng)的人員密切配合來(lái)完成數(shù)據(jù)挖掘任務(wù)。首先,由對(duì)傳播理論感興趣或有深厚媒介運(yùn)營(yíng)背景的專門(mén)人才,盡可能清晰地定義出數(shù)據(jù)挖掘的問(wèn)題。盡管沒(méi)有人能事先預(yù)測(cè)數(shù)據(jù)挖掘的最后結(jié)構(gòu),但是從概率論角度看,經(jīng)過(guò)傳媒專業(yè)人士界定數(shù)據(jù)挖掘的問(wèn)題之后,在實(shí)踐中挖掘出有價(jià)值信息的幾率更高,而盲目地運(yùn)用各種數(shù)據(jù)挖掘算法去處理數(shù)據(jù),得到的數(shù)據(jù)結(jié)構(gòu)往往沒(méi)有很大現(xiàn)實(shí)意義。接著,由精通數(shù)據(jù)庫(kù)技術(shù)和統(tǒng)計(jì)分析技術(shù)的數(shù)據(jù)分析人才,將受眾研究目標(biāo)轉(zhuǎn)換成數(shù)據(jù)挖掘的具體任務(wù),并為每步操作選擇合適的技術(shù)。由此可見(jiàn),在大數(shù)據(jù)預(yù)處理和數(shù)據(jù)挖掘算法尚存“門(mén)檻”之際,受眾研究將是一個(gè)多學(xué)科專家交互協(xié)作的知識(shí)探索過(guò)程。
面對(duì)“大數(shù)據(jù)”熱,受眾研究有可能陷入過(guò)分?jǐn)M合的數(shù)據(jù)“陷阱”之中,這并非危言聳聽(tīng)。這是因?yàn)榇髷?shù)據(jù)條件下,受眾數(shù)據(jù)的記錄項(xiàng)目并非在事先規(guī)劃嚴(yán)密的框架下設(shè)定,從而導(dǎo)致海量數(shù)據(jù)中存在一些不相關(guān)的變量,如果這時(shí)完全遵循計(jì)算機(jī)對(duì)數(shù)據(jù)建立的模型,很可能該模型本身對(duì)于所有數(shù)據(jù)的擬合度非常好,但是這一模型的實(shí)際含義與現(xiàn)實(shí)不符合,這就要求研究者對(duì)計(jì)算機(jī)自動(dòng)生成的數(shù)據(jù)模型保持謹(jǐn)慎態(tài)度。
[1]丹尼斯·麥奎爾著.劉燕南,李穎,楊振榮譯.受眾分析[M].北京:中國(guó)人民大學(xué)出版社,2006.
[2]謝邦昌等.從數(shù)據(jù)采集到數(shù)據(jù)挖掘[M].北京:中國(guó)統(tǒng)計(jì)出版社,2009.
[3]張余.裂變與交互——數(shù)字電視時(shí)代的受眾研究[M].北京:中國(guó)傳媒大學(xué)出版社,2011.