□文│劉 冰
抽樣調(diào)查是傳統(tǒng)調(diào)查方法的經(jīng)典代表,抽樣調(diào)查也是輿論的表達(dá)方式,“抽樣調(diào)查的普及有助于政治領(lǐng)袖更有效率地監(jiān)視整個人口的情緒,同時也給予公民一種社會比較機(jī)制”,[1]但這種調(diào)查方法目前正在受到挑戰(zhàn)。人類現(xiàn)在已經(jīng)步入ABC時代,A即人工智能(Artificial Intelligence),B即大數(shù)據(jù)(Big data),C即云計算(Cloud computing)。新技術(shù)對傳統(tǒng)調(diào)查方法產(chǎn)生了沖擊和挑戰(zhàn),同時也為調(diào)查方法的發(fā)展帶來了機(jī)遇。我們應(yīng)該全面客觀地看待傳統(tǒng)調(diào)查方法與大數(shù)據(jù)方法的發(fā)展關(guān)系,需要看到問卷設(shè)計、抽樣技術(shù)等傳統(tǒng)調(diào)查方法依然具有頑強(qiáng)的生命力,同時也需要對大數(shù)據(jù)進(jìn)行反思。我們應(yīng)該高度關(guān)注大數(shù)據(jù)技術(shù)的發(fā)展,思考和理解大數(shù)據(jù)調(diào)查方法的原理,在條件具備的前提下積極利用大數(shù)據(jù)方法。另外,生物傳感技術(shù)、人工智能技術(shù)等高新科技也都對社會調(diào)查產(chǎn)生著影響,在社會調(diào)查領(lǐng)域也有不同程度的應(yīng)用,值得我們關(guān)注。
對于從事社會科學(xué)研究和工作的人來講,調(diào)查方法通常都是需要掌握的工具。從某種意義上講,方法甚至比知識還重要。方法是創(chuàng)造知識的工具,所以當(dāng)我們具備了一定的知識后,有必要學(xué)習(xí)并掌握創(chuàng)造知識的方法。社會科學(xué)領(lǐng)域使用的調(diào)查研究方法是行之有效的創(chuàng)造知識的工具,社會科學(xué)研究其實(shí)也可以看成是一個運(yùn)用調(diào)查方法獲取知識的過程,從中不難看出方法的重要性。
調(diào)查方法是指社會科學(xué)領(lǐng)域的信息數(shù)據(jù)收集、整理、分析的方法,它在不同的書籍或?qū)I(yè)里還有多種多樣的稱謂,如社會科學(xué)研究方法、社會調(diào)查方法、傳播研究方法、市場調(diào)查、媒介調(diào)查與分析、營銷調(diào)研等。
不過究其實(shí)質(zhì),稱謂雖然不同,但它們針對的內(nèi)容對象卻并無截然的不同,它們所論述和傳授的方法并無二致,都是為了使所要研究的社會現(xiàn)實(shí)狀況明朗化,都是獲取社會信息數(shù)據(jù)的手段或操作過程。甚至還有一些名稱看似相去甚遠(yuǎn),但其論述的內(nèi)容仍然是調(diào)查方法或曰研究方法。比如,菲利普·邁耶是一位精確新聞學(xué)家,他所著的《精確新聞報道》副標(biāo)題卻是“記者應(yīng)掌握的社會科學(xué)研究方法”,論述的主要內(nèi)容也還是抽樣、調(diào)查、統(tǒng)計分析等,是將社會調(diào)查研究方法尤其是量化研究方法運(yùn)用到新聞報道中去罷了。
廣義的社會調(diào)查方法包括抽樣調(diào)查研究、實(shí)地研究、文獻(xiàn)研究、實(shí)驗研究等方法類別。狹義的社會調(diào)查方法僅指抽樣調(diào)查研究方法,“指的是一種采用自填式問卷或結(jié)構(gòu)式訪問的方法,通過直接的詢問,從一個取自總體的樣本那里收集系統(tǒng)的、量化的資料,并通過對這些資料的統(tǒng)計分析來認(rèn)識社會現(xiàn)象及其規(guī)律的社會研究方式”。[2]抽樣問卷調(diào)查是社會調(diào)查研究方法中的重點(diǎn)和主線。大家其實(shí)很容易重視這種量化調(diào)查方法,因為它在歷史發(fā)展過程中逐步完善,具有科學(xué)性,能帶給我們啟迪,并且真正有效、可行。
我們也需要注意到,大數(shù)據(jù)其實(shí)已經(jīng)對傳統(tǒng)調(diào)查方法產(chǎn)生了沖擊。我們應(yīng)該關(guān)注和思索這個問題。不過,大數(shù)據(jù)通常掌握在騰訊、百度、阿里等大公司手里,個人大多并不掌握大數(shù)據(jù)的管道,并不容易獲取大數(shù)據(jù)。如果你不能獲取大數(shù)據(jù),那么你就去找小數(shù)據(jù),做抽樣問卷調(diào)查,獲得結(jié)構(gòu)化數(shù)據(jù)。目前,大數(shù)據(jù)方法和傳統(tǒng)調(diào)查方法處于并用階段。當(dāng)前以及今后一段很長的時間里,抽樣問卷調(diào)查依然是一種很常用的調(diào)查研究方法。
質(zhì)化研究方法也要給予足夠重視。有的人過分迷信量化研究,而忽視質(zhì)化研究,這是不足取的。比如文獻(xiàn)研究方法其實(shí)至今仍然是一種很重要的質(zhì)化研究方法,不管科技如何發(fā)達(dá),我們總不能放棄文獻(xiàn)閱讀。沒有閱讀,其實(shí)也就沒有研究和寫作。另外,質(zhì)化研究方法取得的成果或許具有更長的壽命,這一點(diǎn)也是需要注意的。
在互聯(lián)網(wǎng)科技迅猛發(fā)展的今天,我們應(yīng)該秉持開放的心態(tài)對待調(diào)查方法。要深入學(xué)習(xí)并掌握抽樣問卷調(diào)查技術(shù),同時不要忽略質(zhì)化研究方法。要關(guān)注大數(shù)據(jù),充分利用網(wǎng)絡(luò)平臺開展調(diào)查。
提問題是一種非常重要的能力,問卷設(shè)計的核心就是提問題。互聯(lián)網(wǎng)科技迅猛發(fā)展,人類進(jìn)入智媒時代,融媒體傳播成為人類傳播圖景,其實(shí)質(zhì)也是泛化的智慧傳播,[3]大數(shù)據(jù)、人工智能、生物傳感技術(shù)等給傳統(tǒng)調(diào)查方法帶來了巨大沖擊和挑戰(zhàn),但即便是在這樣的新時代,提出好的問題仍然是沒有過時的重要技能,學(xué)會提問題仍然具有顯著的價值。
提出好的問題并設(shè)計成問卷,甚至可以與人工智能技術(shù)結(jié)合,用于中醫(yī)診斷。百度公司前副總裁梁冬目前轉(zhuǎn)行從事中醫(yī)診所事業(yè),但他一直覺得中醫(yī)不可能規(guī)?;?、復(fù)制化。有一天,他碰到了一位從事人工智能研究的朋友,這位朋友將人工智能技術(shù)應(yīng)用到中醫(yī)研究上,改變了梁冬的看法。
這位人工智能專家找到高水平中醫(yī),反復(fù)詢問大夫看病時會問什么問題。研究發(fā)現(xiàn),大夫問的問題其實(shí)通常不會超過三四十個。人工智能專家擬合大夫看病的思維和方法,把大夫看病時望聞問切的過程擬合為一系列提問,形成一份問卷,居然開發(fā)出一套看病的軟件系統(tǒng)。
一個患者來了,大夫給患者診斷后,開出一個藥方。同樣的這個患者,人工智能專家讓一個操作人員來問問卷上的問題,打完勾,把數(shù)據(jù)輸入系統(tǒng),也開出來一個藥方。結(jié)果發(fā)現(xiàn),機(jī)器開出來的藥方與大夫的藥方非常接近,甚至讓那位大夫覺得機(jī)器開的藥方比自己開的藥方還要好。梁冬說他對自己的體質(zhì)很了解,他讓機(jī)器測了一下,機(jī)器問了他40個問題,給他開出了一個溫膽湯的藥方,診斷結(jié)果和開出的藥方令他非常震驚。
大數(shù)據(jù)、算法對抽樣技術(shù)是有沖擊的,大數(shù)據(jù)時代抽樣調(diào)查還有存在的必要嗎?這個問題的確值得我們思考。隨機(jī)抽樣的產(chǎn)生歷經(jīng)了一個歷史過程,抽樣技術(shù)具有科學(xué)性,是人類智慧的結(jié)晶。即便是在當(dāng)前大數(shù)據(jù)時代,抽樣技術(shù)仍然有存在的價值。甚至即便是在算法見長的公司內(nèi)部,抽樣技術(shù)仍然具有頑強(qiáng)的生命力。
以算法和機(jī)器抓取見長的今日頭條如今在大量增加內(nèi)容審核編輯崗位人員。今日頭條內(nèi)容審核編輯團(tuán)隊已經(jīng)超過4000人,這次又要招聘2000人,團(tuán)隊還會繼續(xù)擴(kuò)大,預(yù)計很快要突破10000人。[4]
據(jù)今日頭條總編輯張輔評介紹,頭條號平臺自媒體作者超過90萬,每天都在生產(chǎn)大量的內(nèi)容,針對用戶可能生產(chǎn)傳播色情低俗內(nèi)容、違規(guī)內(nèi)容的問題,今日頭條還曾專門從用戶中抽樣建立了1000人規(guī)模的專業(yè)評估團(tuán),每天反饋千余份對于機(jī)器推薦效果滿意度的問卷。[5]從這里我們也可以看出,即便是像今日頭條這樣的以算法見長的公司,也依然使用了抽樣問卷調(diào)查方法來助益業(yè)務(wù)的運(yùn)轉(zhuǎn)。擴(kuò)展內(nèi)容審核編輯團(tuán)隊,其實(shí)也可以看成是傳統(tǒng)調(diào)查技術(shù)的擴(kuò)展應(yīng)用——不能完全依賴計算機(jī)技術(shù),還需要人工把關(guān)。內(nèi)容審核編輯相當(dāng)于特殊的調(diào)查員,閱聽完內(nèi)容之后,從兩個選項“通過”和“不通過”中選擇一項。
大數(shù)據(jù)、算法等計算機(jī)技術(shù)是人類取得的先進(jìn)技術(shù),我們當(dāng)然需要正視和積極利用這些先進(jìn)技術(shù),但同時我們也仍然需要看到抽樣技術(shù)的價值。至少到目前為止,抽樣問卷調(diào)查仍然沒有被廢棄,我們要善于學(xué)習(xí)和掌握抽樣技術(shù)。
大數(shù)據(jù)容量巨大,具有更加復(fù)雜的多樣性,生成速度更快,價值密度低。大數(shù)據(jù)的一個特點(diǎn)是大,數(shù)據(jù)大到用常規(guī)手段無法收集和統(tǒng)計,那才叫大。小學(xué)生統(tǒng)計蘇軾詩詞,區(qū)區(qū)幾十萬字,卻妄稱是“大數(shù)據(jù)”,這是對“大數(shù)據(jù)”的曲解和濫用。
對于網(wǎng)絡(luò)調(diào)查來講,更能體現(xiàn)互聯(lián)網(wǎng)技術(shù)優(yōu)勢特征的調(diào)查方法是大數(shù)據(jù)方法,這種調(diào)查融合運(yùn)用了網(wǎng)絡(luò)爬蟲技術(shù)和大數(shù)據(jù)技術(shù),通過網(wǎng)絡(luò)爬蟲技術(shù)對各大門戶網(wǎng)站、博客、微博、論壇、貼吧等網(wǎng)絡(luò)信息源進(jìn)行數(shù)據(jù)抓取,對抓取到的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行挖掘和分析,獲取調(diào)查數(shù)據(jù)依靠軟件程序自動進(jìn)行,方便快捷。
毫無疑問,采用大數(shù)據(jù)方法獲取網(wǎng)絡(luò)數(shù)據(jù)是一種先進(jìn)的方法,我們需要密切關(guān)注、高度重視和積極利用大數(shù)據(jù)技術(shù)。網(wǎng)絡(luò)數(shù)據(jù)的抓取與傳統(tǒng)社會調(diào)查方法區(qū)別很大,這種區(qū)別表現(xiàn)在樣本獲取、數(shù)據(jù)規(guī)模以及操作程序等諸多方面。傳統(tǒng)調(diào)查方法遵循的是抽樣理念,用樣本來表征或推斷總體,以小博大,樣本規(guī)模、數(shù)據(jù)規(guī)模與大數(shù)據(jù)方法相比均要小得多,操作程序主要包括抽樣、調(diào)查和統(tǒng)計分析,人工操作是核心。
網(wǎng)絡(luò)數(shù)據(jù)抓取采用大數(shù)據(jù)理念,強(qiáng)調(diào)獲取網(wǎng)絡(luò)大數(shù)據(jù),用整體來表征整體,而不是用部分來代表整體,它采取的是普查方式,調(diào)查對象的規(guī)模、抓取到的數(shù)據(jù)規(guī)模均要比傳統(tǒng)抽樣調(diào)查方法大得多,大數(shù)據(jù)方法的主要工作由計算機(jī)程序自動完成。大數(shù)據(jù)給社會調(diào)查帶來的一個重大影響表現(xiàn)為對抽樣方法的沖擊,“在大數(shù)據(jù)時代,我們可以分析更多的數(shù)據(jù),有時候甚至可以處理和某個特別現(xiàn)象相關(guān)的所有數(shù)據(jù),而不再依賴于隨機(jī)抽樣”。[6]
我們對大數(shù)據(jù)方法的認(rèn)識卻還需要做深入思考,我們需要辨析網(wǎng)絡(luò)世界輿情與現(xiàn)實(shí)世界輿情的關(guān)系,需要思考采用大數(shù)據(jù)方法抓取到的網(wǎng)絡(luò)數(shù)據(jù)對全體公民意見的代表程度。
真正的大數(shù)據(jù)是全面數(shù)據(jù),全面數(shù)據(jù)的采集成本和采集難度會變大。大數(shù)據(jù)到底大到什么程度,只有掌握大數(shù)據(jù)的機(jī)構(gòu)最清楚。大數(shù)據(jù)變化快,流動性強(qiáng),這意味著大數(shù)據(jù)的采集需要頻繁進(jìn)行,而頻繁采集同時又必然面臨隱私問題,每次采集都需要獲得用戶的同意。如果用戶不同意,數(shù)據(jù)采集質(zhì)量就會受損,強(qiáng)行采集則面臨倫理困境。大數(shù)據(jù)是混亂的材料,大數(shù)據(jù)中真正有價值的還是經(jīng)過提取之后的數(shù)據(jù)。
大數(shù)據(jù)跟我們每個人相關(guān),但我們絕大多數(shù)人其實(shí)并不掌握大數(shù)據(jù),當(dāng)然也不能從中直接獲益。大數(shù)據(jù)掌握在極少數(shù)的機(jī)構(gòu)手里,掌握在騰訊、阿里、百度等大公司手里。我們每個身處互聯(lián)網(wǎng)的人其實(shí)不過扮演了大數(shù)據(jù)采集節(jié)點(diǎn)供應(yīng)器的角色,讓自己的數(shù)據(jù)匯入大數(shù)據(jù)的洪流之中,但我們鬧得再歡騰,卻也不過僅僅如此而已。我們絕大多數(shù)的個體并不是大數(shù)據(jù)宴會的真正擁有者,我們只是大數(shù)據(jù)的貢獻(xiàn)者甚至是犧牲者。
大數(shù)據(jù)方法依賴網(wǎng)絡(luò)監(jiān)測系統(tǒng)的設(shè)計,網(wǎng)絡(luò)監(jiān)測系統(tǒng)的設(shè)計需要遵循全面、準(zhǔn)確、及時、穩(wěn)定的原則。
全面原則是指網(wǎng)絡(luò)監(jiān)測系統(tǒng)對網(wǎng)絡(luò)信息數(shù)據(jù)的抓取要盡量全覆蓋,全面監(jiān)測門戶網(wǎng)站、博客、論壇、微博等網(wǎng)絡(luò)載體,不遺漏重要的輿情數(shù)據(jù)。準(zhǔn)確原則是指網(wǎng)絡(luò)監(jiān)測系統(tǒng)能夠?qū)嬰s的數(shù)據(jù)進(jìn)行精確分析,將最有價值的輿情數(shù)據(jù)篩選出來,進(jìn)行分類展示,凸顯關(guān)鍵輿情信息。及時原則是指網(wǎng)絡(luò)監(jiān)測系統(tǒng)能夠第一時間抓取到網(wǎng)絡(luò)數(shù)據(jù),第一時間對數(shù)據(jù)進(jìn)行分析,第一時間呈現(xiàn)給用戶,及時發(fā)出預(yù)警信號。穩(wěn)定原則是指網(wǎng)絡(luò)監(jiān)測系統(tǒng)要采用先進(jìn)算法,模塊組合合理有效,程序運(yùn)行順暢,系統(tǒng)易于擴(kuò)展,數(shù)據(jù)處理平穩(wěn)可靠。
網(wǎng)頁蜘蛛技術(shù)。網(wǎng)頁蜘蛛又稱網(wǎng)絡(luò)爬蟲,這是一種形象的說法,其實(shí)質(zhì)是按照某種規(guī)則自動抓取網(wǎng)絡(luò)信息的計算機(jī)程序,它像蜘蛛一樣在網(wǎng)絡(luò)空間里爬行,搜尋信息數(shù)據(jù)。搜索引擎的首要工作原理就是利用網(wǎng)頁蜘蛛去自動搜尋網(wǎng)絡(luò)信息。網(wǎng)頁蜘蛛通常會選擇鏈出鏈接較多的重要網(wǎng)站URL當(dāng)作種子集合,開始數(shù)據(jù)抓取,并通過頁面鏈接路徑爬到新的頁面抓取數(shù)據(jù)。網(wǎng)頁蜘蛛通常采用先廣搜索算法采集頁面,下載相應(yīng)的網(wǎng)頁進(jìn)行解析,反復(fù)操作直到爬取整個網(wǎng)絡(luò)才停下來。“將廣度優(yōu)先搜索與網(wǎng)頁過濾技術(shù)結(jié)合使用,先用廣度優(yōu)先策略抓取網(wǎng)頁,網(wǎng)絡(luò)爬蟲采用多線程,某個線程下載完頁面后提交至解析的緩沖區(qū)線程池,線程池調(diào)用解析器解析網(wǎng)頁提取URL,并把解析到的URL加入到URL記錄中。然后過濾掉其中無關(guān)的網(wǎng)頁”。[7]
云計算技術(shù)。云計算是切實(shí)可行的分布式計算方式,分布式存儲,并行計算。計算不是在本地計算機(jī)或單一的遠(yuǎn)程服務(wù)器上開展,而是分布在大量的分布式計算機(jī)上,有效解決了海量數(shù)據(jù)挖掘難題。參與云計算的服務(wù)器有幾十萬臺甚至上百萬臺,規(guī)模龐大,計算能力前所未有。云計算采用了計算節(jié)點(diǎn)同構(gòu)可互換、數(shù)據(jù)多副本容錯等技術(shù),其運(yùn)算的可靠性也比本地計算機(jī)更強(qiáng)。云計算可以按需購買服務(wù),數(shù)據(jù)管理成本可以大幅度降低,經(jīng)濟(jì)效益非常明顯。
網(wǎng)絡(luò)處理技術(shù)。網(wǎng)絡(luò)處理技術(shù)主要包括話題發(fā)現(xiàn)與追蹤技術(shù)、網(wǎng)絡(luò)分析技術(shù)等技術(shù)類別。話題發(fā)現(xiàn)與追蹤技術(shù)是指輿情監(jiān)測系統(tǒng)能夠從網(wǎng)絡(luò)世界中尋找到熱點(diǎn)話題,根據(jù)發(fā)言頻率、信息源權(quán)威度等指標(biāo),準(zhǔn)確識別熱點(diǎn)話題、敏感話題,并對相關(guān)話題的發(fā)展變化加以追蹤,及時捕捉相關(guān)信息,抓取輿情數(shù)據(jù)。網(wǎng)絡(luò)分析技術(shù)對抓取到的數(shù)據(jù)進(jìn)行智能化分析,具體包括自動分類、相似性排重、自動生成熱點(diǎn)、負(fù)面輿情研判、轉(zhuǎn)載計算、統(tǒng)計圖表自動生成、自動抽取關(guān)鍵詞、自動摘要等。
A/B測試是指為網(wǎng)絡(luò)頁面制作兩個版本,在同一時間內(nèi)進(jìn)行測驗,讓訪客群組隨機(jī)訪問不同的版本,收集各群組的用戶數(shù)據(jù),加以比較和評估,最后選擇出效果最好的那個版本。
赫芬頓郵報采用A/B測試,確立網(wǎng)站頭條新聞標(biāo)題的寫法。讀者的請求達(dá)到服務(wù)器后,服務(wù)器會通過自動分流技術(shù),為不同的用戶分配不同的版本。同一新聞內(nèi)容的報道,讀者會被隨機(jī)分配到不同的標(biāo)題版本,服務(wù)器會記錄和收集讀者的閱讀行為數(shù)據(jù),閱讀行為數(shù)據(jù)優(yōu)異的標(biāo)題將成為這條新聞的最終標(biāo)題?!斑M(jìn)行A/B測試時,測試用戶的選取是十分關(guān)鍵的環(huán)節(jié),為保證試驗結(jié)果的準(zhǔn)確性,一是要保證一定的樣本數(shù)量,二是要考慮用戶細(xì)分”。[8]
對于網(wǎng)絡(luò)媒體用戶研究來講,實(shí)時監(jiān)測用戶的行為數(shù)據(jù)是十分便捷的事情,用戶的行為數(shù)據(jù)最能說明他們的喜好和態(tài)度。算法在頁面上的跟蹤以及對用戶行為數(shù)據(jù)的抓取,突破了傳統(tǒng)媒體受眾調(diào)查方法的局限。新聞標(biāo)題、圖片、文字段落、音頻、視頻、文章推薦等的設(shè)置,均可進(jìn)行類似測試,實(shí)時掌握用戶行為數(shù)據(jù)并據(jù)此作出調(diào)整和改變,最大程度上讓用戶滿意,優(yōu)化傳播效果。
網(wǎng)絡(luò)時代科技發(fā)展日新月異,讀心成為可能,生物傳感技術(shù)、情感交互技術(shù)、人工智能技術(shù)等在網(wǎng)絡(luò)時代社會調(diào)查領(lǐng)域的應(yīng)用尤其值得關(guān)注。采用這些高科技,省去了提問的環(huán)節(jié),受測試者不說話,機(jī)器也可以直接讀出受測試者的心理活動變化數(shù)據(jù),不可謂不神奇。
新華網(wǎng)Star生物傳感智能機(jī)器人就掌握這種讀心術(shù),可以直接收集受測試者的情感變化數(shù)據(jù)并生成報告。2018年3月5日,李克強(qiáng)總理在人民大會堂作《政府工作報告》。新華網(wǎng)影視傳感評測實(shí)驗室邀請30位社會各界人士同步觀看總理報告,接受Star生物傳感智能機(jī)器人的讀心測驗。
現(xiàn)場觀眾的情緒生理變化被傳感器捕捉下來,通過人機(jī)交互等技術(shù)轉(zhuǎn)化為數(shù)值,傳遞到后臺計算機(jī),以數(shù)字形態(tài)描繪出每個人的情緒曲線。從情緒曲線上可以非常直觀地看出,觀眾的興奮值、情緒波峰、情緒波谷及情緒變化趨勢。觀眾情緒喚起強(qiáng)度明顯升高,則表明他們這個時候注意力非常集中,對相關(guān)內(nèi)容很關(guān)注。新華網(wǎng)Star生物傳感智能機(jī)器人可以精準(zhǔn)捕捉被測試者“同頻共振”瞬間、“心潮澎湃”瞬間,同時還能出具測試報告、生產(chǎn)生理傳感新聞報道。[9]