【內(nèi)容摘要】本文通過對比傳統(tǒng)語境與大數(shù)據(jù)下民意研究的異同,對大數(shù)據(jù)民意挖掘的主要路徑和趨勢嘗試進(jìn)行梳理,認(rèn)為,合理使用大數(shù)據(jù)一方面可以提高政府的民意收集效率、提高政府效率和社會(huì)的開放度;另一方面,過度使用大數(shù)據(jù)榨取商業(yè)價(jià)值,可能會(huì)限制個(gè)體的選擇自由并侵犯個(gè)人隱私??傊髷?shù)據(jù)是工具,如何使用,才是關(guān)鍵。
【關(guān)鍵詞】民意研究;大數(shù)據(jù);路徑;趨勢
(續(xù)上期)
三、大數(shù)據(jù)語境下的民意研究路徑
(一)非結(jié)構(gòu)化文本數(shù)據(jù)
當(dāng)研究者不能以主動(dòng)提問來探求社會(huì)個(gè)體想法與傾向的時(shí)候,網(wǎng)絡(luò)空間遺留下的話語文本就顯得尤為關(guān)鍵。網(wǎng)民經(jīng)常在網(wǎng)絡(luò)空間的不同平臺(tái)主動(dòng)留言表達(dá)觀點(diǎn),比如聊天室、論壇、新聞網(wǎng)站及社交媒體。大量的網(wǎng)絡(luò)文本成了社會(huì)輿論的晴雨表。利用網(wǎng)民主動(dòng)的自我表達(dá)數(shù)據(jù),可以追蹤社會(huì)關(guān)注的議題及對特定社會(huì)議題、事件和商業(yè)品牌與產(chǎn)品的態(tài)度。美國塔夫茨大學(xué)的“城市態(tài)度實(shí)驗(yàn)室”通過分析處理推特文本數(shù)據(jù)來把握民意,從而達(dá)到為政策和規(guī)劃服務(wù)的目的。伊利諾伊大學(xué)的兩位學(xué)者①提出了一套消費(fèi)者評論(customer review)文本挖掘的方案,針對消費(fèi)者在網(wǎng)上對不同商品的評價(jià),用特定的算法對雜亂無章的網(wǎng)絡(luò)評論進(jìn)行態(tài)度傾向性預(yù)測。約瑟夫·雷格爾(Joseph Reagle)②在其新書《讀網(wǎng)評》(Reading the Comments)中指出,雖然海量的網(wǎng)絡(luò)留言質(zhì)量參差不齊,但如果能使用不同數(shù)據(jù)處理方法披沙揀金,還是可以從社交網(wǎng)站和新聞網(wǎng)站上源源不斷產(chǎn)生的網(wǎng)友留言數(shù)據(jù)中提取出有價(jià)值的“民意”。
同時(shí),日新月異的數(shù)據(jù)挖掘技術(shù)也在不斷提高著網(wǎng)絡(luò)文本研究的話題分類的精細(xì)度③和情緒分析的準(zhǔn)確性④。情緒分析(sentiment analysis)是網(wǎng)絡(luò)文本挖掘的常用方法,它從海量文本中抽取有情感指向的詞語和短語,并經(jīng)過統(tǒng)計(jì)整合得出文章、段落或字句的好惡傾向。2001年前后,機(jī)器學(xué)習(xí)被大規(guī)模引入到自然語言處理和信息挖掘領(lǐng)域,同時(shí),海量數(shù)據(jù)帶來的可用于訓(xùn)練集的數(shù)據(jù)量的激增和情感分析潛在的商業(yè)價(jià)值,均促成了情緒分析研究的爆發(fā)式增長⑤。
除了從技術(shù)角度提高網(wǎng)絡(luò)信息的提取精度外,學(xué)界也關(guān)注網(wǎng)絡(luò)民意對現(xiàn)實(shí)世界的預(yù)測作用,以證明大數(shù)據(jù)的可靠性。美國學(xué)者約瑟夫·迪格瑞茲(Joseph DiGrazia)和他的合作者⑥于2010年8月到11月,從推特上隨機(jī)抽取了兩個(gè)月間的5億多條推文,并與同時(shí)期的406場國會(huì)競選結(jié)果進(jìn)行比對。他們發(fā)現(xiàn),包含兩黨候選人名字的推文分享率與兩黨選票的差距之間存在強(qiáng)相關(guān)。即使在控制了人口統(tǒng)計(jì)學(xué)變量、各選區(qū)的黨派傾向和媒體報(bào)道特征后,這種相關(guān)性依然存在。之后,該研究團(tuán)隊(duì)中的一名成員⑦又利用他們的數(shù)據(jù)對406場國會(huì)競選進(jìn)行了預(yù)測,成功預(yù)測375場的結(jié)果,準(zhǔn)確率高達(dá)92.5%。在英國,三位學(xué)者分析了4億條英國用戶的推特文本⑧,并利用推文中的情感性詞匯構(gòu)建了4條時(shí)間跨度為兩年半的情感指數(shù)時(shí)間序列,包括恐懼、憤怒、高興與憂傷。結(jié)果發(fā)現(xiàn)正面情緒指數(shù)通常在各種節(jié)日達(dá)到高點(diǎn),而憤怒指數(shù)則在2011年8月倫敦城市騷亂的幾天里達(dá)到頂峰。
政治領(lǐng)域之外,與經(jīng)濟(jì)話題相關(guān)的民意研究也有使用大數(shù)據(jù)的成功案例。美國卡內(nèi)基梅隆大學(xué)的學(xué)者⑨在2008和2009年間產(chǎn)生的一億條推特信息里挖掘和經(jīng)濟(jì)、求職和工作等詞匯相關(guān)的正、負(fù)情緒,描述形成經(jīng)濟(jì)情緒指標(biāo),發(fā)現(xiàn)根據(jù)推特構(gòu)建的情緒指標(biāo)與密西根大學(xué)的消費(fèi)者情緒指數(shù)高度吻合(r=.80)。而荷蘭學(xué)者皮特·達(dá)斯(Piet Daas) 和馬可·普茨(Marco Puts)⑩追蹤了三年半荷蘭社交媒體文本信息體現(xiàn)出來的情緒指標(biāo)和消費(fèi)者信心指數(shù)之間的關(guān)系,發(fā)現(xiàn)兩條時(shí)間序列之間存在高度相關(guān)性(r=.90)。也就是說,即使摒棄傳統(tǒng)的基于問卷方式的消費(fèi)者信心指數(shù)調(diào)查,研究者依然能夠通過抓取社會(huì)媒體文本來精確把握民眾對于經(jīng)濟(jì)的信心程度。另外,惠普實(shí)驗(yàn)室的研究者抓取并分析了289萬條討論電影的推特文本,利用相關(guān)推文的頻率和正負(fù)語義來預(yù)測電影的票房,發(fā)現(xiàn)模型的預(yù)測結(jié)果比傳統(tǒng)市場變量模型的測量結(jié)果更加精準(zhǔn)。
(二) 結(jié)構(gòu)化行為數(shù)據(jù)
事實(shí)上,不是每個(gè)人都喜好在網(wǎng)絡(luò)空間表達(dá)自己的觀點(diǎn)。根據(jù)麥康奈爾(McConnell)和赫伯(Huba)的估計(jì),大約只有1%的互聯(lián)網(wǎng)使用者會(huì)在網(wǎng)上貢獻(xiàn)內(nèi)容,而剩下的99%都是“潛水者”。如果我們在技術(shù)上只能挖掘網(wǎng)絡(luò)表達(dá)者的意見,基于大數(shù)據(jù)的民意推斷是否存在偏差?其實(shí),除了網(wǎng)絡(luò)空間意見表達(dá)這種直接的民意載體外,互聯(lián)網(wǎng)使用者的網(wǎng)上行為,包括搜索、點(diǎn)擊、瀏覽、投票、測試等,也是一種意見與觀點(diǎn)的表達(dá)載體。從心理學(xué)的視角來看,行為是價(jià)值、觀點(diǎn)和意見的外顯和表達(dá)。這種表達(dá)有時(shí)候意味著“用腳投票”的好惡選擇——如同一個(gè)網(wǎng)站改版前后的訪問量變化,可能暗合了某種社會(huì)偏好與趨勢。比如,倫敦《標(biāo)準(zhǔn)晚報(bào)》(The Evening Standard)的網(wǎng)絡(luò)版經(jīng)常邀請網(wǎng)友票選最熱門的新聞——平均每次票選能獲得4.8萬個(gè)網(wǎng)友的投票,而投票結(jié)果大致可被看作是民眾對不同社會(huì)議題重要性的意見。因此,網(wǎng)絡(luò)行為數(shù)據(jù)也是網(wǎng)絡(luò)民意分析的重要來源之一。與文本、影像數(shù)據(jù)相比,網(wǎng)絡(luò)行為數(shù)據(jù)更加具有結(jié)構(gòu)化的特點(diǎn),處理起來也相對簡單。
網(wǎng)絡(luò)使用行為產(chǎn)生的“民意”及其預(yù)測價(jià)值,最典型的例子要屬谷歌搜索趨勢。谷歌搜索趨勢是谷歌利用全球用戶搜索引擎使用行為數(shù)據(jù)整合起來的搜索指數(shù)。利用與流感有關(guān)的搜索量變化和搜索地域分布特征,谷歌成功預(yù)測了流感在美國境內(nèi)的傳播,其預(yù)測準(zhǔn)確且高效,信息收集和處理的速度遠(yuǎn)快于負(fù)責(zé)監(jiān)測流感疫情的美國疾病預(yù)防控制中心。近年來,雖有研究指出,谷歌搜索趨勢預(yù)測的準(zhǔn)確性會(huì)受搜索引擎算法和數(shù)據(jù)本身特征的影響而與實(shí)際情況有所出入,但搜索數(shù)據(jù)本身作為人們線下關(guān)切的線上表現(xiàn)形式,依舊是一種值得關(guān)注的民意表達(dá)。最近美國學(xué)者在PLOS ONE 雜志上發(fā)表了一篇利用谷歌搜索趨勢來探究種族偏見的論文。研究者通過分析含有對黑人歧視性詞匯的谷歌搜索量,發(fā)現(xiàn)美國東部的互聯(lián)網(wǎng)使用者更頻繁地搜索歧視黑人的詞語,這為美國種族偏見的地域分布提供了新的證據(jù)。另外,通過分析2004至2012的谷歌搜索數(shù)據(jù),研究者發(fā)現(xiàn)股市相關(guān)詞匯的搜索量能夠提前預(yù)測股市的波動(dòng)與起落。
使用搜索引擎獲取信息只是人們主動(dòng)獲取信息的第一步,網(wǎng)民最終決定看什么是個(gè)人的決定和選擇(selective exposure),這本身也構(gòu)成了一種隱性的意見和偏好表達(dá)。在商業(yè)和經(jīng)濟(jì)領(lǐng)域,行為“民意”的表達(dá)無處不在。購物網(wǎng)站上的產(chǎn)品銷量、瀏覽次數(shù)等信息都是潛在的行為數(shù)據(jù),它們雖不構(gòu)成直接的民意表達(dá),但對理解特定情境下的民意產(chǎn)生——如特定人群的購買決策等——有重要意義。有研究發(fā)現(xiàn),當(dāng)谷歌瀏覽器返回搜索結(jié)果后,網(wǎng)民對搜索結(jié)果的選擇,不僅受到谷歌排名的影響,也受到同一頁面中其他搜索結(jié)果摘要的綜合影響。換言之,人們對網(wǎng)頁瀏覽有一定的主動(dòng)選擇權(quán),使得點(diǎn)擊率和訪問量依舊可以構(gòu)成一種特殊的“民意”。2009年,法國第一夫人布魯尼開設(shè)了個(gè)人網(wǎng)站,首日便因登錄網(wǎng)友過多,導(dǎo)致網(wǎng)站癱瘓。2012年,中國某食品安全網(wǎng)站,兩小時(shí)點(diǎn)擊量超過25000次,網(wǎng)絡(luò)一度癱瘓。無論是蜂擁去看第一夫人的網(wǎng)站,還是擁向問題食品報(bào)道的網(wǎng)站,巨大的訪問量本身就代表了民眾的關(guān)注和焦慮。
除了網(wǎng)絡(luò)信息搜索和網(wǎng)絡(luò)信息獲取,網(wǎng)絡(luò)上的其他活動(dòng),比如“自我測試”、“趣味測評”,也可以帶來大量數(shù)據(jù)。與傳統(tǒng)的網(wǎng)絡(luò)問卷調(diào)研不同,趣味測評和自我測試在填答結(jié)束后會(huì)給填答者帶來信息和娛樂的回報(bào)。
(三) 社會(huì)網(wǎng)絡(luò)數(shù)據(jù)和群體趨同性
非結(jié)構(gòu)化文本數(shù)據(jù)分析和結(jié)構(gòu)化網(wǎng)絡(luò)行為數(shù)據(jù)分析契合了前面提及的Cloudera公司的大數(shù)據(jù)民意挖掘理念,即分析公眾在網(wǎng)上說了什么(非結(jié)構(gòu)化文本數(shù)據(jù))和做了什么(結(jié)構(gòu)化網(wǎng)絡(luò)行為數(shù)據(jù))。但是,如果大數(shù)據(jù)本身的不完整性使我們無法精確定位每條數(shù)據(jù)生產(chǎn)者的人口統(tǒng)計(jì)學(xué)特征,那么,我們是否還能用大數(shù)據(jù)判斷/預(yù)測不同社會(huì)階層、社會(huì)特征的人所持有的態(tài)度呢?
互聯(lián)網(wǎng)的技術(shù)特性是開放和聯(lián)結(jié)。互聯(lián)網(wǎng)不僅是信息聚合的場所,它更提供了一張巨大的關(guān)系網(wǎng)絡(luò)結(jié)構(gòu)圖,在這張結(jié)構(gòu)圖里,不同的個(gè)體被多種關(guān)系粘連在一起。亞里士多德在《尼各馬可倫理學(xué)》一書中提到了志趣相投者互相吸引的規(guī)律(“l(fā)ove those who are like themselves”)。也就是說,存在于同一個(gè)網(wǎng)絡(luò)中的個(gè)體有趨同的社會(huì)背景、行為傾向、個(gè)體特征和意見觀點(diǎn)。
所謂“道不同不相為謀”或“物以類聚,人以群分”,這兩句古語暗合了西方社會(huì)學(xué)中的一個(gè)重要概念——趨同性(homophily,或譯為聚類性)。這種趨同原則體現(xiàn)在各種社會(huì)網(wǎng)絡(luò)關(guān)系,包括婚姻、友情、工作、興趣組群等。在政治領(lǐng)域,有相同政見傾向的人之間通常有著更緊密的關(guān)系。趨同的形成機(jī)制多種多樣,比如自我選擇機(jī)制——人們選擇進(jìn)入與自己興趣和價(jià)值觀相符的群體,或者人際影響機(jī)制,即人們嘗試融入群體以避免沖突和被疏離等。
利用趨同原則,研究者能利用機(jī)器學(xué)習(xí)的方法來預(yù)測大數(shù)據(jù)中未直接披露的個(gè)體信息和傾向,從而推斷個(gè)體的民意傾向性。例如,雖然只有極小部分的用戶會(huì)在社交媒體上透露自己的政治傾向,F(xiàn)acebook的杰克·林達(dá)穆(Jack Lindamood)和美國德克薩斯大學(xué)的學(xué)者使用樸素貝葉斯分類器(一種數(shù)據(jù)處理算法)來處理社會(huì)媒體的網(wǎng)絡(luò)結(jié)構(gòu)和信息,以推測個(gè)體的政治傾向,通過分析16萬用戶的背景資料以及他們之間300多萬對朋友關(guān)系,他們以80%的準(zhǔn)確率成功預(yù)測了Facebook用戶的政治態(tài)度傾向。哥倫比亞大學(xué)的研究者使用支持向量機(jī)器(一種機(jī)器學(xué)習(xí)方法)處理11000個(gè)網(wǎng)絡(luò)社區(qū)用戶的朋友圈關(guān)系和自我介紹,以預(yù)測個(gè)體的興趣。印度研究者運(yùn)用網(wǎng)絡(luò)關(guān)系預(yù)測社交媒體用戶的政治傾向和性取向,精確程度分別達(dá)到63%和70%。在產(chǎn)品營銷的語境里,從原來的個(gè)體定位、地理定位、行為定位,發(fā)展到現(xiàn)在的社會(huì)網(wǎng)絡(luò)定位。此外,有研究發(fā)現(xiàn),就廣告點(diǎn)擊這個(gè)行為而言,如果使用者的朋友圈里有人曾經(jīng)點(diǎn)擊廣告,那么這個(gè)使用者點(diǎn)擊廣告的概率會(huì)比朋友圈里沒人點(diǎn)擊的使用者大很多,同樣的規(guī)律對產(chǎn)品購買行為也一樣適用。
四、大數(shù)據(jù)民意研究的問題和展望
越來越多的人參與到大數(shù)據(jù)民意挖掘的工作中來,關(guān)于大數(shù)據(jù)樣本的代表性和大數(shù)據(jù)研究的適用性等問題,也逐漸成為學(xué)界業(yè)界討論的焦點(diǎn)。對大數(shù)據(jù)研究持懷疑論者認(rèn)為,大數(shù)據(jù)往往缺乏代表性,其理論和實(shí)用價(jià)值都有待商榷;而熱衷數(shù)據(jù)挖掘的研究者則認(rèn)為,網(wǎng)絡(luò)中無處不在的數(shù)據(jù)為研究社會(huì)群體的態(tài)度、觀點(diǎn)、立場提供了前所未有的資源。
在有關(guān)大數(shù)據(jù)的討論中,“大數(shù)據(jù)缺乏代表性”常常成為否定大數(shù)據(jù)價(jià)值的主要論點(diǎn)。按照傳統(tǒng)的統(tǒng)計(jì)理論,用不具代表性的樣本來進(jìn)行統(tǒng)計(jì)推斷和民意預(yù)測會(huì)造成系統(tǒng)性誤差。大數(shù)據(jù)代表性缺失主要體現(xiàn)在三個(gè)方面。第一,從特定網(wǎng)絡(luò)應(yīng)用平臺(tái)(如人人網(wǎng)、天涯社區(qū)等)采集的不完整數(shù)據(jù),至多能代表該平臺(tái)用戶的意見特征,對全體網(wǎng)民缺乏代表性;第二,從網(wǎng)絡(luò)上采集的用戶言論和行為數(shù)據(jù)只局限于網(wǎng)絡(luò)使用者,并不能涵蓋非網(wǎng)民;第三,越來越多的社交網(wǎng)站為用戶提供了定制化的隱私設(shè)置選項(xiàng),人們可以自主設(shè)定信息的公開程度:對公眾公開,對特定群體公開,或僅自己可見。海量數(shù)據(jù)往往意味著海量的缺失值。美國皮尤研究中心的報(bào)告指出,F(xiàn)acebook的青少年用戶中,有60%的人將其個(gè)人信息(Profile)設(shè)定為非公開的隱私狀態(tài)。在社交網(wǎng)絡(luò)中,只有1.5%的人填寫了自己的年齡,20%的人寫了受教育經(jīng)歷;抽取社交網(wǎng)絡(luò)上16萬用戶的大數(shù)據(jù),如果按照傳統(tǒng)方法去除個(gè)人信息有缺失的用戶,將只剩下3萬多用戶的數(shù)據(jù)可供分析。這種海量缺失值帶來的數(shù)據(jù)損失進(jìn)一步降低了大數(shù)據(jù)的代表性。上述三個(gè)問題雖然確實(shí)廣泛存在于目前的大數(shù)據(jù)研究中,但利用不斷改進(jìn)的計(jì)算機(jī)抽樣技術(shù)和統(tǒng)計(jì)方法,上述問題可以得到一定程度的解決。
針對第一個(gè)問題,有研究指出,利用新的“隨機(jī)漫步”(random walk)方法抓取數(shù)據(jù)可使得樣本數(shù)據(jù)對特定網(wǎng)絡(luò)平臺(tái)的全體用戶有代表性。葛喬卡(Gjoka)等人對比了多種隨機(jī)漫步算法對樣本數(shù)據(jù)代表性的影響,發(fā)現(xiàn)大都市黑斯廷算法(Metropolis-Hasting)和再加權(quán)算法(Re-Weighted)提取的數(shù)據(jù)樣本可以較好地代表Facebook的全體用戶。在既有算法的基礎(chǔ)上,有學(xué)者結(jié)合有向網(wǎng)絡(luò)的特征,又提出了USDSG算法,用來解決社交網(wǎng)站中提取數(shù)據(jù)代表性的問題。同時(shí),Salehi及其同事利用“以應(yīng)答者為導(dǎo)向的抽樣方法”(Respondent-Driven Sampling)從粉絲網(wǎng)絡(luò)的結(jié)構(gòu)特征出發(fā)(如社交網(wǎng)絡(luò)的“入度”“出度”“粉絲與被粉比”等),以抽樣數(shù)據(jù)實(shí)現(xiàn)了對Twitter社交網(wǎng)絡(luò)結(jié)構(gòu)具有代表性的抽樣。
針對第二個(gè)問題,在一項(xiàng)青少年酒精和藥物使用情況的研究中,鮑爾梅斯特(Bauermeister)等人利用“以應(yīng)答者為導(dǎo)向的抽樣方法”,根據(jù)全國人口結(jié)構(gòu)特征,在Facebook上選取了22名應(yīng)答者作為“種子”,并在嚴(yán)格的問卷質(zhì)量監(jiān)控下,利用“種子”Facebook的社交網(wǎng)絡(luò)發(fā)放問卷并招募新的應(yīng)答者。經(jīng)比對,該研究中獲得的青少年問卷,在酒精、大麻等藥物使用方面與同期美國全國青少年調(diào)研數(shù)據(jù)相一致。除了改進(jìn)抽樣方法,也可以通過統(tǒng)計(jì)技術(shù)修正嚴(yán)重有偏差的數(shù)據(jù)。有研究者在X-box的游戲網(wǎng)站上收集了該網(wǎng)站部分用戶的政治投票意愿。單從數(shù)據(jù)代表性的角度來看,這部分?jǐn)?shù)據(jù)不僅不能代表廣大網(wǎng)友,更不能代表全體美國公民。然而,在數(shù)據(jù)處理過程中,通過多層次回歸(multilevel regression)和事后分層加權(quán)(post stratification)的統(tǒng)計(jì)處理,研究者發(fā)現(xiàn),可以用這套數(shù)據(jù)準(zhǔn)確預(yù)測美國總統(tǒng)大選,其精準(zhǔn)度不亞于整合了幾百份傳統(tǒng)調(diào)研問卷的預(yù)測結(jié)果。
至于第三個(gè)問題,則正如前文所述,可以利用可獲得的用戶個(gè)人信息和該用戶的社會(huì)網(wǎng)絡(luò)結(jié)構(gòu)特征預(yù)測與之關(guān)聯(lián)的用戶未曾披露的個(gè)人信息,從而大幅降低缺失值給數(shù)據(jù)代表性帶來的影響。利用這一方法,可以較高的精度估算出多種未披露的個(gè)人信息,如政治黨派歸屬、年齡、受教育經(jīng)歷、婚戀狀態(tài),以及國籍、居住地及更新狀態(tài)時(shí)的個(gè)人地理位置信息等。
其實(shí),大數(shù)據(jù)的批評者往往過度關(guān)注大數(shù)據(jù)的樣本代表性缺陷,而忽視了另一種代表性:數(shù)據(jù)對概念的代表程度,即社會(huì)科學(xué)中變量測量的效度問題。效度有很多種,但對任何科學(xué)研究而言,概念效度(又稱構(gòu)念效度,construct validity)都是首要解決的問題。概念效度關(guān)心的是:研究者是否測量到了他/她想要測量的概念。比如,要測量人們對政府機(jī)構(gòu)的態(tài)度,利用傳統(tǒng)的問卷調(diào)研法,可以通過不斷改進(jìn)的問卷題目和題目順序,使得測量方法有較高的概念效度。然而,利用大數(shù)據(jù),從紛繁復(fù)雜的非結(jié)構(gòu)化和半結(jié)構(gòu)化的文本、視頻、音頻中提取“對政府機(jī)構(gòu)的態(tài)度”,不僅是個(gè)披沙揀金的過程,同時(shí)也是確定何者為“金”的過程。在大數(shù)據(jù)框架下的民意研究,樣本代表性問題可以通過改進(jìn)優(yōu)化抽樣和統(tǒng)計(jì)手段得到解決。而概念代表性問題卻更為棘手,因?yàn)樗婕皩W(xué)術(shù)研究的核心問題:網(wǎng)絡(luò)表達(dá)和網(wǎng)上行為到底能夠在多大程度上代表、反應(yīng)或表征特定的民意傾向。這涉及特定的語詞和語句是否表征了人們的特定態(tài)度。此外,非結(jié)構(gòu)化的大數(shù)據(jù)中也會(huì)包含一定比例的戲仿(parody)、諷刺(satire)等表意模糊的表達(dá)方式,面對這些“民意”,研究者如何界定人們想要表達(dá)的真實(shí)意見,如何將紛繁的大數(shù)據(jù)與理論框架中由特定的約束條件限定的特定概念對應(yīng)起來,就成了大數(shù)據(jù)民意研究中的重要問題。
近年來,雖然網(wǎng)絡(luò)文本數(shù)據(jù)挖掘的效度在逐漸提高,但網(wǎng)絡(luò)行為數(shù)據(jù)對民意測量的效度問題依舊難解。學(xué)界歷來將認(rèn)知、態(tài)度、行為劃分成三個(gè)獨(dú)立的概念進(jìn)行研究,三者之間的轉(zhuǎn)化與相互影響只在特定的條件下才能發(fā)生。比如,有投票意向的人不一定真的去投票站投票;大量收看主流電視新聞的人可能是對媒體的可信度持高度懷疑態(tài)度的人群;經(jīng)常通過電話購物購買商品的人未必喜歡這些商品,他們可能只是想跟推銷員聊天以排遣寂寞??傊眯袨楸碚鲬B(tài)度,是將態(tài)度與行為的關(guān)系過度簡化了。在大數(shù)據(jù)時(shí)代的民意研究中,是否搜索歧視黑人的詞匯,就意味著搜索者對黑人持歧視態(tài)度?股市相關(guān)搜索量的上漲是否代表股市上漲?對于特定關(guān)鍵詞的搜索,可以是喜歡,也可以是厭惡。訪問一個(gè)網(wǎng)站可以是基于正面的興趣,也可以是基于負(fù)面的消息去看熱鬧。前文提到,大數(shù)據(jù)通常是二手?jǐn)?shù)據(jù),數(shù)據(jù)挖掘者一般不參與數(shù)據(jù)的生產(chǎn)和設(shè)計(jì)。研究者無法運(yùn)用問卷調(diào)查的量表效度和信度指標(biāo)去評判大數(shù)據(jù)的質(zhì)量。這就需要研究者運(yùn)用合理的概念化和操作化手段去構(gòu)建具有效度的民意指標(biāo)。
大數(shù)據(jù)只是眾多研究手段之一。美國民意研究協(xié)會(huì)(AAPOR)在2015年發(fā)布的大數(shù)據(jù)報(bào)告認(rèn)為,問卷調(diào)查數(shù)據(jù)和大數(shù)據(jù)并非是具有競爭關(guān)系的數(shù)據(jù)源。大數(shù)據(jù)不是萬能的,結(jié)合其他調(diào)研手段才能更好地發(fā)揮數(shù)據(jù)資源的優(yōu)勢和價(jià)值。大數(shù)據(jù)的應(yīng)用價(jià)值離不開其他研究方法與數(shù)據(jù)的補(bǔ)充與整合。
最著名的案例莫過于奧巴馬團(tuán)隊(duì)建立的整合式大數(shù)據(jù)系統(tǒng)在總統(tǒng)選舉中發(fā)揮的作用了。
該系統(tǒng)整合了各種數(shù)據(jù)來源,其中既有民調(diào)機(jī)構(gòu)、公募組織、田野調(diào)研員、各種消費(fèi)者數(shù)據(jù)庫,也有來自社交網(wǎng)站、移動(dòng)終端和用戶網(wǎng)絡(luò)使用行為的大數(shù)據(jù)。該系統(tǒng)將這些數(shù)據(jù)與美國民主黨選民的個(gè)人資料一一對應(yīng)后,給每個(gè)選民建立了一個(gè)有80多個(gè)變量的檔案——從性別、年齡、種族信息到有跡可查的性愛史(sex history)和投票史,不一而足。利用這套整合的數(shù)據(jù)系統(tǒng),奧巴馬的競選團(tuán)隊(duì)賦予每個(gè)選民一個(gè)“可被說服”(persuadability)分,同時(shí)根據(jù)這套系統(tǒng)向尚未表明投票意向的選民推送特定的議題和立場,以遠(yuǎn)小于競爭對手的競選成本贏得了選舉。奧巴馬競選團(tuán)隊(duì)的成功仰賴的不是單純的線上大數(shù)據(jù),而是結(jié)合了各種類型數(shù)據(jù)的優(yōu)勢與特點(diǎn),通過資源整合,提取到了真正有預(yù)測作用和實(shí)用價(jià)值的信息。
大數(shù)據(jù)的研究問題千絲萬縷。本文僅僅嘗試梳理了大數(shù)據(jù)民意挖掘的主要路徑和趨勢。關(guān)于大數(shù)據(jù)的討論十年前便已成為學(xué)界、業(yè)界共同關(guān)注的話題,而討論的廣度遠(yuǎn)非一篇綜述所能涵蓋。值得特別提及的是,雖然本文旨在梳理民意研究中的大數(shù)據(jù)應(yīng)用,但該領(lǐng)域涉及的隱私、數(shù)據(jù)開放和研究倫理等議題同等重要。這些議題超越了技術(shù)層面,關(guān)系研究者與公眾的關(guān)系重構(gòu)、研究的合法性與合理性等問題。一方面,合理使用大數(shù)據(jù)可以提高政府的民意收集效率、提高政府效率和社會(huì)的開放度;另一方面,過度使用大數(shù)據(jù)榨取商業(yè)價(jià)值,可能會(huì)限制個(gè)體的選擇自由并侵犯個(gè)人隱私??傊?,大數(shù)據(jù)是工具,如何使用,才是關(guān)鍵。(續(xù)完)
注釋:
① Hu, M., Liu, B. “Mining and Summarizing Customer Reviews”. In Proceedings of the tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, August 2004, 168-177.
② Reagle, M. Reading the Comments: Likers, Haters, and Manipulators at the Bottom of the Web. MIT Press, 2015.
③ Titov, I., and McDonald, R. (2008, April). Modeling online reviews with multi-grain topic models. In Proceedings of the 17th international conference on World Wide Web (pp. 111-120). ACM.
Abdelwahab, A., Robles, J., Chiru, C. G., and Rebedea, T. “Tweets Topic Modelling Across Different Countries”, In Ice Phil eds., The International Scientific Conference eLearning and Software for Education \", National Defense University, Vol. 4, p. 134, October, 2014.
④Pang, B., and Lee, L., “Opinion Mining and Sentiment Analysis” Foundations and Trends in Information Retrieval, Vol.2, No.1, 2008, 1-135.
⑤ 同4
⑥D(zhuǎn)iGrazia, J., McKelvey, K., Bollen, J., and Rojas, F., \"More Tweets, More Votes: Social Media as a Quantitative Indicator of Political Behavior.\" PlOS One, Vol.8, No.11, 2012, retrieved from https://orgtheory.wordpress.com/2013/08/16/more-tweets-more-vote-qa-and-erratum/
⑦ Rojas, F. “More tweets, more votes: Social media as a quantitative indicator of political behavior”, Orgtheory, 2013, retrieved from https://orgtheory.wordpress.com/2013/08/16/more-tweets-more-vote-qa-and-erratum/
⑧ Lansdall-Welfare, T., Lampos, V. and Cristianini, N., “Nowcasting the mood of the nation”, Significance, Vol. 9, No.4, 2012, 26-28.
O'Connor, B., Balasubramanyan, R., Routledge, B. R., and Smith, N. A. (2010). “From Tweets to Polls: Linking Text Sentiment to Public Opinion Time Series” ICWSM, Vol.11, 2010, 122-129.
⑨ O'Connor, B., Balasubramanyan, R., Routledge, B. R., Smith, N. A.. “From Tweets to Polls: Linking Text Sentiment to Public Opinion Time Series”. ICWSM, Vol.11, 2010, 122-129.
⑩ Daas, P. and Puts, M. “Social media sentiment and consumer confidence” European Central Bank, 2014, retrieved from https://www.ecb.europa.eu/pub/pdf/scpsps/ecbsp5.pdf
Asur, S., and Huberman, B. (2010, August). Predicting the future with social media. In Web Intelligence and Intelligent Agent Technology (WI-IAT), 2010 IEEE/WIC/ACM International Conference on (Vol. 1, pp. 492-499). IEEE.
McConnell, B., and Huba, J. “The 1% rule: Charting citizen participation”, Church of the Customer Blog, Vol.205, 2006, retrieved from http://web.archive.org/web/20100511081141/http://www.churchofthecustomer.com/blog/2006/05/charting_wiki_p.html
Bale, P. “Telephone Call with Neil Thurman”, 14 December 2004, as cited in Thurman, 2008.
Ginsberg, J., Mohebbi, M. H., Patel, R. S., Brammer, L., Smolinski, M. S., and Brilliant, L. “Detecting Influenza Epidemics Using Search Engine Query Data” Nature, Vol.457,No.7232, 2009, 1012-1014.
Lazer, D., Kennedy, R., King, G., and Vespignani, A. “The Parable of Google Flu: Traps in Big Data Analysis” Science, Vol.343, 14 March, 2014.
Butler, D. “When Google Got Flu Wrong” Nature, Vol.494, 2013, 155-156.
Chae, David H., Sean Clouston, Mark L. Hatzenbuehler, Michael R. Kramer, Hannah LF Cooper, Sacoby M. Wilson, Seth I. Stephens-Davidowitz, Robert S. Gold, and Bruce G. Link. \"Association Between an Internet-based Measure of Area Racism and Black Mortality\", PlOS One, 2015.
Curme, C., Preis, T., Stanley, H. E., and Moat, H. S. “Quantifying the Semantics of Search Behavior Before Stock Market Moves” Proceedings of the National Academy of Sciences, Vol.111, No.32, 2014, 11600-11605.
McAfee, A., Brynjolfsson, “Big Data:The Management Revolution” Harvard Business Review, Vol.90, No.10, 2012, 61-67.
Joachims, T., Granka, L., Pan, B., Hembrooke, H., and Gay, G. “Accurately Interpreting Clickthrough Data as Implicit Feedback” In Proceedings of the 28th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, ACM. August, 2005, 154-161.
李燁池:《復(fù)旦大學(xué)研究生自創(chuàng)食品安全網(wǎng)站“擲出窗外”》,金羊網(wǎng), http://news.21cn.com/hot/cn/2012/05/05/11725208.shtml,2012年5月5日
Lipcon, T. “Big Data 101 for Public Opinion Research” Cloudera, 2012, retrieved from http://www.papor.org/wp-content/uploads/2014/12/Trends-Techniques-Big-Data-101-Lipcon.pdf
Aristotle. The Nichomachean Ethics. Rackman transl. Cambridge: Harvard Univ. Press, 1934
Knoke, D. “Networks of Political Action: Toward Theory Construction” Social forces, Vol.68, No.4, 1990, 1041-1063.
Huckfeldt, R. R., and Sprague, J., Citizens, Politics and Social Communication: Information and Influence in an Election Campaign. Cambridge University Press, 1995.
Kótyuk, Gergely, and Levente Buttyán. \"A Machine Learning Based Approach for Predicting Undisclosed Attributes in Social Networks.\" 2012 IEEE International Conference on Pervasive Computing and Communications Workshops (PERCOM Workshops), IEEE, 2012.
Lindamood, J., Heatherly, R., Kantarcioglu, M., and Thuraisingham, B. “Inferring Private Information Using Social Network Data”, In Proceedings of the 18th International Conference on World Wide Web, ACM, April, 2009, 1145-1146.
Agarwal, A., Rambow, O., and Bhardwaj, N. (2009, August). “Predicting interests of people on online social networks” In Computational Science and Engineering, 2009. CSE'09. International Conference on, IEEE, Vol. 4, August, 2009, 735-740.
Annapoorani, A., and Priya, M. P. I. Inferring Private Information from Social Network Using Collective Classification. International Journal of Innovative Research in Computer and Communication Engineering, Vol.2, No.1, March 2014, p.1851-1857.
Goel, S., and Goldstein, D. G. “Predicting Individual Behavior with Social Networks” Marketing Science,Vol. 33, No.1, 2013, 82-93.
Pew Research Center, “Teens, Social Media, and Privacy”, Pew Research Center, 2013, retrieved from http://www.pewinternet.org/files/2013/05/PIP_TeensSocialMediaandPrivacy_PDF.pdf
Dey, R., Tang, C., Ross, K., and Saxena, N. (2012, March). “Estimating Age Privacy Leakage in Online Social Networks” In INFOCOM, 2012 Proceedings IEEE, IEEE, March, 2012, 2836-2840.
Silver, N. The Signal and the Noise: Why So Many Predictions Fail-But Some Don't. Penguin, 2012.
Gjoka, M., Kurant, M., Butts, C. T., and Markopoulou, A. (2010, March). “Walking in Facebook: A Case Study of Unbiased Sampling of OSNs” In INFOCOM, 2010 Proceedings IEEE. IEEE, March, 2010, 1-9.
Wang, T., Chen, Y., Zhang, Z., Sun, P., Deng, B., and Li, X. (2011). “Unbiased sampling in directed social graph” ACM SIGCOMM Computer Communication Review, Vol.41, No.4, 2011, 401-402.
Salehi, M., Rabiee, H. R., Nabavi, N., and Pooya, S. (2011, December). “Characterizing Twitter with Respondent-driven Sampling” In Dependable, Autonomic and Secure Computing (DASC), 2011 IEEE Ninth International Conference on. IEEE, December, 2011, 1211-1217.
Bauermeister, J. A., Zimmerman, M. A., Johns, M. M., Glowacki, P., Stoddard, S., and Volz, E. “Innovative Recruitment Using Online Networks: Lessons Learned from an Online Study of Alcohol and other Drug Use Utilizing a Web-based, Respondent-Driven Sampling (webRDS) Strategy” Journal of Studies on Alcohol and Drugs,Vol.73, No.5, 2015, 834-838.
Wang, W., Rothschild, D., Goel, S., and Gelman, A., “Forecasting Elections with Non-Representative Polls” International Journal of Forecasting, Vol.31, No.3, 2015, 980-991.
Lindamood, J., Heatherly, R., Kantarcioglu, M., and Thuraisingham, B. “Inferring Private Information Using Social Network Data”, In Proceedings of the 18th International Conference on World Wide Web, ACM, April, 2009, 1145-1146.
Becker, J. L., and Chen, H. Measuring Privacy Risk in Online Social Networks (Doctoral dissertation), University of California, Davis, 2009.
Dey, R., Tang, C., Ross, K., and Saxena, N. (2012, March). “Estimating Age Privacy Leakage in Online Social Networks” In INFOCOM, 2012 Proceedings IEEE, IEEE, March, 2012, p. 2836-2840.
Davis Jr, C. A., Pappa, G. L., de Oliveira, D. R. R., and de L Arcanjo, F. (2011). “Inferring the Location of Twitter Messages Based on User Relationships” Transactions in GIS, Vol.15, No.6, 2011, 735-751.
Pontes, T., Magno, G., Vasconcelos, M., Gupta, A., Almeida, J., Kumaraguru, P., and Almeida, V. “Beware of What You Share: Inferring Home Location in Social Networks”. In 2012 IEEE 12th International Conference on Data Mining Workshops (ICDMW),IEEE, December 2012, 571-578.
Cronbach, L. and Meehl, P., “Construct Validity in Psychological Tests” Psychological Bulletin, Vol.52, No.4, 1955, 281-302.
Silver, B. D., Anderson, B. A., and Abramson, P. R. “Who Overreports Voting?” American Political Science Review, Vol.80, No.2, 1986, 613-624.
Tsfati, Y. and Cappella, J. N. “Why Do People Watch News They Do Not Trust? The Need for Cognition as a Moderator in the Association between News Media Skepticism and Exposure” Media Psychology, Vol.7, No.3, 2005, 251-271.
O'Guinn, T. C. and Faber, R. J. Compulsive Buying: A Phenomenological Exploration. Journal of Consumer Research, Vol.16, No.2, 1989, 147-157.
Japec, Lilli, Frauke Kreuter, Marcus Berg, Paul Biemer, Paul Decker, Cliff Lampe, Julia Lane, Cathy O’Neil, and Abe Usher. \"AAPOR Report on Big Data\" Mathematica Policy Research, 2015.
Crovitz, G. “Obama’s ‘big data’ victory” The Wall Street Journal, 2012, retrieved from http://www.wsj.com/articles/SB10001424127887323353204578126671124151266
(作者沈菲系香港城市大學(xué)媒體與傳播系副教授,王天嬌系香港城市大學(xué)媒體與傳播系博士研究生)
【特約編輯:李艷華,責(zé)任編輯:王 旖】