董現(xiàn)壘等
摘要:基于MCMC算法,本文實(shí)現(xiàn)了狀態(tài)空間模型和貝葉斯先驗(yàn)下的變量選擇模型的迭代過程,分別解決了對CCI的時(shí)間及季節(jié)性趨勢的估計(jì)問題和對社交媒體的信息挖掘問題,進(jìn)而擬合了中國消費(fèi)者信心指數(shù)。結(jié)果表明,社交媒體的信息挖掘可以在一定程度上成為測算CCI的一種新方法。研究還發(fā)現(xiàn): 中國CCI隨時(shí)間有緩慢下降的趨勢;中國消費(fèi)者信心總會(huì)在新年前較低而新年過后更高; 從大眾的社交媒體行為來看,人們對于中國當(dāng)前的經(jīng)濟(jì)運(yùn)行和經(jīng)濟(jì)前景抱有一定的消極情緒。
關(guān)鍵詞:消費(fèi)者信心;Google Trends; MCMC; 狀態(tài)空間;變量選擇
DOI:10.13956/j.ss.1001-8409.2015.XX.XX
中圖分類號(hào):O212.8; N032; F224.7 文獻(xiàn)標(biāo)識(shí)碼: 文章編號(hào):
關(guān)鍵詞:消費(fèi)者信心;Google Trends; MCMC; 狀態(tài)空間;變量選擇
DOI:10.13956/j.ss.1001-8409.2015.XX.XX
中圖分類號(hào):O212.8; N032; F224.7 文獻(xiàn)標(biāo)識(shí)碼: 文章編號(hào):
引言
隨著計(jì)算機(jī)技術(shù)的發(fā)展,人們的生活正在變得越來越社交化。社交媒體的內(nèi)容往往同社會(huì)的、經(jīng)濟(jì)的、政策的以及其他的各種事件相關(guān)聯(lián)。有效地獲取和分析社交媒體信息有利于科學(xué)、深入地理解人們的心理與網(wǎng)絡(luò)行為之間的潛在關(guān)系?;谛袨榻?jīng)濟(jì)學(xué)理論,已經(jīng)有大量研究成果表明人們的社交媒體行為與某些社會(huì)、經(jīng)濟(jì)的指標(biāo)之間具有內(nèi)在關(guān)聯(lián)。比如,Kietzmann等發(fā)現(xiàn)了社交媒體的傳播行為會(huì)對一個(gè)公司的聲譽(yù)、銷售額甚至競爭過程產(chǎn)生巨大的影響[1]。Bollen等發(fā)現(xiàn)社交媒體中的大眾情緒的變化會(huì)對股票指數(shù)產(chǎn)生影響[2]。Gilad通過分析博客的情感預(yù)測了電影票房收入的問題[3]。Asur等利用Twitter中的消息預(yù)測了電影票房,同時(shí)分析了如何利用Twitter來改善社交媒體的預(yù)測功能[4]。Scott等利用谷歌趨勢和谷歌相關(guān)性數(shù)據(jù)即時(shí)預(yù)測了月銷售的變化等[5]。薛可等利用社交媒體信息分析了意見領(lǐng)袖與受眾定位對品牌傳播的影響[6]。這些成果都表明,人們的社交媒體行為與社會(huì)的、經(jīng)濟(jì)的一系列指標(biāo)具有密切關(guān)聯(lián)。
社交媒體的流行導(dǎo)致了海量冗雜的網(wǎng)絡(luò)信息,如何從社交媒體中提取那些對個(gè)體有價(jià)值的信息成為一個(gè)難題。Scott等[5]在2014年首先將空間狀態(tài)模型和變量選擇模型通過MCMC算法結(jié)合在一起,利用Google Trends和Google Correlate的數(shù)據(jù)對解雇賠償以及企業(yè)銷售等問題做了即時(shí)預(yù)測。本文將借鑒該思路,以消費(fèi)者信心指數(shù)(CCI)為例,闡明一種社交媒體數(shù)據(jù)的建模和分析方法。
CCI反映了消費(fèi)者群體對于一個(gè)國家或者地區(qū)經(jīng)濟(jì)形勢以及經(jīng)濟(jì)前景的信心強(qiáng)弱,其對于經(jīng)濟(jì)形勢的未來走向具有重要的預(yù)測作用。當(dāng)下,利用調(diào)查問卷進(jìn)行抽樣調(diào)查獲得該數(shù)據(jù)是國際上通用的做法。但是,調(diào)查問卷的信息并不總是可靠的,比如它可能會(huì)受到社會(huì)整合偏見的影響[7],并且,這種信息獲取方式具有滯后性,而且成本較高。本文通過分析社交媒體網(wǎng)絡(luò)中的信息,挖掘社交媒體數(shù)據(jù)對CCI的影響規(guī)律和預(yù)測作用。進(jìn)一步地,提出一種基于社交媒體的,更客觀、經(jīng)濟(jì)、有效的信息(CCI)獲取方式。
1 數(shù)據(jù)與方法
1.1 數(shù)據(jù)
在建模分析過程中,選取以下3類數(shù)據(jù)源:
1. 由中國國家統(tǒng)計(jì)局公布的中國消費(fèi)者信心指數(shù)(CCI)的歷史數(shù)據(jù)。
2. 與大眾自信心相關(guān)的情緒狀態(tài)量表(POMS)以及與消費(fèi)者信心相關(guān)的中國經(jīng)濟(jì)學(xué)家信心調(diào)查問卷。
3. 通過Google Trends獲得的人們在網(wǎng)絡(luò)中對特定話題的搜索量隨時(shí)間變化的時(shí)間序列。
我們將第一類由中國官方發(fā)布的CCI作為被解釋變量和參考標(biāo)準(zhǔn)。第二類數(shù)據(jù)作為與消費(fèi)者信心相關(guān)的話題來源。第三類數(shù)據(jù)來源為回歸中的解釋變量,體現(xiàn)了社交媒體信息對CCI的影響。
1.1.1 中國消費(fèi)者信心指數(shù)
CCI從2009年11月之后由國家統(tǒng)計(jì)局委托Nielsen公司通過大規(guī)模市場調(diào)研獲得并由國家統(tǒng)計(jì)局統(tǒng)一公布[8]。由于前后的統(tǒng)計(jì)方法的差異,CCI數(shù)據(jù)前后差異過大,見圖1。因?yàn)樨惾~斯方法對于可觀測值的數(shù)量要求并不嚴(yán)格,因此,只對2009年11月之后的數(shù)據(jù)進(jìn)行建模和分析,觀測數(shù)據(jù)從2009年12月到2014年7月,共56個(gè)觀測值。同時(shí)利用2014年8月的數(shù)據(jù)對模型進(jìn)行了一步即時(shí)預(yù)測,作為對模型穩(wěn)健性的檢驗(yàn)。
1.1.2 調(diào)查問卷
1. 中國經(jīng)濟(jì)學(xué)家信心問卷。為了選取能夠體現(xiàn)消費(fèi)者信心的經(jīng)濟(jì)類社交媒體話題,我們參考了中國消費(fèi)者信心問卷和中國經(jīng)濟(jì)學(xué)家信心問卷。比較這兩種調(diào)查問卷,經(jīng)濟(jì)學(xué)家信心調(diào)查問卷的問題更專業(yè),更廣泛,其與與消費(fèi)者信心相關(guān)的經(jīng)濟(jì)類話題也更多。于是,以經(jīng)濟(jì)學(xué)家信心調(diào)查問卷為主要參考,獲得與消費(fèi)者信心相關(guān)的經(jīng)濟(jì)類社交媒體話題,見表1前34個(gè)話題。
2. 情緒狀態(tài)量表(POMS)。我們從POMS中獲得16個(gè)與心理學(xué)自信心相關(guān)的話題[9],見表1后16個(gè)話題。
1.1.3 Google Trends
Google Trends可以為用戶提供輸入檢索詞的檢索量隨時(shí)間變化的趨勢。Google Trends將搜索的問題分為25個(gè)大類,見表2。也就是對于每一個(gè)檢索詞來說,都可以在Google Trends的25個(gè)類別中分別進(jìn)行檢索。將每個(gè)話題在每個(gè)類別中進(jìn)行檢索,則每個(gè)話題最多可以生成25個(gè)時(shí)間序列。剔除那些因?yàn)樗阉髁刻俣荒苌蓵r(shí)間序列的話題或者話題的類,最后獲得158個(gè)心理類的和257個(gè)經(jīng)濟(jì)類的共415個(gè)時(shí)間序列, 作為模型中的解釋變量。