摘要:無論是從社會(huì)管理還是從經(jīng)濟(jì)發(fā)展的角度來考慮,失業(yè)均已成為目前各國十分關(guān)注的重點(diǎn)問題之一,學(xué)者們也一直在通過各種方法來預(yù)測失業(yè)率。近年來,隨著網(wǎng)絡(luò)的發(fā)展和搜索引擎的普及應(yīng)用,學(xué)者們發(fā)展出一種利用網(wǎng)絡(luò)搜索數(shù)據(jù)來觀察和研究經(jīng)濟(jì)及社會(huì)問題的方法。隨著這一方法的有效性被證明之后,它也被引入到失業(yè)率預(yù)測的研究領(lǐng)域中。文章利用Google推薦的關(guān)鍵詞搜索數(shù)據(jù),采用改進(jìn)的逐步回歸方法分層建立了三個(gè)模型預(yù)測失業(yè)率,并進(jìn)行因果關(guān)系檢驗(yàn)及有效性檢驗(yàn)。實(shí)驗(yàn)結(jié)果表明,三個(gè)模型的擬合優(yōu)度分別達(dá)到0.930、0.935、0.936,三期預(yù)測值的MAPE分別為1.20%、0.89%、0.57%。文章認(rèn)為,這種方法能有效的處理網(wǎng)絡(luò)搜索數(shù)據(jù)并進(jìn)行相關(guān)的社會(huì)問題研究和經(jīng)濟(jì)問題的預(yù)測。
關(guān)鍵詞:逐步回歸;失業(yè)率;失業(yè)初請人數(shù);網(wǎng)絡(luò)搜索數(shù)據(jù);協(xié)整分析;預(yù)測
一、 引言
本文以經(jīng)濟(jì)復(fù)蘇時(shí)期美國失業(yè)率預(yù)測為例,從關(guān)鍵詞庫的構(gòu)建、利用改進(jìn)的逐步回歸的方法對關(guān)鍵詞進(jìn)行篩選、合成綜合搜索指數(shù)、構(gòu)建模型進(jìn)行預(yù)測等方面進(jìn)行系統(tǒng)介紹,并對該方法的有效性及預(yù)測效果加以驗(yàn)證。
二、 文獻(xiàn)綜述
1. 利用搜索數(shù)據(jù)進(jìn)行失業(yè)率預(yù)測的相關(guān)研究。作為反映經(jīng)濟(jì)表現(xiàn)的指標(biāo)之一,失業(yè)率一直受到非常廣泛的關(guān)注。在失業(yè)率的預(yù)測方面,學(xué)者們采用各種方法用以提高預(yù)測的準(zhǔn)確性。在Ginsberg等人利用Google搜索數(shù)據(jù)成功的預(yù)測美國流感疾病趨勢以后,這一預(yù)測方法被迅速的引入到失業(yè)率預(yù)測中來。Askitas和Zimmermann等(2009)建立了搜索數(shù)據(jù)與德國失業(yè)率之間的關(guān)聯(lián)關(guān)系,并發(fā)現(xiàn)失業(yè)率發(fā)生變化時(shí),網(wǎng)民對國家勞動(dòng)局或失業(yè)保障機(jī)構(gòu)、人事顧問、流行職位的搜索關(guān)注度會(huì)有所反應(yīng)。D'Amuri和Marcucci等(2009)利用Google搜索數(shù)據(jù)建立了工作搜索指數(shù)來預(yù)測美國的失業(yè)率,并發(fā)現(xiàn)在加入了搜索指數(shù)修正之后的模型的預(yù)測效果顯著高于傳統(tǒng)模型。Suhoy(2009),Choi和Varian(2009)將網(wǎng)絡(luò)搜索數(shù)據(jù)加入到長期和短期的失業(yè)初請人數(shù)預(yù)測模型,發(fā)現(xiàn)模型的擬合度有較大的提高,并且在長期預(yù)測模型和短期預(yù)測模型中,過去24周的滾動(dòng)預(yù)測值平均絕對誤差分別降低15.74%和12.90%。Wei Xu和Ziang Li等(2012)利用網(wǎng)絡(luò)搜索數(shù)據(jù)和神經(jīng)網(wǎng)絡(luò)方法構(gòu)建美國失業(yè)率預(yù)測模型,發(fā)現(xiàn)這種模型比其他的預(yù)測模型的效果要更好。
2. 搜索數(shù)據(jù)關(guān)鍵詞的選取。在利用網(wǎng)絡(luò)搜索數(shù)據(jù)進(jìn)行社會(huì)和經(jīng)濟(jì)研究方面,面對的都是海量的搜索數(shù)據(jù)和關(guān)鍵詞,如何從中篩選出有預(yù)測價(jià)值的關(guān)鍵詞是一個(gè)核心問題。對于這一問題,學(xué)者們處理方法各不相同。
第一種是采取技術(shù)取詞法,即利用高性能、大規(guī)模的計(jì)算設(shè)備將一切可能的關(guān)鍵詞都納入到研究范圍內(nèi),然后將相關(guān)統(tǒng)計(jì)模型編成程序運(yùn)算選出核心關(guān)鍵詞。例如Ginsberg等人利用800余臺(tái)高速計(jì)算機(jī)在2003年~2008年間5 000萬個(gè)最為常用的搜索詞中選擇出45個(gè)與CDC 發(fā)布的流感病人就診量數(shù)據(jù)相關(guān)性最高的關(guān)鍵詞,作為預(yù)測關(guān)鍵詞的來源。
第二種是經(jīng)驗(yàn)取詞法,即由作者運(yùn)用主觀經(jīng)驗(yàn)確定關(guān)鍵詞。例如Askitas在網(wǎng)絡(luò)搜索與失業(yè)率相關(guān)性時(shí),認(rèn)為與勞動(dòng)局或失業(yè)機(jī)關(guān)機(jī)構(gòu)、失業(yè)率、人事顧問和德國比較流行的幾個(gè)職業(yè)搜索引擎四類關(guān)鍵詞的搜索量將出現(xiàn)變化,因而以這四類關(guān)鍵詞為核心合成搜索指標(biāo)。
第三種是范圍取詞法,即先確定一個(gè)選詞的范圍,然后在范圍內(nèi)進(jìn)行精選。例如Konstantin在研究網(wǎng)絡(luò)搜索與美國個(gè)人消費(fèi)增長率的相關(guān)性時(shí),首先收集了Google提供的27個(gè)分類中的前十大搜索詞,然后分別做出相關(guān)性分析后剔除與個(gè)人消費(fèi)不相關(guān)的詞,利用剩下220個(gè)與消費(fèi)相關(guān)的詞合成一個(gè)指標(biāo)(Konstantin,2009)。Wei Xu和Tingting Zheng等從Google Trends中與失業(yè)相關(guān)的分類中“Local/Jobs”和“Society/Social Services/Welfare Une-mployment”類目中收集了500個(gè)左右的關(guān)鍵詞作為原始關(guān)鍵詞,從這500個(gè)關(guān)鍵詞中找出相關(guān)系數(shù)大于0.65的108個(gè)關(guān)鍵詞。然后利用神經(jīng)網(wǎng)絡(luò)方法,從這108個(gè)關(guān)鍵詞中又篩選出少數(shù)幾個(gè)關(guān)鍵詞進(jìn)行擬合
在現(xiàn)有取詞方法中,技術(shù)選詞法雖然精度較高,但是容易受到資源的限制而難以復(fù)制應(yīng)用。而直接取詞法與范圍取詞法雖然降低了工作量但是主觀性較強(qiáng),降低了學(xué)術(shù)研究的科學(xué)性(Ying Liu,Benfu Lv,2012)。
三、 理論分析與預(yù)處理方法
隨著網(wǎng)絡(luò)的興起與發(fā)展,人們越來越多的依靠網(wǎng)絡(luò)來尋找所需要的各種信息。對于面臨失業(yè)或是處于找工作的人而言,通過網(wǎng)絡(luò)搜尋相關(guān)的工作信息無疑是一種非常便捷的渠道。當(dāng)經(jīng)濟(jì)不景氣,在崗的人出于對未來失業(yè)的擔(dān)憂,會(huì)通過網(wǎng)絡(luò)了解失業(yè)保障政策以及尋找工作機(jī)會(huì)。未在崗的人也會(huì)通過網(wǎng)絡(luò)來了解經(jīng)濟(jì)形勢及尋找工作機(jī)會(huì),Google把這些與失業(yè)相關(guān)的搜索關(guān)鍵詞分成兩類,分別是“工作”及“福利/失業(yè)”。雖然這些關(guān)鍵詞的搜索數(shù)據(jù)量并不一定全是失業(yè)者或即將面臨失業(yè)者的搜索產(chǎn)生的,但從統(tǒng)計(jì)上來說,這類關(guān)鍵詞的搜索量與失業(yè)數(shù)據(jù)(這里的失業(yè)數(shù)據(jù)指的是初請失業(yè)人數(shù)數(shù)據(jù),因?yàn)槌跽埵I(yè)人數(shù)是美國失業(yè)率的非常好的先行指標(biāo)-Choi and Varian(2009)),這兩者之間存在很強(qiáng)的相關(guān)性。以“un-employment compensation”或“unemployment insuran-ce”為例,其變化趨勢和失業(yè)人數(shù)變化趨勢存在很強(qiáng)的一致性。
1. 關(guān)鍵詞選取方法。本文的關(guān)鍵詞來源于Google Tr-ends(http://www.google.cn/trends/),Google Trends記錄了從2004年以來某個(gè)關(guān)鍵詞每一周被搜索的次數(shù),并按照一定的算法將其標(biāo)準(zhǔn)化,并且,Google Trends還根據(jù)搜索的關(guān)鍵詞推薦與該關(guān)鍵詞熱門相關(guān)的一些關(guān)鍵詞。本文采取的關(guān)鍵詞選詞方法是先選一個(gè)和失業(yè)相關(guān)的關(guān)鍵詞作為初始關(guān)鍵詞,由該關(guān)鍵詞出發(fā),Google Trends會(huì)推薦出與其熱門相關(guān)10個(gè)關(guān)鍵詞,我們進(jìn)一步搜索這10個(gè)關(guān)鍵詞,Google Trends又從這10個(gè)關(guān)鍵詞出發(fā)又會(huì)推薦出其熱門相關(guān)的大約100個(gè)關(guān)鍵詞。如此往復(fù),剔除重復(fù)的關(guān)鍵詞后,這些關(guān)鍵詞構(gòu)成本文的基礎(chǔ)關(guān)鍵詞庫。
本文將“unemployment”作為初始關(guān)鍵詞,并且構(gòu)成第一層的關(guān)鍵詞庫。第二層關(guān)鍵詞庫由第一層關(guān)鍵詞庫中的關(guān)鍵詞及與這些關(guān)鍵詞熱門相關(guān)的10個(gè)關(guān)鍵詞組成,去重后共11個(gè),第三層關(guān)鍵詞庫由第二層關(guān)鍵詞庫的關(guān)鍵詞及與這些關(guān)鍵詞熱門相關(guān)的關(guān)鍵詞組成,去重后共90個(gè),按照此方法,第四層關(guān)鍵詞庫共403個(gè)關(guān)鍵詞。
2. 數(shù)據(jù)來源。本文采用的失業(yè)數(shù)據(jù)來源于美國勞工部網(wǎng)站(http://www.ows.doleta.gov/unemploy/claims.asp)發(fā)布的經(jīng)過季節(jié)調(diào)整后的每周初請失業(yè)人數(shù),美國國家經(jīng)濟(jì)研究局(NBER)發(fā)布報(bào)告稱從2007年12月份美國開始進(jìn)入衰退期,2009年6月份衰退結(jié)束,進(jìn)入恢復(fù)期。本文重點(diǎn)研究經(jīng)濟(jì)恢復(fù)時(shí)期的美國失業(yè)率。所以,本文采用的數(shù)據(jù)跨度為2009年6月至2012年10月期間的175周,將前172周的數(shù)據(jù)作為訓(xùn)練集進(jìn)入模型用于參數(shù)估計(jì),后3周的數(shù)據(jù)作為測試集用于評(píng)估預(yù)測效果。
3. 搜索指數(shù)合成的方法。
(1)逐步回歸法。在線性回歸模型中,通常會(huì)碰到兩個(gè)問題:一是如何從眾多的自變量中挑選出對因變量有顯著影響的解釋變量。二是如何消除自變量之間存在的多重共線性對回歸方程的影響。逐步回歸分析方法被認(rèn)為是解決這兩個(gè)問題的有效方法之一。它的核心思想是在考慮的全部自變量中按其對因變量的貢獻(xiàn)程度大小,由大到小地逐個(gè)引入回歸方程中,如果發(fā)現(xiàn)先前被引入的自變量在其后由于某些自變量的引入而失去其重要性,可以從回歸方程中隨時(shí)予以剔除。直到既無不顯著變量從方程中剔除,又無顯著變量需要引入回歸方程為止。其主要步驟如下:
Step1:對所有的自變量和應(yīng)變量進(jìn)行標(biāo)準(zhǔn)化處理;
Step2:計(jì)算自變量和因變量之間的皮爾遜相關(guān)系數(shù),并找出相關(guān)系數(shù)最大的因變量,并根據(jù)偏F檢驗(yàn)來判斷該因變量是否應(yīng)該被引入模型中;
Step3:在逐步引入新的因變量的同時(shí),利用偏F檢驗(yàn)刪除之前進(jìn)入模型但其對因變量的貢獻(xiàn)降低的自變量;
Step4:重復(fù)Step2和Step3的過程,直到無顯著變量需要引入回歸方程為止。
(2)改進(jìn)的逐步回歸法。在利用網(wǎng)絡(luò)搜索數(shù)據(jù)進(jìn)行多元回歸分析中,也需要從大量的關(guān)鍵詞中篩選出對因變量有顯著影響的自變量。不同的是,網(wǎng)絡(luò)搜索的關(guān)鍵詞和真實(shí)經(jīng)濟(jì)量變化之間存在先行或滯后的關(guān)系。由于要利用網(wǎng)絡(luò)搜索數(shù)據(jù)進(jìn)行預(yù)測,而因此必須找到那些搜索趨勢變化領(lǐng)先于因變量變化的關(guān)鍵詞(劉穎等,2011)。本文將這類關(guān)鍵詞稱為先行關(guān)鍵詞。在運(yùn)用逐步回歸法篩選自變量之前,需要先利用時(shí)差相關(guān)分析法確定關(guān)鍵詞的領(lǐng)先階數(shù),然后再利用逐步回歸的思想合成綜合搜索指數(shù),本文將這一系列的處理過程稱為改進(jìn)的逐步回歸分析法,其主要步驟如下:
Step1:利用時(shí)差相關(guān)分析法分析關(guān)鍵詞的領(lǐng)先階數(shù)。時(shí)差相關(guān)分析法是利用時(shí)差相關(guān)系數(shù)來驗(yàn)證經(jīng)濟(jì)時(shí)間序列先行或滯后關(guān)系的一種方法,其公式如下:
rl=,(l=0,±1,±2…)
上式中,rl:時(shí)差為l的相關(guān)系數(shù),y:因變量,y:因變量均值,x:自變量,x:自變量均值。l為x的領(lǐng)先階數(shù)。相關(guān)系數(shù)最大的時(shí)差階數(shù)為領(lǐng)先階數(shù)。此時(shí)的時(shí)差相關(guān)系數(shù)即為兩者之間的相關(guān)系數(shù);
Step2:確定了領(lǐng)先階數(shù)后,將關(guān)鍵詞按照領(lǐng)先階數(shù)進(jìn)行時(shí)差調(diào)整后與基準(zhǔn)指標(biāo)進(jìn)行回歸。將擬合度最大的關(guān)鍵詞進(jìn)入綜合搜索指數(shù)。并對該綜合搜索指數(shù)進(jìn)行顯著性檢驗(yàn);
Step3:對其他的關(guān)鍵詞加入綜合搜索指數(shù)之后,與基準(zhǔn)指標(biāo)進(jìn)行再次回歸,將對擬合度提升最大的關(guān)鍵詞加入合成指數(shù),形成新的綜合搜索指數(shù),并進(jìn)行顯著性檢驗(yàn);
Step4:對進(jìn)入綜合搜索指數(shù)的其他關(guān)鍵詞再次進(jìn)行顯著性檢驗(yàn),如果不通過,則刪除該關(guān)鍵詞數(shù)據(jù);
Step5:重復(fù)Step3和Step4,直至擬合度不再提高時(shí)停止,我們將此時(shí)的綜合搜索指數(shù)記為Qit(i=1,2,3,4分別代表第一、二、三、四層關(guān)鍵詞經(jīng)過上述操作步驟后最后合成的綜合指數(shù))。這樣就能持續(xù)地將能夠顯著提高搜索綜合指數(shù)擬合度的關(guān)鍵詞選取出來。
四、 實(shí)證分析
1. 模型建立。本文將失業(yè)初請人數(shù)Yt作為被解釋變量,以提前一期的失業(yè)初請人數(shù)Yt-1作為解釋變量一,以搜索數(shù)據(jù)綜合指數(shù)Qit(i=2,3,4)作為解釋變量二分別建立三個(gè)模型來驗(yàn)證本文提出的關(guān)鍵詞選取方法及搜索數(shù)據(jù)預(yù)處理方法的有效性(由于單個(gè)關(guān)鍵詞的選取帶有很大的隨機(jī)性,所以不建立i=1時(shí)的模型)。為增進(jìn)平穩(wěn)性,降低異常數(shù)據(jù)的影響,本文分別對以上變量取對數(shù),分別表示為LogYt,LogYt-1,LogQit。
在建立模型之前,需要對各變量進(jìn)行平穩(wěn)性檢驗(yàn),本文采用ADF檢驗(yàn)法對以上變量進(jìn)行平穩(wěn)性檢驗(yàn),檢驗(yàn)結(jié)果如下:
從ADF檢驗(yàn)結(jié)果來看,原變量序列均為非平穩(wěn)序列。而一階差分后的變量序列均為平穩(wěn)序列。所以,以上變量均為一階單整序列。
根據(jù)前面建立的理論框架,按照第二、三、四層的關(guān)鍵詞綜合指數(shù),我們建立了如下模型。
LogYt=?茁0+?茁1LogYt-1+?茁2LogQ2t+ut(1)
LogYt=?茁0+?茁1LogYt-1+?茁2LogQ3t+ut(2)
LogYt=?茁0+?茁1LogYt-1+?茁2LogQ4t+ut(3)
模型回歸結(jié)果及檢驗(yàn)如表2所示。
在上述的三個(gè)模型中,各解釋變量前的系數(shù)在1%的水平上均顯著不為零,說明本文建立的模型是合理的。搜索數(shù)據(jù)綜合指數(shù)LogQit的系數(shù)?茁2顯著為正,說明失業(yè)初請人數(shù)和失業(yè)相關(guān)的搜索關(guān)鍵詞指數(shù)之間有顯著的正相關(guān)關(guān)系。
進(jìn)一步的,本文對構(gòu)建的三個(gè)模型的殘差進(jìn)行平穩(wěn)性檢驗(yàn),發(fā)現(xiàn)殘差序列在1%的水平上均具有平穩(wěn)性。因此,解釋變量和被解釋變量之間存在一階協(xié)整關(guān)系。
2. 因果關(guān)系檢驗(yàn)。Granger因果關(guān)系檢驗(yàn)?zāi)軝z驗(yàn)解釋變量的前期變化是否能有效的解釋被解釋變量的變化。因此,Granger檢驗(yàn)可以作為考察模型的預(yù)測能力的一個(gè)指標(biāo)。本文對變量LogYt和LogQit進(jìn)行了一階Granger因果關(guān)系檢驗(yàn)。檢驗(yàn)結(jié)果如表3。
由表3可知,在三個(gè)模型中,解釋變量 均可以顯著地Granger引起被解釋變量LogQit,表明搜索綜合指數(shù)確實(shí)能夠?qū)κI(yè)初請人數(shù)具有良好的預(yù)測效果。
3. 模型預(yù)測效果比較。為進(jìn)一步考察模型的預(yù)測能力,本文運(yùn)用以上3個(gè)模型,分別預(yù)測了2012年10月份后3周的失業(yè)初請人數(shù),并以平均絕對百分誤差MAPE和均方根誤差RMSE作為衡量預(yù)測能力的指標(biāo)。設(shè)n為預(yù)測值的個(gè)數(shù),實(shí)際值為yi,預(yù)測值為yi,則MAPE=/nRMSE=預(yù)測結(jié)果如表4所示。
從表4可知,三個(gè)模型均取得很好的預(yù)測結(jié)果。這說明,本文采取的基于Google推薦的熱門相關(guān)關(guān)鍵詞并利用改進(jìn)的逐步回歸法合成綜合搜索指數(shù)的方法進(jìn)行建模和預(yù)測是非常有效的,并且隨著關(guān)鍵詞層級(jí)的增加(即關(guān)鍵詞庫中關(guān)鍵詞數(shù)的增加),模型的預(yù)測效果越好。
五、 結(jié)論及展望
本文采用了一種新的網(wǎng)絡(luò)搜索數(shù)據(jù)的處理方法進(jìn)行美國失業(yè)率預(yù)測。在這種處理方法中,本文根據(jù)Google推薦的熱門相關(guān)關(guān)鍵詞構(gòu)成關(guān)鍵詞庫,進(jìn)而利用改進(jìn)的逐步回歸的方法合成搜索綜合指數(shù)。從關(guān)鍵詞的選擇上來看,相較于技術(shù)選詞法、經(jīng)驗(yàn)選詞法及范圍選詞法,本文中的選詞方法更為簡單和客觀。從合成搜索綜合指數(shù)的方法上來看,這種合成方法使得解釋變量和被解釋變量之間的皮爾遜相關(guān)系數(shù)非常高,平穩(wěn)性也高。從實(shí)驗(yàn)結(jié)果來看,根據(jù)這種處理方法建立的模型和預(yù)測的效果都非常好,三個(gè)模型的預(yù)測平均絕對百分誤差MAPE分別為1.20%、0.89%和0.57%,均方根誤差RMSE分別為4.82、4.73和2.69。綜上,這種對網(wǎng)絡(luò)搜索數(shù)據(jù)進(jìn)行處理和預(yù)測研究的方法能夠顯著有效地提高失業(yè)率預(yù)測的準(zhǔn)確性。
目前,基于網(wǎng)絡(luò)搜索數(shù)據(jù)進(jìn)行經(jīng)濟(jì)和社會(huì)行為預(yù)測的研究都是關(guān)于應(yīng)用方面的研究。對于網(wǎng)絡(luò)搜索數(shù)據(jù)和經(jīng)濟(jì)與社會(huì)行為方面的內(nèi)在機(jī)理進(jìn)行探討的文章不多,尚未形成系統(tǒng)的理論框架。在利用網(wǎng)絡(luò)搜索數(shù)據(jù)進(jìn)行失業(yè)率預(yù)測方面,處于經(jīng)濟(jì)的不同時(shí)期,人們進(jìn)行搜索的行為模式是否會(huì)發(fā)生變化?網(wǎng)絡(luò)搜索數(shù)據(jù)與傳統(tǒng)的市場數(shù)據(jù)結(jié)合進(jìn)行預(yù)測是否能取得更好的預(yù)測效果?此外,在所有采用搜索數(shù)據(jù)進(jìn)行研究的相關(guān)文章中,搜索數(shù)據(jù)大部分都來源于Google,而在一些發(fā)展中國家,Google搜索引擎的市場份額較小,如何利用當(dāng)?shù)刂髁魉阉饕嫒绨俣鹊乃阉鲾?shù)據(jù)進(jìn)行經(jīng)濟(jì)和社會(huì)問題研究?以及基于這些數(shù)據(jù)進(jìn)行的研究是否可以和基于Google的搜索數(shù)據(jù)進(jìn)行的研究一樣有效?這些問題,都是我們下一步的研究的內(nèi)容與重點(diǎn)。
參考文獻(xiàn):
1. Ginsberg, Mohebbi, Patel, Brammer, Smolinski and Brilliant, Detecting influenza epidemics using search engine query data, Nature,2009,(457):1012-1014.
2.N Askitas, and KF Zimmermann, Google Econometrics and Unemployment Forecasting.Applied Economics Quarterly,2009,55(2):107-120.
3. H Choi, H Varian, Predicting the Present with Google Trends, Technical Report, Google Inc,2009.
4. 劉穎,呂本富,彭賡.互聯(lián)網(wǎng)搜索數(shù)據(jù)預(yù)處理方法及其在股市分析中的應(yīng)用.情報(bào)學(xué)報(bào),2011,10(10):1028-1036.
作者簡介:彭賡,中國科學(xué)院大學(xué)管理學(xué)博士,中國科學(xué)院大學(xué)管理學(xué)院副教授;蘇亞軍,中國科學(xué)院大學(xué)管理學(xué)院碩士生;李娜,中國科學(xué)院大學(xué)管理學(xué)院碩士生。