米哈埃拉·西米歐奈斯庫 克勞斯·F·茲姆曼
大數(shù)據(jù)與失業(yè)分析*
米哈埃拉·西米歐奈斯庫 克勞斯·F·茲姆曼
互聯(lián)網(wǎng)數(shù)據(jù)或者說“大”數(shù)據(jù),正被越來越多地用來及時評估個人、家庭、企業(yè)和公共機構(gòu)的相關(guān)活動。信息集涵蓋大量的觀測值,并可以容納靈活的概念形態(tài)及實驗設(shè)置。因此,對于研究廣泛的人力資源議題,如預(yù)報、現(xiàn)報和確定衛(wèi)生及福利問題,把握個人生活方方面面的匹配過程,以及在使用傳統(tǒng)數(shù)據(jù)評估存在缺陷的復(fù)雜問題中,互聯(lián)網(wǎng)數(shù)據(jù)極其有用。對于多數(shù)國家而言,互聯(lián)網(wǎng)數(shù)據(jù)能夠改進(jìn)失業(yè)模型和失業(yè)預(yù)測分析。不過,預(yù)測的準(zhǔn)確度還要取決于一個國家的互聯(lián)網(wǎng)普及率、互聯(lián)網(wǎng)用戶的年齡結(jié)構(gòu),以及所建構(gòu)的互聯(lián)網(wǎng)變量的穩(wěn)定性。
大數(shù)據(jù);失業(yè);互聯(lián)網(wǎng);谷歌;互聯(lián)網(wǎng)普及率
互聯(lián)網(wǎng)數(shù)據(jù),特別是谷歌網(wǎng)站上的檢索行為數(shù)據(jù),已被不同領(lǐng)域的研究者用于對不同變量的即時預(yù)報、預(yù)測或分析。例如,對經(jīng)濟(jì)學(xué)家和決策者來說,及時了解宏觀經(jīng)濟(jì)指標(biāo)的真實狀況至關(guān)重要。然而,在多數(shù)情況下,這些重要信息只能由國家統(tǒng)計部門發(fā)布,不僅具有一定的滯后性,有時還被校正過。2008年末爆發(fā)經(jīng)濟(jì)危機期間,關(guān)于經(jīng)濟(jì)受創(chuàng)程度的官方數(shù)據(jù)不能提供有效信息。相比之下,互聯(lián)網(wǎng)數(shù)據(jù)不僅能做出即時預(yù)報,而且還可以為分析個人、企業(yè)和機構(gòu)行為提供潛在有效的數(shù)據(jù)。
本文旨在考察互聯(lián)網(wǎng)搜索數(shù)據(jù)在各個領(lǐng)域,特別是在對不同國家的失業(yè)狀況進(jìn)行建模方面是否有用。針對一些發(fā)達(dá)國家的經(jīng)驗研究已經(jīng)證實了大數(shù)據(jù)對于失業(yè)率預(yù)測及建模的有效性。
數(shù)字革命標(biāo)志著從模擬和機械電子技術(shù)向數(shù)字電子技術(shù)的演變,代表著信息時代的到來。數(shù)字邏輯電路及關(guān)聯(lián)技術(shù)(互聯(lián)網(wǎng)、計算機、數(shù)字移動電話)的大量生產(chǎn)和廣泛應(yīng)用是數(shù)字革命的主要支柱。為了建成一個數(shù)字驅(qū)動經(jīng)濟(jì)和數(shù)字驅(qū)動社會,網(wǎng)絡(luò)計算正越來越多地融入我們的日常生活。[1]
生活的方方面面均可記錄在案。個人和企業(yè)的一舉一動都在互聯(lián)網(wǎng)上呈現(xiàn),這能夠反映市場經(jīng)濟(jì)的完整畫面,以及嵌入大數(shù)據(jù)云里的社會生活全景。意識到這些數(shù)據(jù)蘊含著巨大研究潛力的社會科學(xué)家可以利用這些信息資源。歷史數(shù)據(jù)可以重復(fù)分析,以便不斷更新對某種現(xiàn)象或進(jìn)程的看法。利用互聯(lián)網(wǎng),在問題提出之前就能給出答案,這意味著研究者可以考慮新的研究策略和新穎的調(diào)查設(shè)計。
各種產(chǎn)品和服務(wù)的在線市場發(fā)展迅速,其中受到特別關(guān)注的是就業(yè)市場。社交媒體喜歡這一現(xiàn)象,它們擁有關(guān)于個人行為及偏好的大量數(shù)據(jù)。[2]由于技術(shù)嵌入了日常生活,社會成分正朝新的方向飛快發(fā)展。數(shù)字技術(shù)、信息經(jīng)濟(jì)學(xué)和通信技術(shù)的最新進(jìn)展,顯示了宏觀與微觀意義上的“第二經(jīng)濟(jì)”(second economy)的重要性。[3]第二經(jīng)濟(jì)是數(shù)字時代的核心,它在物質(zhì)世界中安置了一個神經(jīng)系統(tǒng)。在美國,第二經(jīng)濟(jì)的規(guī)模將很快超過實體經(jīng)濟(jì)。
第二經(jīng)濟(jì)中利用率最高的部分是互聯(lián)網(wǎng),社交媒體就是在互聯(lián)網(wǎng)上運作的。時下有許多非常流行的產(chǎn)品,像Google+,F(xiàn)acebook,LinkedIn,Ywitter或YouTube。來自第二經(jīng)濟(jì)、微型化技術(shù)、社交媒體和互聯(lián)網(wǎng)的數(shù)據(jù),能夠?qū)俜浇y(tǒng)計數(shù)據(jù)形成補充。[4]對于那些研究者感興趣的、被大量訪問的關(guān)鍵詞,通過谷歌,就可以獲得關(guān)于它們的實時、高頻、集總數(shù)據(jù)。[5]但是,谷歌并沒有對這些數(shù)據(jù)的閾值做出說明。
盡管經(jīng)濟(jì)學(xué)研究方法取得了長足的進(jìn)步,但它在測量上仍存在缺陷,許多指標(biāo)要么是剛確定下來,要么是經(jīng)常修改。在此背景下,互聯(lián)網(wǎng)檢索數(shù)據(jù)即使存在局限性,也仍然代表著一個有意義的替代選項,具有巨大的潛力。對分析和預(yù)測失業(yè)而言,谷歌檢索數(shù)據(jù)非常有用。
在本文第二部分,我們會從總體上討論一下互聯(lián)網(wǎng)活躍數(shù)據(jù)。第三部分則集中探討用于失業(yè)率建模的互聯(lián)網(wǎng)數(shù)據(jù),此處將從討論阿斯吉塔斯(N.Askitas)和茲姆曼(K.F.Zimmermann)的寶貴經(jīng)驗[6]開始。第四部分為本文結(jié)論。
在20世紀(jì)80年代互聯(lián)網(wǎng)興起之時,社會科學(xué)研究者認(rèn)為互聯(lián)網(wǎng)為通過在線調(diào)查或其他方法收集數(shù)據(jù)提供了良好的環(huán)境,其優(yōu)勢在于價格和速度。到了90年代,互聯(lián)網(wǎng)蓬勃發(fā)展,成為人們?nèi)粘I畹囊徊糠?,因為它有這樣的好處:人們可以通過電子郵件和其他設(shè)備進(jìn)行快速的溝通,可以上網(wǎng)沖浪或搜索特定的答案。[7]進(jìn)入21世紀(jì)以來,在網(wǎng)絡(luò)技術(shù)發(fā)展的同時,各種技巧也更加完善。人們對互聯(lián)網(wǎng)的使用越來越多,互聯(lián)網(wǎng)產(chǎn)生了大量的數(shù)據(jù)。一開始,人們甚至不知道他們的數(shù)據(jù)被收集和存儲了。傳統(tǒng)調(diào)查在收集數(shù)據(jù)時需要取得調(diào)查對象的同意,與此不同的是,現(xiàn)在人們在家庭隱私空間或在辦公室的行為和偏好都被觀察研究了。隨著谷歌進(jìn)軍市場領(lǐng)域,各種個人信息都被傳播出去。除谷歌之外,流行的互聯(lián)網(wǎng)數(shù)據(jù)源還有Facebook, Wikipedia, LinkedIn, Twitter等。
康斯坦特(A.Constant)、茲姆曼[8]及阿斯吉塔斯和茲姆曼[9]最早發(fā)表了研究谷歌活躍數(shù)據(jù)是否對分析社會議題有用的研究論文,這些議題包括美國總統(tǒng)大選、失業(yè)、經(jīng)濟(jì)大衰退等。戈艾爾(S.Goel)等人針對互聯(lián)網(wǎng)活躍數(shù)據(jù)做了一個大型調(diào)查,描述了大數(shù)據(jù)的強項和弱點所在。[10]互聯(lián)網(wǎng)數(shù)據(jù)有很多優(yōu)點:它們是數(shù)字生成的,便于存儲、組織和處理。它們有地理標(biāo)記和時間戳,可以進(jìn)行橫截面的與橫向的精準(zhǔn)測量。[11]運用互聯(lián)網(wǎng)數(shù)據(jù),能夠為提高社會福祉做出更加明智、及時、有效的決策,特別是在危機時期。在此背景下,理論與經(jīng)驗數(shù)據(jù)的關(guān)系就改變了。大數(shù)據(jù)涉及大量的觀測值,允許采取靈活的實驗設(shè)置和概念形態(tài)。搜索活動數(shù)據(jù)使研究者能在不同的時空背景下進(jìn)行分析,有利于跨學(xué)科研究,并能提供間接的面板調(diào)查數(shù)據(jù)。在經(jīng)濟(jì)危機期間,由于互聯(lián)網(wǎng)數(shù)據(jù)是以高頻率且近乎實時提供的,因此經(jīng)濟(jì)受破壞的趨勢能夠及時被察覺。
互聯(lián)網(wǎng)數(shù)據(jù)的弱點,可能與它們只能以集總數(shù)據(jù)的形式提供有關(guān)。[12]其方法如何,沒有完備的記錄?;ヂ?lián)網(wǎng)活動是通過選定的搜索關(guān)鍵詞來反映的,然而,這些關(guān)鍵詞合適與否,可能隨著區(qū)域和時間段的不同而有差異。谷歌網(wǎng)頁排名會影響供求。地理位置是用IP地址來界定的,但這些地址只在國家層面才能獲得。一些小的領(lǐng)域還需改進(jìn)。此外,因為互聯(lián)網(wǎng)的使用可能有偏向性,那么即便樣本是基于大量互聯(lián)網(wǎng)活動得出的,樣本也未必能代表整個群體。例如,麥克拉倫(N.McLaren)和珊布格(R.Shanbhogue)的研究表明,互聯(lián)網(wǎng)的使用會因收入和年齡的差距而有所不同。[13]
鑒于不同個體、不同國家應(yīng)對新技術(shù)浪潮的方式不同,選擇性偏差是個重要問題。[14]互聯(lián)網(wǎng)普及率是指一個國家全部人口中互聯(lián)網(wǎng)用戶所占的比例。有的國家互聯(lián)網(wǎng)普及率高達(dá)90%以上,但在另外一些國家這個比率要小得多。2016年6月30日更新的歐盟互聯(lián)網(wǎng)統(tǒng)計數(shù)據(jù)顯示,歐盟的互聯(lián)網(wǎng)普及率為80.1%。2016年,德國的互聯(lián)網(wǎng)普及率是89%,英國是91.6%,丹麥?zhǔn)?5.9%,挪威是96.3%,而美國僅為88.1%。[15]即使在互聯(lián)網(wǎng)高度普及的國家,也不是人人都使用社交媒體或智能手機,而這會導(dǎo)致選擇性偏差。
將來人們會越來越多地通過(客觀的)嵌入式傳感器來獲取新的數(shù)據(jù),這能提供關(guān)于個人生命體征、位置、人類活動與經(jīng)濟(jì)活動的信息。如此,我們的經(jīng)濟(jì)會越來越依賴數(shù)據(jù),而研究機遇也會增加。就像阿斯吉塔斯和茲姆曼指出的那樣,新技術(shù)及其組合將會產(chǎn)生新的數(shù)據(jù)并帶來新的挑戰(zhàn)。[16]
調(diào)查者在樣本容量、樣本規(guī)模、采樣頻率上存在的地理差異因互聯(lián)網(wǎng)數(shù)據(jù)得以彌補,而且使用在線調(diào)查或電子郵件不會產(chǎn)生邊際成本。[17]作為一個調(diào)查平臺,互聯(lián)網(wǎng)既帶來了方法論上的新挑戰(zhàn),同時也具有巨大的潛力。由于互聯(lián)網(wǎng)無處不在,所以既可以獲得代表性樣本,也可以獲得隨機樣本。在充分占有數(shù)據(jù)的情況下,選擇性偏差就被消除了。因為在線用戶的特征非常接近于總?cè)丝冢虼?,樣本就有了代表性,而且還是隨機的。這樣一來,由于擁有無限的數(shù)據(jù),抽樣就不再是必需的了。在根據(jù)互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行的大規(guī)模調(diào)查方面,一個著名范例是工資指標(biāo)基金會(Wage Indicator Foundation)進(jìn)行的工資指標(biāo)調(diào)查。*參見http://www.wageindicator.org/main/Wageindicatorfoundation/researchlab/wageindicator-survey-and-data.基于個人報告形成的工資調(diào)查有20多種語言的版本,涉及60多個國家。統(tǒng)一化的工資數(shù)據(jù)對大量的樣本國開放。選擇性偏差的問題雖然存在,但進(jìn)一步的研究正在試圖彌補這個缺陷。
用互聯(lián)網(wǎng)進(jìn)行調(diào)查成為數(shù)據(jù)收集的重要渠道。信息和通信技術(shù)與互聯(lián)網(wǎng)的優(yōu)勢在于,它們能夠減少幾乎所有市場上匹配工作中的搜索摩擦。匹配不僅在現(xiàn)實生活中極其重要,對于經(jīng)濟(jì)學(xué)來說也是如此,因為匹配問題及最優(yōu)解是其研究對象和目標(biāo),例如,將長途旅客和飛機的座位相匹配,或者把游客和出租車相匹配。其他的例子還有在就業(yè)市場[18]和婚姻市場[19]上對個人進(jìn)行配對,這也凸顯了互聯(lián)網(wǎng)在減少搜索摩擦上的優(yōu)勢。而這還可以帶來新的商業(yè)機會,例如招聘服務(wù)和網(wǎng)上相親服務(wù)。這種針對不同背景下經(jīng)濟(jì)行為的新的數(shù)據(jù)潛力,有利于我們富有成效地重新思考那些久拖未決的問題。實際上,互聯(lián)網(wǎng)還使不同的勞動力市場被取代。例如,如果有人需要醫(yī)生、律師和裝配工等的幫助,他/她只要輸入相應(yīng)的關(guān)鍵詞,就能在很短的時間內(nèi)從網(wǎng)絡(luò)上得到數(shù)百個選項。另外,許多雇主用互聯(lián)網(wǎng)(比如通過LinkedIn)來招聘雇員。2008—2010年的經(jīng)濟(jì)大衰退也證實了互聯(lián)網(wǎng)的巨大潛力,因為此時人們都集中到網(wǎng)上去找工作了。
互聯(lián)網(wǎng)搜索引擎市場將文獻(xiàn)的供給與需求進(jìn)行了匹配。將信息的需求與包含此類信息的文獻(xiàn)的供給相關(guān)聯(lián)。因此,互聯(lián)網(wǎng)可以及時反映信息需求的整體狀況,而我們也能就此了解檢索此類信息的個人的狀況。Google Trends和谷歌的商業(yè)模式為我們展現(xiàn)了這一需求的全球圖景。阿斯吉塔斯和茲姆曼的研究就遵循了這一思路,突出了Google Trends數(shù)據(jù)的應(yīng)用,而阿斯吉塔斯和茲姆曼則強調(diào)了技術(shù)數(shù)據(jù)的應(yīng)用。[20]
Google Trends這一數(shù)據(jù)供應(yīng)工具在2008年夏天開始投入使用,目的是公布對某些問題的相對網(wǎng)絡(luò)檢索量,其中用戶可以自由界定針對這些問題的關(guān)鍵詞。Google Trends會根據(jù)特定地區(qū)的用戶在谷歌上查詢的問題的多少,給出一個時間序列指數(shù)。這個查詢指數(shù)的計算方式為:某個地區(qū)對特定關(guān)鍵詞的查詢總量,除以該地區(qū)某個時間段內(nèi)查詢問題的總量。該時期最大的查詢份額規(guī)定為100,起始階段的查詢份額為0。[21]
阿斯吉塔斯對Google Trends的優(yōu)點和缺陷有精當(dāng)?shù)拿枋觥22]Google Trends團(tuán)隊用“會話分析”(sessionization)這一術(shù)語來表示搜索數(shù)據(jù)都經(jīng)過了標(biāo)準(zhǔn)化處理,減少了由于打字錯誤、草率的重復(fù)、改寫和其他行為導(dǎo)致的數(shù)據(jù)噪音。搜索會話可以分布在基于IP地址——會話正肇始于這些IP地址——的不同地區(qū)。其科學(xué)潛力在于,用戶有能力界定相關(guān)變量集,并通過界定及合并關(guān)鍵詞建構(gòu)搜索內(nèi)容。因此,我們有可能輕輕松松地檢視不同概念帶來的不同結(jié)果。
對經(jīng)濟(jì)學(xué)家而言,一個重要議題是怎樣記錄和評估互聯(lián)網(wǎng)上的交易行為。需要謹(jǐn)記保護(hù)隱私是個人權(quán)利,要解決數(shù)據(jù)所有權(quán)、數(shù)據(jù)托管和數(shù)據(jù)隱私的問題。[23]應(yīng)該完善數(shù)據(jù)供應(yīng)的制度結(jié)構(gòu),以避免少數(shù)公司壟斷數(shù)據(jù)。在多數(shù)情況下,數(shù)據(jù)并非是大范圍開放的。另外,也有許多關(guān)于政府如何使用公民數(shù)據(jù)的問題。互聯(lián)網(wǎng)數(shù)據(jù)也能用于經(jīng)濟(jì)決策。然而,銀行可以實時監(jiān)測客戶的交易行為,客戶的數(shù)據(jù)保護(hù)就難以保證了。麥克拉倫和珊布格解釋了國家銀行可以怎樣通過網(wǎng)絡(luò)搜索數(shù)據(jù)進(jìn)行經(jīng)濟(jì)即時預(yù)報。[24]
互聯(lián)網(wǎng)數(shù)據(jù)可以用于解決很多領(lǐng)域的人力資源問題,包括:即時預(yù)報(比起傳統(tǒng)的數(shù)據(jù)搜集渠道,相關(guān)信息能更快獲得),如麥克拉倫和珊布格[25]、阿斯吉塔斯和茲姆曼[26]、加黑艾爾-斯沃洛(Carrière-Swallow)和拉比(F.Labbé)[27]以及陳(T.Chen)等的研究[28];預(yù)測(比如預(yù)測失業(yè)率、商品消費量、游客到訪數(shù)和節(jié)日賽事贏家),如阿斯吉塔斯和茲姆曼[29]、富森(S.Vosen)和施密特(T.Schmidt)[30]、蔡(H.Choi)和范里安(H.Varian)[31]、阿桃拉(C.Artola)等[32]的研究;發(fā)現(xiàn)衛(wèi)生與福利問題(抑郁、流感、經(jīng)濟(jì)危機時期的貧困),如金斯伯格(J.Ginsberg)等[33]、阿爾伯特·楊(A.C.Yang)等[34]、泰福特(N.Tefft)[35]、拉澤(D.Lazer)等[36]、阿斯吉塔斯和茲姆曼的研究[37];記錄不同生活情境中的匹配過程(例如尋找伴侶、找工作、購物),如阿斯吉塔斯和茲姆曼[38]、庫恩(P.Kuhn)和曼蘇爾(H.Mansour)[39]、庫恩[40]、Kureková 等人[41]的研究;在傳統(tǒng)數(shù)據(jù)存在缺陷的情況下對復(fù)雜系統(tǒng)進(jìn)行評估(如發(fā)展中國家的集體談判協(xié)議、跨國移民),如黑茨(G.J.Hitsch)等[42]、瑞普斯(U.D.Reips)和布發(fā)迪(L.E.Buffardi)[43]、比拉里(F.Billari)等[44]、比薩姆斯卡(J.Besamusca)和提登思(K.Tijdens)[45],以及白樓(A.Bellou)[46]的研究。
在多數(shù)情況下,宏觀經(jīng)濟(jì)時間序列數(shù)據(jù)的發(fā)布都相當(dāng)滯后,而且可能會遭到各種改動。同樣,失業(yè)數(shù)據(jù)的發(fā)布也會滯后。因此,對實時掌握失業(yè)數(shù)據(jù)動態(tài)的需求日益強烈。[47]
歐盟委員會要求歐盟國家提供用于經(jīng)濟(jì)分析的大量數(shù)據(jù)。這些數(shù)據(jù)是從許多基于普查和抽樣的大型調(diào)查中獲得的。2005年8月,歐盟委員會關(guān)于短期商業(yè)數(shù)據(jù)統(tǒng)計的規(guī)定中對此有明確要求,這與歐洲央行和歐洲統(tǒng)計局對歐洲貨幣聯(lián)盟統(tǒng)計要求行動計劃的發(fā)布相呼應(yīng),并且得到了歐盟成員國統(tǒng)計機構(gòu)的支持。歐盟經(jīng)濟(jì)體短期經(jīng)濟(jì)分析所需的重要指標(biāo)在創(chuàng)制和傳播階段要花費很長時間,歐盟現(xiàn)在之所以對數(shù)據(jù)統(tǒng)計提出要求,主要就是為了縮短這個時長。[48]
由于近期的經(jīng)濟(jì)金融危機,經(jīng)濟(jì)大幅下滑,失業(yè)這個宏觀經(jīng)濟(jì)指標(biāo)就成了大眾和研究者都特別關(guān)注的對象。
經(jīng)濟(jì)大衰退期間,人們需要關(guān)于失業(yè)的短期數(shù)據(jù),但卻找不到。阿斯吉塔斯和茲姆曼于2009年開創(chuàng)性地指出,德國的月均失業(yè)率和特定的谷歌檢索關(guān)鍵詞高度相關(guān)。[49]根據(jù)觀察到的結(jié)構(gòu),他們預(yù)測了在即將來臨的大衰退之復(fù)雜變幻的情況下,失業(yè)狀況究竟如何。阿斯吉塔斯和茲姆曼采用時間序列數(shù)據(jù)的格蘭杰因果檢驗方法,通過其他相關(guān)變量的波動,對德國的月均失業(yè)率做出解釋。他們還采用2004年1月至2009年4月未經(jīng)季節(jié)性調(diào)整的數(shù)據(jù)建構(gòu)了誤差修正模型。他們嘗試了不同的檢索關(guān)鍵詞,例如“unemployment rate”(失業(yè)率)、“unemployment office or agency”(失業(yè)救濟(jì)辦公室/機構(gòu))、“most popular search engines in Germany”(德國最受歡迎的搜索引擎)和“personnel consultant”(人事顧問)。
在另一項研究中,阿斯吉塔斯和茲姆曼改進(jìn)了關(guān)鍵詞,對更新后的模型進(jìn)行了重新估計,來研究失業(yè)分析及預(yù)測的質(zhì)量究竟如何,并把它和主要的競爭性勞動力市場指標(biāo)做了比較。[50]我們在這里簡要概括一下這種方法,并對該研究策略的步驟和主要貢獻(xiàn)做介紹。其核心回歸方程是著名的誤差修正模型(Y代表失業(yè)率,X是指標(biāo)矢量):
(1)
其中,ΔYt=Yt-Yt-12,ΔXt=Xt-Xt-12,Δ為滯后12期的差分項,t=1,2,....,n。
互聯(lián)網(wǎng)活動指標(biāo)或說檢索關(guān)鍵詞都是和“l(fā)abour office”(勞動局)、“short-term work”(短期工)、“jobsearch” (找工作)相關(guān)的。相關(guān)技術(shù)細(xì)節(jié)可見阿斯吉塔斯和茲姆曼使用經(jīng)濟(jì)大衰退初期德國數(shù)據(jù)所做的研究。[51]表1概括了基于最小二乘法(OLS)的估計結(jié)果,還包括了校正決定系數(shù)(R2)、貝葉斯信息準(zhǔn)則(BIC)、平均絕對誤差(MAE)等評估手段。從前三行可以看到,互聯(lián)網(wǎng)指標(biāo)與實際失業(yè)率高度相關(guān),其中同時包含三個指標(biāo)的模型表現(xiàn)最佳(模型預(yù)測2)。該模型中R2等于0.943,估計系數(shù)都呈現(xiàn)出統(tǒng)計顯著性,正負(fù)號表明指標(biāo)對失業(yè)率影響的方向,即搜索工作減少了失業(yè),而搜索關(guān)于勞動局的信息以及通過短期工作獲取資金支持,與失業(yè)率上升有關(guān)。這些發(fā)現(xiàn)很能說明問題。
全球陸地不同物理類型降雨空間分異及其變化趨勢和波動特征研究(1979—2016年) 孔 鋒 孫 劭 王 品 等 (6) (76)
除了上述3個互聯(lián)網(wǎng)檢索的關(guān)鍵詞之外,還有兩個傳統(tǒng)的勞動力市場指標(biāo):Ifo-BB和DAX。其中,Ifo-BB是由位于慕尼黑的IFO經(jīng)濟(jì)研究院根據(jù)公司個體數(shù)據(jù)推出的一個知名的傳統(tǒng)勞動力市場指標(biāo),經(jīng)常作為基準(zhǔn)變量用于勞動力市場預(yù)測。DAX是德國股票市場指數(shù)。阿斯吉塔斯和茲姆曼已經(jīng)指出,滯后期為一年的DAX有同樣好的預(yù)測功能,而且與Ifo-BB高度相關(guān)。這兩個指標(biāo)都能很好地反映德國失業(yè)率。關(guān)于DAX,可參見表1第7行;關(guān)于Ifo-BB,參見第11行。不過,它們的表現(xiàn)卻遠(yuǎn)遜于第2行純粹的互聯(lián)網(wǎng)活動模型,這一模型使用了各類相關(guān)互聯(lián)網(wǎng)數(shù)據(jù)。但是,互聯(lián)網(wǎng)變量的預(yù)測質(zhì)量在吸納傳統(tǒng)變量后會有所提升,這也是事實。根據(jù)BIC結(jié)果(見表1),如果加上Ifo-BB,第2行(只涉及所有即三個互聯(lián)網(wǎng)變量)的BIC值可由28.8降至11.4(第9行);如果加上DAX,則可降至3.2(見第6行)。
表1 回歸模型與領(lǐng)先一步預(yù)測結(jié)果
注:改編自Askitas, N., and K.F.Zimmermann.“Googlemetrie und Arbeitsmarkt”.Wirtschaftsdienst, 2009, 89 (7): 495。數(shù)據(jù)來自Arbeitsamt.de、IFO經(jīng)濟(jì)研究院以及Google Insights。Ifo-BB:慕尼黑IFO經(jīng)濟(jì)研究院的就業(yè)指標(biāo)。DAX:德國股票市場指數(shù)。所用官方月均失業(yè)率數(shù)據(jù)未經(jīng)季節(jié)性調(diào)整,但是在模型中已通過滯后12期對季節(jié)性進(jìn)行了調(diào)整。要了解更多關(guān)于關(guān)鍵詞的信息,可參見阿斯吉塔斯和茲姆曼的論文。公式(1)的所有標(biāo)準(zhǔn)回歸模型涉及的數(shù)據(jù)都是2005年1月至2009年5月的月度數(shù)據(jù)。K代表變化,L指相關(guān)變量水平的12期滯后。+、-是估計系數(shù)的符號。*代表統(tǒng)計顯著性(*P<0.05,**P<0.01,***P<0.001)。領(lǐng)先一步預(yù)測涉及的是2008年3月至2009年6月這個時段。R2-a是校正決定系數(shù),BIC是貝葉斯信息準(zhǔn)則,MAE指平均絕對誤差。
從這一歷史個案可以看出,互聯(lián)網(wǎng)活躍數(shù)據(jù)確實蘊藏著有價值、有用且可用的信息。但是,我們需要在該項新技術(shù)的使用上積累更多經(jīng)驗,并且觀察新數(shù)據(jù)在多大程度上可以替代傳統(tǒng)信息來源。目前并不能想當(dāng)然地認(rèn)為我們能用互聯(lián)網(wǎng)數(shù)據(jù)取代傳統(tǒng)數(shù)據(jù)。
阿斯吉塔斯和茲姆曼用互聯(lián)網(wǎng)活躍數(shù)據(jù)對失業(yè)進(jìn)行建模的想法[52]也為其他國家的研究者所效仿。經(jīng)驗研究表明,在解釋失業(yè)方面,與經(jīng)濟(jì)周期指標(biāo)或傳統(tǒng)時間序列模型相比,谷歌或其他互聯(lián)網(wǎng)活躍數(shù)據(jù)能夠補充額外的有用信息。類似的研究,有關(guān)于英國[53]、法國[54]、以色列[55]、意大利[56]、挪威[57]、土耳其[58]、巴西[59]的失業(yè)率,以及失業(yè)率水平,如西班牙[60]和烏克蘭[61], 美國的失業(yè)救濟(jì)申請[62],關(guān)于谷歌和中國百度失業(yè)搜索指標(biāo)的研究[63]。根據(jù)格蘭杰因果檢驗,與失業(yè)相關(guān)的檢索指標(biāo)對于提高中國各種宏觀經(jīng)濟(jì)指標(biāo)的預(yù)測水平也有幫助。[64]
在谷歌活躍數(shù)據(jù)可用之前,艾特睿智(M.Ettredge)等人采用的是從WordTracker“排名前500關(guān)鍵詞報告”中提取的互聯(lián)網(wǎng)搜索引擎關(guān)鍵詞使用數(shù)據(jù)。[65]這一報告由金河聯(lián)合有限公司(Rivergold Associates Ltd)每周發(fā)布一次。它涵蓋了網(wǎng)絡(luò)上最大的元搜索引擎(meta-search engines)。作者采用了6個最可能為找工作的人使用的表述,并以此預(yù)測美國的失業(yè)率,它們分別是:jobs (工作)、job listings(招聘啟事)、namely job search(namely找工作)、resume(簡歷)、employment(就業(yè))和monster.com(巨人招聘網(wǎng)站)。
以上研究多數(shù)使用了大量的谷歌檢索數(shù)據(jù)。為減少數(shù)據(jù)維度,必須提取出一些主要成分。這些成分被作為解釋變量用于像ARMAX這樣的模型中。蔡和范里安在其研究中選擇了兩個指標(biāo):“welfare & unemployment”(福利與失業(yè))和“jobs”(工作)。[66]他們發(fā)現(xiàn),在美國,與失業(yè)、福利相關(guān)的檢索可以提升對早期失業(yè)救濟(jì)申請的預(yù)測質(zhì)量。達(dá)木瑞(F.D’Amuri)和馬庫斯 (J.Marcucci)在研究美國的情況時,只用了一個關(guān)鍵詞:“jobs”(工作)。他們發(fā)現(xiàn),谷歌指數(shù)(互聯(lián)網(wǎng)工作搜尋指標(biāo))在預(yù)測美國失業(yè)率方面是最好的領(lǐng)先指標(biāo)。[67]在研究德國的狀況時,阿斯吉塔斯和茲姆曼用到了四組關(guān)鍵詞,每組有一到八個詞,中間用“或”運算符相連。[68]對于西班牙的情況,維森特等人則通過在Google Trends上查詢“oferta de trabajo”(工作) 和“oferta de empleo”(工作機會)加以了解。[69]
對于意大利的情況,納卡拉拖(A.Naccarato)等人分析了勞動力調(diào)查公布的官方失業(yè)率與Google Trends對“offerte di lavoro”(工作機會)的查詢結(jié)果之間存在的協(xié)整關(guān)系。[70]在此前關(guān)于意大利的研究中,達(dá)木瑞和馬庫斯發(fā)現(xiàn),“offerte di lavoro”是意大利人工作搜尋時最常用的關(guān)鍵詞。[71]納卡拉拖等人的研究表明,谷歌檢索對于意大利失業(yè)率的即時預(yù)報很有用。[72]此前,弗蘭塞斯庫(D.A.Francesco)也同樣使用了關(guān)鍵詞“offerte di lavoro”,發(fā)現(xiàn)基于谷歌檢索數(shù)據(jù)的模型能夠完善對意大利失業(yè)率的樣本外預(yù)測。[73]
而且,柏瑞拉(N.Barreira)等人分析了谷歌搜索在更多西南部國家的有效性,其結(jié)論是Google Trends數(shù)據(jù)有助于提升對意大利、法國和葡萄牙失業(yè)狀況的分析,但西班牙卻是例外。[74]他們使用的關(guān)鍵詞和失業(yè)及失業(yè)救助有關(guān)。在研究意大利時,使用的關(guān)鍵詞有:“disoccupazione”(失業(yè))、“disoccupazioneordinaria”(失業(yè)救濟(jì)金)和“INPS disoccupazione”(INPS失業(yè)救助,INPS是意大利國家社會保障局)。在研究法國時,使用的關(guān)鍵詞有:“chomage”(失業(yè))、“indemnites de chomage”(失業(yè)津貼)、“allocations chomage”(失業(yè)補助)和“allocations de chomage”(失業(yè)救濟(jì)金)。在研究葡萄牙時,關(guān)鍵詞用的是“desemprego”(失業(yè))和“subsidiodesemprego”(失業(yè)補貼)。研究西班牙時,則是用到了“desempleo”(失業(yè))、“subsidio de desempleo”(失業(yè)津貼)和“prestaciondesempleo”(失業(yè)條款)。
麥克拉倫和珊布格利用自回歸模型,分析了英國官方失業(yè)率和一些檢索詞數(shù)據(jù)之間的關(guān)系,這些檢索詞包括:“unemployment”(失業(yè))、“jobs”(工作)、“unemployed”(下崗)、“JSA”(失業(yè)救濟(jì)金)、“Jobseeker’s Allowance”(失業(yè)救濟(jì)金)和“unemployment benefit”(失業(yè)福利)。作者證明,和既有調(diào)查相比,這些搜索數(shù)據(jù)包含有用的信息。JSA模型比只采用官方失業(yè)數(shù)據(jù)的基準(zhǔn)模型能更好地解釋失業(yè)問題。[75]
豐德爾(Y.Fondeur)和卡拉姆 (F.Karamé)建構(gòu)了經(jīng)過卡爾曼濾波器和最大似然估計方法處理過的不可觀察成分模型。通過這樣的模型,可以復(fù)原不可觀察成分,并估計未知參數(shù)。作者使用的變量是谷歌指數(shù),以及15~24歲之間法國申請失業(yè)救濟(jì)的人數(shù)。[76]
在轉(zhuǎn)型國家,互聯(lián)網(wǎng)應(yīng)用有限,識字率也低,西方模型就難以適用。對于烏克蘭來說,奧利克散德(B.Oleksandr)就沒能證實互聯(lián)網(wǎng)數(shù)據(jù)對解釋失業(yè)率有用。[77]不過,一旦互聯(lián)網(wǎng)在烏克蘭經(jīng)濟(jì)生活中發(fā)揮更加重要的作用,這種狀況就可能會發(fā)生變化?;蛘哌@也可能是由于沒找到成功的研究策略。要知道,隨著時間的推移,互聯(lián)網(wǎng)數(shù)據(jù)結(jié)構(gòu)的穩(wěn)定性對發(fā)達(dá)國家而言都可能是有局限性的。那么,在轉(zhuǎn)型國家和發(fā)展中國家遇到的挑戰(zhàn)就更大了。但是,對于傳統(tǒng)數(shù)據(jù)和模型來說,這些挑戰(zhàn)同樣存在。
帕夫利賽克(J.Pavlicek)和克里斯托法克 (L.Kristoufek)分析了2004年1月至2013年12月維謝格拉德集團(tuán)四國(Visegrad countries,即捷克共和國、匈牙利、波蘭和斯洛伐克)月均失業(yè)率和與工作相關(guān)的查詢之間的關(guān)系。[78]結(jié)果表明,谷歌搜索只在解釋捷克和匈牙利的失業(yè)率方面有用。這可能是因為捷克和匈牙利有很多人移居境外,對在國外找工作感興趣。波蘭和斯洛伐克的情況究竟如何,還有待研究。
同時,對于巴西這個新興經(jīng)濟(jì)體的情況,拉索(F.Lasso)和斯尼德斯and (S.Snijders)的研究發(fā)現(xiàn),谷歌檢索與失業(yè)之間高度相關(guān),但季節(jié)性模型的影響更大。[79]他們使用的關(guān)鍵詞是:“empregos”(工作)、“segurodesemprego”(失業(yè)保險)、“décimoterceirosalário”(第13個月工資)、“FGTS”(遣散費賠償基金)、“INSS”(國家社會保障局)、“job vacancies index”(就業(yè)機會指數(shù))、“unemployment and social benefits index”(失業(yè)和社會福利指數(shù))。在研究土耳其的情況時,查德威克和桑谷爾使用的關(guān)鍵詞是:“unemployment”(失業(yè))、“unemployment insurance”(失業(yè)保險)、“job announcements”(招聘啟事)、“l(fā)ooking for a job”(找工作)、“cv”(簡歷)、“career”(職業(yè))。在貝葉斯模型平均的框架下,作者發(fā)現(xiàn),谷歌檢索數(shù)據(jù)只對土耳其非農(nóng)業(yè)部門月均失業(yè)率的即時預(yù)報有效。其失業(yè)率官方數(shù)據(jù)來自家庭勞動力調(diào)查報告(Household Labor Survey),互聯(lián)網(wǎng)數(shù)據(jù)則是通過Google Insights for Search搜集的。
近年來,由于互聯(lián)網(wǎng)數(shù)據(jù)的可用性,研究者開始使用這些數(shù)據(jù)來分析或預(yù)測宏觀經(jīng)濟(jì)指標(biāo)。這可能不僅僅由于互聯(lián)網(wǎng)數(shù)據(jù)易得、豐富、經(jīng)濟(jì)、數(shù)字化,還可能因為互聯(lián)網(wǎng)已經(jīng)成為個人日常生活的一部分,能越來越多地反映現(xiàn)實行為趨勢。
對失業(yè)情況變化的估計,既有研究大多依賴官方渠道,或者可能并不總是可靠的調(diào)查報告。而且,在發(fā)展中國家,主管機構(gòu)常常出于各種原因而無法提供有價值的宏觀經(jīng)濟(jì)指標(biāo)評估,比如失業(yè)評估。多數(shù)關(guān)于失業(yè)即時預(yù)報的既有研究分析的是發(fā)達(dá)國家,如美國、英國、意大利、德國、芬蘭或比利時。少數(shù)研究涉及了公共機構(gòu)較弱的非西方國家,如維謝格拉德集團(tuán)四國、烏克蘭、土耳其和巴西。
本文分析了互聯(lián)網(wǎng)數(shù)據(jù)在不同領(lǐng)域的應(yīng)用,集中探討的是它們在失業(yè)建模上的應(yīng)用。本文提到的經(jīng)驗研究表明,互聯(lián)網(wǎng)數(shù)據(jù)應(yīng)用存在巨大的潛力,需要進(jìn)一步挖掘。對多數(shù)國家而言,互聯(lián)網(wǎng)數(shù)據(jù)能夠改進(jìn)失業(yè)模型和失業(yè)預(yù)測分析。不過,預(yù)測的準(zhǔn)確度還要取決于一個國家的互聯(lián)網(wǎng)普及率、互聯(lián)網(wǎng)用戶的年齡結(jié)構(gòu),以及所建構(gòu)的互聯(lián)網(wǎng)變量的穩(wěn)定性。
[1] Edelman, B.“Using Internet Data for Economic Research”.TheJournalofEconomicPerspectives, 2012, 26(2): 189-206.
[2] Askitas, N.“Social media: eine technologische und ?konomische Perspektive”.In Rogge, C.,and R.Karabasz(eds.).SocialMediaimUnternehmen-RuhmoderRuin.Wiesbaden:Springer Vieweg, 2014: 155-166.
[3] Arthur, W.B.“The Second Economy”.McKinseyQuarterly, 2011(4).
[4][23] Askitas, N., and K.F.Zimmernann.DetectingMortgageDelinquencies.IZA DP 5895, IZA, Bonn, 2011.
[5][6][9][11][29][38][49][52][68] Askitas, N., and K.F.Zimmermann.“Google Econometrics and Unemployment Forecasting”.AppliedEconomicsQuarterly, 2009, 55(2): 107-120.
[7][12][17][37] Askitas, N., and K.F.Zimmermann.“Health and Well-being in the Great Recession”.InternationalJournalofManpower, 2015, 36(1): 26-47.
[8] Constant, A., and K.F.Zimmermann.“Im Angesicht der Krise: US-Pr?sidentschaftswahlen in transnationaler Sicht”.DIWWochenbericht, 2008, 44: 688-701.
[10] Goel, S., Hofman, J.M., Lahaie, S., Pennock, D.M., and D.J.Watts.“Predicting Consumer Behavior with Web Search”.ProceedingsoftheNationalAcademyofSciences, 2010, 107(41): 17486-17490.
[13][24][25][53][75] McLaren, N., and R.Shanbhogue.“Using Internet Search Data as Economic Indicators”.BankofEnglandQuarterlyBulletin,2011(2).
[14][20] Zagheni, E., and I.Weber.“Demographic Research with Non-representative Internet Data”.InternationalJournalofManpower, 2015, 36(1): 13-25.
[15] European Union Internet Statistics.“Internet Usage in the European Union, 2016”.http://www.internetworldstats.com/stats 9.htm.
[16][26] Askitas, N., and K.F.Zimmermann.“Nowcasting Business Cycles Using Toll Data”.JournalofForecasting, 2013, 32(4): 299-306.
[18][40] Kuhn, P.J.“The Internet as a Labor Market Matchmaker”.IZAWorldofLabor, 2014,18(5): 1-10.
[19][42] Hitsch, G.J., Horta?su, A., and D.Ariely.“Matching and Sorting in Online Dating”.TheAmericanEconomicReview, 2010, 100(1): 130-163.
[21][31] Choi, H., and H.Varian.“Predicting the Present with Google Trends”.EconomicRecord, 2012, 88(s1): 2-9.
[22] Askitas, N.“Google Search Activity Data and Breaking Trends”.IZAWorldofLabor, 2015.
[27] Carrière-Swallow, Y., and F.Labbé.“Nowcasting with Google Trends in an Emerging Market”.JournalofForecasting, 2013, 32(4): 289-298.
[28] Chen, T., So, E.P.K., Wu, L., and I.K.M.Yan.“The 2007-2008 US Recession: What Did the Real-Time Google Trends Data Tell the United States?”.ContemporaryEconomicPolicy, 2015, 33(2): 395-403.
[30] Vosen, S., and T.Schmidt.“Forecasting Private Consumption: Survey-based Indicators vs.Google Trends”.JournalofForecasting, 2011, 30(6): 565-578.
[32] Artola, C., Pinto, F., and P.de Pedraza.“Can Internet Searches Forecast Tourism Inflows?”.InternationalJournalofManpower, 2015, 36(1): 103-116.
[33] Ginsberg, J., Mohebbi, M.H., Patel, R.S., Brammer, L., Smolinski, M.S., and L.Brilliant.“Detecting Influenza Epidemics Using Search Engine Query Data”.Nature, 2009, 457(7232): 1012-1014.
[34] Yang, A.C., Huang, N.E., Peng, C.K., and S.J.Tsai.“Do Seasons have an Influence on the Incidence of Depression? The Use of an Internet Search Engine Query Data as a Proxy of Human Affect”.PloSone, 2010, 5(10):e13728.
[35] Tefft, N.“Insights on Unemployment, Unemployment Insurance, and Mental Health”.JournalofHealthEconomics, 2011, 30(2): 258-264.
[36] Lazer, D., Kennedy, R., King, G., and A.Vespignani.“The Parable of Google Flu: Ttraps in Big Data Analysis”.Science, 2014, 343(6176): 1203-1205.
[39] Kuhn, P., and H.Mansour.“Is Internet Job Search still Ineffective?”.TheEconomicJournal, 2014, 124(581): 1213-1233.
[41] Kureková, L.M., Beblavy, M., and A.E.Thum.“Using Internet Data to Analyse the Labour Market: a Methodological Enquiry”.IZA Discussion Papers, 2014, No.8555
[43] Reips, U.D., and L.E.Buffardi.“Studying Migrants with the Help of the Internet: Methods from Psychology”.JournalofEthnicandMigrationStudies, 2012, 38(9): 1405-1424.
[44] Billari, F., D’Amuri, F., and J.Marcucci.“Forecasting Births Using Google”.Annual Meeting of the Population Association of America, PAA, New Orleans, LA, 2013.
[45] Besamusca, J., and K.Tijdens.“Comparing Collective Bargaining Agreements for Developing Countries”.InternationalJournalofManpower, 2015, 36(1): 86-102.
[46] Bellou, A.“The Impact of Internet Diffusion on Marriage Rates: Evidence from the Broadband Market”.JournalofPopulationEconomics, 2015, 28(2): 265-297.
[47][54][76] Fondeur, Y., and F.Karamé.“Can Google Data Help Predict French Youth Unemployment?”.EconomicModelling, 2013, 30: 117-125.
[48][70][72] Naccarato, A., Pierini, A., and S.Falorsi.“Using Google Trend Data to Predict the Italian Unemployment Rate (No.0203)”.Department of Economics-University Roma Tre, 2015.
[50][51] Askitas, N., and K.F.Zimmermann.“Googlemetrie und Arbeitsmarkt”.Wirtschaftsdienst, 2009, 89 (7): 489-496.
[55] Suhoy, T.QueryIndicesanda2008Downturn:IsraeliData.Bank of Israel, 2009.
[56] Naccarato, A., Pierini, A., and S.Falorsi.“Using Google Trend Data to Predict the Italian Unemployment Rate (No.0203)”.Department of Economics-University Roma Tre, 2015; D’Amuri, F.PredictingUnemploymentinShortSampleswithInternetJobSearchQueryData.University Library of Munich, Germany, 2009.
[57] Anvik, C., and K.Gjelstad.“Just Google It.Forecasting Norwegian Unemployment Figures with Web Queries”.Working Paper, 11, Center for Research in Economics and Management, Oslo, 2010.
[58] Chadwick, M.G., and G.Sengül.“Nowcasting the Unemployment Rate in Turkey: Let’s Ask Google”.CentralBankReview, 2015, 15(3): 15.
[59][79] Lasso, F., and S.Snijders.“The Power of Google Search Data; An Alternative Approach to the Measurement of Unemployment in Brazil”.StudentUndergraduateResearchE-journal, 2016(2).
[60][69] Vicente, M.R., López-Menéndez, A.J., and R.Pérez.“Forecasting Unemployment with Internet Search Data: Does it Help to Improve Predictions when Job Destruction Is Skyrocketing?”.TechnologicalForecastingandSocialChange, 2015, 92: 132-139.
[61][77] Oleksandr, B.CanGoogle’sSearchEnginebeUsedtoForecastUnemploymentinUkraine.Doctoral dissertation, Kyiv School of Economics, 2010.
[62] Choi, H., and H.Varian.“Predicting Initial Claims for Unemployment Benefits”.GoogleInc, 2009: 1-5; Choi, H., and H.Varian.“Predicting the Present with Google Trends”.EconomicRecord, 2012, 88(s1): 2-9.
[63][64] Su, Z.“Chinese Online Unemployment-related Searches and Macroeconomic Indicators”.FrontiersofEconomicsinChina, 2014, 9(4): 573-605.
[65] Ettredge, M., Gerdes, J., and G.Karuga.“Using Web-based Search Data to Predict Macroeconomic Statistics”.CommunicationsoftheACM, 2005, 48(11): 87-92.
[66] Choi, H., and H.Varian.“Predicting Initial Claims for Unemployment Benefits”.GoogleInc, 2009: 1-5.
[67] D’Amuri F.,and J.Marcucci.“Google It! Forecasting the US Unemployment Rate with a Google Job Search Index”.ISER Working Paper Series, No.2009-32, 2009.
[71] D’Amuri, F.PredictingUnemploymentinShortSampleswithInternetJobSearchQueryData.University Library of Munich, Germany, 2009; D’Amuri F., and J.Marcucci.“Google It! Forecasting the US Unemployment Rate with a Google Job Search Index”.ISER Working Paper Series, No.2009-32, 2009.
[73] Francesco, D.A.“Predicting Unemployment in Short Samples with Internet Job Search Query Data”.MPRAPaper,18403,2009: 1-18.
[74] Barreira, N., Godinho, P., and P.Melo.“Nowcasting Unemployment Rate and New Car Sales in South-western Europe with Google Trends”.NETNOMICS:EconomicResearchandElectronicNetworking, 2013, 14(3): 129-165.
[78] Pavlicek, J., and L.Kristoufek.“Nowcasting Unemployment Rates with Google Searches: Evidence from the Visegrad Group Countries”.PloSone, 2015, 10(5): e0127084.
BigDataandUnemploymentAnalysis
Mihaela Simionescu1,Klaus F. Zimmermann2
(1.Institute for Economic Forecasting, the Romanian Academy, Bucharest; Centre for Migration Studies, Prague Business School, Prague.2. Princeton University, Princeton;UNU-MERIT & Maastricht University)
Internet or “big” data are increasingly used in measuring the relevant activities of individual, households, firms and public agents in a timely way. The information set involves large number of observations and embraces flexible conceptual forms and experimental settings. Therefore, internet data are extremely useful to study a wide variety of human resource issues, including forecasting, nowcasting, detecting health issues and well-being, capturing the matching process in various parts of individual life, and measuring complex processes where traditional data have known deficits. This paper focuses on the analysis of unemployment by means of internet activity data, a literature starting with the seminal article of Askitas and Zimmermann. The article provides insights and a brief overview of the current state of research.
big data; unemployment; internet; Google; internet penetration rate
*本文中文翻譯:中央財經(jīng)大學(xué)中國互聯(lián)網(wǎng)經(jīng)濟(jì)研究院史珍珍、中國人民大學(xué)學(xué)術(shù)期刊社李存娜;校對:史珍珍。
米哈埃拉·西米歐奈斯庫:羅馬尼亞科學(xué)院經(jīng)濟(jì)預(yù)測研究所高級研究員,布拉格商學(xué)院移民研究中心教授,全球勞動研究中心研究員;克勞斯·F·茲姆曼:普林斯頓大學(xué)客座教授,荷蘭聯(lián)合國大學(xué)馬斯特里赫特技術(shù)與創(chuàng)新研究所人口發(fā)展與勞動經(jīng)濟(jì)中心主任,全球勞動研究中心主任
(責(zé)任編輯武京閩)