李倩 周迪 李麗
摘要:大數(shù)據(jù)時(shí)代的到來(lái),給政府統(tǒng)計(jì)工作帶來(lái)前所未有的歷史機(jī)遇和重要挑戰(zhàn),作為其中之一的消費(fèi)價(jià)格指數(shù)(CPI)編制可謂首當(dāng)其沖,實(shí)現(xiàn)CPI與時(shí)代接軌已成為當(dāng)務(wù)之急。本文主要研究利用網(wǎng)絡(luò)價(jià)格信息改進(jìn)CPI編制問題。在借鑒國(guó)際經(jīng)驗(yàn)的基礎(chǔ)上,首先是探討如何對(duì)網(wǎng)絡(luò)價(jià)格數(shù)據(jù)進(jìn)行收集與整理,包括零售商網(wǎng)站的選取、網(wǎng)絡(luò)價(jià)格數(shù)據(jù)收集方法、網(wǎng)絡(luò)價(jià)格數(shù)據(jù)的收集過(guò)程及數(shù)據(jù)整理;其次是分析基于網(wǎng)絡(luò)數(shù)據(jù)的價(jià)格指數(shù)編制面臨的挑戰(zhàn);接著介紹單獨(dú)基于網(wǎng)絡(luò)抓取數(shù)據(jù)和網(wǎng)絡(luò)數(shù)據(jù)納入傳統(tǒng)CPI統(tǒng)計(jì)范圍的價(jià)格指數(shù)編制方法;然后總結(jié)基于網(wǎng)絡(luò)數(shù)據(jù)的價(jià)格指數(shù)的相關(guān)實(shí)證結(jié)果;最后是研究展望。本文研究為我國(guó)國(guó)家統(tǒng)計(jì)局推進(jìn)網(wǎng)絡(luò)價(jià)格在CPI統(tǒng)計(jì)中的應(yīng)用提供一些參考。
關(guān)鍵詞:爬蟲技術(shù);網(wǎng)絡(luò)價(jià)格數(shù)據(jù);CPI;國(guó)際經(jīng)驗(yàn)
中圖分類號(hào):C813
一、引言
消費(fèi)價(jià)格指數(shù)(CPI)是衡量經(jīng)濟(jì)發(fā)展的重要指標(biāo),自1925年以來(lái),CPI編制的國(guó)家標(biāo)準(zhǔn)不斷更新。2004年國(guó)際組織編制的《消費(fèi)物價(jià)指數(shù)手冊(cè):理論與實(shí)踐》從理論上對(duì)CPI進(jìn)行了全面闡釋,成為各國(guó)統(tǒng)計(jì)機(jī)構(gòu)編制CPI的重要指導(dǎo)手冊(cè)。但從實(shí)際應(yīng)用過(guò)程看,還需針對(duì)不同國(guó)家的具體情況給出具有實(shí)務(wù)性的操作指導(dǎo),為此國(guó)際組織于2009年聯(lián)合頒布了《CPI編制實(shí)用指南》,該指南主要側(cè)重實(shí)際問題的解決,是對(duì)《消費(fèi)物價(jià)指數(shù)手冊(cè):理論與實(shí)踐》的補(bǔ)充。為了更好地滿足國(guó)民經(jīng)濟(jì)核算要求,中國(guó)國(guó)家統(tǒng)計(jì)局于2000年開始啟用與國(guó)際接軌的CPI編制方法,但中國(guó) CPI的編制要求與國(guó)際規(guī)范相比仍存在較大差距。
大數(shù)據(jù)時(shí)代的到來(lái),給政府統(tǒng)計(jì)工作帶來(lái)前所未有的歷史機(jī)遇和重要挑戰(zhàn),作為其中之一的CPI編制可謂首當(dāng)其沖,實(shí)現(xiàn)CPI與時(shí)代接軌已成為當(dāng)務(wù)之急。有些國(guó)家已將收集的網(wǎng)絡(luò)價(jià)格納入官方CPI統(tǒng)計(jì)中,如2014年瑞典CPI中家用電子設(shè)備有17%的價(jià)格數(shù)據(jù)來(lái)自于網(wǎng)絡(luò),服裝和鞋類為10%,圖書和媒體為38%,交通服務(wù)費(fèi)有很大比例來(lái)源于網(wǎng)絡(luò);美國(guó)CPI的9%是通過(guò)網(wǎng)絡(luò)價(jià)格計(jì)算的;加拿大CPI的5%~10%是通過(guò)手工收集網(wǎng)絡(luò)價(jià)格計(jì)算的;挪威CPI的18%是通過(guò)軟件收集網(wǎng)絡(luò)價(jià)格計(jì)算的;荷蘭CPI中納入了服裝類網(wǎng)絡(luò)價(jià)格等。此外,英國(guó)等國(guó)家網(wǎng)絡(luò)價(jià)格數(shù)據(jù)正處于試驗(yàn)研究階段,尚未正式納入 CPI 編制過(guò)程中,單獨(dú)編制基于網(wǎng)絡(luò)抓取數(shù)據(jù)的CPI,試驗(yàn)范圍僅限于部分商品。為推進(jìn)我國(guó)網(wǎng)絡(luò)價(jià)格在CPI統(tǒng)計(jì)中的應(yīng)用,2013年11月國(guó)家統(tǒng)計(jì)局與阿里巴巴、百度等11家企業(yè)簽署了大數(shù)據(jù)戰(zhàn)略合作框架協(xié)議;2015年1月國(guó)家統(tǒng)計(jì)局沈陽(yáng)調(diào)查總隊(duì)積極參與沈陽(yáng)地區(qū)電視機(jī)、洗衣機(jī)、電腦和手機(jī)商品網(wǎng)購(gòu)價(jià)格的調(diào)查及環(huán)比指數(shù)的測(cè)算試點(diǎn)工作;2015年以來(lái),北京調(diào)查總隊(duì)積極探索在CPI統(tǒng)計(jì)中通過(guò)人工定期瀏覽電商網(wǎng)站等方式開展網(wǎng)絡(luò)采價(jià);2015年浙江省針對(duì)電視機(jī)、空調(diào)、熱水器、電腦、手機(jī)等商品在蘇寧易購(gòu)、京東商城等網(wǎng)絡(luò)銷售平臺(tái)中進(jìn)行互聯(lián)網(wǎng)人工采價(jià)試點(diǎn)工作。越來(lái)越多的網(wǎng)絡(luò)公司或研究機(jī)構(gòu)利用網(wǎng)絡(luò)數(shù)據(jù)即時(shí)生產(chǎn)、發(fā)布類似的指數(shù),如麻省理工學(xué)院計(jì)算的每日網(wǎng)上價(jià)格指數(shù)、阿里研究院推出的阿里巴巴全網(wǎng)網(wǎng)購(gòu)價(jià)格指數(shù)(aSPI)和網(wǎng)購(gòu)核心商品價(jià)格指數(shù)(aSPI-core)、清華大學(xué)項(xiàng)目團(tuán)隊(duì)編制并實(shí)時(shí)發(fā)布的基于互聯(lián)網(wǎng)在線數(shù)據(jù)的居民消費(fèi)價(jià)格指數(shù)(iCPI)等。
我國(guó)統(tǒng)計(jì)學(xué)界較早關(guān)注的是如何利用掃描數(shù)據(jù)改進(jìn)CPI編制。關(guān)于利用網(wǎng)絡(luò)價(jià)格改進(jìn)CPI編制的研究還很少,只有少部分學(xué)者進(jìn)行了相關(guān)方面的研究,例如基于CPI統(tǒng)計(jì)方法的研究和基于CPI編制、公布及數(shù)據(jù)質(zhì)量的相關(guān)研究。在借鑒國(guó)際經(jīng)驗(yàn)的基礎(chǔ)上,本文的結(jié)構(gòu)安排如下:首先是網(wǎng)絡(luò)價(jià)格數(shù)據(jù)的收集與整理研究;其次是基于網(wǎng)絡(luò)數(shù)據(jù)的價(jià)格指數(shù)編制面臨的挑戰(zhàn)分析;然后是基于網(wǎng)絡(luò)數(shù)據(jù)的價(jià)格指數(shù)編制方法和相關(guān)實(shí)證結(jié)果梳理;最后是研究展望。本文的研究?jī)r(jià)值在于可以為我國(guó)國(guó)家統(tǒng)計(jì)局推進(jìn)網(wǎng)絡(luò)價(jià)格在CPI統(tǒng)計(jì)中的應(yīng)用提供參考。
二、網(wǎng)絡(luò)價(jià)格數(shù)據(jù)的收集與整理
零售商數(shù)量很多,既包括只在線上銷售的純?cè)诰€零售商(如eBay、亞馬遜等),又包括線上線下均銷售的多渠道零售商(如沃爾瑪、蘇寧易購(gòu)等)。雖然網(wǎng)上購(gòu)物越來(lái)越受歡迎,但網(wǎng)上購(gòu)物者并不一定代表典型的消費(fèi)者,同樣網(wǎng)絡(luò)上的價(jià)格可能與實(shí)體店價(jià)格不同。在收集網(wǎng)絡(luò)價(jià)格數(shù)據(jù)時(shí)怎么選取代表性零售商網(wǎng)站?怎么收集零售商網(wǎng)站上的網(wǎng)絡(luò)價(jià)格數(shù)據(jù)?對(duì)收集的網(wǎng)絡(luò)價(jià)格數(shù)據(jù)怎么整理?這是本部分主要討論的內(nèi)容。
(一)網(wǎng)絡(luò)價(jià)格數(shù)據(jù)的收集
1. 零售商網(wǎng)站的選取
通常從市場(chǎng)份額排名靠前的零售商網(wǎng)站上收集網(wǎng)絡(luò)價(jià)格數(shù)據(jù),這類零售商集中了絕大多數(shù)的零售交易,成為“代表性”的數(shù)據(jù)來(lái)源。Alberto Cavallo(2017)對(duì)10個(gè)國(guó)家56家大型多渠道零售商的網(wǎng)站和實(shí)體店同時(shí)收集的價(jià)格進(jìn)行大規(guī)模比較,選取的零售商都進(jìn)入了各自國(guó)家市場(chǎng)份額排名前20位的零售商名單。余芳東(2018)總結(jié)了利用網(wǎng)絡(luò)抓取數(shù)據(jù)編制CPI的實(shí)踐做法,其中荷蘭統(tǒng)計(jì)局選擇網(wǎng)上銷售量大、線上和線下均有交易的服裝零售商店網(wǎng)站作為抓取價(jià)格數(shù)據(jù)的目標(biāo)網(wǎng)站,挪威統(tǒng)計(jì)局每日從在挪威注冊(cè)且銷售規(guī)模大的4家在線商店上自動(dòng)抓取價(jià)格數(shù)據(jù)和相關(guān)信息,英國(guó)統(tǒng)計(jì)局每天從占市場(chǎng)銷售比重較大的3個(gè)超市網(wǎng)站(特易購(gòu)、森斯伯瑞、維特羅斯)抓取CPI采價(jià)目錄中食品、非酒精飲料、酒精飲料三類35種食品價(jià)格數(shù)據(jù)。
2. 網(wǎng)絡(luò)價(jià)格數(shù)據(jù)收集方法
大數(shù)據(jù)處理過(guò)程主要包括收集、預(yù)處理、存儲(chǔ)及管理、分析及挖掘、展現(xiàn)和應(yīng)用,目前大數(shù)據(jù)應(yīng)用領(lǐng)域比較典型的有商業(yè)智能、公共服務(wù)、政府決策等領(lǐng)域。
目前主要有兩種方式收集網(wǎng)絡(luò)價(jià)格信息,一種是人工收集網(wǎng)絡(luò)代表規(guī)格品價(jià)格,另一種是網(wǎng)絡(luò)爬蟲技術(shù)自動(dòng)收集海量?jī)r(jià)格數(shù)據(jù)。人工收集方式中調(diào)查員通常從網(wǎng)站上反復(fù)復(fù)制粘貼各代表規(guī)格品的價(jià)格相關(guān)信息,并截取圖片以保證收集信息的真實(shí)、可靠。這種收集方式較為煩瑣,費(fèi)時(shí)費(fèi)力,容易出現(xiàn)人為差錯(cuò)。
網(wǎng)絡(luò)爬蟲技術(shù)是指從網(wǎng)上自動(dòng)提取數(shù)據(jù)的技術(shù),包括腳本編寫方法和“點(diǎn)擊”方法。腳本編寫方法要求研究人員具有使用Python和PHP等語(yǔ)言編程的能力,網(wǎng)絡(luò)爬蟲程序根據(jù)預(yù)先定義的條件,系統(tǒng)地下載從起點(diǎn)到達(dá)的所有網(wǎng)絡(luò)資源。“點(diǎn)擊”方法(如?Import.io)需要較少的編程技能,用戶可以簡(jiǎn)單地用鼠標(biāo)告訴“爬蟲器”他們想從網(wǎng)頁(yè)上收集的信息,爬蟲程序遍歷網(wǎng)絡(luò)站點(diǎn),并從與我們?cè)O(shè)置的參數(shù)類似的頁(yè)面中提取信息,將數(shù)據(jù)結(jié)構(gòu)化為行和列,并存儲(chǔ)在云服務(wù)器上,以便下載和加載。然后將數(shù)據(jù)加載到合適的軟件中進(jìn)行分析、計(jì)算和存儲(chǔ),每天同一時(shí)間自動(dòng)收集數(shù)據(jù)。與開源腳本語(yǔ)言相比,這些工具是“閉源”的,能夠使用戶得到更好的支持,更加依賴提供工具的公司,靈活性較差。網(wǎng)絡(luò)爬蟲技術(shù)能及時(shí)的、低成本地收集大量數(shù)據(jù),但不如人工收集嚴(yán)格,很難控制收集的準(zhǔn)確性,面臨標(biāo)簽挑戰(zhàn)。從互聯(lián)網(wǎng)上自動(dòng)提取數(shù)據(jù)是為統(tǒng)計(jì)目的收集價(jià)格的新方法,為了利用這些數(shù)據(jù)有必要解決各種問題,首先是網(wǎng)站結(jié)構(gòu)變化頻繁問題,每個(gè)網(wǎng)站使用不同方式存儲(chǔ)信息,當(dāng)網(wǎng)站結(jié)構(gòu)發(fā)生變化時(shí)需要對(duì)相應(yīng)的網(wǎng)絡(luò)爬蟲重新編程;其次是從網(wǎng)站中頻繁提取大量數(shù)據(jù)的合法性問題,這取決于抓取的數(shù)據(jù)類型、訪問和復(fù)制的信息量、訪問對(duì)頁(yè)面所有者的系統(tǒng)和數(shù)據(jù)的負(fù)面影響程度;在某些情況下,網(wǎng)站管理員還可能在網(wǎng)站上設(shè)置屏蔽機(jī)制,以阻止使用網(wǎng)絡(luò)爬蟲。網(wǎng)絡(luò)爬蟲技術(shù)在解析頁(yè)面復(fù)雜、網(wǎng)站改版頻繁、網(wǎng)絡(luò)阻塞等情況下存在一定的局限性。
在價(jià)格收集過(guò)程中不同國(guó)家使用不同的爬蟲技術(shù),如德國(guó)和意大利將web抓取軟件(iMacros)與java編程結(jié)合起來(lái),輸入、選擇、刪除和存儲(chǔ)價(jià)格數(shù)據(jù);荷蘭使用r軟件建立自己的網(wǎng)頁(yè)抓取框架;英國(guó)使用Python軟件編寫自己的網(wǎng)頁(yè)抓取程序。
3. 網(wǎng)絡(luò)價(jià)格數(shù)據(jù)的收集過(guò)程
針對(duì)不同的研究目的,研究人員收集不同的網(wǎng)絡(luò)價(jià)格數(shù)據(jù)。
為了研究基于網(wǎng)絡(luò)抓取數(shù)據(jù)的CPI,Radzikowski和Mietanka(2016)主要從比價(jià)網(wǎng)站上收集了3000多個(gè)銷售點(diǎn)的價(jià)格數(shù)據(jù),有些數(shù)據(jù)是實(shí)時(shí)更新的,有些是定期更新的(至少每月更新一次),有些數(shù)據(jù)僅在某些商品價(jià)格發(fā)生變化時(shí)更新(如宣布新電價(jià)時(shí));從比價(jià)網(wǎng)站上收集的數(shù)據(jù)能確保在線CPI不受某一零售商及其定價(jià)策略的影響,考慮了動(dòng)態(tài)變化的市場(chǎng)環(huán)境,對(duì)于不在比價(jià)網(wǎng)站上列出的代表品,從其專門網(wǎng)站(如石油價(jià)格行業(yè)門戶網(wǎng)站)上收集。英國(guó)統(tǒng)計(jì)局從2014年6月到2015年6月每天上午5點(diǎn)從占市場(chǎng)銷售比重較大的特易購(gòu)、森斯伯瑞、維特羅斯3個(gè)超市網(wǎng)站上抓取食品、非酒精飲料、酒精飲料三類35種食品價(jià)格數(shù)據(jù),根據(jù)超市網(wǎng)站上展示的商品數(shù)量,每天收集約6500筆價(jià)格數(shù)據(jù),數(shù)據(jù)量遠(yuǎn)大于傳統(tǒng)的價(jià)格數(shù)據(jù)收集量。
為了比較網(wǎng)站價(jià)格與實(shí)體店價(jià)格的相似性,Alberto Cavallo(2017)從2014年12月至2016年3月在全球56家多渠道零售商共收集24000多個(gè)產(chǎn)品的38000個(gè)線上線下可匹配價(jià)格,數(shù)據(jù)覆蓋范圍主要集中在美國(guó),有17家零售商和大約40%的觀察結(jié)果,但在中國(guó)的數(shù)據(jù)只有兩家零售商。
Hull等(2017)總結(jié)了瑞典為了調(diào)查網(wǎng)上銷售的水果和蔬菜價(jià)格能否提高短期通脹預(yù)測(cè)的準(zhǔn)確性開展的一項(xiàng)小規(guī)模試點(diǎn)研究。該研究創(chuàng)建了一個(gè)自動(dòng)在線數(shù)據(jù)收集流程,每天從瑞典零售商收集一些選定的水果和蔬菜的在線價(jià)格數(shù)據(jù)。所有數(shù)據(jù)收集任務(wù)都在Linux虛擬專用服務(wù)器(VPS)上執(zhí)行,服務(wù)器每天按順序執(zhí)行三個(gè)腳本,第一個(gè)腳本訪問4家大型雜貨零售商的網(wǎng)站,從所有與水果和蔬菜相關(guān)的頁(yè)面中提取代碼,然后在代碼中標(biāo)識(shí)所有產(chǎn)品價(jià)格和名稱,并保存在.csv文件中,原始代碼也以.txt格式保存90天,以便糾正以后發(fā)現(xiàn)的錯(cuò)誤,然后該腳本使用正則表達(dá)式過(guò)濾數(shù)據(jù),創(chuàng)建只包含目標(biāo)水果和蔬菜的第二個(gè).csv文件。爬取完數(shù)據(jù)后,服務(wù)器執(zhí)行第二個(gè)腳本,將過(guò)濾后的數(shù)據(jù)與過(guò)去的數(shù)據(jù)合并。最后,服務(wù)器執(zhí)行第三個(gè)腳本,檢查錯(cuò)誤。Powell等(2018)使用兩個(gè)數(shù)據(jù)集探究更頻繁的月度綜合CPI預(yù)測(cè)目標(biāo)實(shí)現(xiàn)情況,第一個(gè)數(shù)據(jù)集包括英國(guó)3家大型超市網(wǎng)站的33種商品類別的每日網(wǎng)絡(luò)價(jià)格,歷時(shí)約14個(gè)月;第二個(gè)數(shù)據(jù)集包含了相同產(chǎn)品類別的分類CPI值,以及對(duì)綜合CPI有貢獻(xiàn)的更多數(shù)據(jù)。
為了探索網(wǎng)絡(luò)價(jià)格納入CPI統(tǒng)計(jì),荷蘭統(tǒng)計(jì)局每日抓取3家服裝零售商網(wǎng)站的服裝類價(jià)格數(shù)據(jù),從每個(gè)網(wǎng)站上抓取的數(shù)據(jù)框架至少包括商店網(wǎng)址、商品類型、商品具體名稱、簡(jiǎn)要規(guī)格說(shuō)明和價(jià)格數(shù)據(jù)5項(xiàng)基本信息。意大利統(tǒng)計(jì)局通過(guò)網(wǎng)絡(luò)爬取消費(fèi)者物價(jià)調(diào)和指數(shù)(HICP)中“消費(fèi)者電子產(chǎn)品”(商品)和“機(jī)票”(服務(wù))信息來(lái)探討網(wǎng)絡(luò)價(jià)格爬蟲技術(shù),一是定期收集消費(fèi)者電子產(chǎn)品信息,每個(gè)產(chǎn)品平均選擇18家左右的商店收集網(wǎng)絡(luò)價(jià)格;二是從16家低成本航空公司網(wǎng)站和3家機(jī)票銷售網(wǎng)站(Opodo、Travelprice和Edreams)進(jìn)行機(jī)票價(jià)格的數(shù)據(jù)搜集,網(wǎng)站上每月登記的基本票價(jià)超過(guò)960種,但只收集傳統(tǒng)航空公司的機(jī)票信息,兩名專家進(jìn)行這項(xiàng)機(jī)票數(shù)據(jù)收集工作,每人每月工作約15小時(shí),為期三天。Kjersti和Leiv(2016)使用Import.io軟件從專注于消費(fèi)者電子產(chǎn)品和個(gè)人護(hù)理產(chǎn)品領(lǐng)域的四個(gè)主要電商網(wǎng)站爬取數(shù)據(jù),在一年多的時(shí)間里,每天爬取大約60種不同消費(fèi)品的4300份價(jià)格觀察報(bào)告。
(二)網(wǎng)絡(luò)價(jià)格數(shù)據(jù)的整理
由于網(wǎng)站的格式、描述和產(chǎn)品分類等形式多樣,因此需要將抓取的網(wǎng)絡(luò)價(jià)格原始數(shù)據(jù)進(jìn)行整理,以便進(jìn)行分析和指數(shù)測(cè)算。數(shù)據(jù)清洗和處理工作量較大,大約占整個(gè)項(xiàng)目時(shí)間的 50%~80%。網(wǎng)絡(luò)抓取數(shù)據(jù)不如人工采價(jià)嚴(yán)格,快速收集的大量數(shù)據(jù)準(zhǔn)確性難以控制,特別是對(duì)商品無(wú)法準(zhǔn)確分類,經(jīng)常出現(xiàn)分類錯(cuò)誤,還需要進(jìn)行人工檢查,結(jié)合項(xiàng)目描述中關(guān)鍵的數(shù)值信息有助于商品準(zhǔn)確分類。研究團(tuán)隊(duì)根據(jù)網(wǎng)絡(luò)爬蟲技術(shù)每日自動(dòng)抓取的數(shù)據(jù)集文件信息,進(jìn)行數(shù)據(jù)檢查,檢驗(yàn)通過(guò)之后方可進(jìn)入指數(shù)編制過(guò)程。
三、基于網(wǎng)絡(luò)數(shù)據(jù)的價(jià)格指數(shù)編制挑戰(zhàn)
新的數(shù)據(jù)源在質(zhì)量和效率方面都有可能改進(jìn)官方價(jià)格統(tǒng)計(jì),將新的數(shù)據(jù)源集成到價(jià)格統(tǒng)計(jì)中并不簡(jiǎn)單,需要處理多方面的挑戰(zhàn)。
一是使用爬蟲技術(shù)成本效益分析。在開始探索爬蟲技術(shù)之前需要進(jìn)行充分的成本效益分析,必須投入相當(dāng)多的資源,以便能夠成功地使用它,即使軟件本身可能不需要任何編碼技巧。二是網(wǎng)絡(luò)抓取數(shù)據(jù)的網(wǎng)站問題。每個(gè)網(wǎng)站都有一個(gè)特定的結(jié)構(gòu),可能隨時(shí)更改,導(dǎo)致網(wǎng)站抓取技術(shù)不斷變化。三是網(wǎng)絡(luò)價(jià)格與位置對(duì)應(yīng)問題。在傳統(tǒng)的價(jià)格收集調(diào)查中,選擇市場(chǎng)中最受歡迎的門店或零售營(yíng)業(yè)額最高的門店進(jìn)行價(jià)格收集,使價(jià)格數(shù)據(jù)能夠代表該地區(qū)的大部分消費(fèi)者,但在網(wǎng)絡(luò)商店的價(jià)格收集中,需要在全國(guó)各地進(jìn)行大規(guī)模的調(diào)查,花費(fèi)巨大。因此,要將這些價(jià)格納入CPI,還需要制定一些替代方案。四是價(jià)格收集的頻率問題。在標(biāo)準(zhǔn)調(diào)查中,價(jià)格是在一周中某一天的高峰時(shí)段收集的。選擇高峰時(shí)段是為了獲得大多數(shù)消費(fèi)者支付的價(jià)格。在線商店的價(jià)格變化非常頻繁,甚至按小時(shí)計(jì)算,在這種情況下,確定數(shù)據(jù)收集的時(shí)間點(diǎn)變得非常困難。五是產(chǎn)品匹配問題?;诰W(wǎng)絡(luò)抓取數(shù)據(jù)的主要問題包括產(chǎn)品分類和指數(shù)聚合,在傳統(tǒng)的價(jià)格收集中,價(jià)格收集者可以很容易識(shí)別產(chǎn)品是否相同,而當(dāng)前的匹配方法無(wú)法識(shí)別描述更改。由于數(shù)據(jù)量大,不匹配的產(chǎn)品很難找到可比較的替代品,這就限制了某些指標(biāo)的代表性和樣本量。六是法律問題。經(jīng)常從網(wǎng)站上提取大量數(shù)據(jù)合法嗎?從某企業(yè)的網(wǎng)站提取數(shù)據(jù)需要許可嗎?這取決于正在抓取的數(shù)據(jù)類型、訪問和復(fù)制的信息量以及訪問對(duì)頁(yè)面所有者的系統(tǒng)和數(shù)據(jù)使用的負(fù)面影響程度。需要考慮的一個(gè)重要問題是網(wǎng)絡(luò)抓取是否可能違反網(wǎng)絡(luò)站點(diǎn)的使用條款。當(dāng)我們?cè)L問并停留在一個(gè)特定的網(wǎng)站時(shí),經(jīng)常同意根據(jù)其條款使用該網(wǎng)站,但一個(gè)網(wǎng)站上允許的內(nèi)容可能在另一個(gè)網(wǎng)站上被禁止,且在許多情況下網(wǎng)站上根本沒有任何可用的使用條款。大多數(shù)網(wǎng)站都強(qiáng)調(diào)其網(wǎng)站上的所有信息都受到版權(quán)法的保護(hù),未經(jīng)網(wǎng)站所有者的明確同意,不應(yīng)下載或復(fù)制數(shù)據(jù)。然而,《挪威統(tǒng)計(jì)法》明確規(guī)定,國(guó)家統(tǒng)計(jì)局有義務(wù)提供必要的資料以編制官方統(tǒng)計(jì)數(shù)字,在法律上有權(quán)收集資料,無(wú)需通知資料擁有人。奧地利沒有任何法律程序涉及網(wǎng)絡(luò)抓取的可接受性。但在其他歐洲國(guó)家如德國(guó)已經(jīng)有了關(guān)于在線數(shù)據(jù)庫(kù)所有者的權(quán)利的法庭判決,以防止網(wǎng)絡(luò)抓取者系統(tǒng)地復(fù)制內(nèi)容。
四、基于網(wǎng)絡(luò)數(shù)據(jù)的價(jià)格指數(shù)編制方法研究
價(jià)格指數(shù)編制方法存在差異,同樣的數(shù)據(jù)在不同的計(jì)算方法下會(huì)產(chǎn)生不同的指數(shù)結(jié)果?;诰W(wǎng)絡(luò)數(shù)據(jù)的價(jià)格指數(shù)編制方法研究主要集中在兩個(gè)方面:一是單獨(dú)基于網(wǎng)絡(luò)抓取數(shù)據(jù)的價(jià)格指數(shù)編制方法;二是網(wǎng)絡(luò)數(shù)據(jù)納入傳統(tǒng)CPI統(tǒng)計(jì)范圍的價(jià)格指數(shù)編制方法。與傳統(tǒng)的CPI數(shù)據(jù)不同,網(wǎng)絡(luò)價(jià)格數(shù)據(jù)沒有商品支出權(quán)數(shù),一般按日收集,頻率更高,數(shù)量更大。由于商品網(wǎng)站上展示的產(chǎn)品更新?lián)Q代快,報(bào)告期與基期的產(chǎn)品匹配度低,時(shí)間上同質(zhì)可比性差,并且由于數(shù)據(jù)量大,不匹配的產(chǎn)品很難找到可比較的替代品,這就限制了某些指標(biāo)的代表性和樣本量。因此,研究基于網(wǎng)絡(luò)數(shù)據(jù)的價(jià)格指數(shù)編制方法十分必要,可以加深我們對(duì)價(jià)格行為的理解。下面分析幾種適合于高頻率和高容量數(shù)據(jù)的方法,以探討應(yīng)用于網(wǎng)絡(luò)抓取數(shù)據(jù)的最適當(dāng)方法。
(一)單獨(dú)基于網(wǎng)絡(luò)抓取數(shù)據(jù)的價(jià)格指數(shù)編制方法
1.選取鏈?zhǔn)郊訖?quán)指數(shù)法計(jì)算aSPI
以生活費(fèi)用理論為基礎(chǔ)的aSPI指數(shù)體系不僅包括價(jià)格指數(shù)系列,還包括實(shí)物交易量指數(shù)系列。價(jià)格指數(shù)反映一定時(shí)期內(nèi)網(wǎng)絡(luò)零售商品一般價(jià)格變化,實(shí)物交易量指數(shù)反映一定時(shí)期內(nèi)網(wǎng)絡(luò)零售交易實(shí)物量的一般變化。價(jià)格與實(shí)物交易量指數(shù)系列除總體指數(shù)外,還包括食品、衣著等九個(gè)基本分類指數(shù)。aSPI建立在葉子類目每月加權(quán)成交均價(jià)基礎(chǔ)上,采用鏈?zhǔn)街笖?shù)算法,以反映全網(wǎng)總體網(wǎng)購(gòu)支出價(jià)格水平的變化。鏈?zhǔn)郊訖?quán)具體實(shí)施可采用間接法和直接法兩種方法。
(1)間接法
間接法先計(jì)算相鄰時(shí)期共有最細(xì)類目平均價(jià)格的平均值,利用平均值計(jì)算相鄰兩期共有最細(xì)類目的交易額,交易額之比即為可比價(jià)格的不變類目交易物量增長(zhǎng)率?;诨趦r(jià)格計(jì)算的基期交易額,乘以此比率,就得到可比價(jià)格的當(dāng)期交易額。將根據(jù)當(dāng)期價(jià)格計(jì)算的當(dāng)期交易額與可比價(jià)格的當(dāng)期交易額相比,就得到當(dāng)期網(wǎng)絡(luò)零售交易額的價(jià)格平減指數(shù)。這是一種先計(jì)算實(shí)際交易物量,再計(jì)算物價(jià)指數(shù)的間接方法。具體公式如下:
相鄰兩期共有最細(xì)類目:
最細(xì)類目成交均價(jià):
相鄰兩期平均價(jià)格:
物量指數(shù):
物價(jià)指數(shù):
以 為基期的指數(shù):
其中, 表示 期淘寶網(wǎng)后臺(tái)最細(xì)類目集合, 為類目 在 期的第 筆交易, 為類目 在 期的總交易筆數(shù), 為間接法計(jì)算的以 -1為基期的 期不變類目物量指數(shù), 為間接法計(jì)算的以 -1為基期的 期不變類目物價(jià)指數(shù), 為間接法計(jì)算的以 =0為基期的 期不變類目物價(jià)指數(shù)。
(2)直接法
直接法也是先計(jì)算相鄰時(shí)期共有最細(xì)類目平均價(jià)格的平均值,同時(shí)還計(jì)算共有最細(xì)類目在兩個(gè)時(shí)期的成交量與成交份額。在此基礎(chǔ)上,計(jì)算拉氏(Laspeyres)與帕式(Paasche)指數(shù)。作為對(duì)通用的拉氏與帕式指數(shù)的額外改進(jìn),湯式(Tornqvist)指數(shù)法也可在這一步一道實(shí)施,為應(yīng)用者提供更多的選擇。具體公式如下:
最細(xì)類目?jī)r(jià)格指數(shù):
最細(xì)類目成交份額:
交易筆數(shù)固定在當(dāng)期、價(jià)格固定在上期時(shí)的成交份額:
Laspeyres物價(jià)指數(shù):
Paasche物價(jià)指數(shù):
Tornqvist物價(jià)指數(shù):
以 為基期的指數(shù):
其中, 表示以 為基期的 期最細(xì)類目 的價(jià)格指數(shù), 為最細(xì)類目 的當(dāng)期交易份額, 為假定當(dāng)期交易筆數(shù)與上期價(jià)格情況下的交易份額占比。
2. 固定基期Jevons指數(shù)(Fixed Based Jevons Index)
固定基期Jevons指數(shù)將基期固定在數(shù)據(jù)集中第1期,并選取所有時(shí)期共有產(chǎn)品進(jìn)行計(jì)算。具體公式如下:
其中, 為產(chǎn)品 在時(shí)期 的價(jià)格, 為所有期共有產(chǎn)品集合, 為 中產(chǎn)品的數(shù)量。
3. 鏈?zhǔn)诫p邊Jevons指數(shù)(Chained Bilateral Jevons Indices)
該指數(shù)首先計(jì)算 期相對(duì)于 -1期的Jevons指數(shù),然后將該指數(shù)序列連乘得到。公式定義如下:
其中, 為第 期相對(duì)于 -1期的Jevons指數(shù), 為產(chǎn)品 在時(shí)期 的價(jià)格, 為 期和 -1期共有的產(chǎn)品集合, 為 中產(chǎn)品的數(shù)量。
4. 單位價(jià)值指數(shù)(Unit Value Index)
單位價(jià)值指數(shù)定義為時(shí)期0和時(shí)期 兩個(gè)不匹配產(chǎn)品集均值之比,具體公式如下:
其中, 為時(shí)期0的產(chǎn)品集, 為 中的產(chǎn)品數(shù)量, 為時(shí)期 的產(chǎn)品集, 為 中的產(chǎn)品數(shù)量。
5. GEKS指數(shù)族(GEKS Family of Indices)
GEKS指數(shù)族是一組指數(shù),下面分別介紹其中的GEKS-J指數(shù)、RYGEKS-J指數(shù)、ITRYGEKS指數(shù)、IntGEKS-J指數(shù)。
(1)GEKS-J指數(shù)
GEKS-J指數(shù)是一個(gè)多邊指數(shù),使用兩個(gè)時(shí)間段之間的全路徑計(jì)算。以時(shí)期0為基期的時(shí)期 的GEKS-J價(jià)格指數(shù)是以每一個(gè)中間點(diǎn)( = 1,…, -1)為連接的時(shí)期 相對(duì)于時(shí)期0的鏈?zhǔn)絁evons價(jià)格指數(shù)的幾何平均值。出現(xiàn)在時(shí)期 并且出現(xiàn)在時(shí)期0或時(shí)期 的產(chǎn)品包含在指數(shù)中。具體公式如下:
(2)滾動(dòng)年份的GEKS鏈?zhǔn)街笖?shù)(RYGEKS-J指數(shù))
GEKS-J指數(shù)測(cè)算中當(dāng)有新時(shí)期的數(shù)據(jù)時(shí)需要不斷修正前期數(shù)據(jù),為了克服這個(gè)缺點(diǎn),Ivancic等(2011)提出了RYGEKS-J指數(shù)。RYGEKS-J指數(shù)計(jì)算過(guò)程是假設(shè)初始窗口包含的數(shù)據(jù)是0至 期的數(shù)據(jù),根據(jù)初始窗口計(jì)算第一個(gè)GEKS指數(shù)。當(dāng)使用新時(shí)期數(shù)據(jù)時(shí),窗口包含的數(shù)據(jù)變成了1到 +1時(shí)期的數(shù)據(jù),根據(jù)此窗口數(shù)據(jù)計(jì)算第二個(gè)GEKS指數(shù),依次類推。公式如下:
其中,窗口長(zhǎng)度d選擇的是13個(gè)月。
(3)特征虛擬Tornqvist-RYGEKS指數(shù)(ITRYGEKS指數(shù))
RYGEKS指數(shù)中忽視了質(zhì)量變化的影響,因此需要進(jìn)行質(zhì)量調(diào)整。De Haan和Krsinich(2012)提出了以估算的Tornqvist作為RYGEKS指數(shù)的基礎(chǔ),其中估算的Tornqvist指數(shù)是特征調(diào)整的Tornqvist指數(shù),新產(chǎn)品或消失產(chǎn)品的價(jià)格分別使用當(dāng)前或基期的特征回歸來(lái)估算,特征回歸假設(shè)產(chǎn)品的價(jià)格由一組k個(gè)特征決定。估算的Tornqvist指數(shù)定義如下:
其中, 為產(chǎn)品 在時(shí)期0的支出份額, 為產(chǎn)品 在時(shí)期 的支出份額, 為缺失產(chǎn)品在時(shí)期 的估計(jì)價(jià)格, 為在兩期同時(shí)觀察到的產(chǎn)品集, 為時(shí)期 觀察到而時(shí)期0觀察不到的產(chǎn)品集, 為時(shí)期0觀察到而時(shí)期 觀察不到的產(chǎn)品集。De Haan和Krsinich(2012)提出了三種計(jì)算 的方法,具體如下:
A.線性特征方法
每期使用回歸模型估計(jì)特征參數(shù),具體公式如下:
其中, 為截距項(xiàng), 為特征 對(duì)價(jià)格的影響程度, 為產(chǎn)品 的特征 的值。
B.加權(quán)時(shí)間虛擬特征方法
該模型假定特征參數(shù)不隨時(shí)間變化,引入虛擬變量 ,具體公式如下:
其中, 表示特定時(shí)間參數(shù)估計(jì)。
C.加權(quán)時(shí)間產(chǎn)品虛擬方法
該方法中當(dāng)詳細(xì)的產(chǎn)品特征信息不可用時(shí)引入一個(gè)虛擬變量 ,具體公式如下:
其中, 為特定虛擬產(chǎn)品的參數(shù)估計(jì)值,第 個(gè)產(chǎn)品作為參考產(chǎn)品。該方法認(rèn)為對(duì)消費(fèi)者來(lái)說(shuō)不同產(chǎn)品的質(zhì)量是不同的,這是一個(gè)合理假設(shè),因?yàn)闈撛谔卣鞯臄?shù)量很大并且不是所有的特征都可見。
以上三種方法都以支出額為權(quán)重,使用加權(quán)最小二乘估計(jì)。
(4)交叉GEKS-J指數(shù)(IntGEKS-J指數(shù))
IntGEKS-J指數(shù)指數(shù)用于處理較長(zhǎng)窗口長(zhǎng)度下RYGEKS的明顯變平問題。該方法僅包含在時(shí)期0、 和 共有的產(chǎn)品集,用 表示。具體公式如下:
如果沒有產(chǎn)品變動(dòng)(產(chǎn)品進(jìn)出庫(kù)),IntGEKS-J就降低為標(biāo)準(zhǔn)GEKS-J。IntGEKS-J要求產(chǎn)品在更長(zhǎng)時(shí)間內(nèi)出現(xiàn),導(dǎo)致比標(biāo)準(zhǔn)GEKS-J更有可能“失敗”。
6. 固定效應(yīng)窗口拼接指數(shù)(FEWS)
固定效果窗口拼接產(chǎn)生一個(gè)不可修改的并且完全質(zhì)量調(diào)整的價(jià)格指數(shù),在詳細(xì)的產(chǎn)品規(guī)格水平上有縱向價(jià)格和數(shù)量信息。該方法基于固定效應(yīng)指數(shù),定義如下:
其中, 為時(shí)期0固定效應(yīng)回歸系數(shù)的估計(jì)均值。使用固定效果回歸克服了時(shí)間虛擬ITRYGEKS的一些缺點(diǎn)。就像RYGEKS-J一樣,在初始估計(jì)窗口之后,新序列被拼接到當(dāng)前序列上,用于后續(xù)的周期,這稱為窗口拼接。窗口拼接本質(zhì)上使用的是估計(jì)窗口期間的價(jià)格移動(dòng),而不是最近期間的價(jià)格移動(dòng),需要在當(dāng)期指數(shù)質(zhì)量與長(zhǎng)期指數(shù)質(zhì)量之間進(jìn)行權(quán)衡。從長(zhǎng)期來(lái)看,F(xiàn)EWS方法將消除由于沒有對(duì)新產(chǎn)品和正在消失的產(chǎn)品的隱含價(jià)格變動(dòng)進(jìn)行調(diào)整而產(chǎn)生的任何系統(tǒng)性偏差。該方法的完整描述見Krsinich(2016)。
7. 大型數(shù)據(jù)集聚類價(jià)格指數(shù)(CLIP)
CLIP是國(guó)家統(tǒng)計(jì)局最近開發(fā)的一種價(jià)格指數(shù),該指數(shù)將產(chǎn)品分組到集群中,并隨著時(shí)間的推移追蹤這些集群。在基期產(chǎn)品根據(jù)特征進(jìn)行集群,隨著時(shí)間的推移集群根據(jù)同一規(guī)則形成,但是形成集群的產(chǎn)品可能會(huì)隨著時(shí)間的推移而變化,從而導(dǎo)致產(chǎn)品的波動(dòng)。先對(duì)兩個(gè)時(shí)期集群的幾何平均值作比,為每個(gè)集群建立一個(gè)單位值指數(shù),然后使用基期集群大小對(duì)其進(jìn)行聚合。具體公式如下:
其中, 為時(shí)期0時(shí)的集群 , 為時(shí)期 時(shí)的集群 , 為時(shí)期0時(shí)集群 的大小。該方法詳情見Metcalfe等(2016)。
(二)網(wǎng)絡(luò)數(shù)據(jù)納入傳統(tǒng)CPI統(tǒng)計(jì)范圍的價(jià)格指數(shù)編制方法
1. 加權(quán)幾何平均數(shù)方法(加權(quán)GM方法)
價(jià)格指數(shù)由分別計(jì)算的線下市場(chǎng)相對(duì)價(jià)格幾何平均數(shù)和線上市場(chǎng)相對(duì)價(jià)格幾何平均數(shù)
加權(quán)得到。具體公式如下:
2. 利用網(wǎng)絡(luò)價(jià)格指數(shù)修正同期CPI方法
利用網(wǎng)絡(luò)商品價(jià)格指數(shù)修正同期CPI,具體方法如下:
其中, 表示實(shí)體店社會(huì)消費(fèi)品零售額占比, 表示網(wǎng)絡(luò)社會(huì)消費(fèi)品零售總額占比, 為根據(jù)傳統(tǒng)實(shí)體店調(diào)查數(shù)據(jù)計(jì)算得到的CPI指數(shù), 為根據(jù)電商平臺(tái)交易計(jì)算的消費(fèi)品價(jià)格指數(shù)。
基于網(wǎng)絡(luò)抓取數(shù)據(jù)編制的價(jià)格指數(shù)在數(shù)據(jù)收集技術(shù)、采價(jià)點(diǎn)、采價(jià)時(shí)間、采集數(shù)據(jù)量以及抽樣范圍等方面不同于傳統(tǒng)發(fā)布的CPI。將網(wǎng)絡(luò)數(shù)據(jù)納入傳統(tǒng)CPI編制過(guò)程尚處于探索階段,相關(guān)研究比較少,目前主要考慮從數(shù)據(jù)范圍和數(shù)源途徑上納入傳統(tǒng)CPI。將線上線下價(jià)格指數(shù)融合可以借鑒模型平均法。模型平均法以其穩(wěn)健性好、遺失有用信息少等諸多優(yōu)點(diǎn)成為目前統(tǒng)計(jì)學(xué)和計(jì)量經(jīng)濟(jì)學(xué)界研究的熱門問題,在經(jīng)濟(jì)、金融、生物、醫(yī)學(xué)等領(lǐng)域有著廣泛的應(yīng)用前景。模型平均法主要分為頻率模型平均(FMA)和貝葉斯模型平均(BMA)兩大類,權(quán)重選擇是模型平均理論研究中最重要的問題。學(xué)者對(duì)基于FMA的權(quán)重選擇進(jìn)行了大量研究:Buckland等(1997)根據(jù)信息準(zhǔn)則權(quán)重提出了S-AIC和S-BIC方法;Hjort和Claeskens(2003)提出了S-FIC方法;Hansen(2007)基于最小化Mallows準(zhǔn)則提出了MMA估計(jì);Liang等(2011)提出OPT方法,同時(shí)證明OPT估計(jì)是漸進(jìn)最優(yōu)的;為解決存在異方差的線性模型平均問題,Hansen和Racine(2012)提出JMA方法;Gao等(2016)提出基于刪組交叉驗(yàn)證的LsoMA方法;Zhu等(2017)提出基于馬氏距離的MMMA方法等。模型平均法將成為線上線下價(jià)格指數(shù)融合方法研究的一個(gè)方向。
由于網(wǎng)絡(luò)價(jià)格具有數(shù)據(jù)規(guī)模大、更新速度快、種類繁多等特征,傳統(tǒng)的價(jià)格指數(shù)編制方法存在許多不足,如鏈?zhǔn)絻r(jià)格指數(shù)一般存在鏈?zhǔn)狡啤?quán)重缺失等問題。而GEKS指數(shù)族能夠有效解決以上不足,在大數(shù)據(jù)背景下應(yīng)用前景廣闊。在此基礎(chǔ)上對(duì)于集群產(chǎn)品,運(yùn)用CLIP編制價(jià)格指數(shù)也是一個(gè)好的選擇。網(wǎng)絡(luò)數(shù)據(jù)納入傳統(tǒng)CPI統(tǒng)計(jì)的價(jià)格指數(shù)編制方法研究較少,一般采用線上線下價(jià)格指數(shù)加權(quán)平均,模型平均法將成為指數(shù)融合方面一個(gè)好的研究方向。
五、基于網(wǎng)絡(luò)數(shù)據(jù)的價(jià)格指數(shù)相關(guān)實(shí)證結(jié)果
關(guān)于網(wǎng)絡(luò)價(jià)格指數(shù)與傳統(tǒng)CPI之間關(guān)系的研究主要有以下觀點(diǎn):
一是不同學(xué)者關(guān)于網(wǎng)絡(luò)價(jià)格指數(shù)與傳統(tǒng)CPI之間變動(dòng)趨勢(shì)的研究結(jié)果不同。劉發(fā)躍和馬丁丑(2015)將aSPI和CPI分別作為線上和線下價(jià)格指標(biāo),研究發(fā)現(xiàn)線上價(jià)格指數(shù)普遍高于線下價(jià)格指數(shù),并且波動(dòng)更大。Metcalfe等(2016)針對(duì)食品、非酒精飲料和酒精飲料開發(fā)了web抓取CPI,研究發(fā)現(xiàn)這一指數(shù)與公布的CPI數(shù)據(jù)有類似的長(zhǎng)期趨勢(shì),但在價(jià)格走勢(shì)上有所不同。Alberto Cavallo(2017)通過(guò)對(duì)10個(gè)國(guó)家56家大型多渠道零售商的網(wǎng)站和實(shí)體店同時(shí)收集的價(jià)格進(jìn)行大規(guī)模比較發(fā)現(xiàn),在大約72%的情況下,價(jià)格水平是相同的,價(jià)格變化不是同步的,但有相似的頻率和平均大小。余芳東(2018)研究發(fā)現(xiàn)基于網(wǎng)絡(luò)抓取數(shù)據(jù)的CPI與基于商店采價(jià)數(shù)據(jù)的CPI有著類似的變動(dòng)趨勢(shì),基于網(wǎng)絡(luò)抓取數(shù)據(jù)的CPI趨勢(shì)拐點(diǎn)要比傳統(tǒng)發(fā)布的CPI提前1個(gè)月。Radzikowski和Mietanka(2016)認(rèn)為在線消費(fèi)者價(jià)格指數(shù)與傳統(tǒng)的通脹衡量方法具有互補(bǔ)性。田濤和周薇薇(2017)通過(guò)對(duì)aSPI指數(shù)及其各分類商品價(jià)格指數(shù)與國(guó)家統(tǒng)計(jì)局公布的CPI歷史數(shù)據(jù)關(guān)聯(lián)關(guān)系定量分析,發(fā)現(xiàn)線上線下商品價(jià)格之間存在穩(wěn)定均衡的關(guān)系。
二是認(rèn)為網(wǎng)絡(luò)價(jià)格指數(shù)對(duì)傳統(tǒng)CPI具有良好的預(yù)測(cè)能力。Hull等(2017)通過(guò)研究從瑞典一些在線零售商收集選定的水果和蔬菜的銷售價(jià)格,發(fā)現(xiàn)日數(shù)據(jù)信息可以提高短期通貨膨脹預(yù)測(cè)的精度。方匡南和曾武雄(2018)通過(guò)研究aSPI和基于傳統(tǒng)編制方法的官方CPI之間的關(guān)系,發(fā)現(xiàn)阿里網(wǎng)購(gòu)價(jià)格指數(shù)與官方CPI之間是周期匹配的,阿里網(wǎng)購(gòu)價(jià)格指數(shù)對(duì)CPI具有一定的預(yù)警和預(yù)測(cè)能力。Powell等(2018)研究的模型揭示了不同產(chǎn)品類別之間動(dòng)態(tài)行為的不同級(jí)別,能夠在產(chǎn)品類別特定的CPI發(fā)布之前立即對(duì)其進(jìn)行良好的預(yù)測(cè),并且認(rèn)為高頻率的月度綜合CPI預(yù)測(cè)是一個(gè)可以實(shí)現(xiàn)的目標(biāo)。
此外,價(jià)格之間的關(guān)系可能因參考時(shí)期不同而不同;盡管線上和線下價(jià)格在年度基礎(chǔ)上遵循相似的趨勢(shì),但在某些方面,月度指數(shù)存在顯著差異;不同的采購(gòu)渠道之間的價(jià)格變動(dòng)可能有很大的差異,與實(shí)體店相比,在線商店的定價(jià)策略可能有很大不同等。
總之,對(duì)于網(wǎng)絡(luò)價(jià)格指數(shù)與傳統(tǒng)CPI之間的關(guān)系,不同學(xué)者基于不同研究基礎(chǔ)在兩者變動(dòng)趨勢(shì)、波動(dòng)幅度等方面得出的結(jié)論有所不同,且認(rèn)為網(wǎng)絡(luò)價(jià)格指數(shù)對(duì)傳統(tǒng)CPI有良好的預(yù)警和預(yù)測(cè)能力。
六、研究展望
(一)需要更好的方法對(duì)數(shù)據(jù)進(jìn)行分類
目前正在研究無(wú)監(jiān)督機(jī)器學(xué)習(xí)技術(shù)和有監(jiān)督機(jī)器學(xué)習(xí)技術(shù),以提高準(zhǔn)確性和效率。無(wú)監(jiān)督機(jī)器學(xué)習(xí)技術(shù)不需要人工創(chuàng)建訓(xùn)練數(shù)據(jù)集,無(wú)監(jiān)督機(jī)器學(xué)習(xí)的兩個(gè)關(guān)鍵例子是k均值聚類和主成分分析(PCA),它們可以用于從數(shù)據(jù)中推斷結(jié)構(gòu)。有監(jiān)督機(jī)器學(xué)習(xí)技術(shù)需要一個(gè)訓(xùn)練數(shù)據(jù)集,該訓(xùn)練數(shù)據(jù)集用于訓(xùn)練分類算法,經(jīng)過(guò)訓(xùn)練的算法可以用來(lái)對(duì)不可見數(shù)據(jù)進(jìn)行分類,有監(jiān)督機(jī)器學(xué)習(xí)技術(shù)的例子有邏輯回歸、神經(jīng)網(wǎng)絡(luò)或支持向量機(jī),這些技術(shù)可以根據(jù)價(jià)格的特點(diǎn)對(duì)價(jià)格進(jìn)行系統(tǒng)的分類。這可以與無(wú)監(jiān)督機(jī)器學(xué)習(xí)一起使用。此外,需要對(duì)網(wǎng)絡(luò)爬蟲器進(jìn)行編輯,以收集零售商的產(chǎn)品代碼,使用這些代碼和產(chǎn)品描述提高匹配的質(zhì)量,并利用更多的可用數(shù)據(jù)。
(二)探索更好的將高頻數(shù)據(jù)編制成價(jià)格指數(shù)的方法
繼續(xù)探索編制高頻指數(shù)的方法,研究如何將網(wǎng)絡(luò)抓取價(jià)格與專業(yè)價(jià)格收集者選擇的具有代表性的價(jià)格相結(jié)合來(lái)計(jì)算價(jià)格指數(shù)。從官方統(tǒng)計(jì)機(jī)構(gòu)的角度來(lái)看,使用在線數(shù)據(jù)是非常有前途的,最有希望的方法是某種形式的混合方法。從在線數(shù)據(jù)中提取的高頻實(shí)時(shí)指標(biāo)可以校正利用掃描儀數(shù)據(jù)或傳統(tǒng)的現(xiàn)場(chǎng)采集數(shù)據(jù)等更全面數(shù)據(jù)編制的較不頻繁的官方指標(biāo)。將價(jià)格指數(shù)編制方法與中國(guó)實(shí)踐更多地結(jié)合是未來(lái)的一個(gè)研究方向。
(三)更及時(shí)地公布新指數(shù)
目前,國(guó)家統(tǒng)計(jì)局在月后13號(hào)左右公布月度傳統(tǒng)CPI,季度、年度則延至月后20號(hào)左右,公布滯后。為提高價(jià)格指數(shù)的時(shí)效性,不論是網(wǎng)絡(luò)價(jià)格指數(shù)、傳統(tǒng)CPI還是兩者融合
指數(shù),當(dāng)商品價(jià)格信息或?qū)傩孕畔l(fā)生變動(dòng)時(shí),都應(yīng)及時(shí)更新價(jià)格指數(shù)?;诖耍瑧?yīng)進(jìn)一步探討更及時(shí)發(fā)布價(jià)格指數(shù)的方法。
注釋:
①互聯(lián)網(wǎng)在線數(shù)據(jù)的居民消費(fèi)價(jià)格指數(shù)(iCPI)項(xiàng)目組成立于2015年9月,由清華大學(xué)社會(huì)科學(xué)學(xué)院經(jīng)濟(jì)學(xué)研究所的劉濤雄教授、湯珂教授與清華大學(xué)計(jì)算機(jī)系的許斌教授聯(lián)合指導(dǎo),團(tuán)隊(duì)運(yùn)用大數(shù)據(jù)的理念和技術(shù)手段,采集來(lái)自電商平臺(tái)、價(jià)格信息網(wǎng)站等的商品價(jià)格數(shù)據(jù),設(shè)計(jì)和編制了一套基于互聯(lián)網(wǎng)在線大數(shù)據(jù)的居民消費(fèi)價(jià)格指數(shù),可實(shí)現(xiàn)每日于網(wǎng)站(www.bdecon.com)可視化發(fā)布,并且可以在CEIC數(shù)據(jù)庫(kù)下載,數(shù)列編碼是422327377。
②我國(guó)國(guó)家統(tǒng)計(jì)局測(cè)算官方CPI時(shí)采用的是鏈?zhǔn)健袄稀惫?,官方CPI測(cè)算方法可參考
國(guó)家統(tǒng)計(jì)局的走進(jìn)CPI專題(http://www.stats.gov.cn/ztjc/tjzs/zjcpi/index_1.html)。
參考文獻(xiàn):
[1]易冰,趙子?xùn)|,劉洪波.CPI中人工采集網(wǎng)絡(luò)價(jià)格的實(shí)踐與思考[J].中國(guó)統(tǒng)計(jì),2014,(9):9-10.
[2] 余芳東.國(guó)外網(wǎng)絡(luò)抓取數(shù)據(jù)在CPI統(tǒng)計(jì)中的應(yīng)用實(shí)踐[J].調(diào)研世界,2018,(7):3-6.
[3]陳相成,喬晗.掃描數(shù)據(jù)支持下CPI編制方法研究[J].統(tǒng)計(jì)研究,2013,(1):23-30.
[4]陳夢(mèng)根,劉浩.大數(shù)據(jù)對(duì)CPI統(tǒng)計(jì)的影響及方法改進(jìn)研究[J].統(tǒng)計(jì)與信息論壇,2015,30(6):8-13.
[5]李平.對(duì)我國(guó)現(xiàn)行CPI統(tǒng)計(jì)方法的思考及完善意見[J].價(jià)格理論與實(shí)踐,2007,(3):56-57.
[6]宋晨.我國(guó)現(xiàn)行居民消費(fèi)價(jià)格指數(shù)編制方法的改進(jìn)研究[D].北京:中國(guó)石油大學(xué),2009.
[7]許滌龍,謝敏.CPI編制方法的國(guó)際比較[J].中國(guó)統(tǒng)計(jì),2008,(7):28.
[8]高艷云.中美CPI數(shù)據(jù)質(zhì)量的比較分析——基于國(guó)際貨幣基金組織的DQAF框架[J].統(tǒng)計(jì)研究,2008,(11):51-56.
[9]高艷云. CPI 編制及公布的國(guó)際比較[J].統(tǒng)計(jì)研究,2009,(9):15-20.
[10]石剛. 提高 CPI 數(shù)據(jù)質(zhì)量的編制技術(shù)研究評(píng)述[J].統(tǒng)計(jì)研究,2012,(5):105-112.
[11]Alberto Cavallo. Are Online and Offline Prices Similar?Evidence from LargeMulti-ChannelRetailers[J]. American Economic Review,2017,107(1):283-303.
[12]Radzikowski B,Mietanka A. Online CASE CPI[C].First International Conference on Advanced Research Methods and Analytics,2016.
[13]Hull I,L?f M,Tibblin M. Price Information Collected Online and Short-term Inflation Forecasts [C]. IFC-Bank Indonesia Satellite Seminar on“Big Data”at the ISI Regional StatisticsConference,2017.
[14]Powell B,Nason G,Elliott D,et al. Tracking and Modelling Prices Using Web-scraped Price Microdata:towards Automated Daily Consumer Price Index Forecasting[J]. Journal of the Royal Statistical Society:Series A(Statistics in Society),2018,181(3):737-756.
[15]Kjersti N H,Leiv T SR. Keeping Up with the Modern Consumer-Online Data in Price Statistics[J]. Conference of Nordic Statisticians Stockholm,2016,(8):22-24.
[16]Ivancic L,Diewert W E,F(xiàn)ox K J.Scanner Data,Time Aggregation and the Construction??? of Price Indexes[J]. Journal of Econometrics,2011,161(1):24-35.
[17]De HaanJ,KrsinichF. The Treatment of Unmatched Items in Rolling Year GEKS Prices Indexes:Evidence from New Zealand Scanner Data[C]. Meeting of Groups of Experts on Consumer Price Indices Organized Jointly by UNECE and ILO at the United Nations Palais des Nations,Geneva Switzerland,2012.
[18]KrsinichF.The FEWS Index:Fixed Effects with a Window Splice[J]. Journal of Official?? Statistics,2016,32(2):375-404.
[19]Metcalfe L,Breton R,et al. Research Indices Using Web Scraped Price Data:Clustering Large Datasets into Price Indices(CLIP)[C]. Office for National Statistics of UK,2016.
[20]Buckland S T,Burnham K P,Augustin N H. Model Selection:An Integral Part of Inference[J]. Biometrics,1997,53(2):603-618.
[21]Hjort N L,Claeskens G. Frequentist Model Average Estimators[J]. Journal of the AmericanStatistical Association,2003,98(464):879-899.
[22]Hansen B E. Least Squares Model Averaging[J]. Econometrica,2007,75(4):1175-1189.
[23] Liang H,Zou G,Wan A T K,et al. Optimal Weight Choice for Frequentist Model Average estimators[J]. Journal of the American Statistical Association,2011,106(495):1053-1066.
[24] Hansen B E,Racine J S. Jackknife Model Averaging[J]. Journal of Econometrics,2012,167(1):38-46.
[25] Gao Y,Zhang X,Wang S,et al. Model Averaging Based on Leave-subject-out Cross-validation[J]. Journal of Econometrics,2016,192(1):139-151.
[26] Zhu R,Zou G,Zhang X. Model Averaging for Multivariate Multiple Regression Models[J].Statistics,2017,52(1):1-23.
[27]劉發(fā)躍,馬丁丑. 網(wǎng)上與網(wǎng)下兩類價(jià)格指數(shù)差異的收斂性分析[J].統(tǒng)計(jì)與決策,2015,(20):29-32.
[28]田濤,周薇薇.大數(shù)據(jù)背景下線上商品價(jià)格變動(dòng)對(duì)CPI的影響[J].統(tǒng)計(jì)與決策,2017,(13):34-38.
[29]方匡南,曾武雄. 阿里網(wǎng)購(gòu)價(jià)格指數(shù)與官方CPI的關(guān)系[J].統(tǒng)計(jì)與信息論壇,2018,(2):28-35.
The Review on How to Improve CPI Compilation by Using Online Price information and Learning International Experience
Li Qian, Zhou Di,LiLi
?(1.School of Information Management and Statistics, Hubei University of Economics, Wuhan 430205, China;2.School of Mathematics and Statistics, Guangdong University of Foreign Studies, Guangzhou510006, China)
Abstract: The arrival of the era of big data has brought unprecedented historical opportunities and important challenges to the government's statistical work. As one of them, the compilation of consumer price index (CPI) is the first to bear the brunt. It has become an urgent task to bring CPI into line with The Times. This paper mainly studies how to improve CPI compilation by using network price information. On the basis of drawing lessons from international experience, firstly,it is the collection and collation of network price data, including the selection of retailers, network price data collection methods, network price data collection process and data collation; Secondly, it is the challenge of price index compiling based on network data;Then the price index compilation method based on the network data is introduced, including the price index compilation method based on the network capture data alone and the price index compilation method that the network data is included in the traditional CPI statistical range;Then the empirical results of price index based on network datais introduced;Finally, it is the research prospect. This study provides some references for the national bureau of statistics to promote the application of network price in CPI statistics.
Keywords: Crawler Technology; Network Price Data; The CPI; International Experience