□ 劉 瑾 李 振 鞏蓉蓉 劉 英
(1.中央民族大學 經(jīng)濟學院, 北京 100081; 2.復旦大學 大數(shù)據(jù)學院, 上海 200433;3.珠海復旦創(chuàng)新研究院, 廣東 珠海 519000; 4.中國人民大學 重陽金融研究院, 北京 100872)
中共十九大提出鄉(xiāng)村振興戰(zhàn)略,明確“產(chǎn)業(yè)興旺、生態(tài)宜居、鄉(xiāng)風文明、治理有效、生活富?!倍址结?。在此背景下,如何對各地鄉(xiāng)村振興發(fā)展水平進行測度和評價,發(fā)掘優(yōu)勢,補全短板,進而因勢利導推動鄉(xiāng)村發(fā)展,是實現(xiàn)中國鄉(xiāng)村振興的關鍵。當前,已有研究通過構建相關指標體系來測度中國鄉(xiāng)村振興發(fā)展水平,并使用統(tǒng)計年鑒[1]、農(nóng)業(yè)普查數(shù)據(jù)[2]、調查數(shù)據(jù)庫[1]以及調研數(shù)據(jù)[3]進行實證分析。然而,統(tǒng)計數(shù)據(jù)雖然具有可靠性較高的優(yōu)點,但滯后期一般為2-3年,調研數(shù)據(jù)則較少進行追蹤調查。由于難以獲取更多有效數(shù)據(jù),導致政府、學術機構等難以全面、科學評價中國鄉(xiāng)村振興發(fā)展水平。
隨著國家大數(shù)據(jù)戰(zhàn)略推進,大數(shù)據(jù)技術更加成熟,正加速成為創(chuàng)造價值、發(fā)掘潛力的驅動力,其應用逐漸滲透到經(jīng)濟社會的各個微觀單元。在農(nóng)業(yè)農(nóng)村領域,大數(shù)據(jù)技術在農(nóng)產(chǎn)品價格監(jiān)測[4]、農(nóng)產(chǎn)品流通[5]、農(nóng)業(yè)災害預警[6]等領域得到廣泛應用,但無論在理論上還是實踐上,尚未有文獻對大數(shù)據(jù)在鄉(xiāng)村發(fā)展評價方面的應用進行系統(tǒng)研究。事實上,大數(shù)據(jù)在鄉(xiāng)村振興發(fā)展水平評價中大有可為,這主要得益于鄉(xiāng)村大數(shù)據(jù)的沉淀。大數(shù)據(jù)技術不僅可以用于數(shù)據(jù)采集,同時還可以在分析、處理和展示數(shù)據(jù)方面發(fā)揮獨特優(yōu)勢,為全方位、多維度、立體化刻畫鄉(xiāng)村發(fā)展面貌,評價中國鄉(xiāng)村振興發(fā)展水平提供技術支撐,也為解決中國農(nóng)業(yè)農(nóng)村問題提供新的方案。本文以從互聯(lián)網(wǎng)爬取的鄉(xiāng)村稱號數(shù)據(jù)為例,對大數(shù)據(jù)在中國鄉(xiāng)村振興評價中的應用進行探索,為鄉(xiāng)村振興評價領域中使用新數(shù)據(jù)、新模型、新技術提供參考,同時也給出大數(shù)據(jù)在解決經(jīng)濟社會問題時的具體使用方法。
相比已有研究,本文主要在四個方面進行創(chuàng)新。第一,本文創(chuàng)新性地使用非傳統(tǒng)數(shù)據(jù)源,為評價鄉(xiāng)村振興發(fā)展水平提供更多維度。第二,本文提出非傳統(tǒng)數(shù)據(jù)的采集和處理方法,為規(guī)范使用大數(shù)據(jù)源提供模板。第三,本文應用非結構化和半結構化數(shù)據(jù)的量化方法,解決了大數(shù)據(jù)中數(shù)據(jù)量化難的問題。第四,本文結合使用傳統(tǒng)分析方法和新型分析方法,挖掘出更多有效信息。總體來看,本文在數(shù)據(jù)源選擇、數(shù)據(jù)處理、數(shù)據(jù)計算和數(shù)據(jù)展示的全流程都體現(xiàn)了大數(shù)據(jù)思維,在實際操作中,使用爬蟲技術、分詞技術、大數(shù)據(jù)匹配技術和可視化技術等信息技術手段,具有一定創(chuàng)新性。
在農(nóng)業(yè)農(nóng)村數(shù)據(jù)量不斷增加、大數(shù)據(jù)技術迅速發(fā)展的背景下,本文重新審視如何評價鄉(xiāng)村振興發(fā)展水平這一問題。大數(shù)據(jù)具有“5V”特征,即海量(Volume)、高速(Velocity)、多樣(Variety)、真實(Veracity)和低價值密度(Value)。大數(shù)據(jù)技術是指大數(shù)據(jù)的應用技術。從大數(shù)據(jù)的生命周期來看,具體分為大數(shù)據(jù)采集、大數(shù)據(jù)預處理、大數(shù)據(jù)存儲和大數(shù)據(jù)分析等四個階段。在各個階段,大數(shù)據(jù)技術均有助于鄉(xiāng)村振興發(fā)展水平評價優(yōu)化,圖1給出了大數(shù)據(jù)優(yōu)化鄉(xiāng)村振興發(fā)展水平評價的理論邏輯。
圖1 大數(shù)據(jù)優(yōu)化鄉(xiāng)村振興發(fā)展水平評價的理論邏輯
第一,在大數(shù)據(jù)采集階段,大數(shù)據(jù)技術可以對不同來源的鄉(xiāng)村數(shù)據(jù)進行采集,包括行政記錄、商業(yè)記錄、互聯(lián)網(wǎng)數(shù)據(jù)、電子設備傳感數(shù)據(jù)等,這些數(shù)據(jù)可以統(tǒng)稱為非傳統(tǒng)數(shù)據(jù),不同于統(tǒng)計部門采集的傳統(tǒng)數(shù)據(jù)[7]。使用非傳統(tǒng)數(shù)據(jù)進行分析能夠增加數(shù)據(jù)量級和層次,拓展數(shù)據(jù)維度,豐富數(shù)據(jù)類型,減少數(shù)據(jù)滯后并提高數(shù)據(jù)頻率。第二,在大數(shù)據(jù)預處理階段,首先需要對缺失數(shù)據(jù)、異常數(shù)據(jù)做處理,將其按照一定方法補全或者剔除。然后,要將多源異構鄉(xiāng)村大數(shù)據(jù)整理成為統(tǒng)一格式數(shù)據(jù),并對一些文本型數(shù)據(jù)做量化處理,將其轉換成數(shù)值型數(shù)據(jù)。第三,在大數(shù)據(jù)存儲階段,要將海量的鄉(xiāng)村數(shù)據(jù)存儲在數(shù)據(jù)庫中,且必須保障安全、快速和高效存儲。第四,在大數(shù)據(jù)分析階段,借助機器學習、深度學習等大數(shù)據(jù)分析方法對數(shù)據(jù)進行處理,并使用可視化技術對數(shù)據(jù)進行展示。
大數(shù)據(jù)技術通過以上四個階段,能夠優(yōu)化鄉(xiāng)村振興發(fā)展水平評價,主要體現(xiàn)在兩個方面。一是質量提升。從本質上看,鄉(xiāng)村振興發(fā)展水平評價是一個特征發(fā)掘過程,大數(shù)據(jù)技術優(yōu)勢恰在于此。從廣度上看,大數(shù)據(jù)技術通過對來源廣泛的數(shù)據(jù)進行采集,能夠為刻畫鄉(xiāng)村發(fā)展面貌提供更多“原材料”。從深度上看,算法和技術可以為提取數(shù)據(jù)特征提供更多手段。二是效率優(yōu)化。大數(shù)據(jù)技術可以直接采集原始數(shù)據(jù),進行快速運算和分析,然后輸出結果,能夠縮短各個環(huán)節(jié)所用時間,同時減少人工失誤導致的數(shù)據(jù)偏差,從而提高鄉(xiāng)村振興發(fā)展水平評價效率。
在鄉(xiāng)村數(shù)據(jù)采集階段,要特別關注數(shù)據(jù)質量問題。在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)質量問題更加突出,原因來自諸多因素,比如大數(shù)據(jù)來源多元化、數(shù)據(jù)總體多變且覆蓋不全、數(shù)據(jù)表現(xiàn)非標準、數(shù)據(jù)內涵非確定和數(shù)據(jù)真假難辨等[8]。因此,大數(shù)據(jù)質量評估要考慮“十性”要求:可得性、相關性、可靠性、有效性、及時性、適用性、準確性、連貫性、可比性和可解釋性[7]。
通過梳理文獻中涉及的鄉(xiāng)村大數(shù)據(jù)源,本文選定鄉(xiāng)村稱號數(shù)據(jù)作為切入點進行研究。鄉(xiāng)村稱號數(shù)據(jù)是指由政府部門經(jīng)過評審并發(fā)布的鄉(xiāng)村稱號名單,如“農(nóng)業(yè)產(chǎn)業(yè)強鎮(zhèn)”、“中國美麗休閑鄉(xiāng)村”等。雖然稱號是由政府部門發(fā)布,但其具有來源分散、更新速度較快、半結構化或非結構化、文本型數(shù)據(jù)等特征,因此相關數(shù)據(jù)屬于非傳統(tǒng)數(shù)據(jù)。結合上述數(shù)據(jù)質量評估標準,本文對稱號數(shù)據(jù)質量進行初步評估,發(fā)現(xiàn)其滿足有關數(shù)據(jù)質量的“十性”要求。
發(fā)布鄉(xiāng)村稱號的政府部門包括農(nóng)業(yè)部、商務部、生態(tài)環(huán)境部等。本文分三步對稱號數(shù)據(jù)進行采集和篩選。
第一步,初步搜索稱號。首先,在各政府部門網(wǎng)站搜索框中輸入“稱號”、“試點”、“示范”等關鍵詞,然后對2005—2020年相關目錄進行查看,即本文不查詢2005年之后沒有更新過任何批次的稱號(1)這主要是考慮到稱號具有時效性,往往隨著農(nóng)業(yè)農(nóng)村政策變化進行更新和調整。在2005年之前發(fā)布或更新的稱號距離現(xiàn)在太過久遠,即使某些村落獲得過鄉(xiāng)村稱號,也很難反映這些村落目前鄉(xiāng)村振興發(fā)展情況,因此使用價值較小。。經(jīng)過人工查找,定位包含稱號名單的條目,這些條目的形式一般為“標題+正文+稱號名單”。經(jīng)統(tǒng)計,共獲得54個稱號。
第二步,篩選有效稱號。54個稱號并非都適合評價鄉(xiāng)村振興發(fā)展水平,需要根據(jù)稱號政策含義進一步篩選。一是剔除具有扶貧性質的稱號。以“農(nóng)民合作社質量提升整縣推進試點”為例,考慮到該稱號名單中包含很多仍處于貧困狀態(tài)的縣級行政單位,不能很好地代表鄉(xiāng)村振興發(fā)展水平,因此,對這類稱號進行剔除處理。二是剔除具有明顯地域偏差的稱號。地域偏差是指由于不同地域適合發(fā)展的農(nóng)業(yè)產(chǎn)業(yè)不同,因此不宜將與某類產(chǎn)業(yè)相關的稱號納入鄉(xiāng)村振興評價體系。三是剔除對象數(shù)量過少的稱號。如“農(nóng)業(yè)重大技術協(xié)同推廣計劃試點”僅在2018年公布過8個試點,數(shù)量太少,不宜納入評價體系。在對所有稱號進行篩選后,本文得到29個有效稱號。此外,在搜索引擎中直接搜索“農(nóng)村稱號”,還得到中國文明網(wǎng)、人民網(wǎng)、中國生態(tài)文化協(xié)會等官方媒體和協(xié)會評選出的3個稱號。由于“淘寶村”稱號能夠體現(xiàn)農(nóng)村電子商務產(chǎn)業(yè)的發(fā)展情況,因此本文也將其納入到有效稱號列表中。最終,本文得到33個有效稱號共128個批次的名單。
第三步,采集稱號數(shù)據(jù)。在獲取33個稱號各批次名單的原始鏈接后,從網(wǎng)站爬取數(shù)據(jù),大部分為網(wǎng)頁數(shù)據(jù),少部分頁面提供文件下載鏈接,文件格式包括WORD、EXCEL、PDF、CEB等多種類型,數(shù)據(jù)基本上是半結構化數(shù)據(jù)。本文使用爬蟲技術手段獲取全部名單數(shù)據(jù)。
在大數(shù)據(jù)預處理階段,本文關注多源異構數(shù)據(jù)的整合問題。33個稱號數(shù)據(jù)的格式和結構不統(tǒng)一,甚至同一稱號不同批次的數(shù)據(jù)格式和結構也不同。由于農(nóng)村稱號對象大部分是行政單位,因此,本文分三步對農(nóng)村稱號數(shù)據(jù)進行預處理。
第一步,提取稱號對象中的行政單位名稱。大部分稱號格式為“X省X市X縣X鄉(xiāng)鎮(zhèn)X村”,縣級稱號格式為“X省X市X縣”,鄉(xiāng)鎮(zhèn)級稱號格式類似。本文對128個批次名單數(shù)據(jù)中所有行政單位名稱進行提取。
第二步,按照行政級別對原始數(shù)據(jù)進行處理。對于原始數(shù)據(jù)中各級行政單位信息都完整的稱號,可以直接使用分詞技術將“X省X市X縣X鄉(xiāng)鎮(zhèn)X村”中各個行政單位分開,如表1所示,以“全國民主法治示范村”和“淘寶村”兩個稱號為例,將稱號對象按照省、市、縣、鄉(xiāng)、村五級行政區(qū)劃進行處理和存儲。對于原始數(shù)據(jù)中各級行政單位信息不完全的稱號,首先需要從國家統(tǒng)計局網(wǎng)站的統(tǒng)計用區(qū)劃和城鄉(xiāng)劃分代碼頁面爬取全國所有地區(qū)的行政區(qū)劃層級和代碼,然后將稱號中所含的行政區(qū)劃信息與統(tǒng)計局行政區(qū)劃信息進行大數(shù)據(jù)匹配,補全缺失信息,補全結果也同表1樣例按照五級行政區(qū)劃存儲。對于稱號對象為非行政區(qū)劃的稱號,如“全國主食加工示范企業(yè)”,本文將企業(yè)名單與國家企業(yè)信用信息公示系統(tǒng)進行匹配,獲得企業(yè)注冊地址,并按以上步驟重復處理過程。最終獲取128個批次名單的47 381個對象。
表1 鄉(xiāng)村稱號數(shù)據(jù)處理結果樣例
第三步,根據(jù)本文需要對數(shù)據(jù)進行量化處理。經(jīng)過前兩步,本文已經(jīng)將多種格式、多種類型的數(shù)據(jù)整理成為統(tǒng)一格式數(shù)據(jù),但這類文本型數(shù)據(jù)無法與指標體系結合,同時,不同稱號的對象有差異,稱號對象既包含行政區(qū)劃,又包含企業(yè)、園區(qū)等,相互之間不可比,因此需要進行量化處理。本文以省級鄉(xiāng)村振興發(fā)展水平評價為例,首先分別對各個稱號在省級層面進行數(shù)量統(tǒng)計??紤]到不同省份的村、鄉(xiāng)鎮(zhèn)、區(qū)縣數(shù)量差異較大,因此不能直接使用絕對數(shù)量,需要將其轉換成比例數(shù)據(jù),轉換過程需要考慮稱號對象的行政區(qū)劃層級。當稱號對象行政區(qū)劃層級十分清晰,為縣級或村級時,使用各省份縣級或村級行政單位的數(shù)量作為除數(shù),對絕對數(shù)量結果進行處理;當稱號對象包含不同的行政區(qū)劃時,如“全國一村一品示范村鎮(zhèn)”稱號對象同時包含村和鎮(zhèn),此時需要選用較高層級的行政區(qū)劃數(shù)量,即各省份鎮(zhèn)的數(shù)量作為除數(shù);對于基地、企業(yè)等只能細分到縣級的稱號,使用縣級行政單位數(shù)量作為除數(shù);除以上三種情況外,如果對象為園區(qū)、優(yōu)勢區(qū)、企業(yè)等稱號,使用村級行政單位數(shù)量作為除數(shù)。
目前對鄉(xiāng)村振興進行評價的主要方法是構建指標體系。指標體系是最為經(jīng)典的一種評價方法,本文也使用指標體系對鄉(xiāng)村振興發(fā)展水平進行評價。由于標簽模型具有框架設定更為自由、標簽數(shù)據(jù)類型更加多樣等優(yōu)勢,本文考慮使用信息領域“數(shù)據(jù)畫像”中的標簽技術,將指標體系拓展為標簽體系,對鄉(xiāng)村振興發(fā)展情況進行可視化展示。
1.指標體系構建
本文選取2020年為評價年度,利用33個稱號來構建指標體系。根據(jù)鄉(xiāng)村振興戰(zhàn)略“二十字”方針要求,將一級指標確定為產(chǎn)業(yè)興旺、生態(tài)宜居、鄉(xiāng)風文明、治理有效和生活富裕,然后將33個稱號作為底層指標,將稱號按其含義分配到所屬的一級指標中,如表2所示。
表2 基于稱號的鄉(xiāng)村振興指標體系
2.標簽模型構建
標簽體系是一種靈活、多維和適合大數(shù)據(jù)系統(tǒng)的模型體系。在信息技術領域,標簽技術通常被用在“用戶畫像”領域,即通過為事物打上不同的標簽來描述和刻畫用戶特征。本文創(chuàng)新性地將畫像技術的核心——標簽技術應用到鄉(xiāng)村振興的評價領域,為評價鄉(xiāng)村振興發(fā)展水平提供了更多技術工具和展示方法。
本文將與鄉(xiāng)村稱號相關的標簽分為三類。第一類,事實標簽。標簽名稱與稱號名稱相同,標簽值是經(jīng)過標準化處理的原始數(shù)據(jù)。事實標簽可以對底層指標數(shù)據(jù)進行展示。第二類,模型標簽。模型標簽是指經(jīng)過模型計算得到具體標簽值的標簽。本文模型是指標體系,經(jīng)過指標體系處理,可以計算各省份的總指數(shù)值、5個一級指標值和33個二級指標值,然后分別對各省份總指數(shù)值、一級指標值和二級指標值進行排名,最后給各省份打上標簽。例如,假設山西省“國家農(nóng)業(yè)科技園”二級指標值在各省份中排名第8,可以打上“國家農(nóng)業(yè)科技園排名第八”的標簽。第三類,預測標簽。預測標簽是指基于多年數(shù)據(jù)進行預測的標簽。可以將獲取的鄉(xiāng)村稱號微觀數(shù)據(jù)按照年度進行累計計算,得到連續(xù)多年數(shù)據(jù),在此基礎上進行預測標簽值的計算。例如,假設2019年山東省“鄉(xiāng)風文明”一級指標值排名第6,2020年排名第4,可以打上“山東省鄉(xiāng)風文明2020年上升2位,有上升趨勢”的標簽。
1.指標體系結果分析
熵權法是一種客觀賦權方法,能夠避免人為因素的干擾。因此,本文選用熵權法計算指標權重。同時,本文使用機器學習中的聚類分析方法,將31個省份(不包括港澳臺)聚為3類,如圖2所示,縱坐標為鄉(xiāng)村振興總指數(shù)值。
圖2 中國省級鄉(xiāng)村振興指數(shù)聚類圖
天津、上海和北京三地名列前茅,屬于第一梯隊,吉林、寧夏等11個省份屬于第二梯隊,四川、河北等17個省份屬于第三梯隊??梢钥闯?,鄉(xiāng)村振興指數(shù)與東中西部地理位置的關聯(lián)性較弱。雖然東部沿海省份總體發(fā)展水平明顯高于大部分中部省份和西部省份,但寧夏、貴州、重慶等西部省份的總指數(shù)值較高,出現(xiàn)在前十名,這與以往的研究結果差異較大。因此,使用新型數(shù)據(jù)可以從更多維度對鄉(xiāng)村振興發(fā)展水平進行刻畫,有助于更加全面地了解鄉(xiāng)村發(fā)展情況。
2.標簽模型展示
各省份都可以使用標簽技術對事實標簽、模型標簽和預測標簽進行展示。本文以北京市和四川省為例,使用詞云圖展示事實標簽,如圖3所示。
圖3 北京市和四川省鄉(xiāng)村振興事實標簽詞云圖
從北京市詞云圖可以看出,“全國主食加工示范企業(yè)”標簽最為顯著,這與北京市市場經(jīng)濟發(fā)達,適合企業(yè)發(fā)展的大環(huán)境相關,此外,“全國文明村鎮(zhèn)”、“全國環(huán)境優(yōu)美鄉(xiāng)鎮(zhèn)”、“數(shù)字農(nóng)業(yè)建設項目試點”等多個標簽也較為突出,說明北京市在鄉(xiāng)村振興發(fā)展的多個方面具有獨特優(yōu)勢。四川省的“全國農(nóng)村創(chuàng)業(yè)創(chuàng)新園區(qū)(基地)”和“淘寶村”標簽比較突出,說明四川省作為西部省份,其農(nóng)業(yè)農(nóng)村發(fā)展出現(xiàn)了新的動向,如推動農(nóng)業(yè)技術創(chuàng)新、發(fā)展農(nóng)村電子商務等,這些變化有助于縮小東西部鄉(xiāng)村發(fā)展差距。關于模型標簽和預測標簽,理想狀態(tài)是使用算法并編寫程序,將計算過程和結果輸出等步驟標準化、流程化,本文在此不做展示。
統(tǒng)計數(shù)據(jù)和大數(shù)據(jù)的結合使用是政府統(tǒng)計工作的未來趨勢,本文使用稱號數(shù)據(jù)作為切入點進行研究。隨著各級政府數(shù)據(jù)資源共享和開放工作進程的推進,大量鄉(xiāng)村數(shù)據(jù)資源被集合起來,在此基礎上,政府部門可以對統(tǒng)計數(shù)據(jù)和大數(shù)據(jù)進行拼接,基于多維數(shù)據(jù)進行數(shù)據(jù)分析。使用大數(shù)據(jù)要注意四點事項:一是警惕“數(shù)據(jù)陷阱”,防止出現(xiàn)由于過度挖掘導致的過度擬合現(xiàn)象。二是警惕有偏的大數(shù)據(jù),即數(shù)據(jù)量夠大,但代表性不足的大數(shù)據(jù),使用這類數(shù)據(jù)進行分析的結果往往遠離事實。在實際工作中,需要先對相關大數(shù)據(jù)源進行人工篩查,確保其代表性、相關性和可靠性。三是要重視對“小數(shù)據(jù)”研究。根據(jù)數(shù)據(jù)含義、數(shù)據(jù)類型等將“大數(shù)據(jù)”拆解為“小數(shù)據(jù)”,對各個“小數(shù)據(jù)”內部情況進行詳細研究,解決好每個“小數(shù)據(jù)”內部數(shù)據(jù)質量問題。四是利用統(tǒng)計思維處理大數(shù)據(jù)。大數(shù)據(jù)應用不是將大數(shù)據(jù)扔進一個“黑盒子”中等待結果輸出,而是需要結合統(tǒng)計方法的人工全程參與。大數(shù)據(jù)方法與傳統(tǒng)統(tǒng)計方法并不沖突。未來,隨著大數(shù)據(jù)技術的進一步發(fā)展,大數(shù)據(jù)分析和預測結果將成為政府部門作出決策的重要參考和依據(jù),積極運用大數(shù)據(jù)技術和提高工作人員大數(shù)據(jù)素養(yǎng)將成為影響政府治理水平和服務能力的重要因素?!?/p>