劉瑾 張仲
摘要:隨著大數(shù)據(jù)技術(shù)的發(fā)展和數(shù)字鄉(xiāng)村政策的推進(jìn),鄉(xiāng)村大數(shù)據(jù)源將更加豐富。本文對數(shù)據(jù)質(zhì)量、數(shù)據(jù)持續(xù)性、數(shù)據(jù)可得性和數(shù)據(jù)可解釋性等作出要求,篩選出鄉(xiāng)村自然地理條件數(shù)據(jù)源、統(tǒng)計年鑒數(shù)據(jù)源、農(nóng)業(yè)普查數(shù)據(jù)源、政府部門公開數(shù)據(jù)源、政策稱號數(shù)據(jù)源、農(nóng)業(yè)企業(yè)數(shù)據(jù)源、農(nóng)業(yè)專利數(shù)據(jù)源以及農(nóng)村電子商務(wù)數(shù)據(jù)源等8類鄉(xiāng)村數(shù)據(jù)源,在傳統(tǒng)數(shù)據(jù)源基礎(chǔ)上挖掘時效性更強、維度更多的非傳統(tǒng)數(shù)據(jù)源,為“三農(nóng)”問題研究和促進(jìn)鄉(xiāng)村大數(shù)據(jù)發(fā)展提供了更多數(shù)據(jù)支撐。
關(guān)鍵詞:鄉(xiāng)村大數(shù)據(jù) 數(shù)據(jù)源研究
互聯(lián)網(wǎng)、大數(shù)據(jù)等技術(shù)的發(fā)展為鄉(xiāng)村大數(shù)據(jù)應(yīng)用創(chuàng)造了條件。相比金融大數(shù)據(jù)、城市大數(shù)據(jù),鄉(xiāng)村大數(shù)據(jù)的發(fā)展較為緩慢,促進(jìn)鄉(xiāng)村大數(shù)據(jù)發(fā)展已經(jīng)成為政府面臨的重大挑戰(zhàn)。本文將農(nóng)業(yè)、農(nóng)村和農(nóng)民相關(guān)的數(shù)據(jù)源統(tǒng)稱為鄉(xiāng)村大數(shù)據(jù)源,重點梳理農(nóng)村和農(nóng)民方面的數(shù)據(jù),從數(shù)據(jù)內(nèi)容、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)類型、數(shù)據(jù)頻率等方面對數(shù)據(jù)源進(jìn)行詳細(xì)介紹,以期為我國農(nóng)業(yè)大數(shù)據(jù)資源建沒和共享提供參考。
一、鄉(xiāng)村大數(shù)據(jù)研究的現(xiàn)實意義
隨著大數(shù)據(jù)技術(shù)發(fā)展,大數(shù)據(jù)已經(jīng)逐漸滲透到金融、醫(yī)療、城市規(guī)劃等國民經(jīng)濟的各個領(lǐng)域。當(dāng)前,大數(shù)據(jù)與云計算、人工智能等技術(shù)一起,正快速發(fā)展為發(fā)現(xiàn)新知識、創(chuàng)造新動能的新一代信息技術(shù)業(yè)態(tài),成為推動經(jīng)濟創(chuàng)新發(fā)展、促進(jìn)產(chǎn)業(yè)轉(zhuǎn)型升級的重要驅(qū)動力。
農(nóng)業(yè)農(nóng)村是大數(shù)據(jù)生產(chǎn)和應(yīng)用的重要領(lǐng)域,農(nóng)業(yè)農(nóng)村大數(shù)據(jù)是我國大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的基礎(chǔ)之一。2015年8月,國務(wù)院發(fā)布《促進(jìn)大數(shù)據(jù)發(fā)展行動綱要》,明確提出要建設(shè)國家政府?dāng)?shù)據(jù)統(tǒng)一開放平臺,逐步實現(xiàn)農(nóng)業(yè)、金融、環(huán)境等領(lǐng)域政府?dāng)?shù)據(jù)集向社會開放,發(fā)展農(nóng)業(yè)農(nóng)村大數(shù)據(jù),構(gòu)建面向鄉(xiāng)村的綜合信息服務(wù)平臺。為進(jìn)一步推動農(nóng)業(yè)農(nóng)村大數(shù)據(jù)的發(fā)展,同年12月,農(nóng)業(yè)農(nóng)村部發(fā)布《關(guān)于推進(jìn)農(nóng)業(yè)農(nóng)村大數(shù)據(jù)發(fā)展的實施意見》,提出建設(shè)國家農(nóng)業(yè)數(shù)據(jù)中心,推進(jìn)數(shù)據(jù)開放共享,支持農(nóng)業(yè)生產(chǎn)智能化等16項措施,要求到2020年底前,實現(xiàn)農(nóng)業(yè)部和省級農(nóng)業(yè)主管部門數(shù)據(jù)集向社會開放。2019年5月,中共中央辦公廳、國務(wù)院辦公廳印發(fā)《數(shù)字鄉(xiāng)村發(fā)展戰(zhàn)略綱要》,提出要從加快鄉(xiāng)村信息基礎(chǔ)設(shè)施建設(shè)、發(fā)展農(nóng)村數(shù)字經(jīng)濟等方面來建設(shè)數(shù)字鄉(xiāng)村,實現(xiàn)鄉(xiāng)村振興。在多項政策的推動下,我國農(nóng)業(yè)大數(shù)據(jù)發(fā)展取得初步成效。
目前,大數(shù)據(jù)技術(shù)在鄉(xiāng)村領(lǐng)域的應(yīng)用多集中在農(nóng)業(yè)領(lǐng)域,如利用大數(shù)據(jù)、物聯(lián)網(wǎng)、衛(wèi)星遙感等技術(shù),實時監(jiān)測農(nóng)作物生產(chǎn)狀況,實現(xiàn)農(nóng)業(yè)生產(chǎn)智能化;通過與氣象、國土、環(huán)保等部門共享數(shù)據(jù),實現(xiàn)對農(nóng)業(yè)資源環(huán)境的精準(zhǔn)監(jiān)測;利用農(nóng)產(chǎn)品大數(shù)據(jù)信息系統(tǒng),實現(xiàn)農(nóng)產(chǎn)品從生產(chǎn)、加工到銷售全流程信息查詢和可追溯等。但大數(shù)據(jù)技術(shù)在農(nóng)村方面的應(yīng)用較少,究其原因,主要有以下幾個方面:首先,相比農(nóng)作物和農(nóng)產(chǎn)品,對農(nóng)民和農(nóng)村各方面情況進(jìn)行監(jiān)測的難度較大,數(shù)據(jù)搜集耗時耗力;其次,數(shù)據(jù)的標(biāo)準(zhǔn)化程度較低,包含大量非結(jié)構(gòu)化數(shù)據(jù);最后,數(shù)據(jù)多為國家級和省級層面的宏觀數(shù)據(jù),涉及行政村、農(nóng)民個人的微觀數(shù)據(jù)較少。在此背景下,對農(nóng)村和農(nóng)民相關(guān)數(shù)據(jù)源進(jìn)行梳理十分必要。對于政府而言,農(nóng)村、農(nóng)民和農(nóng)業(yè)三者是不可分割的,獲取同農(nóng)民和農(nóng)民相關(guān)的數(shù)據(jù),有助于全面刻畫鄉(xiāng)村面貌,了解鄉(xiāng)村發(fā)展實際情況,從而制定適合鄉(xiāng)村發(fā)展的政策;對于研究部門而言,獲取更多維度、多層面的數(shù)據(jù),是構(gòu)建“三農(nóng)”問題相關(guān)模型的基礎(chǔ);對于商業(yè)機構(gòu)而言,準(zhǔn)確的信息可以進(jìn)一步消除信息不對稱,幫助其確定投資對象,降低投資風(fēng)險。
二、鄉(xiāng)村大數(shù)據(jù)研究現(xiàn)狀
在中國知網(wǎng)對“農(nóng)村大數(shù)據(jù)”“鄉(xiāng)村大數(shù)據(jù)”“三農(nóng)大數(shù)據(jù)”等關(guān)鍵詞進(jìn)行檢索,結(jié)果多為利用大數(shù)據(jù)技術(shù)促進(jìn)農(nóng)業(yè)發(fā)展或改善農(nóng)民生活的政策建議型文獻(xiàn),如孫忠富等(2017)、李曉圓和鐘偉(2019)、王巧玲(2019),尚未有文獻(xiàn)對鄉(xiāng)村數(shù)據(jù)源進(jìn)行闡述。搜索“農(nóng)業(yè)大數(shù)據(jù)”等關(guān)鍵詞,部分文獻(xiàn)對大數(shù)據(jù)在農(nóng)業(yè)方面的應(yīng)用難點、發(fā)展模式及推進(jìn)路線進(jìn)行分析,如周國民(2019)、崔磊(2019)、李娟和王洪乾(2019)、康春鵬等(2018),此類文獻(xiàn)數(shù)量較多。還有部分文獻(xiàn)對農(nóng)業(yè)大數(shù)據(jù)平臺的構(gòu)建方法及實踐進(jìn)行研究,王麗娟等(2018)分析了農(nóng)業(yè)大數(shù)據(jù)平臺的系統(tǒng)架構(gòu)、關(guān)鍵技術(shù)以及應(yīng)用實踐;朱亮等(2019)介紹了湖南省農(nóng)業(yè)氣象大數(shù)據(jù)平臺,該平臺利用大數(shù)據(jù)技術(shù),實現(xiàn)了農(nóng)業(yè)氣象數(shù)據(jù)的收集、存儲和智能化應(yīng)用;孟祥寶等(2014)設(shè)計了農(nóng)業(yè)大數(shù)據(jù)智能分析平臺,并對其中的重點技術(shù)和主要應(yīng)用方向進(jìn)行介紹。但上述文獻(xiàn)均未提及農(nóng)業(yè)數(shù)據(jù)源。
2019年以來,出現(xiàn)數(shù)篇文獻(xiàn)對農(nóng)業(yè)數(shù)據(jù)庫和農(nóng)業(yè)大數(shù)據(jù)源進(jìn)行研究。趙瑞雪等( 2019)對國內(nèi)外農(nóng)業(yè)生產(chǎn)活動中長期積累的海量數(shù)據(jù)進(jìn)行梳理,從數(shù)據(jù)源來看,主要有12個國外數(shù)據(jù)源和30個國內(nèi)數(shù)據(jù)源(包括6個地方政府開放數(shù)據(jù)源),從內(nèi)容來看可以分為:自然環(huán)境與自然資源數(shù)據(jù)——氣象數(shù)據(jù)、資源數(shù)據(jù)、自然災(zāi)害數(shù)據(jù)等,農(nóng)業(yè)生產(chǎn)數(shù)據(jù)——農(nóng)林牧漁生產(chǎn)環(huán)境數(shù)據(jù)、飼料數(shù)據(jù)、宏觀農(nóng)業(yè)經(jīng)濟數(shù)據(jù)等,生命科學(xué)和物種數(shù)據(jù)——生物物種數(shù)據(jù)、基因數(shù)據(jù)、微生物與病毒數(shù)據(jù)等;姜侯等(2019)總結(jié)了農(nóng)業(yè)大數(shù)據(jù)的獲取途徑,包括農(nóng)業(yè)物聯(lián)網(wǎng)數(shù)據(jù)、農(nóng)業(yè)遙感和無人機數(shù)據(jù)、農(nóng)業(yè)網(wǎng)絡(luò)數(shù)據(jù)、科研及農(nóng)戶生產(chǎn)經(jīng)驗數(shù)據(jù)等;許哲平等(2019)對國內(nèi)外同農(nóng)業(yè)生物多樣性相關(guān)的大數(shù)據(jù)平臺進(jìn)行梳理,并將其分為基礎(chǔ)數(shù)據(jù)平臺、作物數(shù)據(jù)平臺、家畜數(shù)據(jù)平臺、林業(yè)數(shù)據(jù)平臺、漁業(yè)數(shù)據(jù)平臺等類型。這些文獻(xiàn)的出現(xiàn),說明學(xué)術(shù)界對農(nóng)業(yè)大數(shù)據(jù)源的關(guān)注度正在提高,但這些文獻(xiàn)缺乏對農(nóng)民和農(nóng)村方面大數(shù)據(jù)源的研究。當(dāng)前,尚未有文獻(xiàn)對鄉(xiāng)村大數(shù)據(jù)源進(jìn)行系統(tǒng)性總結(jié),而這一工作是進(jìn)行鄉(xiāng)村大數(shù)據(jù)實踐的前提,有必要按照一定邏輯結(jié)構(gòu)和篩選條件對現(xiàn)有鄉(xiāng)村大數(shù)據(jù)源進(jìn)行研究。
三、鄉(xiāng)村大數(shù)據(jù)定義及數(shù)據(jù)篩選原則
大數(shù)據(jù)是一個囊括了海量數(shù)據(jù)基礎(chǔ)、快速數(shù)據(jù)分析技術(shù)、專業(yè)數(shù)據(jù)處理軟件等在內(nèi)的綜合生態(tài)系統(tǒng),是利用數(shù)據(jù)整合和分析技術(shù)對復(fù)雜多樣的數(shù)據(jù)進(jìn)行專業(yè)化處理,最終獲取有價值信息的能力。鄉(xiāng)村大數(shù)據(jù)是大數(shù)據(jù)在鄉(xiāng)村領(lǐng)域的應(yīng)用和實踐,它是指以大數(shù)據(jù)技術(shù)為手段,運用大數(shù)據(jù)理念、模型和方法來搜集、挖掘和分析鄉(xiāng)村領(lǐng)域的海量數(shù)據(jù),從中獲取有用信息,從而為相關(guān)主體進(jìn)行決策和開展生產(chǎn)經(jīng)營活動提供數(shù)據(jù)支撐的過程。鄉(xiāng)村大數(shù)據(jù)是從數(shù)據(jù)收集到數(shù)據(jù)分析,再到數(shù)據(jù)應(yīng)用的全流程,本文重點研究鄉(xiāng)村大數(shù)據(jù)的第一步——鄉(xiāng)村大數(shù)據(jù)源,涉及三農(nóng)數(shù)據(jù)的各個方面,既包括農(nóng)村經(jīng)濟發(fā)展方面的數(shù)據(jù),也包括農(nóng)村基層管理和基礎(chǔ)設(shè)施建設(shè)方面的數(shù)據(jù);既包括農(nóng)民人口結(jié)構(gòu)和受教育情況等方面的數(shù)據(jù),也包括農(nóng)民生活環(huán)境和生活條件等方面的數(shù)據(jù)。
鄉(xiāng)村大數(shù)據(jù)的數(shù)據(jù)來源主體多,數(shù)據(jù)類型復(fù)雜多樣,本文將根據(jù)按照數(shù)據(jù)質(zhì)量高、數(shù)據(jù)持續(xù)性強、數(shù)據(jù)可得性強、數(shù)據(jù)可解釋性強等原則對鄉(xiāng)村大數(shù)據(jù)源進(jìn)行篩選。一是數(shù)據(jù)來源可靠,本文將重點梳理政府部門公開數(shù)據(jù)、數(shù)據(jù)庫數(shù)據(jù),不梳理從互聯(lián)網(wǎng)網(wǎng)頁爬取的數(shù)據(jù)等可信度較差的數(shù)據(jù);數(shù)據(jù)缺失值少,數(shù)據(jù)集較為完整。二是數(shù)據(jù)能夠在保持結(jié)構(gòu)相對穩(wěn)定的同時,按照一定頻率持續(xù)進(jìn)行更新,從而滿足使用者的長期使用需求。三是盡量采用公開數(shù)據(jù),不采用調(diào)研數(shù)據(jù)或需要通過私人渠道才能獲取的數(shù)據(jù);盡量以較低成本獲取數(shù)據(jù),無需通過購買便可獲取或獲取成本較低。四是對鄉(xiāng)村大數(shù)據(jù)源進(jìn)行梳理最終是要服務(wù)于鄉(xiāng)村發(fā)展,獲取的數(shù)據(jù)必須具有實際含義,必須同鄉(xiāng)村某方面具有較強相關(guān)性,能夠?qū)ο嚓P(guān)變化進(jìn)行解釋,從而保證數(shù)據(jù)具有較高的使用價值。
四、鄉(xiāng)村大數(shù)據(jù)源系統(tǒng)的構(gòu)建
本文將構(gòu)建多立體化、多層次、多維度的鄉(xiāng)村大數(shù)據(jù)源系統(tǒng),通過鄉(xiāng)村的行政區(qū)域、地理位置和自然條件,利用宏觀數(shù)據(jù)與微觀數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)等,對省、市、縣、鄉(xiāng)不同行政區(qū)劃的鄉(xiāng)村發(fā)展情況進(jìn)行描述。
(一)鄉(xiāng)村行政區(qū)域、地理位置、自然條件數(shù)據(jù)
行政區(qū)劃為鄉(xiāng)村大數(shù)據(jù)源系統(tǒng)提供了基本框架和結(jié)構(gòu),地理位置決定了鄉(xiāng)村之間的空間關(guān)系,自然條件是鄉(xiāng)村發(fā)展的客觀要素,這三項為鄉(xiāng)村方面的研究提供了最為基礎(chǔ)的信息。國家統(tǒng)計局網(wǎng)站的統(tǒng)計用區(qū)劃代碼提供了?。ɑ蛑陛犑?、自治區(qū))、市(或區(qū)、州)、縣(或市轄區(qū)、縣級市)、鄉(xiāng)(或鎮(zhèn)、街道)、村委會(或居委員會)的行政區(qū)劃名稱及其代碼信息,利用該信息可以找到每個行政村的上級歸屬。
對于地理位置信息,可以使用百度地圖、高德地圖等公開的地圖軟件進(jìn)行搜索和定位,利用該信息可以確定行政村在全國、全省、全市、全縣、全鄉(xiāng)的絕對位置以及同其他行政村的相對位置,還可以確定行政村是否處于省份邊界或國家邊界、是否位于自貿(mào)區(qū)或開發(fā)區(qū)內(nèi)部等等。
自然條件主要包括自然環(huán)境和自然資源等。國家氣象信息中心的中國氣象數(shù)據(jù)網(wǎng)(http://www.nmic.cn/)在農(nóng)氣資料板塊,提供了分省份的農(nóng)作物生長發(fā)育和農(nóng)田土壤濕度旬值數(shù)據(jù)集、農(nóng)作物產(chǎn)量資料旬值數(shù)據(jù)集和農(nóng)業(yè)氣象災(zāi)情旬值數(shù)據(jù)集等3個數(shù)據(jù)集。此外,網(wǎng)站還提供了地面資料、高空資料、海洋資料、輻射資料、雷達(dá)資料、氣象災(zāi)害等方面的數(shù)據(jù)集,以及實時的氣象動態(tài)信息。生態(tài)環(huán)境部網(wǎng)站(http://www.mee.gov.cn/)提供了環(huán)境質(zhì)量、污染防治和生態(tài)保護(hù)方面的數(shù)據(jù),其中,秸稈焚燒監(jiān)測報告同農(nóng)業(yè)最為相關(guān)。中國科學(xué)院地理科學(xué)與資源研究所的自然資源數(shù)據(jù)平臺(http://www.data.ac.cn/)是資源大數(shù)據(jù)平臺,其中,自然資源及其開發(fā)利用板塊提供了關(guān)于水資源、土地資源、氣候資源、能源資源、旅游資源、森林資源、漁業(yè)資源、草場資源等229個數(shù)據(jù)集,生態(tài)環(huán)境數(shù)據(jù)板塊提供了關(guān)于土壤植被和環(huán)境監(jiān)測等16個數(shù)據(jù)集。
(二)統(tǒng)計年鑒數(shù)據(jù)
統(tǒng)計年鑒是進(jìn)行“三農(nóng)”問題研究中最為常用的數(shù)據(jù)源,數(shù)據(jù)具有權(quán)威性、總體性和滯后性等特點。根據(jù)年鑒的層次和內(nèi)容,可以分別對年鑒進(jìn)行分類:從年鑒發(fā)布主體來看,可以分為省級層面和市級層面?!吨袊r(nóng)村統(tǒng)計年鑒》《中國農(nóng)業(yè)年鑒》《中國教育統(tǒng)計年鑒》等國家級年鑒中,包含的是全國層面和省級層面數(shù)據(jù);市級層面的數(shù)據(jù)來源于各省發(fā)布的統(tǒng)計年鑒、調(diào)查年鑒、經(jīng)濟年鑒等。如四川省每年都會編制《四川統(tǒng)計年鑒》,其中有四川省及其下屬市(州)的農(nóng)業(yè)數(shù)據(jù)。從數(shù)據(jù)內(nèi)容來看,可以分為鄉(xiāng)村數(shù)據(jù)和農(nóng)業(yè)數(shù)據(jù)。鄉(xiāng)村數(shù)據(jù)的主要來源是《中國農(nóng)村統(tǒng)計年鑒》,其中包含了大量與農(nóng)業(yè)、農(nóng)村和農(nóng)民相關(guān)的數(shù)據(jù)。此外,《中國民政統(tǒng)計年鑒》《中國人口和就業(yè)統(tǒng)計年鑒》等也包含部分涉農(nóng)數(shù)據(jù),需要單獨進(jìn)行提取;農(nóng)業(yè)數(shù)據(jù)的年鑒數(shù)據(jù)源廣泛,《中國農(nóng)業(yè)年鑒》《中國農(nóng)村統(tǒng)計資料》《中國農(nóng)墾統(tǒng)計年鑒》等包含了大量農(nóng)業(yè)生產(chǎn)、農(nóng)田水利、農(nóng)產(chǎn)品數(shù)據(jù)。
(三)農(nóng)業(yè)普查資料數(shù)據(jù)
1996年、2006年和2016年,我國共進(jìn)行了三次全國農(nóng)業(yè)普查。農(nóng)業(yè)普查數(shù)據(jù)數(shù)據(jù)具有數(shù)據(jù)全、維度多、頻率低等特點。目前,農(nóng)業(yè)普查數(shù)據(jù)主要有三個來源:一是各省份政府網(wǎng)站公布的全國農(nóng)業(yè)普查主要數(shù)據(jù)公報。由于第一次全國農(nóng)業(yè)普查時間較早,各省份的政府網(wǎng)站尚未建設(shè),因此,政府網(wǎng)站目前只提供了第二次和第三次全國農(nóng)業(yè)普查的主要數(shù)據(jù)公報。以第三次全國農(nóng)業(yè)普查為例,公報一般包括農(nóng)業(yè)農(nóng)村農(nóng)民基本情況、農(nóng)業(yè)經(jīng)營主體、農(nóng)業(yè)機械和設(shè)備、農(nóng)村基礎(chǔ)設(shè)施建設(shè)和基本社會服務(wù)、農(nóng)民生活條件、農(nóng)業(yè)生產(chǎn)經(jīng)營人員情況五個部分,少數(shù)地區(qū)會對內(nèi)容進(jìn)行補充和調(diào)整,但各省份的結(jié)構(gòu)基本一致。該數(shù)據(jù)源的優(yōu)點是能夠?qū)Ω魇》萼l(xiāng)村發(fā)展數(shù)據(jù)有準(zhǔn)確全面了解,缺點是數(shù)據(jù)需要進(jìn)行提取和整理。二是《全國農(nóng)業(yè)普查綜合資料》。每次普查結(jié)束后,國家統(tǒng)計局都會將數(shù)據(jù)編撰匯總為綜合資料書籍出版,并提供Excel格式的數(shù)據(jù)。從第一次普查到第三次普查,數(shù)據(jù)愈加詳細(xì)、層次愈加豐富,以第三次全國農(nóng)業(yè)普查綜合資料為例,分為普查對象基本情況、農(nóng)業(yè)生產(chǎn)條件和生產(chǎn)狀況、農(nóng)村基礎(chǔ)設(shè)施建設(shè)和基本社會服務(wù)、農(nóng)民生活質(zhì)量四部分,共199張表。相比主要數(shù)據(jù)公報,綜合資料的數(shù)據(jù)使用更加方便,包含的內(nèi)容也更全面。三是國家統(tǒng)計局第三次全國農(nóng)業(yè)普查微觀數(shù)據(jù)庫。該數(shù)據(jù)庫中的數(shù)據(jù)來自從第三次農(nóng)業(yè)普查中抽取的部分樣本記錄,包括2萬個農(nóng)業(yè)經(jīng)營單位的4206萬筆普查數(shù)據(jù)、4萬戶規(guī)模農(nóng)業(yè)經(jīng)營戶的3.2億筆普查數(shù)據(jù)、23萬戶農(nóng)戶的9.6億筆普查數(shù)據(jù)、6萬條村級單位數(shù)據(jù)和4千條鄉(xiāng)級單位數(shù)據(jù)。前兩個數(shù)據(jù)源都是省份層面的數(shù)據(jù),該數(shù)據(jù)源則提供了微觀數(shù)據(jù),但缺點是需要經(jīng)過申請才能獲取數(shù)據(jù)。
(四)政府部門公開數(shù)據(jù)
當(dāng)前,中央政府部門的數(shù)據(jù)開放主要以各部門網(wǎng)站提供的數(shù)據(jù)資源為主。以民政部為例,數(shù)據(jù)資源包含統(tǒng)計公報、統(tǒng)計季報和統(tǒng)計月報。其中,統(tǒng)計公報每年提供一次,為文字和圖表形式;統(tǒng)計季報分為全國數(shù)據(jù)、省級數(shù)據(jù)、低保標(biāo)準(zhǔn)和機構(gòu)情況四部分,為表格形式;統(tǒng)計月報分為全國數(shù)據(jù)和省級數(shù)據(jù),為表格形式。這些資料提供了關(guān)于農(nóng)村最低生活保障人數(shù)、最低生活保障標(biāo)準(zhǔn)等數(shù)據(jù),但需要進(jìn)行整理和提取。 地方政府正著力搭建公共數(shù)據(jù)平臺來開放數(shù)據(jù)資源,這些平臺是真正的大數(shù)據(jù)平臺。據(jù)復(fù)旦大學(xué)發(fā)布的《2019中國開放數(shù)林指數(shù)》研究報告統(tǒng)計,截至2019年10月末,我國地方政府?dāng)?shù)據(jù)開放平臺數(shù)量為102個,其中,北京、上海、山東、廣東、浙江、貴州等多個地區(qū)都已搭建較為完善的平臺。這些平臺整合了大部分省級行政部門的數(shù)據(jù),數(shù)據(jù)規(guī)模大,如山東、福建、廣東等地網(wǎng)站開放數(shù)據(jù)量已經(jīng)過億,使用者不僅可以直接下載數(shù)據(jù),還可以通過開放API(應(yīng)用程序接口)訪問網(wǎng)站。同時,這些平臺的數(shù)據(jù)資源內(nèi)容極其豐富,包含交通、金融、農(nóng)業(yè)、資源、環(huán)境等多個領(lǐng)域,為研究區(qū)域發(fā)展提供了大量可用信息。從層級上看,除省級政府外,部分市級政府甚至縣級政府也在開放數(shù)據(jù)資源。以貴州省為例,貴州省政府開發(fā)了省級政府?dāng)?shù)據(jù)開放平臺,貴陽、遵義、銅仁、黔西南州等9個市州開發(fā)了市級政府?dāng)?shù)據(jù)開放平臺,其中貴陽市政府?dāng)?shù)據(jù)開放平臺還提供了下屬13個區(qū)縣的數(shù)據(jù)。在這些數(shù)據(jù)平臺上可以找到大量三農(nóng)信息,既包括產(chǎn)量、面積等傳統(tǒng)數(shù)據(jù),也包括行政許可、產(chǎn)品質(zhì)量檢查結(jié)果、產(chǎn)品質(zhì)量認(rèn)證等非傳統(tǒng)數(shù)據(jù)- 2019年4月,國務(wù)院發(fā)布新修訂的《政府信息公開條例》,首次明確政府部門要公開農(nóng)田水利工程建設(shè)運營、農(nóng)村土地承包經(jīng)營流轉(zhuǎn)、宅基地使用情況審核、土地征收等方面的政府信息。未來,隨著政府信息公開范圍的擴大,農(nóng)村農(nóng)業(yè)方面的數(shù)據(jù)源將更加豐富。
除上述數(shù)據(jù)源外,部分地區(qū)政府還開發(fā)了鄉(xiāng)村大數(shù)據(jù)平臺。云南省的數(shù)字鄉(xiāng)村數(shù)據(jù)統(tǒng)計查詢系統(tǒng) (http://www.ynszxc.net/tj/tj_s.aspx)是目前國內(nèi)最完善的村級微觀數(shù)據(jù)開放平臺,平臺提供了2006年到2018年云南省所有行政村的村情概況、自然資源、基礎(chǔ)設(shè)施、農(nóng)村經(jīng)濟、特色產(chǎn)業(yè)、人口衛(wèi)生、文化教育、村務(wù)公開和基層組織等9個方面數(shù)據(jù),數(shù)據(jù)資源十分豐富。貴州省政府開發(fā)的萬村千鄉(xiāng)網(wǎng)站( http://www.gzd-JW.com/wcqx/)提供了每個行政村的村情村況等介紹類信息,但尚未提供數(shù)據(jù)類信息。
(五)政策稱號數(shù)據(jù)
傳統(tǒng)的“三農(nóng)”數(shù)據(jù)以定量數(shù)據(jù)為主,但除定量數(shù)據(jù)外,定性數(shù)據(jù)在描述鄉(xiāng)村發(fā)展情況上也可發(fā)揮巨大作用,充分挖掘定性信息,將其轉(zhuǎn)化為定量數(shù)據(jù),對于刻畫鄉(xiāng)情鄉(xiāng)貌具有重要意義。在同鄉(xiāng)村相關(guān)的定性信息中,政策稱號類信息最為關(guān)鍵,其主要來源是農(nóng)業(yè)農(nóng)村部、生態(tài)環(huán)境部、住建部、科技部、財政部等部門網(wǎng)站,利用關(guān)鍵詞“稱號”“名單”等進(jìn)行搜索,可獲得眾多關(guān)于鄉(xiāng)村的政策稱號。筆者使用爬蟲系統(tǒng)來爬取相關(guān)信息,目前共獲得74個政策稱號,如農(nóng)業(yè)高新技術(shù)產(chǎn)業(yè)示范區(qū)、特色農(nóng)產(chǎn)品優(yōu)勢區(qū)、全國鄉(xiāng)村旅游重點村、中國美麗休閑鄉(xiāng)村等。這些稱號包含了大量信息,從評選過程來看,只有滿足一定標(biāo)準(zhǔn)的村、地區(qū)或企業(yè)才能獲得稱號,說明獲得政策稱號的村在某些方面的發(fā)展較好;從評選結(jié)果來看,獲得政策稱號的村往往可以獲得更多的財政支持,發(fā)展?jié)摿Ω蟆?/p>
政策稱號可以分為靜態(tài)和動態(tài)兩類:對于靜態(tài)稱號而言,新批次名單和舊批次名單共同構(gòu)成完整的信息庫;對于動態(tài)稱號而言,新批次名單會覆蓋掉舊批次名單。除國家級政策稱號外,省級政府部門也會公布本省的政策稱號,這些信息需要到各地的農(nóng)業(yè)農(nóng)村廳(局)、財政廳(局)等網(wǎng)站查詢。在實際應(yīng)用中,可以對政策稱號進(jìn)行量化,如以獲得美麗休閑鄉(xiāng)村稱號鄉(xiāng)村數(shù)量占全省鄉(xiāng)村數(shù)量的比重來衡量該省美麗鄉(xiāng)村的發(fā)展情況。
(六)農(nóng)業(yè)企業(yè)數(shù)據(jù)
當(dāng)前,研究農(nóng)業(yè)農(nóng)村問題的文獻(xiàn)對于農(nóng)業(yè)企業(yè)、鄉(xiāng)鎮(zhèn)企業(yè)數(shù)據(jù)的關(guān)注較少。農(nóng)業(yè)企業(yè)是一二三產(chǎn)業(yè)融合的典型模式,發(fā)展農(nóng)業(yè)企業(yè)有助于提高農(nóng)村就業(yè)率,轉(zhuǎn)變鄉(xiāng)村發(fā)展方式。農(nóng)業(yè)企業(yè)數(shù)據(jù)源主要有兩個:一是國家企業(yè)信用信息公示系統(tǒng)(http://www.gsxt.gov.cn),該系統(tǒng)是國家市場監(jiān)督管理總局搭建的企業(yè)信息查詢平臺??梢酝ㄟ^輸入“農(nóng)業(yè)”“農(nóng)產(chǎn)品”“農(nóng)村”等關(guān)鍵詞進(jìn)行查詢,對于每一條查詢結(jié)果,平臺都提供了其基礎(chǔ)信息(如注冊地、成立時間、主營業(yè)務(wù)等)、行政許可信息、行政處罰信息、列入經(jīng)營異常名錄信息和列入嚴(yán)重違法失信企業(yè)名單(黑名單)信息。二是Wind數(shù)據(jù)庫、國泰安數(shù)據(jù)庫等經(jīng)濟數(shù)據(jù)庫,可以獲取上市的農(nóng)業(yè)公司數(shù)據(jù),包括公司的基本資料、財務(wù)信息等。
(七)農(nóng)業(yè)專利數(shù)據(jù)
農(nóng)業(yè)專利的數(shù)量和質(zhì)量可以很好地衡量地區(qū)農(nóng)業(yè)科技發(fā)展水平。國家知識產(chǎn)權(quán)局專利檢索系統(tǒng)收錄了1985年以來我國所有公開的專利信息,包括專利號、名稱、申請日、地址等信息。系統(tǒng)提供了單一和復(fù)合兩種檢索方式,在檢索區(qū)可按照“農(nóng)”“農(nóng)業(yè)”“農(nóng)村”“養(yǎng)殖”“種植”等關(guān)鍵字和關(guān)鍵詞進(jìn)行查找,得到相關(guān)專利的具體信息,該系統(tǒng)提供了專利的免費下載服務(wù)。
2010年開始,中國農(nóng)業(yè)科學(xué)院知識產(chǎn)權(quán)研究中心每年都會發(fā)布《中國農(nóng)業(yè)知識產(chǎn)權(quán)創(chuàng)造指數(shù)報告》,報告使用的專利數(shù)據(jù)來自于國家知識產(chǎn)權(quán)局專利數(shù)據(jù)庫,報告提供了全國農(nóng)業(yè)知識產(chǎn)權(quán)創(chuàng)造指數(shù)、區(qū)域和單位農(nóng)業(yè)知識產(chǎn)權(quán)創(chuàng)造指數(shù)、農(nóng)業(yè)知識產(chǎn)權(quán)密集度指數(shù)等指數(shù)成果和大量農(nóng)業(yè)科技統(tǒng)計數(shù)據(jù)。
(八)農(nóng)村電子商務(wù)數(shù)據(jù)
2013年,阿里巴巴集團舉辦首屆中國淘寶村高峰論壇,公布了19個淘寶村的名單。此后,每年的高峰論壇都會發(fā)布《中國淘寶村研究報告》,到2019年,我國淘寶村數(shù)量超過4300個。淘寶村的電子商務(wù)發(fā)展水平、物流水平都比普通村莊高。同時,淘寶村的發(fā)展模式也為農(nóng)業(yè)和服務(wù)業(yè)融合提供了一條可行的道路,為農(nóng)村創(chuàng)業(yè)創(chuàng)收提供了更多機會。通過研究淘寶村的地域分布,可以獲得不同地區(qū)農(nóng)村電子商務(wù)發(fā)展情況等相關(guān)信息。
Wind數(shù)據(jù)庫的“電商大數(shù)據(jù)”子庫每日采集各家上市公司在天貓、京東等線上電商平臺開設(shè)的旗艦店、直營店的銷售數(shù)據(jù),數(shù)據(jù)覆蓋193家A股公司、21家港股上市公司、17家全球上市公司及其下屬875個品牌的線上銷售數(shù)據(jù)。利用該數(shù)據(jù)庫,通過關(guān)鍵詞查詢,可以獲得農(nóng)產(chǎn)品銷售數(shù)據(jù)、上市農(nóng)業(yè)企業(yè)銷售數(shù)據(jù)等信息。
參考文獻(xiàn)
[1]孫忠富,褚金翔,馬浚誠,杜克明,鄭飛翔.大數(shù)據(jù)服務(wù)三農(nóng)的初步分析與探索[J].大數(shù)據(jù),2017,3(03):33-43.
[2]李曉園,鐘偉.大數(shù)據(jù)驅(qū)動中國農(nóng)村精準(zhǔn)脫貧的現(xiàn)實困境與路徑選擇[J].求實,2019(05):78-87+111.
[3]王巧玲.大數(shù)據(jù)背景下我國農(nóng)村經(jīng)濟與旅游業(yè)結(jié)合發(fā)展探析[J]農(nóng)業(yè)經(jīng)濟,2019(07):39-40.
[4]周國民.我國農(nóng)業(yè)大數(shù)據(jù)應(yīng)用進(jìn)展綜述[J].農(nóng)業(yè)大數(shù)據(jù)學(xué)報,2019,1(01):16-23.
[5]崔磊.農(nóng)業(yè)大數(shù)據(jù)建設(shè)的需求、模式與單品種全產(chǎn)業(yè)鏈推進(jìn)路徑卟大數(shù)據(jù).2019,5(05):100-108.
[6]李娟,王洪乾.鄉(xiāng)村振興背景下大數(shù)據(jù)農(nóng)業(yè)的實踐經(jīng)驗及政策設(shè)計U]上海大學(xué)學(xué)報(社會科學(xué)版),2019,36(03):96-106.
[7]康春鵬,董春巖,王文月,藺彩霞.我國農(nóng)業(yè)農(nóng)村大數(shù)據(jù)發(fā)展應(yīng)用研究[J].中國農(nóng)業(yè)信息,2018,30(06):100-104.
[8]王麗娟,信麗媛,賈寶紅,原少輝.農(nóng)業(yè)大數(shù)據(jù)平臺的研究進(jìn)展與應(yīng)用現(xiàn)狀卟天津農(nóng)業(yè)科學(xué),2018,24(10):10-12+21.
[9]朱亮,鐘艷雯,賀煒,羅林艷,歐陽計躍.基于分布式的農(nóng)業(yè)氣象大數(shù)據(jù)平臺設(shè)計與實現(xiàn)[J].湖北農(nóng)業(yè)科學(xué),2019,58(06):128-130.
[10]孟祥寶,謝秋波,劉海峰,楊小英.農(nóng)業(yè)大數(shù)據(jù)應(yīng)用體系架構(gòu)和平臺建設(shè)卟廣東農(nóng)業(yè)科學(xué),2014,41(14):173-178.
[11]趙瑞雪,趙華,朱亮.國內(nèi)外農(nóng)業(yè)科學(xué)大數(shù)據(jù)建設(shè)與共享進(jìn)展卟農(nóng)業(yè)大數(shù)據(jù)學(xué)報,2019,1(01):24-37.
[12]姜侯,楊雅萍,孫九林.農(nóng)業(yè)大數(shù)據(jù)研究與應(yīng)用U].農(nóng)業(yè)大數(shù)據(jù)學(xué)報,2019,1(01):5-15.
[13]許哲平,邵曾婷,朱學(xué)軍,王昉,王媛媛,肖曼,馬克平.農(nóng)業(yè)生物多樣性大數(shù)據(jù)平臺建設(shè)研究和展望[J].農(nóng)業(yè)大數(shù)據(jù)學(xué)報,2019,1(02):76-87.
Research on the Types of Rural Big Data Sources
Liu Jin , Zhang Zhong
Ahstract: with the development of big data technology and the promotion of digital rural policy, the rural hig datasources will he more ahundant. In this paper, data quality, data continuity, data availahility and data explainahility arerequired, and eight types of rural data sources are selected, including data sources of rural physical geographical condi-tions. data sources of statistical yearbook. data sources of agricultural census, open data sources of govemment depart-ments. data sources of policy titles, data sources of agricultural enterprises, data sources of agricultural patents and datasources of rural e-commerce, mining non-traditional data sources with stronger timeliness and more dimensions on thebasis of traditional data sources. these sources provides more data support for the research on the rural issues and thedevelopment of big data in rural areas.
(作者單位 :國務(wù)院發(fā)展研究中心信息網(wǎng) .中國人經(jīng)濟學(xué)院 )
責(zé)任編輯 :欣文