王竟儼, 侯彥東
(河南大學計算機與信息工程學院,河南開封 475004)
農(nóng)業(yè)、農(nóng)村、農(nóng)民問題在我國簡稱為“三農(nóng)”問題.“三農(nóng)”問題最早是在1996年由經(jīng)濟學家溫軼軍正式提出,是當前我國發(fā)展面臨的主要問題之一[1]. 鄒玉杰等認為重視并解決“三農(nóng)”問題是我國歷史進程中,特別是改革開放以來十分重要的亮點[2]. 農(nóng)業(yè)普查是深入了解當前我國“三農(nóng)”基本情況的一種有效方式.我國最新農(nóng)業(yè)普查(即第三次農(nóng)業(yè)普查)的時間是2016 年12 月,普查內(nèi)容主要包括農(nóng)業(yè)從業(yè)者信息、農(nóng)業(yè)土地使用細則、農(nóng)業(yè)勞作情況、新型農(nóng)業(yè)發(fā)展狀況以及新農(nóng)村在環(huán)境、文化、生活上的建設情況等[3]. 對全國最新的農(nóng)業(yè)普查數(shù)據(jù)進行統(tǒng)計分析,有助于統(tǒng)籌把控當前我國“三農(nóng)”的基本狀況和問題,有助于有針對性地制定政策、推進改革、解決“三農(nóng)”問題[4-5]. 李小麗通過統(tǒng)計分析我國第三次農(nóng)業(yè)普查數(shù)據(jù)得出,不同地區(qū)和不同省份之間登記農(nóng)戶數(shù)量存在差異[6]. 劉穎晴等對遼寧省農(nóng)村經(jīng)濟發(fā)展統(tǒng)計數(shù)據(jù)分析得出遼寧省存在城鄉(xiāng)發(fā)展不均衡的問題,并提出了應該主動調(diào)整產(chǎn)業(yè)結(jié)構(gòu)以振興遼寧省農(nóng)村事業(yè)的建議[7]. 胡國強等根據(jù)河南省第三次農(nóng)業(yè)普查結(jié)果對河南省農(nóng)業(yè)現(xiàn)狀分析發(fā)現(xiàn)河南省農(nóng)業(yè)生產(chǎn)規(guī)模不足,并結(jié)合河南省實際情況提出河南省的發(fā)展要注重科研項目帶動、業(yè)績考核助推、供需市場調(diào)節(jié)等多種形式并用的政策建議[8].高貴現(xiàn)通過對第三次農(nóng)業(yè)普查結(jié)果分析得出,我國當前新型農(nóng)業(yè)主體發(fā)展存在不平衡問題[9]. 高園園等則主要分析了第三次農(nóng)業(yè)普查中我國的地理國情,為未來我國地理國情的發(fā)展提供了依據(jù)和方向[10]. 司麗分析了影響全國農(nóng)業(yè)普查質(zhì)量的相關因素,并提出了改進普查方式方面的建議[11].
隨著社會科學的不斷進步,互聯(lián)網(wǎng)科技大數(shù)據(jù)的發(fā)展為我國“三農(nóng)”的發(fā)展帶來了巨大的機遇[12]. 對數(shù)據(jù)進行統(tǒng)計分析的網(wǎng)絡工具有很多,其中Anaconda是一個免費開源的Python語言的發(fā)行版本,主要用于計算科學(數(shù)據(jù)科學、機器學習、大數(shù)據(jù)處理和預測分析),致力于簡化軟件包管理系統(tǒng)和部署. Python是一種面向?qū)ο笤O計的計算機編程語言[13-14],能夠?qū)崿F(xiàn)快速開發(fā)應用,同時Python因具有免費、開源、可擴展性強以及帶有十分豐富的計算庫等優(yōu)勢而逐步成為市場主流計算機編程語言之一[15]. PyEcharts則是一款強大的可視化工具[16],最初來源于Echarts. Echarts最初是百度公司開發(fā)的一款基于JS強大的可視化庫,Echarts具有良好的交互性以及精巧的圖標設計等優(yōu)勢,Echarts結(jié)合Python編程語言形成了強大的數(shù)據(jù)可視化工具PyEcharts.
目前研究“三農(nóng)”問題和統(tǒng)計分析農(nóng)業(yè)普查結(jié)果的相關文獻很多,但是這些文獻缺少對農(nóng)業(yè)普查中登記農(nóng)戶數(shù)量在不同地區(qū)的差異性研究,而且對于普查方式也關注較少. 此外,大部分研究沒有對鄉(xiāng)鎮(zhèn)、村醫(yī)療和社會福利機構(gòu)的覆蓋率問題進行有效探討. 鑒于此,本文以第三次全國農(nóng)業(yè)普查結(jié)果為研究對象,利用Anaconda3 版本下的Python3.6 實現(xiàn)編程實驗,使用PyEcharts 可視化工具對不同地區(qū)的登記農(nóng)戶數(shù)量、普查方式以及鄉(xiāng)鎮(zhèn)、村醫(yī)療和社會福利機構(gòu)覆蓋率情況進行了統(tǒng)計分析,以期為我國未來“三農(nóng)”政策的制定、現(xiàn)代農(nóng)業(yè)的發(fā)展和農(nóng)民收入的提高提供參考.
本文主要選取我國第三次農(nóng)業(yè)普查結(jié)果中31個省(自治區(qū)、直轄市)的登記農(nóng)戶數(shù)量、普查方式以及鄉(xiāng)鎮(zhèn)、村醫(yī)療和社會福利機構(gòu)覆蓋率作為主要研究對象. 在國家統(tǒng)計局官網(wǎng)上的關于第三次全國農(nóng)業(yè)普查結(jié)果中的數(shù)據(jù)報告欄中獲取這三項數(shù)據(jù)結(jié)果. 獲取方式:國家統(tǒng)計局官網(wǎng)(http://www.stats.gov.cn/tjsj/pcsj/)中找到普查數(shù)據(jù)一欄,在該欄中的農(nóng)業(yè)普查類別中找到以上三項普查數(shù)據(jù)結(jié)果,下載并保存數(shù)據(jù),數(shù)據(jù)文件以pdf格式存儲到本地.
本研究所需實驗平臺的詳細配置參數(shù)如表1所示.
Python 讀取數(shù)據(jù)時處理的是Excel 格式的數(shù)據(jù)[17-18],而最初獲取的數(shù)據(jù)是pdf 格式,因此需要通過文本工具將pdf格式的農(nóng)業(yè)普查數(shù)據(jù)集轉(zhuǎn)換成Excel 格式,轉(zhuǎn)換完成后每一張表對應一類數(shù)據(jù)集,刪去每一張表的表頭內(nèi)容和表中多余內(nèi)容,如頁碼(后期如有需要可以再添加)等.轉(zhuǎn)換完成后,通過導入pandas庫(import pandas as pd),在代碼界面通過讀取文件代碼讀取每一張表中包含所需的數(shù)據(jù).
表1 實驗平臺詳細參數(shù)配置Tab.1 Detailed parameter configuration of the experimental platform
因篇幅限制,僅介紹2個問題的數(shù)據(jù)處理過程. 根據(jù)問題1(各地區(qū)普查登記農(nóng)戶數(shù)量中四大地區(qū)登記農(nóng)戶數(shù)量差異情況)和問題2(各地區(qū)普查登記農(nóng)戶數(shù)量中不同地區(qū)登記農(nóng)戶數(shù)量差異情況),需要對所選列進行篩選,對每個數(shù)據(jù)集進行適當?shù)仡A處理.
問題1:
用pyecharts.Bar和Pie方法分析各地區(qū)普查登記農(nóng)戶數(shù)量中四大地區(qū)登記農(nóng)戶數(shù)量差異情況:讀取對應數(shù)據(jù)集,獲取自變量和因變量對應列值. 由問題1內(nèi)容分析得,采用餅圖能較好的體現(xiàn)四大地區(qū)登記農(nóng)戶數(shù)的數(shù)量差異,易于后期分析. 分析過程:
因問題2是分析不同地區(qū)的登記農(nóng)戶數(shù)量,使用餅圖無法呈現(xiàn)多地區(qū)差異的可視化分析圖,使用直方圖能較好地體現(xiàn)不同地區(qū)的農(nóng)戶數(shù)量情況. 分析過程:
從讀取的數(shù)據(jù)中獲得各數(shù)據(jù)集的基本信息如下:各地區(qū)普查登記農(nóng)戶數(shù)量數(shù)據(jù)集共有36條數(shù)據(jù),每條數(shù)據(jù)包含地區(qū)、登記農(nóng)戶數(shù)量、普通農(nóng)戶登記數(shù)量、規(guī)模農(nóng)業(yè)經(jīng)營戶登記數(shù)量;各地區(qū)普查方式數(shù)據(jù)集中共有36條數(shù)據(jù),每條數(shù)據(jù)包含地區(qū)、遙感實地調(diào)查數(shù)量、衛(wèi)星影像數(shù)量、樣方數(shù)量、遙感抽中普查區(qū)數(shù)量、無人機整村架次數(shù)量. 詳細的登記農(nóng)戶數(shù)量信息和普查方式信息如表2所示. 此外,鄉(xiāng)鎮(zhèn)、村醫(yī)療和社會福利機構(gòu)數(shù)據(jù)集共包含6列6條數(shù)據(jù),分別為:有醫(yī)療衛(wèi)生機構(gòu)的鄉(xiāng)鎮(zhèn)、有執(zhí)業(yè)(助理)醫(yī)師的鄉(xiāng)鎮(zhèn)、有社會福利收養(yǎng)性單位的鄉(xiāng)鎮(zhèn)、有本級政府創(chuàng)辦的敬老院的鄉(xiāng)鎮(zhèn)、有衛(wèi)生室的村、有執(zhí)業(yè)(助理)醫(yī)師的村這6個類別.
表2 登記農(nóng)戶數(shù)量和普查方式統(tǒng)計結(jié)果Tab.2 Statistics on the number of registered farm households and the census method
圖1 四大地區(qū)登記農(nóng)戶數(shù)量Fig.1 Number of registered farmers in the four major regions
首先采用PyEcharts可視化工具對四大地區(qū)普查登記農(nóng)戶數(shù)量進行統(tǒng)計分析,結(jié)果如圖1所示. 由圖1可以看出,四大地區(qū)中,東部地區(qū)和西部地區(qū)登記農(nóng)戶數(shù)量相對比較均衡,均超過七千萬戶;中部地區(qū)略少,但是也接近七千萬戶;只有東北地區(qū)登記農(nóng)戶數(shù)量最少,大約有1200 萬戶,與其他三大地區(qū)差異顯著. 造成東北地區(qū)登記農(nóng)戶數(shù)量少的原因主要有兩點:①東北地區(qū)所包含的省份相對于其他三大地區(qū)數(shù)量較少,只有遼寧省、吉林省和黑龍江省三個省份;②東北地區(qū)氣候寒冷,土地條件較差,無法保證莊稼作物有良好的收成,從而使得大多數(shù)當?shù)厝瞬辉赋蔀檗r(nóng)民,而是選擇其他生活方式謀生.其次采用PyEcharts 可視化工具對31 個?。ㄗ灾螀^(qū)、直轄市)普查登記農(nóng)戶數(shù)量進行統(tǒng)計分析,結(jié)果如圖2所示. 由圖2可以看出,31個?。ㄗ灾螀^(qū)、直轄市)的登記農(nóng)戶數(shù)量差異明顯,其中登記農(nóng)戶數(shù)量最多的三個地區(qū)從高到低依次為山東省、河南省、四川省,這三個地區(qū)登記農(nóng)戶數(shù)量均在1800萬戶左右;登記農(nóng)戶數(shù)量最少的地區(qū)為西藏自治區(qū). 山東省、河南省和四川省作為人口大省,人口基數(shù)大,地區(qū)氣候以及地形適合耕種,所以登記的農(nóng)戶數(shù)量最多. 登記農(nóng)戶數(shù)量較少的地區(qū)大致分為兩類:一類是經(jīng)濟實力較發(fā)達的地區(qū),如上海市、北京市和天津市等,這些地區(qū)因其定位不同,所以可耕種的土地面積少,因此人們往往選擇其他方式賺錢;另一類是土地條件較差的地區(qū),如西藏自治區(qū)、新疆維吾爾自治區(qū)、青海省、寧夏回族自治區(qū)等,這些地區(qū)因氣候海拔條件較為惡劣導致其土地條件也相對較差,無法滿足人們種地需求,所以人們也往往選擇其他方式賺錢.
圖2 31個省(自治區(qū)、直轄市)登記農(nóng)戶數(shù)量Fig.2 Number of registered farmers in 31 provinces(autonomous regions and municipalities)
首先利用PyEcharts可視化工具對31個?。ㄗ灾螀^(qū)、直轄市)普查方式數(shù)據(jù)進行統(tǒng)計分析,結(jié)果如圖3所示. 由圖3可以看出,31個?。ㄗ灾螀^(qū)、直轄市)進行第三次農(nóng)業(yè)普查時使用無人機的架次較少,僅有2726次,大部分地區(qū)均未開始使用無人機,主要原因是2016 年開始第三次農(nóng)業(yè)普查時是第一次使用無人機作為普查工具,當時無人機的數(shù)量還不足以支撐所有普查的地區(qū)使用. 另外,從1.3小節(jié)的數(shù)據(jù)介紹中可知,只有廣東省大量使用了無人機進行普查,原因在于廣東省經(jīng)濟較為發(fā)達,有條件支持發(fā)展無人機勘察. 總體來看,遙感抽中普查區(qū)也較少,原因有兩個:①為了確保樣本抽選的隨機性、調(diào)查可操作性以及分布合理性,往往要按照不同地形以及農(nóng)作物遙感測量的誤差精度要求去測算需要抽取的普查區(qū)域的樣本量;②因為要結(jié)合耕地面積的規(guī)模大小,按照比例抽樣的策略抽選普查區(qū)域,并且需要在每個普查區(qū)內(nèi)采用簡單隨機抽樣的方法抽選自然地塊作為調(diào)查目標,因此遙感抽中普查區(qū)也相對較少.
圖3 普查方式的類別和數(shù)量Fig.3 Types and numbers of census methods
圖4 普查方式雷達圖Fig.4 Radar chart of census methods
結(jié)合雷達圖對數(shù)據(jù)實行可視化分析能夠清晰地展示五種普查方式在數(shù)量上的差異,雷達圖如圖4 所示. 從圖4中可以看出,樣方數(shù)量和衛(wèi)星影像這兩種方式在五種普查方式中占比最多. 由于在進行第三次農(nóng)業(yè)普查時,普查土地面積巨大、勘察院數(shù)量較少等原因,所以創(chuàng)造性地利用無人機等手段進行了實地輔助勘察,達到了人機雙重勘察的效果. 同時在此次普查中,也是第一次大量使用衛(wèi)星遙感進行勘察,這是因為有一些普查地區(qū)為山區(qū)和普查員不易達到的地區(qū),而通過衛(wèi)星遙感可直接看到這些地區(qū)的土地和作物發(fā)展情況,一方面可以獲得更全面準確的勘察結(jié)果,另一方面又能夠減少大量人力物力資源的浪費. 勇于借助新手段進行農(nóng)業(yè)普查,這充分體現(xiàn)了我國科技的不斷進步、政策的不斷創(chuàng)新以及效率的巨大提高,同時這也是科學技術(shù)就是第一生產(chǎn)力的有力寫照.
其次對各地區(qū)普查方式中使用衛(wèi)星影像的數(shù)量進行統(tǒng)計分析,結(jié)果如圖5所示. 由圖5可以看出,各地區(qū)普查使用衛(wèi)星影像的數(shù)量差異比較明顯. 其中北京市和上海市這兩個地區(qū)為發(fā)達城市,因為城市職能定位不同于其他地區(qū),所以農(nóng)業(yè)占用面積較少,所需的衛(wèi)星影像數(shù)量也比較少;海南省、重慶市、寧夏回族自治區(qū)等地區(qū)因地理條件等原因,可耕種的土地面積較少,因此需要的衛(wèi)星影像數(shù)量也較少;內(nèi)蒙古自治區(qū)、新疆維吾爾自治區(qū)、黑龍江省等地區(qū)因其所占面積大且地區(qū)含有的土地類型較為復雜,所以所需衛(wèi)星影像數(shù)量較多. 總體來說,雖然在第三次農(nóng)業(yè)普查時是第一次使用衛(wèi)星影像技術(shù),但是大部分地區(qū)普查時采用的衛(wèi)星影像的數(shù)量較多,說明衛(wèi)星影像技術(shù)的使用比較成功.
圖5 31個?。ㄗ灾螀^(qū)、直轄市)使用衛(wèi)星影像的數(shù)量Fig.5 The number of satellite images used in 31 provinces(autonomous regions and municipalities)
首先利用PyEcharts可視化工具對東部地區(qū)和西部地區(qū)在鄉(xiāng)鎮(zhèn)、村醫(yī)療以及社會福利機構(gòu)的覆蓋情況進行統(tǒng)計分析,結(jié)果如圖6(a)所示. 可以看出,東部地區(qū)和西部地區(qū)在鄉(xiāng)鎮(zhèn)、村醫(yī)療和社會福利機構(gòu)覆蓋率方面相差不大. 東部地區(qū)和西部地區(qū)中有醫(yī)療機構(gòu)和正規(guī)醫(yī)師的鄉(xiāng)鎮(zhèn)比例都達到了95%以上. 從鄉(xiāng)鎮(zhèn)級別來看,東部地區(qū)的醫(yī)療衛(wèi)生機構(gòu)和正規(guī)醫(yī)師的覆蓋率均高于西部地區(qū). 在社會福利機構(gòu)方面,東部地區(qū)覆蓋率比西部地區(qū)高約20%,主要原因在于東部地區(qū)包含了大部分經(jīng)濟發(fā)達的省份和城市,而西部地區(qū)經(jīng)濟則相對落后. 從村級別來看,西部地區(qū)衛(wèi)生條件的發(fā)展要略勝于東部地區(qū),分析原因可能是西部地區(qū),例如內(nèi)蒙古自治區(qū)、西藏自治區(qū)等地區(qū),由于地廣人稀,資源相對緊缺,貧困人口相對較多,人們沒有能力去城市就醫(yī),因此在這些地區(qū)建設配備農(nóng)村衛(wèi)生室和醫(yī)師就顯得格外重要.
其次利用PyEcharts可視化工具對31個?。ㄗ灾螀^(qū)、直轄市)的鄉(xiāng)鎮(zhèn)、村醫(yī)療和社會福利機構(gòu)覆蓋情況進行統(tǒng)計分析,結(jié)果如圖6(b)所示. 整體來看,鄉(xiāng)鎮(zhèn)中醫(yī)療衛(wèi)生機構(gòu)和正規(guī)醫(yī)師的覆蓋率分別達到99.9%、98.4%,而農(nóng)村衛(wèi)生室和正規(guī)醫(yī)師的覆蓋率分別為81.9%、54.9%;社會福利收養(yǎng)性單位和政府創(chuàng)辦的敬老院在鄉(xiāng)鎮(zhèn)中的覆蓋率分別為66.8%、56.4%,而這兩種社會福利機構(gòu)在農(nóng)村暫未出現(xiàn). 分析其原因在于鄉(xiāng)鎮(zhèn)的行政級別高于村級,人口相對更多,資源福利同村級相比更加富裕,選擇在鄉(xiāng)鎮(zhèn)居住的人民往往在經(jīng)濟能力上要強于在村里居住的人民,因此政府在鄉(xiāng)鎮(zhèn)更有能力發(fā)展支持醫(yī)療機構(gòu)和社會福利機構(gòu),并且可以留下更多有執(zhí)業(yè)資格的正規(guī)醫(yī)師,而農(nóng)村因為地理條件較差,貧困人口較多,資源條件等遠遠不及鄉(xiāng)鎮(zhèn),從而導致村級衛(wèi)生室和正規(guī)醫(yī)師的覆蓋率要遠遠低于鄉(xiāng)鎮(zhèn).
圖6 鄉(xiāng)鎮(zhèn)、村醫(yī)療和社會福利機構(gòu)的覆蓋情況Fig.6 Coverage of medical and social welfare institutions in towns and villages
本文基于我國第三次農(nóng)業(yè)普查數(shù)據(jù),采用PyEcharts可視化工具對31個?。ㄗ灾螀^(qū)、直轄市)的登記農(nóng)戶數(shù)量、普查方式以及鄉(xiāng)鎮(zhèn)、村醫(yī)療和社會福利機構(gòu)覆蓋率等方面總體情況進行了統(tǒng)計分析. 分析結(jié)果顯示,在登記農(nóng)戶數(shù)量方面,31個?。ㄗ灾螀^(qū)、直轄市)的登記農(nóng)戶數(shù)量較大,四大地區(qū)中東北地區(qū)的登記農(nóng)戶數(shù)量最少. 由于不同地區(qū)的地理位置、氣候條件以及社會經(jīng)濟發(fā)展狀況不同,所以31個省(自治區(qū)、直轄市)的登記農(nóng)戶數(shù)量差異明顯. 在普查方式方面,衛(wèi)星影像技術(shù)雖是第一次使用,但是相對較成功,大量衛(wèi)星影像及其樣方和實地遙感被記錄使用,但由于不同地區(qū)發(fā)展情況不同,在無人機使用等方面仍呈現(xiàn)明顯的地區(qū)性差異. 在醫(yī)療和社會福利機構(gòu)方面,西部地區(qū)在村級的醫(yī)療發(fā)展要略勝于東部地區(qū);31個?。ㄗ灾螀^(qū)、直轄市)中鄉(xiāng)鎮(zhèn)級別的醫(yī)療和社會福利機構(gòu)遠高于村級. 后續(xù)研究,還需結(jié)合第一次和第二次農(nóng)業(yè)普查數(shù)據(jù)集進行橫向?qū)Ρ确治觯瑥亩贸稣w發(fā)展態(tài)勢.