亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        Python 在統(tǒng)計數(shù)據(jù)處理中的應(yīng)用

        2019-09-09 01:29:58胡前防連鵬偉陳乾坤
        市場研究 2019年8期
        關(guān)鍵詞:數(shù)據(jù)處理可視化分析

        胡前防 連鵬偉 陳乾坤/ 文

        一、引言

        為深入貫徹落實黨的十九大關(guān)于“完善統(tǒng)計體制”重要部署和中央《關(guān)于深化統(tǒng)計管理體制改革提高統(tǒng)計數(shù)據(jù)真實性的意見》,積極落實《國務(wù)院關(guān)于印發(fā)促進(jìn)大數(shù)據(jù)發(fā)展行動綱要的通知》,努力適應(yīng)大數(shù)據(jù)的蓬勃發(fā)展給統(tǒng)計工作帶來的機(jī)遇和挑戰(zhàn),創(chuàng)新統(tǒng)計工作方式,提高統(tǒng)計工作效率,強(qiáng)化大數(shù)據(jù)在統(tǒng)計工作中的運用,加快構(gòu)建新時代現(xiàn)代化統(tǒng)計調(diào)查體系,近期國家統(tǒng)計局制定了大數(shù)據(jù)應(yīng)用工作方案并進(jìn)行了安排部署。方案總體目標(biāo)之一,是要運用云計算、大數(shù)據(jù)等信息技術(shù)和資源,在“四大工程”建設(shè)成果的基礎(chǔ)上,改革完善統(tǒng)計業(yè)務(wù)流程,全力完善統(tǒng)計數(shù)據(jù)來源傳統(tǒng)之軌。具體來講,就是完善結(jié)構(gòu)化數(shù)據(jù)的傳統(tǒng)之軌,在不改變現(xiàn)有機(jī)構(gòu)、人員和職責(zé)分工的前提下,整合普查、常規(guī)調(diào)查和專項調(diào)查等數(shù)據(jù),打破專業(yè)壁壘和信息孤島,實現(xiàn)數(shù)據(jù)共享和深度開發(fā)。其中重點項目包括:進(jìn)一步挖掘普查數(shù)據(jù)應(yīng)用的潛力,通過大數(shù)據(jù)處理技術(shù)整理普查原始數(shù)據(jù),提高開發(fā)應(yīng)用普查數(shù)據(jù)的能力。本文嘗試?yán)肞ython 的特點和優(yōu)勢,對某地區(qū)農(nóng)業(yè)普查數(shù)據(jù)進(jìn)行挖掘分析和可視化場景實現(xiàn),以此來展示Python 在統(tǒng)計數(shù)據(jù)處理中的應(yīng)用效果。

        二、傳統(tǒng)統(tǒng)計數(shù)據(jù)處理系統(tǒng)的功能特點和不足

        目前,企業(yè)一套表系統(tǒng)和大型普查數(shù)據(jù)處理系統(tǒng)是政府統(tǒng)計進(jìn)行數(shù)據(jù)生產(chǎn)的兩個主要平臺,由國家或省級確定企業(yè)填報目錄和填報報表制度,定期(月度、季度、年度)由企業(yè)聯(lián)網(wǎng)直報數(shù)據(jù),統(tǒng)計系統(tǒng)內(nèi)人員進(jìn)行審核、計算、匯總,生成綜合數(shù)據(jù)。這兩個統(tǒng)計數(shù)據(jù)處理系統(tǒng)的主要功能是數(shù)據(jù)采集、數(shù)據(jù)審核、數(shù)據(jù)匯總,為采集、處理、傳輸、公布傳統(tǒng)統(tǒng)計數(shù)據(jù)發(fā)揮了不可替代的作用,但隨著大數(shù)據(jù)處理技術(shù)的發(fā)展和傳統(tǒng)統(tǒng)計數(shù)據(jù)資源深度開發(fā)的需要,發(fā)現(xiàn)其在整理計算加工、數(shù)據(jù)挖掘分析、可視化展示等方面存在先天薄弱和不足,迫切需要尋找能夠彌補其功能短板的軟件和工具。

        三、Python 的特點和優(yōu)勢

        統(tǒng)計界廣泛使用的傳統(tǒng)工具有SAS、SPSS、R 等,隨著大數(shù)據(jù)時代的到來,Python 在大數(shù)據(jù)處理工作中脫穎而出。相比傳統(tǒng)的統(tǒng)計工具,Python 的特點和優(yōu)勢更為突出:一是簡單易學(xué)、普及程度高,國外出現(xiàn)了在義務(wù)教育階段就開始教授Python的情況。全國普通高中2017 版“新課標(biāo)”改革中,正式將人工智能、物聯(lián)網(wǎng)、大數(shù)據(jù)處理劃入新課標(biāo),意味著Python 在我國進(jìn)入了高中教育。二是Python 在大數(shù)據(jù)處理性能方面與傳統(tǒng)工具相比速度要快,可以直接加載處理上GB 大小的數(shù)據(jù),而傳統(tǒng)工具受限于性能原因則通常需要將大數(shù)據(jù)分割為數(shù)個小數(shù)據(jù)再進(jìn)行處理。三是開源生態(tài)活躍、功能豐富。隨著Python 擴(kuò)展庫不斷發(fā)展壯大,Python 在科研、電子、政府、數(shù)據(jù)分析、web、金融、圖像處理、AI 技術(shù)等各方面都有強(qiáng)大的類庫、框架和解決方案。Python 擁有Matplotlib 及numPy 這樣強(qiáng)大的繪圖庫和數(shù)值擴(kuò)展,能幫助科研學(xué)術(shù)人員快速地進(jìn)行可視化和數(shù)值分析。Python 提供的pandas 擴(kuò)展庫,包含了全套的統(tǒng)計函數(shù)和數(shù)據(jù)處理方法,可以高效處理海量數(shù)據(jù)矩陣,輕松地進(jìn)行切片/ 切塊、聚合、重采樣等,其豐富的功能和強(qiáng)大的算法已經(jīng)成為數(shù)據(jù)處理任務(wù)的首選解決方案。因此本文使用Python 及擴(kuò)展庫,對統(tǒng)計數(shù)據(jù)處理中的幾個典型應(yīng)用場景進(jìn)行實現(xiàn)。

        四、Python 在統(tǒng)計數(shù)據(jù)處理中的應(yīng)用場景實現(xiàn)

        (一)環(huán)境準(zhǔn)備

        操作系統(tǒng):Ubuntu 18.04.1 LTS

        應(yīng)用程序:Python- 3.6.5 Pandas- 0.24.2 Matplotlib- 3.1.0

        (二)數(shù)據(jù)源準(zhǔn)備

        登錄農(nóng)業(yè)普查數(shù)據(jù)處理平臺,對某地區(qū)主要農(nóng)作物(小麥、玉米)種植數(shù)據(jù)按照農(nóng)戶(播種面積<50 畝)、規(guī)模戶(播種面積≥50 畝)區(qū)分進(jìn)行自定義指標(biāo)查詢,指標(biāo)包括:農(nóng)作物代碼、播種面積(畝)、平均每畝產(chǎn)量(公斤)、每畝化肥平均施用量(公斤)、農(nóng)藥噴灑次數(shù)、實際耕地面積(畝)、灌溉耕地面積(畝)、是否機(jī)耕。并將平臺中的查詢結(jié)果以csv 格式導(dǎo)出成數(shù)據(jù)文件guimo.csv 和danwei.csv。

        (三)應(yīng)用場景

        場景一:數(shù)據(jù)預(yù)處理

        數(shù)據(jù)預(yù)處理包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)規(guī)約。數(shù)據(jù)清洗主要完成缺失值處理、異常值處理,數(shù)據(jù)集成是將多個數(shù)據(jù)源整合成一個,數(shù)據(jù)變換主要完成對數(shù)據(jù)進(jìn)行規(guī)范化處理,比如函數(shù)計算、屬性構(gòu)造、規(guī)范量綱等,數(shù)據(jù)規(guī)約就是消除無效、錯誤數(shù)據(jù)的影響。本文使用Pandas 庫加載平臺導(dǎo)出的數(shù)據(jù)為DataFrame 類型對象進(jìn)行數(shù)據(jù)切片、空值填充、無效值移除、灌溉率列計算、切片拼接整理,生成標(biāo)準(zhǔn)數(shù)據(jù)文件all.csv,結(jié)果見表1。

        表1 標(biāo)準(zhǔn)數(shù)據(jù)文件all.csv

        場景二:數(shù)據(jù)特征描述

        數(shù)據(jù)特征描述是對總體變量的有關(guān)數(shù)據(jù)進(jìn)行統(tǒng)計性描述,主要包括頻數(shù)分析、集中趨勢分析、離散程度分析、分布以及圖形可視化。利用頻數(shù)分析可以檢驗異常值;通過數(shù)據(jù)集中趨勢分析來反映數(shù)據(jù)的一般水平,常用的指標(biāo)有平均值、中位數(shù)和眾數(shù)等;利用數(shù)據(jù)的離散程度分析來反映數(shù)據(jù)之間的差異程度,常用的指標(biāo)有方差和標(biāo)準(zhǔn)差。本文用箱體圖的形式來表達(dá)數(shù)據(jù),可以更清晰、直觀地呈現(xiàn)總體數(shù)據(jù)特征。

        1.數(shù)據(jù)準(zhǔn)備。使用Pandas 庫加載標(biāo)準(zhǔn)數(shù)據(jù)文件all.csv,按照小麥和玉米、農(nóng)戶和規(guī)模戶兩類分組,使用describe 函數(shù)計算每畝產(chǎn)量的均值(mean)、標(biāo)準(zhǔn)差(std)、最大值(max)、最小值(min)、四分位值等數(shù)據(jù),其中“低奇異值占比”是指低于中位數(shù)的奇異值個數(shù)占總數(shù)的百分比,計算結(jié)果見表2。

        表2 主要農(nóng)作物每畝產(chǎn)量(公斤)數(shù)據(jù)特征描述

        2.可視化呈現(xiàn)。使用matplotlib.pyplot 中boxplot 方法繪制 箱體圖如下(見圖1):

        圖1 主要農(nóng)作物每畝產(chǎn)量箱體圖

        3.結(jié)果分析。從表2 看,規(guī)模種植小麥畝產(chǎn)均值502.68 公斤,高于農(nóng)戶467.88 公斤,高出7.4%;規(guī)模種植玉米畝產(chǎn)均值541.28公斤,高于農(nóng)戶518.51 公斤,高出4.4%;規(guī)模種植小麥畝產(chǎn)標(biāo)準(zhǔn)差73.46 公斤,低于農(nóng)戶93.92 公斤;規(guī)模種植玉米畝產(chǎn)標(biāo)準(zhǔn)差90.85 公斤,低于農(nóng)戶99.71 公斤。從圖1 看,規(guī)模種植小麥畝產(chǎn)低奇異值占比1.94%,低于農(nóng)戶3.29%,規(guī)模種植玉米畝產(chǎn)低奇異值占比3.97%,低于農(nóng)戶4.70%。從以上分析可以得出結(jié)論:規(guī)?;N植是實現(xiàn)主要農(nóng)作物高產(chǎn)、穩(wěn)產(chǎn)的關(guān)鍵。這與目前該地區(qū)農(nóng)業(yè)生產(chǎn)實際情況相契合。

        場景三:相關(guān)分析

        相關(guān)分析是研究變量之間是否存在某種依存關(guān)系,用計算相關(guān)系數(shù)來表達(dá)變量之間相關(guān)方向以及相關(guān)程度。常用的三種相關(guān)系數(shù)(pearson,spearman,kendall)反映的都是變量之間相關(guān)方向以及程度,其值范圍為- 1 到+1,0 表示兩個變量不相關(guān),正值表示正相關(guān),負(fù)值表示負(fù)相關(guān),值越大表示相關(guān)性越強(qiáng)。由于spearman 相關(guān)系數(shù)沒有某些數(shù)據(jù)條件的特別要求和限制,適用范圍廣,所以本文采用它來研究某地區(qū)主要農(nóng)作物每畝產(chǎn)量與播種面積、每畝化肥用量、農(nóng)藥噴灑次數(shù)、是否機(jī)耕、灌溉率等變量的相關(guān)關(guān)系,并用雷達(dá)圖直觀地顯示出來。

        1.數(shù)據(jù)準(zhǔn)備。使用Pandas 庫加載標(biāo)準(zhǔn)數(shù)據(jù)文件all.csv,按照小麥和玉米、農(nóng)戶和規(guī)模戶兩類分組,利用corrwith 函數(shù)計算每畝產(chǎn)量與播種面積以及其他幾個變量的spearman 相關(guān)系數(shù),計算結(jié)果見表3。

        2. 可視化呈現(xiàn)。使用matplotlib.pyplot 中subplot(polar =True)方法來繪制雷達(dá)圖如圖2:

        表3 主要農(nóng)作物每畝產(chǎn)量相關(guān)分析

        圖2 每畝產(chǎn)量相關(guān)分析雷達(dá)圖

        3.結(jié)果分析。從圖表來看,在規(guī)模種植的情況下,無論是小麥還是玉米,畝產(chǎn)與播種面積以及其他幾個因素呈現(xiàn)微弱相關(guān)或者不相關(guān)(相關(guān)系數(shù)絕對值小于0.3 甚至接近0);在農(nóng)戶種植情況下,小麥畝產(chǎn)與播種面積以及其他幾個因素的相關(guān)程度要高于玉米畝產(chǎn);無論是小麥還是玉米、農(nóng)戶還是規(guī)模種植,畝產(chǎn)與是否機(jī)耕均不相關(guān)(相關(guān)系數(shù)絕對值接近0);在農(nóng)戶種植情況下,小麥畝產(chǎn)與灌溉率呈現(xiàn)顯著相關(guān)關(guān)系(0.49),玉米畝產(chǎn)與灌溉率呈現(xiàn)低度相關(guān)關(guān)系(0.39),小麥畝產(chǎn)與農(nóng)藥噴灑次數(shù)呈現(xiàn)低度相關(guān)關(guān)系(0.34)。從以上分析可以得出結(jié)論:農(nóng)戶種植相對于規(guī)模種植,對種植資源(耕地、農(nóng)藥、化肥、農(nóng)機(jī)、水利等)的關(guān)聯(lián)程度較為明顯,因此規(guī)?;N植是實現(xiàn)主要農(nóng)作物高產(chǎn)與種植資源集約高效利用的關(guān)鍵。這與目前該地區(qū)農(nóng)業(yè)生產(chǎn)實際情況相契合。

        更多場景:對主要農(nóng)作物畝產(chǎn)、化肥使用、農(nóng)藥噴灑進(jìn)行強(qiáng)度分析,利用熱力地圖,按照對象代碼的行政區(qū)劃呈現(xiàn)區(qū)域分布;對所有種植戶進(jìn)行每畝產(chǎn)量、播種面積等多維度聚類分析,利用樹狀分類圖,呈現(xiàn)某區(qū)域主要農(nóng)作物種植情況等。

        五、應(yīng)用建議

        Python 以簡單易學(xué)、語言簡潔、開發(fā)快速、可擴(kuò)展性豐富等特點,使得進(jìn)行大數(shù)據(jù)分析更加得心應(yīng)手。另外,Python 具有膠水語言的特性,能夠兼容絕大部分的編程語言環(huán)境,對于傳統(tǒng)統(tǒng)計數(shù)據(jù)處理平臺可以進(jìn)行嵌入和對接。因此建議加大Python在統(tǒng)計數(shù)據(jù)處理中的推廣應(yīng)用:一是將大數(shù)據(jù)處理思想體現(xiàn)在傳統(tǒng)統(tǒng)計的制度設(shè)計階段,改進(jìn)制度指標(biāo)設(shè)置,有利于后期大數(shù)據(jù)分析挖掘應(yīng)用;二是將大數(shù)據(jù)處理技術(shù)運用到傳統(tǒng)統(tǒng)計數(shù)據(jù)采集過程,實時掌握數(shù)據(jù)的分布形態(tài)、數(shù)值大小及離散程度,及時發(fā)現(xiàn)問題并糾正錯誤,提高數(shù)據(jù)質(zhì)量;三是加強(qiáng)大數(shù)據(jù)處理技術(shù)在統(tǒng)計數(shù)據(jù)挖掘分析和可視化展示方面的應(yīng)用,構(gòu)建面向政府統(tǒng)計系統(tǒng)開放的統(tǒng)計大數(shù)據(jù)源應(yīng)用開發(fā)生態(tài)圈,營造應(yīng)用示范效應(yīng)。

        猜你喜歡
        數(shù)據(jù)處理可視化分析
        基于CiteSpace的足三里穴研究可視化分析
        認(rèn)知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補與極大似然估計法*
        基于Power BI的油田注水運行動態(tài)分析與可視化展示
        云南化工(2021年8期)2021-12-21 06:37:54
        ILWT-EEMD數(shù)據(jù)處理的ELM滾動軸承故障診斷
        隱蔽失效適航要求符合性驗證分析
        基于CGAL和OpenGL的海底地形三維可視化
        “融評”:黨媒評論的可視化創(chuàng)新
        傳媒評論(2019年4期)2019-07-13 05:49:14
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        電力系統(tǒng)及其自動化發(fā)展趨勢分析
        基于希爾伯特- 黃變換的去噪法在外測數(shù)據(jù)處理中的應(yīng)用
        阿v视频在线| 97无码免费人妻超级碰碰夜夜| 三年片免费观看大全国语| 综合色久七七综合尤物| 久久九九av久精品日产一区免费| 久久精品亚洲成在人线av乱码| 无码人妻一区二区三区免费视频| 国产乱人伦偷精品视频| 亚洲AV秘 无码一区二区三区| 免费女女同黄毛片av网站| av在线网站手机播放| 久久精品一区二区熟女| 欧美成人精品a∨在线观看| 日本午夜免费福利视频| 中国女人a毛片免费全部播放| 国产愉拍91九色国产愉拍| 亚洲av无码一区东京热 | 免费无码AⅤ片在线观看| 最新69国产精品视频| 波多野结衣爽到高潮大喷| 九九热在线视频观看这里只有精品| 18禁国产美女白浆在线| 男女做羞羞事的视频网站| 成人aaa片一区国产精品| 麻豆国产高清精品国在线| 美女一区二区三区在线观看视频| 视频在线亚洲视频在线| 97在线视频人妻无码| 国产精品无码不卡一区二区三区| 久久亚洲AV无码一区二区综合| 日韩精品久久午夜夜伦鲁鲁| 色偷偷亚洲第一成人综合网址| 亚洲饱满人妻视频| 国产精品三级1区2区3区| 女同同性av观看免费| 日韩精品一区二区三区免费视频| 91久久国产综合精品| 亚洲国产日韩一区二区三区四区 | 欧美粗大无套gay| 97久久综合区小说区图片区| 91色老久久偷偷精品蜜臀懂色|