亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        農(nóng)業(yè)大數(shù)據(jù)分類算法探討與研究

        2020-06-21 08:20:16鄒承俊
        四川農(nóng)業(yè)科技 2020年4期
        關(guān)鍵詞:分類農(nóng)業(yè)信息

        李 敏,葉 煜,文 燕,陳 琳,鄒承俊

        (成都農(nóng)業(yè)科技職業(yè)學(xué)院,成都 溫江 611130)

        民以食為天,食源于農(nóng)業(yè)。我國(guó)幅員遼闊,是農(nóng)業(yè)大國(guó),傳統(tǒng)農(nóng)業(yè)在中華大地上養(yǎng)育了幾千年的祖祖輩輩。古人常說(shuō),農(nóng)業(yè)收成是靠天吃飯。而在當(dāng)今信息技術(shù)爆炸及物聯(lián)網(wǎng)技術(shù)的指數(shù)級(jí)發(fā)展下,農(nóng)業(yè)也和其他產(chǎn)業(yè)一樣,利用現(xiàn)代技術(shù),由傳統(tǒng)農(nóng)業(yè)向著智慧農(nóng)業(yè)發(fā)展。

        農(nóng)業(yè)生產(chǎn)活動(dòng)過(guò)程中,產(chǎn)生大量的農(nóng)業(yè)數(shù)據(jù),俗稱農(nóng)業(yè)大數(shù)據(jù)。如農(nóng)業(yè)種植、養(yǎng)殖、農(nóng)產(chǎn)品加工處理、天氣狀況、市場(chǎng)行情以及通過(guò)自動(dòng)化網(wǎng)絡(luò)監(jiān)控系統(tǒng)產(chǎn)生的監(jiān)控?cái)?shù)據(jù)等。對(duì)于這些海量的原始農(nóng)業(yè)數(shù)據(jù),看似雜亂卻包含著巨大的價(jià)值,若能對(duì)這些數(shù)據(jù)進(jìn)行有效的分析處理,在雜亂中尋求其規(guī)律,就能為農(nóng)業(yè)預(yù)測(cè)及發(fā)展決策提供科學(xué)依據(jù)和參考。[1]

        農(nóng)業(yè)大數(shù)據(jù)挖掘是農(nóng)業(yè)數(shù)據(jù)分析的最關(guān)鍵工作。大數(shù)據(jù)的挖掘是從海量、不完全的、有噪聲的、模糊的、隨機(jī)的大型數(shù)據(jù)庫(kù)中發(fā)現(xiàn)隱含在其中有價(jià)值的、潛在有用的信息和知識(shí)的過(guò)程。收集到的數(shù)據(jù)首先就要進(jìn)行分類管理。所謂分類是找出數(shù)據(jù)中的一組數(shù)據(jù)對(duì)象的共同特點(diǎn)并按照分類模式將其劃分為不同的類,其目的是通過(guò)分類模型,將數(shù)據(jù)庫(kù)中的數(shù)據(jù)項(xiàng)映射到某個(gè)給定的類別中。農(nóng)業(yè)大數(shù)據(jù)的挖掘中常用的分類算法有貝葉斯分類算法、K最近鄰分類算法、決策樹(shù)分類算法等,這些方法從不同的角度對(duì)數(shù)據(jù)進(jìn)行挖掘。

        1 樸素貝葉斯算法

        1.1 算法介紹

        1.2 農(nóng)業(yè)數(shù)據(jù)舉例應(yīng)用

        對(duì)歷史發(fā)生的情況進(jìn)行統(tǒng)計(jì),估算出生病的雞為母雞或公雞的概率。

        第1步,構(gòu)造一個(gè)歷史發(fā)生的情況表,如表1:

        表1 雞生病情況

        第2步,計(jì)算出每一個(gè)組成部分的概率,構(gòu)造出頻率表,如表2:

        表2 生病頻率

        如果歷史中沒(méi)有出現(xiàn)的事件,即發(fā)生的概率為0的情況,導(dǎo)致整個(gè)結(jié)果也為0。但未來(lái)不一定不發(fā)生。可以利用拉普拉斯估計(jì),給頻率表中的每個(gè)計(jì)數(shù)加上一個(gè)較小的數(shù),這樣就可以保證每個(gè)特征發(fā)生概率非零。一般將0變成1,增加一個(gè)小的概率,讓它的占比很小,將0的情況覆蓋掉。而對(duì)整個(gè)結(jié)果影響不是很大。如上一個(gè)例子,歷史數(shù)據(jù)中,公雞沒(méi)有生病,也就是公雞生病的概率為0的情況,如表3:

        表3 生病頻率有0的情況

        改為增加公雞數(shù)為4,如表4:

        表4 修改生病頻率

        如果有多重特征,則p(B|A) = p(B0|A) ×p(B1|A)×p(B2|A)× .... ×p(Bn|A)。

        2 K最近鄰分類算法(KNN)

        2.1 算法介紹

        2.1.1 KNN(K-Nearest Neighbor)算法的思路 如果一個(gè)樣本在特征空間中的K個(gè)最相似的樣本中的大多數(shù)屬于某一個(gè)類別,則該樣本也屬于這個(gè)類別。

        2.1.2 KNN三要素

        (2)K的選擇 指定一個(gè)K值(K值的選擇一般低于樣本數(shù)據(jù)的平方根,一般是K<=20的整數(shù)),按照距離依次排序,選取當(dāng)前點(diǎn)距離最小的K個(gè)點(diǎn),確定前K個(gè)點(diǎn)所在類別的出現(xiàn)概率。

        (3)分類決策規(guī)則 根據(jù)少數(shù)服從多數(shù)的原則,返回前K個(gè)點(diǎn)出現(xiàn)頻率最高的類別作為當(dāng)前點(diǎn)預(yù)測(cè)分類。

        2.1.3 KNN算法的缺點(diǎn) 當(dāng)樣本不平衡時(shí),如一個(gè)類的樣本容量很大,而其他類樣本容量很小時(shí),有可能導(dǎo)致輸入一個(gè)新樣本時(shí),該樣本的K個(gè)鄰居中大容量類的樣本占多數(shù)??梢圆捎脵?quán)值的方法。根據(jù)和該樣本距離的遠(yuǎn)近,對(duì)近鄰進(jìn)行加權(quán),距離越小的鄰居權(quán)值越大,權(quán)重一般為距離平方的倒數(shù)。

        2.2 案例

        通過(guò)收集含玉米象小麥籽20g與正常小麥籽20g的發(fā)育過(guò)程中含蟲數(shù)據(jù),從種植的第3天開(kāi)始,共測(cè)1個(gè)月。玉米象的發(fā)育過(guò)程如表5:

        表5 玉米象的發(fā)育過(guò)程

        通過(guò)小波降噪,特征的選擇與優(yōu)化后,計(jì)算均值、標(biāo)準(zhǔn)差、光子統(tǒng)計(jì)熵等特征參數(shù)得到數(shù)據(jù)庫(kù),從數(shù)據(jù)庫(kù)中實(shí)驗(yàn)組和對(duì)照組中各取60%作為樣本訓(xùn)練集,40%作為測(cè)試集,利用歐式距離,K取5,使用KNN及其加權(quán)的KNN,來(lái)檢驗(yàn)分類的效果。通過(guò)比較,KNN的正確率為90%,加權(quán)KNN為92.5%,加權(quán)分類法的效果最好。[3]

        3 決策樹(shù)

        3.1 算法介紹

        決策樹(shù)是通過(guò)對(duì)訓(xùn)練集的研究,挖掘有用的規(guī)則,用于對(duì)新集進(jìn)行預(yù)測(cè)分類的一種算法。基本算法是貪心算法,自頂向下遞歸方式構(gòu)造決策樹(shù)。在其生成過(guò)程中,如何將屬性進(jìn)行度量分割尤為重要,直接影響到最終分類效果。

        3.2 步驟

        (1)開(kāi)始時(shí),所有的數(shù)據(jù)都在根節(jié)點(diǎn),屬性需要離散型字段值,如果是連續(xù)的,則將其離散化。

        (2)用離散化的屬性進(jìn)行遞歸分裂所有記錄,直到分裂停止。

        決策樹(shù)的分裂原則:數(shù)據(jù)的每一次分裂,盡可能讓類別一樣的數(shù)據(jù)在樹(shù)的一邊,當(dāng)樹(shù)的葉子節(jié)點(diǎn)的數(shù)據(jù)都是一類的時(shí)候,則停止分類,可以用if-else語(yǔ)句來(lái)實(shí)現(xiàn)。

        (3)分類劃分的優(yōu)劣用不純性度量來(lái)分析。將純粹度用數(shù)據(jù)進(jìn)行量化,度量信息混亂程度的指標(biāo):

        類別越少,信息熵和基尼系數(shù)越低。

        條件熵:在某個(gè)分類條件下某個(gè)類別的信息熵叫做條件熵,類似于條件概率,在知道Y的情況下,X的不確定性。條件熵一般使用H(x|y)表示,代表在Y條件下,X的信息熵。哪個(gè)條件熵相對(duì)信息熵下降的最快,就選擇誰(shuí)做為分類,用信息增益來(lái)表示條件變化的程度,分類前的信息熵減去分類后的信息熵。選擇信息增益大的屬性作為分類節(jié)點(diǎn)的方法叫ID3分類算法。例如特征Y對(duì)訓(xùn)練集D的信息增益為g(D,Y)=H(X)-H(X|Y)。 但這種方法會(huì)出現(xiàn)過(guò)擬合問(wèn)題。所以用條件熵作為頂層分類有弊端。

        信息增益率gr(D,Y)=g(D,Y)/ H(X):使用信息增益率來(lái)做為頂層分類將消除當(dāng)某些屬性比較混雜時(shí),使用信息增益來(lái)選擇分類條件的弊端,這種分類法也叫做C4.5。如果最后一個(gè)條件依然沒(méi)能將數(shù)據(jù)準(zhǔn)確進(jìn)行分類,則在這個(gè)節(jié)點(diǎn)上就可以使用概率來(lái)決定??茨姆N情況出現(xiàn)的多,就做為該節(jié)點(diǎn)的分類結(jié)果。

        (4)用決策樹(shù)來(lái)做預(yù)測(cè)值(回歸),可以求一個(gè)平均值做為預(yù)測(cè)結(jié)果。

        3.3 決策樹(shù)的構(gòu)建算法

        主要有ID3、C4.5、CART三種,其中ID3是決策樹(shù)最基本的構(gòu)建算法,而C4.5和CART是在ID3的基礎(chǔ)上進(jìn)行優(yōu)化的算法。常用的是C4.5。

        3.4 決策樹(shù)的優(yōu)化

        決策樹(shù)如果太復(fù)雜,很可能出現(xiàn)過(guò)擬合,造成預(yù)測(cè)不準(zhǔn)確的分類,因此需要對(duì)決策樹(shù)進(jìn)行優(yōu)化,優(yōu)化的方法主要有2種,一是用信息增益率(C4.5)來(lái)做。二是剪枝。

        3.5 案例[4]

        下表為某些地區(qū)第三季度雨水洪澇數(shù)據(jù)訓(xùn)練集樣本屬性,如表6。

        表6 雨水洪澇數(shù)據(jù)訓(xùn)練集樣本屬性

        3.5.2 條件熵的計(jì)算

        3.5.3 信息增益的計(jì)算

        (1)以月份為前提條件的信息增益G1=H-H1=1.23096-1.04316=0.1878

        (2)以受災(zāi)人數(shù)為前提條件的信息增益G2=H-H2=1.23096-0.70042=0.53054

        (3)以農(nóng)作物受災(zāi)面積為前提條件的信息增益G3=H-H3=1.23096-0.85977=0.37116

        用ID3的算法,即用信息增益作為標(biāo)準(zhǔn),通過(guò)對(duì)比,以受災(zāi)人數(shù)作為條件使原來(lái)的信息熵下降最快,則將它作為頂層劃分。

        3.5.4 信息增益率的計(jì)算

        (1)以月份為前提條件的信息增益率Gr1=(H-H1)/H=(1.23096-1.04316)/1.23096=0.1526

        (2)以受災(zāi)人數(shù)為前提條件的信息增益率Gr2=(H-H2)/H=(1.23096-0.70042)/1.23096=0.4310

        (3)以農(nóng)作物受災(zāi)面積為前提條件的信息增益率Gr3=(H-H3)/H=(1.23096-0.85977)/1.23096=0.3015用C4.5的算法,即用信息增益率作為標(biāo)準(zhǔn),通過(guò)對(duì)比,以受災(zāi)人數(shù)作為頂層條件劃分。

        ID3和C4.5這2種算法均得出相同的結(jié)果,再進(jìn)行規(guī)則剪枝,最后生成決策樹(shù),如圖1。

        算法名稱收斂時(shí)間是否過(guò)度擬合是否過(guò)渡擬合缺失數(shù)據(jù)敏感度訓(xùn)練數(shù)據(jù)量樸素貝葉斯算法快存在不敏感無(wú)要求KNN快存在敏感數(shù)據(jù)量多決策樹(shù)快存在不敏感小數(shù)據(jù)集

        4 3種算法比較

        在農(nóng)業(yè)大數(shù)據(jù)中,根據(jù)實(shí)際情況選擇不同的分類算法或多種算法相結(jié)合的方式,使數(shù)據(jù)分類更為準(zhǔn)確。

        猜你喜歡
        分類農(nóng)業(yè)信息
        國(guó)內(nèi)農(nóng)業(yè)
        國(guó)內(nèi)農(nóng)業(yè)
        國(guó)內(nèi)農(nóng)業(yè)
        擦亮“國(guó)”字招牌 發(fā)揮農(nóng)業(yè)領(lǐng)跑作用
        分類算一算
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        展會(huì)信息
        夜夜欢性恔免费视频| 久久无码高潮喷水免费看| 激情亚洲的在线观看| 国产在线观看一区二区三区av| www夜插内射视频网站| 中文在线中文a| 饥渴的熟妇张开腿呻吟视频| 亚洲熟妇网| 国产在线看不卡一区二区| 国产亚洲人成在线观看| 久久婷婷五月综合色高清| 欧美成人午夜精品久久久| 精品无码AⅤ片| 亚洲一区二区三区天堂av| 欧美性猛交xxx嘿人猛交| 婷婷亚洲久悠悠色悠在线播放| 亚洲AV无码一区二区三区ba| 亚洲国内精品一区二区在线| 草草影院ccyy国产日本欧美 | 在线播放草猛免费视频| 大肉大捧一进一出好爽视频| 一级片久久| 亚洲av午夜成人片精品| 男女深夜视频网站入口| 久久亚洲欧美国产精品| 色老汉免费网站免费视频| 狠狠亚洲婷婷综合久久久| 日韩激情av不卡在线| 新婚少妇无套内谢国语播放| 国产suv精品一区二人妻| 国产片三级视频播放| 亚洲一区二区三区国产精品 | 亚洲最大天堂无码精品区| 精品日本韩国一区二区三区| 午夜福利影院成人影院| 无码毛片视频一区二区本码| 中文字幕无码免费久久99| 男人天堂插插综合搜索| 国产精品中文久久久久久久 | 日日摸天天摸人人看| 亚洲欧美日韩一区二区在线观看|