夏吉安,母文濤,徐榮旺,楊善群,袁望皓,朱俊
(南京工業(yè)職業(yè)技術(shù)大學(xué) 計(jì)算機(jī)與軟件學(xué)院,江蘇南京 210023)
2015年8 月,國(guó)務(wù)院印發(fā)《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》,提出要推動(dòng)大數(shù)據(jù)發(fā)展和應(yīng)用[1];2021年11月,工業(yè)和信息化部印發(fā)《“十四五”大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃》,指出目前我國(guó)需要培育數(shù)據(jù)驅(qū)動(dòng)的產(chǎn)融合作、協(xié)同創(chuàng)新等新模式。推動(dòng)要素?cái)?shù)據(jù)化,引導(dǎo)各類主體提升數(shù)據(jù)驅(qū)動(dòng)的生產(chǎn)要素配置能力,促進(jìn)勞動(dòng)力、資金、技術(shù)等要素在行業(yè)間、產(chǎn)業(yè)間、區(qū)域間的合理配置,提升全要素生產(chǎn)率[2]。開(kāi)展大學(xué)生創(chuàng)新創(chuàng)業(yè)項(xiàng)目的目的是改變現(xiàn)有高校的人才培養(yǎng)模式,強(qiáng)化學(xué)生創(chuàng)新創(chuàng)業(yè)技術(shù)能力培養(yǎng),培育適應(yīng)創(chuàng)新型國(guó)家建設(shè)需要的高水平創(chuàng)新人才[3-4]。通過(guò)以大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃項(xiàng)目為切入點(diǎn),將大數(shù)據(jù)領(lǐng)域的相關(guān)技術(shù)與精準(zhǔn)農(nóng)業(yè)應(yīng)用場(chǎng)景相結(jié)合,進(jìn)行產(chǎn)學(xué)研融合研究和學(xué)科交叉的創(chuàng)新應(yīng)用,可以培養(yǎng)學(xué)生的科研創(chuàng)新應(yīng)用能力。
2022年3月,農(nóng)業(yè)農(nóng)村部印發(fā)《“十四五”全國(guó)農(nóng)業(yè)農(nóng)村信息化發(fā)展規(guī)劃》,提出建立貫通信息采集、分析決策、作業(yè)控制、智慧管理等各環(huán)節(jié)的智慧農(nóng)業(yè)集成應(yīng)用體系[5]。現(xiàn)代農(nóng)業(yè)的發(fā)展需要借助大數(shù)據(jù)、云計(jì)算等學(xué)科的優(yōu)勢(shì),結(jié)合智慧農(nóng)業(yè)的發(fā)展需求進(jìn)行創(chuàng)新應(yīng)用,為精準(zhǔn)農(nóng)業(yè)的發(fā)展提供理論與技術(shù)的支持[6-8]。
目前,高校大數(shù)據(jù)相關(guān)專業(yè)實(shí)踐實(shí)訓(xùn)教學(xué)偏重于教授大數(shù)據(jù)相關(guān)框架與工具的操作和使用,未將大數(shù)據(jù)技術(shù)與具體應(yīng)用場(chǎng)景進(jìn)行結(jié)合培養(yǎng)學(xué)生解決實(shí)際工程問(wèn)題的能力[9]。由于大數(shù)據(jù)相關(guān)技術(shù)理論知識(shí)點(diǎn)分散并且關(guān)聯(lián)度不高,缺乏對(duì)于大數(shù)據(jù)技術(shù)應(yīng)用技能的連續(xù)培養(yǎng),學(xué)生難以全面掌握大數(shù)據(jù)領(lǐng)域的知識(shí)點(diǎn)與技術(shù),進(jìn)而影響學(xué)生使用大數(shù)據(jù)相關(guān)技術(shù)進(jìn)行創(chuàng)新應(yīng)用。利用大學(xué)生創(chuàng)新創(chuàng)業(yè)項(xiàng)目,將大數(shù)據(jù)相關(guān)技術(shù)與精準(zhǔn)農(nóng)業(yè)應(yīng)用場(chǎng)景相結(jié)合,進(jìn)行學(xué)科交叉的創(chuàng)新應(yīng)用,可以培養(yǎng)學(xué)生大數(shù)據(jù)創(chuàng)新實(shí)踐能力[10-14]。
“大創(chuàng)”實(shí)驗(yàn)實(shí)訓(xùn)項(xiàng)目與江蘇省農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所開(kāi)展合作,大田作物反射光譜采集于江蘇省農(nóng)業(yè)科學(xué)試驗(yàn)田。實(shí)驗(yàn)實(shí)訓(xùn)方案設(shè)計(jì)包括對(duì)農(nóng)業(yè)光譜大數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理與標(biāo)注、數(shù)據(jù)挖掘、大數(shù)據(jù)框架應(yīng)用、并行數(shù)據(jù)庫(kù)、并行機(jī)器學(xué)習(xí)算法等方面的研究。實(shí)驗(yàn)總體設(shè)計(jì)方案如圖1所示。使用Hadoop和Spark框架搭建大數(shù)據(jù)平臺(tái),同時(shí)指導(dǎo)學(xué)生學(xué)習(xí)基于Spark框架的并行數(shù)據(jù)挖掘算法,利用Hadoop提供的HDFS、HBase進(jìn)行數(shù)據(jù)分布式存儲(chǔ)。最后使用Spark框架提供的MLlib機(jī)器學(xué)習(xí)庫(kù)進(jìn)行自主學(xué)習(xí)和探索性研究,針對(duì)具體農(nóng)業(yè)應(yīng)用場(chǎng)景進(jìn)行數(shù)據(jù)挖掘算法的分析與研究,實(shí)現(xiàn)交叉學(xué)科的創(chuàng)新型應(yīng)用。
圖1 創(chuàng)新實(shí)踐總體設(shè)計(jì)
圖2 大田作物平均反射光譜
原始的作物反射光譜數(shù)據(jù)包含水稻在三個(gè)生長(zhǎng)周期(分蘗期、拔節(jié)期、抽穗期)中使用三種不同水層(干旱)處理的水稻反射光譜(共180×3=540條光譜數(shù)據(jù)),如圖1所示。原始光譜數(shù)據(jù)中包含光譜噪聲,需要指導(dǎo)學(xué)生進(jìn)行大數(shù)據(jù)預(yù)處理與數(shù)據(jù)標(biāo)注。使用5點(diǎn)Savitzky-Golay多項(xiàng)式回歸方法對(duì)于反射光譜進(jìn)行平滑濾波。
式(1)中,j為相鄰的5個(gè)數(shù)據(jù)點(diǎn),Xj為平滑處理的數(shù)據(jù)點(diǎn)。
同時(shí)計(jì)算一階和二階導(dǎo)數(shù)光譜。
式(2)中,F(xiàn)'(x)為所求數(shù)據(jù)點(diǎn)的一階導(dǎo)數(shù)。
使用南京工業(yè)職業(yè)技術(shù)大學(xué)計(jì)算中心的云計(jì)算資源構(gòu)建大數(shù)據(jù)計(jì)算平臺(tái),同時(shí)分組指導(dǎo)學(xué)生進(jìn)行大數(shù)據(jù)平臺(tái)相關(guān)硬件與軟件的安裝與配置,掌握大數(shù)據(jù)平臺(tái)與框架的工作原理。大數(shù)據(jù)平臺(tái)包括三臺(tái)Intel(R)Xeon 6230R服務(wù)器提供計(jì)算資源,16GB DDR4內(nèi)存,80GB硬盤存儲(chǔ)容量,CentOS 6.9操作系統(tǒng),如表1所示。
表1 大數(shù)據(jù)平臺(tái)配置
大數(shù)據(jù)平臺(tái)使用Hadoop 3.2.2和Spark 3.3.0作為大數(shù)據(jù)計(jì)算框架,其中通過(guò)Hadoop 3.2.2 提供的HDFS(Hadoop Distribute File System)為光譜數(shù)據(jù)文件提供分布式存儲(chǔ),Master主機(jī)作為Namenode節(jié)點(diǎn),存儲(chǔ)光譜數(shù)據(jù)文件,Node1和Node2主機(jī)作為DataNode節(jié)點(diǎn),存儲(chǔ)光譜數(shù)據(jù)文件副本,Hadoop采用完全分布式運(yùn)行模式。Spark框架工作在Standalone模式,其中Master主機(jī)作為Master節(jié)點(diǎn),負(fù)責(zé)接收提交的任務(wù)以及進(jìn)行任務(wù)與資源的分配調(diào)度,Node1和Node2主機(jī)作為Woker節(jié)點(diǎn),負(fù)責(zé)具體作業(yè)和任務(wù)的執(zhí)行。
大田作物的反射光譜數(shù)據(jù)包含大量的作物生長(zhǎng)信息,包括葉綠素、花青素、水分含量等,對(duì)于采集的大量的光譜數(shù)據(jù),需要使用合適的數(shù)據(jù)挖掘算法進(jìn)行數(shù)據(jù)降維、特征轉(zhuǎn)換、特征提取,以及使用分類算法對(duì)于不同水分處理的反射光譜數(shù)據(jù)進(jìn)行分析與處理。通過(guò)指導(dǎo)學(xué)生學(xué)習(xí)經(jīng)典的機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘算法,如K-Means、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)等算法,使學(xué)生掌握數(shù)據(jù)挖掘算法的建模與調(diào)參方法,加強(qiáng)學(xué)生對(duì)于基于大數(shù)據(jù)的數(shù)據(jù)挖掘算法的自主學(xué)習(xí)與創(chuàng)新應(yīng)用的能力,如圖3所示。
圖3 大數(shù)據(jù)平臺(tái)光譜數(shù)據(jù)挖掘運(yùn)行環(huán)境
使用Hadoop和Spark框架對(duì)反射光譜特征提取和分類識(shí)別之后,指導(dǎo)學(xué)生使用基于Spark的MLlib(Machine Learning Library)機(jī)器學(xué)習(xí)庫(kù)對(duì)于光譜數(shù)據(jù)進(jìn)行進(jìn)一步的并行數(shù)據(jù)挖掘。MLlib機(jī)器學(xué)習(xí)庫(kù)針對(duì)大數(shù)據(jù)平臺(tái)提供了大量的算法模型,使用其提供的特征轉(zhuǎn)換、特征提取、數(shù)據(jù)降維、回歸與分類、模型轉(zhuǎn)換等相關(guān)算法,建立光譜數(shù)據(jù)挖掘模型,如圖4所示。針對(duì)不同算法在具體應(yīng)用場(chǎng)景的運(yùn)行效率進(jìn)行探索性分析,分析不同算法的適用性和效率,進(jìn)一步加強(qiáng)學(xué)生對(duì)于大數(shù)據(jù)與數(shù)據(jù)挖掘相關(guān)技術(shù)的應(yīng)用與探索分析能力。
圖4 基于MLlib的并行數(shù)據(jù)挖掘算法
一方面,通過(guò)將大數(shù)據(jù)相關(guān)技術(shù)與農(nóng)業(yè)領(lǐng)域的實(shí)際問(wèn)題相結(jié)合,使用大數(shù)據(jù)框架、數(shù)據(jù)挖掘算法對(duì)大田作物不同水分處理的光譜數(shù)據(jù)進(jìn)行特征分析和分類分析,建立基于大數(shù)據(jù)平臺(tái)的作物光譜特征分析與分類識(shí)別系統(tǒng),可以有效對(duì)大量作物光譜數(shù)據(jù)進(jìn)行分布式存儲(chǔ)與并行數(shù)據(jù)挖掘,加快農(nóng)業(yè)光譜數(shù)據(jù)的分析與處理速度。另一方面,通過(guò)將大數(shù)據(jù)技術(shù)應(yīng)用在具體的農(nóng)業(yè)信息學(xué)場(chǎng)景,可以提高學(xué)生對(duì)于大數(shù)據(jù)技術(shù)的學(xué)習(xí)興趣,培養(yǎng)學(xué)生的創(chuàng)新思維能力。此外,通過(guò)大學(xué)生創(chuàng)新創(chuàng)業(yè)項(xiàng)目,進(jìn)一步將科研、教育、生產(chǎn)一體化,探索我國(guó)高校產(chǎn)學(xué)研合作發(fā)展的路徑與方法。
大數(shù)據(jù)技術(shù)專業(yè)實(shí)驗(yàn)實(shí)訓(xùn)教學(xué)需要將大數(shù)據(jù)相關(guān)技術(shù)與具體應(yīng)用場(chǎng)景相結(jié)合,在培養(yǎng)大數(shù)據(jù)專業(yè)人才的同時(shí),以大學(xué)生創(chuàng)新創(chuàng)業(yè)項(xiàng)目為驅(qū)動(dòng),將產(chǎn)學(xué)研合作的教學(xué)思想融入實(shí)踐實(shí)訓(xùn)教學(xué)體系。在注重學(xué)生實(shí)際操作技能培養(yǎng)的同時(shí),將創(chuàng)新應(yīng)用和探索性研究融入實(shí)驗(yàn)實(shí)訓(xùn)教學(xué),有利于培養(yǎng)學(xué)生自主學(xué)習(xí)和創(chuàng)新能力,同時(shí)也為應(yīng)用型人才的培養(yǎng)探索新的發(fā)展路徑和培養(yǎng)方法。
創(chuàng)新創(chuàng)業(yè)理論研究與實(shí)踐2023年16期