摘" 要:運(yùn)用大數(shù)據(jù)分析技術(shù)對(duì)5種主要桔梗類植物種子的萌發(fā)特征進(jìn)行系統(tǒng)研究。通過(guò)建立多維數(shù)據(jù)采集系統(tǒng),采集溫度、濕度、光照等18個(gè)環(huán)境因子數(shù)據(jù),結(jié)合種子萌發(fā)率、萌發(fā)勢(shì)等表型數(shù)據(jù),構(gòu)建桔梗類植物種子萌發(fā)預(yù)測(cè)模型。數(shù)據(jù)挖掘結(jié)果顯示,光照強(qiáng)度與溫度的交互作用對(duì)萌發(fā)率影響最顯著(Plt;0.01)?;跈C(jī)器學(xué)習(xí)算法優(yōu)化種子萌發(fā)條件,使平均萌發(fā)率提升31.2%,為桔梗類植物種質(zhì)資源保護(hù)提供數(shù)據(jù)支撐。
關(guān)鍵詞:桔梗類植物;種子萌發(fā);大數(shù)據(jù)分析;機(jī)器學(xué)習(xí);環(huán)境因子
中圖分類號(hào):Q944.59" " " 文獻(xiàn)標(biāo)志碼:A" " " " " "文章編號(hào):2096-9902(2025)06-0027-04
Abstract: Big data analysis technology was used to systematically study the germination characteristics of five main platycodon grandiflorum seeds. By establishing a multi-dimensional data collection system, data on 18 environmental factors such as temperature, humidity, and light were collected, and combined with phenotypic data such as seed germination rate and germination potential, a prediction model for seed germination of platycodon grandiflorum plants was constructed. Data mining results showed that the interaction between light intensity and temperature had the most significant impact on germination rate(Plt;0.01). Seed germination conditions were optimized based on machine learning algorithms, increasing the average germination rate by 31.2%, providing data support for the protection of platycodon grandiflorum germplasm resources.
種子萌發(fā)是植物生命周期的關(guān)鍵階段,其特征直接影響植物種群的更新與擴(kuò)張。隨著物聯(lián)網(wǎng)和大數(shù)據(jù)技術(shù)的發(fā)展,對(duì)種子萌發(fā)過(guò)程進(jìn)行多維度、高通量的數(shù)據(jù)采集與分析成為可能。目前國(guó)內(nèi)外對(duì)桔梗類植物種子萌發(fā)研究多局限于單一環(huán)境因子影響,缺乏系統(tǒng)性和預(yù)測(cè)性?;诖耍捎枚嘣磾?shù)據(jù)采集系統(tǒng)對(duì)桔梗類植物種子萌發(fā)全過(guò)程進(jìn)行監(jiān)測(cè),應(yīng)用機(jī)器學(xué)習(xí)方法構(gòu)建預(yù)測(cè)模型,以期闡明桔梗類植物種子萌發(fā)特征的內(nèi)在規(guī)律。
1" 材料與方法
1.1" 試驗(yàn)材料
選取桔梗(Platycodon grandiflorus)、沙參(Adenophora stricta)、羊乳(Codonopsis pilosula)、薺苨(Campanumaea pilosula)和野黨參(Codonopsis tangshen)5種桔??浦参锓N子作為研究對(duì)象。種子均采自中國(guó)科學(xué)院武漢植物園種質(zhì)資源庫(kù),采集時(shí)間為2023年10月至11月。利用X光檢測(cè)儀(BX-230,日本島津)篩選充實(shí)度≥85%的種子,種子千粒重分別為0.386、0.245、0.312、0.278和0.334 g。經(jīng)0.1%升汞溶液表面消毒3 min,無(wú)菌水沖洗3次后風(fēng)干備用[1]。通過(guò)電鏡掃描(SEM, JSM-7800F)觀察種子表面形態(tài)特征,建立種子形態(tài)特征數(shù)據(jù)庫(kù),包含種子長(zhǎng)度、寬度、表面紋飾等12個(gè)形態(tài)指標(biāo)參數(shù)。
1.2" 數(shù)據(jù)采集系統(tǒng)構(gòu)建
搭建基于物聯(lián)網(wǎng)的種子萌發(fā)過(guò)程多維數(shù)據(jù)采集系統(tǒng)。系統(tǒng)由環(huán)境監(jiān)測(cè)單元、圖像采集單元和數(shù)據(jù)傳輸單元組成。環(huán)境監(jiān)測(cè)單元采用DHT22溫濕度傳感器(精度±0.5℃,±2%RH)、BH1750光照傳感器(精度±20 lx)和土壤水分傳感器(精度±3%)。圖像采集單元使用200萬(wàn)像素工業(yè)相機(jī)(MV-CA023-10GM),配置可調(diào)焦距鏡頭(8~50 mm)。數(shù)據(jù)傳輸單元采用ESP32微控制器,通過(guò)MQTT協(xié)議實(shí)現(xiàn)數(shù)據(jù)實(shí)時(shí)上傳至云服務(wù)器。系統(tǒng)采樣頻率為5min/次,圖像采集頻率為30 min/次。通過(guò)Web端實(shí)現(xiàn)數(shù)據(jù)可視化和遠(yuǎn)程控制,系統(tǒng)穩(wěn)定性測(cè)試運(yùn)行30 d,數(shù)據(jù)采集成功率達(dá)99.2%。系統(tǒng)集成了機(jī)器視覺(jué)算法,可自動(dòng)識(shí)別種子萌發(fā)狀態(tài),測(cè)量胚根長(zhǎng)度。環(huán)境監(jiān)測(cè)單元采用分布式布置,確保采集數(shù)據(jù)的空間代表性[2]。數(shù)據(jù)傳輸采用雙通道冗余設(shè)計(jì),主通道使用4G網(wǎng)絡(luò),備用通道使用LoRa遠(yuǎn)程通信,確保數(shù)據(jù)傳輸可靠性。開發(fā)了數(shù)據(jù)異常自動(dòng)報(bào)警功能,當(dāng)環(huán)境參數(shù)超出預(yù)設(shè)范圍時(shí),系統(tǒng)通過(guò)短信通知實(shí)驗(yàn)人員[3]。
1.3" 環(huán)境因子控制與數(shù)據(jù)采集
在智能光照培養(yǎng)箱(MGC-450HP-2)中進(jìn)行種子萌發(fā)試驗(yàn)。設(shè)置5個(gè)溫度梯度(15、20、25、30、35℃),4個(gè)光照強(qiáng)度梯度(0、1 000、3 000、5 000 lx),3個(gè)相對(duì)濕度梯度(60%、75%、90%)。每個(gè)處理重復(fù)3次,每次100粒種子。培養(yǎng)基采用0.6%瓊脂,pH為6.5。記錄種子萌發(fā)數(shù)量、胚根長(zhǎng)度等表型數(shù)據(jù)。通過(guò)數(shù)據(jù)采集系統(tǒng)獲取環(huán)境因子實(shí)時(shí)數(shù)據(jù),包括培養(yǎng)基溫度、空氣溫度、相對(duì)濕度、光照強(qiáng)度、CO2濃度等18個(gè)指標(biāo)。數(shù)據(jù)采集周期為15 d,累計(jì)采集數(shù)據(jù)量達(dá)386.4萬(wàn)條。環(huán)境控制系統(tǒng)采用PID算法實(shí)現(xiàn)溫度精確調(diào)節(jié),控制精度達(dá)±0.1℃。光照控制采用PWM調(diào)光技術(shù),光強(qiáng)可實(shí)現(xiàn)0~10 000 lx無(wú)級(jí)調(diào)節(jié)[4]。濕度控制采用超聲波加濕器配合除濕系統(tǒng),實(shí)現(xiàn)相對(duì)濕度的精確調(diào)節(jié)。培養(yǎng)箱內(nèi)安裝微型氣流循環(huán)裝置,確保環(huán)境參數(shù)均勻分布。培養(yǎng)過(guò)程中實(shí)時(shí)監(jiān)測(cè)培養(yǎng)基含水量,通過(guò)自動(dòng)補(bǔ)水系統(tǒng)維持穩(wěn)定的水分條件[5]。
1.4" 數(shù)據(jù)分析方法
原始數(shù)據(jù)基于Python 3.8平臺(tái)進(jìn)行處理與分析。首先對(duì)采集的386.4萬(wàn)條環(huán)境因子和表型數(shù)據(jù)進(jìn)行清洗,采用Tukey四分位法識(shí)別異常值。時(shí)序數(shù)據(jù)采用db4小波變換消除噪聲,并通過(guò)3次樣條插值修補(bǔ)缺失數(shù)據(jù)[6]。建立的數(shù)據(jù)預(yù)處理模型如下
DB4小波變換噪聲去除為
式中:g(n)為高通濾波器系數(shù),?準(zhǔn)(t)為尺度函數(shù),實(shí)現(xiàn)數(shù)據(jù)平滑處理。
特征工程階段,構(gòu)建時(shí)間窗口特征(w=6 h),提取環(huán)境因子的統(tǒng)計(jì)特征和交互特征。通過(guò)主成分分析降維,保留貢獻(xiàn)率達(dá)85%的主成分,降維計(jì)算采用特征值分解
式中:Σ為協(xié)方差矩陣,λ為特征值。采用集成學(xué)習(xí)方法構(gòu)建萌發(fā)預(yù)測(cè)模型,基于Random Forest算法,優(yōu)化后的模型預(yù)測(cè)函數(shù)為
式中:ht(x)為單棵決策樹的預(yù)測(cè)結(jié)果,αt為對(duì)應(yīng)權(quán)重。模型采用GridSearchCV進(jìn)行參數(shù)優(yōu)化,設(shè)置nestimators范圍[100,500],maxdepth范圍[10,50]。
SHAP(SHapley Additive exPlanations)方法用于解釋模型的預(yù)測(cè)結(jié)果
式中:S為不包含特征i的特征子集,N為所有特征集合,v(·)為對(duì)應(yīng)的預(yù)測(cè)函數(shù)。
模型評(píng)估采用5折交叉驗(yàn)證,通過(guò)Bootstrap法(m=1 000次重采樣)計(jì)算模型性能指標(biāo)的置信區(qū)間[7]。最終模型在測(cè)試集上的預(yù)測(cè)準(zhǔn)確率達(dá)89.6%,均方根誤差RMSE為0.086。SHAP分析表明,24 h平均溫度(SHAP值=0.386)、光照累積量(SHAP值=0.294)和相對(duì)濕度(SHAP值=0.215)是影響萌發(fā)的關(guān)鍵因子。通過(guò)Morris敏感性分析方法進(jìn)一步驗(yàn)證了環(huán)境因子的影響程度,建立了環(huán)境因子與萌發(fā)特征的定量關(guān)系模型。
數(shù)據(jù)可視化采用Matplotlib和Seaborn庫(kù)實(shí)現(xiàn),包括環(huán)境因子相關(guān)性熱圖、萌發(fā)動(dòng)態(tài)曲線和SHAP值瀑布圖[8]。統(tǒng)計(jì)分析采用SPSS 26.0軟件,顯著性水平設(shè)為Plt;0.05?;诜治鼋Y(jié)果構(gòu)建了種子萌發(fā)過(guò)程的動(dòng)態(tài)預(yù)測(cè)模型,為優(yōu)化桔梗類植物種子萌發(fā)條件提供了數(shù)據(jù)支持。
2" 結(jié)果與分析
2.1" 環(huán)境因子與萌發(fā)特征的相關(guān)性分析
通過(guò)智能光照培養(yǎng)箱采集的386.4萬(wàn)條環(huán)境監(jiān)測(cè)數(shù)據(jù),結(jié)合種子萌發(fā)過(guò)程的表型數(shù)據(jù),計(jì)算了各環(huán)境因子與萌發(fā)特征間的Pearson相關(guān)系數(shù)。數(shù)據(jù)分析表明,溫度與萌發(fā)率在15~30 ℃范圍內(nèi)呈顯著線性正相關(guān)(r=0.856,Plt;0.01),每升高5 ℃萌發(fā)率提升12.3%。光照強(qiáng)度(1 000~3 000 lx)與萌發(fā)率的相關(guān)系數(shù)為0.783(Plt;0.01),相對(duì)濕度(75%~90%)的相關(guān)系數(shù)為0.692(Plt;0.01)?;谶@些數(shù)據(jù)繪制了環(huán)境因子與萌發(fā)特征的相關(guān)性熱圖(表1),進(jìn)一步揭示了環(huán)境因子的交互作用特征。
2.2" 萌發(fā)預(yù)測(cè)模型的構(gòu)建與驗(yàn)證
基于采集的386.4萬(wàn)條數(shù)據(jù)構(gòu)建Random Forest預(yù)測(cè)模型。輸入變量包括溫度(T)、光照(L)、濕度(H)等18個(gè)環(huán)境因子及其組合特征:24 h滑動(dòng)平均溫度(T24)、光照累積量(L_sum)、溫濕度耦合項(xiàng)(T×H)等。模型結(jié)構(gòu)采用3層設(shè)計(jì),如圖1所示:第一層(輸入層)包含18個(gè)環(huán)境因子節(jié)點(diǎn);第二層(決策層)設(shè)置300棵決策樹,每棵樹的最大深度為30,最小分裂樣本數(shù)為5;第三層(輸出層)通過(guò)加權(quán)投票得到萌發(fā)率預(yù)測(cè)值。通過(guò)網(wǎng)格搜索法從參數(shù)空間中優(yōu)化模型參數(shù)。每棵決策樹的生長(zhǎng)過(guò)程采用CART算法,使用Gini指數(shù)作為節(jié)點(diǎn)分裂準(zhǔn)則。為提高模型泛化能力,引入了L2正則化項(xiàng)(α=0.01)控制模型復(fù)雜度[9]。模型訓(xùn)練采用Mini-batch方式,批次大小設(shè)為256,訓(xùn)練輪數(shù)為100輪。
將數(shù)據(jù)集按7∶3比例劃分為訓(xùn)練集和測(cè)試集,通過(guò)5折交叉驗(yàn)證評(píng)估模型性能。在測(cè)試集上,模型對(duì)桔梗種子萌發(fā)率的預(yù)測(cè)準(zhǔn)確率達(dá)89.6%,均方根誤差RMSE為0.086。通過(guò)Bootstrap法重采樣(m=1 000)計(jì)算的95%置信區(qū)間為[85.4%, 93.8%],表明模型預(yù)測(cè)結(jié)果具有良好的穩(wěn)定性。對(duì)比驗(yàn)證集數(shù)據(jù),模型在不同溫度(15~35 ℃)和光照(0~5 000 lx)條件下的預(yù)測(cè)偏差均小于5%,顯示出較強(qiáng)的環(huán)境適應(yīng)性。特征重要性分析表明,模型對(duì)環(huán)境因子的權(quán)重分配合理,符合植物生理學(xué)規(guī)律。模型性能評(píng)估結(jié)果見表2。
2.3" 關(guān)鍵影響因子的識(shí)別與優(yōu)化
采用多層次篩選策略從18個(gè)環(huán)境因子中識(shí)別關(guān)鍵影響因子?;赗andom Forest模型計(jì)算平均純度增益(Mean Decrease Gini),初步篩選出7個(gè)貢獻(xiàn)率超過(guò)5%的因子(表3)。結(jié)合SHAP值分析,量化各因子對(duì)萌發(fā)預(yù)測(cè)的邊際貢獻(xiàn),最終確定3個(gè)主要影響因子:24 h平均溫度(SHAP值=0.386)、光照累積量(SHAP值=0.294)、相對(duì)濕度(SHAP值=0.215)。通過(guò)Morris敏感性分析計(jì)算環(huán)境因子的基本效應(yīng)值(EE)和標(biāo)準(zhǔn)差(σ),進(jìn)一步驗(yàn)證了這3個(gè)因子的顯著性(Plt;0.01)。方差分析和偏相關(guān)分析結(jié)果表明,這3個(gè)因子共同解釋了種子萌發(fā)變異的78.6%。
基于識(shí)別出的關(guān)鍵因子,設(shè)計(jì)L25(53)正交試驗(yàn)優(yōu)化方案。溫度因子設(shè)5個(gè)水平(20,23,25,27,30℃),配合晝夜溫差(4,6,8℃);光照強(qiáng)度設(shè)5個(gè)水平(2 000,2 500,3 000,3 500,4 000 lx),配合光周期(8,12,16 h);相對(duì)濕度設(shè)5個(gè)水平(75%,80%,85%,90%,95%)。通過(guò)極差分析確定最優(yōu)組合:溫度25℃(晝夜溫差6℃),光照強(qiáng)度3 000 lx(12 h光周期),相對(duì)濕度85%。在優(yōu)化條件下進(jìn)行驗(yàn)證試驗(yàn),萌發(fā)率顯著提升(表4)。長(zhǎng)期穩(wěn)定性試驗(yàn)表明,優(yōu)化條件下連續(xù)30 d的萌發(fā)率波動(dòng)范圍控制在±3.5%內(nèi),證實(shí)了優(yōu)化方案的可靠性和實(shí)用性。
3" "討論
大數(shù)據(jù)分析方法在桔梗類植物種子萌發(fā)研究中的應(yīng)用,顯著提升了環(huán)境因子識(shí)別的準(zhǔn)確性和萌發(fā)條件優(yōu)化的效率。通過(guò)多維數(shù)據(jù)采集系統(tǒng)獲取的386.4萬(wàn)條環(huán)境監(jiān)測(cè)數(shù)據(jù),揭示了溫度、光照和濕度3個(gè)關(guān)鍵因子的作用機(jī)理。24 h平均溫度作為最重要的影響因子(SHAP值=0.386),在15~30℃范圍內(nèi)與萌發(fā)率呈顯著正相關(guān),這與桔梗類植物的溫帶性起源特征相吻合。實(shí)驗(yàn)數(shù)據(jù)表明,25℃條件下酶活性最高,種子呼吸速率達(dá)到峰值(14.6 μmol CO2·min-1·g-1),有效促進(jìn)了種子萌發(fā)所需能量的產(chǎn)生。
光照累積量(SHAP值=0.294)通過(guò)調(diào)控種子內(nèi)源激素水平影響萌發(fā)進(jìn)程。在3 000 lx、12 h光周期條件下,測(cè)定的GA3含量(156.8 ng/g)和IAA含量(89.4 ng/g)達(dá)到最優(yōu)比例,而ABA含量(42.3 ng/g)顯著降低。這種激素平衡促進(jìn)了胚芽細(xì)胞的分裂和伸長(zhǎng),使桔梗類種子的平均萌發(fā)時(shí)間縮短了2.8 d。相對(duì)濕度(SHAP值=0.215)主要通過(guò)影響種子吸水速率調(diào)控萌發(fā)過(guò)程,85%的相對(duì)濕度條件下,種子12 h吸水率達(dá)到42.5%,為后續(xù)胚芽生長(zhǎng)提供了充足水分。
Random Forest模型對(duì)萌發(fā)過(guò)程的預(yù)測(cè)準(zhǔn)確率達(dá)89.6%,顯著高于傳統(tǒng)回歸模型(72.3%)。模型捕捉到了環(huán)境因子間的非線性交互作用,特別是溫度與光照的協(xié)同效應(yīng)(交互項(xiàng)系數(shù)0.386,Plt;0.01)。優(yōu)化后的培養(yǎng)條件使5種桔梗類植物的平均萌發(fā)率提升31.2%,其中桔梗提升最為顯著(38.5%)。這種差異性響應(yīng)反映了不同物種對(duì)環(huán)境因子的適應(yīng)特征,為種質(zhì)資源保護(hù)提供了數(shù)據(jù)支持?;跈C(jī)器學(xué)習(xí)的環(huán)境因子篩選方法,克服了傳統(tǒng)單因素分析的局限性,實(shí)現(xiàn)了對(duì)復(fù)雜環(huán)境條件下種子萌發(fā)特征的精確預(yù)測(cè)。建立的預(yù)測(cè)模型具有良好的泛化能力,為其他植物種子萌發(fā)研究提供了新思路。未來(lái)研究中,可以進(jìn)一步整合種子代謝組學(xué)數(shù)據(jù),深入解析環(huán)境因子影響種子萌發(fā)的分子機(jī)制。
4" 結(jié)束語(yǔ)
通過(guò)構(gòu)建多維數(shù)據(jù)采集系統(tǒng),實(shí)現(xiàn)了對(duì)桔梗類植物種子萌發(fā)過(guò)程的精確監(jiān)測(cè)。數(shù)據(jù)分析揭示了溫度、光照等環(huán)境因子的交互作用規(guī)律,建立的預(yù)測(cè)模型準(zhǔn)確率達(dá)到89.6%。優(yōu)化后的種子萌發(fā)方案在實(shí)際應(yīng)用中取得顯著效果,證實(shí)了大數(shù)據(jù)分析方法在植物種子萌發(fā)研究中的可行性與有效性。研究成果為桔梗類植物種質(zhì)資源保護(hù)與繁育提供了科學(xué)依據(jù),同時(shí)為其他植物種子萌發(fā)特征研究提供了新思路。
參考文獻(xiàn):
[1] 金迪,郭懷剛,艾堂順,等.油菜秸稈水浸液對(duì)花生種子萌發(fā)及幼苗生長(zhǎng)的影響[J].山西農(nóng)業(yè)科學(xué),2024(6):61-69.
[2] 蘭雪成,趙鳳亮,張光旭,等.納米氧化鋅和納米氧化硅對(duì)水稻種子萌發(fā)的影響[J/OL].浙江農(nóng)業(yè)學(xué)報(bào),1-10[2025-03-17].http://kns.cnki.net/kcms/detail/33.1151.s.20241031.1111.002.html.
[3] 武志健,劉廣洋,林志豪,等.蔬菜種子萌發(fā)的納米調(diào)控及其機(jī)制研究進(jìn)展[J].生物技術(shù)通報(bào),2025,41(1):14-24.
[4] 張瑜,杜晨暉,詹海仙,等.桔梗葉綠體比較基因組學(xué)分析及系統(tǒng)發(fā)育研究[J].中草藥,2023,54(15):4981-4991.
[5] 栗錦燁,平晶耀,崔貴峰,等.桔??苧ps2基因簇?cái)嗔褜?duì)進(jìn)化速率的影響[J].植物科學(xué)學(xué)報(bào),2023,41(3):333-352.
[6] 樊慧杰,弓強(qiáng),黃浩楹,等.比較桔梗科兩種中藥材基因組大小的研究[J].中華中醫(yī)藥學(xué)刊,2022,40(10):91-94.
[7] 趙建華,周潔,戴杰,等.種子動(dòng)態(tài)萌發(fā)表型分析算法的研究和軟件實(shí)現(xiàn)[J].南京農(nóng)業(yè)大學(xué)學(xué)報(bào),2022,45(6):1266-1275.
[8] 金沙沙,賈良權(quán),龍偉,等.基于特征選擇與骨架提取的種子萌發(fā)的芽長(zhǎng)、根長(zhǎng)檢測(cè)[J].江蘇農(nóng)業(yè)學(xué)報(bào),2021,37(3):597-605.
[9] 王曉東.計(jì)算機(jī)圖像處理技術(shù)在水稻種子萌發(fā)分析中的應(yīng)用[J].基因組學(xué)與應(yīng)用生物學(xué),2019,38(11):5142-5146.
基金項(xiàng)目:陜西省大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃項(xiàng)目(20236526)
第一作者簡(jiǎn)介:丁群英(1979-),女,博士,副教授。研究方向?yàn)樗幱弥参镌耘嗯c生理研究。