黃昕 姜春濤 任紫薇 潘淑儀 凌逸文 曹穎 肖浩鳴 邱文浩
摘要:傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)并不能做到長(zhǎng)期記憶,存在“長(zhǎng)期依賴”問題。但長(zhǎng)短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)模型擅長(zhǎng)處理可變長(zhǎng)度的時(shí)間序列的數(shù)據(jù)輸入,且網(wǎng)絡(luò)具有自連接的隱層,可以有效解決長(zhǎng)期依賴問題。標(biāo)準(zhǔn)BP神經(jīng)網(wǎng)絡(luò)算法收斂速度慢、局部極值、難以確定隱層數(shù)和隱層的節(jié)點(diǎn)個(gè)數(shù)。由于收集的水體數(shù)據(jù)中有許多屬性相關(guān)性較大,如果將所有屬性都用C4.5算法進(jìn)行計(jì)算,則會(huì)造成一定的資源浪費(fèi),降低計(jì)算效率。而改進(jìn)的C4.5算法則增加了去除相關(guān)性大的幾個(gè)屬性這一環(huán)節(jié),從而有效地減少了不必要的計(jì)算。該文主要融合長(zhǎng)短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)以及決策樹兩種算法,來進(jìn)行水產(chǎn)養(yǎng)殖病害預(yù)測(cè)。
關(guān)鍵詞:長(zhǎng)短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò);C4.5算法;水產(chǎn)病害預(yù)測(cè)
中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2020)08-0194-02
每年水產(chǎn)養(yǎng)殖病害影響面積占全國(guó)總水產(chǎn)養(yǎng)殖面積10%以上,直接經(jīng)濟(jì)損失高達(dá)上百億元,已經(jīng)成為我國(guó)水產(chǎn)養(yǎng)殖健康發(fā)展的主要障礙之一。根據(jù)水產(chǎn)養(yǎng)殖動(dòng)植物疾病監(jiān)測(cè)預(yù)報(bào),2017年,我國(guó)水產(chǎn)養(yǎng)殖因病害造成的經(jīng)濟(jì)損失約361億元,其中魚類占33.8%,甲殼類占40.7%,貝類占13.2%,其他占12.4%。因此對(duì)水產(chǎn)病害進(jìn)行預(yù)測(cè)分析對(duì)我國(guó)水產(chǎn)養(yǎng)殖具有極其重要的意義。
現(xiàn)有技術(shù)大都采用灰色預(yù)測(cè)模型、BP神經(jīng)網(wǎng)絡(luò)模型進(jìn)行預(yù)測(cè)分析。但灰色預(yù)測(cè)模型對(duì)時(shí)間序列平滑性要求較高,有快速衰減和遞增的屬性,所以他的時(shí)效性有限,不適合做長(zhǎng)期的預(yù)測(cè)或者分析。標(biāo)準(zhǔn)BP神經(jīng)網(wǎng)絡(luò)算法收斂速度慢、局部極值、難以確定隱層數(shù)和隱層的節(jié)點(diǎn)個(gè)數(shù)。長(zhǎng)短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)模型擅長(zhǎng)處理可變長(zhǎng)度的時(shí)間序列的數(shù)據(jù)輸入,也可以有效解決長(zhǎng)期依賴問題。本文主要融合長(zhǎng)短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)以及決策樹兩種算法,來進(jìn)行水產(chǎn)養(yǎng)殖病害預(yù)測(cè)。
1 C4.5-LSTM模型建立
1.1數(shù)據(jù)采集
收集水體m個(gè)因素x1,x2,...xm的數(shù)據(jù)及對(duì)應(yīng)的病害數(shù)據(jù)將數(shù)據(jù)導(dǎo)入Excel表格中,對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。
1.2決策樹的生成
隨機(jī)抽取其中的80%組數(shù)據(jù)作為決策樹的訓(xùn)練集,剩余的20%組數(shù)據(jù)作為決策樹的測(cè)試集。采取改進(jìn)的C4.5算法生成決策樹。
1.2.1去除相關(guān)性大的屬性
1.2.3剪枝
采用PEP(Pessimistic Error Pruning)剪枝法進(jìn)行因素的選擇最終確定因素個(gè)數(shù)v。
1.3數(shù)據(jù)處理
1.3.1數(shù)據(jù)標(biāo)準(zhǔn)化處理
收集上一步驟中的n個(gè)因素y1,y2...yn的數(shù)據(jù)將數(shù)據(jù)導(dǎo)入Excel表格中并將數(shù)據(jù)進(jìn)行預(yù)處理。利用min-max標(biāo)準(zhǔn)化公式分別將y1,y2...yn的r行數(shù)據(jù)歸一化。
1.3.2數(shù)據(jù)劃分
將上一步驟中處理好的數(shù)據(jù)隨機(jī)選取80%組數(shù)據(jù)作為訓(xùn)練集,剩余20%組數(shù)據(jù)作為測(cè)試集。將每個(gè)因素的數(shù)據(jù)分別依次輸入模型中。
1.4模型建立
步驟一:設(shè)置輸入、輸出層。設(shè)置網(wǎng)絡(luò)輸入為每次每個(gè)因
步驟四:長(zhǎng)短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練。將數(shù)據(jù)代人模型進(jìn)行訓(xùn)練過程中,由小批量梯度下降法尋找使預(yù)測(cè)值與真實(shí)值相差最小的值,提高模型的精確度。確定先決條件即確定優(yōu)化模型的假設(shè)函數(shù)及損失函數(shù)見公式(9),通過計(jì)算找出最合適的LSTM神經(jīng)網(wǎng)絡(luò)中的權(quán)重。
步驟五:將預(yù)測(cè)出的各因素的數(shù)據(jù)組合成一組一組的數(shù)據(jù),代入建立好的決策樹中進(jìn)行分類預(yù)測(cè)水產(chǎn)病害的爆發(fā)。
2 總結(jié)
長(zhǎng)短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)模型擅長(zhǎng)處理可變長(zhǎng)度的時(shí)間序列的數(shù)據(jù)輸入,也可以有效解決長(zhǎng)期依賴問題。改進(jìn)的C4.5算法增加了去除相關(guān)性大的因素這一環(huán)節(jié),從而有效地減少了不必要的計(jì)算,節(jié)省了計(jì)算資源。先利用長(zhǎng)短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)測(cè),再利用決策樹進(jìn)行分類,可有效、精準(zhǔn)地對(duì)水產(chǎn)病害進(jìn)行預(yù)測(cè),讓養(yǎng)殖戶們及時(shí)采取措施,減小由此帶來的巨大損失。
參考文獻(xiàn):
[1]于家斌,尚方方,王小藝,等,基于GF-LSTM網(wǎng)絡(luò)的藍(lán)藻水華預(yù)測(cè)方法[Jl.計(jì)算機(jī)應(yīng)用,2018:1-6.
【通聯(lián)編輯:代影】
收稿日期:2019-11-25
作者簡(jiǎn)介:姜春濤(1985-),男,山東煙臺(tái)人,講師,博士,計(jì)算機(jī)學(xué)會(huì)(CCF)會(huì)員,主要研究方向?yàn)橛?jì)算機(jī)微體系結(jié)構(gòu)模擬、大數(shù)據(jù)系統(tǒng)優(yōu)化;黃昕(1999-),女,江西贛州人,本科,主要研究方向?yàn)閿?shù)據(jù)科學(xué)、大數(shù)據(jù)技術(shù);任紫薇(1998-),女,安徽宿州人,本科,主要研究方向?yàn)閿?shù)據(jù)科學(xué)、大數(shù)據(jù)技術(shù)。