【摘? 要】2019年12月,華盛頓州農(nóng)業(yè)部確認胡蜂出現(xiàn)在美國本土,這一生物入侵現(xiàn)象對經(jīng)濟、社會、生態(tài)和公共衛(wèi)生等方面都是一場無情的災(zāi)難。本文遵循“觀察規(guī)律-實踐應(yīng)用-合理預(yù)測”的框架,收集了關(guān)于該黃蜂的其他各類情報和詳細信息,提出了一系列新穎的模型來輔助政府機構(gòu)把握這種新生物的時空傳播規(guī)律并應(yīng)對生物入侵時繁雜的處理工作。本文致力于解決美國農(nóng)業(yè)部處理混亂而頻繁的目擊報告時的兩大困境——人工識別圖像成本過高和處理工作的隨意性和盲目性大。我們使用bootstrap抽樣方法解決了圖片正負樣本不均衡的問題,將調(diào)整后的圖像數(shù)據(jù)輸入經(jīng)過特殊調(diào)參的卷積神經(jīng)網(wǎng)絡(luò)中,得到了良好的圖像識別效果,準確度達99%以上。且著眼于評價的角度,結(jié)合圖像為正面的概率、距離和活躍時間段這三個指標,使用熵權(quán)法賦予權(quán)重配以模糊綜合評價,按實際危機程度劃分出了四個目擊報告處理等級,處理等級越高,就越優(yōu)先處理。
【關(guān)鍵詞】生物入侵;圖像識別;卷積神經(jīng)網(wǎng)絡(luò);熵權(quán)法
引言
2019年12月,華盛頓州農(nóng)業(yè)部確認胡蜂出現(xiàn)在美國本土,這一生物入侵現(xiàn)象對社會各個層面和職能機構(gòu)都是一場無情的災(zāi)難。在經(jīng)濟方面,美國每年投入到生物入侵的成本估計超過1000億元,近期一些研究表明,單這種亞洲大黃蜂的控制費用在美國就高達3140萬美元。生物入侵的一個典型后果就是破壞生態(tài)系統(tǒng)正常運行和生物多樣性,甚至經(jīng)常成為壓死瀕臨滅絕的物種的最后一根稻草。胡蜂最初被紐約時報報道時被稱之為“殺人大黃蜂”,這也是因為經(jīng)常捕食本地一些重要的經(jīng)濟物種,比如蜜蜂。胡蜂的強力針刺在高敏感性個體中會引起嚴重過敏反應(yīng),甚至導(dǎo)致死亡。尤其在當前新冠疫情大流行的全球困境當中,病毒或許會通過對種群人口統(tǒng)計學和種間相互作用的影響,為生物入侵的成功做出貢獻,惡化當前狀況。因此,收集關(guān)于該黃蜂的其他各類情報和詳細信息,例如準確識別、擴散分布情況和有效的控制措施等,為政府機構(gòu)提供參考和建議,及時遏制生物入侵帶來的連鎖消極后果,是迫在眉睫的。
1.基于卷積神經(jīng)網(wǎng)絡(luò)的胡蜂識別模型
1.1圖像處理
采集到的positive數(shù)據(jù)僅有14條,并且對應(yīng)的圖片文件也僅有14張,遠遠小于negative的圖片數(shù)量,這意味著我們訓練數(shù)據(jù)存在極大不平衡,這使得我們想要分類預(yù)測出的positive的案例在類中難以具有代表性。因此我們主要通過以下方法對圖像進行預(yù)處理,調(diào)整訓練數(shù)據(jù)的數(shù)量。
Bootstrap抽樣。由于raw圖像只有67張,通過數(shù)據(jù)增強后的樣本數(shù)量也只有1311張,可能會導(dǎo)致模型對樣本特征的識別限制特別緊張,魯棒性變差。因此我們將positive和negative記錄比例規(guī)定為4:6。鑒于negative記錄共有3389條,positive記錄仍稍顯不足。Bootstrap是一種用從給定訓練集中有放回的均勻抽樣,十分適合小樣本數(shù)據(jù)集。因此我們進一步使用bootstrap抽樣方法,最終得到了2259張positive記錄。
1.2參數(shù)調(diào)整
我們遵循Francois Chollet的建議,對CNN進行了一些特殊的改進,能夠有效提高模型準確度和效率。
(1)使用L1正則化,為模型的泛化添加一個權(quán)值累加項,讓權(quán)值變得更小。
(2)使用Dropout,在每輪訓練過程中隨機放棄一些神經(jīng)元節(jié)點,相當于減少了權(quán)值數(shù)量。
(3)使用Sigmoid激活函數(shù)和binary_crossentropy損失函數(shù),可以很好適應(yīng)二分類問題
(4)使用已在大型數(shù)據(jù)集上預(yù)先訓練過的網(wǎng)絡(luò)VGG16架構(gòu),提前掌握大多數(shù)計算機視覺問題有用的特征,特別適合于本文中擁有少量數(shù)據(jù)的情況。
(5)微調(diào)VGG16模型的最后一個卷積塊,先實例化VGG16的卷積模型并加載其權(quán)重,再在頂部添加我們自己調(diào)過各類超參數(shù)的全連接層,并加載其權(quán)重,最后凍結(jié)VGG16模型最后一個卷積塊中的所有層。
(6)使用SGD優(yōu)化器,確保每次只選擇一個樣本來更新梯度,使得學習速度大大增強。
隨著訓練次數(shù)的增加,剛開始時,測試集的損失度較大,但隨著訓練次數(shù)的增加,逐漸趨于平緩,最后接近于0,訓練集的損失度剛開始訓練時也較大,接近0.5,但后面也逐漸接近0。而不管是訓練集還是測試集,在第十輪后,準確度都逐漸接近1,從這些指標上看,模型訓練的結(jié)果較為理想。
為了驗證訓練的圖像識別模型的精確度具體如何,我們又從其他網(wǎng)站找到一些已經(jīng)被驗證為亞洲大黃蜂的圖片來驗證模型的準確度。我們使用從其他網(wǎng)站中收集來的圖片都可以實現(xiàn)一個很好的識別效果。
2.模糊綜合評價
根據(jù)公眾提供的目擊報告中的圖像,我們已經(jīng)可以較準確的找出正確目擊并排除負面報告,但我們?nèi)晕唇鉀Q處理工作的優(yōu)先緩急問題。當面對大量報告時,若能準確制定出調(diào)查和處理工作的優(yōu)先順序,就能大大減少工作量。因此我們在卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上進一步綜合其余指標,使用模糊綜合評價方法得到了一個總的評價模型。
2.1指標選擇
胡蜂的活動明顯的時間和空間規(guī)律。據(jù)胡蜂相關(guān)的生物研究我們可以很輕松得到它年節(jié)律,但考慮到胡蜂剛出現(xiàn)在華盛頓州,與先前研究中具有不用的地勢和氣候等環(huán)境特征,因此可能會出現(xiàn)不同的活躍期。據(jù)此我們根據(jù)每月的舉報提交數(shù)量來觀察胡蜂的活躍期。如圖2可知,我們可將胡蜂的活動周期大概分為4個階段,其中7-9月為活躍期,其次為5-6月,4月和10月,以及11月-次年3月,我們依次使用“1,2,3,4”來代表這幾個階段t。
當某個地點出現(xiàn)一只胡蜂時,意味著它周圍也有極大可能會有其余同伙。因此我們將每個被標記為unprocessed狀態(tài)的目擊報告中的地點和已確定為positive狀態(tài)的目擊報告中的地點計算距離值,再依次比較,選出最短距離d,并將其也作為一個重要指標。
此外,我們之前通過卷積神經(jīng)網(wǎng)絡(luò)得到的圖片為正面的概率顯然也是一個重要的指標,記為α。
2.2權(quán)重確定
在本研究中,由于當前經(jīng)驗和規(guī)律掌握不足,對現(xiàn)實情況的未知性太大,因此難以找到專家評判或者自行主觀確定權(quán)重,因此我們考慮使用熵權(quán)法計算三個指標各自的權(quán)重。熵權(quán)法是一種客觀的綜合評價方法,得到的權(quán)重依賴于數(shù)據(jù)本身的離散性,即熵。當某個指標的離散程度越大,它的熵值越大,也表明該指標對最終評價影響的權(quán)重越大。
通過上述熵權(quán)法計算權(quán)重,我們?nèi)齻€指標所構(gòu)成的因素集為U={γ,d,t},相對應(yīng)的權(quán)重向量A=[0.857036,0.008431,0.134533]。我們將官方處理優(yōu)先順序分為四個等級,等級越高,越應(yīng)該得到優(yōu)先處理。因此我們的等級集V={1,2,3,4}。
2.3模型構(gòu)建與求解
我們將σ對各等級的隸屬度函數(shù)定義為A(σ),將d對各等級的隸屬度函數(shù)定義為B(d),將t對各等級的隸屬度函數(shù)定義為C(t)。由于σ和d都是連續(xù)變量,可以分段表示,適合使用梯形隸屬度函數(shù),而t是離散表示的,適合用三角形隸屬度函數(shù)。將指標σ作為例,根據(jù)表1中的分段規(guī)則,可以得到如下隸屬度函數(shù)的圖形,如圖2。
最后,我們使用該模型對全部15個unprocessed記錄進行總評價,其中不包含圖片、視頻等有效文件的數(shù)據(jù)我們直接打分為0,因為這類數(shù)據(jù)實驗室無法進行判斷,只能歸為unverified,我們對有效數(shù)據(jù)(5)的結(jié)果進行排序并輸出,按照加權(quán)平均原則,可以得到每個等級中對應(yīng)的unprocessed記錄,能夠有效幫助到相關(guān)部門做出優(yōu)先處理決策。
3.結(jié)語
胡蜂在華盛頓州的出現(xiàn)讓社會公眾陷入一種迷茫與焦慮狀態(tài)之中,目擊報告大幅增長,這給美國農(nóng)業(yè)部造成了巨大的處理壓力。他們主要面臨兩個難點:一是人工識別胡蜂成本太高而尚未找到一種較好的智能識別方法;二是面對不停息的頻繁報告他們難以根據(jù)實際危機程度劃定優(yōu)先處理等級。
首先,本文利用卷積神經(jīng)網(wǎng)絡(luò)以識別正確的胡蜂的圖像,可在一定程度上取代人工識別,準確度較高。
接下來,本文利用該圖像正確的概率結(jié)合胡蜂節(jié)律周期和活動空間等指標,并使用熵權(quán)法賦予各個指標權(quán)重,進行模糊綜合評價得出優(yōu)先處理的等級,最后使用unprocessed狀態(tài)下的目擊報告作為測試集進行測試判斷。
參考文獻
[1] Meyerson, L. A., Carlton, J. T., Simberlo?, D.,& Lodge, D. M. (2019). The growing peril of biological invasions.
[2] Barbet-Massin, M., Salles, J. M., & Courchamp, F. (2020). The economic cost of control of the invasive yellow-legged Asian hornet. NeoBiota, 55, 11-25.
[3] Wilcove, D. S., Rothstein, D., Dubow, J., Phillips, A., & Losos, E. (1998). Quantifying threats to imperiled species in the United States. BioScience, 48(8), 607-615.
[4] McClenaghan, B., Schlaf, M., Geddes, M., Mazza, J., Pitman, G., McCallum, K., ... & Otis, G. W. (2019). Behavioral responses of honey bees, Apis cerana and Apis mellifera, to Vespa mandarinia marking and alarm pheromones. Journal of Apicultural Research, 58(1), 141-148.
[5] Stankus, T. (2020). Reviews of Science for Science Librarians:Murder Hornets: Vespa Mandarinia Japonica. Science & Technology Libraries, 39(3), 244-252.
[6] Torchin, M. E., & Mitchell, C. E. (2004). Parasites, pathogens, and invasions by plants and animals. Frontiers in Ecology and the Environment, 2(4), 183-190.
[7] Chollet, F. (2016). Building powerful image classi?cation models using very little data.Keras Blog.
[8] Li, G., Cheng, Y. Q., Dong, L., & Wang, W. (2014). Study of the gini coe?cient objective weights. Manag. Rev, 26, 12-22.
作者簡介:李松燁(2000.09-),男,漢族,河北邢臺人,本科在讀,研究方向為信息管理與信息系統(tǒng)