李昕悅
摘要:為降低胡蜂的不利影響,公眾提交目擊報(bào)告,而政府分配資源來(lái)解決。然而有些目擊報(bào)告的錯(cuò)誤率較高,并且政府可以分配的資源也是有限的。為了解決這一問(wèn)題,我們對(duì)這個(gè)過(guò)程進(jìn)行建模和優(yōu)化,我們通過(guò)分析和擬合大量數(shù)據(jù)來(lái)檢驗(yàn)我們模型的可靠性,具體來(lái)說(shuō)
第一點(diǎn):我們選取了14個(gè)被判別為Pasitive ID的地理數(shù)據(jù)點(diǎn),采用MaxEnt模型對(duì)亞洲大黃蜂在未來(lái)可能傳播的潛在地區(qū)范圍進(jìn)行了預(yù)測(cè),并通過(guò)ROC評(píng)估體系對(duì)模型進(jìn)行了評(píng)價(jià)。事實(shí)證明該模型精確度很高。
第二點(diǎn):我們主要建立了三個(gè)有效模型并且采用了層次分析法,建立了一套完整的評(píng)價(jià)體系:導(dǎo)入報(bào)告人提交的圖片、評(píng)論以及所在位置這些信息就可以得出該報(bào)告成為Positive ID的可能性指標(biāo)。并通過(guò)分析這些數(shù)值來(lái)預(yù)測(cè)公眾錯(cuò)誤分類的可能性大小以及幫助政府優(yōu)先分配資源。
第三點(diǎn):隨著時(shí)間的推移,我們需要不斷更新數(shù)據(jù)庫(kù),基于原模型提取部分?jǐn)?shù)據(jù)對(duì)整體數(shù)據(jù)進(jìn)行評(píng)分,通過(guò)誤差積分,該模型在對(duì)未來(lái)3個(gè)月內(nèi)的預(yù)測(cè)較為準(zhǔn)確,從而確定3個(gè)月的更新周期,并且3個(gè)月內(nèi)不再出現(xiàn)Positive ID為華盛頓徹底消除害蟲(chóng)的依據(jù)。
關(guān)鍵詞:亞洲大黃蜂;層次分析法;數(shù)據(jù)建模
引言:
胡蜂作為世界最大的大黃蜂,不僅是歐洲蜜蜂的捕食者,還能在短時(shí)間內(nèi)摧毀整個(gè)歐洲蜜蜂群落,對(duì)當(dāng)?shù)孛鄯涞确N群造成嚴(yán)重影響,因此對(duì)胡蜂的防治有很重要的意義。
然而在華盛頓洲收到的公眾對(duì)此害蟲(chóng)的目擊事件中,只有少部分是確認(rèn)的報(bào)告,絕大多數(shù)都是錯(cuò)誤的目擊事件報(bào)告。鑒于政府機(jī)構(gòu)資源有限,解決如何優(yōu)先分配這些資源這一問(wèn)題是十分必要的。
1工作概況
1.1數(shù)學(xué)模型
為了研究胡蜂對(duì)于當(dāng)?shù)孛鄯涞确N群的影響力,利用數(shù)據(jù)建立數(shù)學(xué)模型,找出一些影響因子來(lái)判斷胡蜂的傳播是否可以預(yù)測(cè),得出相關(guān)數(shù)據(jù)后解釋這種有害生物在一段時(shí)間內(nèi)的傳播,利用建立數(shù)學(xué)模型,找出并量化反映公眾報(bào)告正確率的指標(biāo),形成評(píng)價(jià)體系,對(duì)公眾報(bào)告提供的數(shù)據(jù)以及政府優(yōu)先分配資源方案做出解釋。
隨著時(shí)間的變化,該模型會(huì)隨著數(shù)據(jù)更新而優(yōu)化和更新。
2模型假設(shè)和解釋說(shuō)明
不考慮授粉蜂群的移動(dòng)對(duì)胡蜂位置,在已確認(rèn)的公眾報(bào)告中胡蜂的位置不隨時(shí)間變化;不考慮在化學(xué)有道因素下蜜蜂或其他種群對(duì)胡蜂的反擊行為對(duì)胡蜂位置的影響;然后不考慮地理環(huán)境因素,如山川,河流的分布,對(duì)胡蜂位置的影響,公眾報(bào)告中的總體樣本數(shù)據(jù)服從平均分布,每個(gè)公民都清楚地知道胡蜂的特征,所提交的評(píng)論都是嚴(yán)謹(jǐn)可靠的,不考慮胡蜂繁衍密度對(duì)其位置分布的影響。
3模型建立與求解
3.1最大熵模型
3.1.1數(shù)據(jù)材料
地理分布數(shù)據(jù):亞洲大黃蜂的分布數(shù)據(jù)由本次競(jìng)賽題目給出。環(huán)境數(shù)據(jù)采用WorldClim version 2.1下載的歷史氣候數(shù)據(jù)(1970~2000年),共19個(gè)氣候變量,其空間分辨率為 30 秒(大約1平方千米)。地圖數(shù)據(jù)分別來(lái)自CSDN論壇以及ArcGIS Online。
軟件:Maxent 3.4.1、ArcGIS 10.2、SPSS22。
3.1.2數(shù)據(jù)處理
為了使預(yù)測(cè)結(jié)果不受假信息或其他干擾因素影響,我們采用專家已經(jīng)判別為 Positive ID 的14個(gè)地理坐標(biāo)點(diǎn)作為我們預(yù)測(cè)亞洲大黃蜂傳播的原始數(shù)據(jù),并按照MaxEnt V3.4.1軟件的要求,將這些數(shù)據(jù)的經(jīng)緯度轉(zhuǎn)換為.csv存儲(chǔ)。
3.1.3模型操作
我們采用最大熵模型分析上述數(shù)據(jù),將14個(gè)被判定為 Positive ID的大黃蜂的發(fā)現(xiàn)坐標(biāo)點(diǎn)以及19個(gè)氣候變量的文件分別導(dǎo)入到MaxEnt V3.4.1 軟件中預(yù)先運(yùn)行,得到每個(gè)氣候變量對(duì)對(duì)亞洲大黃蜂初步預(yù)測(cè)結(jié)果的貢獻(xiàn)率。然后對(duì)這十九個(gè)變量作主成分分析以及相關(guān)性分析(SPSS22),篩選出貢獻(xiàn)率較高而空間自相關(guān)性較低的十個(gè)變量。
3.1.4結(jié)果與分析
MaxEnt 生態(tài)位模型預(yù)測(cè)的亞洲大黃蜂的潛在分布區(qū)。根據(jù)預(yù)測(cè)結(jié)果,隨時(shí)間變化,大黃蜂傳播的高適宜性地區(qū)集中在華盛頓州、俄勒岡州以及加利福尼亞州北部沿海地區(qū),也有一部分較高適宜傳播地區(qū)在夏威夷群島。另外,少部分適宜區(qū)分別分布在阿拉斯加州的西南群島以及美國(guó)南部阿肯色河和密西西比河交匯處北部的附近。
3.1.5模型評(píng)估
我們采用ROC曲線下面積AUC對(duì)我們的模型預(yù)測(cè)結(jié)果進(jìn)行精度檢驗(yàn)。AUC值越大,表示與隨機(jī)分布相距越遠(yuǎn),環(huán)境變量與預(yù)測(cè)的物種地理分布模型之間相關(guān)性越大,即模型預(yù)測(cè)效果越好,MaxEnt 軟件在運(yùn)行過(guò)程中會(huì)自動(dòng)繪制ROC曲線,并計(jì)算出AUC值,我們可以通過(guò)它們直接評(píng)估我們的模型的預(yù)測(cè)水平。
3.2.子模型:坐標(biāo)可視化模型
對(duì)所有數(shù)據(jù)集上的經(jīng)緯度進(jìn)行可視化處理,并使用紅色散點(diǎn)突出Positive ID對(duì)應(yīng)經(jīng)緯度的所在區(qū)域,在對(duì)這 14 份 Positive ID 的經(jīng)緯度進(jìn)行統(tǒng)計(jì)后發(fā)現(xiàn)這些被驗(yàn)證為真的亞洲大黃蜂的樣本。由此,被驗(yàn)證為真的亞洲大黃蜂地理位置僅處于一個(gè)較小范圍內(nèi)。
4. 模型更新
4.1題目分析
根據(jù)建立的概率估計(jì)模型,我們可以對(duì)民眾所提交的報(bào)告進(jìn)行打分評(píng)估,分?jǐn)?shù)高的報(bào)告將會(huì)被政府優(yōu)先研究。但隨著時(shí)間的推移,新數(shù)據(jù)庫(kù)的擴(kuò)充,我們所建模型必然將會(huì)不再適用,所以我們需要對(duì)模型進(jìn)行數(shù)據(jù)庫(kù)的擴(kuò)充,同時(shí)我們需要確定數(shù)據(jù)庫(kù)的更新周期。
4.2 數(shù)據(jù)庫(kù)更新方式
我們?cè)u(píng)價(jià)模型的參考因素分為圖片相似度、位置相關(guān)度、評(píng)論重復(fù)率。圖像識(shí)別部分主要基于已知確定為大黃蜂圖像來(lái)對(duì)其他圖像進(jìn)行相似度檢驗(yàn),報(bào)告在圖像部分的得分主要基于上述相似度值。因此,模型更新時(shí),我們只需要增加新確定為大黃蜂的圖片數(shù)據(jù)對(duì)基準(zhǔn)數(shù)據(jù)進(jìn)行補(bǔ)充即可。
經(jīng)緯度評(píng)分部分,我們觀察POSITIVE ID所對(duì)應(yīng)的經(jīng)緯度坐標(biāo),由于數(shù)據(jù)過(guò)少,現(xiàn)已知的坐標(biāo)基本上都存在一個(gè)很小的范圍。所以在處理時(shí),我們將這個(gè)范圍視為一個(gè)整體。滿足0.7評(píng)分的區(qū)域需要同時(shí)是所有Positive ID所輻射區(qū)域的交集。更新模型時(shí),由于新的數(shù)據(jù)補(bǔ)充,我們無(wú)法再將包含所有Positive ID的范圍視為整體。需要對(duì)經(jīng)緯度數(shù)據(jù)進(jìn)行預(yù)處理,分割成為Positive ID密集的幾個(gè)區(qū)域,再求交集區(qū)域擬定打分標(biāo)準(zhǔn)。
5. 模型的評(píng)估
5.1優(yōu)點(diǎn)
①預(yù)測(cè)模型除原有數(shù)據(jù)集外還包含影響亞洲大黃蜂分布的一系列因素,精準(zhǔn)度高。
②從R,G,B三個(gè)通道的直方圖來(lái)分析兩張圖片的相似性,既直觀又可靠
③筆記篩選機(jī)制簡(jiǎn)單且與亞洲大黃蜂的判斷正確度相關(guān)性高。
④采用少量樣本即可對(duì)報(bào)告的正確率進(jìn)行預(yù)判,具有較強(qiáng)實(shí)用性且適應(yīng)性強(qiáng)。
5.2缺點(diǎn)
①對(duì)于經(jīng)緯度因素的處理沒(méi)有考慮到時(shí)間因素,且判斷標(biāo)準(zhǔn)較為單一,會(huì)丟失部分訊息,需要改進(jìn)。
②通過(guò)計(jì)算直方圖的方法對(duì)比圖象,總是不能消除圖像背景顏色的相似度的影響。
參考文獻(xiàn)
[1]Alaniz A J, Carvajal M A, Vergara P M。關(guān)鍵詞:大黃蜂,生物多樣性,生物多樣性,生物多樣性,生物多樣性害蟲(chóng)防治科學(xué),202.
[2]測(cè)量診斷系統(tǒng)的準(zhǔn)確性??茖W(xué)通報(bào),2000,37 (6):689 - 693.
[3]https://blog.csdn.net/sunzhenlin2008/article/details/106876973
[4]https://www.cnblogs.com/jimmy-muyuan/p/5324291.html
[5]http://www.lishimeiye.cn/fun/563.html
[6]https://download.csdn.net/download/qq_38473916/10468077