亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        集成改進(jìn)AHP與XGBoost算法的食品安全風(fēng)險(xiǎn)預(yù)測(cè)模型:以大米為例

        2022-03-10 13:12:00王小藝王姿懿趙峙堯
        關(guān)鍵詞:危害模型

        王小藝, 王姿懿, 趙峙堯,*, 張 新, 陳 謙, 李 飛

        (1.北京工商大學(xué) 人工智能學(xué)院, 北京 100048;2.北京工商大學(xué) 國(guó)家環(huán)境保護(hù)食品鏈污染防治重點(diǎn)實(shí)驗(yàn)室, 北京 100048;3.北京服裝學(xué)院, 北京 100029)

        隨著我國(guó)經(jīng)濟(jì)社會(huì)的快速發(fā)展,人民生活水平不斷提高,老百姓對(duì)食品安全的關(guān)注程度日漸提高[1]。在食品安全風(fēng)險(xiǎn)管理中,食品安全風(fēng)險(xiǎn)評(píng)估是以數(shù)據(jù)為基礎(chǔ),在食源處分析與解決食品安全問(wèn)題強(qiáng)有力的手段。2009年我國(guó)頒布實(shí)施的《中華人民共和國(guó)食品安全法》規(guī)定:“國(guó)家建立食品安全風(fēng)險(xiǎn)監(jiān)測(cè)制度,由國(guó)務(wù)院衛(wèi)生行政部門會(huì)同國(guó)務(wù)院食品安全監(jiān)督管理等部門,制定、實(shí)施國(guó)家食品安全風(fēng)險(xiǎn)監(jiān)測(cè)計(jì)劃,成立由醫(yī)學(xué)、農(nóng)業(yè)、食品、營(yíng)養(yǎng)、生物、環(huán)境等方面的專家組成的食品安全風(fēng)險(xiǎn)評(píng)估專家委員會(huì)進(jìn)行食品安全風(fēng)險(xiǎn)評(píng)估?!盵2]該規(guī)定突出強(qiáng)調(diào)了開(kāi)展食品安全風(fēng)險(xiǎn)評(píng)估與預(yù)測(cè)具有極強(qiáng)的現(xiàn)實(shí)意義。

        當(dāng)前,風(fēng)險(xiǎn)評(píng)價(jià)方法主要包括主觀賦權(quán)評(píng)價(jià)法、客觀賦權(quán)評(píng)價(jià)法,以及綜合主客觀賦權(quán)評(píng)價(jià)法三大類。主觀賦權(quán)評(píng)價(jià)法中層次分析法(analytic hierarchy process,AHP)和德?tīng)柗?Delphi)法是目前比較成熟的風(fēng)險(xiǎn)評(píng)估方法。AHP通過(guò)構(gòu)建目標(biāo)層、準(zhǔn)則層、方案層的三層結(jié)構(gòu)來(lái)處理復(fù)雜的多目標(biāo)決策問(wèn)題[3],但仍存在結(jié)構(gòu)復(fù)雜,易受權(quán)威人士影響等不足[4];Delphi法是一種依賴于眾多專家意見(jiàn)的反饋匿名函詢法[5],通過(guò)不斷整合、歸納、統(tǒng)計(jì),匿名反饋?zhàn)罱K得到一致的意見(jiàn),但收集匯總專家意見(jiàn)的過(guò)程相對(duì)復(fù)雜,花費(fèi)時(shí)間較長(zhǎng)[6]。客觀賦權(quán)評(píng)價(jià)法中多層前饋(back propagation,BP)、隨機(jī)森林(random forest,RF)、支持向量機(jī)(support vector machine,SVM)等算法應(yīng)用較為廣泛。BP算法[7]是一種速度較快的梯度下降算法,具有較強(qiáng)的非線性映射能力,但容易陷入局部最小值等問(wèn)題;RF算法[8]是Bagging的一個(gè)擴(kuò)展變體,計(jì)算復(fù)雜度不高,但容易出現(xiàn)過(guò)擬合問(wèn)題;SVM算法[9]具有較強(qiáng)的泛化能力,但不適用于大數(shù)據(jù)集。綜合主客觀賦權(quán)評(píng)價(jià)法是通過(guò)主觀賦權(quán)評(píng)價(jià)法構(gòu)建指標(biāo)體系,依據(jù)客觀賦權(quán)評(píng)價(jià)法構(gòu)建風(fēng)險(xiǎn)預(yù)測(cè)模型,進(jìn)而實(shí)現(xiàn)精準(zhǔn)高效的風(fēng)險(xiǎn)評(píng)估。

        現(xiàn)有的風(fēng)險(xiǎn)評(píng)價(jià)方法在實(shí)際應(yīng)用中仍具有一定的局限性[10],存在主觀分析人工成本較高且評(píng)估進(jìn)程較長(zhǎng),客觀分析評(píng)估指標(biāo)精度較低或過(guò)擬合性能較弱等問(wèn)題,使得風(fēng)險(xiǎn)預(yù)測(cè)結(jié)果的準(zhǔn)確率偏低且時(shí)間成本較高,從而造成缺失精準(zhǔn)定位風(fēng)險(xiǎn)值的能力。因此,針對(duì)食品行業(yè)特性,本研究引入危害物最大殘留限量(MRL)與危害物每日容許攝入量(ADI)對(duì)AHP進(jìn)行定量改進(jìn),并與預(yù)測(cè)準(zhǔn)確性高且不易過(guò)擬合的極端梯度提升樹(shù)(extreme gradient boosting,XGBoost)算法相結(jié)合構(gòu)建預(yù)測(cè)模型,應(yīng)用于食品安全風(fēng)險(xiǎn)評(píng)估。通過(guò)除港澳臺(tái)外全國(guó)31個(gè)省的大米檢測(cè)數(shù)據(jù)為基礎(chǔ)進(jìn)行案例分析,利用改進(jìn)后的AHP模型提取多維復(fù)雜數(shù)據(jù)中的綜合特征值作為預(yù)測(cè)模型風(fēng)險(xiǎn)值,并將精度高、穩(wěn)定性強(qiáng)的XGBoost算法作為訓(xùn)練模型應(yīng)用于風(fēng)險(xiǎn)值預(yù)測(cè),同時(shí)將相同數(shù)據(jù)應(yīng)用于經(jīng)典預(yù)測(cè)算法中進(jìn)行對(duì)比,以驗(yàn)證XGBoost算法的有效性。

        1 數(shù)據(jù)來(lái)源與數(shù)據(jù)清洗

        1.1 數(shù)據(jù)來(lái)源

        以2018年大米危害物檢測(cè)數(shù)據(jù)為基礎(chǔ)進(jìn)行實(shí)例分析。通過(guò)搜集與整合國(guó)家食品安全抽檢檢驗(yàn)信息系統(tǒng)中的數(shù)據(jù),得到除港澳臺(tái)以外全國(guó)31個(gè)省市的大米危害物檢測(cè)數(shù)據(jù)。此數(shù)據(jù)主要由抽檢省份、抽檢時(shí)間、抽檢項(xiàng)目、檢驗(yàn)結(jié)果等類別組成,其中危害物檢測(cè)項(xiàng)目包含總汞、無(wú)機(jī)砷、鉛、鉻、鎘、黃曲霉毒素B等危害物,部分?jǐn)?shù)據(jù)如表1。

        表1 2018年大米危害物檢測(cè)原始數(shù)據(jù)Tab.1 Raw data of rice hazard detection in 2018

        1.2 數(shù)據(jù)清洗

        針對(duì)1.1節(jié)采集的危害物檢測(cè)數(shù)據(jù),為了從高維復(fù)雜的數(shù)據(jù)中提取有效信息,實(shí)現(xiàn)數(shù)據(jù)價(jià)值隱性到顯性的蛻變[11],本研究依次采用數(shù)據(jù)篩選、數(shù)據(jù)規(guī)約以及數(shù)據(jù)變換的手段對(duì)原始數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,具體流程如圖1。

        圖1 數(shù)據(jù)清洗流程Fig.1 Data cleaning process

        1.2.1風(fēng)險(xiǎn)因子篩選

        風(fēng)險(xiǎn)因子是指大米在生產(chǎn)、加工、包裝、貯存、運(yùn)輸、銷售直至食用等過(guò)程中產(chǎn)生的或由環(huán)境污染帶入的、非有意加入的化學(xué)性危害物質(zhì)[12-13],其篩選流程如下。1)按照檢測(cè)結(jié)果屬性的不同進(jìn)行分類。將每種危害物的檢測(cè)結(jié)果分為描述型結(jié)果、數(shù)值型結(jié)果、以及空值三類,其中描述型結(jié)果主要包括未檢出或小于某一具體數(shù)值(如<0.01 μg/kg),數(shù)值型結(jié)果為具體檢出量(如0.11 μg/kg)。2)描述型結(jié)果轉(zhuǎn)換為數(shù)值型結(jié)果。由于數(shù)值型結(jié)果相比于描述型結(jié)果更能直觀反映危害物含量的多少,針對(duì)小于某一具體數(shù)值的描述型結(jié)果刪除多余符號(hào)。例如:黃曲霉毒素B檢測(cè)含量為“<0.001 μg/kg”,而國(guó)家標(biāo)準(zhǔn)黃曲霉毒素B限定值為10 μg/kg,檢測(cè)結(jié)果未超過(guò)國(guó)家標(biāo)準(zhǔn)限定值,則刪除“<”符號(hào),并將檢測(cè)含量值記錄為“0.001 μg/kg”;赭曲霉毒素A未檢出,則將檢測(cè)含量值記錄為“0 μg/kg”。3)統(tǒng)計(jì)各危害物數(shù)值型結(jié)果的個(gè)數(shù)以及各危害物超過(guò)國(guó)家限定指標(biāo)值的個(gè)數(shù)。按照危害物超過(guò)國(guó)家限定指標(biāo)值的個(gè)數(shù)與危害物數(shù)值型結(jié)果的個(gè)數(shù)的比值從大到小依次排列,選取比值較大的危害物作為風(fēng)險(xiǎn)因子。依據(jù)篩選流程構(gòu)建大米危害物風(fēng)險(xiǎn)指標(biāo)體系,如表2。

        表2 大米危害物風(fēng)險(xiǎn)指標(biāo)體系Tab.2 Risk index system of rice hazard

        1.2.2數(shù)據(jù)規(guī)約

        數(shù)據(jù)規(guī)約主要包含數(shù)據(jù)集成和數(shù)據(jù)類型統(tǒng)一兩個(gè)步驟。其中數(shù)據(jù)集成是指具有不同屬性或不同格式的數(shù)據(jù)按照邏輯集成;而數(shù)據(jù)類型統(tǒng)一是指數(shù)值型數(shù)據(jù)全部統(tǒng)一為浮點(diǎn)數(shù)型,便于數(shù)據(jù)的統(tǒng)一管理。

        1.2.3數(shù)據(jù)變換

        數(shù)據(jù)變換同樣分為噪聲過(guò)濾與數(shù)據(jù)歸一化兩個(gè)步驟。其中噪聲過(guò)濾是指剔除數(shù)據(jù)中無(wú)法解釋的數(shù)據(jù)變動(dòng),即刪除數(shù)據(jù)缺失值以及去除數(shù)據(jù)異常值。由于原始數(shù)據(jù)的檢驗(yàn)結(jié)果與結(jié)果單位處于分離并行的狀態(tài),因此本研究的異常值為單位記錄錯(cuò)誤導(dǎo)致的統(tǒng)計(jì)誤差,即在檢測(cè)數(shù)據(jù)中數(shù)值超過(guò)全部原始數(shù)據(jù)均值500倍以上的數(shù)據(jù)。

        同時(shí)為保證風(fēng)險(xiǎn)因子的輸入質(zhì)量,將數(shù)據(jù)進(jìn)行歸一化處理,即將數(shù)據(jù)按照合適的隸屬度曲線標(biāo)準(zhǔn)化映射到特定的數(shù)據(jù)空間,本研究采用的是梯形隸屬度函數(shù),見(jiàn)式(1)。

        (1)

        式(1)中,xmin為無(wú)風(fēng)險(xiǎn)的最大值,其中無(wú)風(fēng)險(xiǎn)是指該風(fēng)險(xiǎn)因子檢測(cè)值大幅低于國(guó)家限定指標(biāo)值,則選取危害物國(guó)家限定指標(biāo)值的百分之一作為無(wú)風(fēng)險(xiǎn)最大值;xmax為國(guó)家限定指標(biāo)值。將處理后的數(shù)據(jù)代入隸屬度函數(shù),計(jì)算得到綜合特征值并標(biāo)記為預(yù)測(cè)模型風(fēng)險(xiǎn)值。

        2 集成改進(jìn)AHP與XGBoost算法的風(fēng)險(xiǎn)預(yù)測(cè)模型建立

        2.1 風(fēng)險(xiǎn)預(yù)測(cè)模型框架

        通過(guò)對(duì)多維復(fù)雜的大米危害物檢測(cè)數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗操作,得到了大米危害物的各風(fēng)險(xiǎn)因子指標(biāo),以這些風(fēng)險(xiǎn)因子指標(biāo)值為基礎(chǔ),構(gòu)建了一種集成改進(jìn)AHP與XGBoost算法的危害物風(fēng)險(xiǎn)預(yù)測(cè)模型。其中,由于AHP受主觀因素影響較大的,因此針對(duì)食品安全領(lǐng)域特性,結(jié)合ADI和MRL對(duì)其進(jìn)行定量改進(jìn),同時(shí)應(yīng)用擬合程度高、速度快的XGBoost算法進(jìn)行特征學(xué)習(xí),提取危害物的綜合特征值,具體流程如圖2。

        圖2 風(fēng)險(xiǎn)預(yù)測(cè)模型框架Fig.2 Framework of risk forecast model

        2.2 層次分析法定量改進(jìn)

        AHP是一種綜合定量與定性分析的系統(tǒng)分析方法,能夠科學(xué)系統(tǒng)地進(jìn)行多目標(biāo)的決策分析[14]。其基本思路是按照指標(biāo)體系的層次結(jié)構(gòu),采用由專家打分的1~9標(biāo)度法計(jì)算指標(biāo)權(quán)重,從而將復(fù)雜高維數(shù)據(jù)轉(zhuǎn)換成若干低維綜合因素[15]。但由于專家打分受主觀因素影響較大且需要較高的人工成本[16],為了解決這一問(wèn)題,考慮到按照優(yōu)良農(nóng)業(yè)措施生產(chǎn)的食品在消費(fèi)時(shí)實(shí)際的殘留范圍,以及允許的殘留水平,通過(guò)引入世界衛(wèi)生組織設(shè)定的食品上的殘留濃度最大殘留限量,采用由各危害物ADI與MRL結(jié)合形成的相對(duì)權(quán)重指標(biāo)代替專家打分建立判斷矩陣,以得到各指標(biāo)權(quán)重值,使各指標(biāo)權(quán)重值相較于傳統(tǒng)AHP更具客觀性。

        首先,設(shè)存在k個(gè)風(fēng)險(xiǎn)因子,則評(píng)價(jià)風(fēng)險(xiǎn)因子的指標(biāo)權(quán)重可表示為矩陣Nk×2[式(2)]:

        (2)

        設(shè)評(píng)價(jià)風(fēng)險(xiǎn)因子的指標(biāo)值為矩陣M2×k[式(3)]:

        (3)

        式(3)中,m1i[i∈(1,2,…,k)]表示第i個(gè)風(fēng)險(xiǎn)因子的ADI;m2i[i∈(1,2,…,k)]表示第i個(gè)風(fēng)險(xiǎn)因子的MRL。

        將評(píng)價(jià)風(fēng)險(xiǎn)因子的指標(biāo)權(quán)重矩陣與評(píng)價(jià)風(fēng)險(xiǎn)因子指標(biāo)值矩陣相結(jié)合,組成判斷矩陣Ak×k[式(4)],同時(shí),融合專家干預(yù)建議對(duì)判斷矩陣Ak×k進(jìn)行準(zhǔn)確性驗(yàn)證和結(jié)果校正。

        (4)

        表3 判斷矩陣中的元素標(biāo)度Tab.3 Element scale of judgment matrix

        根據(jù)判斷矩陣計(jì)算最大特征根λmax以及特征向量W=[w1,w2,…,wk]T[式(5)~式(7)]:

        AW=λmaxW;

        (5)

        (6)

        (7)

        經(jīng)歸一化后的特征向量W記為風(fēng)險(xiǎn)因子權(quán)重值,其可以反映各風(fēng)險(xiǎn)因子危害程度的大小[17],利用1.2節(jié)方法對(duì)冗余數(shù)據(jù)清洗分類,形成包含q條數(shù)據(jù)、k個(gè)維度的風(fēng)險(xiǎn)因子矩陣X[式(8)]:

        (8)

        將矩陣X與各風(fēng)險(xiǎn)因子指標(biāo)權(quán)重加權(quán),得到低維綜合風(fēng)險(xiǎn)值Y[式(9)]:

        (9)

        因此,采用改進(jìn)的AHP模型對(duì)食品檢測(cè)數(shù)據(jù)進(jìn)行降維,得到低維綜合風(fēng)險(xiǎn)值,再利用食品安全風(fēng)險(xiǎn)評(píng)估領(lǐng)域特有的定量指標(biāo),即MRL與ADI,作為評(píng)判標(biāo)準(zhǔn),以提高風(fēng)險(xiǎn)值的準(zhǔn)確性及客觀性,進(jìn)而得到大米危害物風(fēng)險(xiǎn)預(yù)測(cè)模型的期望輸出。

        2.3 極端梯度提升樹(shù)算法訓(xùn)練

        XGBoost算法[10]是一種支持并行計(jì)算的梯度提升樹(shù)算法,是在梯度提升迭代決策樹(shù)(gradient boosting decision tree,GBDT)的基礎(chǔ)上對(duì)代價(jià)函數(shù)進(jìn)行二階泰勒展開(kāi)得到的。XGBoost算法在提升了運(yùn)行速度以及預(yù)測(cè)準(zhǔn)確率的同時(shí),也有效抑制了過(guò)擬合現(xiàn)象[18]。XGBoost算法訓(xùn)練流程如圖3。

        圖3 XGBoost 算法訓(xùn)練流程Fig.3 Training process of XGBoost algorithm

        其數(shù)學(xué)模型可表示為式(10)、式(11):

        (10)

        F=f(xi)=wq(x)。

        (11)

        式(10)和式(11)中,i∈(1,2,…,n)為樣本數(shù)量,i為低維綜合風(fēng)險(xiǎn)值,xi為各風(fēng)險(xiǎn)因子指標(biāo)值,t為子模型總數(shù),wq(x)為XGBoost上全體葉子節(jié)點(diǎn)的權(quán)重向量,fk為在第k棵回歸樹(shù)上每個(gè)葉子結(jié)點(diǎn)的權(quán)重,F(xiàn)為對(duì)應(yīng)所有回歸樹(shù)的集合。

        定義損失函數(shù)l(yi,i)=(yi-i)2,即低維綜合風(fēng)險(xiǎn)值與低維綜合風(fēng)險(xiǎn)值預(yù)測(cè)值之間的誤差維度;損失函數(shù)l(yi,i)的最優(yōu)解F*(x)=arg minE(x,y)[L(y,F(x))],用于輔助選取合適的葉子節(jié)點(diǎn)數(shù),可防止葉子節(jié)點(diǎn)個(gè)數(shù)的無(wú)限增長(zhǎng),有效的節(jié)約模型運(yùn)行時(shí)間;正則化項(xiàng)Ω(ft)[式(12)],可防止XGBoost算法中葉子結(jié)點(diǎn)個(gè)數(shù)無(wú)限增長(zhǎng),加快模型運(yùn)行速度。

        (12)

        式(12)中,γ和λ是調(diào)整參數(shù),用于防止模型出現(xiàn)過(guò)擬合現(xiàn)象;T為葉子節(jié)點(diǎn)個(gè)數(shù)。正則化項(xiàng)與節(jié)點(diǎn)數(shù)呈正相關(guān),因此引入正則化項(xiàng)可在保證低維綜合風(fēng)險(xiǎn)預(yù)測(cè)值與風(fēng)險(xiǎn)值的誤差穩(wěn)定時(shí)快速得出葉子節(jié)點(diǎn)飽和值,從而提高模型的運(yùn)行速度[19]。

        引入由損失函數(shù)與正則化項(xiàng)組成的目標(biāo)函數(shù)Obj(t)[式(13)]:

        (13)

        為了使目標(biāo)函數(shù)梯度下降的更快更準(zhǔn),對(duì)目標(biāo)函數(shù)Obj(t)進(jìn)行泰勒展開(kāi)得到如下目標(biāo)函數(shù)Obj(t)[式(14)~式(17)]:

        (14)

        gi=?l(yi,(t-1));

        (15)

        (16)

        (17)

        鑒于此,問(wèn)題的主要矛盾轉(zhuǎn)化為求解以下2個(gè)二次函數(shù)[式(18)、式(19)]的最小值問(wèn)題。

        (18)

        (19)

        為避免多次枚舉造成運(yùn)算量過(guò)大,采用貪心算法尋求最優(yōu)樹(shù)結(jié)構(gòu),對(duì)已知葉子節(jié)點(diǎn)加入新的分割[20],依次獲得分割后的增益,計(jì)算見(jiàn)式(20)。

        (20)

        式(20)中,Gain表示信息增益是樹(shù)形結(jié)構(gòu)是否分支的主要參考因素,即當(dāng)新分割產(chǎn)生的信息增量達(dá)到樹(shù)的深度限值或Gain<0,樹(shù)停止分割,從而在防止過(guò)擬合的前提下達(dá)到速度快擬合佳的仿真效果。

        3 結(jié)果與分析

        3.1 不同模型的優(yōu)化參數(shù)配置

        本研究的實(shí)驗(yàn)環(huán)境是i5- 6200U CPU、8G RAM的Win10操作系統(tǒng),代碼基于Jupyter Notebook平臺(tái)通過(guò)Python3實(shí)現(xiàn)。基于此環(huán)境配置,將1.2節(jié)選取的各風(fēng)險(xiǎn)因子指標(biāo)值作為風(fēng)險(xiǎn)預(yù)測(cè)模型輸入數(shù)據(jù),低維綜合風(fēng)險(xiǎn)值作為風(fēng)險(xiǎn)預(yù)測(cè)模型輸出數(shù)據(jù),按照3∶1的訓(xùn)練測(cè)試比對(duì)數(shù)據(jù)集進(jìn)行劃分,并將XGBoost算法的模型預(yù)測(cè)結(jié)果與經(jīng)研究證實(shí)預(yù)測(cè)效果較突出的主流模型預(yù)測(cè)結(jié)果進(jìn)行對(duì)比分析,即最鄰近分類(k-nearest neighbor,KNN)算法、SVM算法、BP算法、長(zhǎng)短期記憶人工神經(jīng)網(wǎng)絡(luò)(long short-term memory,LSTM)算法。由于各算法配置的參數(shù)各異,故針對(duì)每個(gè)算法分別選取幾個(gè)參數(shù)采用scikit-learn提供的隨機(jī)搜索(RandomizedSearchCV)來(lái)進(jìn)行參數(shù)配置。各模型參數(shù)配置結(jié)果如表4。

        表4 不同算法的模型參數(shù)配置Tab.4 Model parameters configuration of different algorithms

        在表4中,KNN算法的最佳參數(shù)配置由近鄰數(shù)(neighbors)、預(yù)測(cè)權(quán)函數(shù)(weights)以及指定計(jì)算最近鄰的算法(algorithm)組成。SVM算法的最佳參數(shù)配置由懲罰系數(shù)(C)、核函數(shù)(kernel、gamma、degree)以及距離誤差(epsilon)組成;其中g(shù)amma與degree為SVM算法選擇多項(xiàng)式核函數(shù)(poly)作為核函數(shù)后,該函數(shù)自帶的參數(shù),隱含地決定了數(shù)據(jù)映射到新的特征空間后的分布。BP算法的最佳參數(shù)配置由迭代次數(shù)(nb_epoch)、訓(xùn)練1次所選取的樣本數(shù)(batch_size)、優(yōu)化器(optimizer)以及激勵(lì)函數(shù)(activation)組成。LSTM算法的最佳參數(shù)配置與BP算法相似,最佳參數(shù)配置同樣由迭代次數(shù)(epochs)、訓(xùn)練1次所選取的樣本數(shù)(batch_size)、優(yōu)化器(optimizer)以及激勵(lì)函數(shù)(activation)組成。XGBoost算法的最佳參數(shù)配置由迭代次數(shù)(n_estimators)、樣本的采樣率(subsample)、隨機(jī)數(shù)種子(random_state)、學(xué)習(xí)率(learning_rate)以及每棵二叉樹(shù)的最大深度(max_depth)組成。

        3.2 模型精度分析

        基于3.1中的仿真配置,利用不同風(fēng)險(xiǎn)預(yù)測(cè)模型,在各算法的訓(xùn)練次數(shù)均為200次的條件下,可得出各類風(fēng)險(xiǎn)因子風(fēng)險(xiǎn)值與不同模型預(yù)測(cè)值的對(duì)比,見(jiàn)圖4。其中X軸代表樣本編號(hào);Y軸表示各類危害物的污染程度,即低維綜合風(fēng)險(xiǎn)值。低維綜合風(fēng)險(xiǎn)值大于1(y>1)即污染程度大于1,代表該危害物明顯超標(biāo);且當(dāng)y∈(0,1)時(shí),矩陣Y中數(shù)值的大小與該類危害物污染程度呈正相關(guān)。

        圖4 各類風(fēng)險(xiǎn)因子風(fēng)險(xiǎn)值與不同模型預(yù)測(cè)值對(duì)比Fig.4 Comparison between risk values of various risk factors and predicted values of different models

        由圖4的15個(gè)模型對(duì)比曲線可知,當(dāng)y∈(0.2,0.8)時(shí),即各類危害物的污染程度處于合理區(qū)間時(shí),各種模型的預(yù)測(cè)值與真實(shí)值的重合度較高;而當(dāng)y∈(0,0.2)∪(0.8,+∞)時(shí),即各類危害物的污染程度偏低或偏高時(shí),部分模型(KNN、SVM、BP)平均擬合效果較差,在污染程度較高(較低)時(shí)易出現(xiàn)污染程度被高估(低估)的情況。

        為更清晰地對(duì)比各模型實(shí)驗(yàn)結(jié)果,本研究采用相關(guān)系數(shù)R2、平均絕對(duì)誤差MAE、平均平方誤差MSE這3個(gè)指標(biāo)對(duì)模型進(jìn)行評(píng)估,各指標(biāo)計(jì)算見(jiàn)式(21)~式(23)。

        (21)

        (22)

        (23)

        由表5可知,XGBoost算法的相關(guān)系數(shù)R2區(qū)間跨度小于一個(gè)百分點(diǎn),在各類危害物預(yù)測(cè)實(shí)驗(yàn)中表現(xiàn)尤為穩(wěn)定,且相比于其他模型,XGBoost算法的R2普遍偏高,均高達(dá)99%以上。同樣,XGBoost算法的MAE和MSE,無(wú)論是區(qū)間跨度還是取值大小均低于其他模型,說(shuō)明該模型在各類危害物預(yù)測(cè)實(shí)驗(yàn)中均具有良好的學(xué)習(xí)能力。綜合對(duì)比5種算法,XGBoost算法相比于其他算法在預(yù)測(cè)方面具有更高的準(zhǔn)確性以及更強(qiáng)的穩(wěn)定性,因此可以更加直觀準(zhǔn)確地預(yù)測(cè)及分析食品安全危害物風(fēng)險(xiǎn)值。

        4 結(jié) 論

        本研究針對(duì)高維復(fù)雜且非線性的食品安全檢測(cè)數(shù)據(jù)帶來(lái)的數(shù)據(jù)利用率低及人工成本高等問(wèn)題,綜合考慮食品行業(yè)特有的相關(guān)危害物限定標(biāo)準(zhǔn),對(duì)降維模型AHP進(jìn)行定量改進(jìn),并與運(yùn)行精度高的XGBoost算法相結(jié)合,提出了一種集成改進(jìn)AHP與XGBoost算法的食品安全風(fēng)險(xiǎn)預(yù)測(cè)模型?;诖耍狙芯吭谌珖?guó)除港澳臺(tái)以外各省大米危害物檢測(cè)數(shù)據(jù)的基礎(chǔ)上,首先采用數(shù)據(jù)規(guī)約、數(shù)據(jù)變換及數(shù)據(jù)歸一化方法將原始數(shù)據(jù)處理為結(jié)構(gòu)化數(shù)據(jù),隨后采用定量改進(jìn)的AHP模型提取低維綜合風(fēng)險(xiǎn)值,最后采用XGBoost算法自適應(yīng)地挖掘風(fēng)險(xiǎn)因子與低維風(fēng)險(xiǎn)值之間的關(guān)系。通過(guò)對(duì)比模型的仿真結(jié)果,集成改進(jìn)AHP與XGBoost算法的風(fēng)險(xiǎn)預(yù)測(cè)模型在準(zhǔn)確性和穩(wěn)定性方面優(yōu)于其他傳統(tǒng)風(fēng)險(xiǎn)預(yù)測(cè)模型。因此,集成改進(jìn)AHP與XGBoost算法模型的建立可以快速準(zhǔn)確地識(shí)別出各類危害物的風(fēng)險(xiǎn)值,從而希望為監(jiān)管部門評(píng)估決策提供科學(xué)有效的依據(jù);但該模型在一些方面還值得改進(jìn),如在數(shù)據(jù)應(yīng)用方面,由于各類食品危害物檢測(cè)項(xiàng)目的不同,若采用動(dòng)態(tài)權(quán)重賦權(quán)法進(jìn)行權(quán)重配比將更符合實(shí)際需求;在模型應(yīng)用方面,若應(yīng)用于全供應(yīng)鏈各環(huán)節(jié)實(shí)時(shí)監(jiān)測(cè)風(fēng)險(xiǎn)值變化將有助于減少食源處風(fēng)險(xiǎn)威脅。

        表5 不同算法的模型評(píng)估指標(biāo)對(duì)比Tab.5 Comparison of model evaluation indexes of different algorithms

        猜你喜歡
        危害模型
        一半模型
        降低燒烤帶來(lái)的危害
        肥胖危害知多少
        藥+酒 危害大
        海峽姐妹(2020年12期)2021-01-18 05:53:26
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        酗酒的危害
        3D打印中的模型分割與打包
        “久坐”的危害有多大你知道嗎?
        民生周刊(2016年9期)2016-05-21 12:11:19
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        精品国产av最大网站| 国产剧情av麻豆香蕉精品| 午夜久久久久久禁播电影| 黑人巨大跨种族video| 午夜一级成人| 亚洲av乱码一区二区三区观影| av天堂最新在线播放| 免费看av在线网站网址| 麻豆av传媒蜜桃天美传媒| 欧美亚洲另类国产18p| 青青草免费手机直播视频| 国模冰莲自慰肥美胞极品人体图| 台湾佬综合网| 亚洲色拍拍噜噜噜最新网站| 日本淫片一区二区三区| 国产激情艳情在线看视频| 国产香蕉97碰碰视频va碰碰看 | 日产一区二区三区的精品| 色婷婷一区二区三区四区成人网| 国产在线观看www污污污| 亚洲欧美日韩中文v在线| 国产精品一区二区三区三| 国产中文三级全黄| 欧美综合自拍亚洲综合图片区| 精品免费久久久久国产一区| 精品少妇人妻av一区二区蜜桃| 樱桃视频影院在线播放| 亚洲精品不卡电影| 最新国产主播一区二区| 99re6在线视频精品免费下载| 少妇高潮尖叫黑人激情在线| 日韩啪啪精品一区二区亚洲av | 国产精品成人亚洲一区| 色哟哟网站在线观看| 日韩精品一区二区三区四区| 永久免费观看的黄网站在线| 67194熟妇人妻欧美日韩| 国产在线观看入口| 国产无套粉嫩白浆内精| 中文字幕亚洲综合久久| 欧美午夜精品久久久久久浪潮|