尹 佳,陳 翔,董 曼,陳 鋰,郭鵬程,張 濤,文 紅,*
(1.湖北省食品質(zhì)量安全監(jiān)督檢驗(yàn)研究院,湖北省食品質(zhì)量安全檢測(cè)工程技術(shù)研究中心,湖北 武漢 430075;2.武漢理工大學(xué)計(jì)算機(jī)與人工智能學(xué)院,湖北 武漢 430070)
醬鹵肉制品是我國(guó)傳統(tǒng)的肉類食品之一,風(fēng)味獨(dú)特,具有較高的營(yíng)養(yǎng)價(jià)值,其安全問(wèn)題直接影響到廣大人民群眾的健康。隨著社會(huì)經(jīng)濟(jì)的快速發(fā)展,國(guó)家對(duì)食品抽檢力度也不斷提升,大量的食品抽檢數(shù)據(jù)為了解食品安全現(xiàn)狀、制定針對(duì)性的抽檢計(jì)劃和監(jiān)管提供了重要的數(shù)據(jù)支撐[1]。但國(guó)內(nèi)食品安全事件如豆芽中檢出6-芐氨基腺嘌呤[2]、膠囊中檢出鉻[3]、速凍米面食品存在單核細(xì)胞增生李斯特菌污染[4]等時(shí)有發(fā)生,使得對(duì)食品進(jìn)行潛在風(fēng)險(xiǎn)的事前預(yù)防控制變得尤為重要。食品安全涉及食品供應(yīng)鏈的整個(gè)過(guò)程,各個(gè)環(huán)節(jié)都存在威脅食品安全的潛在因素,食品安全風(fēng)險(xiǎn)評(píng)估與監(jiān)管需要綜合考慮各個(gè)環(huán)節(jié)的風(fēng)險(xiǎn)因素。因此,非常有必要對(duì)這些因素進(jìn)行挖掘分析,充分利用這些復(fù)雜數(shù)據(jù),提煉出潛在的有價(jià)值的信息,識(shí)別出潛在的安全風(fēng)險(xiǎn),實(shí)現(xiàn)綜合性、動(dòng)態(tài)性的預(yù)測(cè),對(duì)問(wèn)題食品或可能存在的風(fēng)險(xiǎn)及時(shí)發(fā)出預(yù)警,為食品安全風(fēng)險(xiǎn)監(jiān)管部門(mén)進(jìn)行風(fēng)險(xiǎn)控制提供技術(shù)支持。
我國(guó)的食品監(jiān)管部門(mén)和檢驗(yàn)機(jī)構(gòu)對(duì)于海量的抽檢數(shù)據(jù),通常通過(guò)對(duì)某類食品安全歷史抽檢數(shù)據(jù)集進(jìn)行簡(jiǎn)單地統(tǒng)計(jì)分析,得到該類食品的不合格率,然后利用該指標(biāo)對(duì)該類食品安全狀況進(jìn)行評(píng)價(jià),此方法為對(duì)食品安全狀況的事后分析。通過(guò)分析歷年食品安全檢測(cè)數(shù)據(jù)發(fā)現(xiàn)往往存在大量空值,即某項(xiàng)目沒(méi)有檢測(cè)或者是檢測(cè)后沒(méi)有結(jié)果,數(shù)理統(tǒng)計(jì)方法不能在空值上進(jìn)行風(fēng)險(xiǎn)評(píng)估并發(fā)現(xiàn)數(shù)據(jù)項(xiàng)之間的聯(lián)系,顯然,在食品安全風(fēng)險(xiǎn)評(píng)估中數(shù)理統(tǒng)計(jì)顯現(xiàn)出不足。通過(guò)這些傳統(tǒng)的數(shù)理統(tǒng)計(jì)、典型病例通報(bào)等手段對(duì)食品進(jìn)行風(fēng)險(xiǎn)警示,缺少深度的分析與應(yīng)用[5-6]。另外,國(guó)內(nèi)監(jiān)管機(jī)構(gòu)對(duì)監(jiān)督抽檢數(shù)據(jù)合格數(shù)據(jù)利用相對(duì)不足,而合格數(shù)據(jù)中也有風(fēng)險(xiǎn)因素,如果僅利用不合格率評(píng)估食品安全狀況,忽略食品中檢測(cè)項(xiàng)目實(shí)際檢測(cè)數(shù)據(jù)以及檢測(cè)數(shù)據(jù)與相關(guān)食品安全標(biāo)準(zhǔn)值間的關(guān)系,不能準(zhǔn)確反映食品安全狀況。部分發(fā)達(dá)國(guó)家和地區(qū)在風(fēng)險(xiǎn)預(yù)警方面起步較早,目前已建立了相對(duì)成熟的食品安全風(fēng)險(xiǎn)預(yù)警系統(tǒng),例如歐盟食品與飼料快速預(yù)警系統(tǒng)、全球環(huán)境監(jiān)測(cè)系統(tǒng)/食品污染物監(jiān)測(cè)與評(píng)估規(guī)劃、國(guó)際食品安全當(dāng)局網(wǎng)絡(luò)、美國(guó)食源性疾病主動(dòng)監(jiān)測(cè)網(wǎng)絡(luò)及聯(lián)合國(guó)的畜牧業(yè)預(yù)警系統(tǒng)[7-9]等。在食品安全風(fēng)險(xiǎn)預(yù)測(cè)方法方面,國(guó)內(nèi)外學(xué)者也進(jìn)行了許多探索。Allain等提出新興風(fēng)險(xiǎn)識(shí)別支持系統(tǒng)的設(shè)計(jì),適用于家禽屠宰場(chǎng)肉類檢驗(yàn)的風(fēng)險(xiǎn)預(yù)警系統(tǒng)[10]。Wang Jing等采用關(guān)聯(lián)規(guī)則挖掘和物聯(lián)網(wǎng)技術(shù),對(duì)整個(gè)食品供應(yīng)鏈的所有檢測(cè)數(shù)據(jù)進(jìn)行及時(shí)監(jiān)控,判斷是否應(yīng)發(fā)布預(yù)警[11]。Geng Zhiqiang提出了兩種基于層次分析法的食品安全預(yù)警模型[12-13]。另外,為充分利用合格數(shù)據(jù),李小鳳提出了基于指數(shù)的不合格度與不合格率兩方面去綜合評(píng)價(jià)食品風(fēng)險(xiǎn)等級(jí),將食品安全風(fēng)險(xiǎn)等級(jí)程度分為了5 級(jí)[14]。郭海霞等也構(gòu)建了食品安全指數(shù)評(píng)估模型,用于評(píng)估山東省豬肉中獸藥殘留風(fēng)險(xiǎn)程度[15]。陳夏威等[16]指出目前大部分食品安全風(fēng)險(xiǎn)預(yù)警相關(guān)文獻(xiàn)仍在使用支持向量機(jī)模型[17]、BP神經(jīng)網(wǎng)絡(luò)模型[18]、決策樹(shù)模型[19]等,仍然不能取得最佳的效果。例如目前廣泛應(yīng)用在食品安全風(fēng)險(xiǎn)預(yù)測(cè)的研究方法——BP人工神經(jīng)網(wǎng)絡(luò)和支持向量機(jī),在預(yù)測(cè)過(guò)程中會(huì)遇到一些問(wèn)題[20-23],如BP神經(jīng)網(wǎng)絡(luò)在食品安全預(yù)測(cè)方面存在訓(xùn)練時(shí)間長(zhǎng)、網(wǎng)絡(luò)訓(xùn)練效率不穩(wěn)定、泛化能力不強(qiáng)、精度不太高等缺點(diǎn),這是由于BP神經(jīng)網(wǎng)絡(luò)的本質(zhì)是梯度下降法,由于優(yōu)化的目標(biāo)函數(shù)較為復(fù)雜,導(dǎo)致算法效率較低,同時(shí)它又是一種局部搜索的優(yōu)化方法,在訓(xùn)練過(guò)程中可能會(huì)陷入局部極值,從而導(dǎo)致訓(xùn)練失敗。而支持向量機(jī)算法則適用于少量線性可分?jǐn)?shù)據(jù)的訓(xùn)練。
食品安全檢測(cè)數(shù)據(jù)具有非線性的特點(diǎn),時(shí)序性和波動(dòng)性較強(qiáng)。目前在食品安全預(yù)測(cè)方面,基于時(shí)序性的預(yù)測(cè)模型較少,一類是基于傳統(tǒng)的統(tǒng)計(jì)分析和隨機(jī)過(guò)程,通常要求序列具有平穩(wěn)性,并且本質(zhì)上只能描述線性關(guān)系[24-25];除了統(tǒng)計(jì)學(xué)方法外,傳統(tǒng)的模型還有灰色時(shí)間預(yù)測(cè)模型[26],其對(duì)數(shù)據(jù)的要求較低,適合短期預(yù)測(cè),但對(duì)于波動(dòng)較大的數(shù)據(jù)卻效果不佳。另一類模型基于神經(jīng)網(wǎng)絡(luò),例如循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN),其能夠更加充分地利用數(shù)據(jù)的時(shí)間特性。長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)屬于循環(huán)神經(jīng)網(wǎng)絡(luò)的一種,是針對(duì)普通循環(huán)神經(jīng)網(wǎng)絡(luò)的長(zhǎng)期依賴問(wèn)題所提出的一種改進(jìn)方案。與普通的RNN不同,LSTM的隱藏層不是簡(jiǎn)單的重復(fù)結(jié)構(gòu),而是采用了三重門(mén)的設(shè)計(jì),即遺忘門(mén)、輸入門(mén)和輸出門(mén)[27]。三重門(mén)的設(shè)計(jì)使得“記憶”信息更有選擇性,能夠篩選出真正有效的信息,從而避免無(wú)效信息對(duì)整個(gè)循環(huán)網(wǎng)絡(luò)產(chǎn)生較大的干擾。LSTM在考慮時(shí)間規(guī)律的同時(shí),可以捕捉到數(shù)據(jù)復(fù)雜的非線性特性。由于食品安全抽檢數(shù)據(jù)是非平穩(wěn)的離散時(shí)間序列,振幅較大,目前對(duì)于非線性非平穩(wěn)信號(hào)的分析主要方法有短時(shí)傅里葉變換[28-29]、小波分解[30-31]、經(jīng)驗(yàn)?zāi)B(tài)分解[32-33]等分析方法,其中小波分解繼承和發(fā)展了短時(shí)傅立葉變換局部化的思想,同時(shí)又克服了窗口大小不隨頻率變化等缺點(diǎn),能夠提供一個(gè)隨頻率改變的“時(shí)間-頻率”窗口,是進(jìn)行信號(hào)時(shí)頻分析和處理的理想工具。相較于傅里葉變換,小波分解由于其小波基的特征,能獲取其時(shí)域特征,更適合處理非平穩(wěn)信號(hào),小波分解能同時(shí)分解趨勢(shì)信息和波動(dòng)細(xì)節(jié)信息,常用來(lái)解決波動(dòng)性問(wèn)題。
本研究以2014—2019年我國(guó)醬鹵肉制品歷史抽檢信息為數(shù)據(jù)源,依據(jù)國(guó)家標(biāo)準(zhǔn)對(duì)檢測(cè)結(jié)果進(jìn)行風(fēng)險(xiǎn)等級(jí)劃分,并采用數(shù)據(jù)分箱對(duì)風(fēng)險(xiǎn)等級(jí)數(shù)據(jù)進(jìn)行預(yù)處理,利用小波分解對(duì)數(shù)據(jù)進(jìn)行分解,對(duì)分解后不同細(xì)節(jié)的分量分別采用LSTM模型進(jìn)行預(yù)測(cè),最后將預(yù)測(cè)后的分量結(jié)果進(jìn)行相加重組,得到預(yù)測(cè)的風(fēng)險(xiǎn)等級(jí),構(gòu)建了基于時(shí)間序列的小波分解-LSTM預(yù)測(cè)模型,并對(duì)模型的有效性進(jìn)行驗(yàn)證,以期為我國(guó)醬鹵肉制品食品安全問(wèn)題分析與風(fēng)險(xiǎn)預(yù)警提供理論支持,為食品安全大數(shù)據(jù)的進(jìn)一步深入挖掘提供參考。
本研究使用的數(shù)據(jù)來(lái)源于國(guó)家市場(chǎng)監(jiān)督管理總局2014—2019年公開(kāi)公布的以及本機(jī)構(gòu)抽檢所獲得的30 757 批次醬鹵肉制品信息,數(shù)據(jù)涵蓋抽檢合格與不合格產(chǎn)品的名稱、生產(chǎn)日期、生產(chǎn)企業(yè)省份、檢驗(yàn)項(xiàng)目、檢驗(yàn)結(jié)果、標(biāo)準(zhǔn)值等原始信息,所得到的部分?jǐn)?shù)據(jù)如表1所示。
表1 部分食品安全抽檢原始數(shù)據(jù)匯總Table 1 Summary of selected food safety survey data
分析數(shù)據(jù)發(fā)現(xiàn)不同年份各省醬鹵肉制品抽檢項(xiàng)目有所不同,為盡量全面反映醬鹵肉制品的食品安全狀況,最終將所有抽檢的項(xiàng)目均納入指標(biāo)體系。以湖北省2014—2019年數(shù)據(jù)為例,包括28 個(gè)檢驗(yàn)項(xiàng)目(酸性橙II、克倫特羅、氯霉素、沙丁胺醇、萊克多巴胺、商業(yè)無(wú)菌、大腸菌群、菌落總數(shù)、單核細(xì)胞增生李斯特菌、苯并[a]芘、N-二甲基亞硝胺、亞硝酸鹽殘留量(以亞硝酸鈉計(jì))、山梨酸及其鉀鹽(以山梨酸計(jì))、糖精鈉(以糖精計(jì))、脫氫乙酸及其鈉鹽(以脫氫乙酸計(jì))、苯甲酸及其鈉鹽(以苯甲酸計(jì))、胭脂紅、莧菜紅、新紅、日落黃、檸檬黃、誘惑紅、赤蘚紅、防腐劑混合使用時(shí)各自用量占其最大使用量的比例之和、總砷(以As計(jì))、鉛(以Pb計(jì))、鉻(以Cr計(jì))、鎘(以Cd計(jì))),該檢驗(yàn)項(xiàng)目包含8 類:非食用物質(zhì)、禁用獸藥、其他微生物、致病性微生物、有機(jī)污染物、其他污染物、食品添加劑、重金屬等元素污染物(表2)。
表2 醬鹵肉制品安全風(fēng)險(xiǎn)預(yù)警指標(biāo)體系Table 2 Early warning index system for marinated meat product safety risks
由于食品檢測(cè)結(jié)果具有多源性、異構(gòu)性、非線性等特點(diǎn),不同樣品之間的檢測(cè)結(jié)果存在差異性,波動(dòng)性較強(qiáng)[34],如果直接將檢測(cè)結(jié)果的數(shù)值直接帶入模型訓(xùn)練,學(xué)習(xí)曲線會(huì)十分復(fù)雜,預(yù)測(cè)結(jié)果會(huì)存在較大偏差。本研究以湖北省2014—2019年醬鹵肉制品28 個(gè)檢驗(yàn)項(xiàng)目的檢測(cè)結(jié)果為例,根據(jù)國(guó)家標(biāo)準(zhǔn)(GB 2760—2014《食品安全國(guó)家標(biāo)準(zhǔn) 食品添加劑使用標(biāo)準(zhǔn)》等)采用公式(1)將食品的各項(xiàng)目檢測(cè)值進(jìn)行去量綱化處理。根據(jù)各項(xiàng)目去量綱化的結(jié)果,結(jié)合專家打分法,將項(xiàng)目風(fēng)險(xiǎn)等級(jí)分為5 級(jí),其中1~4級(jí)符合國(guó)家標(biāo)準(zhǔn)要求,1級(jí)為無(wú)需預(yù)警,2級(jí)為輕微預(yù)警,3級(jí)為輕度預(yù)警,4級(jí)為中度預(yù)警,5級(jí)為不符合國(guó)家標(biāo)準(zhǔn)要求,為重度預(yù)警[35],等級(jí)詳見(jiàn)表3。
表3 項(xiàng)目風(fēng)險(xiǎn)等級(jí)分級(jí)表Table 3 Risk rating scales for test items
式中:Yi表示預(yù)處理后的風(fēng)險(xiǎn)等級(jí)評(píng)價(jià)值;Xstandard為國(guó)家標(biāo)準(zhǔn)中規(guī)定的標(biāo)準(zhǔn)值;Xi為檢驗(yàn)項(xiàng)目的實(shí)測(cè)值。
通過(guò)上述預(yù)處理,得到1級(jí)風(fēng)險(xiǎn)數(shù)據(jù)16 733 條,2級(jí)風(fēng)險(xiǎn)數(shù)據(jù)1 026 條,3級(jí)風(fēng)險(xiǎn)數(shù)據(jù)945 條,4級(jí)風(fēng)險(xiǎn)數(shù)據(jù)19 條,5級(jí)風(fēng)險(xiǎn)數(shù)據(jù)38 條。由于食品風(fēng)險(xiǎn)等級(jí)低的檢測(cè)項(xiàng)目占大多數(shù),而風(fēng)險(xiǎn)等級(jí)高的檢測(cè)項(xiàng)目占少數(shù),但風(fēng)險(xiǎn)等級(jí)高的數(shù)據(jù)對(duì)最終的食品安全風(fēng)險(xiǎn)等級(jí)卻有決定性的影響。因此,如果采用傳統(tǒng)的加權(quán)平均法,會(huì)導(dǎo)致最終的食品風(fēng)險(xiǎn)等級(jí)都很低,不能反映出食品的真實(shí)風(fēng)險(xiǎn)等級(jí),而借鑒softmax函數(shù)采用指數(shù)的方式來(lái)計(jì)算食品A的綜合風(fēng)險(xiǎn)等級(jí)(公式(2)),則可以很好地反映食品數(shù)據(jù)的特征,使得計(jì)算出的風(fēng)險(xiǎn)等級(jí)更加符合實(shí)際情況。
式中:level(A)為食品A的綜合風(fēng)險(xiǎn)等級(jí);i為食品A中的等級(jí)數(shù)值;w(i)為風(fēng)險(xiǎn)等級(jí)i在食品A中的占比。
1.3.1 小波分解
小波分解能夠?qū)⒃夹畔⒎纸鉃椴煌?xì)度的信息,其中粗略信息能夠代表原始信息的趨勢(shì),而細(xì)節(jié)信息反映的是原始信息的波動(dòng)情況。本研究中食品安全抽檢數(shù)據(jù)是離散時(shí)間序列,采用離散小波分解中的快速二進(jìn)正交小波分解[36](Mallat算法)進(jìn)行分解,分解示意圖如圖1所示。
圖1 小波分解示意圖Fig.1 Schematic diagram of wavelet transform
1.3.2 LSTM模型
LSTM是建立在RNN上的一種新型深度機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),在輸入、反饋與防止梯度爆發(fā)之間建立了一個(gè)長(zhǎng)時(shí)間的時(shí)滯。這個(gè)架構(gòu)使得其在特殊記憶單元中的內(nèi)部狀態(tài)保持一個(gè)持續(xù)誤差流,梯度既不會(huì)爆發(fā)也不會(huì)消失,誤差函數(shù)隨梯度下降得更快,更容易收斂到最優(yōu)解,使得梯度無(wú)論傳播多遠(yuǎn),都不會(huì)出現(xiàn)完全消失的現(xiàn)象。LSTM循環(huán)結(jié)構(gòu)示意圖如圖2所示。
圖2 LSTM循環(huán)層結(jié)構(gòu)示意圖Fig.2 Schematic diagram of LSTM cyclic layer structure
其中核心的部分是神經(jīng)元Ct-1到Ct的狀態(tài)轉(zhuǎn)移,如式(3)所示。
式中:Ct-1為t-1時(shí)刻的神經(jīng)元狀態(tài);Ct為t時(shí)刻的神經(jīng)元狀態(tài);ΔCt為t時(shí)刻神經(jīng)元信息增量;ft、it分別為遺忘門(mén)和輸入門(mén)。
遺忘門(mén)ft的表達(dá)式如式(4)所示。
式中:Sigmoid為Sigmoid激活層,使得輸出結(jié)果為一個(gè)0~1的值,代表著對(duì)該信息的保留程度;Wf為遺忘門(mén)的權(quán)值矩陣;Ot-1為t-1時(shí)刻的輸出;Xt為t時(shí)刻的輸入;bf為遺忘門(mén)的偏置量。
輸入門(mén)it的表達(dá)式如式(5)所示。
式中:Wi為輸入門(mén)的權(quán)值矩陣;bi為遺忘門(mén)的偏置量;其余參數(shù)含義與遺忘門(mén)相同。
神經(jīng)元信息增量的表達(dá)式如式(6)所示。
式中:tanh為tanh激活層;Wc為神經(jīng)元狀態(tài)的權(quán)值矩陣;bc為神經(jīng)元狀態(tài)的偏置量;其余參數(shù)含義與遺忘門(mén)相同。
而最終的輸出則是由神經(jīng)元的狀態(tài)Ct和輸出門(mén)ot同時(shí)決定的,如式(7)所示。
式中:Ot為t時(shí)刻的輸出;ot為輸出門(mén);Ct為t時(shí)刻的神經(jīng)元狀態(tài)。
在本研究中,將前n個(gè)醬鹵肉制品的綜合風(fēng)險(xiǎn)等級(jí)值組成一個(gè)序列,輸入LSTM模型中進(jìn)行訓(xùn)練,模型會(huì)計(jì)算前n個(gè)醬鹵肉制品的綜合風(fēng)險(xiǎn)等級(jí)值對(duì)后面的醬鹵肉制品的綜合風(fēng)險(xiǎn)等級(jí)值的影響,同時(shí)在訓(xùn)練時(shí)也會(huì)考慮后面的風(fēng)險(xiǎn)等級(jí)對(duì)前面的影響。依據(jù)該影響來(lái)決定記憶或遺忘,并實(shí)時(shí)更新神經(jīng)元狀態(tài)。
1.3.3 其他相關(guān)參數(shù)設(shè)置
根據(jù)本研究的實(shí)際情況,對(duì)相關(guān)的參數(shù)進(jìn)行了設(shè)置,本研究使用的神經(jīng)網(wǎng)絡(luò)總共4 層,將當(dāng)前待預(yù)測(cè)風(fēng)險(xiǎn)等級(jí)的前20 個(gè)等級(jí)作為輸入特征,對(duì)應(yīng)的輸入層神經(jīng)元個(gè)數(shù)為20;將當(dāng)前待預(yù)測(cè)風(fēng)險(xiǎn)等級(jí)作為輸出,對(duì)應(yīng)的輸出層神經(jīng)元個(gè)數(shù)為1。中間的隱藏層分別為一個(gè)LSTM層和一個(gè)結(jié)點(diǎn)數(shù)為16的全連接層,訓(xùn)練集的其他相關(guān)參數(shù)如表4所示。
表4 訓(xùn)練集相關(guān)參數(shù)Table 4 Training set-related parameters
1.3.4 小波分解-LSTM模型
本研究采用小波分解-LSTM模型進(jìn)行預(yù)測(cè),其基本思路是先采用小波分解對(duì)數(shù)據(jù)序列進(jìn)行分解,得到各個(gè)分量,再采用LSTM模型對(duì)各個(gè)分量進(jìn)行預(yù)測(cè),得到各個(gè)分量的預(yù)測(cè)模型,最后對(duì)分量的預(yù)測(cè)結(jié)果進(jìn)行重構(gòu),輸出最終的預(yù)測(cè)結(jié)果,具體流程如圖3所示。
圖3 小波分解-LSTM模型流程圖Fig.3 Flow chart of WT-LSTM model
經(jīng)驗(yàn)?zāi)B(tài)分解(empirical mode decomposition,EMD)廣泛運(yùn)用于信號(hào)處理和數(shù)據(jù)分析中[37],適合非平穩(wěn)信號(hào)的處理,它是將一個(gè)頻率不規(guī)則的信號(hào)波分解為不同單一頻率的信號(hào)波和一個(gè)殘差的形式,其中不同單一頻率的信號(hào)波也叫本征模函數(shù)(intrinsic mode functions,IMF)。EMD依據(jù)數(shù)據(jù)自身的時(shí)間尺度特征來(lái)進(jìn)行信號(hào)分解,即局部平穩(wěn)化,而無(wú)需預(yù)先設(shè)定任何基函數(shù)。經(jīng)過(guò)EMD方法分解可將原始信號(hào)Xt分解成一系列IMF以及剩余部分的線性疊加。
將經(jīng)過(guò)EMD分解得到的各IMF分量輸入LSTM模型,使用LSTM對(duì)各IMF分量進(jìn)行預(yù)測(cè),最后重組得到預(yù)測(cè)結(jié)果。
由于食品抽檢采樣存在隨機(jī)性,并不是每天均有采樣,若按天進(jìn)行建模,存在較多缺省值,故需要對(duì)數(shù)據(jù)進(jìn)行分箱處理。數(shù)據(jù)分箱時(shí)間間隔會(huì)影響LSTM輸入點(diǎn)的個(gè)數(shù)和精度,若時(shí)間間隔太長(zhǎng)(如以月為單位進(jìn)行分箱處理),LSTM輸入點(diǎn)數(shù)太少,導(dǎo)致模型精度降低;若時(shí)間間隔太短,數(shù)據(jù)會(huì)存在較多缺省值,且學(xué)習(xí)曲線復(fù)雜,導(dǎo)致最終預(yù)測(cè)結(jié)果缺乏可信性。本研究對(duì)數(shù)據(jù)分箱時(shí)間間隔進(jìn)行優(yōu)化,分別以時(shí)間間隔1、4、7、15、30 d進(jìn)行實(shí)驗(yàn)(表5)。
表5 數(shù)據(jù)分箱時(shí)間間隔優(yōu)化Table 5 Optimization of data separation time interval
由表5可知,隨著采樣間隔的增大,預(yù)測(cè)的平均準(zhǔn)確率在逐漸減小,同時(shí)數(shù)據(jù)集也在減小,對(duì)于原本數(shù)據(jù)量較少的城市則會(huì)造成數(shù)據(jù)集過(guò)小而無(wú)法滿足神經(jīng)網(wǎng)絡(luò)訓(xùn)練的基本條件。另一方面,由于原始的食品安全數(shù)據(jù)在時(shí)間維度上存在許多缺省值,若采用間隔太小,則會(huì)采集到許多缺失值,使得采樣數(shù)據(jù)失去代表性,對(duì)預(yù)測(cè)產(chǎn)生干擾;因此,在考慮到數(shù)據(jù)的有效性的同時(shí),為盡量減小采樣間隔,最終將時(shí)間間隔定為4 d一個(gè)分箱。
本研究最終將時(shí)間間隔4 d的食品數(shù)據(jù)劃分為一個(gè)數(shù)據(jù)集,并使用公式(2)計(jì)算每個(gè)數(shù)據(jù)集的風(fēng)險(xiǎn)等級(jí)。
小波分解能通過(guò)變換充分突出問(wèn)題的某些方面特征,能對(duì)時(shí)間(空間)頻率進(jìn)行局部化分析,通過(guò)伸縮平移運(yùn)算對(duì)信號(hào)(函數(shù))逐步進(jìn)行多尺度細(xì)化,最終達(dá)到高頻處時(shí)間細(xì)分,低頻處頻率細(xì)分,能自動(dòng)適應(yīng)時(shí)頻信號(hào)分析的要求,從而可聚焦到信號(hào)的任意細(xì)節(jié)?;谛〔ǚ纸?,可實(shí)現(xiàn)對(duì)非平穩(wěn)離散時(shí)間序列的食品安全抽檢數(shù)據(jù)的平穩(wěn)化處理。在信號(hào)空間中,可以采用不同的小波基,其中常用的小波基有Haar、Daubechies、Biorthogonal、Coiflets等。
由于原始數(shù)據(jù)具有連續(xù)性,且波動(dòng)性較大,本研究在小波分解的過(guò)程中選擇了光滑性較好的8階Daubechies小波基,并根據(jù)數(shù)據(jù)的復(fù)雜程度將其分解為不同頻率的子序列,每個(gè)子序列的長(zhǎng)度與原始數(shù)據(jù)相同,反映的是原始序列中所包含的不同頻率的信息。例如分解后的3、4、5級(jí)分解信息能夠不同程度地反映原始數(shù)據(jù)部分的趨勢(shì)特征。而其他的分解信息反映了不同的噪聲干擾因素。最后采用smooth模式進(jìn)行重構(gòu)。本研究中模型構(gòu)建使用數(shù)據(jù)分箱后得到的風(fēng)險(xiǎn)等級(jí)值作為輸入,使用小波分解將數(shù)據(jù)分解成各個(gè)分量,再使用LSTM對(duì)各分量進(jìn)行預(yù)測(cè),最后重組得到最終的預(yù)測(cè)結(jié)果。圖4為小波分解后各級(jí)分量示意圖。本研究以湖北省2014—2019年醬鹵肉制品數(shù)據(jù)的前2/3作為訓(xùn)練集,后1/3作為測(cè)試集以驗(yàn)證模型的預(yù)測(cè)準(zhǔn)確性。
圖4 湖北省醬鹵肉制品數(shù)據(jù)小波分解-LSTM模型各分量預(yù)測(cè)示意圖Fig.4 WT-LSTM model component prediction diagrams of marinated meat products from Hubei province
2.3.1 有效性分析
如圖5所示,預(yù)測(cè)的醬鹵肉制品綜合風(fēng)險(xiǎn)等級(jí)與原始數(shù)據(jù)吻合度較高,計(jì)算預(yù)測(cè)準(zhǔn)確率為0.99。使用類似的方法,將全國(guó)其他30 個(gè)省份的醬鹵肉制品數(shù)據(jù)帶入LSTM模型訓(xùn)練并進(jìn)行預(yù)測(cè),均得到較好的效果,具體見(jiàn)表6,準(zhǔn)確率最低的為湖南省,準(zhǔn)確率為0.89。平均準(zhǔn)確率為0.95,標(biāo)準(zhǔn)偏差為0.029,說(shuō)明整體準(zhǔn)確率較高,并且準(zhǔn)確率波動(dòng)較小,表明建立的小波分解-LSTM模型可以適用于醬鹵肉制品綜合風(fēng)險(xiǎn)等級(jí)的時(shí)序預(yù)測(cè)。通過(guò)所建立的小波分解-LSTM模型對(duì)各省醬鹵肉制品綜合風(fēng)險(xiǎn)等級(jí)進(jìn)行預(yù)測(cè),發(fā)現(xiàn)廣東和吉林2 個(gè)城市下一個(gè)時(shí)間點(diǎn)醬鹵肉制品風(fēng)險(xiǎn)等級(jí)最高,需要引起相關(guān)部門(mén)的重視。
圖5 湖北省醬鹵肉制品數(shù)據(jù)小波分解-LSTM模型重構(gòu)后預(yù)測(cè)示意圖Fig.5 WT-LSTM model reconstruction prediction diagrams of marinated meat products from Hubei province
表6 不同模型間預(yù)測(cè)準(zhǔn)確率比較及風(fēng)險(xiǎn)等級(jí)預(yù)測(cè)結(jié)果Table 6 Comparison of prediction accuracy between different models and results of risk grade prediction
續(xù)表6
2.3.2 模型比較與分析
本研究將2014—2019年31 個(gè)省醬鹵肉制品檢測(cè)數(shù)據(jù)進(jìn)行相同數(shù)據(jù)預(yù)處理后,經(jīng)過(guò)EMD分解后,將分解得到的各個(gè)本征模函數(shù)作為L(zhǎng)STM的輸入數(shù)據(jù),結(jié)果如表6所示,準(zhǔn)確率最低的為吉林省,準(zhǔn)確率為0.32,平均準(zhǔn)確率為0.625,標(biāo)準(zhǔn)偏差為0.190。分析發(fā)現(xiàn),EMD-LSTM模型中,經(jīng)過(guò)EMD分解后的部分分量變化趨勢(shì)仍然較復(fù)雜,從而導(dǎo)致重構(gòu)后的結(jié)果誤差較大,而小波分解-LSTM則較好地克服了這一問(wèn)題,原因可能是小波分解-LSTM選擇了光滑度較好的高階消失矩的多貝西(Daubechies wavelets,db)小波基,而非常用的haar小波基,使得分解后得到的各個(gè)分量都具有較好的光滑性,從而使LSTM對(duì)各個(gè)分量都有較高的準(zhǔn)確度。相對(duì)EMD-LSTM模型而言,所建立的小波分解-LSTM模型準(zhǔn)確率更高,并且預(yù)測(cè)的準(zhǔn)確率更加穩(wěn)定。
根據(jù)2014—2019年醬鹵肉制品歷史抽檢信息,使用專家打分法結(jié)合國(guó)家食品安全標(biāo)準(zhǔn),對(duì)醬鹵肉制品檢測(cè)結(jié)果的數(shù)值進(jìn)行去量綱化后,通過(guò)改進(jìn)softmax函數(shù)公式來(lái)計(jì)算醬鹵肉食品的綜合風(fēng)險(xiǎn)等級(jí),結(jié)合小波分解-LSTM模型,構(gòu)建了適合醬鹵肉制品安全預(yù)測(cè)的模型,并成功對(duì)全國(guó)31 個(gè)省份的醬鹵肉制品風(fēng)險(xiǎn)等級(jí)進(jìn)行驗(yàn)證和預(yù)測(cè),結(jié)果顯示模型精度較好,準(zhǔn)確率最低為0.89,全國(guó)平均準(zhǔn)確率為0.95,標(biāo)準(zhǔn)偏差為0.029,說(shuō)明建立的模型可以有效實(shí)現(xiàn)醬鹵肉制品中綜合風(fēng)險(xiǎn)等級(jí)的預(yù)測(cè),為我國(guó)醬鹵肉食品安全的防御和日常監(jiān)測(cè)工作提供技術(shù)支持。