瞿孝云 肖興寧 肖英平 劉元杰 楊 力 張建民 楊 華汪 雯
(1.華南農(nóng)業(yè)大學(xué),人獸共患病防控制劑國家地方聯(lián)合工程實(shí)驗(yàn)室,農(nóng)業(yè)農(nóng)村部人畜共患病重點(diǎn)實(shí)驗(yàn)室,廣東省動(dòng)物源性人獸共患病預(yù)防與控制重點(diǎn)實(shí)驗(yàn)室,廣州510642;2.浙江省農(nóng)業(yè)科學(xué)院農(nóng)產(chǎn)品質(zhì)量安全與營養(yǎng)研究所,農(nóng)產(chǎn)品質(zhì)量安全危害因子與風(fēng)險(xiǎn)防控國家重點(diǎn)實(shí)驗(yàn)室,農(nóng)業(yè)農(nóng)村部農(nóng)產(chǎn)品質(zhì)量安全風(fēng)險(xiǎn)評(píng)估實(shí)驗(yàn)室(杭州),杭州310021;3.中國農(nóng)業(yè)大學(xué)信息與電氣工程學(xué)院,農(nóng)業(yè)農(nóng)村部農(nóng)業(yè)信息獲取技術(shù)重點(diǎn)實(shí)驗(yàn)室,現(xiàn)代精細(xì)農(nóng)業(yè)系統(tǒng)集成研究教育部重點(diǎn)實(shí)驗(yàn)室,北京100083;4.中國計(jì)量大學(xué)信息工程學(xué)院,杭州310018)
沙門氏菌(Salmonel l a)是人畜共患的革蘭氏陰性病原菌。據(jù)統(tǒng)計(jì),我國70%~80%的細(xì)菌性食物中毒是由沙門氏菌引起,每年病例約820萬[1]。肉雞是沙門氏菌的常見宿主,屠宰過程中的宰殺、瀝血、浸燙、掏膛、內(nèi)腔淋洗、預(yù)冷清洗等環(huán)節(jié)是造成產(chǎn)品污染的重要環(huán)節(jié),據(jù)報(bào)道,我國屠宰環(huán)節(jié)的雞肉沙門氏菌污染率高達(dá)62.9%[2]。本課題組前期基于模擬實(shí)驗(yàn)數(shù)據(jù),構(gòu)建了多元非線性回歸沙門氏菌污染率預(yù)測模型,但傳統(tǒng)的回歸模型需對(duì)變量進(jìn)行組合或剔除,易造成高維數(shù)據(jù)擬合的信息缺失,較難實(shí)現(xiàn)多維數(shù)據(jù)下的精準(zhǔn)預(yù)測[3~4]。機(jī)器學(xué)習(xí)算法可從海量、復(fù)雜的數(shù)據(jù)中深度學(xué)習(xí)找到關(guān)鍵信息和變量之間的隱藏關(guān)系[5]。當(dāng)前,我國大型肉雞屠宰場引入了自動(dòng)化系統(tǒng),該系統(tǒng)運(yùn)行積累了大量的溫度、濕度、預(yù)冷水氯濃度等傳感器檢測數(shù)據(jù),屠宰場日常微生物檢測也積累了大量的細(xì)菌污染率數(shù)據(jù)。基于屠宰場監(jiān)測數(shù)據(jù),利用機(jī)器學(xué)習(xí)算法構(gòu)建沙門氏菌污染率風(fēng)險(xiǎn)分析模型,對(duì)保障產(chǎn)品安全具有重要意義。
分類型機(jī)器學(xué)習(xí)算法是通過構(gòu)建模型對(duì)數(shù)據(jù)進(jìn)行分類,學(xué)習(xí)數(shù)據(jù)在構(gòu)建模型的過程中起著重要的作用[6]?;跇颖緮?shù)據(jù)量的差異,支持向量機(jī)、樸素貝葉斯和神經(jīng)網(wǎng)絡(luò)模型被廣泛應(yīng)用于非線性問題的預(yù)測中。支持向量機(jī)和樸素貝葉斯算法適合解決小樣本數(shù)據(jù)量問題。支持向量機(jī)通過超平面的邊界將數(shù)據(jù)劃分為具有近似值的組,對(duì)于非線性問題,通過線性核、多項(xiàng)式核、S形核、徑向基核函數(shù)等核函數(shù)來解決[7~8]。樸素貝葉斯是通過比較測試樣本各類別的條件概率進(jìn)行預(yù)測[9]。神經(jīng)網(wǎng)絡(luò)是模擬生物神經(jīng)系統(tǒng),通過確定節(jié)點(diǎn)及節(jié)點(diǎn)之間關(guān)系以進(jìn)行預(yù)測,其并行分布處理能力強(qiáng),適合解決大樣本數(shù)據(jù)量問題[10~11]。
本研究分別基于支持向量機(jī)、樸素貝葉斯和神經(jīng)網(wǎng)絡(luò)3種機(jī)器學(xué)習(xí)算法,建立以日屠宰量、環(huán)境溫度、環(huán)境濕度、宰前污染率、浸燙環(huán)節(jié)交叉污染、掏膛環(huán)節(jié)交叉污染、預(yù)冷水氯濃度為輸入值,肉雞宰后污染率為輸出值的肉雞宰后沙門氏菌污染率預(yù)測模型,并通過隨機(jī)森林算法對(duì)最優(yōu)模型進(jìn)行敏感性分析,為微生物污染率風(fēng)險(xiǎn)預(yù)警提供模型基礎(chǔ)。
(一)數(shù)據(jù)來源
1.環(huán)境參數(shù)和加工參數(shù)。本課題組于2016-2019年在廣州某家禽屠宰企業(yè)進(jìn)行了數(shù)據(jù)收集。日屠宰量數(shù)據(jù)來源于現(xiàn)場調(diào)研;環(huán)境溫濕度數(shù)據(jù)來源于生產(chǎn)線溫濕度傳感器的監(jiān)測;預(yù)冷水氯濃度數(shù)據(jù)來源于有效氯測定儀對(duì)每小時(shí)預(yù)冷水氯濃度的監(jiān)測,結(jié)果詳見表1。
2.沙門氏菌污染率檢測。(1)主要實(shí)驗(yàn)儀器。QHZ-98A/QHZ-98B全溫振蕩培養(yǎng)箱(太倉市華美生化儀器廠);SHP-250生化培養(yǎng)箱(上海精宏實(shí)驗(yàn)設(shè)備有限公司);SYN-K電熱恒溫水浴鍋(北京長風(fēng)儀器廠);5424R高速冷凍離心機(jī)(德國Eppendorf公司);PTC-200 PCR擴(kuò)增儀(美國MJ ReSearch公司);SBD-50水浴搖床(美國MJ Re-Search公司);Gel Doc XR凝膠成像系統(tǒng)(美國Bio-Rad公司);Power Pac universal TM核酸電泳儀(美國Bio-Rad公司)。(2)沙門氏菌的分離培養(yǎng)與鑒定。每月分別采集肛拭子、浸燙后、掏膛后、預(yù)冷后雞胴體各20份,共30個(gè)月。按照GB/T 4789.4-2016《食品安全國家標(biāo)準(zhǔn) 食品微生物學(xué)檢驗(yàn) 沙門氏菌檢驗(yàn)》規(guī)定,經(jīng)過預(yù)增菌、增菌、劃線、純化、鑒定等步驟進(jìn)行沙門氏菌鑒定。污染率檢測結(jié)果見表1。
3.宰后肉雞沙門氏菌污染率分類。我國針對(duì)鮮(凍)畜禽產(chǎn)品(GB 2707-2016)和畜禽屠宰加工(GB 12694-2016)的國家標(biāo)準(zhǔn)均未考慮微生物指標(biāo)。美國和歐盟制定了雞肉產(chǎn)品沙門氏菌污染率限量標(biāo)準(zhǔn),要求宰后雞胴體中沙門氏菌的污染率不得超過15.4%和9.8%[2]。參考?xì)W美沙門氏菌限量標(biāo)準(zhǔn),定義宰后污染率變化范圍<10%的數(shù)值為標(biāo)簽“0”,即低污染風(fēng)險(xiǎn);宰后污染率變化范圍≥10%且<15%的數(shù)值為標(biāo)簽“1”,即中污染風(fēng)險(xiǎn);宰后污染率變化范圍≥15%的數(shù)值為標(biāo)簽“2”,即高污染風(fēng)險(xiǎn)(見表1)。
表1 肉雞屠宰環(huán)節(jié)的數(shù)據(jù)變量
(二)污染率預(yù)測模型構(gòu)建
1.支持向量機(jī)。支持向量機(jī)(Support vector machine,SVM)是一種監(jiān)督學(xué)習(xí)算法,具有強(qiáng)大的分類鑒別能力。SVM算法通過構(gòu)造一個(gè)(n-1)維的分離超平面來區(qū)分n維空間中的2個(gè)類,該超平面把輸入數(shù)據(jù)轉(zhuǎn)換到高維空間,生成一個(gè)n維向量,并且最大化2個(gè)數(shù)據(jù)組之間的余量來對(duì)不同類別進(jìn)行最優(yōu)分離。訓(xùn)練數(shù)據(jù)集設(shè)置見公式(1)[13]。
公式(1)中,zi為第i個(gè)輸入特征向量,所有描述系統(tǒng)狀態(tài)的輸入特征向量組成z;yi為第i個(gè)樣本的分類標(biāo)識(shí),yi∈{-1,1};l為樣本數(shù);n為向量空間維數(shù),求解最優(yōu)分類超平面[14]。
2.樸素貝葉斯。樸素貝葉斯建立在貝葉斯決策理論和貝葉斯網(wǎng)絡(luò)的基礎(chǔ)上,屬于監(jiān)督學(xué)習(xí)。算法主要分為2個(gè)階段:第1階段,對(duì)實(shí)驗(yàn)樣本進(jìn)行分類,分別計(jì)算不同條件下的概率;第2階段,輸入測試樣本,計(jì)算不同條件的概率,比較其概率大小,從而完成對(duì)測試樣本的分類。訓(xùn)練數(shù)據(jù)集設(shè)置見公式 (2)[15]。
公式(2)中,X={x1,x2,...,xn}表示包含不同特征屬性的屠宰環(huán)節(jié)輸入?yún)?shù)特征集;Y={y1,y2,...,yn}表示不同宰后污染率集合。
3.神經(jīng)網(wǎng)絡(luò)。人工神經(jīng)網(wǎng)絡(luò)由大量的節(jié)點(diǎn)相互連接構(gòu)成。每個(gè)節(jié)點(diǎn)代表一種特定的輸出函數(shù),稱為激活函數(shù)。每2個(gè)節(jié)點(diǎn)間的連接都代表一個(gè)對(duì)于通過該連接信號(hào)的加權(quán)值,稱為權(quán)重。網(wǎng)絡(luò)的輸出則依據(jù)網(wǎng)絡(luò)的連接方式、權(quán)重值和激活函數(shù)的不同而不同[16]。本研究采用的是反向傳播人工神經(jīng)網(wǎng)絡(luò),應(yīng)用tan h激活函數(shù),神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)如圖1所示。
圖1 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
(三)模型評(píng)價(jià)利用SAS軟件的“預(yù)測建?!蹦K進(jìn)行支持向量機(jī)、樸素貝葉斯和神經(jīng)網(wǎng)絡(luò)建模。誤分類率(Error rate,ER)表示被分類器錯(cuò)誤分類的元組所占百分比,反映了分類器對(duì)各類元組的正確識(shí)別情況,可通過混淆矩陣來計(jì)算。受試者工作特征曲線(Receiver operating characteristic curve,ROC)是以靈敏度為縱坐標(biāo),“1-特異度”為橫坐標(biāo)繪制的曲線,若曲線下面積(Area under the curve,AUC)越接近于1,則模型的預(yù)測性能越好。均方根誤差(Root mean square error,RMSE)是用來衡量觀測值同實(shí)際值之間的偏差。采用ER、AUC和RMSE指標(biāo)來評(píng)價(jià)模型預(yù)測精度,其中ER和RMSE越小,A UC越大,表示模型預(yù)測精度越高[17]。
(四)風(fēng)險(xiǎn)敏感性分析預(yù)測模型中各解釋變量對(duì)目標(biāo)變量的影響存在差異,隨機(jī)森林算法可衡量單一解釋變量對(duì)目標(biāo)特征的敏感性,根據(jù)逐一移除變量后模型準(zhǔn)確性的降低程度來衡量變量重要性[18]?;赟AS軟件的隨機(jī)森林算法對(duì)日屠宰量、環(huán)境溫度、環(huán)境濕度、宰前污染率、浸燙環(huán)節(jié)交叉污染、掏膛環(huán)節(jié)交叉污染、預(yù)冷水氯濃度等因素進(jìn)行重要度排序。
(一)模型評(píng)估與比較支持向量機(jī)模型對(duì)訓(xùn)練數(shù)據(jù)集的擬合能力較好(AUC>0.7,ER=23.8%,RMSE=0.42)(見表2和圖2)。樸素貝葉斯和神經(jīng)網(wǎng)絡(luò)模型的AUC值較低,模型的預(yù)測效果一般,存在欠擬合風(fēng)險(xiǎn)(見表2)。研究發(fā)現(xiàn),支持向量機(jī)在解決小樣本、非線性、高維的數(shù)據(jù)預(yù)測問題上有很大優(yōu)勢,在解決分類問題方面表現(xiàn)出色[13]。袁彥彥和王興芬[19]基于21條實(shí)驗(yàn)數(shù)據(jù)量,比較了支持向量機(jī)與神經(jīng)網(wǎng)絡(luò)模型對(duì)速凍水餃變溫冷藏的貨架期的預(yù)測效果,發(fā)現(xiàn)支持向量機(jī)模型的預(yù)測結(jié)果更能接近實(shí)際情況。在疾病風(fēng)險(xiǎn)預(yù)測方面,ALMANSOUR等[20]分別使用支持向量機(jī)和神經(jīng)網(wǎng)絡(luò)來分類4種腎臟疾病,結(jié)果發(fā)現(xiàn),支持向量機(jī)方法的準(zhǔn)確率高達(dá)76.32%,并且處理時(shí)間相比神經(jīng)網(wǎng)絡(luò)縮短一半以上。支持向量機(jī)模型的最終決策函數(shù)由少數(shù)的支持向量所確定,結(jié)果不易受到模型中存在的數(shù)據(jù)擾動(dòng)、噪聲及離群點(diǎn)的影響[14]。神經(jīng)網(wǎng)絡(luò)更適用于大樣本量的數(shù)據(jù)集,計(jì)算結(jié)果受初值影響大,系統(tǒng)訓(xùn)練需要較長的時(shí)間。系統(tǒng)訓(xùn)練不穩(wěn)定,當(dāng)學(xué)習(xí)速率過大時(shí),權(quán)值在修正過程中會(huì)超出誤差的最小值而永不收斂[13]。
表2 3種機(jī)器學(xué)習(xí)算法統(tǒng)計(jì)分析結(jié)果
圖2 支持向量機(jī)模型訓(xùn)練集(A)及驗(yàn)證集(B)ROC曲線
(二)風(fēng)險(xiǎn)敏感性分析隨機(jī)森林算法分析重要度發(fā)現(xiàn),影響宰后污染率的關(guān)鍵因素依次為環(huán)境溫度、環(huán)境濕度、宰前污染率、掏膛環(huán)節(jié)交叉污染、預(yù)冷水氯濃度、浸燙環(huán)節(jié)交叉污染、日屠宰量(見圖3)。HWANG等[21]采用隨機(jī)森林算法研究發(fā)現(xiàn),環(huán)境溫度、濕度是影響肉雞污染率的關(guān)鍵因素。據(jù)報(bào)道,微生物檢測結(jié)果易受季節(jié)變化的影響,研究發(fā)現(xiàn),夏季肉雞沙門氏菌污染率顯著高于其他季節(jié),可能是由于沙門氏菌在高溫、低濕的環(huán)境下抗性較強(qiáng)[20]。XIAO等[12]基于斯皮爾曼相關(guān)性分析,發(fā)現(xiàn)宰前污染程度和屠宰環(huán)節(jié)預(yù)冷水消毒劑濃度是影響肉雞沙門氏菌患病風(fēng)險(xiǎn)的關(guān)鍵因素。因此,通過加強(qiáng)屠宰環(huán)境溫濕度的控制、屠宰過程適當(dāng)添加殺菌劑等措施可有效降低宰后的沙門氏菌污染率。
圖3 影響宰后污染率的關(guān)鍵因素排序
在細(xì)菌污染率的分類預(yù)測研究中,機(jī)器學(xué)習(xí)方法的應(yīng)用是一個(gè)重要的研究方向。如HWANG等[21]基于溫度、濕度、風(fēng)速、降雨量等83個(gè)氣象變量監(jiān)測數(shù)據(jù),通過隨機(jī)森林算法構(gòu)建了養(yǎng)殖環(huán)節(jié)沙門氏菌的污染率預(yù)測模型。肖興寧等[3]建立了初始污染率、初始污染水平、次氯酸鈉濃度為顯著影響因素的廣義回歸神經(jīng)網(wǎng)絡(luò)污染率預(yù)測模型。在算法優(yōu)化方面,機(jī)器學(xué)習(xí)的集成算法可將多個(gè)單一算法集成在一起,減少模型的不確定性和誤差,使得機(jī)器學(xué)習(xí)的效果更好,如聚合多個(gè)分類或回歸模型的Stacking算法,可考慮應(yīng)用機(jī)器學(xué)習(xí)算法的集成來預(yù)測細(xì)菌污染率[22]。
機(jī)器學(xué)習(xí)的各類算法,本質(zhì)在于提取特征和標(biāo)記的相互關(guān)系,因此對(duì)于特征和標(biāo)記的質(zhì)量要求較高。特征和標(biāo)記的質(zhì)量越高,其算法的分類效果越好[23]。算法比較依賴輸入數(shù)據(jù)的質(zhì)量,由此可見,機(jī)器學(xué)習(xí)在微生物污染風(fēng)險(xiǎn)分析中的應(yīng)用效果與相關(guān)指標(biāo)檢測技術(shù)的發(fā)展息息相關(guān)。沙門氏菌的傳統(tǒng)檢測方法有菌落培養(yǎng)和計(jì)數(shù)、聚合酶鏈?zhǔn)椒磻?yīng),但是其制樣過程復(fù)雜、耗時(shí),無法應(yīng)用于實(shí)時(shí)檢測。生物傳感器分析技術(shù)與傳統(tǒng)的檢測方法相比具有選擇性好、靈敏度高、分析速度快等優(yōu)點(diǎn)[24]。因此,在現(xiàn)有的溫度、氯濃度等物理和化學(xué)傳感器的基礎(chǔ)上,結(jié)合微生物快速檢測生物傳感器,通過數(shù)據(jù)無線傳輸技術(shù),可實(shí)現(xiàn)沙門氏菌污染率的實(shí)時(shí)風(fēng)險(xiǎn)分析和預(yù)警。
本研究以日屠宰量、環(huán)境溫度、環(huán)境濕度、宰前污染率、浸燙環(huán)節(jié)交叉污染、掏膛環(huán)節(jié)交叉污染、預(yù)冷水氯濃度為輸入值,肉雞宰后污染率為輸出值分別構(gòu)建了支持向量機(jī)、樸素貝葉斯和神經(jīng)網(wǎng)絡(luò)模型,支持向量機(jī)模型對(duì)沙門氏菌污染率風(fēng)險(xiǎn)預(yù)測效果優(yōu)于其他2種模型。敏感性分析表明,環(huán)境溫濕度是影響宰后污染率變化的重要因素。然而,本研究也存在一定的局限性,如樣本量較少、分類模型的預(yù)測準(zhǔn)確性不高、模型的泛化能力還有待驗(yàn)證等。在后續(xù)的研究中將進(jìn)一步擴(kuò)充用于構(gòu)建模型的數(shù)據(jù)樣本量,嘗試用更科學(xué)的算法構(gòu)建模型以提高模型分類準(zhǔn)確率,使得機(jī)器學(xué)習(xí)方法能夠更好地應(yīng)用于肉雞沙門氏菌污染率的風(fēng)險(xiǎn)分析。
農(nóng)產(chǎn)品質(zhì)量與安全2021年6期