王 軒,張艾蕾
(天津市食品安全檢測(cè)技術(shù)研究院,天津 300308)
食品作為人類(lèi)賴(lài)以生存的基本必需品,其安全關(guān)系到國(guó)計(jì)民生。當(dāng)前我國(guó)正處于食品工業(yè)快速發(fā)展期,食品安全形勢(shì)日趨復(fù)雜嚴(yán)峻,僅2021 年我國(guó)就發(fā)生食品質(zhì)量安全事件超過(guò)30 起。與此同時(shí),食品安全監(jiān)管工作面臨海量、多源異構(gòu)數(shù)據(jù)的挑戰(zhàn),迫切需要利用大數(shù)據(jù)技術(shù)實(shí)現(xiàn)智能化監(jiān)管,以提升監(jiān)管效率與準(zhǔn)確性。當(dāng)前人工智能技術(shù)飛速發(fā)展,其中圖像識(shí)別、自然語(yǔ)言處理等技術(shù)在文本和圖像處理上展現(xiàn)出巨大優(yōu)勢(shì),為大數(shù)據(jù)驅(qū)動(dòng)的智能監(jiān)管應(yīng)用提供了技術(shù)支撐。因此,研究構(gòu)建面向大數(shù)據(jù)的食品安全智能監(jiān)管模型,實(shí)現(xiàn)監(jiān)管信息的智能采集、處理和預(yù)警,對(duì)推進(jìn)監(jiān)管數(shù)字化轉(zhuǎn)型具有重要意義。隨著食品安全監(jiān)管進(jìn)入大數(shù)據(jù)時(shí)代,相關(guān)智能化研究成為熱點(diǎn)[1]。但是多源異構(gòu)數(shù)據(jù)的深度融合與食品安全全流程的智能化研究還比較缺乏。因此,設(shè)計(jì)一套處理海量監(jiān)管數(shù)據(jù)的智能分析與決策支持系統(tǒng),是當(dāng)前食品安全智能監(jiān)管面臨的核心挑戰(zhàn)與發(fā)展方向。
針對(duì)食品安全大數(shù)據(jù)環(huán)境下的智能監(jiān)管問(wèn)題,國(guó)內(nèi)外學(xué)者進(jìn)行了一些有益探索。CUADROSRODRíGUEZ 等[2]設(shè)計(jì)了食品安全監(jiān)測(cè)系統(tǒng),實(shí)現(xiàn)了對(duì)網(wǎng)絡(luò)文本信息的采集和食品安全事件的自動(dòng)提取。ESSLINGER 等[3]開(kāi)發(fā)了食品安全知識(shí)圖譜,并設(shè)計(jì)相應(yīng)的問(wèn)答系統(tǒng),以知識(shí)圖譜強(qiáng)化食品安全監(jiān)管。此外,一些學(xué)者探索了食品安全圖像的智能解析。例如,高岷舟等[4]設(shè)計(jì)了檢測(cè)食品標(biāo)簽的卷積神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)了對(duì)食品添加劑的自動(dòng)識(shí)別。
綜上,已有研究分別從文本處理和圖像處理兩個(gè)方面,采用自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)等技術(shù)對(duì)食品安全信息進(jìn)行智能分析,但綜合利用多源異構(gòu)數(shù)據(jù)的食品安全智能監(jiān)管模型研究還較少。本研究試圖構(gòu)建基于大數(shù)據(jù)與深度學(xué)習(xí)的食品安全智能監(jiān)管模型,以期實(shí)現(xiàn)監(jiān)管信息的全面智能處理和風(fēng)險(xiǎn)預(yù)警。
2.1.1 監(jiān)管數(shù)據(jù)集構(gòu)建
本研究構(gòu)建了一個(gè)綜合性的食品安全監(jiān)管數(shù)據(jù)集,其中包含國(guó)家或地方市場(chǎng)監(jiān)督管理局發(fā)布的食品安全公告、快速預(yù)警信息、檢查通報(bào)等文本數(shù)據(jù),以及食品生產(chǎn)現(xiàn)場(chǎng)、產(chǎn)品照片等監(jiān)管圖像數(shù)據(jù)。在數(shù)據(jù)采集過(guò)程中,利用爬蟲(chóng)程序定向爬取官方網(wǎng)站公告信息,利用搜索引擎按關(guān)鍵詞檢索網(wǎng)絡(luò)公開(kāi)圖像,對(duì)數(shù)據(jù)進(jìn)行清洗整理,最終獲得一個(gè)規(guī)模3 000條、格式統(tǒng)一、標(biāo)簽完善的食品安全監(jiān)管數(shù)據(jù)集,見(jiàn)表1。該數(shù)據(jù)集涵蓋了典型的文本類(lèi)數(shù)據(jù)和圖像類(lèi)數(shù)據(jù),可用于后續(xù)模型的訓(xùn)練與驗(yàn)證[5]。
表1 食品安全監(jiān)管數(shù)據(jù)集規(guī)模及分類(lèi)
2.1.2 智能采集模塊
考慮到監(jiān)管數(shù)據(jù)具有時(shí)效性與動(dòng)態(tài)更新的特點(diǎn),設(shè)計(jì)了智能采集模塊實(shí)現(xiàn)監(jiān)管信息的自動(dòng)獲取。對(duì)文本類(lèi)數(shù)據(jù),采用基于關(guān)鍵詞和規(guī)則的網(wǎng)絡(luò)爬蟲(chóng)程序,定期爬取官方網(wǎng)站和輿情網(wǎng)站的相關(guān)信息,并過(guò)濾重復(fù)內(nèi)容。對(duì)圖像類(lèi)數(shù)據(jù),則利用光學(xué)字符識(shí)別(Optical Character Recognition,OCR)技術(shù),對(duì)掃描或拍照采集的食品標(biāo)簽、工廠照片等進(jìn)行解析,提取文本特征,并根據(jù)內(nèi)容進(jìn)行分類(lèi)。該模塊可持續(xù)不斷地抓取更新各類(lèi)監(jiān)管數(shù)據(jù)源,確保模型訓(xùn)練的數(shù)據(jù)新鮮度。
2.1.3 智能處理模塊
(1)文 本 數(shù) 據(jù) 處 理。LSTM(Long Short-Term Memory)是一種遞歸神經(jīng)網(wǎng)絡(luò)(Recursive Neural Network,RNN)的變體,特別適用于序列數(shù)據(jù)的處理,如文本和時(shí)間序列數(shù)據(jù),其設(shè)計(jì)可以避免長(zhǎng)期依賴(lài)問(wèn)題,從而捕獲長(zhǎng)期的依賴(lài)關(guān)系。BERT(Bidirectional Encoder Representations from Transformers) 可 以進(jìn)行語(yǔ)義特征提取和編碼,該模型使用雙向的Transformer 編碼器,可以有效表示文本的語(yǔ)義信息。因此,本研究使用LSTM 和BERT 模型進(jìn)行文本數(shù)據(jù)的語(yǔ)義解析[6]。
(2)圖像數(shù)據(jù)處理。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)是一種深度學(xué)習(xí)模型,特別適用于圖像處理,通過(guò)卷積層可以自動(dòng)從圖像中提取重要特征[7-8]。YOLO(You Only Look Once)是一種實(shí)時(shí)物體檢測(cè)算法,與傳統(tǒng)的兩步方法(首先提議區(qū)域,然后對(duì)其進(jìn)行分類(lèi))不同,YOLO 在單個(gè)網(wǎng)絡(luò)中將這兩個(gè)步驟結(jié)合起來(lái),從而實(shí)現(xiàn)快速而準(zhǔn)確的物體檢測(cè)。因此,本研究使用CNN、YOLO 模型對(duì)圖像的特征進(jìn)行提取[9-10]。
2.1.4 知識(shí)圖譜模塊
本研究構(gòu)建了一個(gè)規(guī)模約2 000 個(gè)實(shí)體、3 000 種關(guān)系的食品安全知識(shí)圖譜。實(shí)體包含食品、添加劑、病原體等;關(guān)系包含分類(lèi)關(guān)系、屬性關(guān)系、功能關(guān)系等。該知識(shí)圖譜整合了國(guó)家食品安全標(biāo)準(zhǔn)、相關(guān)監(jiān)管規(guī)定以及學(xué)術(shù)文獻(xiàn)等多源領(lǐng)域知識(shí),使用圖數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ),并采用知識(shí)圖譜標(biāo)記語(yǔ)言(Knowledge Graph Markup Language,KGML)等形式進(jìn)行知識(shí)表示。在模型運(yùn)用時(shí),可以根據(jù)提取到的實(shí)體信息,快速在知識(shí)圖譜中檢索到與其關(guān)聯(lián)的風(fēng)險(xiǎn)知識(shí),從而為模型賦能。相較于零散的文本信息,知識(shí)圖譜可以提供結(jié)構(gòu)化的知識(shí)支持,以提升監(jiān)管決策的水平[11]。
2.1.5 預(yù)警模塊
在獲取監(jiān)管文本和圖像的智能解析結(jié)果后,預(yù)警模塊會(huì)首先識(shí)別食品安全事件。在這一步中,系統(tǒng)可以關(guān)聯(lián)知識(shí)圖譜,結(jié)合事件涉及的食品和生產(chǎn)環(huán)節(jié)等方面的背景知識(shí)評(píng)估事件的危害性。例如,如果識(shí)別到了“三聚氰胺”等違禁物質(zhì),模型就可以快速定位到毒性作用等信息。接著,根據(jù)事件的危害程度、傳播范圍等因素,系統(tǒng)會(huì)根據(jù)預(yù)先設(shè)定的風(fēng)險(xiǎn)等級(jí)標(biāo)準(zhǔn),對(duì)事件進(jìn)行自動(dòng)化分級(jí)預(yù)警。相較于依賴(lài)人工經(jīng)驗(yàn)判斷,該預(yù)警模塊實(shí)現(xiàn)了基于模型和知識(shí)圖譜的風(fēng)險(xiǎn)智能評(píng)估和預(yù)警[12-13]。
采用準(zhǔn)確率、召回率等指標(biāo)可全面評(píng)估模型的監(jiān)管效果,其中準(zhǔn)確率反映模型正確預(yù)測(cè)的樣本數(shù)占總預(yù)測(cè)樣本數(shù)的比例,召回率反映模型捕捉的正樣本數(shù)占總正樣本數(shù)的比例。在具體評(píng)估中,采取以下技術(shù)手段。①監(jiān)管數(shù)據(jù)集劃分,將收集的3 000 條監(jiān)管數(shù)據(jù)按7.0 ∶1.5 ∶1.5 的比例分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。②五折交叉驗(yàn)證,將測(cè)試集五等分,每次使用其中4 份作為訓(xùn)練,1 份作為驗(yàn)證,循環(huán)5 次。③指標(biāo)計(jì)算,在交叉驗(yàn)證的每輪測(cè)試中,分別計(jì)算準(zhǔn)確率和召回率。④模型對(duì)比,將構(gòu)建模型的結(jié)果與基準(zhǔn)模型進(jìn)行比較,驗(yàn)證其優(yōu)劣。
通過(guò)上述評(píng)估流程,可以全面考察模型的監(jiān)管效果。準(zhǔn)確率和召回率直觀地反映了模型的精確度和覆蓋面,交叉驗(yàn)證保證了結(jié)果的穩(wěn)健性,與基準(zhǔn)對(duì)比可直觀展示模型的優(yōu)點(diǎn)。
根據(jù)前述方法,本研究構(gòu)建了基于大數(shù)據(jù)與深度學(xué)習(xí)的食品安全智能監(jiān)管模型。該模型整合實(shí)際監(jiān)管數(shù)據(jù)3 000 條,采用LSTM、BERT 算法實(shí)現(xiàn)文本數(shù)據(jù)處理,采用CNN、YOLO 算法實(shí)現(xiàn)圖像數(shù)據(jù)處理,并構(gòu)建關(guān)聯(lián)知識(shí)圖譜。經(jīng)訓(xùn)練和調(diào)優(yōu),相關(guān)算法取得了良好的處理效果。
為評(píng)估構(gòu)建模型的智能處理效果,選取已標(biāo)注結(jié)果的500 條監(jiān)管數(shù)據(jù)進(jìn)行測(cè)試,其中包含300 條文本數(shù)據(jù)、200 條圖像數(shù)據(jù)。文本數(shù)據(jù)經(jīng)算法處理后的平均準(zhǔn)確率達(dá)87.3%,圖像數(shù)據(jù)經(jīng)算法處理后的平均準(zhǔn)確率達(dá)91.2%??紤]到監(jiān)管數(shù)據(jù)涉及食品種類(lèi)繁多、內(nèi)容表達(dá)復(fù)雜,這一準(zhǔn)確率表明文本與圖像處理模塊可以基本滿(mǎn)足智能解析的需求。另外,文本模塊的召回率可達(dá)83.1%,圖像模塊的召回率可達(dá)85.7%,相關(guān)結(jié)果顯示構(gòu)建的模型具有較強(qiáng)的監(jiān)管數(shù)據(jù)處理與風(fēng)險(xiǎn)識(shí)別能力[14]。
以某乳制品質(zhì)量下降事件為例,當(dāng)?shù)厥袌?chǎng)監(jiān)督管理局發(fā)布通報(bào)稱(chēng)某品牌成人奶粉產(chǎn)品經(jīng)檢測(cè)過(guò)氧化值指標(biāo)超標(biāo),可能導(dǎo)致產(chǎn)品風(fēng)險(xiǎn)。該模型可直接從通報(bào)文本中抽取“成人奶粉”“某品牌”“過(guò)氧化值”等關(guān)鍵詞,并在關(guān)聯(lián)知識(shí)圖譜中判斷過(guò)氧化值超標(biāo)會(huì)導(dǎo)致養(yǎng)分流失和產(chǎn)生異味,判斷為較高風(fēng)險(xiǎn)事件。同時(shí),輸入現(xiàn)場(chǎng)照片,可識(shí)別出問(wèn)題原料為奶粉包裝。最終,模型綜合兩類(lèi)信息,并關(guān)聯(lián)標(biāo)準(zhǔn)知識(shí),自動(dòng)判斷該事件為原料問(wèn)題導(dǎo)致的較高風(fēng)險(xiǎn)事件,并推送預(yù)警信息給相關(guān)監(jiān)管部門(mén)。
3.4.1 模型效果分析
實(shí)驗(yàn)結(jié)果證明,構(gòu)建的基于深度學(xué)習(xí)的食品安全智能監(jiān)管模型可以實(shí)現(xiàn)海量監(jiān)管數(shù)據(jù)的有效自動(dòng)解析。在文本處理方面,模型平均準(zhǔn)確率超過(guò)87%,關(guān)鍵信息提取準(zhǔn)確;在圖像處理方面,模型平均準(zhǔn)確率超過(guò)91%,視覺(jué)要素識(shí)別準(zhǔn)確。案例分析也顯示模型能夠快速分析監(jiān)管通報(bào)和現(xiàn)場(chǎng)圖片,并結(jié)合知識(shí)圖譜推斷出事件風(fēng)險(xiǎn)。相較于傳統(tǒng)人工分析監(jiān)管信息的方式,該智能監(jiān)管模型可大大提高分析效率。
然而,模型的健壯性和可拓展性還需進(jìn)一步提高。當(dāng)前模型對(duì)新穎未知類(lèi)別的食品安全事件,解析效果會(huì)略低于已知類(lèi)別,需要增強(qiáng)模型對(duì)新知識(shí)的感知能力;不同地區(qū)和部門(mén)的數(shù)據(jù)格式存在差異,直接遷移模型的適應(yīng)性還可提升;若應(yīng)用到實(shí)際在線(xiàn)監(jiān)控等場(chǎng)景,也需要壓縮模型大小、優(yōu)化推理速度等。因此,后續(xù)研究可繼續(xù)豐富樣本、進(jìn)行集成學(xué)習(xí)以及探索模型的輕量化。
3.4.2 提高模型的可解釋性和透明度
為確保非技術(shù)人員理解模型的決策過(guò)程,本研究引入了模型解釋工具,如局部可理解的與模型無(wú)關(guān)的解釋技術(shù)(Local Interpretable Model-Agnostic Explanations,LIME)和Shapley 可加性解釋?zhuān)⊿Hapley Additive exPlanations,SHAP)等,來(lái)解釋模型的決策邏輯。通過(guò)這些工具,非技術(shù)人員可以清晰看到模型在做決策時(shí)是如何權(quán)衡各種輸入特征的,從而使模型的決策更加透明。
3.4.3 模型的局限性分析
本模型在食品安全監(jiān)管上已顯示出了強(qiáng)大的潛力,但也存在一些局限性。例如,模型的訓(xùn)練需要大量的數(shù)據(jù),而一些稀有的食品安全事件可能數(shù)據(jù)量有限,這可能導(dǎo)致模型在這類(lèi)事件上的表現(xiàn)不盡如人意。此外,盡管模型具有較高的準(zhǔn)確率,但仍可能存在誤報(bào)和漏報(bào)的情況,這需要進(jìn)一步的技術(shù)優(yōu)化。對(duì)于這些挑戰(zhàn),未來(lái)的研究可以考慮引入遷移學(xué)習(xí)、半監(jiān)督學(xué)習(xí)等技術(shù),以提高模型在數(shù)據(jù)稀少情況下的表現(xiàn)。
3.4.4 模型優(yōu)化
為進(jìn)一步增強(qiáng)模型的監(jiān)管效果,可以考慮從以下幾個(gè)方面進(jìn)行優(yōu)化。①擴(kuò)充訓(xùn)練數(shù)據(jù)集,新增不同地區(qū)、部門(mén)、時(shí)間段的監(jiān)管數(shù)據(jù)。豐富數(shù)據(jù)樣本有助模型提高對(duì)新穎事件和復(fù)雜語(yǔ)境的學(xué)習(xí)能力,期望準(zhǔn)確率可提高3%~5%。②嘗試集成多種算法模型,如將門(mén)控循環(huán)單元(Gated Recurrent Unit,GRU)與BERT 結(jié)合,進(jìn)行雙向語(yǔ)義特征提取。不同模型可相互驗(yàn)證、相互補(bǔ)充,增強(qiáng)文本理解的全面性,期望提高文本解析召回率2%~3%。③增加更多違規(guī)食品圖像的訓(xùn)練,如虛假標(biāo)簽、變質(zhì)原料等,擴(kuò)展模型對(duì)各類(lèi)違規(guī)場(chǎng)景的視覺(jué)識(shí)別能力,提高圖像風(fēng)險(xiǎn)識(shí)別的準(zhǔn)確率約2%。④豐富知識(shí)圖譜的實(shí)體、關(guān)系描述,如增加毒理學(xué)、微生物學(xué)等領(lǐng)域知識(shí),加強(qiáng)圖譜的關(guān)聯(lián)分析支持能力,可以提升2%~4%的事件風(fēng)險(xiǎn)判斷正確率。⑤應(yīng)用在線(xiàn)學(xué)習(xí)等技術(shù),使用新出現(xiàn)的監(jiān)管數(shù)據(jù)及時(shí)更新模型,促使模型快速適應(yīng)新知識(shí)、新情況,保持高水平的監(jiān)管效果。
食品安全智能監(jiān)管可實(shí)現(xiàn)監(jiān)管效率大幅提升,推動(dòng)監(jiān)管智能化升級(jí)。繼續(xù)擴(kuò)充高質(zhì)量監(jiān)管大數(shù)據(jù),構(gòu)建涵蓋全鏈條、多領(lǐng)域數(shù)據(jù)的體系,可以提升模型判斷能力,并探索多模態(tài)深度學(xué)習(xí)實(shí)現(xiàn)數(shù)據(jù)全面智能解析,以提高風(fēng)險(xiǎn)判斷的準(zhǔn)確性。同時(shí),通過(guò)生成對(duì)抗網(wǎng)絡(luò)、元學(xué)習(xí)等方式增強(qiáng)模型解釋性和遷移學(xué)習(xí)能力,使之更好地適應(yīng)新環(huán)境和新事件,保證穩(wěn)定有效的監(jiān)管。此外,研究模型輕量化,將智能監(jiān)管應(yīng)用到移動(dòng)和實(shí)時(shí)場(chǎng)景,可實(shí)現(xiàn)全時(shí)空智能化監(jiān)管。
本研究構(gòu)建的食品安全智能監(jiān)管模型可實(shí)現(xiàn)監(jiān)管數(shù)據(jù)的自動(dòng)采集和食品安全事件的精確識(shí)別,并通過(guò)知識(shí)圖譜增強(qiáng)事件風(fēng)險(xiǎn)的智能判斷能力,實(shí)現(xiàn)了食品安全全流程智能化監(jiān)管,可大大提高監(jiān)管效率。本研究驗(yàn)證了基于深度學(xué)習(xí)的智能監(jiān)管方法的有效性,為構(gòu)建智能化食品安全監(jiān)管體系提供了有價(jià)值的技術(shù)路線(xiàn)。