阮曉星 金鑫 吳焱
食品安全是社會經(jīng)濟得以穩(wěn)定發(fā)展的基石。加強食品安全監(jiān)管,關系到廣大人民群眾的身體健康和生命安全。近年來,我國食品安全問題頻發(fā),不僅損害了消費者的合法權益,也對民生安全造成了嚴重威脅[1]。因此,如何對食品安全風險進行預警,是人工智能及數(shù)據(jù)挖掘等領域亟待解決的重要難題。
通過文獻調研發(fā)現(xiàn),盡管目前食品安全風險預警機制取得了一定的成效,但仍存在兩個主要問題:(1)難以對多種不同來源的食品安全風險數(shù)據(jù)進行融合處理。隨著信息化的快速發(fā)展,食品安全風險數(shù)據(jù)來源日趨多樣。除人工檢測得到的數(shù)據(jù)外,大量與食品安全相關的投訴數(shù)據(jù)、評價數(shù)據(jù)及輿情數(shù)據(jù)也呈爆發(fā)式涌現(xiàn)。雖然現(xiàn)有的方法可以對多種不同來源的數(shù)據(jù)進行融合[2-6],但卻難以對互聯(lián)網(wǎng)中的大量投訴數(shù)據(jù)、評價數(shù)據(jù)及輿情數(shù)據(jù)等文本數(shù)據(jù)進行融合,難以充分利用這些數(shù)據(jù)做出更精準的決策。(2)難以對單點風險預警進行擴散。目前的方法通常只能夠對被抽檢經(jīng)營主體等包含大量風險數(shù)據(jù)的目標進行預警決策,但如何將風險預警擴散到更多的經(jīng)營主體,實現(xiàn)自動化地預警預判,仍然存在困難。
本文將針對上述兩個問題展開基于多源數(shù)據(jù)融合的單點預警機制以及基于關聯(lián)性分析的擴散預警機制的研究。一方面,基于多源數(shù)據(jù)融合的單點預警機制利用多層感知機、詞向量模型對多源數(shù)據(jù)進行學習和融合,實現(xiàn)對被抽檢經(jīng)營主體的高效單點預警決策;另一方面,基于關聯(lián)性分析的擴散預警機制,根據(jù)經(jīng)營主體之間的結構化關系對預警信息進行擴散,對與被抽檢經(jīng)營主體相關的其他經(jīng)營主體實現(xiàn)實時自動化預警決策。在此基礎上結合實例檢驗本文所提出的食品安全風險預警機制的有效性。
近年來,眾多學者對食品安全風險預警機制進行了研究和探索,運用統(tǒng)計學、人工智能及數(shù)據(jù)挖掘等領域的相關技術和理論對食品安全風險進行建模,構建食品安全風險預警體系。
在食品安全風險預警技術層面,主要探索如何利用和改進貝葉斯網(wǎng)絡、決策樹、人工神經(jīng)網(wǎng)絡、主成分分析方法,以及支持向量機等技術來處理單一經(jīng)營主體的單一來源的食品安全數(shù)據(jù)。王雅潔等[7]分析了貝葉斯網(wǎng)絡、決策樹以及人工神經(jīng)網(wǎng)絡等技術在食品安全風險預警領域的應用,并提出了使用逆向傳播神經(jīng)網(wǎng)絡運用于食品安全風險預警的構想。章德賓等[8]通過分析中國質監(jiān)部門日常檢測數(shù)據(jù)的特征及預處理方法,結合食品安全預警問題特點,建立基于逆向傳播神經(jīng)網(wǎng)絡的食品安全預警模型。王星云等[9]利用食品污染物鉛的抽檢數(shù)據(jù)及食品生產(chǎn)企業(yè)的各個特征屬性對逆向傳播神經(jīng)網(wǎng)絡進行訓練。蔡強等[10]通過對逆向傳播神經(jīng)網(wǎng)絡進行改進,構建了食品安全評價預測模型。王霞[11]建立了食品安全風險評估預警模型以及基于逆向傳播神經(jīng)網(wǎng)絡的食品中污染物殘留量的預測模型。該模型可以同時用于符合性檢驗、檢測性檢驗以及多重性檢測。劉金碩等[12]以食品安全新聞報道文本為訓練語料,提出了一種基于聯(lián)合深度神經(jīng)網(wǎng)絡的食品安全情感傾向性判別方法,完成了食品安全領域新聞類篇章級的情感分類任務。張麗等[13]基于貝葉斯理論,在貝葉斯網(wǎng)絡的食品供應鏈風險分析的基礎上,建立了基于貝葉斯網(wǎng)絡的食品供應鏈風險局部分析模型,對其風險進行預測, 并通過案例研究驗證算法的可行性。鄂旭等[14]為了分析食品安全風險狀況,構建了一種基于粗糙集變精度模型,并提出了一種包含規(guī)則置信度的構造決策樹方法。該方法能夠消除數(shù)據(jù)庫中的噪聲冗余數(shù)據(jù),進而保證決策樹構建過程中能夠兼容部分存在沖突的決策規(guī)則。段鶴君等[15]利用細菌性食物中毒歷史數(shù)據(jù),采用主成分分析方法(PCA)降低評分矩陣的維數(shù),利用支持向量機算法建立回歸模型, 實現(xiàn)對細菌性食物中毒爆發(fā)事件的監(jiān)測及預警。
在食品安全風險預警理論層面,探討如何加強食品安全風險預警體系建設、構建食品安全風險預警指標、實現(xiàn)食品安全風險信息共享、完善食品安全預警平臺。盧江[16]提出加強信息融合平臺建設和大數(shù)據(jù)技術應用,優(yōu)先發(fā)展和建設各類食品安全風險預警體系,借助人工智能和大數(shù)據(jù)技術建立預警體系,為食品安全風險隱患的早期識別和快速預警提供科學支撐。郭添榮等[17]構建了基于風險治理視閾下的三級評價因素食品安全風險預警指標體系,為提升食品安全風險防控能力提供量化依據(jù),為食品安全潛在風險的識別與靶向定位提供科學決策和客觀依據(jù)。王博遠等[18]認為在基于跨部門多源數(shù)據(jù)的食品安全時空預警信息化體系框架下,應用“互聯(lián)網(wǎng)+”的思維模式,促進互聯(lián)網(wǎng)與食品安全的深度融合,打通領域業(yè)務鏈,實現(xiàn)橫向整合,加速數(shù)據(jù)的有效流動與高度共享,實現(xiàn)跨部門的業(yè)務高效協(xié)同、信息共享和預測預警。于曉剛[19]等通過構建食品安全評價指標體系,制定食品安全狀況等級與預警指標,結合專家知識,建立神經(jīng)網(wǎng)絡專家模型,在海量、復雜多樣的數(shù)據(jù)中進行訓練目標函數(shù),從而挖掘關鍵數(shù)據(jù)價值、揭示潛在的關系,進而對食品安全狀態(tài)、食源預測預警,最終構建出食品安全預警體系平臺。
盡管上述研究在一定程度上能夠有效防范食品安全事故發(fā)生,但在技術上缺乏對風險預警的文本數(shù)據(jù)及抽檢數(shù)據(jù)進行融合和處理的方法;在理論上缺乏揭示復雜關系下風險預警的關聯(lián)性和可傳遞性的解決方案。因此,預警效能較低,且難以擴大預警范圍。為此,本文擬研究設計基于多源數(shù)據(jù)融合的單點預警機制以及基于關聯(lián)性分析的擴散預警機制,為實現(xiàn)從點到面的高效食品安全風險預警給出具體的解決方案。
為對食品安全進行實時感知及預警,本文設計了包括基于多源數(shù)據(jù)融合的單點預警機制以及基于關聯(lián)性分析的擴散預警機制的食品安全風險預警機制總架構,如圖1所示。食品安全風險預警機制總架構主要包括基于多源數(shù)據(jù)融合的單點預警和基于關聯(lián)性分析的擴散預警。其中基于多源數(shù)據(jù)融合的單點預警利用多層感知機、詞向量模型對多源數(shù)據(jù)進行學習和融合,實現(xiàn)對被抽檢經(jīng)營主體的單點預警決策;基于關聯(lián)性分析的擴散預警根據(jù)經(jīng)營主體之間的結構化關系對預警信息進行擴散,以實現(xiàn)對與被抽檢經(jīng)營主體相關的其他經(jīng)營主體的實時預警決策。
圖1 食品安全風險預警機制總架構Fig.1 General Architecture of the Food Safety Early Warning Mechanism
為支持對預警等級進行決策,本文結合實際應用過程中預警的緊急程度,將預警分為特別嚴重預警、嚴重預警、較嚴重預警、一般預警和無預警五個級別,具體預警等級的說明如表1所示。
表1 預警等級說明Table 1 Description of Warning Levels
在實際場景中,食品安全多源數(shù)據(jù)來源包括定量檢測、快檢、全國檢測不合格食品、網(wǎng)商交易評價數(shù)據(jù)、輿情數(shù)據(jù)、12315消費者投訴數(shù)據(jù)。定量檢測數(shù)據(jù)是食品檢測機構執(zhí)行本行政區(qū)域的食品安全年度監(jiān)督抽檢計劃所完成檢測的結果數(shù)據(jù)??鞕z數(shù)據(jù)是菜市場、食堂等食品經(jīng)營企業(yè)所建立的食品快檢點定期上傳的檢測結果數(shù)據(jù)。定量檢測和快檢均屬于抽檢?;诂F(xiàn)有研究[20-21]對食品危害因子的劃分,本文首先定義了如圖2所示的12種食品危害因子,通過定量檢測和快檢可得這12種食品危害因子的值。定量檢測和快檢數(shù)據(jù)均可通過系統(tǒng)對接方式獲取。全國檢測不合格食品數(shù)據(jù)是由國家市場監(jiān)管總局發(fā)布的檢測不合格食品信息,可通過系統(tǒng)對接方式獲取。網(wǎng)商交易評價數(shù)據(jù)是在各大食品交易網(wǎng)站上獲取的食品類產(chǎn)品交易評價文本數(shù)據(jù)。輿情數(shù)據(jù)是從各類社交網(wǎng)站獲取的與食品安全輿情相關的評論文本數(shù)據(jù)。上述兩種數(shù)據(jù)可通過網(wǎng)絡爬蟲的方法爬取。12315消費者投訴數(shù)據(jù)是從市場監(jiān)管局12315系統(tǒng)中同步獲取的與食品相關的消費投訴類文本數(shù)據(jù),可通過系統(tǒng)對接方式獲取。上述數(shù)據(jù)的樣例如表2所示。
表2 多源數(shù)據(jù)樣例說明Table 2 Description of Multi-Source Data Sample
圖2 食品危害因子Fig.2 Food Hazard Factors
為實現(xiàn)對經(jīng)營主體的單點預警,基于多源數(shù)據(jù)融合的單點預警機制利用多層感知機(Multi-layer Perceptron,MLP) 和GloVe(Global Vectors for Word Representation)[22]詞向量模型對不同來源的數(shù)據(jù)進行學習和融合,并根據(jù)融合后的特征向量進行分類,得到最終的預警等級決策。其中,多層感知機是由多個神經(jīng)元層組成,其中每個神經(jīng)元層與相鄰的層之間存在全連接關系。多層感知機是一種有向圖結構,包含一個輸入層、一個或多個隱藏層和一個輸出層。多層感知機的基本組成單元是神經(jīng)元(也稱為節(jié)點或單元),每個神經(jīng)元接收來自上一層神經(jīng)元的輸入,通過一個激活函數(shù)對這些輸入進行加權求和并產(chǎn)生一個輸出,這個輸出會傳遞給下一層神經(jīng)元作為輸入。這種層與層之間的全連接方式使得多層感知機能夠學習和表示復雜的非線性關系。GloVe是一種用于生成詞向量的統(tǒng)計語言模型。其設計目標是通過學習單詞之間的全局共現(xiàn)統(tǒng)計信息來生成詞向量。它結合了兩種主要的詞向量模型方法:全局矩陣因式分解(Global Matrix Factorization)和局部上下文窗口方法(Local Context Window Methods)。GloVe模型的核心思想是基于單詞在語料庫中的共現(xiàn)頻率來捕捉詞語之間的語義關系。它首先構建一個單詞共現(xiàn)矩陣,該矩陣記錄了在給定的文本語料庫中單詞之間的共現(xiàn)頻率。然后,通過對這個共現(xiàn)矩陣進行因式分解,得到一個較低維度的稠密向量表示,即詞向量。GloVe的優(yōu)點是在大規(guī)模語料庫上的訓練效果良好,并且生成的詞向量能夠捕捉到豐富的語義信息。
基于多源數(shù)據(jù)融合的單點預警機制首先判斷經(jīng)營主體被定量檢測和快檢的食品是否屬于全國檢測不合格食品數(shù)據(jù)庫中的食品,如果是,則直接對該經(jīng)營主體進行“特別嚴重預警”,如果不是,則繼續(xù)執(zhí)行下述步驟。
1針對由定量檢測和快檢得到的如圖2中所示的12類危害因子,該機制將其拼接成一個12維的特征向量S={a1,a2,…a12}∈,其中每一維的值對應著第i類危害因子的值。
2該機制針對在線商務交易評價、輿情和12315消費者投訴等產(chǎn)生的非結構化文本數(shù)據(jù),首先將這些文本進行拼接,得到一段長度為n的文本數(shù)據(jù)。然后利用GloVe詞向量模型將拼接后的文本換為一個詞向量矩陣H={h1;h2…h(huán)n }∈,其中每一維度詞向量hi∈R1×300對應著文本中的第i個字符。利用GloVe將在線商務交易評價、輿情、12315消費者投訴所產(chǎn)生的非結構化的文本數(shù)據(jù)轉換詞向量,能夠有效學習到這些非結構化文本中所包含的特征信息,并進一步用于下游預警決策。
3將由定量檢測和快檢數(shù)據(jù)轉化得到的特征向量S拼接到由網(wǎng)商交易評價、輿情數(shù)據(jù)和12315消費者投訴數(shù)據(jù)所轉換得到的詞向量矩陣H中的每一維詞向量前部,得到一個由多源信息融合后的特征矩陣O={o1;o2…on }∈n×312。
4利用多層感知機對融合后的特征矩陣O進行學習及預警決策。具體過程如公式(1)—(4)所示:
其中W1∈和W2∈分別為多層感知機中第一層和第二層中的可訓練的權重矩陣參數(shù),b1∈和b2∈分別為多層感知機中第一層和第二層中的可訓練的偏置參數(shù),tanh為激活函數(shù),Softmax為歸一化函數(shù),K∈為多層感知機中間層的輸出,sum函數(shù)的作用是將K的每一維度的特征相加,得到一個聚集特征M∈,Out∈為最終輸出的特征,通過argmax函數(shù)取值最大的那一維所對應的預警等級為最終決策結果。該機制使用梯度下降優(yōu)化方法來逐漸調整多層感知機中權重矩陣和偏置,以最小化預測輸出與實際輸出之間的誤差。通過反復迭代調整權重,多層感知機能夠逐漸學習到輸入與輸出之間的映射關系,從而實現(xiàn)高效的預警決策。
基于多源數(shù)據(jù)融合的單點預警機制盡管能夠實現(xiàn)對被抽檢的經(jīng)營主體進行快速預警,但無法擴散到更多的相關聯(lián)的預警主體。因此,本文提出了一種基于TransE表示學習方法和K-means聚類算法的關聯(lián)性分析的擴散預警機制,該機制通過分析其他經(jīng)營主體與被抽檢的經(jīng)營主體之間的關聯(lián)性來實現(xiàn)自動擴散預警。其中:TransE[23]是一種常用的表示學習方法,可用于將實體映射到低維連續(xù)向量空間。TransE基于一種直觀的假設,即關系可以通過對應實體間的平移來表示。換句話說,如果兩個經(jīng)營主體之間存在某種關系,那么它們的向量表示應該通過一個平移向量進行相互轉換。K-means[24]是一種常用的無監(jiān)督聚類算法,可以用于將一組數(shù)據(jù)點劃分成不同的簇,每個簇內部的數(shù)據(jù)點通常具備相似的特征。該算法通過迭代的方式,將數(shù)據(jù)點劃分為K個簇,使得每個數(shù)據(jù)點與所屬簇的中心點(即質心)的距離最小化。
基于關聯(lián)性分析的擴散預警具體步驟如下:
1利用表示學習方法TransE將經(jīng)營主體映射到低維連續(xù)向量空間。TransE通過最小化訓練數(shù)據(jù)中的關系三元組損失函數(shù)來學習實體和關系的向量表示,這種關系三元組可通過人工標注和收集的方法來獲取。例如,經(jīng)營主體G和經(jīng)營主體F之間存在合作關系,則它們構成(經(jīng)營主體G,合作,經(jīng)營主體F)關系三元組。通過訓練,TransE可以學習到經(jīng)營主體的低維向量表示,這些向量表示可以用于執(zhí)行各種下游任務。
2在得到每個經(jīng)營主體的向量表示后,本文利用K-means無監(jiān)督聚類算法對經(jīng)營主體進行聚類。具體算法如表3所示。
表3 K-means 無監(jiān)督經(jīng)營主體聚類Table 3 Unsupervised Clustering of Business Subjects by K-means
由于每個簇內部的經(jīng)營主體具備類似的特征,所以當這個簇內部的某個經(jīng)營主體被單點預警時,這個簇內部所有的經(jīng)營主體都有可能是被擴散預警的對象。
3為進一步確定同一個簇內部的經(jīng)營主體被擴散預警等級,本文提出利用二階相似性[25]來計算擴算預警等級。二階相似度通常指的是基于節(jié)點鄰居的相似度計算。它用于衡量數(shù)據(jù)節(jié)點之間的結構相似性,考慮節(jié)點的直接鄰居節(jié)點之間的關系。例如,圖3中二階相似度預警等級預判部分所示,經(jīng)營主體A和經(jīng)營主體B屬于同一個簇,且具備3個共同的食材來源,即可視為經(jīng)營主體A和經(jīng)營主體B之間的二階相似度為3。二階相似度越高,代表經(jīng)營主體A和經(jīng)營主體B之間的關聯(lián)性越緊密。因此,當經(jīng)營主體A在單點預警中被判定為第5級特別嚴重預警,經(jīng)營主體B的預警等級可以表示為“經(jīng)營主體A預警等級-(預警等級總數(shù)-經(jīng)營主體A和經(jīng)營主體B之間的二階相似度)”,即第3級較嚴重預警。
圖3 食品安全風險預警平臺運轉流程圖Fig.3 Operation Flow Chart of Food Safety Risk Warning Platform
利用基于多源數(shù)據(jù)融合的單點預警機制以及基于關聯(lián)性分析的擴散預警機制,本文搭建了食品安全風險預警平臺,并在H省C縣開展了應用試點。該平臺的搭建涉及前端、后端、前后端對接三個部分。前端負責與用戶進行交互,利用HTML、CSS、JavaScript等技術展示風險預警數(shù)據(jù)。后端則通過Java、SQL等技術處理業(yè)務邏輯和風險預警數(shù)據(jù)的存儲和管理。前后端對接主要利用Java技術將前端和后端進行集成,進行數(shù)據(jù)的對接與同步,形成一個完整的食品安全風險預警平臺。此外,該預警平臺采用如圖3所示的流程完成一次完整的預警任務閉環(huán)。首先進行多源數(shù)據(jù)采集,然后根據(jù)多源數(shù)據(jù)進行單點預警。在完成單點預警后,執(zhí)行擴散預警。接著,平臺根據(jù)預警信息生成監(jiān)管任務,通知H省C縣食品安全監(jiān)管相關部門進行監(jiān)管處置,前往現(xiàn)場進行食品風險人工檢測及監(jiān)管。在完成監(jiān)管任務后,食品安全監(jiān)管相關部門向平臺回傳人工檢測數(shù)據(jù)及監(jiān)管結果,最后平臺關閉預警。
為分析本文設計的機制在實際應用中的性能,本文統(tǒng)計了食品安全風險預警平臺在30天中的單日單點預警次數(shù)、單日擴散預警次數(shù)、30天單點預警總次數(shù)、擴散預警總次數(shù)、單點預警總次數(shù)、擴散預警總次數(shù)在全部預警中所占的比例,如圖4所示。此外,本文還統(tǒng)計了單點預警符合回傳數(shù)據(jù)次數(shù)、單點預警準確率、擴散預警符合回傳數(shù)據(jù)次數(shù),以及擴散預警準確率,如表4所示。此外,為驗證在對同一經(jīng)營主體進行預警時,基于多源數(shù)據(jù)融合的單點預警機制相較于基于單源數(shù)據(jù)的單點預警機制更為高效,本文統(tǒng)計了5天中上述兩種方法在對相同經(jīng)營主體產(chǎn)生預警后的準確率對比,如表5所示。其中基于單源數(shù)據(jù)的單點預警機制在預警時僅利用了抽檢數(shù)據(jù),未融合網(wǎng)商交易評價數(shù)據(jù)、輿情數(shù)據(jù),以及12315消費者投訴數(shù)據(jù)等文本數(shù)據(jù)。
表4 食品安全風險預警準確率統(tǒng)計Table 4 Statistics on the Accuracy of Food Safety Risk Warning
表5 單源及多源食品安全風險預警準確率對比Table 5 Comparison of the Accuracy of Single Source and Multi Source Food Safety Risk Warnings
圖4 食品安全風險預警次數(shù)統(tǒng)計Fig.4 Statistics on the Number of Food Safety Risk Warnings
①整體上,單點預警次數(shù)越多,擴散預警次數(shù)通常會越多。其主要原因是由于單點預警會引發(fā)擴散預警,因此隨著擴散預警機制對當前單點預警經(jīng)營主體與其相關經(jīng)營主體的相關性分析,擴散預警的數(shù)量將會增加。
②單點預警準確率通常高于擴散預警。其主要原因是由于在進行單點預警決策時融合了多種來源的食品風險數(shù)據(jù),因此能夠實現(xiàn)更精準地預警決策。
③當單點預警準確率高的時候,擴散預警準確率通常也會隨著增高。其主要原因是由于擴散預警是在單點預警的基礎上進行的,當單點預警出現(xiàn)誤差,這種誤差會極大地干擾到擴散預警。
④在極少量情況下,本文提出的基于多源數(shù)據(jù)融合的單點預警機制仍然存在性能較低的情況,例如第5日,僅有50%。其主要原因是由于抽檢過程存在隨機性,而當天產(chǎn)生的單點預警次數(shù)較少,由于基數(shù)較小,難以有效體現(xiàn)基于多源數(shù)據(jù)融合的單點預警機制的有效性。
⑤相較于基于單源數(shù)據(jù)的單點預警機制,基于多源數(shù)據(jù)融合的單點預警機制在進行單點預警的過程中能夠實現(xiàn)更高的準確率,具備更強的性能。其主要原因是由于基于多源數(shù)據(jù)融合的單點預警機制在預警的過程中融合了網(wǎng)商交易評價數(shù)據(jù)、輿情數(shù)據(jù)以及12315消費者投訴數(shù)據(jù)等文本數(shù)據(jù),進而學習和捕捉到了更豐富的預警特征信息。
本文通過對當前食品安全風險預警機制存在的問題進行分析和探討,提出了基于多源數(shù)據(jù)融合的單點預警機制和基于關聯(lián)性分析的擴散預警機制。這兩種機制的應用為解決食品安全領域中的預警難題提供了新的思路和方法。通過多層感知機和詞向量模型的學習與融合,基于多源數(shù)據(jù)融合的單點預警機制能夠更加高效地對多種不同來源的風險數(shù)據(jù)進行處理,從而實現(xiàn)更精準的決策。同時,基于關聯(lián)性分析的擴散預警機制能夠將預警信息自動化地擴散到與被抽檢經(jīng)營主體相關的其他經(jīng)營主體,實現(xiàn)更廣泛的預警決策?;谏鲜鰞煞N機制,本文構建了食品安全風險預警平臺,并在實際應用中證明了本文提出的兩種機制的實用性和可行性。此外,本文仍然存在一些不足之處,基于關聯(lián)性分析的擴散預警機制在進行擴散預警時準確率有待提升,存在一定錯誤預警的風險。在未來工作中,我們將結合知識圖譜技術,繼續(xù)針對這一難題構建面向
作者貢獻說明
阮曉星:提出研究思路,設計研究方案,食品安全風險預警機制設計,起草論文及最終版本修訂;
金鑫:實驗方案設計,模型算法實現(xiàn),開展實驗,起草論文;
吳焱:準備數(shù)據(jù),結果驗證,分析結論,起草論文。
支撐數(shù)據(jù)
支撐數(shù)據(jù)由作者自存儲,E-mail:14006938@qq.com。
1.金鑫. Data.csv.多源食品安全風險數(shù)據(jù).