劉然 程曼
(天津電子信息職業(yè)技術(shù)學(xué)院,天津 300000)
食品安全問題向來是困擾社會(huì)大眾的民生問題之一,由于學(xué)生正處于身體發(fā)育的關(guān)鍵時(shí)期,一旦發(fā)生校園食品安全事件對(duì)學(xué)生的身心健康造成的影響極為嚴(yán)重。開展校園食品安全工作成為社會(huì)各界的重中之重。例如,2021年5月27日,國(guó)務(wù)院食品安全辦、市場(chǎng)監(jiān)管局和教育部就校園食品安全問題聯(lián)合約談安徽省和河南省安全辦,就維護(hù)好師生飲食安全需要、提高安全風(fēng)險(xiǎn)防范意識(shí)、落實(shí)管理責(zé)任和堅(jiān)持不斷創(chuàng)新做出指示,強(qiáng)調(diào)要不斷加強(qiáng)校園食品安全工作。
校園食品安全作為一個(gè)研究熱點(diǎn)方向,學(xué)者的研究角度多為單個(gè)食品安全事件或者一所院校的食堂安全管理,目前還缺乏對(duì)近年來已發(fā)生的校園食品安全事件進(jìn)行全面系統(tǒng)的分析。近年來,數(shù)據(jù)挖掘技術(shù)逐漸成熟,開始應(yīng)用于各種領(lǐng)域之中,這也為校園食品安全事件分析智能化提供了技術(shù)支持,為此本文運(yùn)用爬蟲技術(shù)從互聯(lián)網(wǎng)平臺(tái)采集關(guān)于校園食品安全事件報(bào)道,運(yùn)用Apriori算法對(duì)報(bào)道食物中毒事件的致病原因、食物源、表現(xiàn)癥狀和事件發(fā)生時(shí)間進(jìn)行多個(gè)角度分析,為校園食品安全的高風(fēng)險(xiǎn)環(huán)節(jié)和校園食品安全監(jiān)管工作提供重點(diǎn)方向參考。
為了采集校園食品安全事件報(bào)道,本文從中國(guó)新聞網(wǎng)根據(jù)關(guān)鍵詞“食物中毒”搜索結(jié)果爬取到7519篇新聞報(bào)道,然后從中篩選了427篇與校園食品安全關(guān)聯(lián)度較高的有效報(bào)道內(nèi)容。按時(shí)間排序最早的事件發(fā)生時(shí)間為1999年9月,最近的事件發(fā)生時(shí)間為2021年6月。
對(duì)采集到的校園食品安全事件進(jìn)行原因和表現(xiàn)癥狀分析。首先使用python的jieba分詞工具對(duì)其段落分詞得到詞序列,然后用詞向量技術(shù)把詞序列轉(zhuǎn)換成詞向量[1],得到每篇報(bào)道中與食物源和中毒表現(xiàn)癥狀相關(guān)度較高的關(guān)鍵詞。本文首先從搜索引擎中搜索關(guān)鍵詞“食物中毒癥狀”,根據(jù)搜索結(jié)果總結(jié)了32個(gè)通常的表現(xiàn)癥狀,同時(shí)設(shè)定了20個(gè)食物相關(guān)的詞匯作為檢索詞匯集。設(shè)定Ds和Df分別為癥狀和食物詞匯集,本文根據(jù)以下公式(1)和公式(2)篩選出一篇報(bào)道中表現(xiàn)癥狀。每篇報(bào)道x分詞處理由若干個(gè)詞組成,如x=(w1,w2,…,wi,…wn) ,其中n是當(dāng)前報(bào)道分詞后的詞個(gè)數(shù)。
其中sim是詞向量相似度計(jì)算函數(shù),將wi和c表示為詞向量,然后用余弦相似度計(jì)算兩個(gè)詞的相似分?jǐn)?shù)。為了得到當(dāng)前報(bào)道x中與表現(xiàn)癥狀相關(guān)的詞,本文對(duì)每個(gè)詞wi遍歷Ds詞匯集合,用max函數(shù)得到當(dāng)前報(bào)道中與癥狀詞匯集最高的相似分?jǐn)?shù)。為了得到報(bào)道文章中與食物相關(guān)的詞,本文也用同樣的策略,不同的是計(jì)算每個(gè)詞相似度的詞匯集合換成食物詞匯集合Df,同樣得到每個(gè)詞wi的食物詞匯相似度得分。
最后本文定義α1= 0.85和α2= 0.35作為閾值篩選出每篇報(bào)道的癥狀相關(guān)詞和食物相關(guān)詞,即每個(gè)詞的wi如果相似度大于α的被選定。所有采集到的報(bào)道文檔經(jīng)過自動(dòng)化提取致病源和表現(xiàn)癥狀,得到了致病食物源和表現(xiàn)癥狀的匹配數(shù)據(jù),從而進(jìn)一步對(duì)致病食物源和表現(xiàn)癥狀進(jìn)行分析,表1展示了一篇報(bào)道文檔提取出的食品安全食物源和表現(xiàn)癥狀。
表1 食物源和表現(xiàn)癥狀關(guān)鍵詞提取示意
Apriori算法關(guān)聯(lián)規(guī)則基于如果一個(gè)項(xiàng)集是頻繁的,則其所有子集也一定是頻繁的,即頻繁1-項(xiàng)集越少,其頻繁k-項(xiàng)集越少的原理可以挖掘數(shù)據(jù)庫(kù)中有意義的關(guān)聯(lián)[2],為此本文使用Apriori算法抽取表現(xiàn)癥狀頻繁出現(xiàn)的數(shù)據(jù)集合,通過關(guān)聯(lián)規(guī)則挖掘中毒事件中同時(shí)出現(xiàn)的表現(xiàn)癥狀。
按年份對(duì)校園食品安全事件進(jìn)行統(tǒng)計(jì)分析(圖1),可以看出平均每年大約有近20起校園食品安全事件的相關(guān)報(bào)道,說明校園食品安全風(fēng)險(xiǎn)依然嚴(yán)峻(注意2007年只有1起校園食品安全事件在中國(guó)新聞網(wǎng)被報(bào)道,推測(cè)可能因?yàn)樾侣勂脚_(tái)沒有較完整地搜集到這一年的相關(guān)報(bào)道)。
圖1 校園食品安全事件個(gè)數(shù)統(tǒng)計(jì)
按照月份對(duì)收集到的食品安全事件進(jìn)行分析(圖2),可以看出4月、6月、9月、11月是校園食品安全事件報(bào)道最多的4個(gè)月,幾乎占據(jù)了全部事件數(shù)的一半以上。1月、2月、7月、8月是事件個(gè)數(shù)最少的4個(gè)月,推測(cè)可能是因?yàn)檎岛罴倨?,校園食品安全風(fēng)險(xiǎn)較低。
圖2 食品安全事件個(gè)數(shù)月份統(tǒng)計(jì)
按照省份對(duì)收集的食品安全事件進(jìn)行分析(圖3),可以看出臺(tái)灣、廣東、河南和湖北是校園食品安全事件新聞報(bào)道較多的地區(qū)和省份。全國(guó)范圍內(nèi)整體呈現(xiàn)事件個(gè)數(shù)南方比北方多,但是大部分省的事件報(bào)道個(gè)數(shù)在10件以上,說明校園食品安全形勢(shì)依然嚴(yán)峻,仍需要嚴(yán)格監(jiān)管保障在校師生飲食安全。
圖3 各省事件個(gè)數(shù)統(tǒng)計(jì)
本文統(tǒng)計(jì)了食品安全表現(xiàn)癥狀的分布,統(tǒng)計(jì)結(jié)果如圖4所示。可以看出校園食品安全事件的表現(xiàn)癥狀詞匯中“嘔吐”“腹瀉”“腹痛”“惡心”等詞匯出現(xiàn)頻次較高,表示大部分的校園食品安全事件都伴隨這些表現(xiàn)癥狀。
圖4 表現(xiàn)癥狀詞匯分布
癥狀的關(guān)聯(lián)規(guī)則挖掘可以總結(jié)出在校園食品安全事件中的主要致病表現(xiàn),對(duì)校園食品安全監(jiān)管工作有一定的指導(dǎo)意義。表2~4展示了Apriori算法的運(yùn)行結(jié)果,最小支持度設(shè)定為0.04??梢钥闯觥皣I吐,腹瀉”這兩個(gè)表現(xiàn)癥狀詞匯的項(xiàng)集支持度最高,即在校園食品安全事件中多人的嘔吐和腹瀉癥狀最多,提示當(dāng)學(xué)校學(xué)生出現(xiàn)嘔吐、腹瀉癥狀時(shí)應(yīng)該及時(shí)考慮食物中毒因素。
表2 癥狀變現(xiàn)關(guān)聯(lián)規(guī)則(項(xiàng)集-頻繁2)挖掘結(jié)果
表3 癥狀變現(xiàn)關(guān)聯(lián)規(guī)則(項(xiàng)集-頻繁3)挖掘結(jié)果
表4 癥狀變現(xiàn)關(guān)聯(lián)規(guī)則(項(xiàng)集-頻繁4)挖掘結(jié)果
為了進(jìn)一步獲取校園食品安全事件的食物源以及食物源與表現(xiàn)癥狀之間的關(guān)系,文本通過三元組的形式分析致病食物源、有毒物質(zhì)和表現(xiàn)癥狀三者的關(guān)聯(lián)(圖5)。在圖5a中展示了全部節(jié)點(diǎn)關(guān)系,節(jié)點(diǎn)大小與其在報(bào)道事件中的出現(xiàn)頻次相關(guān),出現(xiàn)頻次多的節(jié)點(diǎn)被設(shè)置為較大的圖標(biāo),可以觀察到嘔吐、腹瀉等為出現(xiàn)頻率最高的關(guān)鍵詞。從關(guān)系圖可以發(fā)現(xiàn)校園食品安全風(fēng)險(xiǎn)較高的食物,比如四季豆和豆?jié){未煮熟有可能會(huì)導(dǎo)致腹瀉、頭暈和嘔吐,涼牛奶空腹運(yùn)動(dòng)后食用有可能會(huì)腹痛、發(fā)燒、頭暈;亞硝酸鹽可能來自不合格的豆瓣醬或者誤用,其毒癥狀有嘔吐和口干等。在圖5(b)中顯示了與嘔吐節(jié)點(diǎn)有關(guān)系結(jié)果,可以發(fā)現(xiàn)與嘔吐表現(xiàn)癥狀相關(guān)的節(jié)點(diǎn)中主要的致病原因是細(xì)菌和食物變質(zhì),此外諾如病毒也是導(dǎo)致校園群體性嘔吐的原因之一。
圖5 致病原因和表現(xiàn)癥狀關(guān)系圖
本文基于數(shù)據(jù)挖掘技術(shù)采集了近20年的校園食品安全事件報(bào)道,分析了校園食品安全事件報(bào)道個(gè)數(shù)在不同的月份和省份上的分布,得出校園食品安全事件發(fā)生較多的月份和省份;使用詞向量技術(shù)提取每篇報(bào)道中的致病食物源和表現(xiàn)癥狀等關(guān)鍵詞,用Apriori算法對(duì)事件中的表現(xiàn)癥狀進(jìn)行關(guān)聯(lián)規(guī)則分析,挖掘不同表現(xiàn)癥狀的聯(lián)系,得出嘔吐、腹瀉兩個(gè)表現(xiàn)癥狀詞匯的項(xiàng)集支持度最高,當(dāng)校園出現(xiàn)嘔吐、腹瀉的癥狀時(shí)要第一時(shí)間考慮校園食物中毒發(fā)生的可能性;運(yùn)用三元組和關(guān)系圖譜挖掘致病食物源和表現(xiàn)癥狀的關(guān)系,得到了不同食物源食物中毒發(fā)生后的表現(xiàn)癥狀,為校園食品中毒事件及時(shí)找出中毒食物源提供了依據(jù)。同時(shí)本文實(shí)現(xiàn)了將數(shù)據(jù)挖掘技術(shù)應(yīng)用于長(zhǎng)時(shí)間跨度、數(shù)量較多中毒事件的分析可能性,具有一定準(zhǔn)確性和實(shí)用性,為校園食品安全監(jiān)管工作提供了一定的參考價(jià)值。