肖克晶, 左 敏,*, 王星云, 劉 婷
(1.北京工商大學(xué) 計(jì)算機(jī)與信息工程學(xué)院, 北京 100048;2.中國(guó)食品藥品檢定研究院, 北京 100050)
?
改進(jìn)的關(guān)聯(lián)規(guī)則在食品安全預(yù)警上的應(yīng)用
肖克晶1, 左 敏1,*, 王星云1, 劉 婷2
(1.北京工商大學(xué) 計(jì)算機(jī)與信息工程學(xué)院, 北京 100048;2.中國(guó)食品藥品檢定研究院, 北京 100050)
為將海量的食品檢測(cè)數(shù)據(jù)有效地應(yīng)用于食品安全預(yù)警,首先分析了食品檢測(cè)數(shù)據(jù)的特點(diǎn),以及傳統(tǒng)的Apriori算法在挖掘食品檢測(cè)數(shù)據(jù)上的不足,進(jìn)而提出過濾算法,并將其作為Apriori算法的前置組件對(duì)算法進(jìn)行改進(jìn),然后建立了食品安全預(yù)警模型,最后將實(shí)際的食用油檢測(cè)數(shù)據(jù)用改進(jìn)后的算法進(jìn)行挖掘,發(fā)現(xiàn)其存在的潛在安全隱患進(jìn)而做出風(fēng)險(xiǎn)預(yù)警。通過實(shí)驗(yàn)對(duì)比Apriori算法,發(fā)現(xiàn)改進(jìn)后的算法摒棄了大量的偽關(guān)聯(lián)規(guī)則,能有效提高食品安全預(yù)警的效率和準(zhǔn)確度,具有十分重要的實(shí)際意義。
關(guān)聯(lián)規(guī)則; 頻繁項(xiàng)集; 稀疏數(shù)據(jù); 過濾算法
食品安全預(yù)警是食品安全監(jiān)管的重要環(huán)節(jié),合理有效的預(yù)警方法能大大提高食品安全整體水平。因此,如何識(shí)別食品安全風(fēng)險(xiǎn)并做出預(yù)警,降低食品安全事故的發(fā)生概率,成為監(jiān)管部門面臨的重要挑戰(zhàn)。國(guó)內(nèi)外學(xué)者目前在食品安全領(lǐng)域做了很多研究,包括對(duì)國(guó)內(nèi)外食品安全預(yù)警機(jī)制的對(duì)比[1]、基于互聯(lián)網(wǎng)輿情監(jiān)測(cè)的食品安全預(yù)警[2]、如何在流通領(lǐng)域加強(qiáng)食品安全[3]以及對(duì)食品安全風(fēng)險(xiǎn)因素的分析等[4]。在食品安全預(yù)警方面,國(guó)外學(xué)者M(jìn)cMeekin等[5]研究了歐盟“食品與飼料快速預(yù)警系統(tǒng)”,Kadir等[6]用自適應(yīng)模糊推理系統(tǒng)ANFIS預(yù)測(cè)糧食安全問題,國(guó)內(nèi)學(xué)者Zhu等[7]研究了基于支持向量機(jī)分類的食品風(fēng)險(xiǎn)預(yù)警模型,章德賓等[8]研究了基于BP神經(jīng)網(wǎng)絡(luò)的食品安全預(yù)警方法,王海明等[9]通過對(duì)食品安全綜合評(píng)價(jià)指數(shù)的研究提出風(fēng)險(xiǎn)監(jiān)測(cè)預(yù)警系統(tǒng),顧小林等[10]研究了基于關(guān)聯(lián)規(guī)則挖掘的食品安全信息預(yù)警模型。
已有研究為本文的研究奠定了一定的基礎(chǔ),但是這些研究大多是分析預(yù)警模型如何建立[11],以及針對(duì)生產(chǎn)和流通過程中的影響因素做定性分析[12],并沒有針對(duì)食品檢測(cè)數(shù)據(jù)的預(yù)警研究。食品檢測(cè)數(shù)據(jù)來源于監(jiān)管部門在超市等市場(chǎng)終端的抽檢結(jié)果,主要用于監(jiān)管部門的統(tǒng)計(jì)分析和決策。這些數(shù)據(jù)隱含了很多有價(jià)值的信息,必須對(duì)其進(jìn)行分析挖掘才能找到其中的安全隱患因素[13]。因此對(duì)食品檢測(cè)數(shù)據(jù)采用更加科學(xué)的挖掘算法進(jìn)行分析、提高挖掘的準(zhǔn)確度和效率成為目前研究的重點(diǎn)。本文首先介紹了關(guān)聯(lián)規(guī)則挖掘算法,分析了食品檢測(cè)數(shù)據(jù)的特點(diǎn)并提出了過濾算法,然后將過濾算法作為Apriori算法的前置組件對(duì)其進(jìn)行改進(jìn),建立了相應(yīng)的預(yù)警模型,最后對(duì)實(shí)際的食用油檢測(cè)數(shù)據(jù)進(jìn)行挖掘,發(fā)現(xiàn)其中存在的安全風(fēng)險(xiǎn)因素,并根據(jù)分析結(jié)果做出風(fēng)險(xiǎn)預(yù)警。
關(guān)聯(lián)規(guī)則是Agrawal等在1993年提出的,其目標(biāo)是找到同時(shí)滿足最小支持度和最小置信度的強(qiáng)關(guān)聯(lián)規(guī)則,過程分為2個(gè)步驟:1)找到所有滿足支持度的頻繁項(xiàng)集;2)使用頻繁項(xiàng)集生成強(qiáng)關(guān)聯(lián)規(guī)則[14]。其中Apriori算法是目前應(yīng)用最廣泛的算法,其原理可以表示如下:
設(shè)I={i1,i2…im}是由m個(gè)不同的數(shù)據(jù)項(xiàng)組成的集合,其中元素稱為項(xiàng),項(xiàng)的集合稱為項(xiàng)集。給定一個(gè)事務(wù)數(shù)據(jù)庫(kù)D={T1,T2…Tn},其中每一個(gè)事務(wù)T是項(xiàng)集I的一個(gè)子集,|D|表示D中的事務(wù)總數(shù)。其中X和Y都是T中的項(xiàng)集且不相交,假設(shè)num()表示事務(wù)數(shù)據(jù)庫(kù)里特定項(xiàng)集出現(xiàn)的次數(shù),那么就可以得到形如X→Y的關(guān)聯(lián)規(guī)則表達(dá)式。
其中,支持度(Support)表示項(xiàng)集{X,Y}在總項(xiàng)集里出現(xiàn)的概率,計(jì)算如公式(1)。
Support(X→Y)=P(XY)=num(X∪Y)/|D|。
(1)
置信度(Confidence)表示在含有X的項(xiàng)集中,同時(shí)含有Y的概率,計(jì)算如公式(2)。
Confidence(X→Y)=P(X|Y)=num(X∪Y)/num(X)。
(2)
Apriori算法首先掃描數(shù)據(jù)庫(kù)找到所有頻繁1-項(xiàng)集,然后由Apriori_gen算法找到所有候選2-項(xiàng)集并掃描數(shù)據(jù)庫(kù),對(duì)每個(gè)項(xiàng)進(jìn)行計(jì)數(shù)找到所有頻繁2-項(xiàng)集,以此類推直至找到所需要的頻繁k-項(xiàng)集,然后由頻繁項(xiàng)集生成強(qiáng)關(guān)聯(lián)規(guī)則[15]。
但是Apriori算法有著自身的缺點(diǎn)和不足,包括:1)對(duì)數(shù)據(jù)庫(kù)的掃描次數(shù)過多,I/O代價(jià)很高;2)產(chǎn)生大量的中間項(xiàng)集;3)對(duì)不同的數(shù)據(jù)集動(dòng)態(tài)更新適應(yīng)性較差。因此在使用Apriori算法挖掘時(shí),時(shí)間和空間的消耗成為制約挖掘效率的關(guān)鍵。根據(jù)已有研究,頻繁項(xiàng)集挖掘的時(shí)間復(fù)雜度是O(2m),即屬性項(xiàng)的數(shù)目m對(duì)頻繁項(xiàng)集挖掘的復(fù)雜度影響很大[16]。本文將根據(jù)具體的食品檢測(cè)數(shù)據(jù)特點(diǎn),針對(duì)此問題給出相應(yīng)的解決辦法。
2.1 數(shù)據(jù)來源
所用數(shù)據(jù)全部來自國(guó)家食品安全抽檢監(jiān)測(cè)信息系統(tǒng),該平臺(tái)保存了各省市的食用油檢測(cè)數(shù)據(jù),選取2014年的數(shù)據(jù),對(duì)這些數(shù)據(jù)進(jìn)行清理噪聲、一致性檢查等預(yù)處理操作,然后將數(shù)據(jù)轉(zhuǎn)換成挖掘算法需要的格式。
2.2 數(shù)據(jù)預(yù)處理
經(jīng)過數(shù)據(jù)的準(zhǔn)備工作以后,針對(duì)屬性間關(guān)聯(lián)規(guī)則的挖掘目標(biāo),將食用油的檢測(cè)數(shù)據(jù)按以下方式組織存儲(chǔ),每一行記錄代表一種特定的食用油產(chǎn)品,一項(xiàng)產(chǎn)品對(duì)應(yīng)著20種屬性,包括它的生產(chǎn)商所在省份、食用油細(xì)類、生產(chǎn)時(shí)間以及17種質(zhì)量檢測(cè)指標(biāo):酸值/酸價(jià)(KOH)、總砷、反式脂肪酸、丁基羥基茴香醚(BHA)、黃曲霉毒素B1、二丁基羥基甲苯(BHT)、月桂酸、苯并[a]芘、飽和酸、二十四烷酸、過氧化值、沒食子酸丙酯(PG)、溶劑殘留量、鉛、二十二碳二烯酸、游離棉酚、癸酸。然后對(duì)每一項(xiàng)食用油檢測(cè)結(jié)果進(jìn)行標(biāo)號(hào),省份、食品細(xì)類保持不變,生產(chǎn)時(shí)間轉(zhuǎn)換成季度,17種檢測(cè)項(xiàng)分別用A-Q表示,例如A表示酸值/酸價(jià)(KOH),B表示溶劑殘留量等;將合格項(xiàng)標(biāo)記為0,不合格項(xiàng)標(biāo)記為1,未檢驗(yàn)項(xiàng)標(biāo)記為null。例如,若檢測(cè)項(xiàng)A為不合格項(xiàng),則將其標(biāo)記為A1,若某檢測(cè)項(xiàng)B為合格項(xiàng),則將其標(biāo)記為B0,預(yù)處理后的數(shù)據(jù)如表1。
表1 預(yù)處理后的食用油檢測(cè)數(shù)據(jù)
2.3 數(shù)據(jù)特點(diǎn)
分析可知表1具有如下特征:
1)多維屬性。每一個(gè)屬性都有幾種不同的取值,即數(shù)據(jù)具有多維屬性。
2)類別型。每一個(gè)屬性的取值都是離散的,即數(shù)據(jù)為類別型。
3)稀疏性。如果一個(gè)數(shù)據(jù)集有大量屬性是null,則認(rèn)為這個(gè)數(shù)據(jù)集具有稀疏性[17]。由表1可知各檢測(cè)項(xiàng)目有很多屬性的取值為null,各屬性null值統(tǒng)計(jì)結(jié)果如表2(共14例)。
表2 食用油檢測(cè)數(shù)據(jù)null值所占比例
由表2可以看出,部分屬性如二十四烷酸、游離棉酚等檢測(cè)項(xiàng)目null值比例超過50%,反式脂肪酸、癸酸的null值甚至達(dá)到了100%,說明食用油檢測(cè)數(shù)據(jù)具有一定的稀疏性。當(dāng)null作為其屬性取值進(jìn)行關(guān)聯(lián)規(guī)則挖掘時(shí),會(huì)產(chǎn)生大量含null的頻繁項(xiàng)集,最后會(huì)生成很多含有null的偽關(guān)聯(lián)規(guī)則。因此,為了使挖掘出的頻繁項(xiàng)集更有實(shí)際意義,必須采用相應(yīng)的算法對(duì)含有大量null值的數(shù)據(jù)集進(jìn)行過濾,以保證關(guān)聯(lián)規(guī)則挖掘的有效性。
針對(duì)關(guān)聯(lián)規(guī)則挖掘的目標(biāo)和食品檢測(cè)數(shù)據(jù)的特點(diǎn),建立了基于關(guān)聯(lián)規(guī)則挖掘的食品安全預(yù)警系統(tǒng),主要是對(duì)食品檢測(cè)數(shù)據(jù)庫(kù)中的實(shí)際檢測(cè)數(shù)據(jù)進(jìn)行挖掘,并根據(jù)挖掘結(jié)果判斷其風(fēng)險(xiǎn)情況從而做出預(yù)警。預(yù)警系統(tǒng)設(shè)計(jì)主要包括:數(shù)據(jù)源模塊、預(yù)警分析模塊、反應(yīng)模塊等,如圖1。
圖1 基于關(guān)聯(lián)規(guī)則挖掘的食品安全預(yù)警模型Fig.1 Food safety early warning model diagram based on association rules
其中,數(shù)據(jù)源模塊是預(yù)警系統(tǒng)的數(shù)據(jù)來源,是來自國(guó)家食品安全抽檢監(jiān)測(cè)信息系統(tǒng),數(shù)據(jù)源模塊主要是對(duì)數(shù)據(jù)進(jìn)行相應(yīng)的預(yù)處理、提取關(guān)鍵點(diǎn)檢測(cè)數(shù)據(jù)、建立相應(yīng)的評(píng)價(jià)指標(biāo)體系。預(yù)警分析模塊是依據(jù)歷史數(shù)據(jù)庫(kù)對(duì)異常情況進(jìn)行分析,反應(yīng)模塊采用關(guān)聯(lián)規(guī)則算法挖掘數(shù)據(jù)項(xiàng)中有意義的規(guī)律,發(fā)現(xiàn)潛在的安全隱患,生成預(yù)警信息并發(fā)出預(yù)警信號(hào)通知相關(guān)監(jiān)管部門,以利于相關(guān)部門下一步的工作決策和安排。
4.1 算法意義
頻繁項(xiàng)集挖掘的時(shí)間和空間消耗主要在于:1)計(jì)算了過多的候選項(xiàng)集;2)多次掃描數(shù)據(jù)庫(kù)計(jì)算每個(gè)候選項(xiàng)集的支持度[18]。由于Apriori算法本身沒有過濾稀疏數(shù)據(jù)的機(jī)制,如果不對(duì)null值進(jìn)行處理,就會(huì)計(jì)算過多無意義的候選項(xiàng)集,這樣就導(dǎo)致I/O代價(jià)很大,挖掘效率降低,時(shí)間復(fù)雜度呈指數(shù)增長(zhǎng)。采用過濾算法對(duì)食用油檢測(cè)數(shù)據(jù)集進(jìn)行過濾,只過濾無效的null值數(shù)據(jù),得到一個(gè)較小但價(jià)值密度更高的數(shù)據(jù)集,能提高挖掘效率和準(zhǔn)確度,而且不會(huì)破壞原有數(shù)據(jù)集的有效性和完整性[19-20],從而解決了前文所提到的時(shí)間復(fù)雜度過大的問題。
4.2 算法原理
根據(jù)Apriori算法的基本原理:所有頻繁項(xiàng)集的子集也是頻繁項(xiàng)集,所以頻繁1-項(xiàng)集越少則頻繁k-項(xiàng)集越少[21]。過濾算法第一步是把原始數(shù)據(jù)集的屬性加以分類,標(biāo)記不含null的屬性,然后遍歷標(biāo)記后的新的數(shù)據(jù)集生成候選1-項(xiàng)集,將所有null值產(chǎn)生的候選1-項(xiàng)集過濾掉,生成只包含非null取值的候選1-項(xiàng)集,以此候選項(xiàng)集作為關(guān)聯(lián)規(guī)則挖掘算法的輸入。
4.3 算法描述
設(shè)原始數(shù)據(jù)集的屬性為Ai,其中(i=1,2,…m),設(shè)每個(gè)Ai有ki個(gè)取值,Ai的值域?yàn)閧ai[j]},(j=1,2,…ki),候選1-項(xiàng)集C1={c1,c2…cn},輸入的是原始數(shù)據(jù)集,過濾參數(shù)p∈{ai[j]},以p=null為例,輸出候選1-項(xiàng)集C1。
1 for (i=0;i 2 for(j=0;j 3 if ?j 4 for (i=0;i 5 for (j=0;j 6ci={Ai=ai[j]} 7 for (i=u;i 8 for (j=0;j 9 ifai[j]≠nullci={Ai=ai[j]} 10 outputC1={c1,c2…cn} 4.4 預(yù)警流程 首先用過濾算法遍歷食用油檢測(cè)數(shù)據(jù)庫(kù),同時(shí)計(jì)算出不包含null值的所有候選1-項(xiàng)集作為挖掘算法的輸入,然后對(duì)數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則挖掘,具體流程如圖2。 圖2 基于關(guān)聯(lián)規(guī)則挖掘的食品安全預(yù)警流程Fig.2 Flowchart of food safety early warning model diagram based on association rules 4.5 實(shí)驗(yàn)與結(jié)果分析 實(shí)驗(yàn)使用過濾算法產(chǎn)生候選1-項(xiàng)集和不使用過濾算法兩種情況下,用Apriori算法對(duì)關(guān)聯(lián)規(guī)則挖掘的性能進(jìn)行對(duì)比。采用2014年全國(guó)各省市部分食用油實(shí)際檢測(cè)數(shù)據(jù)為實(shí)驗(yàn)數(shù)據(jù),其中記錄數(shù)D=8 343,實(shí)驗(yàn)環(huán)境為window 7,所用的挖掘軟件是R,變換支持度S并比較二者的挖掘效率和結(jié)果,如表3和表4。 表3 未使用過濾算法時(shí)的挖掘結(jié)果 表4 使用了過濾算法以后的挖掘結(jié)果 由表3和表4的對(duì)比可以明顯看出:在不使用過濾算法的情況下,當(dāng)支持度相同時(shí),挖掘到的關(guān)聯(lián)規(guī)則數(shù)目總是多于使用了過濾算法以后的Apriori算法挖掘到的關(guān)聯(lián)規(guī)則數(shù)目,如當(dāng)支持度S=0.001時(shí),不使用過濾算法時(shí)關(guān)聯(lián)規(guī)則數(shù)目達(dá)到了2 230,而使用了過濾算法以后關(guān)聯(lián)規(guī)則數(shù)目是268,可見使用過濾算法可以過濾掉由大量含有null值的頻繁項(xiàng)集生成的偽關(guān)聯(lián)規(guī)則,提高了挖掘的精度。比較挖掘所用時(shí)長(zhǎng),當(dāng)S=0.002時(shí),不使用過濾算法的情況下用時(shí)19.23 s,而使用了過濾算法以后只需要1.32 s,說明使用過濾算法可以大大提高挖掘效率,節(jié)省一定的時(shí)間。由此可見,使用過濾算法可以同時(shí)提高挖掘的精度和挖掘效率,具有重要的實(shí)際意義。當(dāng)支持度s=0.005時(shí),在使用過濾算法的情況下,挖掘得到強(qiáng)關(guān)聯(lián)規(guī)則部分示例如下: {省份=海南省,檢測(cè)項(xiàng)目=黃曲霉毒素B1,時(shí)間=第3季度}→{結(jié)果判定=D1} {食品細(xì)類=其他食用植物油,檢測(cè)項(xiàng)目=溶劑殘留量,時(shí)間=第4季度}→{結(jié)果判定=B1}; {食品細(xì)類=其他食用植物油,檢測(cè)項(xiàng)目=過氧化值,時(shí)間=第4季度}→{判定結(jié)果=K1}。 示例第一條強(qiáng)關(guān)聯(lián)規(guī)則的意思是:當(dāng)產(chǎn)地所在省份是海南,生產(chǎn)時(shí)間是第3季度時(shí),黃曲霉毒素B1不合格的風(fēng)險(xiǎn)很大。其他關(guān)聯(lián)規(guī)則的含義可以此類推。 由以上關(guān)聯(lián)規(guī)則可以分析出2014年食用油生產(chǎn)存在的安全問題及其應(yīng)對(duì)措施主要有: 1)海南省第3季度生產(chǎn)的食用油中,黃曲霉毒素B1不合格的風(fēng)險(xiǎn)很大,應(yīng)當(dāng)發(fā)出風(fēng)險(xiǎn)預(yù)警,在下一年第3季度的抽檢工作中加強(qiáng)對(duì)海南省食用油黃曲霉毒素B1含量的抽檢力度。 2)第4季度生產(chǎn)的食用油中,溶劑殘留量和過氧化值不合格的風(fēng)險(xiǎn)很大,應(yīng)當(dāng)發(fā)出風(fēng)險(xiǎn)預(yù)警,在下一年第4季度全國(guó)范圍內(nèi)的抽檢工作中將其作為重點(diǎn)抽檢對(duì)象。 綜上所述,食品檢測(cè)數(shù)據(jù)具有很明顯的稀疏性,即當(dāng)支持度很低時(shí),才能挖掘到屬性間的關(guān)聯(lián)規(guī)則。這時(shí)產(chǎn)生頻繁項(xiàng)集在使用了經(jīng)過濾算法改進(jìn)的Apriori算法進(jìn)行挖掘后,產(chǎn)生有意義的規(guī)則數(shù)目要少很多,易于觀察和理解。這說明對(duì)食品檢測(cè)數(shù)據(jù)采用過濾算法之后,再用Apriori算法來挖掘頻繁項(xiàng)集是正確且有效的,它比傳統(tǒng)Apriori算法模型的預(yù)警效果更好。 基于食品檢測(cè)數(shù)據(jù)的特點(diǎn)和頻繁項(xiàng)集挖掘的難點(diǎn),提出過濾算法并對(duì)Apriori算法進(jìn)行改進(jìn)。通過實(shí)驗(yàn)表明,改進(jìn)的算法對(duì)于帶有null值的稀疏數(shù)據(jù)集非常有效,避免生成含有null值的偽關(guān)聯(lián)規(guī)則,提高了算法的性能。最后通過對(duì)實(shí)際的食用油檢測(cè)數(shù)據(jù)進(jìn)行挖掘,得出風(fēng)險(xiǎn)情況并進(jìn)行預(yù)警。 但是在實(shí)驗(yàn)中也發(fā)現(xiàn)了一些問題,還需進(jìn)一步改進(jìn),可以從以下3方面進(jìn)行: 1)以后的研究中需要增大實(shí)驗(yàn)數(shù)據(jù)的數(shù)量,以提高挖掘的準(zhǔn)確性。 2)食品安全預(yù)警模型還不夠完善,需要進(jìn)一步對(duì)其結(jié)構(gòu)進(jìn)行研究。 3)食品檢測(cè)數(shù)據(jù)量十分龐大,應(yīng)探索更加科學(xué)高效的數(shù)據(jù)預(yù)處理方法。 [1] ZHOU Qiang, GONG Chen, ZHOU Yi. Public food safety pre-warning system of crisis management[C]∥Information Systems for Crisis Response and Management (ISCRAM), 2011 International Conference on. Piscataway, United States, November 25-27, 2011. IEEE,2011:158-162. [2] LI Hui, XIAO Hang, QIU Tianchen,et al. Food safety early warning research based on internet public opinion monitoring and tracing[C]∥Agro-Geoinformatics (Agro-Geoinformatics), 2013 Second International Conference on. Washingtong DC, United States, August 13-16, 2013. IEEE,2013:481-484. [3] YI Ming.How to strengthen food safety in circulation field by HACCP[C]∥Logistics Systems and Intelligent Mana-gement, 2010 International Conference on. Piscataway, United States, January 9-10, 2010. IEEE,2010:1746-1750. [4] XU J, DENG Y. Food safety risk analysis based on generalized fuzzy numbers[C]∥Advanced Management Science (ICAMS), 2010 IEEE International Conference on. IEEE, 2010: 699-702. [5] MCMEEKIN T A, ROSS T. Predictive microbiology: providing a knowledge-based framework for change management[J].International Journal of Food Microbiology, 2012, 78(1): 133-153. [6] KADIR M K A, HINES E L, AROF S, et al. Grain security risk level prediction using ANFIS[C]∥Computational Intelligence, Modelling and Simulation (CIMSiM), 2011 Third International Conference on. Piscataway, United states, September 20-22, 2011. IEEE, 2011: 103-107. [7] ZHU Changxing, WANG Feng. Study on risk pre-warning model of China food based on SVM classification[C]∥E-Pro-duct E-Service and E-Entertainment (ICEEE), 2010 International Conference on. Piscataway, United States, November 7-9, 2010. IEEE, 2010: 1-3. [8] 章德賓,徐家鵬,許建軍,等. 基于監(jiān)測(cè)數(shù)據(jù)和BP 神經(jīng)網(wǎng)絡(luò)的食品安全預(yù)警模型[J]. 農(nóng)業(yè)工程學(xué)報(bào), 2010, 26(1):221-226. ZHANG Debin,XU Jiapeng,XU Jianjun, et al, Model for food safety warning based on inspection data and BP neural network[J]. Transactions of the Chinese Society of Agricultural Engineering, 2010, 26(1):221-226. [9] 王海明,鄭培,潘海虹.食品安全風(fēng)險(xiǎn)監(jiān)測(cè)預(yù)警系統(tǒng)研究[J]. 中國(guó)衛(wèi)生監(jiān)督雜志, 2010, 17(6):529-533. [10] 顧小林,張大為,張可,等. 基于關(guān)聯(lián)規(guī)則挖掘的食品安全信息預(yù)警模型[J]. 軟科學(xué), 2011, 25(11): 136-141. GU Xiaolin,ZHANG Dawei,ZHANG Ke, et al. The information pre-warning model of food safety based on association rules mining[J]. Soft Science, 2011, 25(11): 136-141. [11] 肖宛凝. 吉林省食品安全風(fēng)險(xiǎn)監(jiān)測(cè)預(yù)警系統(tǒng)構(gòu)建研究[D].長(zhǎng)春: 吉林大學(xué),2014. [12] 胡春林. 基于供應(yīng)鏈管理的食品安全風(fēng)險(xiǎn)預(yù)警系統(tǒng)研究[J]. 經(jīng)濟(jì)師,2012(7):35-37. [13] WANG Yuhong, TANG Jianrong, CAO Wenbin. Grey prediction model-based food security early warning prediction[C]∥Proceedings of 2011 IEEE International Conference on Grey Systems and Intelligent Services (GSIS), Piscataway, United States, September 15-18, 2011. IEEE, 2011: 281-285. [14] STEINBACH M, KUMAR V. Introduction to data mining[M]. 2th ed. Beijing: Post & Telecom Press, 2011: 202-208. [15] 郭秀娟. 基于關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘算法的研究[D].長(zhǎng)春:吉林大學(xué),2004. [16] 田春元. 基于數(shù)據(jù)挖掘的食品安全風(fēng)險(xiǎn)評(píng)價(jià)與預(yù)警系統(tǒng)[D]. 青島:青島理工大學(xué), 2012. [17] 徐燕偉. 增量關(guān)聯(lián)規(guī)則算法及其在食品安全監(jiān)管中的應(yīng)用[D].杭州:浙江大學(xué),2008. [18] 晁鳳英, 杜樹新. 基于關(guān)聯(lián)規(guī)則的食品安全數(shù)據(jù)挖掘方法[J]. 食品與發(fā)酵工業(yè), 2007, 33(4): 107-109. CHAO Fengying, DU Shuxin. Data mining technics for food safety based on association rules[J]. Food and Fermentation Industries, 2007, 33(4): 107-109. [19] 羅艷,文錫梅,譚紅. 基于改進(jìn)型AHP的食品質(zhì)量安全時(shí)間序列預(yù)警模型的研究[J]. 貴州科學(xué), 2012, 30(6):35-39. LUO Yan,WEN Ximei,TAN Hong. A study on time series early warning model of food quality safety based on improved AHP[J]. Guizhou Science, 2012, 30(6):35-39. [20] 劉文. 食品安全指數(shù)的構(gòu)建及應(yīng)用[D]. 武漢:華中農(nóng)業(yè)大學(xué), 2013. [21] 黃驅(qū)冥. 多維量化關(guān)聯(lián)規(guī)則在食品安全檢測(cè)中的應(yīng)用[D].杭州:浙江工業(yè)大學(xué),2007. (責(zé)任編輯:檀彩蓮) Application of Improved Association Rules on Food Safety Early Warning XIAO Kejing1, ZUO Min1,*, WANG Xingyun1, LIU Ting2 (1.SchoolofComputerandInformationEngineering,BeijingTechnologyandBusinessUniversity,Beijing100048,China;2.NationalInstitutesforFoodandDrugControl,Beijing100050,China) In order to the effective application of the massive detection data in food safety early warning, this paper analyzed the characteristics of the food detection data, and the insufficient of traditional Apriori algorithm on food detection data, then proposed the filtering algorithm, which is a pre-components of Apriori algorithm. An early warning model was established, which was applied to excavate the real oil detection data, and the potential safety problems were founded to make an early warning. Compared with the Apriori algorithm, the improved algorithm abandoned a lot of pseudo-association rules, and also could effectively enhance the efficiency and accuracy of food safety early warning, which has a very important practical significance. association rules; frequent item sets; sparse data; filtering algorithm 10.3969/j.issn.2095-6002.2017.02.014 2095-6002(2017)02-0089-06 肖克晶,左敏,王星云,等. 改進(jìn)的關(guān)聯(lián)規(guī)則在食品安全預(yù)警上的應(yīng)用[J]. 食品科學(xué)技術(shù)學(xué)報(bào),2017,35(2):89-94. XIAO Kejing, ZUO Min, WANG Xingyun, et al. Application of improved association rules on food safety early warning[J]. Journal of Food Science and Technology, 2017,35(2):89-94. 2015-12-03 “十二五”國(guó)家科技支撐計(jì)劃項(xiàng)目(2015BAK36B04)。 肖克晶,女,碩士研究生,研究方向?yàn)槭称钒踩珨?shù)據(jù)挖掘; *左 敏,男,教授,博士,主要從事人工智能方面的研究,通信作者。 TS201.6; TP391.9 A5 結(jié) 論