李夏冰+凌文婧
隨著互聯(lián)網(wǎng)以及其他產(chǎn)業(yè)數(shù)據(jù)量爆炸式的增長,大數(shù)據(jù)、云計算等概念越來越多地被人們提及。2012年,聯(lián)合國發(fā)布了大數(shù)據(jù)政務(wù)白皮書,指出大數(shù)據(jù)對于聯(lián)合國和各國政府來說是一個歷史性的機(jī)遇。公認(rèn)的大數(shù)據(jù)四個特征為:數(shù)據(jù)量大(Volume)、類型繁多(Variety)、價值密度低(Value)、速度快時效高(Velocity)。這與食品安全監(jiān)測所獲取的數(shù)據(jù)特征相符合。其中數(shù)據(jù)量大對應(yīng)的是每天成千上萬種食品在生產(chǎn)、加工、銷售、檢疫時產(chǎn)生的海量數(shù)據(jù);類型繁多對應(yīng)的是食品監(jiān)測數(shù)據(jù)類型的多樣化,如:分光光度值、氣相及液相色譜值、甲基紅試驗染色值、熒光光度值等等;而在這些海量的數(shù)據(jù)中,尋找潛藏的食品安全隱患和發(fā)展趨勢猶如大海撈針;食品作為快速消耗品,由于較短的保質(zhì)期限制,在生產(chǎn)出來之后迅速被消費和消耗,因此食品安全監(jiān)測數(shù)據(jù)的時效性非常重要。因此,海量的食品安全預(yù)警數(shù)據(jù)適合使用大數(shù)據(jù)的思維方式、處理手段進(jìn)行分析和處理。使用大數(shù)據(jù)進(jìn)行食品安全預(yù)警將成為食品安全監(jiān)測手段發(fā)展的新趨勢。
大數(shù)據(jù)時代食品安全數(shù)據(jù)的特點
大數(shù)據(jù)時代,數(shù)據(jù)的顆粒度、維度、活性、規(guī)模、關(guān)聯(lián)度成為衡量數(shù)據(jù)價值最重要的性質(zhì)。
數(shù)據(jù)的顆粒度反映的是數(shù)據(jù)的精細(xì)化程度,對于單個食品而言,單一的檢測指標(biāo)往往難以反映該食品質(zhì)量的全貌,2008發(fā)生的三聚氰胺事件,暴露了我國食品檢測手段及方式的漏洞,增加食品監(jiān)測數(shù)據(jù)的顆粒度,有助于為食品安全提供更加全方位的信息。
數(shù)據(jù)的維度指的是數(shù)據(jù)來源的豐富性。信息時代,食品安全數(shù)據(jù)不僅限于企業(yè)和監(jiān)管部門,計算機(jī)網(wǎng)絡(luò)信息、媒體報道、輿情資訊等等渠道,同樣能為食品安全監(jiān)測和預(yù)警提供重要的數(shù)據(jù)來源。這些渠道為食品質(zhì)量提供了最及時、最客觀的逆向反饋,許多食品質(zhì)量問題在食品的加工銷售和運輸途中往往難以發(fā)覺,在消費者手中才得到了及時的揭露。近期暴露的食品安全問題有不少是由于消費者舉報,獲得媒體報道后才引起相關(guān)部門的調(diào)查和重視的,因此,網(wǎng)絡(luò)、媒體及大眾言論為食品生產(chǎn)企業(yè)和監(jiān)管部門掌握第一手材料提供了可能,應(yīng)當(dāng)作為食品監(jiān)測數(shù)據(jù)的來源之一。
數(shù)據(jù)的活性指的是數(shù)據(jù)被更新的頻次,從食品安全監(jiān)測數(shù)據(jù)上看,數(shù)據(jù)的活性較大,表現(xiàn)在數(shù)據(jù)獲取頻繁:如一周一檢、一天一檢、不少生鮮食品甚至一小時一檢,這些頻繁獲取的數(shù)據(jù)在很大程度上增強(qiáng)了數(shù)據(jù)的活性、使得數(shù)據(jù)實時、可信、可靠。
數(shù)據(jù)的規(guī)模指的是數(shù)據(jù)量的大小,我們就液態(tài)牛奶從原奶到上市期間的檢驗數(shù)據(jù)為例,來估測其數(shù)據(jù)量大?。涸踢\輸?shù)焦S后需進(jìn)行質(zhì)量檢驗,檢驗指標(biāo)共計117項,包括感官、滋味、氣味、理化特性、微生物含量等多個方面;牛奶在儲存之后需進(jìn)行原奶檢驗,檢驗指標(biāo)包括上述各類,附加對容器、倉儲條件的檢驗;在牛奶經(jīng)過巴氏消毒后,需進(jìn)行儲存檢驗,儲存檢驗參照巴氏殺菌乳國家標(biāo)準(zhǔn),共有10項必檢,包括理化標(biāo)準(zhǔn)、微生物指標(biāo)、感官指標(biāo)、儲藏方式等;儲存檢驗后,進(jìn)行保溫試驗,必檢的項目包括64項,外加風(fēng)險監(jiān)測項目44項。整個牛奶生產(chǎn)過程需要進(jìn)過4個部分累計達(dá)到899項指標(biāo)的檢驗。這些檢驗過程受到農(nóng)業(yè)主管部門和質(zhì)量監(jiān)督部門的監(jiān)管。在流通過程中,需進(jìn)過工商部門、出入境檢驗檢疫部門的抽檢,合格后方能在超市上架或通過海關(guān)流通,期間需進(jìn)過工商部門、出入境檢驗檢疫部門、媒體大眾等相關(guān)單位的監(jiān)管和監(jiān)督。工商部門檢驗的項目共計12項,出入境檢驗檢疫部門需檢驗的項目共計60項。筆者粗略估計了一下,單盒液態(tài)純牛奶從生產(chǎn)源頭到消費者手中,共需經(jīng)歷檢驗最少六次抽查,總體971項指標(biāo),還不包括對奶牛和飼料的檢驗指標(biāo)。我國2012年全年共計生產(chǎn)牛奶3744萬噸,按照每1ml牛奶的重量是1.0288,每盒牛奶250ml,每個檢測指標(biāo)的儲存占4個字節(jié)。計算,一年僅因牛奶檢測而產(chǎn)生的數(shù)量量達(dá)到5.653×1014≈514T。這些數(shù)據(jù)生產(chǎn)出來后大多數(shù)被丟棄。
數(shù)據(jù)的關(guān)聯(lián)度指的是數(shù)據(jù)之間的相關(guān)程度,如上文所述,食品安全數(shù)據(jù)指標(biāo)各不相似、表現(xiàn)了食品安全指標(biāo)的方方面面,然而這些數(shù)據(jù)之間關(guān)聯(lián)性很差,如:食品添加劑的數(shù)據(jù)檢測值和食品中農(nóng)藥殘留值在理論上無相關(guān)性,然而基于各類食品的不同特征,挖掘食品安全指標(biāo)中的潛在規(guī)則能為食品安全預(yù)警提供數(shù)據(jù)參考和經(jīng)驗借鑒。上文已介紹了不少文獻(xiàn)使用數(shù)據(jù)挖掘領(lǐng)域中關(guān)聯(lián)規(guī)則挖掘數(shù)據(jù)價值的方法,在此不再贅述。
大數(shù)據(jù)時代食品安全數(shù)據(jù)的獲取方式
按照傳統(tǒng)方式可在食品生產(chǎn)、流通過程中收集到大量的、可靠的食品安全數(shù)據(jù),按照上文的介紹,這些數(shù)據(jù)量已經(jīng)非常龐大。以下介紹幾種食品安全預(yù)警數(shù)據(jù)的其他獲取方式:
媒體大眾渠道的食品安全數(shù)據(jù)獲取方式。食品消費的終點是消費者手中,對于食品的安全質(zhì)量,消費者最具有發(fā)言權(quán),傳統(tǒng)的食品安全數(shù)據(jù)僅僅來源于食品生產(chǎn)部門和監(jiān)督管理部門,來源單一、片面。利用大數(shù)據(jù)對于數(shù)據(jù)的收集、處理方法,可以方便快捷地收集到網(wǎng)絡(luò)媒體、微博、論壇中關(guān)于食品安全的消費者反饋。并通過對自然語言的分析判別正面負(fù)面信息,對食品安全預(yù)警具有非常重要的指導(dǎo)性意義。另外,通過對食品安全言論相關(guān)信息分析,可精確判別食品質(zhì)量問題發(fā)生的區(qū)域、時間、受害群體,對食品安全問題做出實時、精確、精準(zhǔn)的預(yù)報。
基于食品安全追溯系統(tǒng)的數(shù)據(jù)獲取方式。食品安全追溯系統(tǒng)的建立旨在實現(xiàn)視頻“從田間到餐桌”的一條龍式質(zhì)量監(jiān)管,以期在食品的生產(chǎn)和銷售過程進(jìn)行無疏漏跟蹤,確保食品的質(zhì)量?,F(xiàn)在國內(nèi)外許多企業(yè)、政府部門正在大力加強(qiáng)和促進(jìn)該系統(tǒng)的建立建設(shè),可預(yù)見食品安全追溯系統(tǒng)在未來將被迅速建立、并具有長足的發(fā)展。在食品安全追溯的過程中,眾多數(shù)據(jù)被實時監(jiān)控并記錄了下來,其中不僅僅包括食品加工、原材料的數(shù)據(jù),還可包括如:食品容器、食品儲存環(huán)境、食品來源地等許許多多的附加信息,這些信息對于消費者購買流食品提供了非常全面的信息。對于食品安全預(yù)警而言,這些實時連貫性的數(shù)據(jù)可以更方便地進(jìn)行時間維度上的趨勢擬合和預(yù)警分析。
大數(shù)據(jù)時代食品安全數(shù)據(jù)的處理方式。
使用大數(shù)據(jù)思路和分析方法對食品安全進(jìn)行檢測和預(yù)警,首先要充分使用數(shù)據(jù)科學(xué)的處理方法,由于不同的數(shù)據(jù)和來源渠道,非結(jié)構(gòu)化數(shù)據(jù)代替結(jié)構(gòu)化數(shù)據(jù)成為分析和處理的主要對象,常見的數(shù)據(jù)有以下幾類:表格、點集、時間序列、圖像、視頻、網(wǎng)頁以及其他的網(wǎng)絡(luò)數(shù)據(jù)。每一種非結(jié)構(gòu)化數(shù)據(jù)都應(yīng)當(dāng)對應(yīng)相應(yīng)的處理方式,如,點集可使用概率分布方法進(jìn)行擬合;時間序列數(shù)據(jù)可采用隨機(jī)過程(如隱式馬氏過程)方法進(jìn)行處理;圖像可通過隨機(jī)場(如吉布斯隨機(jī)場)進(jìn)行分析;網(wǎng)絡(luò)數(shù)據(jù)可通過圖模型、貝葉斯模型來處理。
進(jìn)行初步處理后的數(shù)據(jù),可通過以下方式判別其價值,如:相關(guān)性(若所得數(shù)據(jù)與其他數(shù)據(jù)具有弱相關(guān)性,則可考慮丟棄)、排序(對數(shù)據(jù)的重要性進(jìn)行排序,如食品中重金屬含量的重要性要遠(yuǎn)高于蛋白質(zhì)含量,可考慮增加其權(quán)重或在數(shù)據(jù)建模中優(yōu)先考慮)、分類和聚類(使用分類和聚類方法能快速尋找到數(shù)據(jù)之間的相互關(guān)聯(lián),找到其相似性。對相似特點的數(shù)據(jù)進(jìn)行統(tǒng)一處理,減少后續(xù)處理的數(shù)據(jù)量)。
在上述數(shù)據(jù)處理的基礎(chǔ)上,可考慮對數(shù)據(jù)價值的進(jìn)一步提取和分析,如:建立度量空間,討論數(shù)據(jù)之間范式距離的遠(yuǎn)近以及關(guān)聯(lián)性的大??;建立網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),討論數(shù)據(jù)之間的空間關(guān)聯(lián)性及分布情況;建立函數(shù)結(jié)構(gòu),討論數(shù)據(jù)之間的統(tǒng)計學(xué)規(guī)律(如相關(guān)性、回歸系數(shù)、主成分分析)等。
另外,處理食品安全大數(shù)據(jù),需要引進(jìn)大數(shù)據(jù)管理系統(tǒng)和技術(shù)流程。廣泛使用的大數(shù)據(jù)管理系統(tǒng)有Hadoop/ Hive系統(tǒng),常用的底層支持框架有Core/ Avro等,常用的數(shù)據(jù)存儲系統(tǒng)有Hbase/ MapReduce等分布式、非關(guān)系型數(shù)據(jù)庫,常用的文件系統(tǒng)有HDFS等。值得一提的是,當(dāng)今大數(shù)據(jù)技術(shù)有大量的開源軟件,開源算法,大大豐富和方便了人們在其之上進(jìn)行編程和應(yīng)用,為使用大數(shù)據(jù)思維和方法處理食品安全數(shù)據(jù)提供了技術(shù)支持。