□ 劉楊 貴州科學(xué)院
□ 馬東 天津科技大學(xué)
□ 肖革新(通訊作者) 國家食品安全風(fēng)險(xiǎn)評(píng)估中心
當(dāng)前,信息化發(fā)展到了共享階段,食品安全信息化需要從原本簡單的數(shù)據(jù)上報(bào)轉(zhuǎn)變到數(shù)據(jù)跨界融合層面。由于食品安全數(shù)據(jù)存在分類與編碼標(biāo)準(zhǔn)不統(tǒng)一、系統(tǒng)間數(shù)據(jù)難以融合、分析關(guān)聯(lián)差等問題,因此,需要通過數(shù)據(jù)編碼標(biāo)準(zhǔn),實(shí)現(xiàn)跨部門、跨層級(jí)、跨地域的食品安全相關(guān)數(shù)據(jù)融合與應(yīng)用。
大數(shù)據(jù)需要跨界融合才能更好地發(fā)揮作用,因此數(shù)據(jù)融合迫在眉睫。只有將現(xiàn)實(shí)世界、概念世界統(tǒng)一于數(shù)據(jù)編碼,才能實(shí)現(xiàn)數(shù)據(jù)融合。
隨著大數(shù)據(jù)時(shí)代的到來,以往條塊式單純業(yè)務(wù)上報(bào)的食品安全信息系統(tǒng)所產(chǎn)生的信息孤島問題凸顯,其已很難滿足當(dāng)前現(xiàn)代化食品安全治理的需求。大數(shù)據(jù)需要跨界融合才能更好地發(fā)揮作用,因此數(shù)據(jù)融合迫在眉睫。應(yīng)如何實(shí)現(xiàn)數(shù)據(jù)融合呢?答案就是建立數(shù)據(jù)編碼標(biāo)準(zhǔn),如果沒有數(shù)據(jù)編碼,現(xiàn)實(shí)世界、概念世界與數(shù)據(jù)世界之間的關(guān)系映射將會(huì)發(fā)生紊亂,導(dǎo)致數(shù)據(jù)統(tǒng)計(jì)結(jié)果沖突。例如在食品領(lǐng)域,馬鈴薯是大家十分熟悉的食物,但馬鈴薯在概念世界中有多種別名,如地蛋、洋山芋、山藥蛋、地瓜、土豆等,不利于跨庫查詢、跨庫統(tǒng)計(jì)、關(guān)聯(lián)分析及歸類匯總。只有將現(xiàn)實(shí)世界、概念世界統(tǒng)一于數(shù)據(jù)編碼,才能實(shí)現(xiàn)數(shù)據(jù)融合。簡言之,編碼就是標(biāo)準(zhǔn)中的標(biāo)準(zhǔn),就是道、就是根。那么,如何進(jìn)行食品安全數(shù)據(jù)編碼呢?在研究國內(nèi)外編碼現(xiàn)狀和編碼系統(tǒng)框架設(shè)計(jì)的基礎(chǔ)上,本文對(duì)食品安全數(shù)據(jù)融合的實(shí)現(xiàn)路徑進(jìn)行了具體闡述。
首先,梳理現(xiàn)有食品安全信息系統(tǒng)中的數(shù)據(jù),了解現(xiàn)有信息系統(tǒng)中的數(shù)據(jù)分類邏輯、編碼規(guī)則和存在的主要問題。然后,對(duì)食品及其食品屬性字段進(jìn)行梳理,包括食品分類編碼、時(shí)間屬性、空間屬性、經(jīng)營者、產(chǎn)品信息、抽樣信息、檢測(cè)結(jié)果等字段,進(jìn)而編寫具體食品分類編碼數(shù)據(jù)字典,規(guī)范各系統(tǒng)間相同字段編碼。
考慮到當(dāng)前多樣的食品分類標(biāo)準(zhǔn)難以在短期內(nèi)統(tǒng)一,本研究以結(jié)構(gòu)簡潔為原則構(gòu)建食品分類樹,力求在尊重各方食品分類的基礎(chǔ)上找出一種滿足食品安全治理、營養(yǎng)健康管理,適用性廣、擴(kuò)展性強(qiáng)的食品分類方法—建立標(biāo)準(zhǔn)食品分類樹。
新的編碼系統(tǒng)并不是將舊的編碼系統(tǒng)推倒重來,而是借鑒已有的食品編碼系統(tǒng),從而讓新系統(tǒng)更為科學(xué)合理,應(yīng)用更為廣泛??紤]到當(dāng)前多樣的食品分類標(biāo)準(zhǔn)難以在短期內(nèi)統(tǒng)一,本研究以結(jié)構(gòu)簡潔為原則構(gòu)建食品分類樹,力求在尊重各方食品分類的基礎(chǔ)上找出一種滿足食品安全治理、營養(yǎng)健康管理,適用性廣、擴(kuò)展性強(qiáng)的食品分類方法—建立標(biāo)準(zhǔn)食品分類樹。
數(shù)據(jù)顆粒度是通常用于表示組成數(shù)據(jù)集的最小單元,其涉及食品分類編碼的層級(jí)和細(xì)致程度—食品分類層級(jí)越多,粒度越小,可能造成后期數(shù)據(jù)處理量呈幾何級(jí)增長。因此,結(jié)合實(shí)際分析需求和運(yùn)算便捷性,確定適中的食品數(shù)據(jù)顆粒度尤為重要。數(shù)據(jù)顆粒度確定后,建立編碼規(guī)則,在編、解碼方面,歐盟食品分類與編碼系統(tǒng)FoodEx2具有較強(qiáng)的適用性,可作為重要參考。該系統(tǒng)采用一致的編碼體系,對(duì)所有食品相關(guān)的類別、術(shù)語和屬性以流水號(hào)編碼,由FoodEx2自動(dòng)生成并分配;共5個(gè)字符,首字符為A,中間3個(gè)字符為拉丁字母和阿拉伯?dāng)?shù)字,最后一位字符為拉丁字母,碼制為A[A-Z0-9]{3}[A-Z]。理論上,該系統(tǒng)可以對(duì)1213056個(gè)條目進(jìn)行編碼。解碼方面,可在分類樹上直接查找食品分類碼對(duì)應(yīng)的食品分類名稱,如編碼“A026V”代表“魚肉”。
在系統(tǒng)數(shù)據(jù)映射方面,主要解決的是原有的歷史數(shù)據(jù)與標(biāo)準(zhǔn)的食品分類樹進(jìn)行映射橋接融合的問題。目前,通過關(guān)鍵字查找等完全自動(dòng)化方式還很難完成系統(tǒng)間數(shù)據(jù)映射工作。為保證數(shù)據(jù)映射的可靠性,當(dāng)其他領(lǐng)域進(jìn)行此工作時(shí),首選人工核對(duì)映射方式以解決歷史問題。為解決人工映射工作量大、耗時(shí)長的難題,本研究采用“柔性編碼對(duì)接體系”方式進(jìn)行映射,它跳出了原有系統(tǒng)中用食品名稱的關(guān)鍵詞與標(biāo)準(zhǔn)名稱進(jìn)行關(guān)鍵詞字符串匹配的簡單框架,升級(jí)成“隱式馬爾科夫模型”的柔性編碼對(duì)接體系,進(jìn)行關(guān)鍵詞概率匹配,給出每個(gè)關(guān)鍵詞字符串匹配的概率排列,實(shí)現(xiàn)了自動(dòng)化智能映射,最后輔以人工核實(shí),提高映射匹配的準(zhǔn)確度和工作效率。
數(shù)據(jù)編碼通過將跨部門、跨層級(jí)、跨地域的數(shù)據(jù)進(jìn)行匯總?cè)诤希凑諘r(shí)間、空間、屬性三個(gè)維度進(jìn)行分析,不同屬性與時(shí)空維度借助編碼進(jìn)行組合,研究環(huán)境、食品、污染物、健康之間的內(nèi)在聯(lián)系及隨時(shí)間變化趨勢(shì)和空間分布規(guī)律,從而實(shí)現(xiàn)了編碼驅(qū)動(dòng)的數(shù)據(jù)綜合分析。