宋良輝 婁新愛 楊 中 鄭健琨 阿力甫 高 杰
(1.新疆維吾爾自治區(qū)分析測試研究院,新疆 烏魯木齊 830011;2.貴州大學,貴州 貴陽 550025;3.貴州省分析測試研究院,貴州 貴陽 550002)
食品安全問題與人民生活息息相關(guān),必然成了各國政府密切關(guān)注的問題。政府對于開展食品安全監(jiān)測和預警系統(tǒng)的研究[1],提高食品安全監(jiān)管效率進行積極的探索。隨著實驗室信息化管理建設(shè)不斷深入推進,國內(nèi)不少第三方檢測實驗室都積累了大量的食品安全檢測數(shù)據(jù)資源。而其中一些被人忽略的、有價值的重要信息就隱藏在這些海量的檢測數(shù)據(jù)中。如何利用這些檢測數(shù)據(jù),進而實現(xiàn)數(shù)據(jù)可視化,使食品行業(yè)的相關(guān)企業(yè)或者監(jiān)管機構(gòu)能夠根據(jù)這些數(shù)據(jù)做出預測性的判斷,都是值得探討的。數(shù)據(jù)倉庫技術(shù),為進一步挖掘數(shù)據(jù)資源、有效利用數(shù)據(jù)資源、協(xié)助管理決策奠定了基礎(chǔ)。
本文主要以新疆、貴州兩地流通環(huán)節(jié)食品檢測實驗室的檢測數(shù)據(jù)為分析對象,研究分析數(shù)據(jù)倉庫模型的設(shè)計,為構(gòu)建流通環(huán)節(jié)食品安全檢測數(shù)據(jù)的挖掘與分析平臺做準備。
數(shù)據(jù)倉庫是一個面向主題的、集成的、時變的、非易失的數(shù)據(jù)集合,用以支持管理決策[2]。因此,數(shù)據(jù)倉庫具有以下幾個主要特征:①面向主題的。主題是對數(shù)據(jù)進行綜合歸類的抽象概念,是數(shù)據(jù)倉庫用戶進行決策分析所關(guān)心的方面。②集成的。數(shù)據(jù)倉庫中的數(shù)據(jù)從企業(yè)的數(shù)據(jù)庫中提取出來,然后經(jīng)過清洗處理。因此數(shù)據(jù)倉庫一般是將多個異種數(shù)據(jù)源集成在一起的。在數(shù)據(jù)整合過程中使用數(shù)據(jù)清洗技術(shù)和數(shù)據(jù)集成技術(shù),確保命名規(guī)范、編碼結(jié)構(gòu)的一致性等。③時變的。數(shù)據(jù)倉庫中數(shù)據(jù)有時間維度。數(shù)據(jù)倉庫記錄了系統(tǒng)數(shù)據(jù)各個時間的狀態(tài)。④非易失的。正因為數(shù)據(jù)倉庫只有數(shù)據(jù)的初始化裝載與數(shù)據(jù)訪問功能,所以它是非易失的。
在構(gòu)建數(shù)據(jù)倉庫時,食品安全檢測的數(shù)據(jù)會存在著數(shù)據(jù)源眾多、數(shù)據(jù)類型繁雜以及數(shù)據(jù)格式不規(guī)范等特征。因此,可能有以下兩種情況存在于這些數(shù)據(jù)中[3]:第一種是無意義的數(shù)據(jù),使得其不具有太高的數(shù)據(jù)分析價值;第二種是對那些有意義的數(shù)據(jù),存在數(shù)據(jù)零碎化、片面化與數(shù)據(jù)冗余等情況。數(shù)據(jù)分析的結(jié)果,也必將會因為這些缺失的、不規(guī)范的數(shù)據(jù)產(chǎn)生負面的影響。新疆、貴州兩地檢測實驗室的食品安全檢測結(jié)果是構(gòu)建本數(shù)據(jù)倉庫的數(shù)據(jù)源。由于食品檢測項目多,國家標準、地方標準、企業(yè)標準都有差異,使得檢測結(jié)果數(shù)值,檢測項目,判定依據(jù)存在較多不統(tǒng)一的地方。由于食品檢測本身的復雜性和原始數(shù)據(jù)錄入的不規(guī)范,導致數(shù)據(jù)源較為雜亂,因此建立一整套針對性的規(guī)則對于檢測數(shù)據(jù)清洗是很有必要的[4]。對于新疆、貴州兩地的食品安全檢測數(shù)據(jù)來說,需要考慮的影響因素有:食品類型、檢測項目、檢測標準、分析方法、檢測結(jié)果等。要實現(xiàn)這些不同層次的挖掘分析都需要對屬性進行概念分層??茖W的概念分層的意義:一是可以為構(gòu)建數(shù)據(jù)倉庫提供支持;二是要考慮與限量標準專家知識庫有效關(guān)聯(lián);三是要反過來對生產(chǎn)數(shù)據(jù)庫(實驗室管理系統(tǒng))的基礎(chǔ)分類設(shè)置提供參考建議。
該實驗室有一套比較成熟的實驗室管理系統(tǒng)(簡稱LIMS)。該實驗室的現(xiàn)有業(yè)務流程如下圖:
圖1
LIMS是按照業(yè)務流程的順序記錄數(shù)據(jù)。LIMS讓實驗室檢測工作流程化、規(guī)范化,提高了實驗室的工作效率。但是LIMS中保持的有價值的數(shù)據(jù)沒有被充分挖掘、有效利用。
在接收樣品的過程中,收集的數(shù)據(jù)有樣品(指從流通市場中抽取的信息)的基本信息、被檢測人(指抽取樣品的場所企業(yè)/個人)信息以及生產(chǎn)企業(yè)(樣品生產(chǎn)企業(yè))信息。實驗任務制定中確定的商品類別中的檢測項目(包括判斷標準、檢測依據(jù)以及技術(shù)指標)信息。實驗室檢測人員檢測出的檢測結(jié)果。
根據(jù)對實驗室流程的調(diào)研以及各部分人員的調(diào)查分析得到以下需求:①能夠?qū)崿F(xiàn)對某一類商品的檢測數(shù)據(jù)進行分析。②對某一生產(chǎn)企業(yè)的檢測數(shù)據(jù)進行分析。③對某一被檢測人的檢測數(shù)據(jù)進行分析。④對某一檢測項目的檢測數(shù)據(jù)進行分析。⑤對整體樣品檢測數(shù)據(jù)的分析。因此數(shù)據(jù)倉庫設(shè)計要從生產(chǎn)企業(yè)、檢測項目、樣品類別、被檢測人和時間五個維度分析。時間維度有年和月兩個層次,包括樣品抽樣的時間和樣品生產(chǎn)的時間[5]。
概念模型的設(shè)計包含了兩個方面:一是界定系統(tǒng)的邊界;二是確定主題域及其內(nèi)容。概念模型設(shè)計主要確定每個決策主題與屬性以及主題之間的關(guān)系。結(jié)合食品的特性,依據(jù)實驗室具體工作的需求可以容易地得到如下主題:樣品、商品類別、生產(chǎn)企業(yè)、被監(jiān)測人、檢測項目[6-7]。
通過對食品安全檢測數(shù)據(jù)主題進行分析,邏輯模型設(shè)計主要包括:①模型轉(zhuǎn)換;②粒度層次劃分;③關(guān)系模式定義和定義記錄系統(tǒng)。作為數(shù)據(jù)倉庫設(shè)計中的重要環(huán)節(jié),邏輯模型直接展示用戶的具體需求,同時對數(shù)據(jù)倉庫的物理實施有著重要的指導作用。根據(jù)維度設(shè)計,該數(shù)據(jù)倉庫的邏輯模型可以設(shè)計為以下形式:
食品檢測事實表包含了五個維度表,食品檢測數(shù)據(jù)在事實表中維護,維度數(shù)據(jù)在維度表中維護。每個維度表通過一個關(guān)鍵字直接與事實表關(guān)聯(lián)。
通過在數(shù)據(jù)倉庫中實現(xiàn)食品安全檢測數(shù)據(jù)的邏輯模型,成功建立了數(shù)據(jù)倉庫的物理模型,而數(shù)據(jù)倉庫中的維表與事實表對應的索引可以依據(jù)前面邏輯模型設(shè)計出的各種數(shù)據(jù)表的存儲結(jié)構(gòu)。下圖給出了模型中部分邏輯模型與物理模型的對應關(guān)系。
圖2
以數(shù)據(jù)倉庫基礎(chǔ)的食品安全檢測數(shù)據(jù)分析預警,將作為風險信息中最為基礎(chǔ)和關(guān)鍵的一環(huán),也會從側(cè)面加強與完善整個食品安全監(jiān)管系統(tǒng),從而保障人民的食品安全,因此數(shù)據(jù)倉庫在食品安全方面的應用也得到了更多的研究與重視。本文所設(shè)計的流通環(huán)節(jié)食品安全檢測數(shù)據(jù)倉庫模型就是對這一技術(shù)的具體研究?;谑称钒踩珯z測數(shù)據(jù)分析的數(shù)據(jù)倉庫模型的建立,主要服務于食品監(jiān)管部門以及實驗室決策人員。進一步為食品安全預警分析提供了支持。
[1]王海明,鄭培,潘海虹.食品安全風險監(jiān)測預警系統(tǒng)研究[J].中國衛(wèi)生監(jiān)督雜志,2010(6):12-15.
[2]李雄飛,杜欽生,吳昊.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘[M].北京:機械工業(yè)出版社,2013.
[3]郭曙超,龔方,昃向君,等.食品安全檢測數(shù)據(jù)倉庫技術(shù)的應用于研究[J].食品研究與開發(fā),2013,34(17):125-128.
[4]何玉潔,張俊超.數(shù)據(jù)倉庫與OLAP實踐教程[M].北京:清華大學出版社,2008.
[5]宋國杰,楊冬青,林子雨,等.實時主動數(shù)據(jù)倉庫的概念、問題及應用[J].計算機研究與發(fā)展,2007.
[6]Guo Shuchao,Gong Fang,Ze Xiangjun.Applied Study on Food Test Data Warehouse Technology[J].Food Research and Development,2013,34(17):125-128.
[7]Song Guojie,Yang Dongqing,Lin Ziyu et al.Concept,Issues and Applications of Real Time Active Data Warehouse[J].Journal of Computer Research and Development,2007,44(z3).