黃 燕,樊廣
(河北經(jīng)貿(mào)大學(xué) 管理科學(xué)與工程學(xué)院,河北 石家莊 050051)
2017年2月,商務(wù)部、國家工業(yè)和信息化部、公安部、農(nóng)業(yè)部、國家質(zhì)檢總局、國家安全與監(jiān)督管理總局、國家食品藥品監(jiān)督管理總局聯(lián)合發(fā)布《關(guān)于推進重要產(chǎn)品信息化追溯體系建設(shè)的指導(dǎo)意見》,明確指出了關(guān)于產(chǎn)品溯源體系建設(shè)的重要性[1]。隨著物聯(lián)網(wǎng)和大數(shù)據(jù)技術(shù)的發(fā)展,利用大數(shù)據(jù)技術(shù)實現(xiàn)農(nóng)產(chǎn)品溯源體系的構(gòu)建已經(jīng)成為一種趨勢。大數(shù)據(jù)具有5V特征[2],具體表現(xiàn)為數(shù)據(jù)產(chǎn)生速度快、體量龐大、數(shù)據(jù)類型多樣、價值密度低,但商業(yè)價值高以及數(shù)據(jù)準確可信賴。農(nóng)產(chǎn)品的整個生命周期,包括種植生產(chǎn)、加工、銷售、物流、售后等都可以進行數(shù)據(jù)化,然后利用統(tǒng)計、在線分析、機器學(xué)習(xí)等數(shù)據(jù)挖掘技術(shù)從海量復(fù)雜異構(gòu)的數(shù)據(jù)中找到有用的模式和趨勢,提取隱藏于其中的價值信息,再利用訓(xùn)練數(shù)據(jù)優(yōu)化模型并通過測試數(shù)據(jù)進行檢驗,最終實現(xiàn)產(chǎn)品溯源的可視化。
農(nóng)產(chǎn)品溯源平臺是一個由多方主體共同參與的數(shù)據(jù)共治共享平臺,它包含了供應(yīng)商、生產(chǎn)者、消費者、監(jiān)督者等多元利益相關(guān)者,記錄了產(chǎn)品全生命周期的數(shù)據(jù)信息,并通過追溯相應(yīng)數(shù)據(jù)信息的演變過程來實現(xiàn)產(chǎn)品的溯源,包括數(shù)據(jù)的產(chǎn)生、傳播、變更和消亡等。
農(nóng)產(chǎn)品溯源平臺的結(jié)構(gòu)如圖1所示。通過向上追蹤可以查詢到產(chǎn)品的源頭信息,包括種植信息、供應(yīng)商的資質(zhì)、制造商的生產(chǎn)加工信息以及質(zhì)量檢測信息等;通過向下追蹤可以查詢到產(chǎn)品的流通信息,包括產(chǎn)品的銷售信息、物流信息以及售后情況等。同時,可將數(shù)據(jù)庫中產(chǎn)品的產(chǎn)地信息、生產(chǎn)信息、運輸信息等集成到二維碼中,消費者可通過相應(yīng)的識別設(shè)備進行查詢。當有異常的數(shù)據(jù)出現(xiàn)時,消費者可通過產(chǎn)品溯源平臺向監(jiān)管部門進行投訴,監(jiān)管部門也同樣可以通過二維碼技術(shù)對產(chǎn)品數(shù)據(jù)進行核實,并進行相應(yīng)的處理和反饋。
圖1 農(nóng)產(chǎn)品溯源平臺結(jié)構(gòu)
農(nóng)產(chǎn)品具有一定的行業(yè)特殊性,全產(chǎn)業(yè)鏈的時間周期長、涉及主體眾多,全生命周期的各個關(guān)鍵控制節(jié)點會產(chǎn)生大量數(shù)據(jù),包括種植信息、環(huán)境信息、檢驗信息、控制信息、資質(zhì)管理信息、人員信息等,且信息化水平參差不齊,各部門間也多是以管理好自己為主,容易形成“信息孤島”。其次,農(nóng)產(chǎn)品的質(zhì)量具有一定的時效性,容易在流通環(huán)節(jié)中腐壞,產(chǎn)品在運輸過程中也容易被外力損壞,通過溯源系統(tǒng)可以了解每一個環(huán)節(jié)的產(chǎn)品質(zhì)量狀況,準確定位責任人,扭轉(zhuǎn)之前產(chǎn)品損壞通常由供應(yīng)商承擔的局面,也能由此提高各個部門對產(chǎn)品質(zhì)量的重視程度。
產(chǎn)品數(shù)據(jù)既包括在種植、生產(chǎn)、銷售、物流等市場活動中形成的原始數(shù)據(jù),也包括經(jīng)過數(shù)據(jù)預(yù)處理后形成的派生數(shù)據(jù)。應(yīng)用于產(chǎn)品溯源系統(tǒng)中的數(shù)據(jù)一般指派生數(shù)據(jù),它是按照一定的規(guī)則和標準進行加工、計算、聚合而形成的,既具有產(chǎn)品市場交易記錄的信息,也能通過數(shù)據(jù)溯源重構(gòu)產(chǎn)品的交易路徑,實現(xiàn)產(chǎn)品數(shù)據(jù)的可追溯性。
為完善產(chǎn)品溯源系統(tǒng),實現(xiàn)數(shù)據(jù)的可追蹤性,在溯源的過程中需要對數(shù)據(jù)進行標記,實現(xiàn)數(shù)據(jù)的追蹤定位;對原始數(shù)據(jù)應(yīng)進行一定的保留,保證溯源的可靠性;而經(jīng)過一系列加工操作所得的派生數(shù)據(jù)也應(yīng)保證其使用的可靠性和安全性。同時,溯源系統(tǒng)應(yīng)具備數(shù)據(jù)兼容性和實時反饋的高效性,依靠數(shù)據(jù)之間存在的關(guān)聯(lián),并發(fā)進行數(shù)據(jù)的追蹤和處理,可以減少資源的消耗并提高溯源效率。
數(shù)據(jù)溯源是一個發(fā)展的過程,期間也形成了多種溯源模型,可以劃分為數(shù)據(jù)溯源描述模型、數(shù)據(jù)溯源應(yīng)用模型以及數(shù)據(jù)溯源安全模型。數(shù)據(jù)溯源描述模型的發(fā)展過程為早期的W2模型[3]、W3模型[4]、W7模型[5],到W7+R3模型[6],這個階段是對溯源范圍的擴展和溯源內(nèi)容的完善,詳細記錄了不同事件的重要信息;再到OPM開放溯源模型[7],支持在不同系統(tǒng)間實現(xiàn)可用數(shù)據(jù)的追溯,允許描述信息同時存在于不同的層級;最終擴展到如今較為成熟的ProVOC數(shù)據(jù)溯源描述模型[8],采用PROV溯源標準,解決了數(shù)據(jù)在不同溯源模型之間交易困難的問題,實現(xiàn)了模型的靈活擴展。
隨著溯源技術(shù)的更新,數(shù)據(jù)溯源模型不斷擴展并細化于某些特定的領(lǐng)域,由此誕生了多種數(shù)據(jù)溯源應(yīng)用模型。Provenir數(shù)據(jù)溯源模型是一個完整的數(shù)據(jù)溯源管理系統(tǒng),提供修改元數(shù)據(jù)的功能,同時使用物化視圖的方法解決了數(shù)據(jù)存儲困難的問題;空間數(shù)據(jù)溯源模型[9]利用SPFPM空間信息處理流程溯源中間件實現(xiàn)溯源模型的形式化表達;還有適合復(fù)雜高密度處理的分層二部圖溯源數(shù)據(jù)模型HBPM[10],在不同模型層次結(jié)構(gòu)上收集信息的關(guān)鍵值溯源模型KVPM[11],關(guān)聯(lián)數(shù)據(jù)環(huán)境的PV模型[12],描述關(guān)聯(lián)數(shù)據(jù)集的VOID模型[13],以及發(fā)布時添加元數(shù)據(jù)信息的VOIDP模型[14]。
數(shù)據(jù)溯源安全模型是為了從內(nèi)部和外部共同保障溯源數(shù)據(jù)的可靠性和安全性,防止數(shù)據(jù)被轉(zhuǎn)換或是人為篡改。Hansan等[15]創(chuàng)建的數(shù)據(jù)溯源威脅模型,基于密鑰審計和廣播加密來保障信息的完整性;Zhang等[16]對其進行改進后,實現(xiàn)了檢查添加記錄和以有限非循環(huán)圖的方式管理數(shù)據(jù)處理的序列;李秀美等人[17]做了進一步補充,引入時間戳參數(shù)和邏輯密鑰分層,保護不同時間鏈生成的數(shù)據(jù)的安全性;Nguyen等人[18]提出的訪問控制模型PBAC,授權(quán)用戶操作權(quán)限,從而起到安全保護的作用;王鳳英等人[19]構(gòu)建的安全數(shù)據(jù)溯源模型PROV-S在已有模型的基礎(chǔ)上增加了安全起源節(jié)點S和其他節(jié)點間的關(guān)聯(lián)關(guān)系;鄧仲華等人[20]組合數(shù)據(jù)溯源描述模型,提煉出包括語義層、邏輯層和安全層的數(shù)據(jù)溯源安全模型,通過在安全層設(shè)置訪問控制實現(xiàn)數(shù)據(jù)防篡改、操作記錄存儲和數(shù)據(jù)信息可恢復(fù)等功能。
農(nóng)產(chǎn)品溯源模型最重要的功能就是實現(xiàn)數(shù)據(jù)溯源,結(jié)合文獻[20]中的思維模式,將現(xiàn)有數(shù)據(jù)溯源模型的優(yōu)勢進行整合,最終構(gòu)建一個全面可靠的溯源管理系統(tǒng)。
通過W7+R3模型記錄數(shù)據(jù)的溯源信息,了解農(nóng)產(chǎn)品的哪類數(shù)據(jù)(which)在什么時間(when)和地點(where)因何原因(why)被誰(who)或者什么因素(what)所影響,數(shù)據(jù)是怎么動作的(how),以及產(chǎn)生了怎樣的效果;通過參考(reference)產(chǎn)品的資料信息,分析溯源的成因及結(jié)果(result)并做出評論(remark),最后記錄重要的備注信息。由于數(shù)據(jù)描述過程會帶來很大的存儲開銷且不易于擴展,ProVOC溯源模型規(guī)范了數(shù)據(jù)采集、分析、處理的標準,很好地彌補了W7+R3模型的缺陷,提高了模型的可擴展性。
數(shù)據(jù)安全管理模型在產(chǎn)品溯源系統(tǒng)中具有必要性。產(chǎn)品在生產(chǎn)、運輸?shù)然顒又袝o數(shù)據(jù)帶來被篡改、被轉(zhuǎn)換的失真風(fēng)險。為保障數(shù)據(jù)的安全性,可引入時間戳和邏輯密鑰等手段提高數(shù)據(jù)安全性,合理組合各種溯源模型,簡化一些規(guī)約和復(fù)雜的管理制度,對溯源標準進行擴展,滿足系統(tǒng)的安全需求。
面向不同利益相關(guān)主體時,以細粒度的形式對溯源信息進行標注時會產(chǎn)生大容量的存儲,使溯源效率極大降低。可通過關(guān)聯(lián)關(guān)系轉(zhuǎn)換溯源過程、計算溯源數(shù)據(jù)、查詢結(jié)果等;也可通過源表字段與目標字段的映射關(guān)系構(gòu)建基于結(jié)構(gòu)化查詢語言的數(shù)據(jù)轉(zhuǎn)換圖形。
面向產(chǎn)品不同階段的活動過程時,設(shè)計分層溯源框架以支持不同數(shù)據(jù)類型的存儲,構(gòu)建雙向指針溯源方法對產(chǎn)品數(shù)據(jù)進行高效追蹤,利用分布式賬本技術(shù)在產(chǎn)品交易環(huán)節(jié)進行算法加密和數(shù)據(jù)共享。
面向大數(shù)據(jù)平臺時,Hadoop生態(tài)系統(tǒng)可用于滿足現(xiàn)代業(yè)務(wù)分析應(yīng)用所面臨的大容量、復(fù)雜性、多格式和高效率的處理需求,同時大幅降低了硬件和存儲等開銷;結(jié)合云服務(wù)環(huán)境,可實現(xiàn)數(shù)據(jù)存儲虛擬化,并快速安全地對溯源信息進行訪問。
針對農(nóng)產(chǎn)品的種植過程和生產(chǎn)過程等建立分布式數(shù)據(jù)庫,這些數(shù)據(jù)庫與產(chǎn)品溯源系統(tǒng)連接,定期傳送數(shù)據(jù),由此實現(xiàn)數(shù)據(jù)的采集。數(shù)據(jù)采集后會按照不同的分類存儲在相應(yīng)的數(shù)據(jù)庫中,將數(shù)據(jù)進行清洗分析、數(shù)據(jù)變換和冗余降噪處理后,再應(yīng)用于數(shù)據(jù)挖掘模型中,這樣可以最小化無用的數(shù)據(jù)輸入和輸出,使模型的效果達到最佳。
溯源系統(tǒng)框架需要滿足的設(shè)計目標包括:支持不同溯源數(shù)據(jù)模型,通過構(gòu)建分層體系結(jié)構(gòu),將采集、存儲和分析模型分離,以此實現(xiàn)對異構(gòu)數(shù)據(jù)的存儲和復(fù)雜溯源過程的分析;支持用戶標注,允許用戶在溯源過程中增加、更改或刪除相關(guān)的記錄,執(zhí)行此操作時應(yīng)注意對變更數(shù)據(jù)進行保留,保障數(shù)據(jù)的可靠性;在高效性方面,通過構(gòu)建雙向指針溯源方法降低溯源的空間復(fù)雜程度,同時優(yōu)化路徑,快速在復(fù)雜的數(shù)據(jù)中找到關(guān)聯(lián)數(shù)據(jù),提高運算效率;在可擴展性方面,擴展收集和存儲機制以適應(yīng)急劇增長的數(shù)據(jù)量。產(chǎn)品溯源系統(tǒng)模型框架如圖2所示。
圖2 產(chǎn)品溯源系統(tǒng)模型框架
數(shù)據(jù)采集層包含產(chǎn)品、資源、環(huán)境等混合信息,這會產(chǎn)生多樣的數(shù)據(jù)類型,同樣用戶通過不同的系統(tǒng)進行各種操作也會產(chǎn)生大量的數(shù)據(jù),這些結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)構(gòu)成了溯源系統(tǒng)的數(shù)據(jù)。面對復(fù)雜異構(gòu)的數(shù)據(jù)類型,可采用Flume方式在Hadoop生態(tài)環(huán)境中高效地收集聚合數(shù)據(jù),同時應(yīng)用數(shù)據(jù)加工處理程序,以統(tǒng)一的格式將數(shù)據(jù)接入產(chǎn)品溯源系統(tǒng)的大數(shù)據(jù)處理平臺中。
數(shù)據(jù)存儲層將采集到的數(shù)據(jù)準確、完整、及時地進行存儲,并為不同類型的數(shù)據(jù)提供合適的存儲模式。整合異構(gòu)數(shù)據(jù)可以使數(shù)據(jù)高效流動,并實現(xiàn)數(shù)據(jù)的共享;采用繼承方法交換系統(tǒng)數(shù)據(jù),以減少數(shù)據(jù)存儲數(shù)量,提升產(chǎn)品數(shù)據(jù)溯源的效率。MongoDB數(shù)據(jù)庫具有高性能、易使用、可擴展的特點,適用于復(fù)雜的聚合分析,可通過MapReduce框架在Hadoop生態(tài)環(huán)境中處理多樣化的數(shù)據(jù)存儲。
數(shù)據(jù)處理層會對不完整且含有噪聲的原始數(shù)據(jù)進行清洗和數(shù)據(jù)變換,從而最小化從數(shù)據(jù)挖掘模型中出來的垃圾信息。數(shù)據(jù)處理的過程包括中文分詞、數(shù)據(jù)清洗、數(shù)據(jù)變換、停用詞過濾、識別缺失數(shù)據(jù)、處理錯誤分類、識別離群值等,數(shù)據(jù)被處理后才能用于分類、聚類和數(shù)據(jù)分析操作,并最終應(yīng)用到模型當中。
數(shù)據(jù)挖掘是從大型的數(shù)據(jù)集中發(fā)現(xiàn)有用的模式和趨勢的過程[21]。通過研究產(chǎn)品溯源業(yè)務(wù),理解溯源數(shù)據(jù),發(fā)現(xiàn)隱藏在大量數(shù)據(jù)集中的價值信息,從而建立模型,評估不同模型的效果,選出表現(xiàn)最佳的模型進行部署。數(shù)據(jù)挖掘主要有六大任務(wù),分別是描述、評估、預(yù)測、分類、聚類和關(guān)聯(lián),其核心就是對數(shù)據(jù)進行操作,并通過回歸方法、決策樹、神經(jīng)網(wǎng)絡(luò)、貝葉斯網(wǎng)絡(luò)、模型評估技術(shù)等分類方法以及K-means、BIRCH、Kohonen等聚類方法將具有相關(guān)屬性的數(shù)據(jù)聚集到一起,使模型能夠正確地處理數(shù)據(jù),并達到最佳性能。
由于農(nóng)產(chǎn)品的全產(chǎn)業(yè)鏈時間周期長,包含的相關(guān)主體眾多,每個環(huán)節(jié)都會產(chǎn)生大量的數(shù)據(jù),這些數(shù)據(jù)是生產(chǎn)要素,具有極高的商業(yè)價值,但同時也帶來了一系列的數(shù)據(jù)安全問題,包括溯源系統(tǒng)數(shù)據(jù)共享存在的安全性問題、信息公開帶來的隱私泄漏風(fēng)險以及數(shù)據(jù)保密監(jiān)管面臨的挑戰(zhàn)等。
區(qū)塊鏈技術(shù)通過鏈式區(qū)塊結(jié)構(gòu)進行加密來儲存數(shù)據(jù),且存儲于其中的信息不可偽造、不可隨意更改,并且含有過程記錄。將區(qū)塊鏈技術(shù)融入農(nóng)產(chǎn)品溯源模型中,能夠提高數(shù)據(jù)的安全性。其中,聯(lián)盟鏈[22]介于公有鏈和私有鏈之間,通過共識機制進行數(shù)據(jù)信息管理,通過密鑰授權(quán)可以開放部分區(qū)塊鏈服務(wù)供大眾查看信息,但只允許聯(lián)盟內(nèi)部對節(jié)點進行修改,以此保障溯源系統(tǒng)的共享性和安全性。
區(qū)塊鏈技術(shù)賦能保障溯源系統(tǒng)的數(shù)據(jù)安全如圖3所示。將區(qū)塊鏈技術(shù)與RFID技術(shù)有機結(jié)合,構(gòu)建產(chǎn)品從生產(chǎn)、加工、銷售、流通、售后等全生命周期的溯源鏈條;分布式賬本技術(shù)通過鏈上存儲賦能保障數(shù)據(jù)流通的透明化,結(jié)合哈希算法的單向二進制運算保證溯源數(shù)據(jù)無法被篡改,通過智能合約協(xié)議,在各方達成共識的前提下實現(xiàn)溯源數(shù)據(jù)的共建共享;最后通過非對稱加密技術(shù)進行數(shù)據(jù)加密,該技術(shù)分為公鑰和私鑰,私鑰掌握在被傳輸者手中,只有同時掌握兩者才能解讀數(shù)據(jù),以此防止信息泄露。
圖3 區(qū)塊鏈賦能數(shù)據(jù)安全
結(jié)合大數(shù)據(jù)技術(shù),通過整合現(xiàn)有數(shù)據(jù)溯源模型的優(yōu)勢構(gòu)建了農(nóng)產(chǎn)品溯源系統(tǒng),能夠通過追溯數(shù)據(jù)幫助消費者了解產(chǎn)品的來源,幫助企業(yè)提高管理質(zhì)量,幫助政府增強監(jiān)管力度,幫助各個利益相關(guān)主體快速了解不同階段的產(chǎn)品信息。同時,海量數(shù)據(jù)的共享與使用容易給數(shù)據(jù)安全帶來威脅,結(jié)合聯(lián)盟鏈賦能和區(qū)塊鏈技術(shù)賦能可以有效防止數(shù)據(jù)泄露和篡改,保障了溯源系統(tǒng)的數(shù)據(jù)可靠性。
目前,關(guān)于產(chǎn)品溯源的研究已有一定的進展,但仍需積極推進數(shù)據(jù)使用的規(guī)范化,提高數(shù)據(jù)服務(wù)的優(yōu)質(zhì)化,保障數(shù)據(jù)溯源平臺的健康化。優(yōu)化創(chuàng)新現(xiàn)有的數(shù)據(jù)處理技術(shù),包括利用封裝結(jié)構(gòu)屏蔽多模資源差異;通過語義關(guān)聯(lián)模型提高數(shù)據(jù)處理效率;加強訪問接口規(guī)范,快速處理分布異構(gòu)數(shù)據(jù);充分利用區(qū)塊鏈技術(shù)構(gòu)建數(shù)據(jù)安全體系,保障數(shù)據(jù)安全等。由于大數(shù)據(jù)技術(shù)的新穎性以及數(shù)據(jù)和網(wǎng)絡(luò)的復(fù)雜多變性,想要將系統(tǒng)完全應(yīng)用于社會生產(chǎn)還存在一定的問題,在數(shù)據(jù)的連續(xù)性、準確性、可塑性、安全性方面面臨嚴峻挑戰(zhàn),模型間的數(shù)據(jù)交互及融合也亟待加強。