陳誼,孫夢,武彩霞,孫小然
北京工商大學計算機學院食品安全大數(shù)據(jù)技術(shù)北京市重點實驗室,北京 100048
食品安全關(guān)系到人們的身體健康和生命安全,受到世界各國的廣泛關(guān)注。食品安全問題主要包括病原微生物污染、農(nóng)藥獸藥殘留、重金屬和真菌毒素污染、食品添加劑的非法和摻雜使用[1],是一個非常復雜的問題,涉及從種植養(yǎng)殖、生產(chǎn)加工、運輸貯藏到餐桌消費的全過程,為此各國政府部門均加強了對從農(nóng)田到餐桌全鏈條的食品安全監(jiān)測和管控,進而產(chǎn)生了大量的食品安全數(shù)據(jù)。這些數(shù)據(jù)涉及食品的種類、營養(yǎng)、污染物、時間、地域等多維度信息,具有多維、時空、層次、關(guān)聯(lián)等特征[2],對這些數(shù)據(jù)的關(guān)聯(lián)分析是食品安全領(lǐng)域的重要分析任務,包括屬性關(guān)聯(lián)、實體關(guān)聯(lián)、對比分析和時空分析。隨著檢測技術(shù)的進步和物聯(lián)網(wǎng)技術(shù)的應用,食品安全數(shù)據(jù)的數(shù)量、類型不斷增多,產(chǎn)生的速度不斷加快,開始呈現(xiàn)出大數(shù)據(jù)的特征[3]。這一方面為基于數(shù)據(jù)驅(qū)動的食品安全風險分析提供了豐富的數(shù)據(jù)資源,另一方面也對數(shù)據(jù)分析技術(shù)提出了極大的挑戰(zhàn)。
食品安全數(shù)據(jù)來源廣泛,主要包括如下幾個方面。
● 各類食品安全檢測儀器的檢測結(jié)果。這些檢測儀器可以是:用于檢測農(nóng)藥殘留的色譜-質(zhì)譜儀、用于監(jiān)測食品質(zhì)量的射頻識別(radio frequency identification,RFID)傳感器和視頻設備、用于快速檢測食品安全的移動設備(如手機)等。
● 與食品安全相關(guān)的標準文件。如食品中各種危害物(農(nóng)藥殘留、重金屬、致病菌等)的限量標準、檢測方法標準、食品中營養(yǎng)成分的限量標準等。
● 互聯(lián)網(wǎng)數(shù)據(jù)。如新聞、微博、Twitter等社交媒體上的相關(guān)評論等。
● 在線數(shù)據(jù)庫[4]。各國食品安全管理部門或組織都會在線發(fā)布數(shù)據(jù),這些數(shù)據(jù)包含與食品安全相關(guān)的信息,如各國的相關(guān)標準、食品中污染物的抽檢結(jié)果和分析報告、出入境檢驗檢疫不合格食品信息、食品消費數(shù)據(jù)、風險預警信息等。
表1 給出了幾個國內(nèi)外典型的食品安全在線數(shù)據(jù)庫。GEMS/Food(global environment monitoring systemfood contamination monitoring and assessment programme)是全球環(huán)境監(jiān)測/食品污染監(jiān)測和評估系統(tǒng),它由世界衛(wèi)生組織(World Health Organization,WHO)發(fā)布,包含世界多個區(qū)域的食品污染物監(jiān)測數(shù)據(jù);RASFF(rapid alert system for food and feed)是歐盟食品和飼料類快速預警系統(tǒng),是現(xiàn)在由歐洲聯(lián)盟委員會(European Commission,EC)公開的經(jīng)常使用的食品安全在線數(shù)據(jù)庫,該系統(tǒng)可以按照通知、通知類別、危害物、日期、產(chǎn)品、關(guān)鍵字等進行數(shù)據(jù)篩選。EFSA-Data是由歐洲食品安全局(European Food Safety Authority,EFSA)發(fā)布的歐盟地區(qū)食品安全數(shù)據(jù)收集和分析結(jié)果,其中包含食品消費、食品成分、生物危害、化學危害、化學污染物、化學殘留物、植物學綱要和標準化數(shù)據(jù)等相關(guān)數(shù)據(jù),風險評估者可使用該數(shù)據(jù)集計算出消費者對某種危害的暴露程度,監(jiān)控食品安全計劃的有效性。美國食品藥品監(jiān)督管理局(Food and Drug Administration,F(xiàn)DA)發(fā)布了一些數(shù)據(jù)庫,如農(nóng)藥殘留監(jiān)測計劃報告和數(shù)據(jù)、FDA監(jiān)管產(chǎn)品召回的信息等。中國食品安全國家標準和食品安全抽檢結(jié)果由國家市場監(jiān)督管理總局(State Administration for Market Regulation,SAMR)發(fā)布,包含我國各污染物的限量標準、抽檢結(jié)果全部合格和不合格產(chǎn)品信息的食品名稱和抽檢次數(shù)等。對于進出口食品安全數(shù)據(jù),如各國有關(guān)標準和未準入境食品信息由中國海關(guān)總署(General Administration of Customs of the People’s Republic of China,GACC)發(fā)布。此外,中國還有一些食品安全數(shù)據(jù)集是由商業(yè)組織提供的,例如食品伙伴網(wǎng)的專業(yè)食品安全數(shù)據(jù)庫,包含安全性指標、食品抽檢信息、化學污染、微生物、進出口信息、認證信息、營養(yǎng)數(shù)據(jù)等。上述數(shù)據(jù)庫大多為用戶提供了根據(jù)地區(qū)、食品分類、危害物、時間等關(guān)鍵字段進行查詢的功能。
表1 食品安全在線數(shù)據(jù)庫
從數(shù)據(jù)來源可以看出,食品安全數(shù)據(jù)開始呈現(xiàn)規(guī)模巨大(volume)、類型多樣(variety)、產(chǎn)生速度快(velocity)、價值密度低(value)、不確定性(veracity)和動態(tài)可變性(variability)的大數(shù)據(jù)6V特征[5]。從數(shù)據(jù)分析的角度來看,它還具有多源、多維、層次、時空和動態(tài)可變等特征。多源是指食品安全數(shù)據(jù)來源廣泛,如前文所述,其可以是檢測結(jié)果、監(jiān)測數(shù)據(jù)、標準文件、監(jiān)管數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)、在線數(shù)據(jù)庫等;多維是指食品安全數(shù)據(jù)具有多維屬性,例如,食品中含有多種營養(yǎng)成分,包含蛋白質(zhì)、維生素、糖、脂肪等1 500多種;層次是指數(shù)據(jù)具有樹形的層次結(jié)構(gòu),例如,農(nóng)產(chǎn)品分類、農(nóng)藥分類、地域的行政區(qū)劃等都具有層次特征;時空是指食品安全數(shù)據(jù)有一定的時間屬性和空間屬性,通常人們需要統(tǒng)計食品安全數(shù)據(jù)按空間分布和時間分布的態(tài)勢;動態(tài)可變性是指食品安全數(shù)據(jù)是動態(tài)變化的,如監(jiān)測數(shù)據(jù)、視頻數(shù)據(jù)、社交媒體數(shù)據(jù)等。
食品安全監(jiān)管的目的是通過相關(guān)技術(shù)手段進行風險識別、風險分析和風險評估[6],進而實現(xiàn)風險預警和追根溯源,以最大限度地預防、減輕和消除食品安全的危害和風險,確保人民群眾的食品安全。隨著食品安全大數(shù)據(jù)的出現(xiàn),數(shù)據(jù)驅(qū)動的風險分析已成為食品安全決策和監(jiān)管的重要手段之一[7]。通過對食品安全數(shù)據(jù)的關(guān)聯(lián)分析,領(lǐng)域人員可以掌握數(shù)據(jù)的分布特征、發(fā)現(xiàn)異常、探索數(shù)據(jù)間的隱含關(guān)聯(lián),以支持食品安全風險識別、風險評估、風險預警和追根溯源。
根據(jù)食品安全監(jiān)管的需求和數(shù)據(jù)的特征,筆者將食品安全數(shù)據(jù)的關(guān)聯(lián)分析分為以下4類:屬性關(guān)聯(lián)、實體關(guān)聯(lián)、對比分析和時空分析。
● 屬性關(guān)聯(lián)是指屬性間的相關(guān)性分析。食品安全數(shù)據(jù)通常是多維或高維數(shù)據(jù),涉及食品的各種屬性(名稱、分類、營養(yǎng)成分等)、危害物的各種屬性(名稱、類別、毒性、成分等)、多國限量標準等,通過屬性間的相關(guān)性分析,可以進行營養(yǎng)食品推薦或食品安全風險預測。
● 實體關(guān)聯(lián)是指實體間的關(guān)聯(lián)分析。食品安全數(shù)據(jù)集中通常含有多個食品或危害物等實體,這些實體間的關(guān)聯(lián)可以是樹狀的層次關(guān)系,也可以是網(wǎng)狀的關(guān)聯(lián)關(guān)系,通過對這些關(guān)聯(lián)關(guān)系的探索,可以幫助發(fā)現(xiàn)異常實體,如高風險的食品或危害物。
● 對比分析。作為關(guān)聯(lián)分析的一種特殊形式,對比分析在食品安全領(lǐng)域中普遍存在,如檢測結(jié)果與限量標準的對比和食品污染程度的排名可以幫助發(fā)現(xiàn)不合格食品和高風險食品;多國限量標準的對比可以幫助監(jiān)管部門發(fā)現(xiàn)兩個國家同類標準的差異,如農(nóng)藥殘留最大限量標準,進而改進和完善我國現(xiàn)有標準。
● 時空分析。食品安全數(shù)據(jù)的許多屬性與時間或空間關(guān)聯(lián),這類關(guān)聯(lián)分析可以使用戶了解數(shù)據(jù)的空間分布和時變特征,從而對食品安全事件進行預測和溯源。
針對上述關(guān)聯(lián)分析需求,當前基于統(tǒng)計學和數(shù)據(jù)挖掘的方法在一定程度上有效地解決了食品安全數(shù)據(jù)的關(guān)聯(lián)分析問題,然而這些方法大多是全自動的過程,沒有考慮人的經(jīng)驗和知識。隨著食品安全大數(shù)據(jù)時代的到來,食品安全監(jiān)測預警工作的思維方式和工作范式將發(fā)生根本性的變化,食品安全數(shù)據(jù)監(jiān)測預警的分析對象和研究內(nèi)容更加細化,數(shù)據(jù)獲取技術(shù)更加便捷,這就要求信息處理技術(shù)更加智能,信息表達和服務技術(shù)更加精準[8]。
近年來出現(xiàn)的可視分析技術(shù)將人的經(jīng)驗智慧與機器的運算能力緊密地結(jié)合在一起[9],通過提供有效的交互可視界面,幫助人們快速準確地觀察、過濾、探索、理解和分析大規(guī)模數(shù)據(jù),從而有效地發(fā)現(xiàn)隱藏在數(shù)據(jù)內(nèi)部的特征和規(guī)律。數(shù)據(jù)可視分析流程如下[10]:首先對原始數(shù)據(jù)進行收集和處理,并將其存儲到數(shù)據(jù)文件或數(shù)據(jù)庫中,然后通過數(shù)據(jù)分析得到分析結(jié)果,再將分析結(jié)果通過可視化映射形成可視化視圖,并呈現(xiàn)給用戶。用戶則根據(jù)其分析任務,在上述流程中的各個階段與數(shù)據(jù)進行交互(如選擇和過濾要分析的數(shù)據(jù)、調(diào)節(jié)分析模型中的參數(shù)、切換不同的視圖),以實現(xiàn)對數(shù)據(jù)的全方位分析。這種人在回路的可視分析方法為食品安全數(shù)據(jù)的關(guān)聯(lián)分析提供了新思路,本節(jié)將根據(jù)食品安全領(lǐng)域中的4類關(guān)聯(lián)分析需求,分類介紹關(guān)聯(lián)可視分析方法,見表2。
食品安全數(shù)據(jù)屬性間的關(guān)聯(lián)分析可以分為兩屬性相關(guān)性分析和多屬性相關(guān)性分析,通常使用散點圖、散點圖矩陣、平行坐標、鄰接矩陣等可視化方法將數(shù)據(jù)呈現(xiàn)給用戶,通過交互手段,用戶可以探索數(shù)據(jù)屬性間的相關(guān)性和關(guān)聯(lián)規(guī)律。
3.1.1 兩屬性之間的相關(guān)性可視分析
散點圖由直角坐標系上的數(shù)據(jù)點構(gòu)成,表明數(shù)據(jù)的二維屬性之間的關(guān)系。Bian R Z等人[11]提出了一種基于隱函數(shù)微分的多維投影方法,將紅酒數(shù)據(jù)集通過主成分分析(principal component analysis,PCA)方法投影到二維平面上,圖1(a)所示。對于多屬性的相關(guān)性分析,可以使用散點圖的擴展方法——散點圖矩陣[30-31]。散點圖矩陣將n維數(shù)據(jù)每兩維組成一個散點圖(數(shù)據(jù)維度即數(shù)據(jù)屬性),再將它們按照一定的順序組成n×n的矩陣,即散點圖矩陣,以揭示n維數(shù)據(jù)中所有維度兩兩之間的關(guān)系。為了同時探索多維數(shù)據(jù)屬性間的相關(guān)性,Yuan X R等人[12]提出了一種維度投影矩陣技術(shù),用于交互式地探索和分析高維數(shù)據(jù)子空間,并將其應用于分析食品營養(yǎng)數(shù)據(jù)集,每個維度代表某種營養(yǎng)素。首先將美國農(nóng)業(yè)部食品數(shù)據(jù)集經(jīng)過多維標度分析(multidimensional scaling,MDS)投影在二維平面中,按照此圖的聚類特征將維度分為4個互相獨立的組,形成維度投影矩陣,以幫助用戶探索和分析食品中多個營養(yǎng)素之間的關(guān)聯(lián)關(guān)系,將食品按營養(yǎng)素的關(guān)聯(lián)關(guān)系進行合理的聚類,如并形成散點圖,如圖1(b)所示。
表2 食品安全數(shù)據(jù)關(guān)聯(lián)可視分析方法匯總
3.1.2 多屬性之間的相關(guān)性可視分析
平行坐標(parallel coordinates)用一組平行的軸表示數(shù)據(jù)的屬性,用穿過每一條軸線的一條折線表示一個數(shù)據(jù)對象,平行的軸是等距離分布的垂直線或水平線[32-33]。采用平行坐標展現(xiàn)多屬性數(shù)據(jù)可以幫助用戶分析屬性之間的相關(guān)性,以及數(shù)據(jù)的分布特征。Chen Y等人[13]運用平行坐標展現(xiàn)農(nóng)產(chǎn)品中農(nóng)藥殘留限量值在中國、美國、日本、歐盟、國際食品法典委員會(Codex Alimentarius Commission,CAC)等國家/地區(qū)或組織的MRL標準中的取值,幫助用戶對比多個MRL標準的差異。平行坐標可以很好地展現(xiàn)屬性間的相關(guān)關(guān)系,但當數(shù)據(jù)對象增多時,會產(chǎn)生視覺雜亂。為了解決這一問題,陳誼等人[14]對平行坐標進行了改進,提出了一種基于類區(qū)間的多維數(shù)據(jù)可視化方法,并應用到農(nóng)藥殘留檢測標準數(shù)據(jù)的分析中,如圖1(c)所示。該方法首先根據(jù)數(shù)據(jù)的實際理化意義,使用K-means算法對原始數(shù)據(jù)進行聚類,然后引入類區(qū)間模型,將各類數(shù)據(jù)相互分離,從而形成了清晰的可視化聚類效果。此外,陳誼等人[15]使用鄰接矩陣,通過矩陣熱圖的顏色深淺映射維度之間的相關(guān)性大小,顏色越深表示相關(guān)性越大,并以檢出農(nóng)藥為例,展示了不同農(nóng)藥屬性維度之間的相關(guān)性,以挖掘某地區(qū)農(nóng)產(chǎn)品中農(nóng)藥的施用模式。
圖1 屬性關(guān)聯(lián)可視分析方法圖例
針對分析任務,實體間的關(guān)聯(lián)關(guān)系可以分為實體間網(wǎng)絡關(guān)系和實體間層次關(guān)系。
3.2.1 實體間網(wǎng)絡關(guān)系可視分析
網(wǎng)絡關(guān)系通常用圖來描述,在圖 結(jié)構(gòu)中,常將節(jié)點稱為頂點,邊為頂點的有序偶對,若兩頂點間存在一條邊,則表示這兩個頂點具有相鄰關(guān)系[34]?;趫D的可視分析方法[35-36]結(jié)合了圖分析理論和可視化技術(shù)的優(yōu)勢,將圖的鄰接表或者鄰接矩陣轉(zhuǎn)換為由點和線組成的圖形,可以令研究人員直觀地看到數(shù)據(jù)間的關(guān)聯(lián)關(guān)系,其已成為分析復雜數(shù)據(jù)集中各種關(guān)系的有效手段。常用方法有節(jié)點-鏈接(node-link)法、鄰接矩陣和弦圖等。
節(jié)點-鏈接法是一種典型的關(guān)聯(lián)數(shù)據(jù)可視化方法,它用不同形狀的節(jié)點表示實體,節(jié)點之間的連線表示實體間的關(guān)系。它既可以表達實體間的樹狀層次關(guān)系(節(jié)點鏈接樹),也可以表達實體間網(wǎng)狀的關(guān)聯(lián)關(guān)系(圖)。楊璐等人[16]運用節(jié)點-鏈接法將某種食品與其檢出的不合格項目進行連線,檢出的不合格項目頻率越高,連線越粗,與檢測頻率呈等比例關(guān)系展示,從而幫助監(jiān)管者定位重點監(jiān)管對象和監(jiān)管項目。弦圖可以展示關(guān)聯(lián)數(shù)據(jù)間的權(quán)重關(guān)系,數(shù)據(jù)點之間的關(guān)系被繪制為連接兩個數(shù)據(jù)點的?。ㄟ叄?,權(quán)重越大則邊越粗。Narcisa P A等人[17]設計了一種弦圖來顯示各危害物與乳制品之間的關(guān)聯(lián)關(guān)系,如圖2所示。
鄰接矩陣是實體間網(wǎng)絡關(guān)系可視化表示之一,它是一個N×N的網(wǎng)格(其中N為節(jié)點數(shù)),其中位置(i,j)表示節(jié)點i和j之間的鏈路權(quán)值。Chen Y等人[18]提出了一種用于關(guān)聯(lián)數(shù)據(jù)可視分析的有序矩陣表達方法,該方法用矩陣熱圖表示農(nóng)產(chǎn)品和農(nóng)藥的檢出關(guān)系,其中矩陣的行表示農(nóng)藥,列表示農(nóng)產(chǎn)品,單元格的顏色表示農(nóng)藥殘留含量,顏色越深,農(nóng)藥殘余含量越高。如圖3所示,該方法將數(shù)據(jù)抽象為二部圖,將實體抽象為點,P、R、W分別表示兩個獨立的點集合和一個連接兩點的邊集合,將實體的RW值作為索引,表示實體在關(guān)系結(jié)構(gòu)中的重要性。RW-Rank算法受到Page-Rank算法的啟發(fā),根據(jù)行向量和列向量的RW值進行排序,創(chuàng)建一個有序的關(guān)系矩陣,幫助用戶定位關(guān)鍵實體并分析它們之間的關(guān)系。如圖4所示,A1視圖中矩陣A的行和列的排列順序是按字母順序排序的,便于用戶按名稱查找;A2視圖中矩陣B的行和列則按RW-Rank算法排序,便于用戶快速定位高殘留量、污染嚴重的農(nóng)產(chǎn)品和農(nóng)藥。
3.2.2 實體間層次關(guān)系可視分析
實體間層次關(guān)系主要表現(xiàn)為包含關(guān)系和從屬關(guān)系。例如食品通常有大類、亞類、次亞類、細類之分。對于層次數(shù)據(jù),常用的可視化方法有節(jié)點-鏈接樹、樹圖、放射環(huán)等。
節(jié)點-鏈接樹的層次關(guān)系表現(xiàn)為數(shù)據(jù)中父輩節(jié)點將子孫輩節(jié)點包圍起來,展示了數(shù)據(jù)間的父子關(guān)系。齊紅革等人[19]運用節(jié)點-鏈接樹構(gòu)建食品分類圖譜展示食品分類,使食品、食品添加劑分類由大類到細類清晰地呈現(xiàn)。樹圖[37]由一系列嵌套的矩形組成,也可以說是在矩形空間中進行遞歸的分割,這些矩形的大小與相應的節(jié)點屬性值成比例。大矩形表示數(shù)據(jù)樹的一個分支,然后將大矩形細分為較小的矩形,表示該分支內(nèi)每個節(jié)點的大小,還可以搭配顏色來表示不同的數(shù)據(jù)屬性。Jia Y J等人[20]提出了一種基于樹圖的可視化方法,用樹圖表示農(nóng)藥含量的分布以及農(nóng)產(chǎn)品所在區(qū)域的層次化結(jié)構(gòu),該方法可有效地幫助專家按照區(qū)域和農(nóng)產(chǎn)品類別的層次結(jié)構(gòu)對數(shù)據(jù)集進行關(guān)聯(lián)分析。事實證明,利用樹圖的可視化方案能夠有效地展示食品安全領(lǐng)域中對于層次結(jié)構(gòu)和關(guān)聯(lián)關(guān)系展示的要求。Chen Y等人[21]用樹圖保留節(jié)點間的層次關(guān)系,進而展示農(nóng)藥殘留檢測結(jié)果數(shù)據(jù)。圖5(a)是天津市10個區(qū)2014年1月的果蔬農(nóng)藥殘留分布情況,10個大矩形表示天津市的10個區(qū),每個大矩形中包含的兩個小矩形分別表示水果和蔬菜,顏色表示農(nóng)藥殘留超標率,即檢測出的農(nóng)藥殘留量超過MRL標準值的次數(shù)與檢測農(nóng)藥殘留總次數(shù)的比值,超標率越大越接近紅色。通過這種方法,食品安全領(lǐng)域的專家可以更有效地發(fā)現(xiàn)各區(qū)果蔬農(nóng)藥殘留的分布情況,并根據(jù)不同的需求做出有效的決策。
放射環(huán)也是一種展現(xiàn)層次關(guān)系的關(guān)聯(lián)可視化方法,但是其內(nèi)部空間利用率較低,因此,采用放射環(huán)和節(jié)點-鏈接法結(jié)合的方式能夠同時顯示兩類層次數(shù)據(jù)。Chen Y等人[22]充分利用放射環(huán)圓心附近的空間,將放射環(huán)與節(jié)點-鏈接樹結(jié)合,提出了一種能夠展示兩類層次數(shù)據(jù)關(guān)聯(lián)關(guān)系的可視化算法SONHC(sunburst with ordered nodes based on hierarchical clustering),并將其應用于可視分析農(nóng)產(chǎn)品中農(nóng)藥殘留的檢出情況。該算法用外面的放射環(huán)展示農(nóng)藥的層次結(jié)構(gòu),圓環(huán)內(nèi)部則通過節(jié)點-鏈接樹展示農(nóng)產(chǎn)品的層次結(jié)構(gòu);通過連線將農(nóng)產(chǎn)品與檢出農(nóng)藥建立關(guān)聯(lián),幫助相關(guān)分析人員檢查農(nóng)藥和農(nóng)產(chǎn)品的層次結(jié)構(gòu),并探索農(nóng)藥和農(nóng)產(chǎn)品之間的關(guān)聯(lián)以及不同農(nóng)藥之間的關(guān)聯(lián),如圖5(b)所示。此外,杜曉敏等人[23]基于圓環(huán)和放射環(huán)等提出了一種基于變換的可視分析關(guān)聯(lián)圖TransGraph,從而展示農(nóng)產(chǎn)品與農(nóng)藥的檢出關(guān)聯(lián)關(guān)系和農(nóng)藥殘留檢出的層次關(guān)聯(lián)關(guān)系。TransGraph能突出重點監(jiān)管對象,全面展示關(guān)聯(lián)信息,幫助相關(guān)監(jiān)管部門和分析人員制定決策。
對比分析是關(guān)聯(lián)分析的一種常用方法,可分為數(shù)值對比和結(jié)構(gòu)對比。
3.3.1 數(shù)值對比可視分析
在食品安全領(lǐng)域中,常用數(shù)值對比來對比分析檢測值與檢測標準值,或?qū)⑹称肥芪廴厩闆r進行排序?qū)Ρ?。圖6是一個多屬性排名可視分析系統(tǒng)[24],該系統(tǒng)采用平行坐標結(jié)合柱狀圖的可視化方法,展示多個農(nóng)產(chǎn)品按多個農(nóng)藥殘留評價指標(包括單因子和多因子綜合指標)的排名情況,通過多視圖聯(lián)動、數(shù)據(jù)篩選、屬性選擇等交互手段,幫助用戶全面理解各種農(nóng)產(chǎn)品受農(nóng)藥殘留污染的排名情況,可對比分析各農(nóng)產(chǎn)品及其農(nóng)藥殘留情況。
圖6 多屬性排名可視分析系統(tǒng),展現(xiàn)多個農(nóng)產(chǎn)品在多個農(nóng)藥殘留評價指標的排名情況[24]
3.3.2 結(jié)構(gòu)對比可視分析
在食品安全領(lǐng)域,通常需要比較兩個按某種結(jié)構(gòu)組織的數(shù)據(jù)集,如兩個農(nóng)產(chǎn)品分類體系的比較、兩個MRL標準的比較都可以抽象為樹比較的問題。結(jié)構(gòu)對比可視分析最常用的方法是并置法,即將比較的數(shù)據(jù)直接可視化并放在同一個視圖中,通過觀察對比的方式完成[38]。Chen Y等人[13]將不同MRL限量標準抽象化為兩個樹,通過兩個嵌套圓并置(如圖7所示)來可視化兩棵MRL樹,幫助用戶對比分析中國內(nèi)地和中國香港的MRL標準。嵌套圓結(jié)合了節(jié)點-鏈接圖和樹圖的優(yōu)點,用圓的面積表示節(jié)點的屬性值,用圓的嵌套關(guān)系表示節(jié)點間的層次關(guān)系,所有的子節(jié)點圓都被包含在父節(jié)點圓中。由于MRL標準是按農(nóng)產(chǎn)品分類(樹結(jié)構(gòu))來制定限量值的,該方法的兩個MRL標準比較問題就轉(zhuǎn)化為了兩棵樹的比較問題。用嵌套的結(jié)構(gòu)描述農(nóng)產(chǎn)品分類的層次結(jié)構(gòu),用圓的面積表示某農(nóng)產(chǎn)品涉及MRL標準值的記錄數(shù),圖7中的左嵌套圓為中國內(nèi)地MRL標準,右嵌套圓為中國香港MRL標準。
圖7 嵌套圓,對比分析中國內(nèi)地和中國香港的MRL 標準[13]
食品數(shù)據(jù)具有時間和空間特征,對食品數(shù)據(jù)進行時空分析可以探索食品屬性與時間、空間的關(guān)聯(lián),讓分析人員掌握食品安全問題在地域上的分布特征和隨時間推移的發(fā)展趨勢。
3.4.1 食品屬性與時間的關(guān)聯(lián)可視分析
食品安全數(shù)據(jù)在時間序列上存在的潛在規(guī)律(如多年農(nóng)產(chǎn)品中的農(nóng)藥殘留檢出頻次具有周期性特征,一年中不同季節(jié)的農(nóng)藥殘留也呈現(xiàn)出不同的特征等)能有效地幫助人們對食品安全事件發(fā)生的時間進行預測,對安全問題進行提前預防。基于時間的可視化方法能夠較為直觀地反映數(shù)據(jù)隨時間變化的規(guī)律和趨勢,同時能夠展現(xiàn)數(shù)據(jù)細節(jié)。時序型數(shù)據(jù)通常以時間線的方式來表示,圖8(a)以時間為軸,展示了7種農(nóng)產(chǎn)品的農(nóng)藥超標率隨時間的變 化情況,其中氣泡顏色表示農(nóng)產(chǎn)品類型,大小表示農(nóng)藥殘留超標率的值[25]。Chen Y等人[21]提出了一種被稱為有序樹圖序列(ordered small multiple treemaps,OSMT)的時變層次數(shù)據(jù)可視化方法,它采用樹圖并置的方式實現(xiàn)對層次數(shù)據(jù)隨時間變化的可視化表示。圖8(b)為使用該方法對2014年天津市10個地區(qū)的果蔬農(nóng)藥殘留超標率的變化情況進行可視化的結(jié)果,可以看出,圖8(b)中的12個樹圖并置表示12個月的變化情況,每個展示層次數(shù)據(jù)的樹圖表示某個月天津市10個地區(qū)果蔬農(nóng)藥殘留的超標率。主題河流(ThemeRiver)[39]也是一種常用的時間關(guān)聯(lián)可視分析方法,其在時間維度上以河流的形式展現(xiàn)數(shù)據(jù)的變化情況。甄遠剛等人[26]提出了一種改進的非連續(xù)數(shù)據(jù)ThemeRiver可視化方法,利用高斯模型曲線擬合,通過主題布局排序、顏色選擇和標簽分布布局一種具有預測功能且能夠展示層次特征的新型主題河流模型,并將其應用于農(nóng)藥殘留數(shù)據(jù)監(jiān)測,為農(nóng)藥殘留預測預警提供依據(jù)。
圖8 時間關(guān)聯(lián)可視分析方法示例
3.4.2 食品屬性與空間的關(guān)聯(lián)可視分析
食品安全數(shù)據(jù)的地域分布能夠幫助研究人員定位食品的采樣地、原產(chǎn)地等,是食品安全預警和溯源的重要依據(jù)。通常地理信息系統(tǒng)(geographic information system,GIS)被用來顯示數(shù)據(jù)在地域上的分布情況。統(tǒng)計地圖(choropleth map)可視化假設數(shù)據(jù)的屬性在一個區(qū)域內(nèi)部平均分布,通過顏色表示數(shù)據(jù)的內(nèi)在模式。龐國芳等人[27]研發(fā)了農(nóng)藥殘留可視化在線制圖系統(tǒng),編制了中國市售水果蔬菜農(nóng)藥殘留水平地圖集,展示了不同MRL標準下的農(nóng)藥超標情況。
統(tǒng)計地圖最大的問題在于數(shù)據(jù)分布和地理區(qū)域大小的不對稱性。變形地圖(cartogram)可以解決此問題,變形地圖可以依據(jù)某個專題屬性對地理要素進行扭曲、變形[40],用相對屬性值的大小取代真實面積,利用夸張的效果更直觀地反映數(shù)量特征。Vanasse A等人[28]比較了加拿大各地區(qū)的肥胖率,并評估了各地區(qū)的成人肥胖率、休閑時間體育活動水平和水果蔬菜攝入量之間的生態(tài)關(guān)系。由于各地區(qū)人口密度不同,為了更科學地反映結(jié)果,將地圖按人口密度進行了調(diào)整,如圖9(a)所示。Plaza-Rodríguez C等人[29]應用變形地圖探討德國各州零售生雞肉樣品中彎曲桿菌檢出率的地區(qū)分布,如圖9(b)所示,德國各州的大小根據(jù)彎曲桿菌檢出率進行了修改,導致地圖的原始地理形狀和拓撲結(jié)構(gòu)被扭曲了,讓地理面積小且檢出率高的地區(qū)也同樣能受到關(guān)注,食用過此雞肉的患者也能被及時監(jiān)管。Chen Y等人[25]創(chuàng)建了中國農(nóng)藥殘留分布地圖,統(tǒng)計地圖中漸變的紫色區(qū)域表示抽樣農(nóng)產(chǎn)品中檢測到的農(nóng)藥殘留量超過MRL標準值的頻次,變形地圖使用擴散算法基于上述頻率值生成。
從前文可以看出,大數(shù)據(jù)技 術(shù)已成為食品安全風險監(jiān)控的重要手段,可視分析在食品安全風險分析和預警方面開始發(fā)揮越來越重要的作用,并已取得一定進展,但仍面臨一些問題和挑戰(zhàn)。
圖9 空間關(guān)聯(lián)分析可視分析方法圖例
(1)多源異構(gòu)數(shù)據(jù)的融合處理與可視分析
隨著檢測技術(shù)的進步和計算機網(wǎng)絡技術(shù)的普及、食品安全數(shù)據(jù)的規(guī)模快速增長,數(shù)據(jù)的準備和處理呈現(xiàn)出人力成本高和時間周期長兩大特點[41],數(shù)據(jù)類型也呈現(xiàn)出多樣化特點,包括數(shù)值、文本、圖像、視頻或這些數(shù)據(jù)類型的組合。近年來,針對數(shù)值型結(jié)構(gòu)化數(shù)據(jù)的可視分析技術(shù)和方法已取得了豐富的成果,但針對文本、圖像、視頻等非結(jié)構(gòu)化數(shù)據(jù)的分析仍面臨挑戰(zhàn)。如何在可視分析流程中結(jié)合數(shù)據(jù)分析、文本挖掘、圖像識別、視頻處理等技術(shù)實現(xiàn)對多模態(tài)數(shù)據(jù)的可視分析,幫助食品安全領(lǐng)域的人員實現(xiàn)風險識別、風險發(fā)現(xiàn)、風險分析,仍是一個亟待解決的問題。
(2)人工智能在可視分析過程中的應用
以機器學習為代表的人工智能技術(shù)已開始應用于可視分析流程中的各個環(huán)節(jié)。在數(shù)據(jù)分析階段,人工智能可以為數(shù)據(jù)的預處理、數(shù)據(jù)變換、數(shù)據(jù)投影等多個步驟提供準確高效的方法,也可以為食品安全風險評估、趨勢預測提供科學的模型;在可視化階段,應用人工智能技術(shù)對數(shù)據(jù)和分析任務進行處理、分析和學習,實現(xiàn)對可視化設計方案的選擇,包括映射方式(散點圖、平行坐標、節(jié)點-鏈接等)、布局(正交、徑向等)、配色方案等,自動生成可視化解決方案[42],從而減輕領(lǐng)域人員在可視化設計方面的負擔。
(3)設計易于理解的可視分析系統(tǒng)
從事食品安全數(shù)據(jù)分析工作的人員通常不是計算機領(lǐng)域?qū)I(yè)人員,現(xiàn)有大部分可視分析系統(tǒng)提供的可視化表達相對復雜,對于領(lǐng)域用戶,即使其具有豐富的領(lǐng)域?qū)I(yè)知識和經(jīng)驗,也需要經(jīng)過一定程度的培訓后才能熟練使用,這就限制了可視分析系統(tǒng)的廣泛應用。因此,設計更易于理解和使用的可視化表達(如對人們熟悉的散點圖、柱狀圖、節(jié)點-鏈接等進行改進)、開發(fā)方便易用的交互方式(如應用虛擬現(xiàn)實和增強現(xiàn)實設備實現(xiàn)更自然的人與數(shù)據(jù)的交互),也是當前亟待解決的問題。
食品安全大數(shù)據(jù)可視分析技術(shù)通過提供圖形化的交互界面,幫助用戶洞悉蘊含在數(shù)據(jù)中的現(xiàn)象和規(guī)律,提高對食品安全風險的分析、發(fā)現(xiàn)、預警和溯源能力,為食品安全監(jiān)測和管控提供了新手段。本文分析了食品安全大數(shù)據(jù) 的主要來源、特征和分析任務,提出了一種關(guān)聯(lián)可視分析技術(shù)分類方法,從屬性關(guān)聯(lián)、實體關(guān)聯(lián)、對比分析和時空分析4個方面總結(jié)了食品安全大數(shù)據(jù)可視化關(guān)聯(lián)分析方法,最后從多源異構(gòu)數(shù)據(jù)的融合處理與可視分析、人工智能在可視分析過程中的應用、設計易于理解的可視分析系統(tǒng)3個方面提出了該領(lǐng)域存在的問題、機遇和挑戰(zhàn)。未來工作是將人工智能與可視分析技術(shù)結(jié)合,特別是使用結(jié)合數(shù)據(jù)挖掘、機器學習、深度學習的可視分析方法,解決食品安全風險分析、風險識別、風險預警和風險溯源等問題,提高對食品安全的監(jiān)測和管控能力。