楊 璐 張馨月 鄭麗敏
(1.中國農(nóng)業(yè)大學(xué)信息與電氣工程學(xué)院, 北京 100083; 2.食品質(zhì)量與安全北京實(shí)驗(yàn)室, 北京 100083)
可視化是把數(shù)據(jù)信息轉(zhuǎn)換為人眼能識別的可視符號,是人機(jī)交互、虛擬現(xiàn)實(shí)應(yīng)用的關(guān)鍵技術(shù)[1]。圖可視化是信息可視化領(lǐng)域的一個(gè)重要分支, 又稱為關(guān)聯(lián)網(wǎng)絡(luò)、網(wǎng)絡(luò)或關(guān)聯(lián)圖,是關(guān)聯(lián)數(shù)據(jù)分析過程中的重要部分[2]。
為了對結(jié)構(gòu)語義進(jìn)行可視化,研究者提出了文本的語義結(jié)構(gòu)可視化技術(shù)[3]。DAViewer將文本的敘述結(jié)構(gòu)語義以樹的形式進(jìn)行可視化,同時(shí)進(jìn)行了相似度統(tǒng)計(jì)、修辭結(jié)構(gòu),以及展示了相應(yīng)的文本內(nèi)容[4]。DocuBurst以放射狀層次圓環(huán)的形式表示文本結(jié)構(gòu)[5]?;谥黝}的文本聚類是文本數(shù)據(jù)挖掘的重要研究內(nèi)容,為了可視化表示文本聚類效果,通常將一維的文本信息投射到二維空間中,以便于對聚類的關(guān)系予以展示。Hipp是一種基于層次化點(diǎn)排布的投影方法,可廣泛用于文本聚類可視化[6]。在面對高維數(shù)據(jù)時(shí),LAI等[7]提出一種通過局部增強(qiáng)的投影探索高維數(shù)據(jù)的交互式探索方案,以幫助用戶根據(jù)他們的興趣點(diǎn)和分析任務(wù)定制線性投影。
可視化分析視圖或分析系統(tǒng)是一種輔助數(shù)據(jù)分析和決策的技術(shù),能夠讓用戶更好地理解復(fù)雜的領(lǐng)域知識。CHEN 等[8]根據(jù)農(nóng)藥殘留數(shù)據(jù)的特點(diǎn)和食品安全領(lǐng)域的需求,提出一種基于層次聚類的關(guān)聯(lián)層次數(shù)據(jù)可視化分析方法。CHEN等[9]在面臨綜合比較多區(qū)域MRL標(biāo)準(zhǔn)數(shù)據(jù)的挑戰(zhàn)時(shí),提出一種復(fù)雜層次數(shù)據(jù)多重比較可視化分析方法。CHUI 等[10]以多面板圖展現(xiàn)年齡、時(shí)間和疾病之間的相互作用,幫助流行病學(xué)家構(gòu)造了視覺分析圖。LI 等[11]提出了為不同背景的房地產(chǎn)市場用戶提供服務(wù)、滿足不同程度需求的交互式視覺分析系統(tǒng)。
近年來,農(nóng)產(chǎn)品及食品質(zhì)量安全事件時(shí)有發(fā)生,在給消費(fèi)者帶來健康威脅的同時(shí),也給行業(yè)帶來了沖擊[12]。食品安全相關(guān)的大數(shù)據(jù)通常具有多源、多維、時(shí)空、層次、關(guān)聯(lián)和不確定性等特征[13]。而對于食品安全這一特殊領(lǐng)域,監(jiān)控、溯源食品安全事件,進(jìn)行風(fēng)險(xiǎn)評估和預(yù)警是十分重要的[14]。食品安全檢測是食品安全監(jiān)管的重要環(huán)節(jié),檢測環(huán)節(jié)的薄弱和缺失是我國出現(xiàn)食品安全問題的直接原因[15-16]。借助于可視化方式,能夠清晰地展現(xiàn)數(shù)據(jù)的表面特征,挖掘數(shù)據(jù)的內(nèi)在關(guān)系,總結(jié)不合格產(chǎn)品的產(chǎn)生原因, 對評價(jià)當(dāng)前食品安全形勢、查找風(fēng)險(xiǎn)因素、引導(dǎo)監(jiān)管方向、推動(dòng)食品行業(yè)健康發(fā)展具有重要作用。
為更好地挖掘以食品抽檢不合格報(bào)告為代表的數(shù)據(jù)關(guān)系,本文提出一種數(shù)據(jù)關(guān)系挖掘可視分析圖——ExploreView,展現(xiàn)數(shù)據(jù)集中的層次結(jié)構(gòu),同時(shí)提供隱藏在數(shù)據(jù)層次結(jié)構(gòu)中的關(guān)聯(lián)關(guān)系。
以2017年12月25日至2018年1月15日間的國家食品藥品監(jiān)督管理總局抽檢不合格報(bào)告的數(shù)據(jù)集為研究對象,共包含1 014條抽檢數(shù)據(jù)。不合格抽檢報(bào)告數(shù)據(jù)集一般包括標(biāo)稱生產(chǎn)企業(yè)名稱、企業(yè)地址、被抽樣單位名稱、單位地址、食品名稱、規(guī)格型號、商標(biāo)、生產(chǎn)日期及批號、不合格項(xiàng)目名稱、檢驗(yàn)結(jié)果、標(biāo)準(zhǔn)值、食品分類、公告號、公告日期、任務(wù)來源和檢驗(yàn)機(jī)構(gòu)等內(nèi)容。
對數(shù)據(jù)集進(jìn)行數(shù)據(jù)預(yù)處理、規(guī)范化和特征提?。桓鶕?jù)數(shù)據(jù)集的特點(diǎn),建立數(shù)據(jù)模型,分析實(shí)際任務(wù)需求并進(jìn)行映射;最后進(jìn)行視覺元素編碼,完成可視化。
數(shù)據(jù)立方體是多維模型的形象概念。雖然立方體只有三維,但多維模型不限于此,可以組合更多的維度,展示更多維度的數(shù)據(jù)特征。食品的抽檢不合格報(bào)告維數(shù)眾多,經(jīng)過數(shù)據(jù)預(yù)處理、轉(zhuǎn)換,根據(jù)實(shí)際需要,能夠按照預(yù)先定義的多維模型,將數(shù)據(jù)加載進(jìn)去。
實(shí)現(xiàn)多維數(shù)據(jù)操作的一種方法是使用維的層次關(guān)系,每個(gè)層次包含一個(gè)或多個(gè)維成員,多個(gè)層次中的維成員排列成多個(gè)層次,這種層次結(jié)構(gòu)為數(shù)據(jù)的上鉆和下鉆提供了基礎(chǔ)。實(shí)現(xiàn)多維數(shù)據(jù)操作的另一種方法是使用維內(nèi)元素的類,對應(yīng)類的屬性對維成員進(jìn)行劃分,類屬性不同,得到的劃分也不同。層次和類是兩個(gè)不同的概念,層次有父子關(guān)系,而類的成員之間不存在父子關(guān)系,只反映成員的共同特征。
在對食品抽檢報(bào)告的分析中,既有按維的層次關(guān)系進(jìn)行的分析,也有按維成員的類進(jìn)行的分析。在層次關(guān)系上進(jìn)行的分析,包括從維的低層次到高層次的數(shù)據(jù)綜合,即聚集分析,以及從維的高層次到低層次的數(shù)據(jù)鉆取分析。成員類的分析包括分類與歸納,分類是由粗粒度成員向細(xì)粒度成員進(jìn)行的下探,歸納則是由細(xì)粒度成員向粗粒度成員進(jìn)行的匯總。
聚合、組織數(shù)據(jù)集是將數(shù)據(jù)按照所需的n個(gè)維度進(jìn)行轉(zhuǎn)換。比如,選擇食品、抽檢項(xiàng)目和地點(diǎn)3個(gè)維度,分別表示為F(食品)、P(項(xiàng)目)和L(地點(diǎn)),則笛卡爾乘積F×P×L隱喻地稱為數(shù)據(jù)立方體[17]。出于實(shí)際目的,3個(gè)集合F、P和L離散且有限。由指定食品f∈F、抽檢項(xiàng)目p∈P和地點(diǎn)l∈L組成的任何組合稱為立方體的點(diǎn),表示為(f,p,l)。
任務(wù)分析是探索數(shù)據(jù)集三維空間中的研究對象的變化和關(guān)系。但是,不能從結(jié)構(gòu)F×P×L的高維度看到這種變化和關(guān)系,所以整個(gè)任務(wù)被分解成為更簡單的子任務(wù)。可以通過考慮其切片來完成任務(wù)分析,其中一個(gè)維度固定,探究剩余維度變量的變化和關(guān)系。例如,在F×P×L所構(gòu)成的數(shù)據(jù)立方體中,為了探究F和P之間的關(guān)系,就需要進(jìn)行切片。在地點(diǎn)維上選定一個(gè)維成員,可得到地點(diǎn)維的一個(gè)切片。
將一些匯總運(yùn)算符(求和、平均值等)應(yīng)用在一個(gè)維變量的多個(gè)值的多個(gè)切片上,可以聚合這些切片,稱為投影,如圖1b所示。投影的數(shù)據(jù)結(jié)構(gòu)和獲得它的切片(圖1a)的數(shù)據(jù)結(jié)構(gòu)相同,投影結(jié)構(gòu)中的值是來自切片的值的聚合[18]。
圖1 切片與投影模型示意圖Fig.1 Schematic diagrams of slice and projection model
本文用三維數(shù)據(jù)立方體的方式來簡化多維模型進(jìn)行描述,并將其他維度作為切片或投影中的變量,使用二分圖進(jìn)行表示。
通??梢孕问交瘜D表述為二元組(V,E),即G=(V,E),其中V為頂點(diǎn)集合,E為頂點(diǎn)間關(guān)聯(lián)關(guān)系所對應(yīng)的邊集合[19]。二分圖也稱二部圖,為圖論中的一種特殊模型,該類圖的特點(diǎn)是其頂點(diǎn)集可以分成2個(gè)不相交的集合,使得在同一個(gè)集合內(nèi)的頂點(diǎn)互不相鄰(沒有共同邊)[20]。如果M?E,并且M中沒有任何兩邊有公共端點(diǎn)且不含環(huán),則稱M為G的一個(gè)匹配。
圖3 食品與抽檢項(xiàng)目關(guān)系任務(wù)分析圖Fig.3 Schematic of data cube and bipartite graph model mapping
食品和地點(diǎn)形成二分圖,其中每個(gè)邊表示某個(gè)地點(diǎn)某種食品抽檢出不合格項(xiàng)目。類似地,食品和抽檢項(xiàng)目也形成二分圖,其中邊表示某種食品抽檢出某種不合格項(xiàng)目,如圖2所示。
圖2 數(shù)據(jù)立方體與二分圖模型映射示意圖Fig.2 Schematic of data cube and bipartite graph model mapping
食品抽檢報(bào)告內(nèi)容豐富,維數(shù)眾多,可根據(jù)需要選取適當(dāng)維度映射為多維模型。本文以數(shù)據(jù)立方體為例來進(jìn)行分析。經(jīng)過數(shù)據(jù)處理和特征提取,選擇3個(gè)維度F、P和L。在F×P×L數(shù)據(jù)立方體取一個(gè)切片,切點(diǎn)與其中一個(gè)維度內(nèi)的一個(gè)選定值相對應(yīng),并通過二分圖表示。相應(yīng)的分析任務(wù)就在切片內(nèi)進(jìn)行,以降低多個(gè)變量變化造成的任務(wù)復(fù)雜度?;跀?shù)據(jù)立方體切片的任務(wù)包括:
(1)l→(F×P→M):對于選定的抽檢地點(diǎn)l∈L,M是食品集合F和抽檢項(xiàng)目集合P形成的二分圖的匹配。不同食品和不合格抽檢項(xiàng)目的關(guān)系如圖3所示。通過指定食品或樣品名稱篩選出不合格項(xiàng)目檢出情況,包括食品名稱、檢出項(xiàng)目名稱、檢出頻次、標(biāo)準(zhǔn)值、超標(biāo)中位數(shù)等。進(jìn)一步鉆取相關(guān)抽檢條目的具體信息,包括檢驗(yàn)結(jié)果、檢驗(yàn)機(jī)構(gòu)等。篩選出與某些特定食品檢出同一不合格項(xiàng)目的其他食品,并進(jìn)行不合格項(xiàng)目的對比,包括項(xiàng)目名稱、檢驗(yàn)結(jié)果、標(biāo)準(zhǔn)值、檢出頻次等。展示檢出不合格項(xiàng)目屬于一定項(xiàng)目類別內(nèi)的食品類型。分析檢出不合格項(xiàng)目頻次最高的食品種類名稱,并對應(yīng)顯示檢出項(xiàng)目的名稱、頻次、檢驗(yàn)結(jié)果和標(biāo)準(zhǔn)值對比。
(2)f→(L×P→M):對于選定的被抽檢食品f∈F,M是抽檢地點(diǎn)集合L和抽檢項(xiàng)目集合P形成的二分圖的匹配。研究抽檢地點(diǎn)與抽檢不合格項(xiàng)目的關(guān)系,分析這些不合格項(xiàng)目的相似性關(guān)系。
(3)p→(L×F→M):對于選定的抽檢項(xiàng)目p∈P,M是抽檢地點(diǎn)集合L和食品集合F形成的二分圖的匹配。研究不同抽檢地點(diǎn)與抽檢不合格食品的關(guān)系,展示該地點(diǎn)范圍內(nèi)檢出不合格項(xiàng)目的食品種類、性質(zhì)。
投影是沿一個(gè)維度創(chuàng)建數(shù)據(jù)立方體內(nèi)容的聚合操作。聚合不但可以作為整體應(yīng)用于集合L、F和P,而且可以應(yīng)用于集合的子集[17]。任務(wù)類型與基于切片的任務(wù)相對應(yīng),包括:①∑L→(F×P→M),忽略抽檢地點(diǎn)因素,M是集合F和集合P形成的二分圖的匹配,研究不同食品和不合格抽檢項(xiàng)目的關(guān)系。②∑F→(L×P→M),對于所有食品一起考慮,M是集合L和集合P形成的二分圖的匹配,研究不同地點(diǎn)出現(xiàn)抽檢不合格項(xiàng)目的內(nèi)在邏輯。③∑P→(L×F→M),忽略所有抽檢不合格項(xiàng)目因素,M是集合L和集合F形成的二分圖的匹配,研究隨著地點(diǎn)變化,出現(xiàn)抽檢不合格的食品種類的變化趨勢。
從任務(wù)需求出發(fā),構(gòu)造ExploreView的層次圖、細(xì)節(jié)描述圖和關(guān)系挖掘圖,基于Gephi、D3.js[21]和Echarts.js[22]進(jìn)行腳本編碼。數(shù)據(jù)傳輸?shù)秸埱蟮腏SON輸入結(jié)構(gòu)中,并且可以創(chuàng)建、調(diào)整、分析和下載生成的可視化效果。通過層次圖,可以對數(shù)據(jù)項(xiàng)有最基本的了解。通過細(xì)節(jié)描述圖,可以對食品藥品監(jiān)督管理局抽檢數(shù)據(jù)集中的具體數(shù)值進(jìn)行獲取,對用戶關(guān)心并且鉆取的數(shù)據(jù)關(guān)系和細(xì)節(jié)進(jìn)行詳細(xì)展示。通過關(guān)系挖掘圖,可以得到抽檢食品與不合格抽檢項(xiàng)目之間的關(guān)系,探索節(jié)點(diǎn)間的內(nèi)在關(guān)聯(lián)。
3.2.1層次圖
概覽視圖的作用為可視化食品藥品監(jiān)督管理局抽檢的基本情況。根據(jù)任務(wù)需求選擇合適的多維模型維度,再對每個(gè)維度進(jìn)行展開。
首先展示抽檢基本信息,根據(jù)專家知識用層次樹展示食品種類和抽檢項(xiàng)目種類,展示這兩個(gè)維的層次關(guān)系,使用戶對展示對象有大概的了解。該樹圖可以根據(jù)需要進(jìn)行展開和收縮,當(dāng)樹中節(jié)點(diǎn)包含子節(jié)點(diǎn)時(shí),節(jié)點(diǎn)顏色為灰色,否則為白色,如圖4所示。
圖4 層次圖示意圖Fig.4 Schematic of hierarchy
3.2.2細(xì)節(jié)描述圖
細(xì)節(jié)描述圖結(jié)合了多種視圖,其中包括可視化查詢條件篩選設(shè)計(jì)、檢測關(guān)系及頻率分布圖設(shè)計(jì)、時(shí)空熱力圖設(shè)計(jì)和檢測具體信息列表等,對用戶關(guān)心并且鉆取的數(shù)據(jù)關(guān)系和細(xì)節(jié)進(jìn)行詳細(xì)展示,試圖提供一個(gè)多尺度的編碼方案來可視化用戶交互時(shí)不同層次的細(xì)節(jié)。數(shù)據(jù)鉆取是在分析時(shí)選擇數(shù)據(jù)立方體的投影方向,改變維的力度對數(shù)據(jù)進(jìn)行層層深入的查看,主要是在建立分析時(shí)設(shè)定鉆取的維度和層次,在查看時(shí)通過鼠標(biāo)點(diǎn)擊某個(gè)數(shù)據(jù)點(diǎn)時(shí)就能捕捉到下個(gè)頁面。具體步驟包括:
(1)獲取用戶選擇的省份lu并設(shè)為焦點(diǎn),將焦點(diǎn)作為切點(diǎn)產(chǎn)生數(shù)據(jù)立方體切片,獲取切片對應(yīng)的檢測報(bào)告中的兩個(gè)維度,計(jì)算相關(guān)聯(lián)的二分圖G1,得到集合F1和P1,獲取相應(yīng)的食品名稱和檢測項(xiàng)目名稱。
(2)根據(jù)用戶分析的目標(biāo),連接集合F1和P1的相應(yīng)節(jié)點(diǎn),計(jì)算得到新的二分圖G2,用力導(dǎo)向圖、圓環(huán)圖等進(jìn)行數(shù)據(jù)的展示。
(3)在圓環(huán)圖中,將二分圖G2的食品集合F2和抽檢項(xiàng)目集合P2分別可視化為不同顏色的視覺元素,加以區(qū)分,以更好地體現(xiàn)兩者的關(guān)聯(lián)。計(jì)算G2所有的食品抽檢中的不合格檢測項(xiàng)目和檢出頻率,采用強(qiáng)對比度的配色方案,根據(jù)其值可視化映射為食品類型的節(jié)點(diǎn)顏色、抽檢項(xiàng)目的節(jié)點(diǎn)顏色、連線的粗細(xì)。若某種食品檢出某不合格項(xiàng)目,兩者之間就進(jìn)行連線。所檢出的不合格項(xiàng)目頻率越高,連線越粗,與檢測頻率呈等比例關(guān)系展示,如圖5a所示。為了避免信息雜亂影響用戶體驗(yàn),當(dāng)數(shù)據(jù)節(jié)點(diǎn)超過設(shè)定值時(shí),抽檢項(xiàng)目名稱或食品名稱將根據(jù)需要被隱藏。為了避免不同食品曲線交錯(cuò)復(fù)雜,用戶可以點(diǎn)擊感興趣的曲線,其他線段將被隱去,同時(shí)抽檢食品與抽檢項(xiàng)目及簡單的抽檢詳情以浮動(dòng)窗口的形式展現(xiàn),如圖5b所示。
(4)用戶可以進(jìn)行進(jìn)一步分析,通過過濾不合格抽檢頻率、食品名稱、不合格項(xiàng)目類型,顯示符合要求的抽檢數(shù)據(jù),突出顯示用戶關(guān)心的內(nèi)容,展示經(jīng)過過濾得到的集合F3和P3的可視化結(jié)果,實(shí)現(xiàn)交互式動(dòng)態(tài)協(xié)調(diào),如圖5c所示。
圖5 圓環(huán)圖Fig.5 Schematics of doughnut chart
(5)在3D柱狀圖中,將二分圖G2的食品集合F2和抽檢項(xiàng)目集合P2可視為橫縱坐標(biāo),過濾掉不需要的集合,分析一定范圍內(nèi)的食品集合F4和抽檢項(xiàng)目集合P4,并形成二分圖G4,以準(zhǔn)確地顯示兩者的數(shù)量關(guān)系,并可視化為不同高度、不同顏色的視覺元素??v坐標(biāo)Z表示檢出頻次,即所檢出的不合格項(xiàng)目頻率越高,柱狀越高,顏色越向暖色調(diào)接近。用戶可以進(jìn)行進(jìn)一步分析,通過過濾不合格抽檢頻率、食品名稱、不合格項(xiàng)目類型,展示符合要求的抽檢數(shù)據(jù),展示經(jīng)過過濾得到的食品集合F5和抽檢項(xiàng)目集合P5的可視化結(jié)果,如圖6所示。
圖6 3D柱狀圖Fig.6 Schematic of 3D histogram
(6)改變用戶焦點(diǎn),獲取用戶選擇的食品類別Pu并設(shè)為焦點(diǎn),使數(shù)據(jù)立方體沿著焦點(diǎn)軸的方向投影,計(jì)算切片相關(guān)聯(lián)的二分圖G6,得到抽檢地點(diǎn)集合L6和食品集合F6,獲取L6集合中所有元素在集合F6中對應(yīng)的關(guān)聯(lián)邊集合,并將關(guān)聯(lián)邊集合中的元素?cái)?shù)量可視化為時(shí)空熱力圖中的不同顏色的視覺元素。用戶可以進(jìn)行進(jìn)一步分析,通過過濾食品名稱、不合格項(xiàng)目類型展示符合要求的抽檢數(shù)據(jù),展示各省份特定食品類型的特定項(xiàng)目檢出情況。若某不合格抽檢項(xiàng)目集中出現(xiàn),或按照某種規(guī)律出現(xiàn),展示出異常點(diǎn)的特征,就可能預(yù)示著即將爆發(fā)的食品安全事件,如圖7所示。
圖7 時(shí)空熱力圖Fig.7 Map of space-time heat
3.2.3關(guān)系挖掘圖
為了挖掘抽檢食品不合格項(xiàng)之間的關(guān)系,探索節(jié)點(diǎn)間的內(nèi)在關(guān)聯(lián),使用相似度計(jì)算和聚類分析數(shù)據(jù),并基于層次扇形綁定的思想,通過熱力散點(diǎn)同心圓圖展示聚類結(jié)果。用戶可通過點(diǎn)擊節(jié)點(diǎn)鉆取更加詳細(xì)的信息。關(guān)系挖掘圖的設(shè)計(jì)步驟如下:
(1)獲取抽檢產(chǎn)品名稱及其所屬食品類型,可根據(jù)食品類型進(jìn)行動(dòng)態(tài)過濾。
(2)根據(jù)抽檢產(chǎn)品的不合格項(xiàng)目類型和不合格項(xiàng)目與抽檢產(chǎn)品的關(guān)聯(lián)關(guān)系,確立食品類型數(shù)據(jù)點(diǎn)。首先根據(jù)《中華人民共和國食品安全法》等相關(guān)法律法規(guī)對每類食品的抽檢項(xiàng)目進(jìn)行粗分類。然后將每個(gè)抽檢食品類型向量表示為
xi=(xi1,xi2,…,xin)
(1)
式中xi——第i個(gè)抽檢食品類型
xin——第i個(gè)抽檢食品與項(xiàng)目類別n的關(guān)系標(biāo)識,若抽檢出的不合格項(xiàng)目屬于抽檢項(xiàng)目類別n,則標(biāo)識值為1,反之為0
抽檢食品類型之間的距離計(jì)算公式表示為
d(xi,yj)=|xi1-yj1|+|xi2-yj2|+ …+|xin-yjn|
(2)
式中d(xi,yj)——第i個(gè)抽檢食品與第j個(gè)抽檢食品的距離
yj——第j個(gè)抽檢食品類型
yjn——第j個(gè)抽檢食品與項(xiàng)目類別n的關(guān)系標(biāo)識,若抽檢出不合格項(xiàng)目屬于抽檢項(xiàng)目類別n,則標(biāo)識值為1,反之為0
(3)根據(jù)實(shí)際需求確定聚類個(gè)數(shù),表示為k。根據(jù)抽檢食品類型之間的距離進(jìn)行K-means聚類[23],得出聚類向量,迭代上述過程直到滿足聚類終止條件。
(4)根據(jù)上述聚類結(jié)果,所有節(jié)點(diǎn)組成k個(gè)簇。將最后的聚類結(jié)果寫入可視分析數(shù)據(jù)表,作為可視化映射的依據(jù)。
(5)用各個(gè)熱力散點(diǎn)同心圓圖展示各個(gè)簇的聚類結(jié)果。簇中的食品類型組成同心圓的外環(huán),以扇形外環(huán)的顏色代表食品的類型,如圖8a所示。
(6)抽檢項(xiàng)目的頻次和性質(zhì)可視化在同心圓的內(nèi)部。扇形外環(huán)代表的食品對應(yīng)的檢出項(xiàng)目類型以扇形同心圓形式按照總的檢出頻率由大到小由外向內(nèi)排列,如圖8b所示,屬于同一類別的檢出項(xiàng)目半徑相同。節(jié)點(diǎn)的大小代表具體檢出項(xiàng)目的檢出頻次,節(jié)點(diǎn)的顏色代表不同的檢出項(xiàng)目,如圖8c所示。
圖8 關(guān)系挖掘圖示意圖Fig.8 Schematics of relationship mining map
為驗(yàn)證視圖的有效性,利用ExploreView對食品藥品監(jiān)督管理局發(fā)布的不合格食品抽檢報(bào)告進(jìn)行可視分析。
視圖提供了直觀的交互功能。過濾條件選擇窗口支持對一定類型、頻次和時(shí)間的檢測項(xiàng)目進(jìn)行過濾。用戶可以對視圖進(jìn)行拖動(dòng)、放大或縮小,并進(jìn)行多個(gè)視圖的鏈接分析。如圖9a所示,在過濾條件選擇窗口,用戶選擇了茶葉及其相關(guān)制品、糕點(diǎn)、蜂產(chǎn)品等食品類型,選擇不合格頻次為3~25次。經(jīng)過動(dòng)態(tài)過濾,用戶可通過生成的視圖得到相關(guān)食品的不合格項(xiàng)目檢出情況,并獲得兩者的關(guān)聯(lián)關(guān)系。如圖9b所示,由于節(jié)點(diǎn)個(gè)數(shù)小于之前設(shè)定的完全顯示節(jié)點(diǎn)最大數(shù)(30個(gè)),所以所有的節(jié)點(diǎn)都進(jìn)行了顯示。其中,食品類型的節(jié)點(diǎn)(茶葉及其相關(guān)制品、糕點(diǎn)、調(diào)味品和蜂產(chǎn)品)分別為深藍(lán)色、孔雀藍(lán)、薄荷綠和橙色,其他抽檢項(xiàng)目節(jié)點(diǎn)為紅色??梢院苊黠@地看出,糕點(diǎn)類型和調(diào)味品類型的食品抽檢出的不合格項(xiàng)目最多(連線較多),且頻次高(連線相對而言較粗)。將鼠標(biāo)置于“調(diào)味品”節(jié)點(diǎn)上,如圖9c所示,可以突出顯示調(diào)味品在選定時(shí)間范圍內(nèi)檢測出的不合格項(xiàng)目名稱。將鼠標(biāo)置于“調(diào)味品”和“糖精鈉(以糖精計(jì))”之間的連線上,可以顯示兩者之間的抽檢關(guān)系,包括檢測不合格頻次、標(biāo)準(zhǔn)值和超標(biāo)值中位數(shù),如圖9d所示。將鼠標(biāo)置于抽檢項(xiàng)目中的“糖精鈉(以糖精計(jì))”節(jié)點(diǎn)上,可以突出顯示檢出此種不合格項(xiàng)目的食品類型,即蜂產(chǎn)品、調(diào)味品和糕點(diǎn),如圖9e所示。如果僅想保留本次食品、抽檢項(xiàng)目的計(jì)算關(guān)聯(lián)邊,可在過濾條件選擇窗口刪除多余的節(jié)點(diǎn)項(xiàng)目,并由此進(jìn)行更深入的分析和數(shù)據(jù)鉆取。
在圖9f中,可以看出抽檢項(xiàng)目和食品類型之間的數(shù)量關(guān)系??梢园l(fā)現(xiàn),大多數(shù)抽檢的檢出頻次在5次以下,但其中“糕點(diǎn)”的不合格抽檢項(xiàng)目“防腐劑混合使用時(shí)各自用量占其最大使用量的比例之和”的柱形為紅色,頻次高達(dá)25次,且標(biāo)準(zhǔn)值為小于1,超標(biāo)值中位數(shù)為1.5。
在過濾條件選擇窗口,選擇“糕點(diǎn)”這一類型,選擇添加劑相關(guān)的不合格抽檢項(xiàng)目。如圖9g所示,圖中有標(biāo)記的省份都在該食品類型中抽檢出了該不合格項(xiàng)目,綠色節(jié)點(diǎn)、黃色節(jié)點(diǎn)至紅色節(jié)點(diǎn)的顏色過渡代表抽檢不合格頻次的增加。其中紅色所標(biāo)記的省份河南省抽檢出的頻次最多,應(yīng)當(dāng)引起有關(guān)部門的重視。將鼠標(biāo)置于節(jié)點(diǎn)上,可查看該省份、該食品種類、該抽檢項(xiàng)目的具體抽檢信息,比如在所選時(shí)間段內(nèi),北京市糕點(diǎn)食品被抽檢出添加劑項(xiàng)目不合格的頻次為2次,在全國范圍內(nèi)屬于不合格頻次較低的省份。
圖9 案例分析效果Fig.9 Schematics of case analysis
對所有抽檢信息進(jìn)行過濾、聚類,可得到不合格抽檢項(xiàng)目與被抽檢食品的相關(guān)性信息。如圖9h所示,視圖中展示了不合格抽檢項(xiàng)目分類信息的層次關(guān)系,不合格抽檢項(xiàng)目之間的關(guān)聯(lián)關(guān)系以及被抽檢食品與不合格抽檢項(xiàng)目的關(guān)聯(lián)關(guān)系。通過鉆取點(diǎn)擊可知,“添加劑”不合格項(xiàng)目包括“防腐劑混合使用時(shí)各自用量占其最大使用量的比例之和”、“脫氫乙酸及其鈉鹽”、“山梨酸及其鉀鹽”等內(nèi)容?!拔⑸铩表?xiàng)目的“大腸桿菌”和“菌落總數(shù)”等經(jīng)常被同時(shí)檢測出不合格。通過聚類可知,肉制品、調(diào)味品、飲料、方便食品、酒類在理化指標(biāo)、微生物和添加劑這幾類項(xiàng)目上經(jīng)常出現(xiàn)不合格現(xiàn)象,這與它們的食品理化性質(zhì)有關(guān),也與加工過程有關(guān),生產(chǎn)過程或者保存過程中的不合規(guī)操作行為具有相似性,需要根據(jù)具體情況給予更多關(guān)注。比如,調(diào)味品和肉制品頻繁在添加劑項(xiàng)目上出現(xiàn)不合格現(xiàn)象,突出表現(xiàn)在“防腐劑混合使用時(shí)各自用量占其最大使用量的比例之和”這一方面,反映出企業(yè)可能忽視了混合使用防腐劑時(shí)對其使用量的控制。而肉制品和飲料在微生物項(xiàng)目上常常不達(dá)標(biāo)。因此,有關(guān)部門在抽檢發(fā)現(xiàn)某種食品的某種項(xiàng)目不達(dá)標(biāo)現(xiàn)象時(shí),也應(yīng)對聚類得到的類似食品種類提高警惕,注意潛在的共性和聯(lián)系,根據(jù)實(shí)際情況重點(diǎn)抽檢。
提出了一種挖掘數(shù)據(jù)關(guān)系的可視分析視圖ExploreView。在展示數(shù)據(jù)信息基本情況的同時(shí),根據(jù)用戶的實(shí)際需求進(jìn)行動(dòng)態(tài)交互,體現(xiàn)數(shù)據(jù)的屬性和數(shù)據(jù)間的各種層次結(jié)構(gòu)以及關(guān)聯(lián)關(guān)系。用指定時(shí)間內(nèi)食品藥品監(jiān)督管理局食品抽檢不合格報(bào)告的信息數(shù)據(jù)集對本文方法進(jìn)行驗(yàn)證,結(jié)果表明,ExploreView可以全面地展示數(shù)據(jù)基本信息,并挖掘出不合格抽檢項(xiàng)目的細(xì)節(jié)層次關(guān)系、關(guān)聯(lián)關(guān)系、潛在的相似性,以及被抽檢食品與抽檢項(xiàng)目的關(guān)聯(lián)信息,實(shí)現(xiàn)對統(tǒng)計(jì)分布結(jié)果的展示和交互,為食品質(zhì)量安全的監(jiān)測和預(yù)警提供幫助。