□ 錢(qián)子琪 大連理工大學(xué)食品與環(huán)境學(xué)院
天津市與其他省級(jí)行政區(qū)的地方抽檢格式不同,每次抽檢按照日期命名,每一次抽檢報(bào)文的HTML頁(yè)面內(nèi),按照食品種類(lèi)分別提供2~25個(gè)不等的各品類(lèi)下載資源指針,單擊指針后會(huì)以“*.xls”文件(“*”代表統(tǒng)配符)的格式下載到客戶(hù)端。相對(duì)繁雜的數(shù)據(jù)結(jié)構(gòu)使以串行流水線(xiàn)作業(yè)方式處理數(shù)據(jù)變得異常復(fù)雜,尤其是在各個(gè)分表的數(shù)據(jù)融合(merge)過(guò)程中,其占據(jù)了整套流水線(xiàn)時(shí)間資源的80%。所以,針對(duì)這類(lèi)問(wèn)題,采用并行的方式處理更節(jié)約人力資源,也能發(fā)揮計(jì)算機(jī)的并行功能,加速比大約為原先使用方法的10倍以上。
本次高速數(shù)據(jù)處理采用模仿Internet Download Manager軟件的含有三次握手的可靠性分布式文件切割傳輸原理,通過(guò)自建Windows家庭組局域網(wǎng)(Home Group)的共享文件功能,完成所有報(bào)表的下載。再使用Microsoft Office 2016軟件中自帶的Power Query插件[1]完成數(shù)據(jù)清洗,數(shù)據(jù)輸出。最終得出結(jié)論:天津市2017年食藥監(jiān)局食品地方抽檢,在除去重復(fù)數(shù)據(jù)和無(wú)效數(shù)據(jù)后,共有13 821批次的數(shù)據(jù),合格批次13 714次,不合格批次107次,合格率高達(dá)99.23%。由于無(wú)法像其他省按期統(tǒng)計(jì)數(shù)據(jù),故用抽檢月份作為分類(lèi)依據(jù)。將抽檢類(lèi)別和合格與否分別作為行列的數(shù)據(jù)透視圖,得出不合格頻次排列前十的食品種類(lèi)如表1所示。
2.1.1 數(shù)據(jù)處理過(guò)程
按照何梓菱等人的動(dòng)態(tài)權(quán)值法[2],根據(jù)上文的按月和合格與否的數(shù)據(jù)透視圖,做出按月份統(tǒng)計(jì)抽檢樣本的散點(diǎn)-柱狀組合圖(圖1),可以初步判斷出在春夏季時(shí),不合格率有大幅提升。
表1 排列前十的不合格食品種類(lèi)的頻次
圖1 按月份統(tǒng)計(jì)抽檢樣本的散點(diǎn)-柱狀組合圖
隨后,手工將比例型數(shù)據(jù)導(dǎo)入SPSS Statistics 24.0軟件,變聚類(lèi)距離測(cè)量算法為“Pearson相關(guān)性”等,計(jì)算驗(yàn)證,系譜樹(shù)(圖2)未見(jiàn)季節(jié)和不合格率有因果關(guān)系。
2.1.2 原因分析
從食品保藏的柵欄因子來(lái)看,在夏季食品出現(xiàn)腐敗變質(zhì)的概率增大,從按月份統(tǒng)計(jì)抽檢樣本的散點(diǎn)-柱狀組合圖(圖1)的條形子圖中也可以看出,8月的抽檢量對(duì)比前幾個(gè)月有顯著性差異。使用每月抽檢量做聚類(lèi)分析,驗(yàn)證了以上分析結(jié)果。但是,12月的抽檢量和其他月份有最顯著性差異。結(jié)合食藥監(jiān)局的非抽檢報(bào)文內(nèi)容,天津市在各個(gè)區(qū)、縣開(kāi)展了高強(qiáng)度的抽檢活動(dòng),然而有許多失效、重復(fù)數(shù)據(jù),對(duì)機(jī)器學(xué)習(xí)的分析過(guò)程有很強(qiáng)的干擾作用,故無(wú)法辨?zhèn)未藛?wèn)題。
2.2.1 數(shù)據(jù)處理過(guò)程
使用Power Query從本地文件夾數(shù)據(jù)庫(kù)建立新查詢(xún),利用面向?qū)ο蟮膶?zhuān)用M代碼解包數(shù)據(jù)集合體(unity),刪除無(wú)關(guān)信息,再用篩選命令清洗出不合格農(nóng)產(chǎn)品類(lèi)數(shù)據(jù),包括糧食加工品1批次和食用農(nóng)產(chǎn)品28批次,并按不合格原因分類(lèi)匯總成農(nóng)產(chǎn)品類(lèi)抽檢不合格項(xiàng)目分布圖(圖3)。其中水分超標(biāo)的比例高達(dá)50%,其次高頻原因?yàn)榭藗惲_特的檢出,但其占比不足水分超標(biāo)樣本的二分之一。其他不合格原因占比均不足10%,分別是恩諾沙星(以恩諾沙星與環(huán)丙沙星之和計(jì))超標(biāo)占7%,呋喃西林代謝物檢出占3%,氟苯尼考檢出占7%,強(qiáng)力霉素檢出占7%,氯霉素檢出占3%和標(biāo)簽不合格占3%。每一批次不合格農(nóng)產(chǎn)品都只有一種不合格原因。如果把幾種獸藥看作一大類(lèi),幾乎與水分超標(biāo)比率持平。
2.2.2 分析
水分和獸藥殘留的總比例高達(dá)97%,但是在總抽檢樣本中比例偏小,總不合格樣本量也不足30,屬于小規(guī)模樣本。這從側(cè)面說(shuō)明,天津市的食品生產(chǎn)情況良好,但在糧食加工和存儲(chǔ)過(guò)程中還可以改進(jìn)流程。
在全年抽檢的不合格的107例數(shù)據(jù)的條形圖(圖4)中,僅有2例不合格產(chǎn)品存在兩個(gè)原因,其余均為一種不合格原因。其中不合格原因主要集中在標(biāo)簽規(guī)格和水分含量上,共計(jì)58例。問(wèn)題的解決依賴(lài)標(biāo)簽生產(chǎn)和貼標(biāo)技術(shù)的監(jiān)管。此外,獸藥的使用也需要更多的控制和管理。
圖2 聚類(lèi)分析樹(shù)
圖3 農(nóng)產(chǎn)品抽檢不合格項(xiàng)目分布圖
圖4 不合格原因條形圖
按照軟件工程分類(lèi),每個(gè)抽檢數(shù)據(jù)是一條記錄,記錄中含有“樣品名稱(chēng)”“規(guī)格”“類(lèi)別”等信息;每個(gè)文檔也是一條龐大的記錄,每一期的抽檢文件都可構(gòu)成總抽檢文庫(kù)。其數(shù)據(jù)結(jié)構(gòu)具有相似性,因此,可以構(gòu)建本地離線(xiàn)數(shù)據(jù)庫(kù)進(jìn)行管理分析。
按照數(shù)據(jù)流圖(圖5)的結(jié)構(gòu),使用Power Query對(duì)每份文件進(jìn)行數(shù)據(jù)提取,放入不同的數(shù)據(jù)庫(kù),再根據(jù)用戶(hù)需求情況,提取所需數(shù)據(jù)封裝成為報(bào)表輸出,也可以使用VBA實(shí)現(xiàn)。
圖5 Power Query內(nèi)的數(shù)據(jù)流動(dòng)情況
導(dǎo)入全年抽檢數(shù)據(jù)所在文件夾,并刪去無(wú)關(guān)信息;利用M代碼提出每個(gè)文件的每一條記錄;篩選出需要的文件和信息;刪除無(wú)效信息后,“關(guān)閉并上載”,得到報(bào)表。
在利用軟件對(duì)食品抽檢分析中,極端樣本量對(duì)結(jié)果影響巨大,所以要出去極端值。除去極端值后,天津市食品抽檢的合格率高于同期河北省、云南省等省份,在不合格原因上,食品本身的化學(xué)、物理、機(jī)械性質(zhì)表現(xiàn)良好,標(biāo)簽這一外部因素成為制約其合格率繼續(xù)提升的最大原因,其次為植物性農(nóng)產(chǎn)品的水分和動(dòng)物性農(nóng)產(chǎn)品的獸藥殘留。
[1]Chris Webb. Power Query and Power BI for Office 365[M].Berkeley:Apress,2014.
[2]何梓菱,王哲,周李,等.基于動(dòng)態(tài)權(quán)值的食品抽檢方法[J].數(shù)學(xué)建模及其應(yīng)用,2013(Z1):4-12,45.