郝毫剛,高錄軍,張積慧,劉玲,唐軍,李曉平,趙麗丹
(中國(guó)獸醫(yī)藥品監(jiān)察所,北京100081)
?
基于獸藥電子追溯的獸藥大數(shù)據(jù)平臺(tái)建設(shè)研究
郝毫剛,高錄軍,張積慧,劉玲,唐軍,李曉平,趙麗丹*
(中國(guó)獸醫(yī)藥品監(jiān)察所,北京100081)
從國(guó)家實(shí)施獸藥產(chǎn)品電子追溯著手,分析了獸藥大數(shù)據(jù)平臺(tái)建設(shè)的必要性,介紹了大數(shù)據(jù)的關(guān)鍵技術(shù)和分析應(yīng)用,重點(diǎn)闡述了獸藥大數(shù)據(jù)平臺(tái)的建設(shè)原則和技術(shù)架構(gòu),對(duì)獸藥大數(shù)據(jù)平臺(tái)建設(shè)的關(guān)鍵因素進(jìn)行了思考,以期為獸藥行業(yè)發(fā)展提供數(shù)據(jù)支撐。
大數(shù)據(jù);獸藥電子追溯;數(shù)據(jù)分析
獸藥作為預(yù)防、治療、診斷畜禽等動(dòng)物疾病的物質(zhì),是一種特殊商品,既要保障動(dòng)物疾病得到有效的治療,又要保障動(dòng)物和人的安全。為強(qiáng)化獸藥安全監(jiān)管,保障動(dòng)物產(chǎn)品質(zhì)量安全,對(duì)獸藥產(chǎn)品實(shí)施追溯管理,國(guó)家實(shí)施了獸藥產(chǎn)品電子追溯碼(二維碼)標(biāo)識(shí)制度,為政府、企業(yè)和廣大消費(fèi)者提供相關(guān)的公共信息服務(wù)。兩年的實(shí)踐證明,國(guó)家獸藥產(chǎn)品追溯系統(tǒng)(以下簡(jiǎn)稱追溯系統(tǒng))的實(shí)施,規(guī)范了生產(chǎn)企業(yè)質(zhì)量管理行為,提高了監(jiān)管部門工作效率,為經(jīng)營(yíng)者、養(yǎng)殖者辨別非法產(chǎn)品提供了快捷可靠的手段,有效遏制了造假售假行為。隨著信息技術(shù)發(fā)展,全國(guó)乃至地方獸藥管理和研究機(jī)構(gòu)均不同程度地吸納了國(guó)內(nèi)外先進(jìn)的信息技術(shù), 建立了不同的系統(tǒng)平臺(tái),獸藥行業(yè)的信息化程度得到很大提高。
“大數(shù)據(jù)”被看作是繼云計(jì)算、物聯(lián)網(wǎng)之后,人類歷史上又一次深刻的信息技術(shù)革命,是生活、工作與思維的大變革[1]。2015年,《國(guó)務(wù)院關(guān)于印發(fā)促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要的通知》[2]正式發(fā)布,建立“用數(shù)據(jù)說(shuō)話、用數(shù)據(jù)決策、用數(shù)據(jù)管理、用數(shù)據(jù)創(chuàng)新”的管理機(jī)制,實(shí)現(xiàn)基于數(shù)據(jù)的科學(xué)決策,將推動(dòng)政府管理理念和社會(huì)治理模式進(jìn)步。獸藥追溯系統(tǒng)建設(shè)及各級(jí)管理部門和企業(yè)信息管理系統(tǒng)的建設(shè),為獸藥大數(shù)據(jù)平臺(tái)的建設(shè)積累了寶貴的經(jīng)驗(yàn)和基礎(chǔ)數(shù)據(jù)。由此,認(rèn)識(shí)大數(shù)據(jù)、理清獸藥大數(shù)據(jù)平臺(tái)的建設(shè)思路,及早進(jìn)行獸藥大數(shù)據(jù)平臺(tái)建設(shè)并應(yīng)用,是獸藥企業(yè)、監(jiān)管部門、檢驗(yàn)機(jī)構(gòu)的當(dāng)務(wù)之急。
1.1 國(guó)家獸藥電子追溯歷程 2015年1月,農(nóng)業(yè)部頒布中華人民共和國(guó)農(nóng)業(yè)部公告第2210號(hào)[3],開(kāi)始利用國(guó)家獸藥產(chǎn)品追溯系統(tǒng)實(shí)施獸藥產(chǎn)品電子追溯碼(二維碼)標(biāo)識(shí)制度。國(guó)家獸藥產(chǎn)品追溯系統(tǒng)是為行業(yè)提供服務(wù)的公益性系統(tǒng),主要在獸藥產(chǎn)品包裝上印制電子追溯碼(二維碼),生產(chǎn)者、經(jīng)營(yíng)者、監(jiān)管者和消費(fèi)者可掃描電子追溯碼(二維碼),查詢獸藥產(chǎn)品信息,實(shí)現(xiàn)獸藥產(chǎn)品可追溯。目前,追溯系統(tǒng)主要包含:國(guó)家獸藥產(chǎn)品追溯信息系統(tǒng)、國(guó)家獸藥基礎(chǔ)信息查詢系統(tǒng)、國(guó)家獸藥進(jìn)銷存軟件、數(shù)據(jù)采集設(shè)備(內(nèi)含數(shù)據(jù)采集系統(tǒng))、國(guó)家獸藥查詢手機(jī)APP等。
2016年4月,農(nóng)業(yè)部辦公廳發(fā)布《關(guān)于在全國(guó)范圍內(nèi)組織開(kāi)展獸藥經(jīng)營(yíng)追溯試點(diǎn)工作的通知》[4],在全國(guó)范圍內(nèi)組織開(kāi)展獸藥經(jīng)營(yíng)追溯試點(diǎn)工作。2016年6月,農(nóng)業(yè)部發(fā)布《關(guān)于加快推進(jìn)農(nóng)產(chǎn)品質(zhì)量安全追溯體系建設(shè)的意見(jiàn)》[5],應(yīng)用現(xiàn)代信息技術(shù)加快推進(jìn)全國(guó)農(nóng)產(chǎn)品質(zhì)量安全追溯體系建設(shè)。2016年10月,農(nóng)業(yè)部辦公廳印發(fā)《農(nóng)業(yè)農(nóng)村大數(shù)據(jù)試點(diǎn)方案》的通知[6],推動(dòng)農(nóng)業(yè)農(nóng)村大數(shù)據(jù)應(yīng)用,在農(nóng)產(chǎn)品質(zhì)量安全監(jiān)管領(lǐng)域研發(fā)支撐智慧農(nóng)業(yè)建設(shè)的大數(shù)據(jù)應(yīng)用系統(tǒng),爭(zhēng)取2019年底實(shí)現(xiàn)數(shù)據(jù)共享取得突破和大數(shù)據(jù)應(yīng)用取得突破。
1.2 我國(guó)獸藥行業(yè)信息共享現(xiàn)狀 近年來(lái),我國(guó)獸藥信息體系發(fā)展迅速,已經(jīng)積累了可觀的數(shù)據(jù)量。獸藥追溯系統(tǒng)體系框架初步建立。但獸藥生產(chǎn)、經(jīng)營(yíng)和使用主體呈現(xiàn)“多、小、散”特點(diǎn),獸藥基礎(chǔ)信息仍處于多單位和多部門分散管理狀態(tài),政企間信息資料得不到充分利用,無(wú)法實(shí)現(xiàn)信息資源共享。
1.2.1 國(guó)家獸藥信息數(shù)據(jù)庫(kù)不斷完善 中國(guó)獸藥信息網(wǎng)自2001年開(kāi)通以來(lái),宣傳獸藥產(chǎn)業(yè)政策方針、法律法規(guī),普及推廣科學(xué)知識(shí),成為獸藥行業(yè)信息化建設(shè)基礎(chǔ)。依托中國(guó)獸藥信息網(wǎng)建設(shè)的國(guó)家獸藥基礎(chǔ)信息查詢系統(tǒng)2011年11月正式上線運(yùn)行,目前已有12個(gè)數(shù)據(jù)庫(kù),28.5萬(wàn)余條數(shù)據(jù),包括獸藥生產(chǎn)企業(yè)(許可證和GMP證書(shū))、獸藥產(chǎn)品批準(zhǔn)文號(hào)、獸用生物制品批簽發(fā)(國(guó)產(chǎn)、進(jìn)口)、獸藥標(biāo)簽說(shuō)明書(shū)等信息。
1.2.2 獸藥電子追溯不斷匯聚獸藥產(chǎn)業(yè)數(shù)據(jù)資產(chǎn)國(guó)家獸藥電子追溯將連接生產(chǎn)、經(jīng)營(yíng)、使用、監(jiān)管四個(gè)環(huán)節(jié),使我國(guó)獸藥產(chǎn)品首次實(shí)現(xiàn)流向可追溯、來(lái)源可查詢。目前,已有5000余家獸藥生產(chǎn)、經(jīng)營(yíng)企業(yè)和監(jiān)管單位在使用追溯系統(tǒng),獸藥生產(chǎn)、經(jīng)營(yíng)、使用、監(jiān)管等多個(gè)環(huán)節(jié)中所產(chǎn)生的海量數(shù)據(jù),逐漸形成獸藥產(chǎn)業(yè)數(shù)據(jù)資產(chǎn)。截止2016年12月底,追溯系統(tǒng)中的數(shù)據(jù)總量已近百億條。
1.2.3 獸藥不同環(huán)節(jié)信息化水平不均衡 獸藥使用環(huán)節(jié)的信息化應(yīng)用水平遠(yuǎn)落后于生產(chǎn)、經(jīng)營(yíng)環(huán)節(jié)。長(zhǎng)期以來(lái),獸藥行業(yè)信息化基本呈金字塔模式:以部分大型獸藥生產(chǎn)企業(yè)和監(jiān)管單位為金字塔尖,大部分生產(chǎn)企業(yè)和部分獸藥經(jīng)營(yíng)企業(yè)組成金字塔身,多數(shù)經(jīng)營(yíng)企業(yè)和養(yǎng)殖場(chǎng)構(gòu)成金字塔底。而獸藥使用信息恰恰是獸藥大數(shù)據(jù)的重要部分。
1.2.4 重系統(tǒng)建設(shè),輕數(shù)據(jù)分析利用 近幾年來(lái),獸藥行業(yè)對(duì)硬件基礎(chǔ)設(shè)施及應(yīng)用系統(tǒng)開(kāi)發(fā)的重視程度普遍較高,建成了各種管理系統(tǒng),投入也越來(lái)越大,甚至用到了小型機(jī)和大型網(wǎng)絡(luò)設(shè)備,認(rèn)為信息化建設(shè)與系統(tǒng)搭建實(shí)施可以直接劃等號(hào),忽視了信息資源的開(kāi)發(fā)和利用,出現(xiàn)了“重系統(tǒng)輕數(shù)據(jù)”的問(wèn)題,對(duì)數(shù)據(jù)的分析利用、深度挖掘重視不足,難以滿足政府決策需求,信息化總體效益和效果不盡如人意。
1.2.5 獸藥信息共享不足,存在“單兵作戰(zhàn)”和“信息孤島”現(xiàn)象 我國(guó)在獸藥信息化建設(shè)尤其是獸藥監(jiān)管和企業(yè)管理方面發(fā)展迅速,建立了國(guó)家獸藥產(chǎn)品追溯系統(tǒng)、企業(yè)防偽防串貨系統(tǒng)、實(shí)驗(yàn)室信息管理系統(tǒng)(LIMS)、廣西動(dòng)物衛(wèi)生監(jiān)督信息管理平臺(tái)、河南省飼料獸藥追溯系統(tǒng)等,但各省、市獸藥系統(tǒng)多數(shù)獨(dú)立運(yùn)行,尚未實(shí)現(xiàn)業(yè)務(wù)數(shù)據(jù)的縱向交換和橫向共享。因數(shù)據(jù)采集的渠道不同、標(biāo)準(zhǔn)各異、重復(fù)冗余,系統(tǒng)之間難以兼容,信息資源難以共享,形成了“信息孤島”,由于缺乏溝通,沒(méi)有充分挖掘利用數(shù)據(jù)的潛在價(jià)值。
1.2.6 數(shù)據(jù)質(zhì)量較差 不同的系統(tǒng)因多種原因數(shù)據(jù)收集和錄入準(zhǔn)確性不高,數(shù)據(jù)標(biāo)準(zhǔn)出現(xiàn)前后不一致的現(xiàn)象。不同結(jié)構(gòu)與屬性的數(shù)據(jù)來(lái)源分屬于很多部門,甚至個(gè)人所有,數(shù)據(jù)采集質(zhì)量較差。
總的來(lái)看,目前我國(guó)獸藥行業(yè)整體尚未能實(shí)現(xiàn)信息共享。隨著信息化水平不斷提高,獸藥行業(yè)單位和企業(yè)積累了大量基礎(chǔ)數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù),這些“原始數(shù)據(jù)”是信息化建設(shè)和管理的基礎(chǔ)。隨著大數(shù)據(jù)等技術(shù)的成熟,信息化建設(shè)的重心將逐步從信息技術(shù)向數(shù)據(jù)技術(shù)轉(zhuǎn)化,未來(lái)信息化建設(shè)的重心將是如何對(duì)系統(tǒng)內(nèi)的數(shù)據(jù)進(jìn)行深入的挖掘和分析。
1.3 獸藥大數(shù)據(jù)平臺(tái)建設(shè)的必要性 有效、適時(shí)的大數(shù)據(jù)管理能夠從我國(guó)獸藥生產(chǎn)、流通、使用和監(jiān)管領(lǐng)域的數(shù)據(jù)中分析出很多深入的和有價(jià)值的信息,為建立完善的獸藥追溯體系和風(fēng)險(xiǎn)預(yù)測(cè)機(jī)制提供契機(jī)和依據(jù),也有助于解決獸藥安全信息不對(duì)稱的問(wèn)題。
對(duì)于監(jiān)管部門來(lái)說(shuō),建設(shè)獸藥大數(shù)據(jù)平臺(tái)有助于探索建立新的獸藥安全風(fēng)險(xiǎn)防控機(jī)制。獸藥大數(shù)據(jù)平臺(tái)建成之后,利用大數(shù)據(jù),可以分析不同地區(qū)的用藥情況,找出控制用藥的重點(diǎn)地區(qū);分析不同畜禽品種的用藥情況,找出重點(diǎn)的控制用藥的畜禽品種;分析不同的季節(jié)與養(yǎng)殖規(guī)模和畜禽用藥的關(guān)系,給出有效應(yīng)對(duì)措施;分析抗菌藥的使用特點(diǎn),采取針對(duì)性的措施;分析假劣獸藥的生產(chǎn)、流通和使用規(guī)律,提高假劣獸藥的打擊力度和獸藥殘留控制的效率;實(shí)現(xiàn)大視角、全方位、多角度的觀察和分析,找出重點(diǎn)、找準(zhǔn)關(guān)鍵點(diǎn),建立新的獸藥安全風(fēng)險(xiǎn)防控和風(fēng)險(xiǎn)預(yù)測(cè)機(jī)制。
對(duì)于生產(chǎn)、經(jīng)營(yíng)企業(yè)來(lái)說(shuō),建設(shè)獸藥大數(shù)據(jù)平臺(tái)有助于提高企業(yè)管理水平。國(guó)家獸藥電子追溯碼的推行加快了獸藥企業(yè)信息化建設(shè),基礎(chǔ)設(shè)施及應(yīng)用系統(tǒng)開(kāi)發(fā)的重視程度逐漸增高,但卻出現(xiàn)了“重系統(tǒng)輕數(shù)據(jù)”問(wèn)題,對(duì)數(shù)據(jù)分析利用、深度挖掘重視不足。行業(yè)普遍認(rèn)為,信息化建設(shè)等同于系統(tǒng)開(kāi)發(fā)應(yīng)用,忽視信息資源的開(kāi)發(fā)和利用。目前獸藥企業(yè)信息系統(tǒng)并未按照統(tǒng)一標(biāo)準(zhǔn)開(kāi)發(fā),多數(shù)只能滿足業(yè)務(wù)流程的電子化和功能性需求,無(wú)法有效提取數(shù)據(jù)中含有的巨大價(jià)值。
對(duì)于終端獸藥用戶來(lái)說(shuō),建設(shè)獸藥大數(shù)據(jù)平臺(tái)可提供廣泛的查詢及用藥服務(wù)。獸藥作為一種特殊商品,獸藥綜合信息查詢可以提高用藥安全性。目前,國(guó)內(nèi)的獸藥綜合信息查詢平臺(tái)僅有國(guó)家獸藥基礎(chǔ)信息查詢系統(tǒng),功能僅限于基礎(chǔ)獸藥相關(guān)信息查詢,尚不能滿足終端獸藥用戶用藥服務(wù)。獸藥大數(shù)據(jù)平臺(tái)未來(lái)可通過(guò)定制服務(wù)為包括政府機(jī)構(gòu)、監(jiān)管單位、企業(yè)、普通大眾等不同層級(jí)提供服務(wù),從基礎(chǔ)應(yīng)用到深度應(yīng)用,從查詢服務(wù)到數(shù)據(jù)服務(wù),實(shí)現(xiàn)獸藥基礎(chǔ)信息查詢、流通信息追溯、監(jiān)管信息共享,整合獸藥生產(chǎn)環(huán)節(jié)、經(jīng)營(yíng)環(huán)節(jié)、監(jiān)管環(huán)節(jié)、養(yǎng)殖場(chǎng)、終端用戶的數(shù)據(jù)信息,逐步建立獸藥產(chǎn)業(yè)數(shù)據(jù)資產(chǎn)。
2.1 大數(shù)據(jù)的定義 目前對(duì)大數(shù)據(jù)尚未有統(tǒng)一公認(rèn)的定義。維基百科給出的大數(shù)據(jù)定義為:數(shù)據(jù)量規(guī)模巨大到無(wú)法通過(guò)人工,在合理時(shí)間內(nèi)達(dá)到截取、管理、處理并整理成為人類所能解讀的信息;IBM 則用4個(gè)特征相結(jié)合來(lái)定義大數(shù)據(jù):數(shù)量(volume)、種類(variety)、速度(velocity)和真實(shí)(veracity)[7]。目前人們對(duì)大數(shù)據(jù)具有數(shù)量巨大(volume)、種類多樣(variety)和處理時(shí)效緊(velocity)的特征存在共識(shí)。大數(shù)據(jù)可以在大規(guī)模數(shù)據(jù)的基礎(chǔ)上,挖掘分析獲得新的認(rèn)知、創(chuàng)造新的價(jià)值并以此改變市場(chǎng)、組織機(jī)構(gòu)以及政府與公民的關(guān)系[8]。同時(shí),也是政府做出科學(xué)、準(zhǔn)確決策的“數(shù)據(jù)技術(shù)支撐”。通俗的講,大數(shù)據(jù)指的是經(jīng)過(guò)長(zhǎng)期收集所得的資料, 因規(guī)模巨大而復(fù)雜, 無(wú)法通過(guò)目前主流的數(shù)據(jù)庫(kù)管理工具和數(shù)據(jù)處理軟件來(lái)處理[9]。大數(shù)據(jù)與過(guò)去海量數(shù)據(jù)的區(qū)別不僅僅在于數(shù)據(jù)量更大, 更在于數(shù)據(jù)類型繁多[10],不單純包括“數(shù)字”,還包括文本、圖片、音頻、視頻等多種格式,涵蓋內(nèi)容十分豐富[11]。
根據(jù)來(lái)源的不同,大數(shù)據(jù)大致可分為如下三類[12]:(1)來(lái)自于人。人們?cè)诨ヂ?lián)網(wǎng)活動(dòng)以及使用移動(dòng)互聯(lián)網(wǎng)過(guò)程中所產(chǎn)生的各類數(shù)據(jù),包括文字、圖片、視頻等信息。(2)來(lái)自于機(jī)。各類計(jì)算機(jī)信息系統(tǒng)產(chǎn)生的數(shù)據(jù),以文件、數(shù)據(jù)庫(kù)、多媒體等形式存在,也包括審計(jì)、 日志等自動(dòng)生成的信息。(3)來(lái)自于物。各類數(shù)字設(shè)備所采集的數(shù)據(jù)。如攝像頭產(chǎn)生的數(shù)字信號(hào)、醫(yī)療物聯(lián)網(wǎng)中產(chǎn)生的人的各項(xiàng)特征值、天文望遠(yuǎn)鏡所產(chǎn)生的大量數(shù)據(jù)等。
獸藥大數(shù)據(jù)屬于生物大數(shù)據(jù)范疇。在我國(guó)目前獸藥監(jiān)管體系下,獸藥大數(shù)據(jù)有動(dòng)態(tài)數(shù)據(jù)和靜態(tài)數(shù)據(jù),主要含有:獸藥監(jiān)管機(jī)構(gòu)歷年獸藥質(zhì)量抽查檢驗(yàn)數(shù)據(jù);歷年獸藥基礎(chǔ)數(shù)據(jù);獸藥注冊(cè)審批資料;企業(yè)GMP及過(guò)程控制信息;獸藥電子追溯信息;來(lái)源于公共數(shù)據(jù)庫(kù)和文獻(xiàn)的與藥物分析、安全性評(píng)價(jià)等有關(guān)的數(shù)據(jù)。這些信息既包括數(shù)字型數(shù)據(jù),如獸藥檢驗(yàn)結(jié)果;也有文本類信息,如抽驗(yàn)報(bào)告、注冊(cè)資料等。上述信息或數(shù)據(jù)具有明顯實(shí)效性,隨著時(shí)間的推移,使用價(jià)值遞減。因此,如何在合理的時(shí)間內(nèi)對(duì)上述信息的提取、處理并整理成可服務(wù)于獸藥行業(yè)的有用信息則成為關(guān)鍵。
2.2 大數(shù)據(jù)的關(guān)鍵技術(shù) 大數(shù)據(jù)處理涉及數(shù)據(jù)的采集、管理、分析與展示等。相關(guān)技術(shù)示意圖如圖1所示。
圖1 大數(shù)據(jù)相關(guān)技術(shù)示意圖
2.2.1 數(shù)據(jù)采集與預(yù)處理 大數(shù)據(jù)處理的第一步是從數(shù)據(jù)源采集數(shù)據(jù)并進(jìn)行預(yù)處理操作,為后繼流程提供統(tǒng)一的高質(zhì)量的數(shù)據(jù)集。數(shù)據(jù)采集與預(yù)處理主要含有數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)存儲(chǔ)三個(gè)方面。
在大數(shù)據(jù)環(huán)境下,大數(shù)據(jù)的維度包含了數(shù)量、多樣性、速度、精確性等,在如此大維度中不可避免地存在冗余、錯(cuò)誤、粗糙的數(shù)據(jù),如何將這些良莠不齊的非清潔數(shù)據(jù)有效轉(zhuǎn)化成高質(zhì)量的干凈數(shù)據(jù),需要數(shù)據(jù)清洗。數(shù)據(jù)的質(zhì)量體現(xiàn)出數(shù)據(jù)的價(jià)值,數(shù)據(jù)清洗是數(shù)據(jù)質(zhì)量研究的起點(diǎn),其本質(zhì)是發(fā)現(xiàn)并解決問(wèn)題的過(guò)程,最終目的是提高數(shù)據(jù)的質(zhì)量[13]。數(shù)據(jù)清洗主要是將不正確、不完整和不一致的數(shù)據(jù)進(jìn)行過(guò)濾和規(guī)范,從而提高決策系統(tǒng)的準(zhǔn)確性;并根據(jù)待分析數(shù)據(jù)的特點(diǎn)對(duì)規(guī)范后的數(shù)據(jù)進(jìn)行歸約,從而提高決策系統(tǒng)的效率。
由于大數(shù)據(jù)的來(lái)源不一,可能存在不同模式的描述,甚至存在矛盾。因此,在數(shù)據(jù)集成過(guò)程中對(duì)數(shù)據(jù)進(jìn)行清洗,以消除相似、重復(fù)或不一致的數(shù)據(jù)是非常必要的。
數(shù)據(jù)存儲(chǔ)與大數(shù)據(jù)應(yīng)用密切相關(guān)。某些實(shí)時(shí)性要求較高的應(yīng)用,如狀態(tài)監(jiān)控,更適合采用流處理模式,直接在清洗和集成后的數(shù)據(jù)源上進(jìn)行分析。而大多數(shù)其它應(yīng)用則需要存儲(chǔ),以支持后繼更深度的數(shù)據(jù)分析流程。為了提高數(shù)據(jù)吞吐量,降低存儲(chǔ)成本,通常采用分布式架構(gòu)來(lái)存儲(chǔ)大數(shù)據(jù)。
2.2.2 數(shù)據(jù)分析 數(shù)據(jù)分析是大數(shù)據(jù)應(yīng)用的核心流程。根據(jù)不同層次大致可分為三類:計(jì)算架構(gòu)、查詢與索引以及數(shù)據(jù)挖掘。在計(jì)算架構(gòu)方面,MapReduce是當(dāng)前廣泛采用的大數(shù)據(jù)集計(jì)算模型和框架。在查詢與索引方面,由于大數(shù)據(jù)中包含了大量的非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù),傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)的查詢和索引技術(shù)受到限制,而NoSQL類數(shù)據(jù)庫(kù)技術(shù)得到更多關(guān)注。由于大數(shù)據(jù)環(huán)境下數(shù)據(jù)呈現(xiàn)多樣化特點(diǎn),所以對(duì)數(shù)據(jù)進(jìn)行挖掘時(shí),就較難統(tǒng)一術(shù)語(yǔ)進(jìn)而挖掘信息。
2.2.3 數(shù)據(jù)解釋 數(shù)據(jù)解釋旨在更好地支持用戶對(duì)數(shù)據(jù)分析結(jié)果的使用,涉及的主要技術(shù)為可視化、人機(jī)交互和結(jié)果展示。目前已經(jīng)有了一些針對(duì)大規(guī)模數(shù)據(jù)的可視化研究,通過(guò)數(shù)據(jù)投影、維度降解或顯示墻等方法來(lái)解決大規(guī)模數(shù)據(jù)的顯示問(wèn)題。由于人類的視覺(jué)敏感度限制了更大屏幕顯示的有效性,以人為中心的人機(jī)交互設(shè)計(jì)也將是解決大數(shù)據(jù)分析結(jié)果展示的一種重要技術(shù)。
2.2.4 其他支撐技術(shù) 雖然大數(shù)據(jù)應(yīng)用強(qiáng)調(diào)以數(shù)據(jù)為中心,將計(jì)算推送到數(shù)據(jù)上執(zhí)行,但是在整個(gè)處理過(guò)程中,數(shù)據(jù)的傳輸仍然是必不可少的。由于虛擬集群具有成本低、搭建靈活、便于管理等優(yōu)點(diǎn),人們?cè)诖髷?shù)據(jù)分析時(shí)可以選擇更加方便的虛擬集群來(lái)完成各項(xiàng)處理任務(wù)。
2.3 大數(shù)據(jù)的分析應(yīng)用 目前,大數(shù)據(jù)的分析應(yīng)用主要用于科學(xué)、醫(yī)藥、商業(yè)、金融、互聯(lián)網(wǎng)等各個(gè)領(lǐng)域,用途差異巨大,但是其分析應(yīng)用主要有以下三個(gè)方面[14]:(1)推測(cè)趨勢(shì):由于大數(shù)據(jù)中包含大量原始、真實(shí)的信息,大數(shù)據(jù)分析能更準(zhǔn)確把握事物背后的規(guī)律,有效消除個(gè)體特征差異,對(duì)自然或社會(huì)現(xiàn)象進(jìn)行預(yù)測(cè),如可以根據(jù)Twitter信息預(yù)測(cè)股票行情。(2)分析個(gè)體特征:個(gè)體特征在滿足群體特征時(shí),具有鮮明的個(gè)性化特征。大數(shù)據(jù)中積累了長(zhǎng)時(shí)間、多維度的數(shù)據(jù),可以分析用戶行為規(guī)律,更準(zhǔn)確描述個(gè)體特征,為用戶提供個(gè)性化產(chǎn)品和服務(wù)。如Google通過(guò)其大數(shù)據(jù)產(chǎn)品對(duì)用戶的習(xí)慣和愛(ài)好進(jìn)行分析,幫助廣告商評(píng)估廣告活動(dòng)效率,預(yù)估在未來(lái)可能存在高達(dá)到數(shù)千億美元的市場(chǎng)規(guī)模。(3)分辨真相:大數(shù)據(jù)來(lái)源廣泛而多樣,在一定程度上它可以幫助實(shí)現(xiàn)信息的去偽存真。如Yahoo利用大數(shù)據(jù)分析技術(shù)來(lái)過(guò)濾垃圾郵件。
3.1 建設(shè)原則 按照“整體規(guī)劃、統(tǒng)一標(biāo)準(zhǔn)、分步實(shí)施、逐步完善”原則,從獸藥行業(yè)需要出發(fā),統(tǒng)籌整體規(guī)劃、強(qiáng)化頂層設(shè)計(jì),統(tǒng)一數(shù)據(jù)定義、制定數(shù)據(jù)標(biāo)準(zhǔn),逐步健全平臺(tái)、分步實(shí)施應(yīng)用,建設(shè)數(shù)據(jù)中心、完善數(shù)據(jù)模塊,實(shí)現(xiàn)對(duì)獸藥數(shù)據(jù)的深度利用和信息共享,輔助行政管理部門進(jìn)行合理、有效地決策。為了保證獸藥大數(shù)據(jù)平臺(tái)發(fā)揮其應(yīng)有的作用和功能,建設(shè)獸藥大數(shù)據(jù)平臺(tái)時(shí)應(yīng)遵循以下原則:
經(jīng)濟(jì)適用原則:按照經(jīng)濟(jì)實(shí)用、需求主導(dǎo)的要求,確定平臺(tái)建設(shè)的規(guī)模和軟硬件配置,要求系統(tǒng)具有很強(qiáng)的環(huán)境適應(yīng)性、較好的開(kāi)放性;功能模塊間輕耦合,互相通信,交換數(shù)據(jù)。統(tǒng)一建設(shè)原則:平臺(tái)建設(shè)要統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn)(數(shù)據(jù)結(jié)構(gòu)標(biāo)準(zhǔn)),同時(shí)兼顧特殊性,形成縱向和橫向的一體化數(shù)據(jù)中心。安全可靠原則:平臺(tái)建設(shè)要符合信息安全的一般特征,保證存儲(chǔ)安全、邏輯安全、訪問(wèn)安全和傳輸安全,結(jié)合平臺(tái)自身安全體系,充分確保數(shù)據(jù)、網(wǎng)絡(luò)安全??蓴U(kuò)展性原則:平臺(tái)建設(shè)應(yīng)具有較大的可升級(jí)空間,以保證業(yè)務(wù)流程的連續(xù)性和系統(tǒng)信息的一致性,立足現(xiàn)有數(shù)據(jù)資源整合建設(shè),同時(shí)為未來(lái)不同數(shù)據(jù)融合利用留有余地。分步實(shí)施原則:信息化平臺(tái)建設(shè)不會(huì)一蹴而就,是一個(gè)長(zhǎng)期、持續(xù)的過(guò)程,既要考慮短期內(nèi)成效,又要保護(hù)持續(xù)發(fā)展。因此,平臺(tái)架構(gòu)設(shè)計(jì)要先進(jìn)合理,符合主流趨勢(shì),才能確保之后運(yùn)行穩(wěn)定、安全可靠、后續(xù)建設(shè)。
3.2 平臺(tái)架構(gòu) 獸藥大數(shù)據(jù)的開(kāi)發(fā)建設(shè)采用智能化數(shù)據(jù)處理工具,對(duì)國(guó)家獸藥產(chǎn)品追溯系統(tǒng)、國(guó)家獸藥產(chǎn)品基礎(chǔ)信息查詢系統(tǒng)、LIMS等系統(tǒng)產(chǎn)生的海量數(shù)據(jù)按照數(shù)據(jù)規(guī)范進(jìn)行清洗、整合后,根據(jù)業(yè)務(wù)需求對(duì)數(shù)據(jù)進(jìn)行二次計(jì)算,并以可視化交互方式進(jìn)行展示,通過(guò)簡(jiǎn)單、靈活、可擴(kuò)展的操作方式獲取分析統(tǒng)計(jì)結(jié)果,為獸藥監(jiān)督管理、企業(yè)運(yùn)行等提供服務(wù)。獸藥大數(shù)據(jù)平臺(tái)架構(gòu)如圖2所示。
3.3 平臺(tái)建設(shè)關(guān)鍵因素 獸藥電子追溯碼標(biāo)識(shí)制度是獸藥行業(yè)發(fā)展的需要,獸藥電子追溯體系收集的信息資源對(duì)于前期大數(shù)據(jù)平臺(tái)建設(shè)十分重要。獸藥大數(shù)據(jù)平臺(tái)建設(shè)關(guān)鍵因素如下:
3.3.1 建立制度體系,加強(qiáng)數(shù)據(jù)共享,打破“信息孤島模式”,形成數(shù)據(jù)資源共享的體制與機(jī)制 在這方面,獸醫(yī)行政管理機(jī)構(gòu)可充分發(fā)揮統(tǒng)籌和引領(lǐng)作用,基于對(duì)核心單位和企業(yè)調(diào)研,制定規(guī)劃目標(biāo),建立農(nóng)業(yè)部門內(nèi)部不同司局、單位、部門之間的溝通協(xié)作機(jī)制,梳理各部門之間的數(shù)據(jù)共享交換標(biāo)準(zhǔn),同時(shí)部級(jí)、省級(jí)、市級(jí)、縣級(jí)各主管部門之間建立數(shù)據(jù)共享匯聚渠道,建立我國(guó)獸藥大數(shù)據(jù)中心,形成我國(guó)獸藥數(shù)據(jù)資產(chǎn)。
圖2 獸藥大數(shù)據(jù)平臺(tái)架構(gòu)
3.3.2 完善數(shù)據(jù)標(biāo)準(zhǔn),保證業(yè)務(wù)數(shù)據(jù)準(zhǔn)確性、唯一性,確保原始業(yè)務(wù)數(shù)據(jù)質(zhì)量 對(duì)已有數(shù)據(jù)需徹底清洗和規(guī)范,使之能符合數(shù)據(jù)分析的要求,此過(guò)程需要和業(yè)務(wù)部門商討,總結(jié)出數(shù)據(jù)的規(guī)范和標(biāo)準(zhǔn),并通過(guò)一些專業(yè)的數(shù)據(jù)處理工具對(duì)原始數(shù)據(jù)進(jìn)行自動(dòng)清洗。還需引入業(yè)務(wù)專家對(duì)清洗后的數(shù)據(jù)進(jìn)行人工審核,繼續(xù)找出數(shù)據(jù)中存在的問(wèn)題,并給予修正,直到滿足后期數(shù)據(jù)分析的要求為止。
3.3.3 整合數(shù)據(jù)資源,強(qiáng)化頂層設(shè)計(jì),建設(shè)數(shù)據(jù)中心 在獸藥大數(shù)據(jù)平臺(tái)建設(shè)過(guò)程中,應(yīng)統(tǒng)籌規(guī)劃數(shù)據(jù)中心與之前系統(tǒng),加強(qiáng)統(tǒng)一指導(dǎo),分級(jí)建設(shè),按照統(tǒng)一的信息化標(biāo)準(zhǔn)規(guī)范,加快整合各類業(yè)務(wù)應(yīng)用系統(tǒng),逐步建設(shè)成國(guó)家、省(市)兩級(jí)的獸藥大數(shù)據(jù)中心,實(shí)現(xiàn)資源整合和數(shù)據(jù)共享,為科學(xué)決策、智能監(jiān)管以及行業(yè)服務(wù)提供數(shù)據(jù)支撐。
3.3.4 加強(qiáng)人才培養(yǎng),建設(shè)復(fù)合型人才隊(duì)伍 大數(shù)據(jù)時(shí)代的到來(lái)對(duì)獸藥行業(yè)人才的技能和素質(zhì)提出了新的要求,急需擅于處理龐大規(guī)模和復(fù)雜結(jié)構(gòu)數(shù)據(jù)的專業(yè)人才,包括數(shù)據(jù)分析師、數(shù)據(jù)可視化人員和數(shù)據(jù)管理人員等,以適應(yīng)深度分析數(shù)據(jù)的需要。除要具備較強(qiáng)的數(shù)理統(tǒng)計(jì)知識(shí)和技能,還要擁有一定管理、獸醫(yī)獸藥、信息技術(shù)等專業(yè)知識(shí),才能具備跨學(xué)科、跨領(lǐng)域的數(shù)據(jù)綜合分析思想,駕馭大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與分析應(yīng)用。
大數(shù)據(jù)是一種從海量數(shù)據(jù)中快速獲取信息的能力,為提高我國(guó)獸藥行業(yè)發(fā)展水平提供了新的思路和切入點(diǎn)。獸藥大數(shù)據(jù)平臺(tái)的建設(shè)是一項(xiàng)技術(shù)、業(yè)務(wù)、管理緊密結(jié)合的復(fù)雜工程,目前還處在探索和研究階段。 在平臺(tái)建設(shè)的設(shè)計(jì)過(guò)程中,應(yīng)充分考慮平臺(tái)的標(biāo)準(zhǔn)化和開(kāi)放性,以及完善的配套法規(guī)制度,如平臺(tái)運(yùn)行保障制度、數(shù)據(jù)質(zhì)量保障制度、數(shù)據(jù)安全保障制度等。
在獸藥電子追溯制度實(shí)施和大數(shù)據(jù)時(shí)代的背景下,期待進(jìn)行大數(shù)據(jù)和獸藥行業(yè)的大融合,進(jìn)一步推動(dòng)獸藥行業(yè)的信息化建設(shè),為提升獸藥監(jiān)管效能,提供科學(xué)、有效的數(shù)據(jù)支撐。
[1] 維克托·邁爾-舍恩伯格,肯尼思·庫(kù)克耶. 大數(shù)據(jù)時(shí)代[M]. 杭州:浙江人民出版社, 2013.
[2] 國(guó)務(wù)院. 國(guó)發(fā)[2015]50號(hào)國(guó)務(wù)院關(guān)于印發(fā)促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要的通知[S] .2015.
[3] 農(nóng)業(yè)部. 中華人民共和國(guó)農(nóng)業(yè)部公告第2210號(hào)[EB/OL]. (2015-1-27). http://www.moa.gov.cn/govpublic/SYJ/201501/t20150127_4352158.htm
[4] 農(nóng)業(yè)部辦公廳.《關(guān)于在全國(guó)范圍內(nèi)組織開(kāi)展獸藥經(jīng)營(yíng)追溯試點(diǎn)工作的通知》農(nóng)辦醫(yī)[2016]22號(hào)[EB/OL]. (2016-4-15). http://www.moa.gov.cn/govpublic/SYJ/201604/t20160419_5100452.htm
[5] 農(nóng)業(yè)部. 《關(guān)于加快推進(jìn)農(nóng)產(chǎn)品質(zhì)量安全追溯體系建設(shè)的意見(jiàn)》農(nóng)質(zhì)發(fā)[2016]8號(hào)[EB/OL]. (2016-6-23). http://www.moa.gov.cn/govpublic/ncpzlaq/201606/t20160623_5184476.htm
[6] 農(nóng)業(yè)部辦公廳. 《關(guān)于印發(fā)<農(nóng)業(yè)農(nóng)村大數(shù)據(jù)試點(diǎn)方案>的通知》農(nóng)辦市[2016]30號(hào)[EB/OL]. (2016-10-14). http://www.moa.gov.cn/zwllm/tzgg/tfw/201610/t20161018_5308511.htm
[7] 陳剛. 科學(xué)研究大數(shù)據(jù)挑戰(zhàn)[J]. 科學(xué)通報(bào), 2015, 60 (5/6):439-444.
[8] 孟憲民, 李磊. 大數(shù)據(jù)應(yīng)用及相關(guān)財(cái)稅思考[J]. 地方財(cái)政研究, 2013, (10):70-72.
[9] Wikipedia. Big data[EB/OL]. http://en.wikipedia.org/wiki/Big_data,2014-05-16.
[10]Grobelnik M. Big data tutorial [EB/OL]. (2012-10-22). http://viedeolectures.net/eswc2012-grobelnik-big-data/
[11]陳冠如.善用“大數(shù)據(jù)”成就智慧監(jiān)管[N]. 中國(guó)醫(yī)藥報(bào), 2014-04-08(8).
[12]李國(guó)杰, 程學(xué)旗.大數(shù)據(jù)研究:未來(lái)科技及經(jīng)濟(jì)社會(huì)發(fā)展的重大戰(zhàn)略領(lǐng)域[J]. 中國(guó)科學(xué)院院刊, 2012, (6):647-657.
[13]蔣勛, 劉喜文. 大數(shù)據(jù)環(huán)境下面向知識(shí)服務(wù)的數(shù)據(jù)清洗研究[J]. 圖書(shū)與情報(bào), 2013, (5) : 16-21.
[14]馮登國(guó), 張敏, 李昊. 大數(shù)據(jù)安全與隱私保護(hù)[J]. 計(jì)算機(jī)學(xué)報(bào), 2014, (1): 246-258.
(編輯:李文平)
Research on Construction of Veterinary Drugs Big Data Platform Based on Veterinary Drugs Electronic Trace
HAO Hao-gang, GAO Lu-jun, ZHANG Ji-hui, LIU Ling, TANG Jun, LI Xiao-ping,ZHAO Li-dan*
(ChinaInstituteofVeterinaryDrugControl,Beijing100081,China)
In this paper the necessity of construction on veterinary drugs big data platform was analyzed,the key technology and analytical applications of big data were introduced from the current situation of state implementing veterinary drugs product electronic trace.Meanwhile,emphasis was on the specification of the construction principle and technology framework of veterinary drugs big data platform.In addition,reflection was made on the key factors in the construction of veterinary drugs big data platform in order to provide data support for the development of veterinary drugs industry.
big data; veterinary drugs electronic trace; data analysis
郝毫剛,碩士,工程師,從事獸藥信息化建設(shè)和大數(shù)據(jù)研究工作。
趙麗丹。E-mail: zhaolidan@ivdc.org.cn
2017-01-05
A
1002-1280 (2017) 03-0004-07
S851.66