陳海濤
(中國食品藥品檢定研究院信息中心 北京 102629)
當前,在食品、藥品安全監(jiān)管體制機制、法律法規(guī)、政策標準、監(jiān)測評估、檢驗檢測、人才隊伍、技術(shù)裝備等方面,還存在一些亟待解決的問題[1~3];比如食品、藥品行業(yè)產(chǎn)業(yè)化、規(guī)?;?、集約化程度不高,基礎薄弱,產(chǎn)地環(huán)境污染問題較為嚴重;企業(yè)主體責任落實不夠,質(zhì)量安全控制投入不足,管理能力不強,行業(yè)誠信道德體系建設滯后[4~5];危害食品、藥品安全的違法犯罪行為屢禁不止,食品、藥品安全風險隱患依然較多,食品、藥品安全事故時有發(fā)生,食品、藥品安全監(jiān)管面臨的形勢依然復雜嚴峻[6~8]。
目前,食品、藥品安全的信息化平臺建設將逐步建成覆蓋全市各級食品藥品監(jiān)管部門的統(tǒng)一高效、互聯(lián)互通、協(xié)同共享的食品藥品安全服務、監(jiān)督管理的行政服務平臺[9~10]。根據(jù)食品、藥品安全監(jiān)管信息化建設趨勢,按照各級政府的要求并結(jié)合目前實際情況,充分利用現(xiàn)代信息技術(shù),科學進行頂層設計,推進食品藥品監(jiān)管信息化工作開展,建成食品藥品安全綜合監(jiān)管統(tǒng)一平臺[11~12],兩級聯(lián)動的監(jiān)控指揮中心,完善三大支撐體系,建成日常監(jiān)管、稽查執(zhí)法、應急處理、信息監(jiān)測、信用管理、溯源管理、行政服務為核心的七大應用系統(tǒng),實現(xiàn)“一平臺、兩中心、三大支撐體系、七大應用系統(tǒng)”的整體目標,以全面提升我市食品藥品安全監(jiān)管水平、公共服務水平和決策水平[13~14]。
在信息化平臺架構(gòu)設計中,將其劃分為基礎層、數(shù)據(jù)層、數(shù)據(jù)處理層、數(shù)據(jù)應用層。具體架構(gòu)示意圖如圖1所示。通過該信息化平臺實現(xiàn)食品、藥品安全時空預警信息化體系的業(yè)務架構(gòu)設計,實現(xiàn)以“食品、藥品健康鏈”為主線的全生命周期信息監(jiān)測預警,下文將詳細描述。
圖1 信息化平臺體系架構(gòu)設計框圖
在基礎層中,其包含有網(wǎng)絡系統(tǒng)、智能設備、檢測裝置、存儲設備等,主要是用于維持信息化平臺體系架構(gòu)運行的硬件裝置等,除此還包含計算機、應用程序服務器、數(shù)據(jù)庫服務器、通訊協(xié)議、機房等基礎設施。
在數(shù)據(jù)層中,其包含各種不同設備傳遞的數(shù)據(jù),用于存儲各個基礎層使用過程中用戶傳遞、錄入的數(shù)據(jù)、智能設備測量的食品、藥品數(shù)據(jù),這些底層的檢測設備通過數(shù)據(jù)接口傳遞到數(shù)據(jù)層,為智能設備提供數(shù)據(jù)接口。在數(shù)據(jù)層中,其還包括數(shù)據(jù)信息系統(tǒng),在該系統(tǒng)中,其還包括監(jiān)控系統(tǒng),如圖2所示。該數(shù)據(jù)信息系統(tǒng)包含監(jiān)控系統(tǒng),監(jiān)控系統(tǒng)連接有數(shù)據(jù)采集單元、數(shù)據(jù)共享單元,其中數(shù)據(jù)采集系統(tǒng)采集數(shù)據(jù)有食品相關(guān)數(shù)據(jù)、藥品相關(guān)數(shù)據(jù),在采集過程中,通過食品污染物監(jiān)測網(wǎng)絡、藥品污染物監(jiān)測網(wǎng)絡或其他食品、藥品污染物監(jiān)測網(wǎng)絡。監(jiān)測后的數(shù)據(jù)在數(shù)據(jù)信息系統(tǒng)中進行共享。這些數(shù)據(jù)包含但不限于食品安全抽檢數(shù)據(jù)、藥品安全抽檢數(shù)據(jù)、進出口食品、藥品數(shù)據(jù)、其他監(jiān)控數(shù)據(jù)、食品、藥品狀態(tài)數(shù)據(jù),通過數(shù)據(jù)共享實現(xiàn)不同單元之間的數(shù)據(jù)共享。
圖2 數(shù)據(jù)信息系統(tǒng)構(gòu)架圖
在數(shù)據(jù)處理層中,其包含了底層設備或系統(tǒng)所需要的所有功能上的算法和計算過程,并與上層的數(shù)據(jù)應用層進行數(shù)據(jù)交互。抽象的說,數(shù)據(jù)處理層就是處理、計算、管理與數(shù)據(jù)業(yè)務相關(guān)的部分,在本文設計中,采用了機械學習算法對食品、藥品數(shù)據(jù)進行處理,比如:決策樹算法模型、Apriori算法、AP聚類分析算法、BP神經(jīng)網(wǎng)絡模型、支持矢量機算法、Adaboost迭代算法等機器學習方法構(gòu)建預測預警模型[15],其數(shù)據(jù)算法模型如圖3所示。
圖3 數(shù)據(jù)處理模型示意圖
其中AP聚類分析方法是一種機器學習并且無監(jiān)督的聚類算法,借助于AP聚類分析方法能夠?qū)⒉煌瑓^(qū)域的多類評價指標按醫(yī)學發(fā)病程度或者食品、藥物污染情況,按一定的屬性分類,這樣以比較不同區(qū)域的總體食品、藥品情況。BP神經(jīng)網(wǎng)絡模型算法是按誤差逆?zhèn)鞑ニ惴ㄓ柧毜亩鄬忧梆伨W(wǎng)絡,該方法利用梯度搜索技術(shù),將網(wǎng)絡的實際輸出值和期望輸出值的誤差均方差為最小。支持矢量機模型主要用來解決不同數(shù)據(jù)之間的模式識別問題、函數(shù)回歸問題。利用上述算法模型能夠建立以食品污染、藥品殘留、食品殘留、重金屬污染、微生物致病菌等類別作為輸出層的食品、藥品安全預警模型[16]。通過各種不同數(shù)據(jù)的訓練樣本為考察對象,建立起不同形式的預測模型。通過這種方式能夠解決不同任務,處理不同的數(shù)據(jù),并且每種數(shù)據(jù)算法模型中也有著諸多不同的算法,每種算法都適應不同的用戶需求。
上層為數(shù)據(jù)應用層,在有的地方也被稱為表示層,在該層,用戶可以通過客戶端來瀏覽訪問層,使得用戶通過瀏覽器來訪問信息化平臺界面,繼而獲取相關(guān)數(shù)據(jù)信息資源,通過用戶界面顯示數(shù)據(jù)處理結(jié)果。
本文采用Adaboost迭代算法對信息化平臺接收的不同數(shù)據(jù)進行分類和計算,其計算過程如圖4所示。
圖4 Adaboost迭代算法流程圖
1)獲取訓練樣本,訓練弱分類器;對N個食品、藥品的訓練樣本數(shù)據(jù)進行訓練、學習,輸出第一個弱分類器;在開始算法之前,將每個食品、藥品樣本的權(quán)重初始化定義為1/m,這樣有利于使每個食品、藥品樣本都是為等概率的分布,便于下一步工作的計算和處理。
用公式表示為
2)再次訓練弱分類器,將分錯的食品、藥品樣本和其他的食品、藥品新數(shù)據(jù)匯集在一起,再次構(gòu)成新型的N個食品、藥品訓練樣本,通過對新型的食品、藥品樣本的學習,輸出第二個弱分類器。
用公式表示為
3)繼續(xù)訓練弱分類器,將步驟1)和步驟2)都分錯了的樣本加上剩余的食品、藥品新樣本數(shù)據(jù)重新構(gòu)成新的第N個訓練樣本,通過對新型的食品、藥品樣本的學習,輸出第三個弱分類器。
4)迭代計算,根據(jù)上述訓練,開始迭代,計算出不同弱分類器分類的誤差,所計算出的誤差等于各個不同分錯食品、藥品樣本的權(quán)重和,假設一個弱分類器正確分類了一個權(quán)重大的食品、藥品樣本,則使用該分類器計算的誤差將會較小,否則誤差較大。在使用過程中,通常算法迭代的次數(shù)不超過弱分類器的個數(shù),如果有多個弱分類出現(xiàn),則按照用戶的需求進行選擇。
步驟2)、3)、4)用公式表示Gm(x)在訓練集上的誤差率公式為
5)歸一化處理:獲取最優(yōu)分類器之后,然后進一步地計算所選取的分類器的權(quán)重,接著再更新各個不同樣本的權(quán)重,進行再歸一化處理。
歸一化處理后,計算Gm(x)的系數(shù),am代表Gm(x)在訓練后的最終分類器中的關(guān)鍵程度,用公式表示為
在上述公式中,em≤1/2時,am≥0,通過公式可看出,am與em成反比例關(guān)系。即誤差率越小,分類器在最終分類器中越起到比較大的作用。
6)迭代判斷:判斷迭代次數(shù)是否等于閾值,如果與閾值相等,則完成迭代計算,最后的分類器則由迭代過程中所選擇的弱分類器經(jīng)過線性加權(quán)得到的。如果迭代次數(shù)不等于閾值,則重新進行迭代計算。
基于上述模型的建立,將上述建立的數(shù)據(jù)模型應用到上述建立的信息化平臺的評估上,則進行以下剖析,假設數(shù)據(jù)樣本如表1所示。
表1 樣本數(shù)據(jù)表
在求解時,對初始化訓練數(shù)據(jù)進行初始化權(quán)值分布,使每個權(quán)值Wi1=1/N=0,1,其中N=10,i=1,2,3……10,然后分別將m=1,2,3…等值進行迭代。在進行迭代計算時,對于m=1,在權(quán)值分布為D1的訓練數(shù)據(jù)上。使用分類器公式G1(x)表示為
在上述公式中,假設令閾值為2.5時,則誤差值為0.3,即當x<2.5時,G1(x)的值為1,當閾值為5.5時,則誤差值為0.4。當閾值G1(x)為8.5時,誤差率為0.3。
然后利用上述公式得出:G1(x)在訓練集中上的誤差率e1=P(G1(xi)≠yi)=3*0.1=0.3。然后根據(jù)誤差率e1計算G1的系數(shù):
a1表示為G1(x)在最終的分類函數(shù)中占用的權(quán)重為0.4236。然后進行下一輪的迭代。然后利用上述方法進行迭代計算,直到計算到誤差最小為止。
本文設計的信息化平臺的軟件部分可以劃分為系統(tǒng)數(shù)據(jù)庫、數(shù)據(jù)訪問層、系統(tǒng)組件庫、數(shù)據(jù)接口、萬維網(wǎng)(World WideWeb,WWW)服務器、無線應用協(xié)議(Wireless Application Protocol,WAP)服務器[17]六個部分,其結(jié)構(gòu)示意圖如圖5所示,下面對其主要技術(shù)進行描述。
圖5 軟件平臺結(jié)構(gòu)設計
1)Java EE
Java EE,其被稱為Java平臺企業(yè)版(Java Platform Enterprise Edition),能夠支撐企業(yè)級計算系統(tǒng)。在本文應用中,結(jié)合食藥監(jiān)局大部分業(yè)務應用的現(xiàn)狀以及跨平臺、跨系統(tǒng)等不同特性的要求、系統(tǒng)操作、系統(tǒng)維護便捷化、簡易化的需求。該軟件系統(tǒng)滿足食品、藥品處理數(shù)據(jù)、適應各種數(shù)據(jù)應用、存儲和發(fā)展變化的需要,在本軟件平臺設計中,選擇Java EE體系架構(gòu)作為處理數(shù)據(jù)的操作系統(tǒng)。
2)DB和OS
本文的軟件平臺系統(tǒng)兼容、使用各種不同大型關(guān)系型數(shù)據(jù)庫(DB)以及各類不同主流服務器操作系統(tǒng)(OS)。更進一步地說,本文軟件系統(tǒng)至少能夠支持各種大型的主流關(guān)系型數(shù)據(jù)庫,比如:ORACLE、SQL SERVER、MySQL等;除了這些操作系統(tǒng)之外,還能夠支持Windows、Linux等各種操作系統(tǒng)。
3)Webservice
在本文的軟件平臺中,還采用了Web Service技術(shù),Web Service技術(shù)可以將運行在各個不同設備上的應用程序彼此之間互相進行數(shù)據(jù)交換或數(shù)據(jù)集成,并不需要額外的、專門的第三方軟件或硬件。WebService交互實現(xiàn)過程是將WebService遵循SOAP協(xié)議,并且通過XML封裝數(shù)據(jù)進行處理,然后經(jīng)由Http協(xié)議實現(xiàn)食品、藥品數(shù)據(jù)的傳輸。本文的軟件平臺根據(jù)Web Service規(guī)范來實施不同的應用程序,這樣能夠使用具有不同語言、不同平臺或內(nèi)部協(xié)議的軟件平臺,有效地滿足異構(gòu)平臺數(shù)據(jù)的集成以及各種不同應用軟件的交互需求。
4)B/S結(jié)構(gòu)
B/S是Brower/Server的縮寫,其中文為瀏覽器/服務器,該結(jié)構(gòu)是Web廣泛使用后的一種網(wǎng)絡結(jié)構(gòu)模式。Web瀏覽器被稱為客戶端最為重要的應用軟件。這種架構(gòu)采用采取瀏覽器請求、服務器響應的工作模式。通過使用該用戶,能夠使用戶通過瀏覽器訪問Internet上經(jīng)由Web服務器產(chǎn)生的圖像、文本、數(shù)據(jù)、圖片、動畫、視頻點播和聲音等信息。采用該消息,使得用戶可以在不同的地方操作該平臺,無需安裝特別的專門軟件,維護、使用都很方便。在應用程序中,其工作過程極為便利,通過客戶端發(fā)送食品、藥品數(shù)據(jù)請求,使得用戶在客戶端中的瀏覽器頁面能夠提交表單操作,并向服務器發(fā)送食品、藥品數(shù)據(jù)請求,然后等待服務器響應。用戶在服務器端處理發(fā)送來的食品、藥品數(shù)據(jù)請求數(shù)據(jù),在服務器端端接收并處理食品、藥品數(shù)據(jù)請求數(shù)據(jù)請求。然后利用應用服務器端(通常使用服務器端技術(shù),如JSP等)對食品、藥品數(shù)據(jù)請求進行數(shù)據(jù)處理并產(chǎn)生數(shù)據(jù)響應。而后在服務器端發(fā)送食品、藥品數(shù)據(jù)響應,此時,服務器端能夠把用戶請求的諸如網(wǎng)頁文件、圖片、聲音等數(shù)據(jù)信息返回給瀏覽器,瀏覽器然后再執(zhí)行接收到的HTML文件,供用戶使用。
本文基于食品、藥品數(shù)據(jù)利用、稽查、管理便利為目的,以“食品、藥品健康鏈”為主線的全生命周期信息監(jiān)測預警為手段,構(gòu)建出新型的信息化平臺架構(gòu)。并將該系統(tǒng)劃分為基礎層、數(shù)據(jù)層、數(shù)據(jù)處理層、數(shù)據(jù)應用層。在數(shù)據(jù)處理層中,采用諸如決策樹算法模型、Apriori算法、AP聚類分析算法、BP神經(jīng)網(wǎng)絡模型、支持矢量機算法或Adaboost迭代算法等機器學習方法來構(gòu)建預測預警模型,并設計出安全信息化平臺構(gòu)架。從而實現(xiàn)食品、藥品安全時空預警信息化體系的業(yè)務架構(gòu)設計。