程光明
[摘要]本文首次將數(shù)據(jù)挖掘技術(shù)引入進(jìn)境集裝箱風(fēng)險(xiǎn)評(píng)估中,沿著“理論研究——數(shù)據(jù)概念模型——風(fēng)險(xiǎn)評(píng)估模型——軟件化”來(lái)探討進(jìn)境集裝箱風(fēng)險(xiǎn)評(píng)估系統(tǒng)的建立。本文旨在通過(guò)對(duì)大量已有的檢疫數(shù)據(jù)進(jìn)行探索和分析,揭示入境集裝箱風(fēng)險(xiǎn)的影響因素,并進(jìn)一步將其模型化,以便計(jì)算機(jī)能夠迅速對(duì)入境集裝箱的風(fēng)險(xiǎn)進(jìn)行預(yù)判,從而達(dá)到幫助檢疫工作人員“有的放矢”的檢查、布控。使口岸檢疫業(yè)務(wù)部門(mén)對(duì)進(jìn)境集裝箱風(fēng)險(xiǎn)做到“心中有數(shù)”。
[關(guān)鍵詞]數(shù)據(jù)挖掘 風(fēng)險(xiǎn)評(píng)估 集裝箱
一、引言
隨著我國(guó)對(duì)外貿(mào)易的快速發(fā)展,進(jìn)境箱量顯著增長(zhǎng)?!笆晃濉逼陂g,檢出攜帶疫情及有毒有害物質(zhì)箱數(shù)呈持續(xù)增長(zhǎng)趨勢(shì)。僅2010年度,共受理進(jìn)境集裝箱申報(bào)3699.06萬(wàn)箱,同比增長(zhǎng)14.04%,檢出攜帶疫情或有毒有害物質(zhì)的43.66萬(wàn)箱,比去年同期提高了28.20%。進(jìn)境檢出疫情箱數(shù)占查驗(yàn)箱數(shù)的比例(即查驗(yàn)檢出率)為3.26%,同比提高0.43個(gè)百分點(diǎn)。這反映出進(jìn)境集裝箱攜帶疫情及有毒有害物質(zhì)情況十分普遍,進(jìn)境集裝箱檢疫面臨形勢(shì)十分嚴(yán)峻。
目前,在進(jìn)境集裝箱檢疫工作中主要采用以人工判斷為主的經(jīng)驗(yàn)式方法,效率比較低,工作量繁重,經(jīng)驗(yàn)知識(shí)傳承性差。但是在多年來(lái)的實(shí)踐過(guò)程中,我們已經(jīng)積累了大量的經(jīng)驗(yàn)和數(shù)據(jù)。通過(guò)數(shù)據(jù)挖掘技術(shù)在已有的數(shù)據(jù)中發(fā)現(xiàn)未知的模式和知識(shí)可以為入境集裝箱風(fēng)險(xiǎn)進(jìn)行評(píng)估,并為檢疫業(yè)務(wù)決策提供輔助支持。
二、數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程。簡(jiǎn)而言之,數(shù)據(jù)挖掘其實(shí)是一類深層次的數(shù)據(jù)分析方法。數(shù)據(jù)挖掘已廣泛應(yīng)用于生物醫(yī)學(xué)、金融、零售業(yè)、電信業(yè)、海關(guān)監(jiān)管等領(lǐng)域,并產(chǎn)生了巨大的效益。數(shù)據(jù)挖掘技術(shù)同樣能夠?qū)⒋罅康臋z疫數(shù)據(jù)提煉、轉(zhuǎn)化為可以理解和應(yīng)用的模式和知識(shí)來(lái)指導(dǎo)檢疫業(yè)務(wù)。
數(shù)據(jù)分類(DataClassification)是數(shù)據(jù)挖掘技術(shù)的一個(gè)重要分支。從根本上說(shuō),數(shù)據(jù)分類就是通過(guò)對(duì)源數(shù)據(jù)的特點(diǎn)進(jìn)行歸納和描述。要進(jìn)行數(shù)據(jù)分類,必須使用特定的分類工具,方法主要包括:ID3算法、C4.5算法、SPRINT算法、SLIQ算法、EM算法、AQ算法、CN2算法等。數(shù)據(jù)分類是數(shù)據(jù)挖掘的基本功能、重要功能,目前在商業(yè)、工業(yè)、軍事、生活、海關(guān)監(jiān)管上應(yīng)用最多,具有非常高的使用價(jià)值。
三、數(shù)據(jù)概念模型
根據(jù)從進(jìn)境集裝箱中檢出疫情及有毒有害物質(zhì)情況的不同,將檢出問(wèn)題分為7類,分別是:①人類傳染病和動(dòng)物傳染病病原體;②植物危性病、蟲(chóng)、雜草以及其它有害生物;③嚙齒動(dòng)物、蚊、蠅、蟑螂等病媒生物;④土壤、動(dòng)物尸體等禁止進(jìn)境物;⑤動(dòng)植物殘留物;⑥生活垃圾及其他有毒有害物質(zhì);⑦其他問(wèn)題——7類問(wèn)題,對(duì)應(yīng)每一類問(wèn)題需要建立一個(gè)可用于數(shù)據(jù)挖掘的數(shù)據(jù)概念模型,其主要包括:
(1)7大類問(wèn)題集裝箱同諸如:①來(lái)源地;②箱主公司;③承運(yùn)人;④貨運(yùn)方式等特征數(shù)據(jù)存在哪些未知的、潛在有用的模式和知識(shí),明確對(duì)每類問(wèn)題集裝箱產(chǎn)生影響的特征數(shù)據(jù),建立一套對(duì)應(yīng)各類問(wèn)題集裝箱的風(fēng)險(xiǎn)數(shù)據(jù)字典;
(2)CIQ數(shù)據(jù)庫(kù)中并不包含所有的特征數(shù)據(jù),一些重要的特征數(shù)據(jù)需要通過(guò)與場(chǎng)站、貨運(yùn)公司的比對(duì)才能獲得。同時(shí),要對(duì)數(shù)據(jù)進(jìn)行采集、清洗、轉(zhuǎn)換等步驟,建立可以用于數(shù)據(jù)挖掘的數(shù)據(jù)概念模型。
四、風(fēng)險(xiǎn)評(píng)估模型
對(duì)進(jìn)境集裝箱進(jìn)行風(fēng)險(xiǎn)評(píng)估主要用到數(shù)據(jù)挖掘中的重要分支——分類技術(shù),建立和完善風(fēng)險(xiǎn)評(píng)估模型關(guān)系到風(fēng)險(xiǎn)評(píng)估系統(tǒng)研究的成敗,主要研究?jī)?nèi)容如下:
(1)分類技術(shù)有ID3算法、C4.5算法、SPRINT算法、SLIQ算法等,結(jié)合檢疫工作實(shí)際選擇合適的算法進(jìn)行數(shù)據(jù)挖掘,并在實(shí)踐中對(duì)模型進(jìn)行修正和完善;
(2)選擇和使用SAS公司提供的SAS/BASE、SAS/STAT、SAS/LAB等模塊化分析工具對(duì)7類問(wèn)題集裝箱進(jìn)行逐類數(shù)據(jù)挖掘、建模。
五、典型系統(tǒng)應(yīng)用開(kāi)發(fā)
基于上述的研究成果,設(shè)計(jì)實(shí)現(xiàn)一個(gè)基于數(shù)據(jù)挖掘技術(shù)的進(jìn)境集裝箱風(fēng)險(xiǎn)評(píng)估管理系統(tǒng),重點(diǎn)關(guān)注下面系統(tǒng),如圖1所示:
(1)面向檢疫查驗(yàn)人員設(shè)計(jì)并實(shí)現(xiàn)一個(gè)基于Web技術(shù)的軟件系統(tǒng),通過(guò)此軟件,檢疫管理人員可以將已有風(fēng)險(xiǎn)評(píng)估模型軟件化,系統(tǒng)接收進(jìn)境集裝箱特征數(shù)據(jù),自動(dòng)對(duì)風(fēng)險(xiǎn)進(jìn)行預(yù)評(píng)估。同時(shí),將用于風(fēng)險(xiǎn)評(píng)估的數(shù)據(jù)獨(dú)立于CIQ數(shù)據(jù)庫(kù)存在,為以后進(jìn)一步完善風(fēng)險(xiǎn)評(píng)估模型提供數(shù)據(jù)庫(kù)支持。
(2)面向檢疫查驗(yàn)人員設(shè)計(jì)并實(shí)現(xiàn)一個(gè)軟件終端,考慮到檢疫查驗(yàn)一線人員工作環(huán)境分散、移動(dòng)的特點(diǎn),重點(diǎn)面向主流嵌入式系統(tǒng)(Apple、Angel、Symban、Windows-Mobile等)和移動(dòng)終端(如手機(jī)、PDA、iPOD等)展開(kāi)研發(fā)。
圖 基于數(shù)據(jù)挖掘技術(shù)的風(fēng)險(xiǎn)評(píng)估系統(tǒng)
六、結(jié)論
針對(duì)出入境檢驗(yàn)檢疫部門(mén)在對(duì)進(jìn)境集裝箱檢疫查驗(yàn)中盲目性大、工作效率低等客觀實(shí)際,研究一個(gè)基于數(shù)據(jù)挖掘技術(shù)的進(jìn)境集裝箱風(fēng)險(xiǎn)評(píng)估模型,并將其軟件化、實(shí)用化,通過(guò)軟件自動(dòng)對(duì)進(jìn)境集裝箱進(jìn)行風(fēng)險(xiǎn)等級(jí)評(píng)估,指導(dǎo)日常檢疫查驗(yàn)工作,降低檢驗(yàn)查驗(yàn)的盲目性,提升檢疫查驗(yàn)人員的工作效率,提高把關(guān)成效。
參考文獻(xiàn):
[1]舒軍生.數(shù)據(jù)挖掘技術(shù)在企業(yè)信用分類管理系統(tǒng)中的應(yīng)用.安徽:安徽大學(xué)碩士論文.2010
[2]高燕. 基于數(shù)據(jù)挖掘技術(shù)的海關(guān)執(zhí)法評(píng)估系統(tǒng)的研究與開(kāi)發(fā).武漢:武漢理工大學(xué)碩士論文.2002
[3]任爾偉,牟青杰,孫學(xué)文著.數(shù)據(jù)挖掘技術(shù)在海關(guān)查驗(yàn)和價(jià)格瞞翩輔助決策中的應(yīng)用,上海海關(guān)高等??茖W(xué)校學(xué)報(bào),2002年第3期
[4]朱偉軍.數(shù)據(jù)倉(cāng)庫(kù)在海關(guān)統(tǒng)計(jì)中的實(shí)踐與應(yīng)用,知識(shí)經(jīng)濟(jì),2009年10期