湯妙佳,張 勇
(安徽省煙草公司淮南市公司信息中心,淮南 232033)
互聯(lián)網(wǎng)具有一定的開放性和虛擬性,人們借助互聯(lián)網(wǎng)交易獲得自己所需,這一特點(diǎn)為涉煙違法行為提供了平臺和途徑。在我國經(jīng)濟(jì)日趨良好的靜態(tài),煙草市場上的經(jīng)營者出現(xiàn)良莠不齊的局面,很多經(jīng)營者并未獲得零售許可證等相關(guān)資質(zhì),通過快遞物流等互聯(lián)網(wǎng)手段進(jìn)行煙草倒賣假冒卷煙。此行為嚴(yán)重?cái)_亂了市場秩序,減少了國家的稅收,情節(jié)嚴(yán)重者已違反刑法。因此,加強(qiáng)物流快遞中違法犯罪涉煙行為的監(jiān)管成為當(dāng)前規(guī)范煙草市場的重要任務(wù)。自2016年起,積累了大量的物流涉煙違法行為的案件。利用歷史數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,分析數(shù)據(jù)中的線索,為現(xiàn)階段的違法涉煙數(shù)據(jù)分析提供依據(jù)。此論文的主要目的是采用數(shù)據(jù)挖掘方法[4],著力構(gòu)建“數(shù)據(jù)主導(dǎo)偵查,基于分析,決策依托研判”的互聯(lián)網(wǎng)涉煙犯罪模式。
常用的異常數(shù)據(jù)監(jiān)測算法為聚類算法,是基于機(jī)器學(xué)習(xí)領(lǐng)域下的無監(jiān)督學(xué)習(xí),可有效對數(shù)據(jù)進(jìn)行分類,讓數(shù)據(jù)“活”起來,實(shí)現(xiàn)由傳統(tǒng)的人海戰(zhàn)術(shù)向數(shù)據(jù)主導(dǎo)的轉(zhuǎn)變。2019年呂飛等[5]運(yùn)用K-means聚類算法實(shí)現(xiàn)了互聯(lián)網(wǎng)涉煙異常數(shù)據(jù)的檢測。由于K-means 易受異常值影響,本文采用的數(shù)據(jù)分類方法為基于密度方法的
DBSCAN。
DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一個(gè)比較有代表性的基于密度的聚類算法。算法的主要目標(biāo)是相比基于劃分的聚類方法和層次聚類方法,需要更少的領(lǐng)域知識來確定輸入?yún)?shù);發(fā)現(xiàn)任意形狀的聚簇;在大規(guī)模數(shù)據(jù)庫上更好的效率[6-9]。DBSCAN 算法的主要優(yōu)點(diǎn)在于能夠?qū)⒆銐蚋呙芏鹊膮^(qū)域劃分成簇,并且能夠抵抗噪聲干擾,在具有噪聲的空間數(shù)據(jù)庫中也能夠發(fā)現(xiàn)任意形狀的簇。算法的核心思想是確定一個(gè)核心點(diǎn),從核心點(diǎn)出發(fā)向密度可達(dá)的區(qū)域擴(kuò)張,從而得到一個(gè)包含核心點(diǎn)和邊界點(diǎn)的最大化區(qū)域,區(qū)域中任意兩點(diǎn)密度相連[10]。在DBSCAN 算法中,數(shù)據(jù)點(diǎn)可分為三類,如圖1所示。
圖1 數(shù)據(jù)點(diǎn)分類
(1)核心點(diǎn):若樣本xi的a領(lǐng)域內(nèi)至少包含MinPts個(gè)樣本,即稱樣本點(diǎn)xi為核心點(diǎn)。
(2)邊界點(diǎn):若樣本點(diǎn)xi的領(lǐng)域范圍內(nèi)包含的樣本數(shù)目小于MinPts,但是它在其他核心點(diǎn)的領(lǐng)域內(nèi),則稱樣本點(diǎn)xi為邊界點(diǎn)。
(3)噪音點(diǎn):既不是核心點(diǎn)也不是邊界點(diǎn)。
DBSCAN的具體流程為:
輸入:樣本集D={x1,x2,…,xn},領(lǐng)域參數(shù)(a,MinPts),樣本距離度量方式。
輸出:簇劃分C={C1,C2,…,Ck}。
①初始化核心點(diǎn)集合Ω=?,初始化聚類簇?cái)?shù)k=0,初始化為訪問集合Γ=D,簇劃分C=?。
②對于i=1,2,…,n,按照下面步驟找出所有的核心點(diǎn):
(a)通過距離度量方式,找到樣本xi的a領(lǐng)域子樣本集N(ax)i;
(b)如果子樣本集樣本個(gè)數(shù)滿足|Na(xi) |≥MinPts,將樣本xi加入核心點(diǎn)集合:Ω=Ω?{xi};(c)如果核心點(diǎn)集合Ω=?,結(jié)束;否則,轉(zhuǎn)入步驟(d);
(d)在核心點(diǎn)集合Ω中,隨機(jī)選擇一個(gè)核心點(diǎn)o,初始化當(dāng)前簇核心點(diǎn)隊(duì)列Ωcur={o} ,初始化類別序號k=k+1,初始化當(dāng)前簇樣本集合Ck={o} ,更新為訪問樣本集合Γ=Γ-{o} ;
(e)如果當(dāng)前核心點(diǎn)隊(duì)列Ωcur=?,則當(dāng)前簇Ck生成完畢,更新劃分簇C={C1,C2,…,Ck},更新核心點(diǎn)集合Ω=Ω-Ck;
(f) 在當(dāng)前簇核心點(diǎn)隊(duì)列Ωcur中取出一個(gè)核心點(diǎn)o',通過領(lǐng)域閾值找出所有的領(lǐng)域子樣本集Na(o'),使Δ=Na(o') ?Γ,更新當(dāng)前簇樣本集合Ck=Ck?Δ,更新訪問樣本集合Γ=Γ-Δ,更新Ωcur=Ωcur?(Δ ?Ω)-{o'} ,轉(zhuǎn)入步驟(e)。
為了驗(yàn)證DBSCAN 算法在實(shí)際違法犯罪區(qū)域劃分中的應(yīng)用,本節(jié)首先模擬煙草涉案數(shù)據(jù)1000 組,具體內(nèi)容見表1,將其GIS 坐標(biāo)信息進(jìn)行分類,效果如圖2所示。實(shí)驗(yàn)使用的編程語言為Python 3.6,硬件平臺配置為:Intel i5-9600kf CPU,Nvidia TITAN V(12 GB/Nvidia)GPU,16 G DDR4 RAM。
表1 涉案煙草數(shù)據(jù)表結(jié)構(gòu)
假設(shè)模擬數(shù)據(jù)如圖2(a)所示,圖中不同密度區(qū)分明顯。運(yùn)用DBSCAN 算法后,其分類結(jié)果如圖2(b)所示,圖中很好地將數(shù)據(jù)進(jìn)行了分類,表明DBSCAN 的有效性。同時(shí),為了進(jìn)一步模擬涉煙案件數(shù)據(jù),減小數(shù)據(jù)的特殊性,如圖3所示。從圖3分類結(jié)果可以看出,不同密度區(qū)域可以被很好劃分,可有效劃分不同區(qū)域找出其中心點(diǎn),對實(shí)際案件進(jìn)行指導(dǎo)。
圖2 涉煙案件數(shù)據(jù)模擬1(不同形狀代表不同類)
圖3 涉煙數(shù)據(jù)模擬2(不同形狀代表不同類)
前述部分為模擬實(shí)驗(yàn),不能完全模擬實(shí)際涉煙數(shù)據(jù)的復(fù)雜性,因此選取H 市煙草專賣局部分物流寄遞案件數(shù)據(jù)進(jìn)行實(shí)驗(yàn),以驗(yàn)證此算法的應(yīng)用可行性。對于每件物流涉煙案件,系統(tǒng)記錄數(shù)據(jù)包含收發(fā)貨地址以及對應(yīng)的經(jīng)緯度。從數(shù)據(jù)庫中隨機(jī)選取500 起H 市煙草專賣局2017年查獲的物流涉煙案件數(shù)據(jù)樣本,提取了案件的GIS 坐標(biāo)信息(由于涉密,進(jìn)行了數(shù)據(jù)標(biāo)準(zhǔn)化),繪制散點(diǎn)圖進(jìn)行分類后結(jié)果如圖4所示。圖4中,根據(jù)密度一共劃分為六簇,從圖4可以看到,此算法在實(shí)際應(yīng)用中能夠分離條狀及圓形區(qū)域的簇,可從復(fù)雜的分布中識別出案件高發(fā)的區(qū)域,挖掘其內(nèi)部信息。在此區(qū)域內(nèi),涉案區(qū)域皆被劃分成六個(gè)區(qū)域,可為重點(diǎn)排查這六個(gè)區(qū)域的中心區(qū)域作指導(dǎo)。
圖4 涉煙案件數(shù)據(jù)分類結(jié)果
本文利用DBSCAN 算法對互聯(lián)網(wǎng)涉煙數(shù)據(jù)進(jìn)行了分類,模擬了涉煙數(shù)據(jù)地點(diǎn)分布散點(diǎn)圖,實(shí)驗(yàn)表明了DBSCAN 算法劃分涉煙案件區(qū)域的有效性。為了進(jìn)一步驗(yàn)證此算法在實(shí)際案件中的應(yīng)用性,提取H 市的500 起涉煙數(shù)據(jù)進(jìn)行分類,由圖4所示結(jié)果可以看出,經(jīng)過DBSCAN算法劃分后,可對發(fā)件地址及收件地址異常區(qū)域進(jìn)行劃分,找出案件高發(fā)的中心點(diǎn)。在實(shí)際偵查時(shí),便可重點(diǎn)排查此區(qū)域,減少偵查時(shí)間,減少人力物力投入,充分發(fā)揮信息技術(shù)的作用。
總而言之,互聯(lián)網(wǎng)具有一定的特殊性,基于互聯(lián)網(wǎng)的犯罪行為在監(jiān)管追查上難度較大。但是,可以利用互聯(lián)網(wǎng)的優(yōu)勢,對以往收集到的信息進(jìn)行數(shù)據(jù)挖掘,做好數(shù)據(jù)信息的分析工作,便可捕捉到關(guān)鍵信息。