湯妙佳 沙建
(安徽省煙草公司淮南市公司信息中心 安徽省淮南市 232033)
近些年,隨著互聯(lián)網(wǎng)的發(fā)展,中國(guó)物流行業(yè)得到了飛速發(fā)展,它給人們生活提供了便利,也成為了不法分子從事涉煙非法交易活動(dòng)的主要渠道。由于監(jiān)管力度不足,不法分子通過(guò)物流寄遞將假煙銷售到全部各地,這不僅嚴(yán)重影響煙草市場(chǎng)秩序,對(duì)國(guó)家稅收造成巨大的損失,還使消費(fèi)者的利益受到了侵害。為進(jìn)一步加強(qiáng)物流寄遞運(yùn)輸監(jiān)管,國(guó)家有關(guān)部門在2016年實(shí)施了物流寄遞實(shí)名制要求,煙草行業(yè)也加大了物流寄遞涉煙非法活動(dòng)的監(jiān)管力度,從而積累了大量涉煙非法交易活動(dòng)數(shù)據(jù)。但由于缺少大數(shù)據(jù)處理手段以挖掘出數(shù)據(jù)的內(nèi)在價(jià)值,目前對(duì)涉煙非法交易活動(dòng)的監(jiān)督仍是以“人工經(jīng)驗(yàn)”為主,這不僅浪費(fèi)了大量的人力資源,也沒(méi)有發(fā)揮出數(shù)據(jù)應(yīng)有的價(jià)值。如何利用這些非法交易數(shù)據(jù),從而科學(xué)、系統(tǒng)的挖掘涉煙非法交易的線索,深入加強(qiáng)物流寄遞涉煙非法活動(dòng)的監(jiān)管,從而實(shí)現(xiàn)新時(shí)期煙草專賣市場(chǎng)監(jiān)管的高質(zhì)量發(fā)展,以成為當(dāng)前迫切需要解決的問(wèn)題。
數(shù)據(jù)挖掘是從大量數(shù)據(jù)中找出隱含的具有潛在價(jià)值信息的一個(gè)過(guò)程,作為一種數(shù)據(jù)分析的手段,當(dāng)前已經(jīng)運(yùn)用在各行各業(yè)中,如商務(wù)管理、市場(chǎng)分析、顧客行為預(yù)測(cè)等,同時(shí)也在公安部門的偵查破案中發(fā)揮著巨大的作用。因此,采用數(shù)據(jù)挖掘的手段對(duì)涉煙非法交易活動(dòng)數(shù)據(jù)進(jìn)行深入研究,以獲得不法分子的物流寄遞規(guī)律、寄遞地址等潛在信息,幫助煙草主管部門在煙非法交易活動(dòng)中有效的打擊違法行為,讓歷史交易數(shù)據(jù)發(fā)揮出更大的價(jià)值。本文基于數(shù)據(jù)挖掘中的層次聚類算法,針對(duì)物流寄遞涉煙非法交易活動(dòng)中的寄遞地址信息,實(shí)現(xiàn)數(shù)字化分類,以幫助煙草主管部門迅速了解和掌握管轄區(qū)域的涉煙非法交易活動(dòng)的高發(fā)區(qū)域,精準(zhǔn)打擊違法區(qū)域,全面推動(dòng)涉煙非法交易監(jiān)管從“人工經(jīng)驗(yàn)”向“數(shù)字分析”轉(zhuǎn)變。
聚類算法是一種常見(jiàn)的數(shù)據(jù)挖掘手段,其本質(zhì)是將一組數(shù)據(jù)按照給定的標(biāo)準(zhǔn)劃分成若干個(gè)簇,其中標(biāo)準(zhǔn)的設(shè)定取決于聚類的目的以及數(shù)據(jù)的類型。目前常見(jiàn)的聚類算法主要有劃分法(K-Means)、層次法、基于密度的方法、基于網(wǎng)格的方法、基于模型的方法、等,本文主要基于層次聚類算法進(jìn)行煙草違法區(qū)域的劃分研究。
層次聚類算法是聚類算法中使用最廣泛的算法之一,其方法具有簡(jiǎn)單、效率高、容易實(shí)現(xiàn)的特點(diǎn),實(shí)現(xiàn)方法主要分有凝聚和分裂兩種方法。層次聚類算法是以距離為評(píng)價(jià)指標(biāo),所構(gòu)成的簇是以距離相距相近的點(diǎn)組成,其中基于凝聚方法的層次聚類算法主要分為4個(gè)步驟。
步驟1:將數(shù)據(jù)集中的每個(gè)數(shù)據(jù)看作成一個(gè)點(diǎn),計(jì)算各個(gè)點(diǎn)之間的距離;
步驟2:將距離最近的若干個(gè)點(diǎn)合并成一個(gè)簇;
步驟3:將各個(gè)簇看作成一個(gè)點(diǎn),重新計(jì)算各個(gè)點(diǎn)之間的距離;
步驟4:重復(fù)步驟2和步驟3,直至滿足終止條件后停止。
與凝聚方法相反,基于分裂方法的層次聚類算法是將整個(gè)數(shù)據(jù)集看作成一個(gè)點(diǎn),然后計(jì)算點(diǎn)中各個(gè)簇的距離,并將最遠(yuǎn)的字集分裂開(kāi),從而實(shí)現(xiàn)聚類。本文的目的是對(duì)煙草違法區(qū)域進(jìn)行精確劃份,劃份成的區(qū)域越小,則表示精度越高,故選用凝聚方法作為層次聚類算法的實(shí)現(xiàn)方法。
在計(jì)算過(guò)程中,距離的計(jì)算方法有很多,如歐氏距離、曼哈頓距離、余弦距離、等。其中,歐氏距離,又稱歐幾里得距離,是目前使用最為廣泛的一種距離計(jì)算方式,故本文選用歐氏距離為判別各個(gè)點(diǎn)之間的距離方式。其計(jì)算公式如下:
其中,(x,y)和(x,y)表示兩個(gè)點(diǎn),ρ表示兩點(diǎn)之間的歐式距離。
層次聚類算法的優(yōu)點(diǎn)是距離容易被定義、限制條件少,同時(shí)還可以發(fā)現(xiàn)簇之間的層次關(guān)系,缺點(diǎn)是計(jì)算復(fù)雜度很高,容易受到噪聲的影響。
初始化,每個(gè)簇只有一個(gè)點(diǎn),故計(jì)算歐氏距離只需要計(jì)算兩個(gè)點(diǎn)之間的距離,但后續(xù)的每個(gè)簇中都有若干個(gè)點(diǎn),此時(shí)計(jì)算歐式距離就需要事先給定點(diǎn)的位置。目前常見(jiàn)的確定點(diǎn)的方式有4中,分別是Ward方法、Complete linkage方法、Average linkage方法和Single linkage方法。
Ward方法計(jì)算的是最小化成對(duì)聚類間的平方差總和,即兩個(gè)簇合并后增加的內(nèi)離差平方和最小。這種方法的優(yōu)點(diǎn)是不容易受到噪聲的影響,缺點(diǎn)是對(duì)球狀簇?cái)?shù)據(jù)集的處理存在偏差。
Complete linkage方法計(jì)算的是最小化成對(duì)聚類間最遠(yuǎn)兩點(diǎn)的距離,即兩個(gè)簇中最遠(yuǎn)的兩個(gè)點(diǎn)的歐氏距離,并將其作為兩個(gè)簇之間的距離。這種方法的優(yōu)點(diǎn)是不容易受到噪聲的影響,在數(shù)據(jù)集非常大的情況下經(jīng)常使用,缺點(diǎn)是對(duì)球狀簇?cái)?shù)據(jù)集的處理存在偏差。
Average linkage方法計(jì)算的是最小化成對(duì)聚類間平均兩點(diǎn)的距離,即兩個(gè)簇中每個(gè)點(diǎn)之間的歐氏距離的平均值,并將其作為兩個(gè)簇之間的距離。這種方法的優(yōu)點(diǎn)是不容易受到噪聲的影響,缺點(diǎn)是對(duì)球狀簇?cái)?shù)據(jù)集的處理存在偏差。
Single linkage方法計(jì)算的是最小化成對(duì)聚類間最近兩點(diǎn)的距離,即兩個(gè)簇中最近的兩個(gè)點(diǎn)的歐氏距離,并將其作為兩個(gè)簇之間的距離。這種方法的優(yōu)點(diǎn)是可以處理非橢圓形的數(shù)據(jù)集,缺點(diǎn)是容易受到噪聲的影響。
層次聚類算法中退出循環(huán)的終止條件是最終生成的簇個(gè)數(shù),一般由人為主動(dòng)設(shè)置。簇的個(gè)數(shù)不同,則最終生成的結(jié)果也不同,故需要一個(gè)評(píng)價(jià)指標(biāo)來(lái)表示最佳的簇個(gè)數(shù)。常用的評(píng)價(jià)指標(biāo)有聚類純度(Purity)、蘭德指數(shù)(Rand Index,RI)、F值(F-score)和調(diào)整后的蘭德指數(shù)(Adjusted Rand Index, ARI)。
聚類純度的思想是用聚類后的點(diǎn)數(shù)量除以總的點(diǎn)數(shù)量,故又被稱為聚類的準(zhǔn)確度。一般來(lái)說(shuō)聚類純度越高則聚類效果越好,但這個(gè)指標(biāo)跟最終聚類后的實(shí)際簇個(gè)數(shù)無(wú)關(guān),而本文最終結(jié)果需要的是簇個(gè)數(shù)的最佳值。
蘭德指數(shù)和F值是聚類算法中非常重要的評(píng)價(jià)指標(biāo)。假設(shè)a為兩個(gè)同類點(diǎn)在同一個(gè)簇的情況數(shù)量;b為兩個(gè)非同類點(diǎn)在同一個(gè)簇的情況數(shù)量;c為兩個(gè)非同類點(diǎn)分別在兩個(gè)簇的情況數(shù)量;d為兩個(gè)同類點(diǎn)分別在兩個(gè)簇的情況數(shù)量。
此時(shí)蘭德指數(shù)的計(jì)算公式為:
其中蘭德指數(shù)在0-1之間,值越大,表示聚類結(jié)果越好。
F值的計(jì)算公式為:
其中F值在0-1之間,值越大,表示聚類結(jié)果越好。
調(diào)整后的蘭德指數(shù)是蘭德指數(shù)的改進(jìn),其目的是為了去掉隨機(jī)數(shù)對(duì)蘭德指數(shù)的影響,其計(jì)算公式為:
其中,E(RI)表示蘭德指數(shù)RI的期望值,ARI的實(shí)質(zhì)是去均值歸一化的結(jié)果。相對(duì)于RI而言,ARI對(duì)聚類結(jié)果的評(píng)價(jià)更加準(zhǔn)確,故選用調(diào)整后的蘭德指數(shù)作為評(píng)價(jià)聚類結(jié)果的評(píng)價(jià)依據(jù)。
以上內(nèi)容詳細(xì)闡述了層次聚類算法的原理,為了進(jìn)一步驗(yàn)證上述理論在實(shí)際煙草違規(guī)區(qū)域劃分中的運(yùn)用情況,以X市的900起真實(shí)涉煙非法活動(dòng)數(shù)據(jù)為數(shù)據(jù)集進(jìn)行仿真實(shí)驗(yàn),如表1所示為一起違法活動(dòng)的相關(guān)數(shù)據(jù)(由于涉密原因,已略去部分無(wú)關(guān)字段)。
根據(jù)表1可以看出,針對(duì)每一次的涉煙違法活動(dòng),都存有其收發(fā)地址的經(jīng)緯度信息,根據(jù)這個(gè)信息就可以唯一確定其實(shí)際地址。經(jīng)脫敏處理后,獲得部分收件地址數(shù)據(jù)的經(jīng)緯度如表2所示。
表1:涉煙非法活動(dòng)重要相關(guān)數(shù)據(jù)
表2:脫敏后的部分收件地址數(shù)據(jù)的經(jīng)緯度統(tǒng)計(jì)表
使用Python語(yǔ)言結(jié)合Matplotlib繪圖庫(kù),將脫敏后的經(jīng)緯度坐標(biāo)進(jìn)行標(biāo)準(zhǔn)化處理,從而構(gòu)建出用于層次聚類分析的數(shù)據(jù)集,繪制出的散點(diǎn)圖如圖1所示。
圖1:X市900起物流寄遞涉煙非法交易案件收件地址示意圖
圖1中,每個(gè)點(diǎn)表示一起案件的收件地址,下面對(duì)其進(jìn)行層次聚類分析。
假設(shè)簇的個(gè)數(shù)為7,即終止條件為7,針對(duì)圖1的數(shù)據(jù),4種簇間度量方式的實(shí)驗(yàn)結(jié)果如圖2所示。
圖2:4種簇間度量方式的實(shí)驗(yàn)結(jié)果
圖2中,每種顏色表示最終合并的一個(gè)簇。圖2(a)針對(duì)左下角的聚類存在偏差;圖2(b)針對(duì)左上角的聚類存在偏差;圖2(c)針對(duì)左上角的聚類存在偏差,可以明顯的看出左上角區(qū)域塊的右下角2個(gè)點(diǎn)各自分成了一類;圖2(d)相對(duì)來(lái)說(shuō)是最恰當(dāng)?shù)木垲惤Y(jié)果了,故選用Average linkage方法作為簇間度量方式。
以Average linkage方法作為簇間度量方式,以調(diào)整后的蘭德指數(shù)作為簇個(gè)數(shù)最佳值的評(píng)價(jià)依據(jù),據(jù)此得到調(diào)整后的蘭德指數(shù)與簇個(gè)數(shù)之間的折線圖如圖3所示。
從圖3中,折線圖隨著簇個(gè)數(shù)的增加先是變大,然后變小。其中,在簇的個(gè)數(shù)為7時(shí),調(diào)整后的蘭德指數(shù)最大,故簇的最佳個(gè)數(shù)為7。
圖3:調(diào)整后的蘭德指數(shù)與簇個(gè)數(shù)之間的關(guān)系
簇間度量方式選用Average linkage方法,簇的個(gè)數(shù)設(shè)置為7,測(cè)得的X市900起物流寄遞涉煙非法交易案件收件地址數(shù)據(jù)的聚類結(jié)果如圖4所示。
圖4:X市900起物流寄遞涉煙非法交易案件收件地址聚類結(jié)果
圖4中,每種顏色表示一個(gè)涉煙非法交易地址區(qū)域,故該市900起案件數(shù)據(jù)的案發(fā)地址大致可以劃分為7個(gè)區(qū)域,即這7個(gè)區(qū)域內(nèi)的非法經(jīng)營(yíng)者或者消費(fèi)者通過(guò)物流寄遞購(gòu)買非法煙草的次數(shù)較高,分別是X市新城及其某公寓、X市南站、X市某村、X市某大學(xué)及周邊學(xué)院、X市現(xiàn)代工業(yè)園區(qū)。
為驗(yàn)證聚類結(jié)果的準(zhǔn)確性,對(duì)圖4中的7個(gè)聚類區(qū)域,分別求取聚類簇的質(zhì)心,然后將對(duì)應(yīng)的脫敏數(shù)據(jù)進(jìn)行同樣的操作,驗(yàn)證質(zhì)心的坐標(biāo)位置是否一致,計(jì)算得到如表3所示的中心位置經(jīng)緯度統(tǒng)計(jì)表。
表3:中心位置經(jīng)緯度統(tǒng)計(jì)表
進(jìn)而,將表3中的中心點(diǎn)坐標(biāo)信息顯示在圖中,得到如圖5所示。
圖5:收件地址聚類結(jié)果中心位置圖
從表3和圖5中,可以看出聚類簇的質(zhì)心和脫敏數(shù)據(jù)的中心坐標(biāo)位置具有高度一致性,進(jìn)而驗(yàn)證了聚類結(jié)果的準(zhǔn)確率還是很高的。因此,在市場(chǎng)實(shí)際監(jiān)管工作中,煙草主管部門主要對(duì)這7個(gè)區(qū)域進(jìn)行重點(diǎn)走訪和調(diào)查即可。
由于近些年物流業(yè)的飛速發(fā)展,憑借其方便快捷、偽裝手段多、檢測(cè)方式單一等特點(diǎn),越來(lái)越多的不法分子借助物流寄遞進(jìn)行涉煙非法交易活動(dòng)。目前,X市煙草主管部門主要采取“現(xiàn)場(chǎng)人工排查”的方式,選派若干名煙草專賣執(zhí)法人員進(jìn)駐各物流快遞集散中心,與郵政和公安的相關(guān)工作人員一起,對(duì)運(yùn)達(dá)的各類包裹進(jìn)行集中排查。但用于不法分子通常采用少量、多次的方式進(jìn)行交易,因此存在檢查量大、但實(shí)際收益小的狀況。
在實(shí)際工作中,由于缺乏相應(yīng)的數(shù)據(jù)分析手段,目前常見(jiàn)的處理方式是現(xiàn)場(chǎng)工作人員根據(jù)自身經(jīng)驗(yàn),對(duì)印象中物流快遞的收件方進(jìn)行重點(diǎn)關(guān)注。這種處理手段受到個(gè)人影響較大,并且容易錯(cuò)漏關(guān)鍵人員的地址信息,且不利于工作人員之間的情報(bào)共享。而且查獲的大量案件數(shù)據(jù),只能存放在數(shù)據(jù)庫(kù)中,不能進(jìn)行有效的運(yùn)用,使含有價(jià)值的線索白白浪費(fèi)。
2018年11月以來(lái),X市煙草主管部門采用聚類算法對(duì)物流寄遞涉煙非法交易活動(dòng)的收件地址進(jìn)行自動(dòng)劃分,并對(duì)每起查獲的收件人納入重點(diǎn)檢查名單,特別是對(duì)查獲次數(shù)較多的收件地址或收件人進(jìn)行重點(diǎn)關(guān)注。同時(shí)還將劃分后各區(qū)域內(nèi)經(jīng)營(yíng)者的經(jīng)營(yíng)數(shù)據(jù)進(jìn)行對(duì)比,從而迅速定位疑似進(jìn)行涉煙非法交易活動(dòng)的嫌疑人,為一線工作人員提供了精準(zhǔn)的違法區(qū)域和高效的情報(bào)來(lái)源,為全面實(shí)現(xiàn)精準(zhǔn)打擊奠定了堅(jiān)實(shí)的基礎(chǔ)。2019年,X市煙草主管部門市場(chǎng)檢查環(huán)節(jié)查獲案件數(shù)量同比增長(zhǎng)13.7%,查獲假煙數(shù)量同比增長(zhǎng)61.7%,取得了顯著的成效。
本文運(yùn)用聚類算法中的層次聚類算法分析了物流寄遞涉煙非法交易案件的收件地址數(shù)據(jù),對(duì)案件地址區(qū)域進(jìn)行了聚類劃分。層次聚類算法具有簡(jiǎn)單高效、使用便捷的特點(diǎn),對(duì)數(shù)據(jù)集的要求不高。在給定一定數(shù)量的案件數(shù)據(jù)前提下,可以快速對(duì)違法活動(dòng)區(qū)域進(jìn)行劃分,以此不斷挖掘出潛在的情報(bào)線索。該方法可以幫助煙草工作人員在大量案件數(shù)據(jù)中快速了解案情,在涉煙非法交易活動(dòng)中有著廣泛的應(yīng)用前景,但使用前提是涉煙案件地址數(shù)據(jù)必須準(zhǔn)確,否則運(yùn)行結(jié)果將不具備指導(dǎo)意義。同時(shí),該方法對(duì)孤立點(diǎn)較為敏感,少量孤立數(shù)據(jù)可能對(duì)最終結(jié)果產(chǎn)生很大的影響,因此,如何對(duì)孤立點(diǎn)進(jìn)行額外加權(quán)評(píng)估,將是接下來(lái)需要繼續(xù)研究的課題。