亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進(jìn)K-Means聚類算法的互聯(lián)網(wǎng)涉煙違法犯罪區(qū)域劃分研究

        2019-12-16 01:42:25呂飛
        中國(guó)管理信息化 2019年22期
        關(guān)鍵詞:means算法聚類分析市場(chǎng)監(jiān)管

        呂飛

        [摘 要]近年來(lái),利用物流和快遞從事卷煙非法交易的違法犯罪活動(dòng)日益猖獗,隨著煙草行業(yè)打假打私力度不斷增大,各級(jí)煙草專賣管理部門在物流寄遞渠道均查獲了大量的涉煙案件數(shù)據(jù)。由于目前行業(yè)內(nèi)外鮮有對(duì)該類案件進(jìn)行大數(shù)據(jù)分析研究,因此,本文以理論結(jié)合實(shí)際,首先介紹了數(shù)據(jù)挖掘技術(shù)中聚類算法相關(guān)理論,重點(diǎn)對(duì)經(jīng)典K-Means算法及其相關(guān)改進(jìn)算法進(jìn)行了研究,然后以W市煙草專賣局的真實(shí)涉煙案件數(shù)據(jù)進(jìn)行實(shí)驗(yàn)仿真,通過(guò)分析歷史各類案發(fā)地址等信息,幫助煙草專賣執(zhí)法人員在涉煙案件經(jīng)營(yíng)偵辦、卷煙消費(fèi)市場(chǎng)監(jiān)管等方面開展精準(zhǔn)打擊、重點(diǎn)治理。

        [關(guān)鍵詞]煙草專賣;市場(chǎng)監(jiān)管;數(shù)據(jù)挖掘;聚類分析;K-Means算法

        doi:10.3969/j.issn.1673 - 0194.2019.22.077

        [中圖分類號(hào)]TP391.3[文獻(xiàn)標(biāo)識(shí)碼]A[文章編號(hào)]1673-0194(2019)22-0-05

        0? ? ?引 言

        近年來(lái),不法分子利用物流寄遞渠道,將非法卷煙銷往全國(guó)各地,嚴(yán)重干擾了正常卷煙市場(chǎng)秩序,使國(guó)家稅收流失,消費(fèi)者利益受到侵害。為進(jìn)一步加強(qiáng)對(duì)物流寄遞領(lǐng)域涉煙違法行為的監(jiān)管,自2016年起,煙草行業(yè)逐漸加大了對(duì)利用互聯(lián)網(wǎng)制售假冒卷煙犯罪活動(dòng)的打擊力度,積累了大量的物流寄遞渠道涉煙案件數(shù)據(jù)。但是,由于缺少大數(shù)據(jù)的整理整合以及內(nèi)在價(jià)值的挖掘分析能力,在目前的煙草專賣市場(chǎng)監(jiān)管和案件偵辦工作中,“數(shù)據(jù)豐富、情報(bào)匱乏、手段單一”的現(xiàn)象仍然存在。如何有效利用這些歷史案件數(shù)據(jù),全面、客觀、系統(tǒng)地挖掘互聯(lián)網(wǎng)涉煙案件線索,深入拓展卷煙市場(chǎng)監(jiān)管的新領(lǐng)域,以實(shí)現(xiàn)新時(shí)期煙草專賣管理的高質(zhì)量發(fā)展,是目前迫切需要研究的課題。數(shù)據(jù)挖掘作為當(dāng)前一種新穎高效的數(shù)據(jù)分析手段,如今被廣泛應(yīng)用在各行各業(yè),例如數(shù)據(jù)庫(kù)營(yíng)銷、客戶關(guān)系管理、顧客行為預(yù)測(cè)及市場(chǎng)趨勢(shì)預(yù)測(cè)等,在公安部門情報(bào)偵察、案件偵辦領(lǐng)域也發(fā)揮著舉足輕重的作用。因此,利用數(shù)據(jù)挖掘方法對(duì)物流寄遞渠道的海量涉煙案件數(shù)據(jù)進(jìn)行深入研究,充分挖掘犯罪數(shù)據(jù)中的犯罪規(guī)律、行為特征等情報(bào)價(jià)值,給煙草專賣市場(chǎng)監(jiān)管提供幫助,是讓沉淀的歷史案件數(shù)據(jù)發(fā)揮最大價(jià)值的有效途徑。對(duì)于如何運(yùn)用大數(shù)據(jù)分析方法對(duì)煙草專賣管理領(lǐng)域的案件數(shù)據(jù)進(jìn)行價(jià)值挖掘,行業(yè)內(nèi)外鮮有相關(guān)研究,而采用類似方法的研究課題大多集中在卷煙營(yíng)銷領(lǐng)域。本文基于數(shù)據(jù)挖掘中的聚類分析K-Means算法,圍繞互聯(lián)網(wǎng)涉煙案件中的大量案發(fā)地址數(shù)據(jù),開展智能化自動(dòng)分類和輔助預(yù)警,以幫助一線煙草專賣執(zhí)法人員迅速了解和掌握管轄市場(chǎng)的違法犯罪活動(dòng)高發(fā)區(qū)域和活動(dòng)中心,準(zhǔn)確開展市場(chǎng)信息分析,全面推動(dòng)卷煙市場(chǎng)監(jiān)管由“人工經(jīng)驗(yàn)”向“數(shù)字決策”轉(zhuǎn)變。

        1? ? ?聚類算法概述

        1.1? ?聚類算法

        聚類算法是一種非監(jiān)督機(jī)器學(xué)習(xí)算法,實(shí)質(zhì)是按照特定的標(biāo)準(zhǔn)把一組數(shù)據(jù)對(duì)象劃分成若干類子集或簇的過(guò)程,使同一個(gè)子集或簇的數(shù)據(jù)對(duì)象相似度盡可能大,不同子集或簇的數(shù)據(jù)對(duì)象差異性也盡可能大。即聚類后具有相似屬性的數(shù)據(jù)對(duì)象盡可能聚到一起,不同的數(shù)據(jù)對(duì)象盡量分離。聚類算法有很多種,分為劃分法、層次法、基于密度的方法、基于網(wǎng)格的方法、基于模型的方法等。每一類中都有目前廣泛應(yīng)用的算法,例如,劃分方法中的K-Means聚類算法、層次方法中的凝聚型層次聚類算法、基于密度方法中的DBSCAN聚類算法等。

        1.2? ?經(jīng)典K-Means算法

        經(jīng)典K-Means算法由于簡(jiǎn)單易實(shí)現(xiàn)且效率高,是聚類算法中最流行、使用最廣泛的算法。該算法主要采用距離作為相似性的評(píng)價(jià)指標(biāo),認(rèn)為子集或簇是由距離靠近的對(duì)象組成,最終目標(biāo)是獲得緊湊且獨(dú)立的子集或簇。即以k為參數(shù),把n個(gè)對(duì)象分成k個(gè)子集或簇,使子集或簇內(nèi)具有較高的相似度,而子集或簇間的相似度較低。經(jīng)典K-Means算法主要分為4個(gè)步驟。

        步驟1:從樣本數(shù)據(jù)集中隨機(jī)抽取k個(gè)值作為初始簇的質(zhì)心。

        步驟2:將每個(gè)剩余的樣本數(shù)據(jù)劃分到距離最近質(zhì)心所在的簇。

        步驟3:重新計(jì)算每個(gè)簇內(nèi)樣本數(shù)據(jù)的質(zhì)心。

        步驟4:重復(fù)步驟2和3,直到每個(gè)簇內(nèi)樣本數(shù)據(jù)的質(zhì)心不再變化或達(dá)到設(shè)定的迭代次數(shù)后停止。

        在計(jì)算過(guò)程中,距離的計(jì)算采用歐式距離,在二維空間的計(jì)算公式如下。

        ρ為迭代次數(shù),k為簇的數(shù)目,n為數(shù)據(jù)個(gè)數(shù)。經(jīng)典K-Means算法的計(jì)算時(shí)間與n線性相關(guān),所以該算法速度很快。

        但是,經(jīng)典K-Means算法在開始之前,需要人工指定兩個(gè)參數(shù):初始質(zhì)心和簇?cái)?shù)目k。初始質(zhì)心通過(guò)隨機(jī)選取,簇?cái)?shù)目k也憑經(jīng)驗(yàn)設(shè)定。這樣做的缺點(diǎn)是,如果初始質(zhì)心的位置選擇不當(dāng),例如都在一個(gè)簇里面,那么不僅會(huì)大大增加迭代次數(shù),最終的聚類結(jié)果也比較糟糕,往往只能得到局部最優(yōu)解。同樣,簇?cái)?shù)目k在聚類之前就設(shè)定也不符合工作實(shí)際,例如,專賣執(zhí)法人員在開展海量案件數(shù)據(jù)分析之前,不可能知道案發(fā)區(qū)域大致可以劃分為哪幾個(gè)塊。因此,需要對(duì)經(jīng)典K-Means算法進(jìn)行改進(jìn),科學(xué)選擇初始質(zhì)心并初步確定最優(yōu)k值。

        1.3? ?初始質(zhì)心的選擇

        初始質(zhì)心的選擇方法有很多種,有經(jīng)典的隨機(jī)選擇、層次聚類、基于最近鄰密度等。本文主要基于K-Means++算法進(jìn)行初始質(zhì)心選擇改進(jìn),具體步驟如下。

        步驟1:從數(shù)據(jù)集中隨機(jī)選取一個(gè)樣本點(diǎn)作為初始質(zhì)心C1。

        步驟2:計(jì)算每個(gè)樣本與當(dāng)前已有質(zhì)心之間的最短距離(即最近質(zhì)心的距離),即D(x).

        步驟3:計(jì)算每個(gè)樣本點(diǎn)被選為下一個(gè)質(zhì)心的概率:。

        步驟4:按照輪盤法選擇出下一個(gè)質(zhì)心。

        步驟5:重復(fù)步驟2、3、4,直到選擇出k個(gè)質(zhì)心;

        步驟6:基于選定的質(zhì)心執(zhí)行經(jīng)典K-Means算法。

        由以上步驟可以得知,除第一個(gè)質(zhì)心是隨機(jī)選擇以外,后繼是距離當(dāng)前已有質(zhì)心越遠(yuǎn)的樣本點(diǎn)有更高概率被選擇,當(dāng)然這也非常符合人們的直覺(jué),即簇中心相互離得越遠(yuǎn)越好。

        綜上所述,K-Means++與經(jīng)典K-Means的區(qū)別就在于初始質(zhì)心的選擇上,確定好初始質(zhì)心之后,其余步驟都同經(jīng)典K-Means一樣。例如,對(duì)于有12個(gè)樣本點(diǎn)的數(shù)據(jù)集,坐標(biāo)分布及序號(hào)如圖1所示。由圖1憑經(jīng)驗(yàn)可知,該數(shù)據(jù)集可以劃分為3個(gè)簇。假設(shè)第一個(gè)初始質(zhì)心隨機(jī)選擇了6號(hào)樣本,若按照經(jīng)典K-Means算法,則后續(xù)初始質(zhì)心中除6號(hào)以外的其余樣本點(diǎn)被選中的概率均等。若后續(xù)初始質(zhì)心仍然選中在B簇中的樣本點(diǎn),則對(duì)合理聚類十分不利。在K-Means++算法中,從第二個(gè)初始質(zhì)心選擇開始,需要進(jìn)行以下概率計(jì)算。

        從表1可以得知,下一個(gè)聚類中心點(diǎn)落在1~4點(diǎn)的概率區(qū)間為[0,0.391 304](例如其分別落在點(diǎn)1、點(diǎn)2的概率為[0,0.086 957][0.086 957,0.228 261]),落在5~8點(diǎn)的概率區(qū)間為[0.402 174,0.434 783],落在9~12點(diǎn)的概率區(qū)間為[0.521 739,1]。也就是說(shuō),選到前4個(gè)點(diǎn)和后4個(gè)點(diǎn)的概率總和非常接近1,而這也是人們希望看到的,體現(xiàn)了質(zhì)心相互離得越遠(yuǎn)越好。此時(shí),只要隨機(jī)生成一個(gè)0~1之間的數(shù)(如matlab中的rand函數(shù)),就能確定好下一個(gè)質(zhì)心(離當(dāng)前已有質(zhì)心較遠(yuǎn)的點(diǎn)有更大的概率被選為下一個(gè)質(zhì)心)。以此類推,當(dāng)k個(gè)初始質(zhì)心選好之后,繼續(xù)進(jìn)行經(jīng)典K-means算法。

        1.4? ?最優(yōu)k值的確定

        k值的設(shè)定直接決定了K-Means算法的聚類簇個(gè)數(shù),如果設(shè)置不當(dāng)將直接影響聚類結(jié)果。以圖1樣本數(shù)據(jù)集為例,將k值分別設(shè)置為2和4時(shí),聚類結(jié)果如圖2和圖3所示。由圖2和圖3可以得知,若k值設(shè)置不當(dāng),聚類結(jié)果明顯不符常理。其實(shí)很多情況下,對(duì)數(shù)據(jù)集進(jìn)行簇劃分本身并沒(méi)有絕對(duì)清晰和正確的結(jié)論,這取決于人們對(duì)數(shù)據(jù)集本身意義的個(gè)體認(rèn)知。因此,研究能夠自動(dòng)求解正確k值的算法是非常困難的,只能從多個(gè)角度對(duì)k取值進(jìn)行評(píng)估。本文采用基于SSE指標(biāo)的評(píng)價(jià)方法對(duì)k值進(jìn)行評(píng)估,并給出最優(yōu)k值建議。

        SSE(sum of the squared errors,誤差平方和)計(jì)算公式如下。

        其中,Ci是第i個(gè)簇,p是Ci中的樣本點(diǎn),mi是Ci的質(zhì)心(k中所有樣本的均值)。

        核心思想是采用肘部法則,即隨著聚類數(shù)k的增大,數(shù)據(jù)集的劃分會(huì)更加精細(xì),每個(gè)簇的聚合程度會(huì)逐漸提高,隨之誤差平方和SSE自然會(huì)逐漸變小。首先,當(dāng)k小于真實(shí)的聚類數(shù)時(shí),由于k的增大會(huì)大幅增加每個(gè)簇的聚合程度,故SSE的下降幅度會(huì)很大。然后,當(dāng)k到達(dá)真實(shí)聚類數(shù)時(shí),再增加k所得到的聚合程度回報(bào)會(huì)迅速變小,此時(shí)SSE的下降幅度會(huì)驟減。最后,隨著k值的繼續(xù)增大而趨于平緩。也就是說(shuō)SSE和k的關(guān)系圖是一個(gè)類似手臂肘部的形狀,而這個(gè)肘部對(duì)應(yīng)的k值就是數(shù)據(jù)集的最優(yōu)聚類數(shù)。當(dāng)然,肘部法則也存在一定缺陷,由于需要對(duì)每個(gè)k值進(jìn)行聚類,考慮到計(jì)算復(fù)雜度,所以k取值上限一般不超過(guò)10。不過(guò)對(duì)于研究地理區(qū)域劃分這一課題,本身對(duì)聚類結(jié)果的簇?cái)?shù)量沒(méi)有過(guò)多要求,一般也在10以內(nèi),故該缺陷對(duì)本次研究沒(méi)有多少影響。

        仍然以圖1數(shù)據(jù)為例,利用肘部法選取最優(yōu)聚類數(shù)k。具體做法是讓k從1開始取值,直到上限8,對(duì)每一個(gè)k值進(jìn)行聚類并且計(jì)算對(duì)應(yīng)的SSE,然后畫出k和SSE的關(guān)系圖,最后選取肘部對(duì)應(yīng)的k值作為最優(yōu)聚類數(shù)。由表2和圖4可以得知,肘部對(duì)應(yīng)的k值為3,因此對(duì)于圖1數(shù)據(jù)集而言,最佳聚類數(shù)應(yīng)該選3,這與觀測(cè)結(jié)果相吻合。

        1.5? ?改進(jìn)后算法步驟

        通過(guò)上述對(duì)經(jīng)典K-Means算法和相關(guān)改進(jìn)算法的研究,在一定程度上解決了局部最優(yōu)等問(wèn)題,減少了聚類迭代次數(shù),提高了聚類效率,對(duì)聚類簇個(gè)數(shù)也進(jìn)行了評(píng)估并給出最優(yōu)解。改進(jìn)后計(jì)算步驟如下。

        步驟1:對(duì)于給定樣本數(shù)據(jù)集,設(shè)置初始k值為1。

        步驟2:若k=1,則隨機(jī)選擇1個(gè)質(zhì)心;若k>2,則計(jì)算每個(gè)樣本與已選質(zhì)心最短距離D(x)和被選中的概率P(x),用輪盤法選擇后續(xù)質(zhì)心。

        步驟3:用選好的質(zhì)心和k值進(jìn)行經(jīng)典K-Means聚類,并計(jì)算SSE。

        步驟4:k自增1,重復(fù)步驟2、4,直到k>8停止。

        步驟5:比較k值與SSE關(guān)系,根據(jù)肘部法則確定最優(yōu)k值。

        步驟6:根據(jù)最優(yōu)k值進(jìn)行改進(jìn)后的初始質(zhì)心選擇,并進(jìn)行經(jīng)典K-Means聚類。

        2? ? ?實(shí)驗(yàn)仿真

        為了進(jìn)一步驗(yàn)證上述算法理論在實(shí)際涉煙違法犯罪區(qū)域劃分中的應(yīng)用,本節(jié)選取W市煙草專賣局部分物流寄遞涉煙案件數(shù)據(jù)樣本進(jìn)行實(shí)驗(yàn)。W市位于A省南部,屬于A省物流寄遞業(yè)核心樞紐城市之一,大量寄往A省的物流快件均通過(guò)W市進(jìn)行中轉(zhuǎn)。2017年起,W市煙草專賣局全面貫徹行業(yè)相關(guān)工作要求,不斷加大對(duì)物流寄遞渠道涉煙違法犯罪活動(dòng)的打擊力度,違法卷煙查獲總量和人均查獲量穩(wěn)居A省前列,積累了大量的互聯(lián)網(wǎng)涉煙案件數(shù)據(jù)。同時(shí),W市通過(guò)自行研發(fā)相關(guān)信息管理系統(tǒng),在案件數(shù)據(jù)電子化歸檔的同時(shí),對(duì)數(shù)據(jù)格式進(jìn)行了統(tǒng)一標(biāo)準(zhǔn)化處理,因此,數(shù)據(jù)有效性和規(guī)范化得到了保證。W市煙草專賣局關(guān)于物流寄遞涉煙案件數(shù)據(jù)管理系統(tǒng)中,數(shù)據(jù)庫(kù)的主體數(shù)據(jù)表結(jié)構(gòu)如表3所示(由于涉密原因,已略去部分無(wú)關(guān)字段)。

        由表3可以看到,對(duì)于每起物流寄遞渠道涉煙案件,系統(tǒng)均記錄了收發(fā)貨地址信息及對(duì)應(yīng)的GIS經(jīng)緯度數(shù)據(jù)。本次實(shí)驗(yàn)采用Python編程實(shí)現(xiàn),從數(shù)據(jù)庫(kù)中隨機(jī)選取了200起W市煙草專賣局2018年1-5月查獲的物流寄遞涉煙案件數(shù)據(jù)樣本,提取了每起案件的收貨地址GIS坐標(biāo)信息,繪制了散點(diǎn)圖,如圖5所示(由于案件地址GIS數(shù)據(jù)涉密原因,故事先對(duì)其進(jìn)行了統(tǒng)一標(biāo)準(zhǔn)換算)。

        圖5中,每個(gè)圓點(diǎn)即為一起案件的收貨地點(diǎn),下面對(duì)其進(jìn)行聚類分析。將k值設(shè)定為1~8后,統(tǒng)計(jì)每個(gè)k值的SSE結(jié)果,繪制關(guān)系圖,如圖6所示。

        從表4可以得出,當(dāng)k取值為4時(shí),前后折線斜率最大,即最優(yōu)聚類簇個(gè)數(shù)為4個(gè)。接著將k值設(shè)定為4,進(jìn)行經(jīng)典K-Means算法,并同時(shí)計(jì)算每個(gè)聚類簇的質(zhì)心,繪制聚類結(jié)果圖如圖7所示。由圖7可以得知,該200起案件數(shù)據(jù)樣本的案發(fā)地址大致可以劃分為4個(gè)區(qū)域,也就是說(shuō),在W市的卷煙消費(fèi)市場(chǎng)中,這4個(gè)區(qū)域的消費(fèi)者或非法經(jīng)營(yíng)者從互聯(lián)網(wǎng)購(gòu)買非法卷煙的頻次較高。因此,在市場(chǎng)監(jiān)管實(shí)際工作中,專賣市管員、稽查員要對(duì)這4個(gè)區(qū)域,特別是以“★”為代表的中心區(qū)域進(jìn)行重點(diǎn)走訪和調(diào)查。

        3? ? ?指導(dǎo)實(shí)踐

        3.1? ?發(fā)揮大數(shù)據(jù)情報(bào)導(dǎo)偵優(yōu)勢(shì),助力物流寄遞涉煙犯罪精準(zhǔn)打擊

        由于物流、快遞業(yè)的快速發(fā)展以及其方便快捷、隱蔽性強(qiáng)、偽裝手段多等特點(diǎn),越來(lái)越多的不法分子選擇通過(guò)物流寄遞渠道進(jìn)行制售假冒偽劣卷煙。目前,W市煙草專賣局采取“現(xiàn)場(chǎng)檢查、人工排查”的方式,選派若干名專賣執(zhí)法人員進(jìn)駐各物流快遞企業(yè)城市分撥中心,與公安部門、郵政管理部門等工作人員一起,對(duì)每天運(yùn)抵的各類包裹進(jìn)行集中排查。由于通過(guò)物流寄遞渠道進(jìn)行涉煙非法犯罪活動(dòng)通常具有“螞蟻搬家”等少量、多頻次的特點(diǎn),因此,每起查獲的物流寄遞案件的收發(fā)貨面單信息均應(yīng)納入重點(diǎn)檢查名單,特別是查獲頻次較高和收件地址較為集中的面單信息。在實(shí)際工作中,由于目前缺少先進(jìn)的數(shù)據(jù)分析方法,負(fù)責(zé)現(xiàn)場(chǎng)檢查的執(zhí)法人員只能根據(jù)自身經(jīng)驗(yàn),對(duì)印象中經(jīng)常查獲的收件人和收件地址進(jìn)行重點(diǎn)檢查,這種方法受個(gè)人能力影響較大,容易遺漏關(guān)鍵人員地址等信息,且不利于執(zhí)法人員之間的情報(bào)溝通交流。2018年7月,W市煙草專賣局在自行研發(fā)的案件管理系統(tǒng)中采用了包括改進(jìn)K-Means聚類算法在內(nèi)的大數(shù)據(jù)分析方法,在幾分鐘之類即可對(duì)歷史案發(fā)地址進(jìn)行歸類總結(jié),并建立了情報(bào)溝通交流信息群,將近期的案發(fā)熱點(diǎn)區(qū)域和臨近的收件地址直接分發(fā)至每位現(xiàn)場(chǎng)執(zhí)法人員處,確保了情報(bào)信息的研判及時(shí)、內(nèi)容完整、溝通有效。2018年,W市煙草專賣局在物流寄遞渠道共查獲各類涉煙非法包裹7 706件,假冒卷煙762.1萬(wàn)支,查獲總量和人均查獲量實(shí)現(xiàn)了A省的“雙第一”。

        3.2? ?深化大數(shù)據(jù)在APCD工作法中的運(yùn)用,助力卷煙消費(fèi)市場(chǎng)精準(zhǔn)治理

        卷煙市場(chǎng)監(jiān)管工作是煙草專賣管理工作基石,是維護(hù)卷煙市場(chǎng)經(jīng)營(yíng)秩序的基本措施。為了全面變革多年以來(lái)專賣市場(chǎng)監(jiān)管“地毯式檢查”的粗放管理模式,煙草行業(yè)從2014年起全面推行“APCD”工作法,為傳統(tǒng)的工作模式注入新鮮血液,是煙草市場(chǎng)檢查方法的創(chuàng)新之舉?!癆PCD”工作法指通過(guò)將零售市場(chǎng)檢查工作劃分為“A分析”“P計(jì)劃”“C檢查”和“D處理”4個(gè)環(huán)節(jié),通過(guò)對(duì)卷煙經(jīng)營(yíng)數(shù)據(jù)分析、綜合監(jiān)管信息分析隨時(shí)掌握市場(chǎng)異常情況,找出市場(chǎng)檢查的重點(diǎn)對(duì)象,由此可見,該工作方法重在A分析階段。在實(shí)際工作中,煙草專賣市場(chǎng)管理員雖然能夠通過(guò)業(yè)務(wù)系統(tǒng)對(duì)卷煙零售戶的經(jīng)營(yíng)數(shù)據(jù)進(jìn)行實(shí)時(shí)監(jiān)測(cè)并分析異常,但是對(duì)卷煙零售戶的銷售行為數(shù)據(jù)和消費(fèi)者的實(shí)際需求了解十分有限,缺少必要的信息獲取渠道。實(shí)際上,物流寄遞渠道查獲的涉煙案件數(shù)據(jù)中包含了大量的行為信息,收件人、收件地址、卷煙品牌規(guī)格等數(shù)據(jù)能夠?yàn)榫頍熓袌?chǎng)監(jiān)管工作提供大量的情報(bào)來(lái)源。由于缺少高效的分析手段,采用人工的方式在數(shù)以萬(wàn)計(jì)的物流寄遞涉煙案件中進(jìn)行犯罪行為規(guī)律查找和統(tǒng)計(jì)分析難以實(shí)現(xiàn),大量的案件數(shù)據(jù)被束之高閣,其中蘊(yùn)含的有價(jià)情報(bào)線索白白流失。

        2018年7月以來(lái),W市煙草專賣局采用聚類算法對(duì)物流寄遞涉煙案件的收貨地址進(jìn)行自動(dòng)劃分,并對(duì)劃分后各區(qū)域內(nèi)的零售戶基本資料和經(jīng)營(yíng)數(shù)據(jù)進(jìn)行對(duì)比,特別是對(duì)以“★”為代表的中心區(qū)域零售戶進(jìn)行經(jīng)營(yíng)數(shù)據(jù)和違法行為的關(guān)聯(lián)分析,迅速定位疑似進(jìn)行假冒偽劣卷煙批發(fā)行為的零售戶或嫌疑人,為一線市場(chǎng)檢查執(zhí)法人員在“A分析”階段提供了高效的研判結(jié)論,也為專賣案件稽查人員提供精準(zhǔn)的情報(bào)來(lái)源,為全面實(shí)現(xiàn)情報(bào)導(dǎo)偵和精準(zhǔn)打擊奠定了堅(jiān)實(shí)的基礎(chǔ)。2018年,W市煙草專賣局市場(chǎng)檢查環(huán)節(jié)查獲案件數(shù)量同比增長(zhǎng)11.7%,查獲卷煙數(shù)量同比增長(zhǎng)50.3%,成效十分顯著。

        4? ? ?結(jié) 語(yǔ)

        本文運(yùn)用聚類算法中的經(jīng)典K-Means算法及其相關(guān)改進(jìn)算法分析了互聯(lián)網(wǎng)涉煙案件地址數(shù)據(jù),對(duì)案件發(fā)生區(qū)域進(jìn)行了聚類劃分,并指出了中心區(qū)域。與傳統(tǒng)方法相比,基于聚類的K-Means算法在檢測(cè)的精準(zhǔn)度上可能略有不足,但應(yīng)用便捷、簡(jiǎn)潔高效,對(duì)訓(xùn)練數(shù)據(jù)集的要求低,特別是對(duì)于給定一定數(shù)量的案件數(shù)據(jù),可以在無(wú)須人工干預(yù)的前提下快速進(jìn)行犯罪活動(dòng)高發(fā)區(qū)域劃分,并尋找中心點(diǎn),以此不斷挖掘出潛在情報(bào)線索。該方法可以幫助煙草專賣執(zhí)法人員在大量案件數(shù)據(jù)中快速了解案情,在卷煙消費(fèi)市場(chǎng)監(jiān)管和涉煙案件分析研判領(lǐng)域有廣泛的應(yīng)用前景。該方法適用的前提是涉煙案件地址GIS數(shù)據(jù)必須準(zhǔn)確,否則運(yùn)行結(jié)果將不具備指導(dǎo)意義。同時(shí),該方法對(duì)“噪聲”樣本點(diǎn)和孤立樣本點(diǎn)較為敏感,少量該類數(shù)據(jù)可能對(duì)最終結(jié)果產(chǎn)生影響,加上尚未考慮每個(gè)樣本點(diǎn)的本身“大小”因素,即每起案件的案值不一,因此,如何“降噪”和對(duì)樣本點(diǎn)“大小”因素進(jìn)行額外加權(quán)評(píng)估,將是下一步工作需要繼續(xù)研究的課題。

        主要參考文獻(xiàn)

        [1]朱明.數(shù)據(jù)挖掘[M].北京:中國(guó)科學(xué)技術(shù)大學(xué)出版社,2008.

        [2]張素潔,趙懷慈.最優(yōu)聚類個(gè)數(shù)和初始聚類中心點(diǎn)選取算法研

        究[J].計(jì)算機(jī)應(yīng)用研究,2017(6).

        [3]孫吉貴,劉杰,趙連宇.聚類算法研究[J].軟件學(xué)報(bào),2008(1).

        [4]賈瑞玉,宋建林.基于聚類中心優(yōu)化的K-means最佳聚類數(shù)確定方法[J].微電子學(xué)與計(jì)算機(jī),2016(5).

        [5]翟東海,魚江,高飛,等.最大距離法選取初始簇中心的K-means文本聚類算法的研究[J].計(jì)算機(jī)應(yīng)用研究,2014(3).

        [6]錢政.Android平臺(tái)下基于改進(jìn)的K-means酒店信息聚類算法[J].淮海工學(xué)院學(xué)報(bào):自然科學(xué)版,2014(4).

        [7]王旭仁,李娜,何發(fā)鎂,等.基于改進(jìn)聚類算法的網(wǎng)絡(luò)輿情分析系統(tǒng)研究[J].情報(bào)學(xué)報(bào),2014(5).

        [8]黎光譜.改進(jìn)K-Means聚類算法在基于Hadoop平臺(tái)的圖像檢索系統(tǒng)中的研究與實(shí)現(xiàn)[D].廈門:廈門大學(xué),2014.

        [9]徐春光.基于語(yǔ)義分析和改進(jìn)K-means算法的新聞熱點(diǎn)提取方法研究[D].北京:北京化工大學(xué),2014.

        [10]雷蓓麗.對(duì)打擊互聯(lián)網(wǎng)涉煙違法犯罪的思考[J].新西部,2012(12).

        [11]韋穎藝.淺析打擊互聯(lián)網(wǎng)涉煙違法犯罪中電子證據(jù)采信與運(yùn)用[C].//廣西煙草學(xué)會(huì)2018年論文匯編,2018.

        [12]劉澤林.淺析新形勢(shì)下“互聯(lián)網(wǎng)+物流寄遞”涉煙違法行為監(jiān)管難點(diǎn)及對(duì)策[J].經(jīng)貿(mào)實(shí)踐,2018(13).

        [13]趙將.基于改進(jìn)K-means聚類的推薦方法研究[D].武漢:華中科技大學(xué),2016.

        猜你喜歡
        means算法聚類分析市場(chǎng)監(jiān)管
        不忘初心 砥礪前行——河北市場(chǎng)監(jiān)管周年回望
        公民與法治(2020年1期)2020-05-30 12:27:38
        農(nóng)村居民家庭人均生活消費(fèi)支出分析
        中藥飲片市場(chǎng)監(jiān)管乏力
        基于省會(huì)城市經(jīng)濟(jì)發(fā)展程度的實(shí)證分析
        基于聚類分析的互聯(lián)網(wǎng)廣告投放研究
        科技視界(2016年20期)2016-09-29 12:32:48
        基于K—Means聚類算法入侵檢測(cè)系統(tǒng)研究
        基于Weka的Apriori算法在原油產(chǎn)量預(yù)測(cè)中的應(yīng)用
        “縣級(jí)供電企業(yè)生產(chǎn)經(jīng)營(yíng)統(tǒng)計(jì)一套”表輔助決策模式研究
        基于HSI顏色空間的小麥粉精度自動(dòng)識(shí)別研究
        基于聚類的Web日志挖掘
        广东少妇大战黑人34厘米视频| 日韩三级一区二区不卡| 成年免费a级毛片免费看无码| 国产99视频精品免视看9| 久久久久亚洲av成人网址| 亚洲av永久久无久之码精| 日本在线一区二区三区视频观看| 少妇高潮无套内谢麻豆传| 一道久在线无码加勒比| 亚洲一区不卡在线导航| 人妻精品久久一区二区三区| 国产精品无码一区二区三区| 久久久精品人妻一区亚美研究所| 久久久久久人妻一区二区无码Av | 国内精品久久久久久无码不卡| 国产精品电影久久久久电影网| 中文字幕亚洲一区二区三区| 亚洲熟妇丰满多毛xxxx| 好男人视频在线视频| 国产精品国产三级国产在线观| 亚洲高清国产成人精品久久| 99国产精品自在自在久久| 人人看人人做人人爱精品| 国产亚洲亚洲精品视频| 亚洲熟妇自偷自拍另类| 亚洲精品无码不卡在线播放he| 91久久精品无码人妻系列| 日本一区二区三区激视频| 久久99国产精品久久| 亚洲a∨无码一区二区| 日本啪啪一区二区三区| 国产精品狼人久久影院软件介绍 | 国产精品白浆无码流出| 一区二区三区亚洲免费| 国产精品久久久久9999无码| 国产黄页网站在线观看免费视频| 日本变态网址中国字幕| 亚洲中文字幕人妻av在线| 中日韩精品视频在线观看| 国产精彩刺激对白视频| 日本在线观看不卡一区二区|