亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于DBSCAN算法的煙草互聯(lián)網(wǎng)違法數(shù)據(jù)研究

        2023-01-16 12:46:14湯妙佳
        現(xiàn)代計(jì)算機(jī) 2022年22期
        關(guān)鍵詞:邊界點(diǎn)聚類案件

        湯妙佳,張 勇

        (安徽省煙草公司淮南市公司信息中心,淮南 232033)

        0 引言

        互聯(lián)網(wǎng)具有一定的開放性和虛擬性,人們借助互聯(lián)網(wǎng)交易獲得自己所需,這一特點(diǎn)為涉煙違法行為提供了平臺和途徑。在我國經(jīng)濟(jì)日趨良好的靜態(tài),煙草市場上的經(jīng)營者出現(xiàn)良莠不齊的局面,很多經(jīng)營者并未獲得零售許可證等相關(guān)資質(zhì),通過快遞物流等互聯(lián)網(wǎng)手段進(jìn)行煙草倒賣假冒卷煙。此行為嚴(yán)重?cái)_亂了市場秩序,減少了國家的稅收,情節(jié)嚴(yán)重者已違反刑法。因此,加強(qiáng)物流快遞中違法犯罪涉煙行為的監(jiān)管成為當(dāng)前規(guī)范煙草市場的重要任務(wù)。自2016年起,積累了大量的物流涉煙違法行為的案件。利用歷史數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,分析數(shù)據(jù)中的線索,為現(xiàn)階段的違法涉煙數(shù)據(jù)分析提供依據(jù)。此論文的主要目的是采用數(shù)據(jù)挖掘方法[4],著力構(gòu)建“數(shù)據(jù)主導(dǎo)偵查,基于分析,決策依托研判”的互聯(lián)網(wǎng)涉煙犯罪模式。

        常用的異常數(shù)據(jù)監(jiān)測算法為聚類算法,是基于機(jī)器學(xué)習(xí)領(lǐng)域下的無監(jiān)督學(xué)習(xí),可有效對數(shù)據(jù)進(jìn)行分類,讓數(shù)據(jù)“活”起來,實(shí)現(xiàn)由傳統(tǒng)的人海戰(zhàn)術(shù)向數(shù)據(jù)主導(dǎo)的轉(zhuǎn)變。2019年呂飛等[5]運(yùn)用K-means聚類算法實(shí)現(xiàn)了互聯(lián)網(wǎng)涉煙異常數(shù)據(jù)的檢測。由于K-means 易受異常值影響,本文采用的數(shù)據(jù)分類方法為基于密度方法的

        DBSCAN。

        1 DBSCAN算法概述

        DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一個(gè)比較有代表性的基于密度的聚類算法。算法的主要目標(biāo)是相比基于劃分的聚類方法和層次聚類方法,需要更少的領(lǐng)域知識來確定輸入?yún)?shù);發(fā)現(xiàn)任意形狀的聚簇;在大規(guī)模數(shù)據(jù)庫上更好的效率[6-9]。DBSCAN 算法的主要優(yōu)點(diǎn)在于能夠?qū)⒆銐蚋呙芏鹊膮^(qū)域劃分成簇,并且能夠抵抗噪聲干擾,在具有噪聲的空間數(shù)據(jù)庫中也能夠發(fā)現(xiàn)任意形狀的簇。算法的核心思想是確定一個(gè)核心點(diǎn),從核心點(diǎn)出發(fā)向密度可達(dá)的區(qū)域擴(kuò)張,從而得到一個(gè)包含核心點(diǎn)和邊界點(diǎn)的最大化區(qū)域,區(qū)域中任意兩點(diǎn)密度相連[10]。在DBSCAN 算法中,數(shù)據(jù)點(diǎn)可分為三類,如圖1所示。

        圖1 數(shù)據(jù)點(diǎn)分類

        (1)核心點(diǎn):若樣本xi的a領(lǐng)域內(nèi)至少包含MinPts個(gè)樣本,即稱樣本點(diǎn)xi為核心點(diǎn)。

        (2)邊界點(diǎn):若樣本點(diǎn)xi的領(lǐng)域范圍內(nèi)包含的樣本數(shù)目小于MinPts,但是它在其他核心點(diǎn)的領(lǐng)域內(nèi),則稱樣本點(diǎn)xi為邊界點(diǎn)。

        (3)噪音點(diǎn):既不是核心點(diǎn)也不是邊界點(diǎn)。

        DBSCAN的具體流程為:

        輸入:樣本集D={x1,x2,…,xn},領(lǐng)域參數(shù)(a,MinPts),樣本距離度量方式。

        輸出:簇劃分C={C1,C2,…,Ck}。

        ①初始化核心點(diǎn)集合Ω=?,初始化聚類簇?cái)?shù)k=0,初始化為訪問集合Γ=D,簇劃分C=?。

        ②對于i=1,2,…,n,按照下面步驟找出所有的核心點(diǎn):

        (a)通過距離度量方式,找到樣本xi的a領(lǐng)域子樣本集N(ax)i;

        (b)如果子樣本集樣本個(gè)數(shù)滿足|Na(xi) |≥MinPts,將樣本xi加入核心點(diǎn)集合:Ω=Ω?{xi};(c)如果核心點(diǎn)集合Ω=?,結(jié)束;否則,轉(zhuǎn)入步驟(d);

        (d)在核心點(diǎn)集合Ω中,隨機(jī)選擇一個(gè)核心點(diǎn)o,初始化當(dāng)前簇核心點(diǎn)隊(duì)列Ωcur={o} ,初始化類別序號k=k+1,初始化當(dāng)前簇樣本集合Ck={o} ,更新為訪問樣本集合Γ=Γ-{o} ;

        (e)如果當(dāng)前核心點(diǎn)隊(duì)列Ωcur=?,則當(dāng)前簇Ck生成完畢,更新劃分簇C={C1,C2,…,Ck},更新核心點(diǎn)集合Ω=Ω-Ck;

        (f) 在當(dāng)前簇核心點(diǎn)隊(duì)列Ωcur中取出一個(gè)核心點(diǎn)o',通過領(lǐng)域閾值找出所有的領(lǐng)域子樣本集Na(o'),使Δ=Na(o') ?Γ,更新當(dāng)前簇樣本集合Ck=Ck?Δ,更新訪問樣本集合Γ=Γ-Δ,更新Ωcur=Ωcur?(Δ ?Ω)-{o'} ,轉(zhuǎn)入步驟(e)。

        2仿真實(shí)驗(yàn)

        為了驗(yàn)證DBSCAN 算法在實(shí)際違法犯罪區(qū)域劃分中的應(yīng)用,本節(jié)首先模擬煙草涉案數(shù)據(jù)1000 組,具體內(nèi)容見表1,將其GIS 坐標(biāo)信息進(jìn)行分類,效果如圖2所示。實(shí)驗(yàn)使用的編程語言為Python 3.6,硬件平臺配置為:Intel i5-9600kf CPU,Nvidia TITAN V(12 GB/Nvidia)GPU,16 G DDR4 RAM。

        表1 涉案煙草數(shù)據(jù)表結(jié)構(gòu)

        假設(shè)模擬數(shù)據(jù)如圖2(a)所示,圖中不同密度區(qū)分明顯。運(yùn)用DBSCAN 算法后,其分類結(jié)果如圖2(b)所示,圖中很好地將數(shù)據(jù)進(jìn)行了分類,表明DBSCAN 的有效性。同時(shí),為了進(jìn)一步模擬涉煙案件數(shù)據(jù),減小數(shù)據(jù)的特殊性,如圖3所示。從圖3分類結(jié)果可以看出,不同密度區(qū)域可以被很好劃分,可有效劃分不同區(qū)域找出其中心點(diǎn),對實(shí)際案件進(jìn)行指導(dǎo)。

        圖2 涉煙案件數(shù)據(jù)模擬1(不同形狀代表不同類)

        圖3 涉煙數(shù)據(jù)模擬2(不同形狀代表不同類)

        前述部分為模擬實(shí)驗(yàn),不能完全模擬實(shí)際涉煙數(shù)據(jù)的復(fù)雜性,因此選取H 市煙草專賣局部分物流寄遞案件數(shù)據(jù)進(jìn)行實(shí)驗(yàn),以驗(yàn)證此算法的應(yīng)用可行性。對于每件物流涉煙案件,系統(tǒng)記錄數(shù)據(jù)包含收發(fā)貨地址以及對應(yīng)的經(jīng)緯度。從數(shù)據(jù)庫中隨機(jī)選取500 起H 市煙草專賣局2017年查獲的物流涉煙案件數(shù)據(jù)樣本,提取了案件的GIS 坐標(biāo)信息(由于涉密,進(jìn)行了數(shù)據(jù)標(biāo)準(zhǔn)化),繪制散點(diǎn)圖進(jìn)行分類后結(jié)果如圖4所示。圖4中,根據(jù)密度一共劃分為六簇,從圖4可以看到,此算法在實(shí)際應(yīng)用中能夠分離條狀及圓形區(qū)域的簇,可從復(fù)雜的分布中識別出案件高發(fā)的區(qū)域,挖掘其內(nèi)部信息。在此區(qū)域內(nèi),涉案區(qū)域皆被劃分成六個(gè)區(qū)域,可為重點(diǎn)排查這六個(gè)區(qū)域的中心區(qū)域作指導(dǎo)。

        圖4 涉煙案件數(shù)據(jù)分類結(jié)果

        3 結(jié)語

        本文利用DBSCAN 算法對互聯(lián)網(wǎng)涉煙數(shù)據(jù)進(jìn)行了分類,模擬了涉煙數(shù)據(jù)地點(diǎn)分布散點(diǎn)圖,實(shí)驗(yàn)表明了DBSCAN 算法劃分涉煙案件區(qū)域的有效性。為了進(jìn)一步驗(yàn)證此算法在實(shí)際案件中的應(yīng)用性,提取H 市的500 起涉煙數(shù)據(jù)進(jìn)行分類,由圖4所示結(jié)果可以看出,經(jīng)過DBSCAN算法劃分后,可對發(fā)件地址及收件地址異常區(qū)域進(jìn)行劃分,找出案件高發(fā)的中心點(diǎn)。在實(shí)際偵查時(shí),便可重點(diǎn)排查此區(qū)域,減少偵查時(shí)間,減少人力物力投入,充分發(fā)揮信息技術(shù)的作用。

        總而言之,互聯(lián)網(wǎng)具有一定的特殊性,基于互聯(lián)網(wǎng)的犯罪行為在監(jiān)管追查上難度較大。但是,可以利用互聯(lián)網(wǎng)的優(yōu)勢,對以往收集到的信息進(jìn)行數(shù)據(jù)挖掘,做好數(shù)據(jù)信息的分析工作,便可捕捉到關(guān)鍵信息。

        猜你喜歡
        邊界點(diǎn)聚類案件
        道路空間特征與測量距離相結(jié)合的LiDAR道路邊界點(diǎn)提取算法
        一起放火案件的調(diào)查:火災(zāi)案件中的“神秘來電”
        水上消防(2021年4期)2021-11-05 08:51:36
        層次化點(diǎn)云邊界快速精確提取方法研究
        “左腳丟鞋”案件
        基于DBSACN聚類算法的XML文檔聚類
        電子測試(2017年15期)2017-12-18 07:19:27
        HD Monitor在泉廈高速拋灑物案件中的應(yīng)用
        基于改進(jìn)的遺傳算法的模糊聚類算法
        3起案件 引發(fā)罪與非罪之爭
        一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
        一種去除掛網(wǎng)圖像鋸齒的方法及裝置
        電腦與電信(2014年6期)2014-03-22 13:21:06
        国产午夜福利片| 国产一区二区熟女精品免费| 亚洲日本国产精品久久| 天天爽夜夜爱| 91国视频| 偷拍av一区二区三区| 国产av在线观看一区二区三区| 玩弄丰满奶水的女邻居| 中文字幕一区二区三区久久网站| 最新永久免费AV网站| 国产一区二区三免费视频| 亚洲国产欧美在线观看| 亚洲综合色成在线播放| 杨幂国产精品一区二区| 一区二区三区在线视频观看| 色综合久久精品亚洲国产| 国产成人精品电影在线观看18| 亚洲av噜噜狠狠蜜桃| 少妇免费av一区二区三区久久| 一本色道无码道dvd在线观看| 精品午夜久久网成年网| 高清亚洲精品一区二区三区| 一区二区三区精品少妇| 国产高清在线精品一区| 亚洲免费一区二区三区视频| 视频一区精品中文字幕| 99无码精品二区在线视频 | 日韩一区在线精品视频| 久久国产精品久久久久久 | 欧美性受xxxx狂喷水| 国产91成人精品高潮综合久久| 国产av无码专区亚洲av毛网站| 草莓视频一区二区精品| 免费人成网站在线播放| 久久成人成狠狠爱综合网| 日本免费人成视频播放| 国产精品美女久久久浪潮av| 国产精品狼人久久影院软件介绍| 西西大胆午夜人体视频| 久久久久亚洲AV无码专区喷| 亚洲97成人精品久久久|