亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        網(wǎng)絡(luò)詐騙案件熱度分析與時(shí)空預(yù)警模型研究

        2018-09-10 05:07:43趙四方周學(xué)廣張志剛
        關(guān)鍵詞:可視化

        趙四方 周學(xué)廣 張志剛

        摘要:以門戶網(wǎng)站獲取的公開新聞文本為數(shù)據(jù)源,利用詞頻統(tǒng)計(jì)和正則表達(dá)式方法,計(jì)算了時(shí)間熱度的月環(huán)比增長(zhǎng)率,構(gòu)建了熱度時(shí)間和空間模型。利用雙索引字典方法和均值聚類算法得到了時(shí)空分布模塊與預(yù)警模塊,并且構(gòu)建了上述工作的可視化模型。結(jié)果顯示,網(wǎng)絡(luò)詐騙案件呈低速增長(zhǎng)、由外內(nèi)遷的趨勢(shì),研究成果豐富了相關(guān)領(lǐng)域的分析方法,可為相關(guān)部門決策提供一定的科學(xué)依據(jù)。

        關(guān)鍵詞:網(wǎng)絡(luò)詐騙;文本分析;均值聚類;可視化

        中圖分類號(hào):TP393文獻(xiàn)標(biāo)志碼:A文章編號(hào):1008-1739(2018)20-58-4

        Analysis and Study on Hot Degree and Spatio-temporal Early-warning Models of Internet Fraud

        ZHAO Sifang1, ZHOU Xueguang2, ZHANG Zhigang2(1. Unit 92785, PLA,,Suizhong Liaoning 125200, China;2. Navy University of Engineering, Wuhan Hubei 430033, China)

        0引言

        根據(jù)CNNIC發(fā)布的《第40次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》中數(shù)據(jù)顯示,截止2017年6月,中國(guó)網(wǎng)民規(guī)模達(dá)7.51億,其中使用手機(jī)網(wǎng)上支付結(jié)算進(jìn)行線下購(gòu)物的網(wǎng)民比例達(dá)到61.6%[1]。在網(wǎng)絡(luò)線下支付等行為越來(lái)越普遍時(shí),隨之而來(lái)的網(wǎng)絡(luò)詐騙案件也頻繁發(fā)生。盡管各地公安機(jī)關(guān)一直持續(xù)不斷打擊,但網(wǎng)絡(luò)詐騙社會(huì)危害性的復(fù)制性、聚焦性和擴(kuò)散性[2]的特點(diǎn)使得網(wǎng)絡(luò)詐騙案件容易“死而復(fù)生”。隨著文本內(nèi)容分析、大數(shù)據(jù)、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)的成熟,社會(huì)上出現(xiàn)了一些有深度的技術(shù)層面的監(jiān)管措施,包括從用戶行為特征、掃描統(tǒng)計(jì)方法和涉案人群智能分析[3]等。

        本文以中文網(wǎng)頁(yè)中關(guān)于網(wǎng)絡(luò)詐騙的新聞文本為數(shù)據(jù)源,構(gòu)建網(wǎng)絡(luò)詐騙熱度分析的時(shí)間和空間模型,運(yùn)用可視化技術(shù)直觀展示近年來(lái)我國(guó)網(wǎng)絡(luò)詐騙案件熱度分析和時(shí)空分析的變化趨勢(shì)。

        1內(nèi)容分析方法在網(wǎng)絡(luò)文本中的應(yīng)用

        傳播學(xué)家伯納德·雷爾森定義內(nèi)容分析為:“一種對(duì)具有明確特征的傳播內(nèi)容進(jìn)行的客觀、系統(tǒng)和定量的描述的研究技術(shù)”。[2]研究目標(biāo)主要為趨勢(shì)分析、現(xiàn)狀分析、比較分析和意向分析,其與數(shù)學(xué)和計(jì)算機(jī)學(xué)科結(jié)合,形成了對(duì)文本信息使用統(tǒng)計(jì)、分類和挖掘等方法,以獲得更深層次的技術(shù)。

        本文研究過(guò)程中主要使用文本內(nèi)容分析正則表達(dá)式和詞頻統(tǒng)計(jì)技術(shù)。

        ①正則表達(dá)式可以用于從文中抽取特定的目標(biāo)信息內(nèi)容和數(shù)據(jù)。原理是用一串具有特定意義的字符作為正則運(yùn)算符來(lái)表示某種匹配規(guī)則,其主要應(yīng)用方向是Web信息內(nèi)容抽取,最基本的3種功能是匹配、替換和提取。本文中正則表達(dá)式主要使用了單模式匹配方法和雙模式匹配的貪心算法,單模式匹配方法是從文本中抽取對(duì)應(yīng)模式內(nèi)容,貪心算法是利用正則表達(dá)式組成邏輯結(jié)構(gòu)實(shí)現(xiàn)對(duì)全部?jī)?nèi)容的匹配,方法是用.*?”表示匹配前文全部?jī)?nèi)容0或1次。

        Pattern1+.*?+Pattern2,

        式中,Pattern1表示正則表達(dá)式起始端;Pattern2表示正則表達(dá)式結(jié)束端;+表示連接正則表達(dá)式內(nèi)容。

        ②詞頻統(tǒng)計(jì)是文本分析中的基本步驟,通過(guò)對(duì)關(guān)鍵詞語(yǔ)的統(tǒng)計(jì)實(shí)現(xiàn)對(duì)文本主題內(nèi)容的抽取、分類和信息過(guò)濾等。目前詞頻統(tǒng)計(jì)規(guī)律的提出、驗(yàn)證及應(yīng)用等方面已有大量參考資料,本文使用基本的詞頻統(tǒng)計(jì)方法統(tǒng)計(jì)關(guān)鍵詞[4]的出現(xiàn)次數(shù),通過(guò)分析后得出相應(yīng)結(jié)論。

        2數(shù)據(jù)挖掘方法在分析和聚類中的應(yīng)用

        3.1.2模型算法

        模型算法包括了熱度分析時(shí)間統(tǒng)計(jì)表算法和月環(huán)比增長(zhǎng)率統(tǒng)計(jì)表算法,分別稱之為算法1與算法2。算法1前聲明時(shí)間序列列表date,列表中各個(gè)元素為匹配模式Pattern;聲明字典變量為dict_time。

        算法1:輸入:文本數(shù)據(jù)wenebn.txt;輸出:熱度分析時(shí)間統(tǒng)計(jì)表hot_time.csv。步驟:①for i in range(0,len(date),1);②key = re.findall(匹配模式=date[i],匹配內(nèi)容=wenben.txt,換行處理re.S);③dict_time [i] = len (key);④文本指針歸0;⑤df = pandas.DataFrame(dict_time);⑥df.to_csv(hot_time.csv保存路徑)。

        算法2:輸入:算法1變量df;輸出:月環(huán)比增長(zhǎng)率統(tǒng)計(jì)表rate.csv。步驟:①df[增長(zhǎng)率]=0;②for i in range(1,len(df.index),1);③df.ix[i,增長(zhǎng)率] = float(df.ix[i,對(duì)應(yīng)時(shí)間統(tǒng)計(jì)的詞頻數(shù)值number])/float(df.ix[i-1,對(duì)應(yīng)時(shí)間統(tǒng)計(jì)的詞頻數(shù)值number])-1;④df.to_csv(rate.csv保存路徑)。

        3.2熱度分析空間模型

        構(gòu)建熱度分析空間模型與熱度分析時(shí)間模型算法需要將相同省份名稱和詞頻頻率匯總為熱度分析空間統(tǒng)計(jì)表,保存為Excel格式,并進(jìn)行可視化工作及分析。

        3.2.1正則表達(dá)式構(gòu)建和詞頻匹配

        針對(duì)熱度分析的空間統(tǒng)計(jì),可以以我國(guó)省份名稱作為正則表達(dá)式的匹配模式Pattern,正則表達(dá)式匹配前聲明字典變量,字典的索引值Key為省份名稱,字典對(duì)應(yīng)值Value為詞頻頻率。

        3.2.2模型算法

        熱度分析空間統(tǒng)計(jì)算法成為算法3。算法3前聲明省份名稱列表province,列表中各個(gè)元素為匹配模式Pattern;聲明字典變量dict_province。

        算法3:輸入:文本數(shù)據(jù)wenebn.txt;輸出:熱度分析時(shí)間統(tǒng)計(jì)表hot_space.csv。步驟:①for i in range(0,len(province),1);②key = re.findall(匹配模式=province[i],匹配內(nèi)容=wenben. txt,換行處理);③dict_province[i] = len(key);④文本指針歸0;⑤df = pandas.DataFrame(dict_province);⑥df.to_csv(hot_space. csv保存路徑)。

        3.3時(shí)空統(tǒng)計(jì)預(yù)警模型

        3.3.1時(shí)空統(tǒng)計(jì)模塊

        時(shí)空統(tǒng)計(jì)模型使用了雙索引字典技術(shù),分別為外層字典與內(nèi)層字典。具體方法與熱度分析時(shí)間和空間模型相同,正則表達(dá)式由“時(shí)間參量+.*?+空間參量”的匹配模式構(gòu)成,最終得到時(shí)空統(tǒng)計(jì)表,其包含了時(shí)間、省份和詞頻,并通過(guò)軟件進(jìn)行數(shù)據(jù)可視化展示。

        3.3.2預(yù)警模塊

        預(yù)警模塊以時(shí)空統(tǒng)計(jì)表為基礎(chǔ),使用均值聚類法對(duì)月環(huán)比增長(zhǎng)率進(jìn)行聚類。具體方法是首先判斷月環(huán)比增長(zhǎng)率取值,對(duì)大于0的月環(huán)比增長(zhǎng)率進(jìn)行均值聚類,定義值為4,得到4類聚類結(jié)果,而月環(huán)比增長(zhǎng)率小于0的情況單獨(dú)歸為一類,總計(jì)得到5層分類結(jié)果。

        3.3.3時(shí)空統(tǒng)計(jì)模塊算法

        時(shí)空統(tǒng)計(jì)模塊算法稱為算法4。算法4使用算法1聲明的時(shí)間序列列表date和算法3前聲明的省份名稱列表provicne。聲明字典變量dict1。

        算法4:輸入:文本數(shù)據(jù)wenben.txt;輸出:時(shí)空統(tǒng)計(jì)表time_space.csv。

        步驟:①for i in range(0,len(date),1);②定義字典dict2;③for k in range(0,len(province),1);④key = re.findall(匹配模式=date[i]+.*?+province[k],匹配內(nèi)容=wenben.txt,換行處理);⑤dict2[province[k]] = len(key);⑥文本指針歸0;⑦dict1[date[i]] = dict2;⑧df = pandas.DataFrame(dict1);⑨df[rate]=0;⑩for i in range(1,len(df.index),1);

        4實(shí)驗(yàn)與分析

        4.1實(shí)驗(yàn)環(huán)境與數(shù)據(jù)準(zhǔn)備

        (1)實(shí)驗(yàn)環(huán)境

        實(shí)驗(yàn)是在JetBrains Pycharm Community Edition 2017.2上用Python2.7語(yǔ)言實(shí)現(xiàn)。數(shù)據(jù)可視化軟件為Excel2016,數(shù)據(jù)源為各個(gè)模型的統(tǒng)計(jì)結(jié)果表。

        (2)數(shù)據(jù)準(zhǔn)備

        本文數(shù)據(jù)來(lái)自人民網(wǎng)社會(huì)模塊,在此以網(wǎng)絡(luò)詐騙為關(guān)鍵字檢索相關(guān)新聞,獲得了由2012年7月07日~2017年5月26日的全部文本新聞報(bào)道共計(jì)995篇。

        4.2熱度分析時(shí)間結(jié)果

        熱度分析的時(shí)間模型對(duì)2012年7月~2017年5月的時(shí)間進(jìn)行了匹配和統(tǒng)計(jì),經(jīng)過(guò)算法處理后得到熱度分析的時(shí)間統(tǒng)計(jì)表,實(shí)驗(yàn)結(jié)果如表1所示。

        根據(jù)得到熱度分析的時(shí)間統(tǒng)計(jì)表得到月環(huán)比增長(zhǎng)率表,表明網(wǎng)絡(luò)詐騙存在“死灰復(fù)燃”的特征,結(jié)果如表2所示。

        4.3熱度分析空間結(jié)果

        熱度分析空間統(tǒng)計(jì)模型對(duì)2012年6月~2017年5月間的我國(guó)31個(gè)省級(jí)行政區(qū)和港澳臺(tái)地區(qū)的名稱進(jìn)行了匹配和統(tǒng)計(jì),經(jīng)過(guò)算法處理后得到了熱度分析的空間統(tǒng)計(jì)表。網(wǎng)絡(luò)詐騙熱點(diǎn)省份由高至低的前10名省份統(tǒng)計(jì)結(jié)果由表1所示。

        4.4時(shí)空統(tǒng)計(jì)預(yù)警模塊實(shí)驗(yàn)及結(jié)果

        由于熱度分析的時(shí)間和空間模型剝離了時(shí)空相關(guān)性,其熱度分析時(shí)間統(tǒng)計(jì)表和熱度分析空間統(tǒng)計(jì)表不能作為時(shí)空統(tǒng)計(jì)的數(shù)據(jù)源,所以時(shí)空統(tǒng)計(jì)預(yù)警模塊對(duì)文本重新進(jìn)行了正則表達(dá)式匹配和詞頻統(tǒng)計(jì)。4.4.1時(shí)空統(tǒng)計(jì)模塊

        時(shí)空統(tǒng)計(jì)模塊通過(guò)雙索引技術(shù),利用時(shí)空相關(guān)性特點(diǎn),通過(guò)算法處理后得到了時(shí)空統(tǒng)計(jì)表,從圖1可發(fā)現(xiàn)我國(guó)在2012年末~2014年1月和2015年3月~2016年1月是我國(guó)網(wǎng)絡(luò)詐騙的一個(gè)高發(fā)期,其中北京、上海和廣東一直是關(guān)注網(wǎng)絡(luò)詐騙案件的熱點(diǎn)地區(qū),結(jié)果如圖2所示。

        4.4.2預(yù)警模塊

        預(yù)警模塊以時(shí)空統(tǒng)計(jì)圖為基礎(chǔ),經(jīng)多次實(shí)驗(yàn),均值聚類方法迭代次數(shù)分析在21~24次之間。通過(guò)動(dòng)態(tài)圖發(fā)現(xiàn)我國(guó)網(wǎng)絡(luò)詐騙主要在沿海區(qū)域和經(jīng)濟(jì)發(fā)達(dá)區(qū)域,東南沿海區(qū)域長(zhǎng)時(shí)間處于預(yù)警狀態(tài)。

        5結(jié)束語(yǔ)

        網(wǎng)絡(luò)詐騙是國(guó)內(nèi)的熱點(diǎn)與重點(diǎn)事件,空間模型在數(shù)據(jù)深度的提取上僅達(dá)到省、直轄市與自治區(qū)級(jí)別,仍具有地理深度上鉆取數(shù)據(jù)的價(jià)值和廣闊的發(fā)展前景。除此之外,未參考地域特征、人口文化素質(zhì)和經(jīng)濟(jì)收入等相關(guān)因素,因而本文的模型在構(gòu)建的方法上可以更加多樣化,其反應(yīng)的結(jié)果也將更加豐富。

        參考文獻(xiàn)

        [1]中國(guó)互聯(lián)網(wǎng)信息中心.中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[R].北京:中國(guó)互聯(lián)網(wǎng)信息中心,2017.

        [2]朱少?gòu)?qiáng),邱均平.文獻(xiàn)計(jì)量與內(nèi)容分析—文獻(xiàn)群中隱含信息的挖掘[J].圖書情報(bào)工作,2005,49(6):19-23.

        [3]王占宏.基于掃描統(tǒng)計(jì)方法的上海犯罪時(shí)空熱點(diǎn)分析[D].上海:華東師范大學(xué),2013.

        [4] Steven B,Ewan K,Edward L. Natural Language Processing with Python [M]. Sebastopol:OReilly Media,2009.

        [5]程潔.數(shù)據(jù)挖掘技術(shù)在情報(bào)學(xué)領(lǐng)域的應(yīng)用研究現(xiàn)狀分析[J].現(xiàn)代情報(bào),2005(10):14-15.

        [6]孫吉貴,劉杰,趙連宇.聚類算法研究[J].軟件學(xué)報(bào),2008(1): 48-61.

        [7]曾接賢,王軍婷,符祥.K均值聚類分割的多特征圖像檢索方法[J].計(jì)算機(jī)工程與應(yīng)用,2013,49(2):226-230.

        [8]周志華.機(jī)器學(xué)習(xí)[M].北京:清華大學(xué)出版社,2016.

        猜你喜歡
        可視化
        無(wú)錫市“三項(xiàng)舉措”探索執(zhí)法可視化新路徑
        基于CiteSpace的足三里穴研究可視化分析
        自然資源可視化決策系統(tǒng)
        三維可視化信息管理系統(tǒng)在選煤生產(chǎn)中的應(yīng)用
        思維可視化
        師道·教研(2022年1期)2022-03-12 05:46:47
        基于Power BI的油田注水運(yùn)行動(dòng)態(tài)分析與可視化展示
        云南化工(2021年8期)2021-12-21 06:37:54
        自然資源可視化決策系統(tǒng)
        基于CGAL和OpenGL的海底地形三維可視化
        可視化閱讀:新媒體語(yǔ)境下信息可視化新趨勢(shì)
        “融評(píng)”:黨媒評(píng)論的可視化創(chuàng)新
        国产乱码精品一区二区三区四川人 | 人妻av不卡一区二区三区| 国产精品国产三级久久| 亚洲一区自拍高清亚洲精品| 亚洲另类自拍丝袜第五页| 欧洲精品免费一区二区三区| 草莓视频一区二区精品| 成人黄网站免费永久在线观看| 日韩精品极品免费视频观看| 青青国产揄拍视频| 国产精品亚洲综合久久婷婷| 日韩av一区在线播放| 美女在线一区二区三区视频 | 国产中老年妇女精品 | 亚洲不卡中文字幕无码| 久久久久久无码AV成人影院| av影片手机在线观看免费网址| 欧美老妇多毛xxxxx极瑞视频| 欧美喷潮久久久xxxxx| 久久精品国产av大片| 校园春色日韩高清一区二区| 国产va免费精品高清在线观看| 国产自精品| 亚洲人妻av在线播放| 精品一区二区三区在线视频| 国产亚洲精品久久久久久| 狠狠狠狠狠综合视频| 精品久久人妻av中文字幕| 国产午夜福利久久精品| 男人扒开女人下面狂躁小视频 | 激情五月开心五月av| 丰满少妇被粗大猛烈进人高清 | 国内精品国产三级国产av另类| 性感熟妇被我玩弄到高潮| 把女人弄爽特黄a大片| 免费av片在线观看网站| 亚洲国产色图在线视频| 午夜视频国产在线观看| 国产av精国产传媒| 久久精品国产88久久综合| 在线观看国产视频午夜|