趙四方 周學(xué)廣 張志剛
摘要:以門戶網(wǎng)站獲取的公開新聞文本為數(shù)據(jù)源,利用詞頻統(tǒng)計(jì)和正則表達(dá)式方法,計(jì)算了時(shí)間熱度的月環(huán)比增長(zhǎng)率,構(gòu)建了熱度時(shí)間和空間模型。利用雙索引字典方法和均值聚類算法得到了時(shí)空分布模塊與預(yù)警模塊,并且構(gòu)建了上述工作的可視化模型。結(jié)果顯示,網(wǎng)絡(luò)詐騙案件呈低速增長(zhǎng)、由外內(nèi)遷的趨勢(shì),研究成果豐富了相關(guān)領(lǐng)域的分析方法,可為相關(guān)部門決策提供一定的科學(xué)依據(jù)。
關(guān)鍵詞:網(wǎng)絡(luò)詐騙;文本分析;均值聚類;可視化
中圖分類號(hào):TP393文獻(xiàn)標(biāo)志碼:A文章編號(hào):1008-1739(2018)20-58-4
Analysis and Study on Hot Degree and Spatio-temporal Early-warning Models of Internet Fraud
ZHAO Sifang1, ZHOU Xueguang2, ZHANG Zhigang2(1. Unit 92785, PLA,,Suizhong Liaoning 125200, China;2. Navy University of Engineering, Wuhan Hubei 430033, China)
0引言
根據(jù)CNNIC發(fā)布的《第40次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》中數(shù)據(jù)顯示,截止2017年6月,中國(guó)網(wǎng)民規(guī)模達(dá)7.51億,其中使用手機(jī)網(wǎng)上支付結(jié)算進(jìn)行線下購(gòu)物的網(wǎng)民比例達(dá)到61.6%[1]。在網(wǎng)絡(luò)線下支付等行為越來(lái)越普遍時(shí),隨之而來(lái)的網(wǎng)絡(luò)詐騙案件也頻繁發(fā)生。盡管各地公安機(jī)關(guān)一直持續(xù)不斷打擊,但網(wǎng)絡(luò)詐騙社會(huì)危害性的復(fù)制性、聚焦性和擴(kuò)散性[2]的特點(diǎn)使得網(wǎng)絡(luò)詐騙案件容易“死而復(fù)生”。隨著文本內(nèi)容分析、大數(shù)據(jù)、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)的成熟,社會(huì)上出現(xiàn)了一些有深度的技術(shù)層面的監(jiān)管措施,包括從用戶行為特征、掃描統(tǒng)計(jì)方法和涉案人群智能分析[3]等。
本文以中文網(wǎng)頁(yè)中關(guān)于網(wǎng)絡(luò)詐騙的新聞文本為數(shù)據(jù)源,構(gòu)建網(wǎng)絡(luò)詐騙熱度分析的時(shí)間和空間模型,運(yùn)用可視化技術(shù)直觀展示近年來(lái)我國(guó)網(wǎng)絡(luò)詐騙案件熱度分析和時(shí)空分析的變化趨勢(shì)。
1內(nèi)容分析方法在網(wǎng)絡(luò)文本中的應(yīng)用
傳播學(xué)家伯納德·雷爾森定義內(nèi)容分析為:“一種對(duì)具有明確特征的傳播內(nèi)容進(jìn)行的客觀、系統(tǒng)和定量的描述的研究技術(shù)”。[2]研究目標(biāo)主要為趨勢(shì)分析、現(xiàn)狀分析、比較分析和意向分析,其與數(shù)學(xué)和計(jì)算機(jī)學(xué)科結(jié)合,形成了對(duì)文本信息使用統(tǒng)計(jì)、分類和挖掘等方法,以獲得更深層次的技術(shù)。
本文研究過(guò)程中主要使用文本內(nèi)容分析正則表達(dá)式和詞頻統(tǒng)計(jì)技術(shù)。
①正則表達(dá)式可以用于從文中抽取特定的目標(biāo)信息內(nèi)容和數(shù)據(jù)。原理是用一串具有特定意義的字符作為正則運(yùn)算符來(lái)表示某種匹配規(guī)則,其主要應(yīng)用方向是Web信息內(nèi)容抽取,最基本的3種功能是匹配、替換和提取。本文中正則表達(dá)式主要使用了單模式匹配方法和雙模式匹配的貪心算法,單模式匹配方法是從文本中抽取對(duì)應(yīng)模式內(nèi)容,貪心算法是利用正則表達(dá)式組成邏輯結(jié)構(gòu)實(shí)現(xiàn)對(duì)全部?jī)?nèi)容的匹配,方法是用.*?”表示匹配前文全部?jī)?nèi)容0或1次。
Pattern1+.*?+Pattern2,
式中,Pattern1表示正則表達(dá)式起始端;Pattern2表示正則表達(dá)式結(jié)束端;+表示連接正則表達(dá)式內(nèi)容。
②詞頻統(tǒng)計(jì)是文本分析中的基本步驟,通過(guò)對(duì)關(guān)鍵詞語(yǔ)的統(tǒng)計(jì)實(shí)現(xiàn)對(duì)文本主題內(nèi)容的抽取、分類和信息過(guò)濾等。目前詞頻統(tǒng)計(jì)規(guī)律的提出、驗(yàn)證及應(yīng)用等方面已有大量參考資料,本文使用基本的詞頻統(tǒng)計(jì)方法統(tǒng)計(jì)關(guān)鍵詞[4]的出現(xiàn)次數(shù),通過(guò)分析后得出相應(yīng)結(jié)論。
2數(shù)據(jù)挖掘方法在分析和聚類中的應(yīng)用
3.1.2模型算法
模型算法包括了熱度分析時(shí)間統(tǒng)計(jì)表算法和月環(huán)比增長(zhǎng)率統(tǒng)計(jì)表算法,分別稱之為算法1與算法2。算法1前聲明時(shí)間序列列表date,列表中各個(gè)元素為匹配模式Pattern;聲明字典變量為dict_time。
算法1:輸入:文本數(shù)據(jù)wenebn.txt;輸出:熱度分析時(shí)間統(tǒng)計(jì)表hot_time.csv。步驟:①for i in range(0,len(date),1);②key = re.findall(匹配模式=date[i],匹配內(nèi)容=wenben.txt,換行處理re.S);③dict_time [i] = len (key);④文本指針歸0;⑤df = pandas.DataFrame(dict_time);⑥df.to_csv(hot_time.csv保存路徑)。
算法2:輸入:算法1變量df;輸出:月環(huán)比增長(zhǎng)率統(tǒng)計(jì)表rate.csv。步驟:①df[增長(zhǎng)率]=0;②for i in range(1,len(df.index),1);③df.ix[i,增長(zhǎng)率] = float(df.ix[i,對(duì)應(yīng)時(shí)間統(tǒng)計(jì)的詞頻數(shù)值number])/float(df.ix[i-1,對(duì)應(yīng)時(shí)間統(tǒng)計(jì)的詞頻數(shù)值number])-1;④df.to_csv(rate.csv保存路徑)。
3.2熱度分析空間模型
構(gòu)建熱度分析空間模型與熱度分析時(shí)間模型算法需要將相同省份名稱和詞頻頻率匯總為熱度分析空間統(tǒng)計(jì)表,保存為Excel格式,并進(jìn)行可視化工作及分析。
3.2.1正則表達(dá)式構(gòu)建和詞頻匹配
針對(duì)熱度分析的空間統(tǒng)計(jì),可以以我國(guó)省份名稱作為正則表達(dá)式的匹配模式Pattern,正則表達(dá)式匹配前聲明字典變量,字典的索引值Key為省份名稱,字典對(duì)應(yīng)值Value為詞頻頻率。
3.2.2模型算法
熱度分析空間統(tǒng)計(jì)算法成為算法3。算法3前聲明省份名稱列表province,列表中各個(gè)元素為匹配模式Pattern;聲明字典變量dict_province。
算法3:輸入:文本數(shù)據(jù)wenebn.txt;輸出:熱度分析時(shí)間統(tǒng)計(jì)表hot_space.csv。步驟:①for i in range(0,len(province),1);②key = re.findall(匹配模式=province[i],匹配內(nèi)容=wenben. txt,換行處理);③dict_province[i] = len(key);④文本指針歸0;⑤df = pandas.DataFrame(dict_province);⑥df.to_csv(hot_space. csv保存路徑)。
3.3時(shí)空統(tǒng)計(jì)預(yù)警模型
3.3.1時(shí)空統(tǒng)計(jì)模塊
時(shí)空統(tǒng)計(jì)模型使用了雙索引字典技術(shù),分別為外層字典與內(nèi)層字典。具體方法與熱度分析時(shí)間和空間模型相同,正則表達(dá)式由“時(shí)間參量+.*?+空間參量”的匹配模式構(gòu)成,最終得到時(shí)空統(tǒng)計(jì)表,其包含了時(shí)間、省份和詞頻,并通過(guò)軟件進(jìn)行數(shù)據(jù)可視化展示。
3.3.2預(yù)警模塊
預(yù)警模塊以時(shí)空統(tǒng)計(jì)表為基礎(chǔ),使用均值聚類法對(duì)月環(huán)比增長(zhǎng)率進(jìn)行聚類。具體方法是首先判斷月環(huán)比增長(zhǎng)率取值,對(duì)大于0的月環(huán)比增長(zhǎng)率進(jìn)行均值聚類,定義值為4,得到4類聚類結(jié)果,而月環(huán)比增長(zhǎng)率小于0的情況單獨(dú)歸為一類,總計(jì)得到5層分類結(jié)果。
3.3.3時(shí)空統(tǒng)計(jì)模塊算法
時(shí)空統(tǒng)計(jì)模塊算法稱為算法4。算法4使用算法1聲明的時(shí)間序列列表date和算法3前聲明的省份名稱列表provicne。聲明字典變量dict1。
算法4:輸入:文本數(shù)據(jù)wenben.txt;輸出:時(shí)空統(tǒng)計(jì)表time_space.csv。
步驟:①for i in range(0,len(date),1);②定義字典dict2;③for k in range(0,len(province),1);④key = re.findall(匹配模式=date[i]+.*?+province[k],匹配內(nèi)容=wenben.txt,換行處理);⑤dict2[province[k]] = len(key);⑥文本指針歸0;⑦dict1[date[i]] = dict2;⑧df = pandas.DataFrame(dict1);⑨df[rate]=0;⑩for i in range(1,len(df.index),1);
4實(shí)驗(yàn)與分析
4.1實(shí)驗(yàn)環(huán)境與數(shù)據(jù)準(zhǔn)備
(1)實(shí)驗(yàn)環(huán)境
實(shí)驗(yàn)是在JetBrains Pycharm Community Edition 2017.2上用Python2.7語(yǔ)言實(shí)現(xiàn)。數(shù)據(jù)可視化軟件為Excel2016,數(shù)據(jù)源為各個(gè)模型的統(tǒng)計(jì)結(jié)果表。
(2)數(shù)據(jù)準(zhǔn)備
本文數(shù)據(jù)來(lái)自人民網(wǎng)社會(huì)模塊,在此以網(wǎng)絡(luò)詐騙為關(guān)鍵字檢索相關(guān)新聞,獲得了由2012年7月07日~2017年5月26日的全部文本新聞報(bào)道共計(jì)995篇。
4.2熱度分析時(shí)間結(jié)果
熱度分析的時(shí)間模型對(duì)2012年7月~2017年5月的時(shí)間進(jìn)行了匹配和統(tǒng)計(jì),經(jīng)過(guò)算法處理后得到熱度分析的時(shí)間統(tǒng)計(jì)表,實(shí)驗(yàn)結(jié)果如表1所示。
根據(jù)得到熱度分析的時(shí)間統(tǒng)計(jì)表得到月環(huán)比增長(zhǎng)率表,表明網(wǎng)絡(luò)詐騙存在“死灰復(fù)燃”的特征,結(jié)果如表2所示。
4.3熱度分析空間結(jié)果
熱度分析空間統(tǒng)計(jì)模型對(duì)2012年6月~2017年5月間的我國(guó)31個(gè)省級(jí)行政區(qū)和港澳臺(tái)地區(qū)的名稱進(jìn)行了匹配和統(tǒng)計(jì),經(jīng)過(guò)算法處理后得到了熱度分析的空間統(tǒng)計(jì)表。網(wǎng)絡(luò)詐騙熱點(diǎn)省份由高至低的前10名省份統(tǒng)計(jì)結(jié)果由表1所示。
4.4時(shí)空統(tǒng)計(jì)預(yù)警模塊實(shí)驗(yàn)及結(jié)果
由于熱度分析的時(shí)間和空間模型剝離了時(shí)空相關(guān)性,其熱度分析時(shí)間統(tǒng)計(jì)表和熱度分析空間統(tǒng)計(jì)表不能作為時(shí)空統(tǒng)計(jì)的數(shù)據(jù)源,所以時(shí)空統(tǒng)計(jì)預(yù)警模塊對(duì)文本重新進(jìn)行了正則表達(dá)式匹配和詞頻統(tǒng)計(jì)。4.4.1時(shí)空統(tǒng)計(jì)模塊
時(shí)空統(tǒng)計(jì)模塊通過(guò)雙索引技術(shù),利用時(shí)空相關(guān)性特點(diǎn),通過(guò)算法處理后得到了時(shí)空統(tǒng)計(jì)表,從圖1可發(fā)現(xiàn)我國(guó)在2012年末~2014年1月和2015年3月~2016年1月是我國(guó)網(wǎng)絡(luò)詐騙的一個(gè)高發(fā)期,其中北京、上海和廣東一直是關(guān)注網(wǎng)絡(luò)詐騙案件的熱點(diǎn)地區(qū),結(jié)果如圖2所示。
4.4.2預(yù)警模塊
預(yù)警模塊以時(shí)空統(tǒng)計(jì)圖為基礎(chǔ),經(jīng)多次實(shí)驗(yàn),均值聚類方法迭代次數(shù)分析在21~24次之間。通過(guò)動(dòng)態(tài)圖發(fā)現(xiàn)我國(guó)網(wǎng)絡(luò)詐騙主要在沿海區(qū)域和經(jīng)濟(jì)發(fā)達(dá)區(qū)域,東南沿海區(qū)域長(zhǎng)時(shí)間處于預(yù)警狀態(tài)。
5結(jié)束語(yǔ)
網(wǎng)絡(luò)詐騙是國(guó)內(nèi)的熱點(diǎn)與重點(diǎn)事件,空間模型在數(shù)據(jù)深度的提取上僅達(dá)到省、直轄市與自治區(qū)級(jí)別,仍具有地理深度上鉆取數(shù)據(jù)的價(jià)值和廣闊的發(fā)展前景。除此之外,未參考地域特征、人口文化素質(zhì)和經(jīng)濟(jì)收入等相關(guān)因素,因而本文的模型在構(gòu)建的方法上可以更加多樣化,其反應(yīng)的結(jié)果也將更加豐富。
參考文獻(xiàn)
[1]中國(guó)互聯(lián)網(wǎng)信息中心.中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[R].北京:中國(guó)互聯(lián)網(wǎng)信息中心,2017.
[2]朱少?gòu)?qiáng),邱均平.文獻(xiàn)計(jì)量與內(nèi)容分析—文獻(xiàn)群中隱含信息的挖掘[J].圖書情報(bào)工作,2005,49(6):19-23.
[3]王占宏.基于掃描統(tǒng)計(jì)方法的上海犯罪時(shí)空熱點(diǎn)分析[D].上海:華東師范大學(xué),2013.
[4] Steven B,Ewan K,Edward L. Natural Language Processing with Python [M]. Sebastopol:OReilly Media,2009.
[5]程潔.數(shù)據(jù)挖掘技術(shù)在情報(bào)學(xué)領(lǐng)域的應(yīng)用研究現(xiàn)狀分析[J].現(xiàn)代情報(bào),2005(10):14-15.
[6]孫吉貴,劉杰,趙連宇.聚類算法研究[J].軟件學(xué)報(bào),2008(1): 48-61.
[7]曾接賢,王軍婷,符祥.K均值聚類分割的多特征圖像檢索方法[J].計(jì)算機(jī)工程與應(yīng)用,2013,49(2):226-230.
[8]周志華.機(jī)器學(xué)習(xí)[M].北京:清華大學(xué)出版社,2016.