朱小波 次晉芳
(上海公安學(xué)院治安系 上海 200137)
在大數(shù)據(jù)時(shí)代下,犯罪預(yù)測(cè)是維護(hù)社會(huì)穩(wěn)定的重要基礎(chǔ),對(duì)于打擊犯罪和有效開展預(yù)防犯罪工作具有深遠(yuǎn)意義。廣州大學(xué)教授柳林認(rèn)為,探索如何有效地開展犯罪防控不僅是公安部門的工作重點(diǎn),更是理論界研究的熱點(diǎn)和難點(diǎn)[1]。目前有關(guān)犯罪預(yù)測(cè)的研究主要分為兩大部分。一是基于日?;顒?dòng)理論[2],將犯罪條件歸結(jié)于嫌疑人、合適的侵害目標(biāo)、防范力量的缺失三部分相互作用的結(jié)果。日常活動(dòng)理論指出犯罪活動(dòng)與物理環(huán)境間具有復(fù)雜的相關(guān)關(guān)系[3],可根據(jù)犯罪活動(dòng)相關(guān)影響因子,實(shí)現(xiàn)對(duì)于犯罪風(fēng)險(xiǎn)區(qū)的預(yù)測(cè)[4-5]。二是基于GIS空間分析統(tǒng)計(jì)與時(shí)空建模,利用犯罪時(shí)空數(shù)據(jù),分析犯罪活動(dòng)分布的時(shí)空規(guī)律,挖掘影響犯罪的相關(guān)因子,建立模型實(shí)現(xiàn)犯罪熱點(diǎn)的預(yù)測(cè)[6-7]。
隨著社會(huì)的快速發(fā)展,盜竊犯罪作案模式也越來越多,其影響因子也變得復(fù)雜多樣,線性的預(yù)測(cè)分析模型已不能滿足目前財(cái)產(chǎn)犯罪的需要。神經(jīng)網(wǎng)絡(luò)模型通過機(jī)器學(xué)習(xí)、數(shù)據(jù)訓(xùn)練能描述更多復(fù)雜的非線性相關(guān)關(guān)系[8]。在國(guó)內(nèi),柳林等[1]通過運(yùn)用隨機(jī)森林和時(shí)空核密度方法對(duì)不同周期犯罪熱點(diǎn)預(yù)測(cè)效果進(jìn)行對(duì)比,發(fā)現(xiàn)了兩類預(yù)測(cè)方法的不同適應(yīng)性。中國(guó)人民公安大學(xué)孫菲菲等[9]提出了一套可應(yīng)用于微觀犯罪預(yù)測(cè)的改進(jìn)的隨機(jī)森林算法,并且通過模擬實(shí)驗(yàn)證明了該算法對(duì)海量犯罪數(shù)據(jù)的良好分類和預(yù)測(cè)結(jié)果。在國(guó)外,文獻(xiàn)[10]運(yùn)用兩種不同的分類算法,即樸素貝葉斯算法和決策樹算法,對(duì)美國(guó)不同州的“犯罪種類分布”進(jìn)行預(yù)測(cè),實(shí)驗(yàn)結(jié)果表明,決策樹算法的準(zhǔn)確率相對(duì)更高。文獻(xiàn)[11]通過城市指標(biāo)和隨機(jī)森林回歸來預(yù)測(cè)犯罪并量化城市指標(biāo)對(duì)兇殺案的影響,該方法在位于巴西的研究區(qū)域內(nèi)可以達(dá)到97%的準(zhǔn)確率。文獻(xiàn)[12]運(yùn)用風(fēng)險(xiǎn)地形建模(Risk Terrain Modeling,RTM)與其他犯罪預(yù)測(cè)技術(shù)相比較,發(fā)現(xiàn)RTM在日本福岡的車輛盜竊案件方面的預(yù)測(cè)效率大約是其他技術(shù)的兩倍。上述這些基于數(shù)理統(tǒng)計(jì)的算法研究能在一定程度上對(duì)犯罪進(jìn)行預(yù)測(cè),但是鑒于某一算法自身的局限性,有必要采用改進(jìn)的算法或是融合算法來提高預(yù)測(cè)的準(zhǔn)確性。
PSO-BP在許多領(lǐng)域的預(yù)測(cè)研究都得到了廣泛的應(yīng)用,但在犯罪研究領(lǐng)域的實(shí)踐尚不多見。本文旨在分析一般盜竊案件的影響因子,并通過模型對(duì)比實(shí)驗(yàn)得出適用于該類犯罪預(yù)測(cè)的優(yōu)化算法,為警方提供量化的分析和預(yù)測(cè)結(jié)果,同時(shí)也為我國(guó)大城市的盜竊犯罪治理提供一定的借鑒。
芝加哥市是美國(guó)僅次于紐約、洛杉磯的第三大都會(huì)區(qū),其位于伊利諾伊州,東臨五大湖,都市區(qū)內(nèi)人口約290萬,與周邊郊區(qū)共同組成的大芝加哥地區(qū)人口超過900萬。芝加哥“罪案之都”的稱號(hào)難免讓人不寒而栗。根據(jù)芝加哥市警察局網(wǎng)站數(shù)據(jù)顯示,2015年-2017年該局共接報(bào)362 673起報(bào)警,其中財(cái)產(chǎn)犯罪占240 334起。該局一般將30多種犯罪類型歸納成為三大類:(1) 暴力犯罪,包括攻擊、搶劫、毆斗、性侵犯、謀殺等;(2) 財(cái)產(chǎn)犯罪,包括縱火、一般盜竊、入室盜竊、汽車盜竊等;(3) 破壞生活質(zhì)量犯罪,包括破壞財(cái)物、吸食毒品、賣淫等。在財(cái)產(chǎn)犯罪的細(xì)分類型中,一般盜竊犯罪報(bào)警量為182 673起,占整個(gè)財(cái)產(chǎn)犯罪的76%,總犯罪量的50.36%??梢姡话惚I竊犯罪在該市之猖獗。與美國(guó)其他的大城市如紐約、波士頓、華盛頓、洛杉磯相比,芝加哥市的該類犯罪接報(bào)數(shù)量也同樣是最高的。
本文使用的數(shù)據(jù)集來源于芝加哥市警察局的公民執(zhí)法分析和報(bào)告系統(tǒng)。該數(shù)據(jù)集包括了2015年1月1日至2017年12月31日芝加哥市警察局接報(bào)的所有犯罪事件的案由、地址(經(jīng)緯度)、時(shí)間、案情描述等22個(gè)字段。本文抽取字段名為“Theft”即一般盜竊的數(shù)據(jù),總量為182 673條。
運(yùn)用ArcGIS(地理信息系統(tǒng))軟件對(duì)所有一般盜竊犯罪點(diǎn)在芝加哥市的799個(gè)人口統(tǒng)計(jì)區(qū)(Census Tract)級(jí)別的地圖上進(jìn)行顯示,隨后使用該軟件的Join功能,計(jì)算得出每個(gè)人口統(tǒng)計(jì)區(qū)2015年-2017年的一般盜竊數(shù)量,即Crime count。
箱線圖是利用數(shù)據(jù)的五個(gè)統(tǒng)計(jì)量:最小值(Min)、下四分位數(shù)(Q1)、中位數(shù)(Median)、上四分位數(shù)(Q3)與最大值(Max)來檢驗(yàn)數(shù)值分布的一種方法。Crime count的箱線圖如圖1所示。因異常值偏離較邊緣值較遠(yuǎn),為清晰顯示箱線位置,將縱坐標(biāo)上限設(shè)500。
圖1 Crimecount的箱線圖
箱線圖中存在一個(gè)矩形,上限為Q3,下限為Q1,矩形內(nèi)部存在一條橫線即是中位線,對(duì)應(yīng)于中位數(shù)。矩形上下邊緣的外側(cè)存在兩條橫向的線段,這兩條線段的端點(diǎn)為異常值的截?cái)帱c(diǎn),對(duì)應(yīng)的數(shù)值分別為Q3+1.5IQR和Q1-1.5IQR。從箱線圖可以看出Crime count存在異常點(diǎn)。Crime count的詳細(xì)描述性統(tǒng)計(jì)量信息如表1所示。
表1 Crimecount的描述性統(tǒng)計(jì)量
續(xù)表1
考慮到Crime count的數(shù)值不可能為負(fù),根據(jù)表1信息和異常值截?cái)帱c(diǎn)的計(jì)算方法,當(dāng)Crime count>442.25或Crime count<0時(shí)為異常點(diǎn)。由此可以判斷本數(shù)據(jù)集存在55個(gè)異常點(diǎn),為了不影響回歸分析采用暴力法直接刪除異常數(shù)據(jù),數(shù)據(jù)集剩余744條數(shù)據(jù)。刪除異常數(shù)據(jù)后,本文使用R語(yǔ)言的mice包對(duì)缺失數(shù)據(jù)采用均值填充,并在填充的數(shù)據(jù)集上訓(xùn)練BP預(yù)測(cè)模型和PSO-BP預(yù)測(cè)模型。
3.1.1粒子群優(yōu)化算法
粒子群優(yōu)化(Particle Swarm Optimizer, PSO)算法最早發(fā)端于人對(duì)鳥群捕食行為的觀察與研究,即假設(shè)一群鳥在隨機(jī)地尋找食物,然而搜索區(qū)域內(nèi)只有一塊食物,并且所有的鳥都不知道食物的方位,但能判斷自己的位置與食物的距離。在鳥群中信息是共享的,每只鳥都會(huì)與其他鳥共享自己與食物的距離,所有鳥都會(huì)跟隨距離食物最近的那只鳥尋找食物,這蘊(yùn)含著鳥類的社會(huì)行為和個(gè)體認(rèn)知行為。
PSO算法正是從這種模型中得到啟發(fā),優(yōu)化問題的每一個(gè)可行解都被看作一只鳥,被稱為“粒子”,每只鳥都在一個(gè)d維空間中尋找最優(yōu)解,每個(gè)粒子的當(dāng)前位置與最優(yōu)解的距離由適應(yīng)度函數(shù)來確定,即為適應(yīng)值,每個(gè)粒子都有一個(gè)飛行速度,決定粒子飛行的速度和方向。
3.1.2BP神經(jīng)網(wǎng)絡(luò)
BP神經(jīng)網(wǎng)絡(luò)是一種多層前饋神經(jīng)網(wǎng)絡(luò),主要特點(diǎn)是信號(hào)前向傳播,誤差反向傳播。信號(hào)前向傳播是指信號(hào)從輸入層經(jīng)過隱藏層處理,再經(jīng)過非線性變換,傳至輸出層,如果輸出層的輸出與期望輸出不相符,則計(jì)算誤差并將誤差進(jìn)行反向傳播。誤差反向傳播是指誤差經(jīng)過輸出層,再到隱藏層,最后到輸入層,各層各個(gè)神經(jīng)元根據(jù)誤差信號(hào)調(diào)整權(quán)重和閾值,直至BP神經(jīng)網(wǎng)絡(luò)的誤差達(dá)到預(yù)設(shè)的值,或迭代次數(shù)達(dá)到最大迭代次數(shù),使得預(yù)測(cè)輸出不斷逼近期望輸出。常見的三層BP神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)如圖2所示。
圖2 BP神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)圖
在圖2中,x1,x2,…,xd是BP神經(jīng)網(wǎng)絡(luò)的輸入值,輸入層的節(jié)點(diǎn)個(gè)數(shù)一般為訓(xùn)練數(shù)據(jù)集的維度。O1,O2,…,Om是BP神經(jīng)網(wǎng)絡(luò)的輸出值,uik和wkj分別是BP神經(jīng)網(wǎng)絡(luò)中輸入層與隱藏層的權(quán)重和隱藏層與輸出層之間的權(quán)重。事實(shí)上,BP神經(jīng)網(wǎng)絡(luò)可以看成一個(gè)非線性函數(shù),網(wǎng)絡(luò)輸入值和輸出值分別為該函數(shù)的自變量和因變量。當(dāng)輸入節(jié)點(diǎn)數(shù)為d、輸出節(jié)點(diǎn)數(shù)為m時(shí),BP神經(jīng)網(wǎng)絡(luò)表示從d個(gè)自變量到m個(gè)因變量的映射關(guān)系。如果O是離散值且m>2,則BP神經(jīng)網(wǎng)絡(luò)可以解決多分類問題;如果O是離散值且m=2,則BP神經(jīng)網(wǎng)絡(luò)可以解決二分類問題;如果O是實(shí)數(shù)值,則BP神經(jīng)網(wǎng)絡(luò)可以解決回歸問題。
BP神經(jīng)網(wǎng)絡(luò)在處理多個(gè)輸入變量的數(shù)據(jù)上表現(xiàn)良好,而且具有結(jié)構(gòu)簡(jiǎn)單,便于實(shí)現(xiàn),且在數(shù)據(jù)量較少情況下能夠獲得較高的精度,但是由于初始權(quán)重是隨機(jī)產(chǎn)生的,極易陷入局部最優(yōu)解。
本文基于粒子群優(yōu)化算法,結(jié)合BP神經(jīng)網(wǎng)絡(luò)的權(quán)重更新算法,尋找最佳的網(wǎng)絡(luò)連接權(quán)重和閾值。首先將BP神經(jīng)網(wǎng)絡(luò)連接權(quán)重和閾值進(jìn)行粒子化,一般將BP神經(jīng)網(wǎng)絡(luò)的連接權(quán)重uik、wkj和閾值a、b拼接成為粒子的位置向量。設(shè)BP神經(jīng)網(wǎng)絡(luò)的輸入層、隱藏層及輸出層的節(jié)點(diǎn)數(shù)分別為d、l、m,則第n個(gè)粒子的位置向量為:
posn=(pn1,pn2,…,pnN)=(u11,…,uld,w11,
…,wlm,a1,…,al,b1,…,bm)
(1)
式中:N=dl+lm+l+m,uik表示輸入層節(jié)點(diǎn)i與隱藏層節(jié)點(diǎn)k的網(wǎng)絡(luò)連接權(quán)重,wkj表示隱藏層節(jié)點(diǎn)k與輸出層節(jié)點(diǎn)j的網(wǎng)絡(luò)連接權(quán)重,k=1,2,…,l;j=1,2,…,m。粒子的適應(yīng)度計(jì)算公式如下:
(2)
式中:N為訓(xùn)練樣本個(gè)數(shù),Oik、yik分別表示粒子i確定的BP神經(jīng)網(wǎng)絡(luò)輸出層的預(yù)測(cè)輸出和期望輸出。
由于每個(gè)粒子能夠唯一確定一個(gè)神經(jīng)網(wǎng)絡(luò),因此粒子位置的更新對(duì)應(yīng)著BP神經(jīng)網(wǎng)絡(luò)權(quán)重與閾值的更新。基于粒子群優(yōu)化算法的BP神經(jīng)網(wǎng)絡(luò)正是利用這種粒子位置的更新過程來搜索最佳的網(wǎng)絡(luò)連接權(quán)重和閾值,從而達(dá)到BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練的目的。
在PSO-BP神經(jīng)網(wǎng)絡(luò)中,本文采用sigmoid作為激活函數(shù),算法流程如下:
Step1初始化。
初始化網(wǎng)絡(luò)輸入層節(jié)點(diǎn)數(shù)d、隱藏層節(jié)點(diǎn)數(shù)l,輸出層節(jié)點(diǎn)數(shù)m,初始化隱藏層閾值a,輸出層閾值b,設(shè)置學(xué)習(xí)速率η和激勵(lì)函數(shù)f等參數(shù)。
初始化粒子群,包括粒子群的規(guī)模M,粒子n的位置向量posn=(posn1,posn2,…,posnd)和速度向量vn=(vn1,vn2,…,vnd),個(gè)體極值pbestn=(pn1,pn2,…,pnd)與群體的全局極值gbest=(pg1,pg2,…,pgd),最大迭代次數(shù)itmax及迭代誤差精度ε等,其中n=1,2,…,M。
使用訓(xùn)練集對(duì)算法模型進(jìn)行訓(xùn)練,當(dāng)f(gbest)<ε或迭代次數(shù)t Step2利用如下BP神經(jīng)網(wǎng)絡(luò)權(quán)重更新公式對(duì)網(wǎng)絡(luò)連接權(quán)重uik、wkj和閾值a、b進(jìn)行更新。 (3) (4) ak=ak-ηδik (5) bj=bj-ηδkj (6) Step3將權(quán)重uik、wkj和閾值a、b拼接并粒子化,對(duì)每個(gè)粒子計(jì)算其適應(yīng)值,得到粒子n的個(gè)體極值pbestn與群體的全局極值gbest,粒子化公式如式(1)所示,n=1,2,…,M。 Step4利用如下粒子群算法位置更新公式對(duì)各個(gè)粒子的位置進(jìn)行更新。 (7) (8) γ=γmax-(γmax-γmin)t/itmax (9) Step5利用式(2)計(jì)算粒子群各粒子的適應(yīng)度,尋找粒子個(gè)體極值pbestn和群體全局極值gbest。 Step6輸出粒子群全局最佳位置gbest及其確定的BP神經(jīng)網(wǎng)絡(luò)連接權(quán)重和閾值。 綜上,本文提出的改進(jìn)算法結(jié)合了PSO優(yōu)化算法與BP神經(jīng)網(wǎng)絡(luò)的優(yōu)化過程。首先采用PSO優(yōu)化算法對(duì)BP神經(jīng)網(wǎng)絡(luò)的隨機(jī)初始權(quán)重進(jìn)行全局尋優(yōu),并將全局優(yōu)解作為BP神經(jīng)網(wǎng)絡(luò)的初始權(quán)重,然后采用PSO優(yōu)化算法和BP神經(jīng)網(wǎng)絡(luò)對(duì)權(quán)重進(jìn)行交替更新,即在每一次的迭代過程中先采用BP神經(jīng)網(wǎng)絡(luò)對(duì)權(quán)重進(jìn)行初步更新,再采用PSO優(yōu)化算法對(duì)權(quán)重進(jìn)行再次優(yōu)化。這樣既利用了PSO優(yōu)化算法的全局搜索能力,又充分體現(xiàn)了BP神經(jīng)網(wǎng)絡(luò)的誤差反向傳播的特點(diǎn),實(shí)現(xiàn)了從全局搜索BP神經(jīng)網(wǎng)絡(luò)的權(quán)重最優(yōu)解,使BP神經(jīng)網(wǎng)絡(luò)有了動(dòng)態(tài)學(xué)習(xí)的能力,解決了BP神經(jīng)網(wǎng)絡(luò)易陷入局部最優(yōu)解的問題。 目前國(guó)外對(duì)于美國(guó)犯罪問題的研究普遍采用的解釋變量為貧困率、單親家庭數(shù)、房?jī)r(jià)中位數(shù)、人種、就業(yè)率等[13]。因此,本文也根據(jù)United states census網(wǎng)站上提供的該市每個(gè)人口統(tǒng)計(jì)區(qū)的房?jī)r(jià)中位數(shù)(House price)、貧困率(Poverty percentage)、女性(單親)戶主數(shù)(Female household)、總?cè)丝跀?shù)(Total population)、白人人口數(shù)(White)、黑人或非裔美國(guó)人數(shù)(Black or Africa)、亞裔美國(guó)人數(shù)(Asian)、本科率(Bachelor degree)、勞動(dòng)參與率(Labor force)、新建(改建)房屋許可數(shù)(Permit)、統(tǒng)計(jì)區(qū)內(nèi)各犯罪點(diǎn)到最近警務(wù)站的平均距離(Distance)等十一類數(shù)據(jù),作為影響因子進(jìn)行分析。如表2所示,House price屬性有10個(gè)缺失值,缺失率為1.34%,缺失率較低,其余變量缺失值均為0,本文使用R語(yǔ)言的mice包對(duì)缺失數(shù)據(jù)進(jìn)行平均值填充。 表2 數(shù)據(jù)集詳細(xì)信息 經(jīng)過異常值處理和缺失值處理后,本文使用R語(yǔ)言的rattle包對(duì)各個(gè)屬性與一般盜竊犯罪數(shù)量Crime count的相關(guān)性進(jìn)行分析。在相關(guān)性分析時(shí)采用Pearson系數(shù)衡量?jī)蓚€(gè)變量的相關(guān)度,為了消除數(shù)量級(jí)的影響,先將數(shù)據(jù)使用平均數(shù)方差法進(jìn)行標(biāo)準(zhǔn)化處理,再做相關(guān)性分析,屬性之間的相關(guān)性分析結(jié)果如圖3所示。 圖3 相關(guān)性分析結(jié)果 圖3中,兩兩屬性之間可以用圓圈大小和顏色來表示相關(guān)性的強(qiáng)度,圓圈越大、顏色越深說明相關(guān)性越高,正值表示正相關(guān),而負(fù)值則表示負(fù)相關(guān)??梢钥闯?,房?jī)r(jià)(Houseprice)和白人人口數(shù)(White)與一般盜竊犯罪數(shù)量(Crimecount)的相關(guān)性最弱,而黑人或非裔美國(guó)人數(shù)(Black or Africa)、女性(單親)戶主數(shù)(Female household)以及新建(改建)房屋許可數(shù)(Permit)與該類犯罪數(shù)量的正相關(guān)性最強(qiáng)。 在對(duì)犯罪數(shù)量進(jìn)行預(yù)測(cè)時(shí),將數(shù)據(jù)集采取7:3隨機(jī)劃分,取70%的數(shù)據(jù)為訓(xùn)練集,30%的數(shù)據(jù)為測(cè)試集,訓(xùn)練集中Crimecount的描述性統(tǒng)計(jì)量如表3所示。 表3 訓(xùn)練集中Crimecount的描述統(tǒng)計(jì)量 在訓(xùn)練預(yù)測(cè)模型之前,首先對(duì)數(shù)據(jù)進(jìn)行歸一化處理,在建立BP神經(jīng)網(wǎng)絡(luò)模型時(shí),隱藏層節(jié)點(diǎn)設(shè)為12,訓(xùn)練次數(shù)為1 000,學(xué)習(xí)率η=0.01,激活函數(shù)為‘tansig’;在建立PSO-BP神經(jīng)網(wǎng)絡(luò)時(shí),隱藏層節(jié)點(diǎn)數(shù)設(shè)為3,訓(xùn)練次數(shù)1 000,激活函數(shù)為‘tangisg’,粒子群規(guī)模40,粒子飛行速度最大為0.5,wmax=0.9,wmin=0.3,c1=2,c2=1.8,a=-1,b=1,r1=r2=1。 分別根據(jù)之前介紹的BP神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練方法和PSO-BP神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練方法,訓(xùn)練犯罪數(shù)量預(yù)測(cè)模型。訓(xùn)練得到PSO-BP神經(jīng)網(wǎng)絡(luò)從輸入層到隱藏層的權(quán)重及閾值如表4所示,隱藏層到輸出層的權(quán)重及閾值如表5所示。 表4 輸入層到隱藏層權(quán)重及閾值 表5 隱藏層到輸出層權(quán)重及閾值 以表6所示的5個(gè)樣本為例,將數(shù)據(jù)送入輸入層,首先需要?dú)w一化處理,然后根據(jù)權(quán)重uik和閾值ak進(jìn)行加權(quán)求和并經(jīng)過隱藏層的激勵(lì)函數(shù)進(jìn)行計(jì)算并輸出,隱藏層的輸出數(shù)據(jù)作為輸出層的輸入數(shù)據(jù),并經(jīng)過輸出層的權(quán)重wkj和閾值b進(jìn)行加權(quán)求和,最后進(jìn)行反歸一化處理并作為輸出層的輸出數(shù)據(jù),即為樣本的預(yù)測(cè)犯罪數(shù)量(對(duì)應(yīng)于表6中的Predicted Crimecount行),表6所示樣本的真實(shí)犯罪數(shù)量為True Crimecount行。 表6 樣例及PSO-BP預(yù)測(cè)結(jié)果 采用上述實(shí)驗(yàn)方法和參數(shù)設(shè)置對(duì)訓(xùn)練集進(jìn)行預(yù)測(cè)模型訓(xùn)練,得到預(yù)測(cè)模型后,對(duì)測(cè)試集進(jìn)行預(yù)測(cè),并對(duì)結(jié)果進(jìn)行反歸一化處理。真實(shí)值與BP預(yù)測(cè)值、PSO-BP預(yù)測(cè)值的對(duì)比結(jié)果如圖4所示,可以看出,PSO-BP模型的預(yù)測(cè)值與實(shí)際值比較接近。 圖4 犯罪數(shù)量預(yù)測(cè)結(jié)果對(duì)比 圖5給出了應(yīng)用BP神經(jīng)網(wǎng)絡(luò)模型和PSO-BP神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)的各人口統(tǒng)計(jì)區(qū)犯罪數(shù)量的平均絕對(duì)值相對(duì)誤差EMAPE,計(jì)算公式如下: (10) 式中:yj、Oj分別為第j人口統(tǒng)計(jì)區(qū)實(shí)際犯罪數(shù)量和預(yù)測(cè)數(shù)量。 圖5 預(yù)測(cè)結(jié)果相對(duì)誤差對(duì)比 圖5中有很多誤差“尖峰”,這些點(diǎn)的出現(xiàn)直接影響了預(yù)測(cè)的整體效果,目前國(guó)內(nèi)外學(xué)者對(duì)“尖峰”的研究較少,主要是這些“尖峰”產(chǎn)生的原因非常復(fù)雜,規(guī)律性差,很難預(yù)測(cè)。但與BP神經(jīng)網(wǎng)絡(luò)相比,PSO-BP預(yù)測(cè)的相對(duì)誤差相對(duì)較小。 表7給出了兩種模型的平均EMAPE值的對(duì)比分析,相較于BP神經(jīng)網(wǎng)絡(luò)模型,PSO-BP神經(jīng)網(wǎng)絡(luò)模型的預(yù)測(cè)精度具有明顯提高。 表7 兩種模型的平均相對(duì)誤差 本文針對(duì)BP神經(jīng)網(wǎng)絡(luò)對(duì)初始權(quán)重敏感,容易陷入局部最優(yōu)解的問題,引入PSO優(yōu)化算法,對(duì)網(wǎng)絡(luò)權(quán)重進(jìn)行全局搜索,同時(shí)采用BP神經(jīng)網(wǎng)絡(luò)權(quán)重更新方法對(duì)PSO搜索到的權(quán)重和閾值進(jìn)行進(jìn)一步更新,構(gòu)建PSO-BP神經(jīng)網(wǎng)絡(luò)模型,對(duì)犯罪數(shù)量進(jìn)行預(yù)測(cè)。在744個(gè)人口統(tǒng)計(jì)區(qū)的犯罪數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,基于PSO-BP神經(jīng)網(wǎng)絡(luò)算法的犯罪數(shù)量預(yù)測(cè)模型的預(yù)測(cè)精度有明顯提升,在該一般盜竊犯罪的數(shù)量預(yù)測(cè)中有良好的應(yīng)用效果。4 一般盜竊犯罪影響因素分析及數(shù)量預(yù)測(cè)
4.1 影響因子選取
4.2 犯罪數(shù)量影響因子分析
4.3 實(shí)驗(yàn)方法及參數(shù)設(shè)置
4.4 預(yù)測(cè)結(jié)果與評(píng)價(jià)
5 結(jié) 語(yǔ)