王雨晨,過仲陽(yáng),王媛媛
(華東師范大學(xué)地理科學(xué)學(xué)院,上海200241)
基于隨機(jī)森林的犯罪風(fēng)險(xiǎn)預(yù)測(cè)模型研究
王雨晨,過仲陽(yáng),王媛媛
(華東師范大學(xué)地理科學(xué)學(xué)院,上海200241)
犯罪預(yù)測(cè)是犯罪預(yù)防的前提,也是公安部門亟待解決的問題.隨機(jī)森林作為一種組合分類方法,具有準(zhǔn)確率高、速度快、性能穩(wěn)定的特性,且能夠給出指標(biāo)重要性評(píng)價(jià),本文將其應(yīng)用于犯罪風(fēng)險(xiǎn)預(yù)測(cè)中.實(shí)驗(yàn)證明,隨機(jī)森林方法選出的指標(biāo)集可以顯著地提高預(yù)測(cè)準(zhǔn)確率,基于該方法構(gòu)建的預(yù)測(cè)模型相較于神經(jīng)網(wǎng)絡(luò)與支持向量機(jī)具有更高的準(zhǔn)確性和穩(wěn)定性,能夠滿足犯罪風(fēng)險(xiǎn)預(yù)測(cè)的需求.
隨機(jī)森林;犯罪風(fēng)險(xiǎn)預(yù)測(cè);指標(biāo)集選擇
犯罪預(yù)測(cè)是實(shí)現(xiàn)精準(zhǔn)、快速打擊犯罪行為的前提,對(duì)于犯罪風(fēng)險(xiǎn)的準(zhǔn)確預(yù)測(cè)可以為預(yù)防犯罪提供有效的決策信息,實(shí)現(xiàn)警力跟著警情走,提高警務(wù)工作效率.隨著大數(shù)據(jù)與數(shù)據(jù)挖掘技術(shù)的發(fā)展,公安部門的警務(wù)大數(shù)據(jù)平臺(tái)已經(jīng)進(jìn)入了實(shí)際應(yīng)用階段,犯罪相關(guān)數(shù)據(jù)的數(shù)量與質(zhì)量也在大幅度提升,使得數(shù)據(jù)挖掘技術(shù)支撐下的犯罪預(yù)測(cè)成為可能.
目前,我國(guó)對(duì)于犯罪預(yù)測(cè)的研究多數(shù)停留在定性預(yù)測(cè)階段,定量預(yù)測(cè)的缺少造成了犯罪預(yù)測(cè)精度較低,從而使得預(yù)測(cè)結(jié)果缺少實(shí)用價(jià)值[1].在犯罪行為的定量預(yù)測(cè)方面,通過建立數(shù)學(xué)模型進(jìn)行預(yù)測(cè)的相關(guān)學(xué)習(xí)算法有:利用決策樹算法對(duì)涉嫌違法犯罪人員數(shù)據(jù)進(jìn)行挖掘,預(yù)測(cè)其犯罪風(fēng)險(xiǎn)[2-3];利用自回歸移動(dòng)平均模型、支持向量機(jī)和向量自回歸模型的動(dòng)態(tài)優(yōu)化組合,預(yù)測(cè)立案總數(shù)的年際變化[4];利用模糊BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)各年份公安破案的案件數(shù)量和檢察院受理的案件數(shù)量[5];利用基于模糊信息?;闹С窒蛄繖C(jī)擬合犯罪時(shí)序信息[6]等.
在進(jìn)行犯罪風(fēng)險(xiǎn)預(yù)測(cè)的過程中,構(gòu)建模型所使用的訓(xùn)練數(shù)據(jù)的質(zhì)量直接決定了最終預(yù)測(cè)結(jié)果的準(zhǔn)確性,如何選擇與預(yù)測(cè)結(jié)果相關(guān)的有效指標(biāo)信息成為建立模型的關(guān)鍵.犯罪信息屬性繁雜,構(gòu)建模型時(shí)過多的指標(biāo)容易造成預(yù)測(cè)模型的過度擬合,反而會(huì)降低實(shí)際預(yù)測(cè)時(shí)的準(zhǔn)確性.同時(shí),犯罪數(shù)據(jù)數(shù)量大、有噪聲、不完全、模糊和隨機(jī)等特點(diǎn),也使得犯罪風(fēng)險(xiǎn)預(yù)測(cè)中指標(biāo)集合的選擇顯得尤為重要.
本文介紹了一種對(duì)于數(shù)據(jù)噪聲魯棒、預(yù)測(cè)結(jié)果準(zhǔn)確且穩(wěn)定的組合分類算法——隨機(jī)森林(Random Forest),應(yīng)用于犯罪信息指標(biāo)集合的選取與犯罪風(fēng)險(xiǎn)的預(yù)測(cè).實(shí)驗(yàn)結(jié)果證明,該算法選出的指標(biāo)集合具有明顯的合理性,改善了指標(biāo)選擇缺乏客觀標(biāo)準(zhǔn)的現(xiàn)狀.同時(shí)基于該算法建立的風(fēng)險(xiǎn)預(yù)測(cè)模型在預(yù)測(cè)的準(zhǔn)確性和穩(wěn)定性方面,相較于其他模型均有一定的提升,得到了較為理想的結(jié)果.
1.1 隨機(jī)森林原理
隨機(jī)森林是組合分類方法的一種,它由大量CART(Classifi cation And Regression Tree)決策樹的集合構(gòu)成,所以稱之為“森林”.其中生成單棵樹的訓(xùn)練數(shù)據(jù)由獨(dú)立抽樣產(chǎn)生,單棵樹中每個(gè)內(nèi)部節(jié)點(diǎn)的候選分裂屬性從全部的候選屬性中隨機(jī)抽取.隨機(jī)森林的最終分類結(jié)果由每棵決策樹投票決定[7-8].隨機(jī)森林具備以下特點(diǎn):
①對(duì)于包含d個(gè)元組的原始數(shù)據(jù)集D,產(chǎn)生n棵決策樹,迭代i(i=1,2,···,n)次利用自助法(Bootstrap)每次從數(shù)據(jù)集D中有放回地抽取d個(gè)元組作為訓(xùn)練集Di,每個(gè)Di都是一個(gè)自助樣本.由于是有放回地隨機(jī)抽樣,D中的某些元組會(huì)被多次抽取,而另一些元組則不會(huì)出現(xiàn)在Di中.因此,未被抽取的元組可以作為檢驗(yàn)集.
可以證明,D中每個(gè)元組被抽中的概率為1/d,因此,該元組未被抽中的概率為(1?1/d),抽取N次后某個(gè)元組未被抽中的概率為(1?1/d)N.當(dāng)N足夠大時(shí), (1?1/d)N收斂于e?1=0.368.所以一般情況下,自助法產(chǎn)生的訓(xùn)練集和檢驗(yàn)集分別占63.2%和36.8%.
②隨機(jī)屬性選擇,對(duì)于全部F個(gè)分類屬性,每個(gè)內(nèi)部節(jié)點(diǎn)隨機(jī)選擇f個(gè)屬性形成候選分類屬性集,其中f?F,且f的值固定.
③單棵樹生成過程中完全生長(zhǎng),不進(jìn)行剪枝操作,有助于消除樹的偏移.
④分類結(jié)果由n棵決策樹投票決定,每棵樹Ti返回一個(gè)分類結(jié)果且有相同的投票權(quán)重,票數(shù)最多的類成為最終的分類結(jié)果.
1.2 泛化誤差收斂性[9-11]
對(duì)于組合分類模型{h1(X),h2(X),···,hk(X)},其中h(X)表示一個(gè)分類器對(duì)于輸入X產(chǎn)生相應(yīng)的類標(biāo)號(hào)輸出,該分類器的訓(xùn)練樣本由自助法得到.定義組合分類模型的間隔函數(shù)(Margin Function),公式為
間隔函數(shù)可以衡量分類模型的正確性與確信度,該函數(shù)表示平均正確分類數(shù)與平均錯(cuò)誤分類數(shù)的間隔程度,正確分類的數(shù)量超過錯(cuò)誤分類的數(shù)量越多,說明分類模型的性能越好.因此,分類模型的泛化誤差定義為
該泛化誤差推廣到隨機(jī)森林,hk(X)=h(X,Θ),其中Θ表示單棵決策樹的參數(shù)向量.隨著森林中分類樹數(shù)目的增加,根據(jù)大數(shù)定律,泛化誤差幾乎處處收斂,公式為
這說明,隨機(jī)森林對(duì)于噪聲和離群點(diǎn)是魯棒的,也不會(huì)產(chǎn)生過度擬合問題.
1.3 OOB估計(jì)
裝袋(Bagging),也叫自助聚集(Bootstrap Aggregation),屬于組合分類方法.其一般過程是,通過自助法(Bootstrap)從訓(xùn)練集中有放回地抽取k個(gè)自助樣本集,分別學(xué)習(xí)得到k個(gè)分類模型,最終聚集(Aggregate)所有模型得到裝袋分類器.根據(jù)第1.1節(jié)中證明可知,每次抽取自助樣本時(shí),約36.8%的數(shù)據(jù)未被抽中,未被抽中的數(shù)據(jù)稱為袋外(Out-Of-Bag,OOB)數(shù)據(jù),構(gòu)成檢驗(yàn)集.這種使用袋外數(shù)據(jù)估計(jì)模型準(zhǔn)確率的方法稱為OOB估計(jì)[12].OOB估計(jì)可以得到分類模型的泛化誤差,并且不同于交叉驗(yàn)證的是,此方法不需要額外的計(jì)算.實(shí)驗(yàn)證明, OOB誤差屬于無(wú)偏估計(jì).
1.4 基于OOB估計(jì)的屬性選擇
隨機(jī)森林衡量屬性重要性的理論基礎(chǔ)是,通過在每次迭代過程中隨機(jī)置換第j個(gè)分裂屬性Xj,打破其與類標(biāo)號(hào)屬性y的聯(lián)系.當(dāng)屬性Xj被置換后,剩余的屬性用于觀測(cè)隨機(jī)森林OOB估計(jì)的變化,如果屬性置換后的分類準(zhǔn)確率大幅降低,說明屬性Xj與相應(yīng)類標(biāo)號(hào)屬性y的相關(guān)性較強(qiáng).平均所有樹在屬性Xj被置換前后分類準(zhǔn)確率的差值作為衡量變量重要性的度量[13-15].屬性Xj在第k棵數(shù)的變量重要性(Variable Importance,VI)計(jì)算公式為
根據(jù)OOB誤差最小化準(zhǔn)則,在擬合所有森林后,依據(jù)屬性重要性選取其子集并檢查OOB誤差,選擇擁有最小屬性數(shù)量的方案.并且被選屬性的誤差率不超過所有森林最低誤差的標(biāo)準(zhǔn)誤差,標(biāo)準(zhǔn)誤差利用二項(xiàng)計(jì)數(shù)誤差sqrt(p(1?p)×1/N)計(jì)算得到.該方法對(duì)于高維小樣本數(shù)據(jù)較為適用[16],通過此方法可以選取候選屬性集的最優(yōu)子集.
2.1 實(shí)驗(yàn)數(shù)據(jù)的準(zhǔn)備
本文的實(shí)驗(yàn)數(shù)據(jù)來(lái)源于某公安分局?jǐn)?shù)據(jù)庫(kù)中犯罪人員信息的部分記錄,所有分析操作均在公安平臺(tái)上進(jìn)行,數(shù)據(jù)使用前已進(jìn)行脫敏處理.利用犯罪人員信息挖掘得到犯罪風(fēng)險(xiǎn)預(yù)測(cè)模型,該模型的主要目的是通過犯罪人員信息分析出可能引發(fā)不同犯罪風(fēng)險(xiǎn)的各因素之間的關(guān)系,最終協(xié)助有關(guān)部門制定相應(yīng)的政策,預(yù)防嚴(yán)重危害公共安全案件的發(fā)生.模型最終的分類結(jié)果是“犯罪程度”,包含{嚴(yán)重,一般}兩類.
為了提高數(shù)據(jù)質(zhì)量,需要對(duì)數(shù)據(jù)做預(yù)處理.首先,數(shù)據(jù)庫(kù)中存在著與預(yù)測(cè)結(jié)果無(wú)關(guān)的冗余指標(biāo),如“案件編號(hào)”等,這些指標(biāo)對(duì)于本文的研究沒有意義,故將其刪除;其次,某些指標(biāo)包含了有窮多個(gè)且無(wú)序的不同值,應(yīng)將其泛化到較高的概念層次,使該指標(biāo)的不同值數(shù)量減少,如將信息表中的“現(xiàn)住址全稱”泛化成“是否本區(qū)居住人口”;最后,處理信息表中的缺失值,原則是盡可能地填補(bǔ)缺失值,如“年齡”指標(biāo)的缺失值可通過“出生日期”和“案發(fā)時(shí)間”填充,無(wú)法填充缺失值的記錄做刪除處理.經(jīng)過數(shù)據(jù)預(yù)處理后,最終提取有效記錄4 053條,其中“嚴(yán)重”類別1 969條,“一般”類別2 084條.提取的指標(biāo)名稱及編號(hào)參見表1.
表1 指標(biāo)名稱及編號(hào)Tab.1 ID of the variables
2.2 相關(guān)指標(biāo)的確定
利用用第1.4節(jié)所介紹的方法對(duì)樣本數(shù)據(jù)進(jìn)行計(jì)算,得到各指標(biāo)被排除后的平均OOB準(zhǔn)確率降低值,其結(jié)果參見表2.以準(zhǔn)確率降低程度為標(biāo)準(zhǔn)對(duì)指標(biāo)進(jìn)行排序,獲得各指標(biāo)的重要性排名,準(zhǔn)確率降低值越大,說明該指標(biāo)越重要,指標(biāo)重要性降序序列為114、105、102、107、113、108、115、104、103、101、111、112、106、110、109,其結(jié)果參見圖1(a).
按照?qǐng)D1(a)的排序結(jié)果,選擇誤差率滿足1?S E規(guī)則的前6個(gè)指標(biāo)作為候選指標(biāo)集S1= {114,105,102,107,113,108}.同時(shí),根據(jù)圖1(a)的重要性排序,向候選指標(biāo)集S1中逐一增加指標(biāo),使得S2=S1∪{115},S3=S2∪(104),S4=S3∪{103},得到3個(gè)新的指標(biāo)集,用于對(duì)比得出OOB估計(jì)標(biāo)準(zhǔn)下的最優(yōu)指標(biāo)集.分別計(jì)算以上4個(gè)指標(biāo)集的OOB誤差率,結(jié)果為24.38%, 24.18%,23.91%和24.53%.因此選擇OOB誤差率最小的S3作為候選指標(biāo)集.
為了進(jìn)一步驗(yàn)證S3指標(biāo)集的合理性,利用基尼指數(shù)方法再次選擇指標(biāo)集[17],計(jì)算各指標(biāo)的平均基尼指數(shù)降低值,其結(jié)果參見表2,排序結(jié)果參見圖1(b).根據(jù)圖1(b)中各指標(biāo)平均基尼指數(shù)降低值降序排序結(jié)果,選擇基尼指數(shù)降低值較高的前8個(gè)指標(biāo)形成對(duì)比指標(biāo)集S5={105,110,102,114,103,104,108,107}.同時(shí),將全部指標(biāo)作為對(duì)比指標(biāo)集S6.計(jì)算S5與S6兩個(gè)指標(biāo)集的OOB誤差率分別為33.36%和41.92%.
表2 指標(biāo)重要性度量Tab.2 Importance of the variables using diff erent measures
圖1 不同標(biāo)準(zhǔn)下的指標(biāo)重要性排序Fig.1 Importance order of the variables using diff erent measure
圖2 不同指標(biāo)集的OOB誤差率Fig.2 OOB error rates of diff erent variables sets
S3、S5與S6三個(gè)指標(biāo)集的OOB誤差對(duì)比結(jié)果參見圖2,圖中體現(xiàn)了隨著隨機(jī)森林中樹的棵數(shù)的增加,OOB誤差率的變化趨勢(shì),其中黑色曲線表示總體的OOB誤差率,紅色曲線表示“嚴(yán)重”類別的OOB誤差率,綠色曲線表示“一般”類別的OOB誤差率.通過對(duì)比得出,S5與S6指標(biāo)集的OOB誤差率均大于S3,因此選擇S3作為最終的指標(biāo)集參與模型構(gòu)建.
2.3 預(yù)測(cè)模型的實(shí)現(xiàn)
根據(jù)最終確定的S3指標(biāo)集中的元素,剔除原數(shù)據(jù)中不屬于S3指標(biāo)集的指標(biāo)列,余下的數(shù)據(jù)作為構(gòu)建預(yù)測(cè)模型的數(shù)據(jù)集.分別使用神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)和隨機(jī)森林建立預(yù)測(cè)模型,并進(jìn)行10-折交叉驗(yàn)證.
神經(jīng)網(wǎng)絡(luò)由相互聯(lián)系的計(jì)算單元構(gòu)成,每個(gè)計(jì)算單元執(zhí)行兩次連續(xù)的計(jì)算:輸入的線性組合;對(duì)輸入結(jié)果的非線性計(jì)算得到的輸出值作為神經(jīng)網(wǎng)絡(luò)的下一個(gè)計(jì)算單元的輸入.每個(gè)計(jì)算單元的連接都有一個(gè)相關(guān)聯(lián)的權(quán)重.
支持向量機(jī)使用一種非線性映射,將原始數(shù)據(jù)映射到一個(gè)新的高維空間中,在這個(gè)新的高維空間中,有可能應(yīng)用線性模型來(lái)獲得一個(gè)超平面將原數(shù)據(jù)分離.原輸入數(shù)據(jù)到較高維空間的非線性變換是在核函數(shù)的幫助下進(jìn)行的.
為確定各模型的參數(shù),采用控制變量法,調(diào)節(jié)3個(gè)模型的參數(shù)并觀察模型行為,選擇最優(yōu)參數(shù),使其預(yù)測(cè)結(jié)果達(dá)到相對(duì)較好的準(zhǔn)確率,參數(shù)優(yōu)化結(jié)果見表3.對(duì)于神經(jīng)網(wǎng)絡(luò)模型,最終確定其參數(shù):隱藏層中的節(jié)點(diǎn)個(gè)數(shù)設(shè)為8,收斂過程中所允許使用的最大迭代次數(shù)設(shè)為300,反向傳播算法權(quán)重的更新率設(shè)為0.01;對(duì)于支持向量機(jī),最終確定其參數(shù):使用高斯徑向基核函數(shù)K(x,y)=exp(?∥x?y∥2×gamma),gamma值設(shè)為0.1,違反邊際所引入的損失設(shè)為50;對(duì)于隨機(jī)森林,最終確定其參數(shù):森林中樹的棵數(shù)設(shè)為200,每次分裂隨機(jī)選擇的候選變量個(gè)數(shù)設(shè)為2.
表3 各模型參數(shù)設(shè)置及相應(yīng)結(jié)果Tab.3 Prediction accuracy for each model using diff erent parameters
按照優(yōu)化后的參數(shù),分別構(gòu)建神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)和隨機(jī)森林模型,在每次迭代交叉驗(yàn)證完成后,計(jì)算各模型的準(zhǔn)確率、精度與召回率.其中,準(zhǔn)確率(Accuracy)指被正確分類的正元組和負(fù)元組占總元組的比例,衡量了預(yù)測(cè)模型的總體識(shí)別率,計(jì)算參見公式(6);精度(Precision)指被預(yù)測(cè)為正元組的元組中實(shí)際為正元組的比例,衡量了預(yù)測(cè)模型的精確性,計(jì)算參見公式(7);召回率(Recall)指實(shí)際為正元組的元組中被預(yù)測(cè)為正元組的比例,衡量了預(yù)測(cè)模型的完全性,計(jì)算參見公式(8).
其中,P(Positive)指正元組的數(shù)量;N(Negative)指負(fù)元組的數(shù)量;TP(True Positive)指實(shí)際為正元組而被分類為正元組的數(shù)量;TN(True Negative)指實(shí)際為負(fù)元組而被分類為負(fù)元組的數(shù)量; FP(False Positive)指實(shí)際為負(fù)元組而被分類為正元組的數(shù)量;FN(False Negative)指實(shí)際為正元組而被分類為負(fù)元組的數(shù)量.本文中把“嚴(yán)重”類別當(dāng)做正元組,因?yàn)樵擃悡碛懈蟮腻e(cuò)誤代價(jià).
綜合考慮精度和召回率,可以使用F分?jǐn)?shù)度量,其含義是精度和召回率的調(diào)和均值,計(jì)算公式為
為了比較各模型的有效性,另加入基準(zhǔn)模型作為標(biāo)準(zhǔn),一般認(rèn)為只有準(zhǔn)確率高于基準(zhǔn)模型,該模型的建立才是有意義的.基準(zhǔn)模型的準(zhǔn)確率是指不使用任何指標(biāo)進(jìn)行預(yù)測(cè)所能達(dá)到的最大準(zhǔn)確率,即數(shù)量占多數(shù)的類的比例.由于本文使用的數(shù)據(jù)幾乎不存在類的不平衡問題,所以基準(zhǔn)模型的準(zhǔn)確率約為50%.此次實(shí)驗(yàn)的最終計(jì)算結(jié)果參見表4.
表4 各模型預(yù)測(cè)準(zhǔn)確率Tab.4 Prediction accuracy for each data
通過表4可以看出,在準(zhǔn)確率方面,三個(gè)預(yù)測(cè)模型的準(zhǔn)確率均高于基準(zhǔn)模型的0.527 6,說明預(yù)測(cè)模型的建立是有意義的.其中隨機(jī)森林的預(yù)測(cè)準(zhǔn)確率最高,達(dá)到0.769 9,支持向量機(jī)次之,而神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確率最低,為0.729.對(duì)于樣本的總體識(shí)別率,隨機(jī)森林的表現(xiàn)最好.
精度方面,隨機(jī)森林的預(yù)測(cè)精度最高,達(dá)到0.7886,高于支持向量機(jī)的0.754以及神經(jīng)網(wǎng)絡(luò)的0.7366.說明在對(duì)犯罪風(fēng)險(xiǎn)作出預(yù)測(cè)時(shí),隨機(jī)森林的預(yù)測(cè)結(jié)果相比于神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)要更精確,其結(jié)果的含金量更高.
召回率方面,隨機(jī)森林的預(yù)測(cè)召回率也是最高,達(dá)到0.7192,高于支持向量機(jī)的0.7131以及神經(jīng)網(wǎng)絡(luò)的0.6897.說明對(duì)于所有的有嚴(yán)重犯罪傾向的犯罪嫌疑人,隨機(jī)森林作出的預(yù)測(cè)結(jié)果相比于神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)覆蓋率更高.
一般而言,預(yù)測(cè)的精度與召回率之間趨向于呈現(xiàn)逆關(guān)系,提高一個(gè)的代價(jià)往往是降低另外一個(gè),然而,隨機(jī)森林在兩方面相較于其他模型都表現(xiàn)良好,體現(xiàn)在F分?jǐn)?shù)上就是,隨機(jī)森林的F分?jǐn)?shù)取得0.752 3,高于神經(jīng)網(wǎng)絡(luò)的0.712 4以及支持向量機(jī)的0.733.
穩(wěn)定性方面,隨機(jī)森林0.018 4的總體準(zhǔn)確率標(biāo)準(zhǔn)差也是最穩(wěn)定的一個(gè),預(yù)測(cè)結(jié)果的波動(dòng)性最小,好于神經(jīng)網(wǎng)絡(luò)的0.022 4與支持向量機(jī)的0.020 8.
綜合各方面結(jié)果可以得出,隨機(jī)森林模型對(duì)于犯罪風(fēng)險(xiǎn)的預(yù)測(cè)更為出色.
隨機(jī)森林作為一種組合分類模型,克服了單個(gè)決策樹分類時(shí)的局限性,同時(shí)對(duì)于數(shù)據(jù)的噪聲有更強(qiáng)的魯棒性,能夠有效地避免過度擬合的問題,并且隨著森林中樹的棵數(shù)的增加,泛化誤差趨于一個(gè)上界.實(shí)驗(yàn)結(jié)果表明,針對(duì)犯罪信息噪聲多、屬性復(fù)雜的特點(diǎn),隨機(jī)森林模型在風(fēng)險(xiǎn)預(yù)測(cè)中的應(yīng)用相較于神經(jīng)網(wǎng)絡(luò)與支持向量機(jī)模型表現(xiàn)出更好的適應(yīng)性與準(zhǔn)確性.本文運(yùn)用隨機(jī)森林方法選擇的預(yù)測(cè)指標(biāo),避免了以往預(yù)測(cè)模型中指標(biāo)選擇的主觀性與盲目性,也證明了指標(biāo)集的選擇存在一個(gè)最優(yōu)子集,并非以往觀念中的指標(biāo)越豐富越好.作為數(shù)據(jù)挖掘在犯罪領(lǐng)域的應(yīng)用,本文提出的隨機(jī)森林犯罪風(fēng)險(xiǎn)預(yù)測(cè)模型為實(shí)際的犯罪風(fēng)險(xiǎn)預(yù)測(cè)工作提供了一定的參考.
[1]趙軍.我國(guó)犯罪預(yù)測(cè)及其研究的現(xiàn)狀、問題與發(fā)展趨勢(shì)[J].湖南大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2011,25(3):155-160.
[2]金光,錢家麒,錢江波,等.基于數(shù)據(jù)挖掘決策樹的犯罪風(fēng)險(xiǎn)預(yù)測(cè)模型[J].計(jì)算機(jī)工程,2003,29(9):183-185.
[3]王慧,王京.屬性約簡(jiǎn)的決策樹分類算法對(duì)未成年人犯罪行為的分析[J].中國(guó)人民公安大學(xué)學(xué)報(bào)(自然科學(xué)版),2011(4):29-32.
[4]李明,薛安榮,王富強(qiáng),等.犯罪量動(dòng)態(tài)優(yōu)化組合預(yù)測(cè)方法[J].計(jì)算機(jī)工程,2011,37(17):274-278.
[5]于紅志,劉鳳鑫,鄒開其.改進(jìn)的模糊BP神經(jīng)網(wǎng)絡(luò)及在犯罪預(yù)測(cè)中的應(yīng)用[J].遼寧工程技術(shù)大學(xué)學(xué)報(bào)(自然科學(xué)版),2012, 31(2):244-247.
[6]陳鵬,胡嘯峰,陳建國(guó).基于模糊信息?;闹С窒蛄繖C(jī)在犯罪時(shí)序預(yù)測(cè)中的應(yīng)用[J].科學(xué)技術(shù)與工程,2015,15(35):54-57.
[7]HAN J W,MICHELINE K,PEI J.數(shù)據(jù)挖掘:概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2015:245-249.
[8]BREIMAN L.Random forests[J].Machine Learning,2001,45(1):5-32.
[9]方匡南,吳見彬,朱建平,等.隨機(jī)森林研究方法綜述[J].統(tǒng)計(jì)與信息論壇,2011,26(3):32-38.
[10]林成德,彭國(guó)蘭.隨機(jī)森林在企業(yè)信用評(píng)估指標(biāo)體系確定中的應(yīng)用[J].廈門大學(xué)學(xué)報(bào)(自然科學(xué)版),2007,46(2):199-203.
[11]張華偉,王明文,甘麗新.基于隨機(jī)森林的文本分類模型研究[J].山東大學(xué)學(xué)報(bào)(理學(xué)版),2006,41(3):139-143.
[12]ANANTHA M P,LOUIS R I,ANDY L.Newer classifi cation and regression tree techniques:Bagging and random forests for ecological Prediction[J].Ecosystems,2006,9:181-199.
[13]CAROLIN S,ANNE L B,THOMAS K,et al.Conditional variable importance for random forests[J].BMC Bioinformatics,2008,9:307-317.
[14]VERIKAS A,GELZINIS A,BACAUSKIENE M.Mining data with random forests:A survey and results of new tests[J].Pattern Recognition,2011,44:330-349.
[15]RAMON D U,SARA A.Gene selection and classifi cation of microarray data using random forest[J].BMC Bioinformatics,2006,7:3-15.
[16]姚登舉,楊靜,詹曉娟.基于隨機(jī)森林的特征選擇算法[J].吉林大學(xué)學(xué)報(bào)(工學(xué)版),2014,44(1):137-141.
[17]CAROLIN S,ANNE L B,ACHIN Z,et al.Bias in random forest variable importance measures:Illustrations, sources and a solution[J].BMC Bioinformatics,2007,8:25-45.
(責(zé)任編輯:李藝)
A forecasting model of crime risk based on random forest
WANG Yu-chen,GUO Zhong-yang,WANG Yuan-yuan
(School of Geographic Sciences,East China Normal University,Shanghai 200241,China)
Crime prediction has always been an outstanding issue for public security department.Random forest is a combined classification method with high accuracy,high speed,and stable performance,which is suitable for solving the problem of predicting crime risk.In the meantime,this method can choose the index group for predicting crime risk more objectively.As proved by studies,the index group chosen by random forest method can signifi cantly improve the accuracy of prediction,and the predictive model based of this method is more accurate and stable,so it can meet the demand of crime risk prediction.
random forest;crime risk prediction;index group selection
TP18
A
10.3969/j.issn.1000-5641.2017.04.008
1000-5641(2017)04-0089-08
2016-06-28
國(guó)家自然科學(xué)基金人才培養(yǎng)項(xiàng)目(J1310028)
王雨晨,男,碩士研究生,研究方向?yàn)閿?shù)據(jù)挖掘.E-mail:wangyc ecnu@qq.com.
過仲陽(yáng),男,教授,博士生導(dǎo)師,研究方向?yàn)閿?shù)據(jù)挖掘和遙感圖像處理. E-mail:zyguo@geo.ecnu.edu.cn.