亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于機(jī)器學(xué)習(xí)的典型侵財(cái)類案件發(fā)生概率預(yù)測(cè)分析方法

        2020-10-27 10:52:48盧子涵胡嘯峰侯苗苗
        關(guān)鍵詞:特征模型

        盧子涵, 胡嘯峰, 侯苗苗

        (1.中國(guó)人民公安大學(xué)信息網(wǎng)絡(luò)安全學(xué)院, 北京 100038;2.安全防范技術(shù)與風(fēng)險(xiǎn)評(píng)估公安部重點(diǎn)實(shí)驗(yàn)室, 北京 102623)

        0 引言

        我國(guó)侵財(cái)類犯罪案件數(shù)量占比高,破案率低[1],嚴(yán)重威脅著人民群眾的財(cái)產(chǎn)安全,乃至影響社會(huì)的穩(wěn)定。在經(jīng)濟(jì)迅速發(fā)展的新時(shí)代,人民群眾對(duì)公安機(jī)關(guān)預(yù)防、打擊侵財(cái)類案件提出了更高的要求。搶劫、搶奪和盜竊3類典型侵財(cái)類案件具有代表性,根據(jù)國(guó)家統(tǒng)計(jì)局公布的數(shù)據(jù)顯示,僅每年發(fā)生的盜竊案數(shù)量在刑事案件數(shù)量中的占比就能達(dá)到60%,長(zhǎng)期威脅人民群眾的生命財(cái)產(chǎn)安全。

        李衛(wèi)紅等[2]利用改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)模型建立了侵財(cái)類案件預(yù)測(cè)模型,可挖掘風(fēng)險(xiǎn)要素與案件風(fēng)險(xiǎn)之間的非線性關(guān)系;胡嘯峰等[3-5]研究了熱應(yīng)力與侵財(cái)類案件之間的相關(guān)關(guān)系,分析了侵財(cái)類案件的發(fā)生規(guī)律;邱凌峰等[6]提出了基于機(jī)器學(xué)習(xí)的社會(huì)安全事件預(yù)測(cè)分析方法,可以預(yù)測(cè)犯罪人的類型;陳鵬等[7]利用二項(xiàng)邏輯回歸算法,以犯罪人的生物、社會(huì)和行為信息為特征,實(shí)現(xiàn)慣犯身份特征的預(yù)測(cè)識(shí)別;石拓等[8]提出一種基于Bagging和特征選擇差異性的集成學(xué)習(xí)算法進(jìn)行犯罪預(yù)測(cè);杜益虹等[9]構(gòu)建基于邏輯回歸的犯罪概率預(yù)測(cè)模型,對(duì)犯罪信息進(jìn)行積分預(yù)測(cè),按照分?jǐn)?shù)的高低預(yù)測(cè)犯罪的發(fā)生概率。Mehmet Sait Vura等[10]基于樸素貝葉斯理論提出了關(guān)于犯罪預(yù)測(cè)問(wèn)題的解決方案,提出的模型在預(yù)測(cè)刑事犯罪的可疑人員方面表現(xiàn)較好。

        對(duì)典型侵財(cái)類案件的發(fā)生概率進(jìn)行預(yù)測(cè)分析,能夠及時(shí)有效地預(yù)防犯罪的發(fā)生。然而當(dāng)前大多數(shù)研究對(duì)于侵財(cái)類案件的預(yù)測(cè)分析以盜竊案居多,對(duì)搶劫、搶奪類案件的研究極少,并且大多數(shù)研究在預(yù)測(cè)案件發(fā)生概率時(shí)很少涉及對(duì)時(shí)間滯后項(xiàng)的考慮,導(dǎo)致執(zhí)法部門缺乏充足的時(shí)間制定防控策略。對(duì)典型侵財(cái)類案件的發(fā)生概率進(jìn)行預(yù)測(cè)研究,能夠幫助公安機(jī)關(guān)合理有效地配置警力資源、制定有針對(duì)性的巡邏計(jì)劃,在源頭上減少典型侵財(cái)類案件的發(fā)生。

        1 數(shù)據(jù)及研究方法

        1.1 數(shù)據(jù)集與研究方案

        本節(jié)選取的數(shù)據(jù)來(lái)源于ZS市2005年2月1日~2015年7月31日的實(shí)際典型侵財(cái)類案件,以及2005年2月1日~2015年7月31日的實(shí)際天氣數(shù)據(jù)。

        典型侵財(cái)類案件數(shù)據(jù)集共包含111 579條犯罪數(shù)據(jù),經(jīng)過(guò)初步提取后共得到盜竊案件數(shù)據(jù)66 691條、搶奪案件數(shù)據(jù)8 608條、搶劫案件數(shù)據(jù)8 196條。天氣數(shù)據(jù)集共包含19 201條天氣數(shù)據(jù),每條數(shù)據(jù)中包含詳細(xì)的天氣情況,一天的天氣數(shù)據(jù)包含不同時(shí)間段的測(cè)量數(shù)據(jù),即每天測(cè)量8次或4次的天氣數(shù)據(jù)。

        提取的特征通過(guò)去除與標(biāo)簽相關(guān)性較小的特征等操作后,最后選取的特征包括“時(shí)間”“發(fā)案概率”“案件總數(shù)量”“單類案件總數(shù)量”以及從天氣數(shù)據(jù)中提取的“最高氣溫”“最低氣溫”“平均氣溫”“氣象站公布當(dāng)天氣象情況”。

        “時(shí)間”指的是不同時(shí)間間隔的時(shí)間值,如以1個(gè)月為時(shí)間間隔,則特征值為“201010”“201011”,以1天為時(shí)間間隔則特征值為“20111001”“20111002”;“單類案件數(shù)量”指的是在一定的時(shí)間長(zhǎng)度內(nèi)某一類案件的發(fā)生數(shù)量;“案件總數(shù)量”是指在與“單類案件數(shù)量”相同長(zhǎng)度的時(shí)間內(nèi)案件的發(fā)生數(shù)量;“發(fā)案概率”指的是在某一確定時(shí)間長(zhǎng)度內(nèi)單類案件數(shù)量與所有案件數(shù)量的比值;“最高氣溫”指的是在當(dāng)天內(nèi)氣溫的最高值,一般是在下午2點(diǎn);“最低氣溫”指的是在當(dāng)天內(nèi)氣溫的最低值,一般是在凌晨2點(diǎn);“平均氣溫”指的是一天中氣溫的平均值?!皻庀笳竟籍?dāng)天氣象情況”指的是氣象站在一天中不同時(shí)段實(shí)時(shí)監(jiān)測(cè)的天氣情況;“降水量”指的是一定時(shí)間長(zhǎng)度內(nèi)降水的平均值。其中,“發(fā)案概率”作為預(yù)測(cè)的標(biāo)簽值,是連續(xù)值。

        研究方案如圖1所示。首先進(jìn)行提取關(guān)鍵字、處理時(shí)間特征等數(shù)據(jù)處理工作,其次將數(shù)據(jù)集按照一定的比例隨機(jī)分為訓(xùn)練集和測(cè)試集,運(yùn)用多種機(jī)器學(xué)習(xí)方法對(duì)訓(xùn)練集進(jìn)行回歸分析[11]和交叉驗(yàn)證[12],然后用測(cè)試集進(jìn)行準(zhǔn)確性檢驗(yàn)、提出最優(yōu)模式。

        圖1 典型侵財(cái)類案件發(fā)生概率分析研究方案

        1.2 數(shù)據(jù)預(yù)處理

        首先對(duì)一定時(shí)間長(zhǎng)度下的案件數(shù)量進(jìn)行統(tǒng)計(jì),計(jì)算案件發(fā)生頻率;對(duì)每天的最低氣溫和最高氣溫進(jìn)行整理;統(tǒng)計(jì)每一天的平均氣溫;對(duì)每一個(gè)時(shí)間長(zhǎng)度中的天氣情況進(jìn)行統(tǒng)計(jì),天氣情況經(jīng)過(guò)分類后包括“雷暴”“霾”“晴”“閃電”“無(wú)法觀測(cè)”“霧”“雨”7種情況。最終的樣式如表1所示。

        表1 數(shù)據(jù)樣式

        (1)對(duì)天氣數(shù)據(jù)表進(jìn)行處理時(shí),首先提取“氣象站公布當(dāng)天氣象情況”中的關(guān)鍵字。如表2所示,原本在數(shù)據(jù)集中有25種天氣狀況,其中有些特征雖然表示的天氣狀況相同卻表述不同,并且過(guò)多的特征屬性會(huì)降低模型的擬合效果。因此,通過(guò)提取關(guān)鍵字來(lái)統(tǒng)一格式,數(shù)據(jù)表中的天氣狀況統(tǒng)一為“雷暴”“霾”“晴”“閃電”“無(wú)法觀測(cè)”“霧”“雨”7種情況。

        表2 “氣象站公布當(dāng)天氣象情況”關(guān)鍵字提取

        (2)插補(bǔ)空白值?!皻庀笳竟籍?dāng)天氣象情況”特征中包含有大量的空白值,綜合同一個(gè)樣本內(nèi)其他特征的值,將空白值填充為“晴”;在“降水量”特征中,將空白值填充為“0”;“最高氣溫”和“最低氣溫”兩列特征值用當(dāng)天的最低氣溫或最高氣溫填補(bǔ)。

        (3)對(duì)犯罪數(shù)據(jù)表進(jìn)行處理時(shí),首先將天氣數(shù)據(jù)表和犯罪數(shù)據(jù)表合并。為了減小誤差,合并的原則定為:使犯罪數(shù)據(jù)的時(shí)間值和天氣數(shù)據(jù)的時(shí)間值最接近。這里需要注意的是,天氣數(shù)據(jù)表在“11.01.2013 23:00”之前是每天測(cè)量8次,在“10.01.2013 20:00”之后每天測(cè)量4次到6次不等,即犯罪時(shí)的天氣情況最長(zhǎng)誤差間隔不超過(guò)3小時(shí)。

        對(duì)合并的犯罪、天氣數(shù)據(jù)集進(jìn)行處理時(shí),按照預(yù)設(shè)的時(shí)間長(zhǎng)度對(duì)某一類案件數(shù)量進(jìn)行統(tǒng)計(jì),生成特征“單類案件數(shù)量”;按照預(yù)設(shè)的時(shí)間長(zhǎng)度對(duì)所有案件數(shù)量進(jìn)行統(tǒng)計(jì),生成特征“總案件數(shù)量”;根據(jù)前兩個(gè)特征的比值,生成特征“發(fā)生概率”;按照預(yù)設(shè)的時(shí)間長(zhǎng)度統(tǒng)計(jì)最高氣溫生成特征列“最高氣溫”;按照預(yù)設(shè)的時(shí)間長(zhǎng)度統(tǒng)計(jì)最低氣溫,生成特征列“最低氣溫”;按照預(yù)設(shè)的時(shí)間長(zhǎng)度統(tǒng)計(jì)平均氣溫,生成特征列“平均氣溫”;按照預(yù)設(shè)的時(shí)間長(zhǎng)度統(tǒng)計(jì)降水量,生成特征列“平均降水量”;按照預(yù)設(shè)的時(shí)間長(zhǎng)度統(tǒng)計(jì)“氣象站公布當(dāng)天氣象情況”特征中不同天氣情況的次數(shù)。

        1.3 機(jī)器學(xué)習(xí)模型

        基于前文構(gòu)建的犯罪數(shù)據(jù)集和天氣數(shù)據(jù)集,為預(yù)測(cè)典型侵財(cái)類案件的發(fā)生概率,本文基于python3.7中開(kāi)源機(jī)器學(xué)習(xí)模型庫(kù)Sklearn的嶺回歸[13]、線性回歸[14]、彈性網(wǎng)絡(luò)回歸[15]、支持向量回歸[16]以及K最近鄰回歸[17]共5種機(jī)器學(xué)習(xí)回歸模型對(duì)典型侵財(cái)類案件的發(fā)生概率大小進(jìn)行回歸預(yù)測(cè),并比較其性能。

        2 結(jié)果與討論

        本文構(gòu)建模型時(shí)采用的是十折交叉驗(yàn)證法,并用平均絕對(duì)誤差(MAE)[18]和R2[19]值的大小對(duì)模型的性能進(jìn)行評(píng)估。平均絕對(duì)誤差(MAE)越小,R2值越大代表模型的性能越好。如公式(1)、公式(2)所示。

        (1)

        (2)

        2.1 基于機(jī)器學(xué)習(xí)考慮時(shí)間滯后的概率預(yù)測(cè)

        為研究考慮時(shí)間滯后的典型侵財(cái)類案件發(fā)生概率預(yù)測(cè)方法,以月份為時(shí)間長(zhǎng)度劃分?jǐn)?shù)據(jù)集,模型的預(yù)測(cè)結(jié)果如表3所示。

        根據(jù)表3可知,對(duì)盜竊案、搶劫案、搶奪案而言,性能最好的模型均為K最近鄰模型,R2值分別為0.83, 0.88和0.8。模型的預(yù)測(cè)值與真實(shí)值的結(jié)果比較如圖2~4所示。

        圖3 搶劫案件預(yù)測(cè)值與真實(shí)值的結(jié)果比較

        圖4 搶奪案件預(yù)測(cè)值與真實(shí)值的結(jié)果比較

        圖中y表示真實(shí)值,“Ridge” “Linear Regression” “Elastic Net” “SVR”和“KNN”分別代表模型預(yù)測(cè)值。

        圖5所示為盜竊類案件特征的熱圖分析結(jié)果,可見(jiàn):盜竊類案件中的“單個(gè)案件數(shù)量”與發(fā)案概率的相關(guān)性為0.82,“總案件數(shù)量”與發(fā)案概率的相關(guān)性為0.78,即本月的盜竊案件數(shù)量或總體案件數(shù)量都與下一個(gè)月的盜竊案發(fā)生概率成正相關(guān),也就是本月盜竊類案件的數(shù)量或總體案件數(shù)量越多,下一個(gè)月的盜竊類案件發(fā)生概率越大。

        圖5 盜竊類案件熱圖

        圖6所示為搶劫類案件特征的熱圖分析結(jié)果,可見(jiàn):

        圖6 搶劫類案件熱圖

        (1)搶劫類案件的發(fā)案概率與“時(shí)間”特征的相關(guān)性小于-0.8,即搶劫類案件的發(fā)案概率和時(shí)間成負(fù)相關(guān)性,也就是隨著時(shí)間發(fā)展搶劫案的發(fā)案概率越來(lái)越小。

        (2)搶劫案件的發(fā)生概率與“總案件數(shù)量”特征的相關(guān)性小于-0.6,即搶劫類案件的發(fā)案概率和總案件數(shù)量成負(fù)相關(guān),也就是上個(gè)月中總案件數(shù)量越多本月的搶劫類案件發(fā)生概率越小。

        (3)搶劫類案件的“單個(gè)案件數(shù)量”和“晴”兩個(gè)特征的相關(guān)性為-0.45,即搶劫類案件的發(fā)生數(shù)量和一個(gè)月中的晴天數(shù)量成負(fù)相關(guān),也就是本月中晴天數(shù)量越多則本月?lián)尳兕惏讣l(fā)生數(shù)量越少。

        (4)搶劫類案件的發(fā)案概率和“晴”特征的相關(guān)性為-0.61,即搶劫類案件的發(fā)生概率與一個(gè)月中的晴天數(shù)量呈負(fù)相關(guān),也就是本月中晴天數(shù)量越多則下個(gè)月?lián)尳兕惏讣l(fā)生概率越小。

        圖7所示為搶奪類案件特征的熱圖分析結(jié)果,可見(jiàn):

        圖7 搶奪類案件熱圖

        (1)搶奪類案件的發(fā)案概率與“時(shí)間”特征的相關(guān)性為-0.79,即搶奪類案件的發(fā)案概率和時(shí)間成負(fù)相關(guān)性,也就是隨著時(shí)間發(fā)展搶劫案的發(fā)案概率越來(lái)越小。

        (2)搶奪類案件的發(fā)生概率與“總案件數(shù)量”特征的相關(guān)性為-0.55,即搶奪類案件的發(fā)案概率和總案件數(shù)量成負(fù)相關(guān),也就是上個(gè)月中總案件數(shù)量越多本月的搶奪類案件發(fā)生概率越小。

        (3)搶奪類案件的發(fā)生概率與“晴”特征的相關(guān)性為-0.56,即搶奪類案件的發(fā)案概率與一個(gè)月中的晴天數(shù)量呈負(fù)相關(guān),也就是說(shuō)本月中晴天數(shù)量越多則下個(gè)月?lián)寠Z類案件發(fā)案概率越小。

        2.2 基于機(jī)器學(xué)習(xí)和實(shí)時(shí)數(shù)據(jù)的典型侵財(cái)類案件發(fā)生概率預(yù)測(cè)分析

        在基于機(jī)器學(xué)習(xí)考慮時(shí)間滯后的典型侵財(cái)類案件發(fā)生概率研究中發(fā)現(xiàn),天氣狀況的統(tǒng)計(jì)數(shù)量與案件的發(fā)生概率有一定的相關(guān)性,因此構(gòu)建基于機(jī)器學(xué)習(xí)和實(shí)時(shí)犯罪數(shù)據(jù)、天氣數(shù)據(jù)的典型侵財(cái)類案件發(fā)生概率預(yù)測(cè)分析模型。其中,實(shí)時(shí)的犯罪數(shù)據(jù)和天氣數(shù)據(jù)都以天為單位。

        在2.1的基礎(chǔ)上繼續(xù)進(jìn)行關(guān)鍵字提取:(1)提取發(fā)案地域,將發(fā)案地域分為“鄉(xiāng)村”“其他區(qū)域”“城區(qū)”“郊區(qū)”和“鎮(zhèn)”5個(gè)類別。(2)提取派出所的名稱,按照派出所的名稱劃分管轄地域。(3)統(tǒng)計(jì)平均風(fēng)速和平均水平能見(jiàn)度。(4)由于“氣象站公布當(dāng)天氣象情況”這一特征在一天的長(zhǎng)度中包含多個(gè)天氣類型,因此將各個(gè)特征處理為啞變量。數(shù)據(jù)樣式如表4所示。

        表4 數(shù)據(jù)樣式

        將處理好的數(shù)據(jù)帶入模型中得到分析結(jié)果如表5所示。

        根據(jù)表5可知,基于實(shí)時(shí)數(shù)據(jù)的侵財(cái)類案件發(fā)生概率預(yù)測(cè)只有搶奪案的模型泛化性能較好,K最近鄰回歸模型的R2值能夠達(dá)到0.7。搶劫案和盜竊案的模型泛化性能不突出,最高分別是K最近鄰模型的0.66和0.47。

        表5 回歸模型預(yù)測(cè)性能評(píng)估

        3 結(jié)論

        利用ZS市2005年2月1日~2015年7月31日的實(shí)際侵財(cái)類案件數(shù)據(jù)以及2005年2月1日~2015年7月31日的實(shí)際天氣數(shù)據(jù),提出基于時(shí)間滯后的預(yù)測(cè)分析模型。結(jié)果顯示:盜竊案中,模型性能最好的是K最近鄰模型,R2值達(dá)到了0.83;搶劫案中,模型性能最好的是K最近鄰模型,R2值達(dá)到了0.88;搶奪案中,模型表現(xiàn)性能最好的是K最近鄰模型,R2值達(dá)到了0.8。

        提出基于實(shí)時(shí)數(shù)據(jù)的線性預(yù)測(cè)分析模型,利用當(dāng)天的天氣數(shù)據(jù)及在犯罪前已知的信息建立模型,對(duì)典型侵財(cái)類案件進(jìn)行線性分析預(yù)測(cè)。其中搶奪案的模型泛化性能較好,K最近鄰回歸模型的R2值達(dá)到0.7。搶劫案和盜竊案的模型泛化性能不突出,最高分別是K最近鄰模型的0.66和0.47。對(duì)線性預(yù)測(cè)分析結(jié)果不好的原因進(jìn)行了分析:(1)劃分的時(shí)間段太小時(shí),各個(gè)案件的發(fā)生均具有偶然性和隨機(jī)性。(2)數(shù)據(jù)錄入不規(guī)范。

        本文的研究成果預(yù)期可以為執(zhí)法機(jī)關(guān)提供預(yù)測(cè)典型侵財(cái)類案件發(fā)生概率、內(nèi)部特征之間相關(guān)性的預(yù)測(cè)分析模型,能夠?yàn)閳?zhí)法機(jī)關(guān)的科學(xué)決策提供方法依據(jù),為建設(shè)綜合性的犯罪預(yù)測(cè)預(yù)警系統(tǒng)提供方法支撐。

        猜你喜歡
        特征模型
        一半模型
        抓住特征巧觀察
        重要模型『一線三等角』
        新型冠狀病毒及其流行病學(xué)特征認(rèn)識(shí)
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        品色堂永远的免费论坛| 美女露出自己的性感大胸一尤内衣| 亚洲av成人网| 伴郎粗大的内捧猛烈进出视频观看| 99re6久精品国产首页| 麻豆成年人视频在线观看| 亚洲欧洲日产国码av系列天堂| 狠狠噜天天噜日日噜视频麻豆| 亚洲片一区二区三区| 人妻av不卡一区二区三区| 亚洲国产精品亚洲一区二区三区| 少妇太爽了在线观看免费视频| 国产欧美日韩综合在线一区二区| 日韩精品极品视频在线观看蜜桃 | 国产精品自拍视频免费观看| 精品午夜福利在线观看| 影视先锋av资源噜噜| 真实国产网爆门事件在线观看| 国产又黄又湿又爽的免费视频| 亚洲av无码乱码在线观看性色| 成年女人毛片免费视频| 无码精品一区二区三区免费16| 国产精品一区二区三区在线观看| 精品久久久无码人妻中文字幕豆芽| 欧美视频二区欧美影视| 日韩av在线不卡观看| 久久精品人妻少妇一二三区| 国产一卡2卡3卡四卡国色天香| 亚洲AV无码秘 蜜桃1区| 免费看草逼操爽视频网站| 亚洲av国产av综合av卡| 日本一区二区三区高清千人斩 | av人摸人人人澡人人超碰下载| 国产99久久久久久免费看| 国产精品无码不卡在线播放| av一区二区在线网站| 东北老女人高潮大喊舒服死了| 99热成人精品免费久久| 一级a免费高清免在线| 国产精品免费看久久久无码| 精品一区二区三区在线观看|