亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于廣義回歸神經(jīng)網(wǎng)絡的城市入室盜竊串并案分析方法

        2020-09-02 07:14:46馮佳樂姚遠陳德華
        微型電腦應用 2020年8期
        關(guān)鍵詞:文本

        馮佳樂 姚遠 陳德華

        摘要:

        隨著城市的發(fā)展,城市人口的越來越多元化,這給城市治安帶來了新的挑戰(zhàn),入室盜竊就是這個過程中不可調(diào)和的矛盾。我們以近幾年城市室盜竊案件的案情文本數(shù)據(jù)為基礎,提取入室盜竊案件的文本向量特征,基于廣義回歸神經(jīng)網(wǎng)絡模型,采用凝聚層次聚類算法作為回歸方法,基于這一理論研究入室盜竊案件的串并方法,通過給辦案民警提供入室盜竊案件的串并依據(jù),從而提高案件的偵破率,減少群眾的財產(chǎn)損失。

        關(guān)鍵詞:

        廣義回歸神經(jīng)網(wǎng)絡; 凝聚層次聚類; 文本向量化; 入室盜竊

        中圖分類號: TP311

        文獻標志碼: A

        An Analysis Method for Serial and Parallel Cases of Urban House Burglary

        Based on Generalized Regression Neural Network

        FENG Jiale1, YAO Yuan2, CHEN Dehua3

        (1. Shanghail Triman Software Technology Co. Ltd., Shanghai 200042, China; 2. Chongqing Public Security Bureau

        Police Supervision Corps., Chongqing 401147, China; 3. School of Computer Science and Technology, Donghua

        University, Shanghai 200162, China)

        Abstract:

        With the development of the city, the population of the city is more and more diversified, which brings new challenges to the public security of the city. Based on the text data of urban burglary cases in recent years, we extract the text vector characteristics of burglary cases. Based on the generalized regression neural network model, we use clustering algorithm as the regression method. Based on this theory, we study the serial and parallel methods of burglary cases. By providing the serial and parallel basis of burglary cases for the police, we can provide the serial and parallel basis of burglary cases high detection rate of cases and reduction of property losses of the masses.

        Key words:

        generalized regression neural network; hierarchical agglomerative clustering; text to vectorization; burglary

        0引言

        入室盜竊案件隨著我國城鎮(zhèn)化進程的不斷加速,越來越突顯出其危害性,即損害了群眾的財產(chǎn)利益,也對社會安定造成了極大的威脅。由于案件的特殊性,現(xiàn)場線索有限,給破案帶來極大困難。因此研究入室盜竊串并案的串并分析方法,可有效的提高辦案民警的工作效率,更準確和及時的打擊了犯罪分子,從而提高群眾對公共安全的滿意度,節(jié)省公共安全領域的人力開銷。

        串案和并案[1](簡稱串并案)是偵破系列案件,特別是在個案偵查陷入困境時的常用方法。入室盜竊串并案[2]是一種偵破案件的方法,主要是針對入室盜竊案件進行串案和并案處理的過程。入室盜竊案件多發(fā)生在流動性大、人口密集的大中型城鎮(zhèn),對群眾的生命和財產(chǎn)安全構(gòu)成威脅,對社會的穩(wěn)定造成不良的影響。

        文本向量化[3]是把文本表述為可以讓計算機來理解的形式,可以分為詞語的向量化、短文本的向量化和長文本向量化。不同的情景需要用到不同的處理方式。

        凝聚層次聚類(HAC)是自下而上的一種聚類算法。聚集聚類是一種分層聚類算法,從許多小聚類開始,然后逐漸合并聚類[45]。該算法的思想大致為:將每個數(shù)據(jù)點視為一個單一的分組,然后計算所有分組之間的距離來合并分組,直到所有的分組聚合成為一個分組為止。該算法的優(yōu)點是不需要知道有多少個分組且對于距離度量標準的選擇并不敏感;其缺點是算法運行效率低。

        傳統(tǒng)的關(guān)于案情文本應用于串并案分析的研究方法,先對文本數(shù)據(jù)進行結(jié)構(gòu)化,然后再對結(jié)構(gòu)化的數(shù)據(jù)進行分析,最后利用統(tǒng)計分析方法進行建模處理。TangD等提出一種基于神經(jīng)網(wǎng)絡實現(xiàn)的情感分類方法[6];Michael Chau等人應用信息抽取技術(shù)分析案情文本信息識別出作案手段、作案工具等特征信息[7];Jennifer Xu等人提出一種基于犯罪領域知識的自動關(guān)聯(lián)分析模型[8];Bennell等人提出一種串聯(lián)國際團伙入室盜竊作案的方法。

        國內(nèi)的相關(guān)研究雖然起步比較晚但發(fā)展迅速,韓寧、陳巍提出基于聚類分析的串并案研究[1];夏平提出一種技術(shù)性開鎖入室盜竊案件的特點及偵查方向[2];單培提出一種比較法與刑事案件串并案分析方法[9]。針對以上問題,在本文中,我們采用文本向量化提取入室盜竊案件的文本特征,基于廣義回歸神經(jīng)網(wǎng)絡模型,采用凝聚層次聚類算法做為回歸方法,基于這一理論研究入室盜竊案件的串并方法,通過給辦案民警提供入室盜竊案件的串并依據(jù),從而提高案件的偵破率,減少群眾的財產(chǎn)損失。

        1城市入室盜竊案件數(shù)據(jù)整理

        入室盜竊案情文本是記錄報案人對案件的基本描述信息以及勘查人員的現(xiàn)場勘查信息的主要載體。報案人對案件的描述信息主要包括報案人的信息、被盜物品信息、報案人描述的案件發(fā)生的時間段和地點等信息;勘查人員的現(xiàn)場勘查信息主要包括侵入目標、侵入部位、侵入方式、侵入手段以及現(xiàn)場指紋、鞋印、遺留物等信息,其中指紋、鞋印、遺留物信息的串并和比對不在本文的研究范圍內(nèi)。如表1所示。

        1.1處理案件文本數(shù)據(jù)

        將入室盜竊案情文本原始數(shù)據(jù)進行預處理,形成用于訓練的報案人信息、報案時間、案發(fā)地點、被盜物品詳細信息、被盜金額和現(xiàn)場勘查數(shù)據(jù)的數(shù)據(jù)集。

        數(shù)據(jù)處理是為了某個特殊的研究目的而對數(shù)據(jù)進行校驗和處理的過程,目的在于針對研究目的檢查數(shù)據(jù)一致性,處理無效值和缺失值的過程;刪除不符合要求重復信息、糾正存在的錯誤數(shù)據(jù),主要是包括干擾分析結(jié)果的缺失數(shù)據(jù)、錯誤數(shù)據(jù)、重復數(shù)據(jù)三大類。

        (1) 一致性檢查

        一致性檢查是根據(jù)案情文本數(shù)據(jù)的取值范圍和數(shù)據(jù)之間的相互關(guān)系,檢查數(shù)據(jù)是否合理或者相互矛盾的數(shù)據(jù)。

        案件的特征數(shù)據(jù)侵入方式、侵入部位、作案手段都為字典項,都需要做一致性檢查,保證數(shù)據(jù)在字典項中。

        (2) 無效值和缺省值處理

        由于接報案件時錄入的案情文本數(shù)據(jù)的誤差,可能存在一些無效和缺失的案情文本數(shù)據(jù),這些數(shù)據(jù)都需要適當?shù)奶幚?,避免因?shù)據(jù)問題影響研究結(jié)果。這類數(shù)據(jù)常用的處理方法有:結(jié)合上下文進行估算,整列刪除。

        1.2生成案情文本詞向量數(shù)據(jù)

        案件文本向量化將基于詞向量方法,是整個模型的重要步驟,詞向量訓練效果的好壞直接影響到最終串并案分析的效果。

        (1) 案情文本數(shù)據(jù)分詞

        案情文本數(shù)據(jù)是中文數(shù)據(jù),中文語料庫跟其他語言的語料庫有所不同,且本文研究的案情文本有其領域的獨特性,需要單獨生成研究的預料庫,對案情文本進行分析需要先進行中文分詞步驟。

        結(jié)巴分詞是一種常見的中文分詞工具,對于日常中文數(shù)據(jù)分詞效果好,考慮到案情文本的來源多為報案人描述,所以本文采用結(jié)巴分詞作為中文分詞工具。由于中文預料的特殊性,本文在分詞后刪除了對研究沒有實際意義的標點符號,并用空格作為分隔符,生成語料庫文件。

        (2) 案情文本詞向量訓練

        Word2vec工具是一款開源的文本向量化工具,其提供的詞向量文件在很多領域都取得很好的效果,特別是英文預料的研究方面。但考慮到本文研究的文本的特殊性,其內(nèi)容包含很多犯罪方面的專業(yè)數(shù)據(jù),因此需要訓練本文研究所內(nèi)容所需要的詞向量。

        Word2vec工具提供了完整的訓練詞向量的方法,我們提取歷年的入室盜竊案件的案情文本數(shù)據(jù)作為輸入,通過word2vec工具提供的參數(shù)設置,進行多次實驗比較,最終輸出本文研究所需要的詞向量文件。

        1.3提取案情文本向量化數(shù)據(jù)

        (1) 語料庫準備

        本文將某市2015—2017年入室盜竊案件案情文本信息作為原始數(shù)據(jù)。詞向量訓練使用的是Google開源的Word2vec工具,其提供的語料庫格式是以空格作為分割符的詞的集合文件。首先將所有案情文本去除標點符號等無效的字符。然后通過中文分詞工具將案情文本進行分詞,最后將所有的分詞結(jié)果寫入一個文件(cbaaqxx.txt)中作為語料庫。

        (2) 詞向量訓練

        使用Word2vec工具進行詞向量訓練關(guān)鍵在于根據(jù)語料庫和實驗環(huán)境選擇合適的參數(shù)進行訓練,不需要過多的干預。本文參數(shù)設置如下:

        ① 將cbaaqxx.txt作為語料庫;參數(shù)設置:train:cbaaqxx.txt;

        ② 輸出詞向量設置為cbavec.bin;參數(shù)設置:output: cbavec.bin;

        ③ 基于Negative Sampling的CBOW模型;參數(shù)配置:hs:0cbow:1negative:5sample:le3;

        ④ 詞向量維度設置為:200;參數(shù)設置:size:200

        工具運行后會生成一個cbavec.bin的文件即為詞向量庫。

        (3) 文本向量化表示

        首先對入室盜竊案情文本進行切分,將整段文本根據(jù)標點符號切分為m條句子,形式如[w1,w2,w3,…,wm],其中m為句子的長度,wi表示第i條句子。分別對m條句子進行處理,對于第i句子wi,進行分詞后形成長度為n的詞序列,形式如[Vi1,Vi2,Vi3,…,Vin]。對于每個案情文本文本都形成了一個M×N維的向量。

        2城市入室盜竊串并分析

        入室盜竊串并案分析過程是識別案件并一一對比歸類的過程,傳統(tǒng)的串并案分析研究方式是基于聚類方法的研究[10],但是聚類算法是一種無監(jiān)督的機器學習過程,在沒有標記的案件文本數(shù)據(jù)集里面,這種無監(jiān)督學習的算法數(shù)據(jù)結(jié)構(gòu)和特征需要算法自行尋找,這在串并案分析中很難實現(xiàn)。

        廣義回歸神經(jīng)網(wǎng)絡模型[11]通過徑向基神經(jīng)元和線性神經(jīng)元來設計,在結(jié)構(gòu)上由輸入層、模式層、求和層和輸出層構(gòu)成,是一種基于徑向基函數(shù)網(wǎng)絡的改進。

        本文提出的入室盜竊串并案分析方法就是結(jié)合凝聚層次聚類算法和循環(huán)神經(jīng)網(wǎng)絡構(gòu)建的廣義回歸神經(jīng)網(wǎng)絡模型實現(xiàn)的。該方法充分利用兩類算法的優(yōu)點,將凝聚層次聚類的結(jié)果作為循環(huán)神經(jīng)網(wǎng)絡的標簽進行訓練學習,將循環(huán)神經(jīng)網(wǎng)絡模型的最終的標簽輸出作為分類結(jié)果,這種結(jié)合很好的解決了手動打標簽和自動提取特征的難點。

        本文首先將整理清洗過入室盜竊案情文本信息進行中文分詞,運用Word2vec工具生成案情文本向量,案情文本特征集為:{tr x1,tr x2,tr x3,…,tr xk},每一個案情文本向量的維度為m,及tr xi={x1,x2,x3,…,xm}。標簽集為:{tr y1,tr y2,tr y3,…,tr yk},每個標簽的維度為n,tr yi={y1,y2,y3,…,yn}。

        然后對案情文本向量進行凝聚層級聚類,聚類結(jié)果為循環(huán)神經(jīng)網(wǎng)絡模型提供監(jiān)督信號,循環(huán)神經(jīng)網(wǎng)絡的輸出有利于凝聚層級聚類的結(jié)果。通過將這兩個過程集成到具有統(tǒng)一加權(quán)三元組損失函數(shù)中。

        最終基于TensorFlow深度學習平臺,通過參數(shù)調(diào)整優(yōu)化訓練模型的訓練效果,最終輸出入室盜竊串并案分析結(jié)果,如圖1所示。

        整個結(jié)構(gòu)上由四層構(gòu)成,分別為輸入層、模式層、求和層和輸出層。

        ① 輸入層:輸入測試案情文本數(shù)據(jù),輸入層的節(jié)點個數(shù)等于案情文本向量化的維度。

        ② 凝聚層級聚類:默認將每個案情文本作為一個分組,計算分組間的距離,逐步合并分組,并將分組結(jié)果輸入到模式層。

        ③ 模式層:計算案情文本與訓練的案情文本中的每一個案情文本的Gauss函數(shù)的取值。及第i個案情文本tr ?xi與第j個訓練案情文本集之間的Gauss函數(shù)取值(對于測試樣本x,從第j個模式層節(jié)點輸出的數(shù)值)為:

        ④ 求和層:節(jié)點個數(shù)等于輸出樣本維度加1,即(k+1),求和層的輸出分為兩部分,第一個節(jié)點輸出為模式層輸出的算術(shù)和,其余k個節(jié)點的輸出為模式層輸出的加權(quán)和。假設對于測試樣本te x,模式層的輸出為{g1,g2,…,gm}。求和層第一個節(jié)點的輸出為:

        ⑤ 輸出層:輸出層節(jié)點個數(shù)等于標簽向量的維度,每個節(jié)點的輸出等于對應的求和層輸出與求和層第一個節(jié)點輸出相除。

        本文通過廣義回歸神經(jīng)網(wǎng)絡模型進行實驗,具體的實驗環(huán)境,如表2所示。

        本文設計了兩組對比數(shù)據(jù),第一組為公安提供的串并數(shù)據(jù)(串并案521起);第二組為本文提出的廣義回歸神經(jīng)網(wǎng)絡模型串并出的案件數(shù)據(jù),串并分析結(jié)果共637起系列案件。

        對比兩組數(shù)據(jù)的結(jié)果如表3所示。

        本文提出的廣義回歸神經(jīng)網(wǎng)絡模型串并出的案件效果接近于真實串并的數(shù)據(jù)。

        通過對比實驗結(jié)果,可以看出本文提出的分析模型的可行性和有效性。

        3總結(jié)

        城市入室盜竊案件一般發(fā)生在被害人不在場或無意識狀況下,采用特殊的作案工具,進入到被害人居住的處所,盜竊被害人錢財?shù)男袨?。阻止入室盜竊案件的發(fā)生,可有效保證人民群眾的生命和財產(chǎn)安全。

        城市入室盜竊案件是城市社會生活常見犯罪類型之一,由于作案過程中被害人處于不知情狀態(tài),其提供的報案信息有限,且該類案件具有團伙作案的可能性,加大了治安治理難度,嚴重影響了人們?nèi)罕姷墓舶踩泻蜕鐣€(wěn)定。本文提出的一種城市入室盜竊串并案分析的方法,希望能減少群眾生命財產(chǎn)的威脅,提高城市入室盜竊犯罪偵破率。

        參考文獻

        [1]韓寧. 基于聚類分析的串并案研究[J]. 中國人民公安大學學報, 2012(1): 5358.

        [2]夏平. 技術(shù)性開鎖入室盜竊案件的特點及偵查方向[J]. 法治與社會, 2015(7): 7576.

        [3]于政. 基于深度學習的文本向量化研究與應用[D]. 上海:華東師范大學, 2016.

        [4]T Kurita. An efficient agglomerative clustering algorithm using a heap[J]. Pattern Recognition, 1991, 24(3):205209.

        [5]Gdalyahu Y, Weinshall D, Werman M. Self Organization in Vision: Stochastic Clustering for Image Segmentation, Perceptual Grouping, and Image Database Organization[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 23(10):10531074.

        [6]Tang D, Qin B, Liu T. Learning ?semantic representations of users and products for document level sentiment classification[C].In Proceedings of ACL.2015:10141023.

        [7]Michael Chau,Jennifer Xu. Extracting meaningful entities from police narrative reports[C].

        In Proceedings of the National Conference for Digital Government Research. Los Angeles California, USA:

        2002:271275.

        [8]Jennifer Xu, Hsinchun Chen, Michael Chau. Automated criminal link analysis based on domain knowledge[J]. Journal of the American Society for Information Science and Technology, 2007, 58(6): 842855.

        [9]單培. 比較法與刑事案件串并案分析[J]. 公安海警學院學報, 2013, 12(3): 6668.

        [10]王慧. 基于聚類的關(guān)聯(lián)規(guī)則算法在刑事犯罪行為分析中的應用[J]. 中國人民公安大學學報(自然科學版), 2010, 65(3): 6467.

        [11]CSDN.(20181212).https://blog.csdn.net/Luqiang_Shi/ article/details/ 84978712

        (收稿日期: 2019.05.12)

        作者簡介:馮佳樂(1986),男,本科,中級工程師,研究方向:大數(shù)據(jù)分析,串并案研究。

        姚遠(1986),男,碩士,高級工程師,研究方向:公安大數(shù)據(jù)、警務監(jiān)督信息化。

        通訊作者:陳德華(1976),男,博士,副教授,碩士生導師,研究方向:數(shù)據(jù)倉庫、大數(shù)據(jù)分析、圖數(shù)據(jù)挖掘。

        文章編號:1007757X(2020)08014203

        猜你喜歡
        文本
        文本聯(lián)讀學概括 細致觀察促寫作
        重點:論述類文本閱讀
        重點:實用類文本閱讀
        初中群文閱讀的文本選擇及組織
        甘肅教育(2020年8期)2020-06-11 06:10:02
        作為“文本鏈”的元電影
        在808DA上文本顯示的改善
        “文化傳承與理解”離不開對具體文本的解讀與把握
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
        從背景出發(fā)還是從文本出發(fā)
        語文知識(2015年11期)2015-02-28 22:01:59
        高清国产美女av一区二区| 国产精品成人3p一区二区三区| 在线观看免费人成视频| 午夜成人理论无码电影在线播放| 国产激情一区二区三区在线蜜臀 | 久久久久久久久毛片精品| 亚洲永久精品ww47| 曰韩人妻无码一区二区三区综合部 | 国产成人精品午夜福利免费APP| 人妻少妇无乱码中文字幕| 免费视频无打码一区二区三区| 久久视频在线| 精品国内自产拍在线观看| 日韩欧美第一区二区三区| 亚洲av日韩av天堂久久不卡| 国产精品会所一区二区三区| 门卫又粗又大又长好爽| 免费精品无码av片在线观看| Jizz国产一区二区| 日本一本一道久久香蕉男人的天堂| 亚洲国产精品无码专区| 亚洲 欧美 综合 另类 中字| 国产毛片三区二区一区| 久久精品av在线观看| av一区二区三区人妻少妇| 国产综合精品久久亚洲| 亚洲综合一区二区三区久久| 无码人妻精品一区二区三区夜夜嗨 | 国产真实乱XXXⅩ视频| 一本色道久久88加勒比综合| 日韩精品久久无码中文字幕| 草草久久久无码国产专区| 欧美成人精品三级在线观看| 网址视频在线成人亚洲| 国产色系视频在线观看| 欧美成人精品第一区二区三区| 亚洲av网一区天堂福利| 青青青爽在线视频免费播放| 国内精品久久久人妻中文字幕| 欧洲熟妇乱xxxxx大屁股7| 和少妇人妻邻居做爰完整版|