亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        應(yīng)用聚類分析方法串并案件的距離計(jì)算問題研究

        2018-05-05 02:33:50
        刑事技術(shù) 2018年2期
        關(guān)鍵詞:作案人余弦聚類

        唐 宇

        (紅原縣公安局,四川 紅原 624400)

        聚類試圖將數(shù)據(jù)集中的樣本劃分為若干個(gè)通常是不相交的子集,每個(gè)子集稱為一個(gè)簇。通過這樣的劃分,每個(gè)簇可能對應(yīng)于一些潛在的概念(類別),這些概念對于聚類過程而言事先是未知的。聚類結(jié)果的簇內(nèi)相似度高且簇間相似度低[1]。串并案分析是根據(jù)一些案件的相同或相似特征在現(xiàn)場分析的基礎(chǔ)上判定是否可能為同一犯罪主體所為,分析的根據(jù)是作案手法的獨(dú)特性和相對穩(wěn)定性[2]。因?yàn)樽靼甘址ㄓ歇?dú)特性,不同的犯罪主體所作案件的案件特征相似性小,對應(yīng)于聚類結(jié)果的簇間相似度低。因?yàn)樽靼甘址ㄓ邢鄬Ψ€(wěn)定性,同一犯罪主體所作系列案件的案件特征相似性大,對應(yīng)于聚類結(jié)果的簇內(nèi)相似度高。從理論上講,可以通過聚類分析對案件進(jìn)行串并。

        程琳采用SOM網(wǎng)絡(luò)模型對20例侵財(cái)案件進(jìn)行聚類分析,得出的結(jié)果僅作為參考依據(jù),串并案件的分析判斷仍然需要結(jié)合刑偵干警的長期辦案經(jīng)驗(yàn)[3]。夏穎等通過構(gòu)建相異度矩陣進(jìn)行層次聚類分析方法作出的聚類分析結(jié)果進(jìn)行串并案,需要通過目測了解聚類是否具有合理性,再進(jìn)行下一步的再處理[4]。韓寧等通過使用原子特征詞詞典和關(guān)鍵詞相似度加權(quán)計(jì)算模型構(gòu)建特征向量空間,通過FCM聚類算法進(jìn)行聚類分析,提供的聚類結(jié)果可供偵查人員在縮小的案件范圍內(nèi)進(jìn)行串并案分析[5]。目前對于聚類分析在串并案件中的研究集中于對聚類算法的應(yīng)用研究,缺乏對聚類算法涉及的兩個(gè)基本問題——性能度量和距離計(jì)算的研究。需要通過某種性能度量評估聚類結(jié)果的好壞,并且明確了最終使用的性能度量,可以直接將其作為聚類過程的優(yōu)化目標(biāo)[1]。聚類性能度量可以將聚類結(jié)果與某個(gè)參考模型進(jìn)行比較。參考模型可以采用應(yīng)用領(lǐng)域內(nèi)明確的劃分結(jié)果。距離計(jì)算對于聚類算法的過程十分重要,直接影響著算法的有效性。聚類分析在串并案件中具體采用何種距離計(jì)算形式,需要將不同距離計(jì)算形式所得聚類結(jié)果與參考模型進(jìn)行比較并評估其好壞。

        1 參考模型

        在現(xiàn)場分析的基礎(chǔ)上,使用基于邏輯推理的串并分析,通過對相似度進(jìn)行評分,得出最終的串并案結(jié)論,與破案結(jié)果比較,確定參考模型,并使用無向圖表示。

        1.1 現(xiàn)場分析

        一號現(xiàn)場:2016年1月4日(星期日),縣城某研究所工作人員報(bào)案稱該研究所辦公室及住宿間被盜。辦公室及住宿間(只有臥室)所在的大樓第一層玻璃雙開大門鏈條鎖完好,大門在不解下鎖的情況下可以打開一條供較瘦的人側(cè)身通過的縫,經(jīng)現(xiàn)場試驗(yàn)該縫需要另一人協(xié)助才可以保持側(cè)身通過開啟度。該大樓被盜辦公室及住宿間門鎖均完好,窗戶均被拉開,房間內(nèi)所有抽屜、柜子、箱包、紙箱被翻動(dòng)。大樓后面到后門有兩趟平行的成趟雪腳印,一趟足尖背離后門的腳印消失于該研究所一排平房旁圍欄,一趟足尖朝向后門的腳印由該大樓一樓一端窗戶延伸至后門所在圍墻。后門整體及鎖完好。被盜物品為望遠(yuǎn)鏡、放大鏡、短刀及現(xiàn)金。經(jīng)調(diào)取該研究所監(jiān)控錄像,由腳印消失的那排平房前的監(jiān)控發(fā)現(xiàn)2016年1月3日13時(shí) 23 分,兩名可疑人員自腳印消失處圍欄經(jīng)過平房前空地。該研究所被盜大樓附近無監(jiān)控,研究所大門監(jiān)控未顯示該兩名可疑人員出入,其中一名可疑人員右腳有殘疾?,F(xiàn)場訪問未發(fā)現(xiàn)其他可疑情況。分析作案人人數(shù)為2人,身高一為160~170 cm,一為170~180 cm,身材均較瘦,較矮的人右腳有殘疾,年齡為12~18歲。

        二號現(xiàn)場:2016年3月26日(星期六),縣城某局工作人員報(bào)案稱其在該局住宿區(qū)的家中被盜。該住戶為獨(dú)立院落,院門上有攀爬痕跡。該住戶用來分割煤炭的斧頭被嫌疑人由柴火棚移動(dòng)至客廳沙發(fā)上,斧頭旁的沙發(fā)扶手上即為充電的手機(jī)和平板電腦(已被盜)。廚房、儲物間未發(fā)現(xiàn)明顯翻動(dòng)痕跡??蛷d內(nèi)電視柜、兩臥室內(nèi)衣柜、床頭柜抽屜、床靠背暗柜均被翻動(dòng)。手提包、挎包內(nèi)物品均被翻出。被盜物品為現(xiàn)金、平板電腦、手機(jī)、香煙。現(xiàn)場訪問獲知,該住戶離開家時(shí)有兩名可疑人員進(jìn)入該局院壩內(nèi),該住戶離開家前接聽一通電話,起始時(shí)間為15 時(shí) 37分,回到家發(fā)現(xiàn)被盜后電話報(bào)警,報(bào)警時(shí)間為16 時(shí) 8 分。分析作案人人數(shù)為2人,身高一為160~170 cm,一為170~180 cm,身材均較瘦,年齡為12~18歲。

        三號現(xiàn)場:2016年4月2日(星期六),縣城某社區(qū)住戶報(bào)案稱其在該社區(qū)的家中被盜。該住戶為獨(dú)立院落,院門上有攀爬痕跡,院門掛鎖被破壞。院內(nèi)房屋大門完好,窗戶被拉開,廚房、經(jīng)堂未發(fā)現(xiàn)明顯翻動(dòng)痕跡。經(jīng)堂內(nèi)有一張?jiān)诒镜貐^(qū)有影響力的活佛照片??蛷d、臥室、儲物間內(nèi)衣柜、床頭柜抽屜、床靠背暗柜、立柜抽屜均被翻動(dòng)。被盜物品為現(xiàn)金、銀元、平板電腦?,F(xiàn)場訪問獲知,該住戶離開家前接聽一通電話,起始時(shí)間為15 時(shí) 4 分,回到家發(fā)現(xiàn)被盜后電話報(bào)警,報(bào)警時(shí)間為17 時(shí) 2 分,回到家后發(fā)現(xiàn)院門從里面被反鎖,該住戶由院墻翻至院內(nèi)開門。分析作案人人數(shù)為2人,身材較瘦,1人為170~180 cm,一人較矮或腿腳不便,應(yīng)全部為青少年(12~25歲),且部分或全部為信奉某活佛的藏族。

        四號現(xiàn)場:2016年4月9日(星期六),縣城某單位工作人員報(bào)案稱其單位辦公室被盜竊。該單位辦公室位于2樓,與樓梯連接處由鋁合金推拉門隔開,該推拉門門鎖被破壞,樓梯入口處有卷簾門。2樓廁所發(fā)現(xiàn)攀爬痕跡,廁所外有市政工程所搭腳手架。辦公室門為玻璃門及防盜門的均未發(fā)現(xiàn)撬鎖痕跡,辦公室門為木門的均被破壞,破壞方式分別為踹開和撞開。進(jìn)入的其中一間辦公室內(nèi)茶幾上發(fā)現(xiàn)一枚灰塵足跡。進(jìn)入的辦公室內(nèi)辦公桌抽屜及立柜均被翻動(dòng)。被盜物品為零食、耳機(jī)、簽字筆?,F(xiàn)場訪問獲知,該辦公室多名人員自稱于12 時(shí)許到過辦公室,此時(shí)一切完好。到達(dá)辦公室后發(fā)現(xiàn)被盜,電話報(bào)警時(shí)間為15 時(shí) 27 分。分析作案人有2人或2人以上,其中一名作案人身高為160~170 cm,一名作案人為170~180 cm,均較瘦,一人腿腳無力或不便,應(yīng)全部為青少年(12~25歲)。

        五號現(xiàn)場:2016年4月9日(星期六),縣城某局工作人員報(bào)案稱其在該局住宿區(qū)的家中被盜。該住戶為一排平房中一間,正門為防盜門,正門旁窗戶被打開,窗戶有防盜柵欄。后門為木門,靠近鎖體處有一片木板被破壞??蛷d及臥室有翻動(dòng)痕跡,廚房無明顯翻動(dòng)痕跡。被盜物品為現(xiàn)金、香煙。其放置于家中的紅色挎包在現(xiàn)場搜索時(shí)發(fā)現(xiàn)于平房后圍墻外另一單位的廁所屋檐上,經(jīng)勘查確認(rèn)為作案人逃跑路線。逃跑路線附近圍墻外墻根處發(fā)現(xiàn)一串鑰匙,經(jīng)事主辨認(rèn)非其鑰匙?,F(xiàn)場訪問獲知,該住戶于16 時(shí) 14分離開家,17 時(shí) 2 分接到鄰居電話稱其家中被盜。離開家時(shí)發(fā)現(xiàn)有三名中學(xué)生模樣的人在該局院內(nèi)閑逛,是X中學(xué)的學(xué)生。經(jīng)調(diào)取相關(guān)監(jiān)控視頻發(fā)現(xiàn),作案人員有4名,2人身高為160~170 cm,其中一人右腳不便,2人身高為170~180 cm。分析作案人年齡均在12~18歲。

        六號現(xiàn)場:2016年4月17日(星期日),縣城某社區(qū)住戶報(bào)案稱其在該社區(qū)的家中被盜。該住戶為獨(dú)立院落,院門無攀爬痕跡,院墻有攀爬痕跡。院內(nèi)房屋大門完好,客廳窗戶玻璃被砸爛??蛷d墻角處有殘缺灰塵減層足跡??蛷d、臥室被翻動(dòng),廚房、經(jīng)堂未發(fā)現(xiàn)明顯翻動(dòng)痕跡。經(jīng)堂內(nèi)有一張?jiān)诒镜貐^(qū)有影響力的活佛照片。被盜物品為念珠、游戲機(jī)、充電寶?,F(xiàn)場訪問獲知,該住戶離開家時(shí)間為13 時(shí) 23分,回到家時(shí)間為17 時(shí) 40 分。分析作案人人數(shù)為2人,一人身高為160~170 cm,一人身高為170~180 cm,均較瘦,應(yīng)全部為青少年(12~25歲),且部分或全部為信奉某活佛的藏族。

        1.2 串并分析

        串并案的條件有:案件性質(zhì)相同或相近、發(fā)案時(shí)段有規(guī)律、發(fā)案地點(diǎn)相同或相似、周圍環(huán)境相同或相似、作案手段(包括作案工具種類及其使用方式)相同或相似、侵害目標(biāo)相同或相似、案件之間的某種關(guān)聯(lián)、人身特征相同或相似、作案人數(shù)大體相同、痕跡物證(包括作案工具痕跡)相同或相似[6]。六個(gè)案例串并案條件見表1。.

        表 1 串并案條件Table 1 Conditions of joint investigation

        六處現(xiàn)場案件性質(zhì)均為盜竊案。發(fā)案時(shí)段均為雙休日下午。發(fā)案地點(diǎn)均在室內(nèi)。六處現(xiàn)場周圍環(huán)境如果僅從環(huán)境名稱來看一、四號現(xiàn)場相同,二、五號現(xiàn)場相同,三、六號現(xiàn)場相同。但考慮到無論是單位辦公區(qū)、單位住宿區(qū)、獨(dú)立院落均有圍墻作為相對隔離,因此,可以認(rèn)為六處現(xiàn)場周圍環(huán)境均相似。

        一、二、三、四、六號現(xiàn)場侵入方式均有翻越行為,五號現(xiàn)場因該單位大門開啟,且案發(fā)現(xiàn)場為平房,現(xiàn)場條件決定了侵入方式不會有翻越行為。四、五、六號現(xiàn)場侵入方式中增加了破壞門窗行為,且門窗被破壞部位均為現(xiàn)場進(jìn)出口。因此,從侵入方式角度來說,一、二、三號現(xiàn)場作案手段相似,四、五、六號現(xiàn)場作案手段相似。六處現(xiàn)場尋找侵害目標(biāo)方式均有翻找行為。翻找了辦公室的有一、四號現(xiàn)場,翻找了臥室的有一、二、三、五、六號現(xiàn)場,翻找了客廳的有二、三、五、六號現(xiàn)場,未翻找廚房的二、三、五、六,未翻找經(jīng)堂的有三、六號現(xiàn)場,翻找部位均包含抽屜、柜子。說明作案人主觀認(rèn)識上認(rèn)為抽屜、柜子內(nèi)有侵害目標(biāo),而抽屜、柜子又普遍集中在辦公室、臥室、客廳等處所。案發(fā)地屬于藏區(qū),藏區(qū)風(fēng)俗習(xí)慣是藏族家中均會設(shè)置經(jīng)堂,經(jīng)堂內(nèi)均有展示立柜,展示立柜里會放置有若干市場價(jià)格高的宗教用品。經(jīng)堂沒有翻找,可以認(rèn)為作案人因?yàn)樽诮逃^念,主觀上回避了對經(jīng)堂的翻找。因此,從尋找侵害目標(biāo)方式來說,六處現(xiàn)場作案手段相似,三、六號現(xiàn)場可以進(jìn)一步認(rèn)為相同。

        六處現(xiàn)場的侵害目標(biāo)價(jià)值無論是不同現(xiàn)場間還是同一現(xiàn)場內(nèi)均有高有低,但從攜帶條件來看,所有侵害目標(biāo)體積都不大,單手或衣服兜就可以攜帶。因此,可以認(rèn)為六處現(xiàn)場侵害目標(biāo)相似。

        三、六號現(xiàn)場經(jīng)堂內(nèi)均有一張?jiān)诒镜貐^(qū)有影響力的活佛照片,并且是同一位活佛的照片。藏傳佛教有一個(gè)特點(diǎn),就是一個(gè)教派內(nèi)的不同信教地區(qū)會信仰不同的活佛。結(jié)合初步判斷作案人應(yīng)該在縣城居住,分析作案人員應(yīng)該居住在縣城的兩個(gè)村內(nèi)。因此,三、六號現(xiàn)場有作案人居住地關(guān)聯(lián)。五號現(xiàn)場作案人逃跑路線附近圍墻外墻根處發(fā)現(xiàn)一串鑰匙,其中兩把鑰匙貼有白色布制膠布,膠布上有黑墨寫的房間號編號?,F(xiàn)場勘查人員記起與四號現(xiàn)場兩間辦公室門門牌號相同,隨即由四號現(xiàn)場辦公室工作人員對鑰匙進(jìn)行辨認(rèn)確認(rèn)為四號現(xiàn)場辦公室鑰匙。因此,四、五號現(xiàn)場有作案人全部或部分相同關(guān)聯(lián)。

        年齡為12~18歲的為一、二、五號現(xiàn)場,年齡為12~25歲的為三、四、六號現(xiàn)場。因此,從年齡角度來說,六處現(xiàn)場人身特征相似。六處現(xiàn)場中均有身高為170~180 cm的作案人,一、二、四、五、六號現(xiàn)場均有身高為160~170 m的作案人,三號現(xiàn)場依據(jù)現(xiàn)場條件判斷有一身高比170~180 cm矮的作案人,與身高160~170 cm特征相似。因此,從身高角度來說,六處現(xiàn)場人身特征相似,一、二、四、五、六號現(xiàn)場可以進(jìn)一步認(rèn)為相同。一、二、三、四、六號現(xiàn)場均顯示作案人身材較瘦,五號現(xiàn)場因現(xiàn)場條件限制,無法有效判斷作案人身材。因此,從體態(tài)角度來說,一、二、三、四、六號現(xiàn)場相似。一、三、四、五號現(xiàn)場均有作案人腿腳不便的特征反映,二、六號現(xiàn)場無法顯示作案人腿腳是否不便。因此,從特殊特征來說,一、三、四、五號現(xiàn)場相似。

        一、二、三、六號現(xiàn)場作案人數(shù)均為2人,四號現(xiàn)場為2人及以上,五號現(xiàn)場為4人。因此,一、二、三、六號現(xiàn)場相似。

        一號現(xiàn)場的雪腳印由2名作案人形成,形成后被雪覆蓋,只能測量腳長、前掌寬和后掌寬。四號現(xiàn)場的灰塵足跡完整有花紋,是市售運(yùn)動(dòng)鞋通用花紋,同時(shí)測量了腳長、前掌寬和后掌寬。六號現(xiàn)場為殘缺灰塵減層足跡,花紋不明顯,可以測量腳長和前掌寬。四號現(xiàn)場灰塵足跡的腳長、前掌寬和后掌寬與一號現(xiàn)場的其中1名作案人形成的雪腳印的腳長、前掌寬和后掌寬長度接近,六號現(xiàn)場殘缺灰塵減層足跡的腳長和前掌寬與一號現(xiàn)場的另1名作案人形成的雪腳印的腳長和前掌寬長度接近。因此,一、四號現(xiàn)場相似,一、六號現(xiàn)場相似。

        1.3 串并結(jié)論

        10個(gè)串并案條件,每個(gè)條件按總分10分評分,總共100分,最終相似度按得分多少進(jìn)行比較。其中,某個(gè)條件內(nèi)有多個(gè)子條件的,子條件先以總分10分評分,并按子條件數(shù)折算后計(jì)入該條件總分。不同記0分,相似記5分,相同記10分。串并案件應(yīng)該保證相似度大于差異度,也就是說兩個(gè)現(xiàn)場相似度評分大于50的認(rèn)為可以串并。據(jù)此可將六個(gè)現(xiàn)場全部串并,具體見表2。

        表 2 相似度評分表Table 2 Scores by similarity

        1.4 破案證實(shí)

        破案后證實(shí),一號現(xiàn)場為甲、乙作案現(xiàn)場,二號現(xiàn)場為甲、乙作案現(xiàn)場,三號現(xiàn)場為甲、乙作案現(xiàn)場,四號現(xiàn)場為甲、乙、丙作案現(xiàn)場,五號現(xiàn)場為甲、乙、丙、丁作案現(xiàn)場,六號現(xiàn)場為甲、乙作案現(xiàn)場。(因犯罪嫌疑人系未成年人,故用甲、乙、丙、丁代替。)

        1.5 確定模型

        以該串并案案例為參考模型,為便于聚類分析結(jié)果與參考模型比較,采用無向圖進(jìn)行直觀比較。參考模型無向圖如圖1所示。

        圖1 參考模型無向圖Fig.1 Undirected graph of reference model

        2 距離計(jì)算

        在現(xiàn)場分析的基礎(chǔ)上,使用基于聚類分析的串并分析,從理論上分析將聚類分析應(yīng)用到串并案件中適宜采用哪些距離計(jì)算形式,并采用適宜的距離計(jì)算形式,得出使用無向圖表示的最終串并案結(jié)論。

        2.1 聚類模型

        形式化地說,假定樣本集D={x1,x2,…,xm}包含m個(gè)無標(biāo)記樣本,每個(gè)樣本xi={xi1;xi2;...;xin}是一個(gè)n維特征向量,則聚類算法將樣本集D劃分為k個(gè)不相交的簇 {Cl|l= 1,2,…,k},其中Cl’∩l’≠lCl= ? 且相應(yīng)地,我們用λj∈{1, 2, ...,k}表示樣本xj的“簇標(biāo)記”(cluster label),即xj∈Cλj。于是,聚類的結(jié)果可用包含m個(gè)元素的簇標(biāo)記向量λ=(λ1;λ2; ...; λm)表示。

        2.2 向量空間

        聚類分析時(shí),串并案條件的選擇有二個(gè)原則:一是案件之間存在確切的案件關(guān)聯(lián),案件的痕跡物證可以同一比對,案件的相似度便是100%,無法將100%相似度體現(xiàn)在特征向量空間中,只能作結(jié)果修正;二是對待聚類案件中均相似的串并案條件,因該項(xiàng)串并案條件僅支持可以串并結(jié)論,使得聚類結(jié)果趨向于分為1個(gè)簇,故不予選擇,不選擇的同時(shí)可以減少計(jì)算量。

        向量類型選擇:案件特征存在范圍值,需要分段處理,采用在該段范圍標(biāo)記為1,不在該段范圍標(biāo)記為0的方式。案件特征存在是或否的二元化特征,按是標(biāo)記為1,否標(biāo)記為0。標(biāo)記只存在1、0,所有維度數(shù)據(jù)均落在正半軸上,減小數(shù)據(jù)點(diǎn)稀疏性。對參考模型進(jìn)行分析,從發(fā)案時(shí)段、發(fā)案地點(diǎn)、周圍環(huán)境、作案手段、人身特征、作案人數(shù)等6個(gè)串并案條件中,挑選出發(fā)案時(shí)間、發(fā)案地點(diǎn)、周圍環(huán)境、侵入方式、尋找方式、年齡、身高、體態(tài)、特殊、作案人數(shù)等10個(gè)案件特征,進(jìn)一步二元化后得到21維布爾向量(雙休日下午,室內(nèi),單位辦公區(qū),單位住宿區(qū),獨(dú)立院落,翻越,破壞,客廳翻動(dòng),臥室翻動(dòng),廚房翻動(dòng),經(jīng)堂翻動(dòng),辦公室翻動(dòng),12~18歲,18~25歲,160~170cm,170~180cm,較瘦,腿腳不便,2人,3人,4人),缺失數(shù)據(jù)作0處理,具體見表3。

        表 3 二元特征變量表Table 3 Binary characteristic variables

        2.3 計(jì)算形式

        距離計(jì)算形式主要包括度量距離和非度量距離兩大類。度量距離用于衡量特征向量空間中各數(shù)據(jù)點(diǎn)之間存在的距離。度量距離主要包括歐式距離、曼哈頓距離、切比雪夫距離、閔可夫斯基距離、馬氏距離、漢明距離、Tanimoto系數(shù)、Jaccard系數(shù)、皮爾遜相關(guān)系數(shù)、余弦相似度、調(diào)整余弦相似度。非度量距離是非度量的語義屬性,與數(shù)據(jù)樣本語義相關(guān),不具有通用性。在高維數(shù)據(jù)中,特征向量空間中各數(shù)據(jù)點(diǎn)之間的密度趨于平均,距離趨于相等,大部分適用于低維數(shù)據(jù)的距離計(jì)算形式無法直接應(yīng)用到高維數(shù)據(jù)[7]。閔可夫斯基距離是(包括歐式距離、曼哈頓距離、切比雪夫距離)忽略了不同維的差異和不同維的各對象的分布差異,同時(shí)在高維數(shù)據(jù)距離趨于相等的趨勢下無法有效區(qū)分各對象相似度差異。馬氏距離會夸大對象的弱特征,可能造成計(jì)算出的相似度較實(shí)際情況偏高。漢明距離等于一個(gè)n(單詞長度)維的超立方體上兩個(gè)頂點(diǎn)間的曼哈頓距離,同樣受高維數(shù)據(jù)距離趨于相等影響。Tanimoto系數(shù)在二元屬性情況下歸約為Jaccard系數(shù)。Jaccard系數(shù)只關(guān)心個(gè)體間共同具有的特征是否一致這個(gè)問題。皮爾遜相關(guān)系數(shù)度量兩個(gè)數(shù)據(jù)點(diǎn)之間的相關(guān)程度。余弦相似度只能分辨?zhèn)€體在維之間的差異,沒法衡量每個(gè)維數(shù)值的差異。調(diào)整余弦相似度修正了余弦相似度對數(shù)值的不敏感導(dǎo)致的結(jié)果誤差。特征向量空間向量類型為高維布爾向量,可采用Jaccard系數(shù)和余弦相似度這兩種距離計(jì)算形式。

        2.4 Jaccard系數(shù)

        Jaccard系數(shù)計(jì)算兩個(gè)向量都是1的維度的個(gè)數(shù)占兩個(gè)向量所有是1的維度個(gè)數(shù)的比例。兩個(gè)向量都是1的維度的個(gè)數(shù)等于兩個(gè)向量所有是1的維度個(gè)數(shù)時(shí),Jaccard系數(shù)的值為1;兩個(gè)向量都是1的維度的個(gè)數(shù)是0時(shí),Jaccard系數(shù)的值為0。設(shè)j為Jaccard系數(shù)值,a、b是兩個(gè)n維向量,p為向量a、b都是1的維度的個(gè)數(shù),q為向量a是1而b是0的維度的個(gè)數(shù),r為向量a是0而b是1的維度的個(gè)數(shù),則Jaccard系數(shù)計(jì)算公式為:

        以Jaccard系數(shù)計(jì)算結(jié)果大于0.5作無向圖見圖2。使用案件關(guān)聯(lián)串并案條件(五號現(xiàn)場發(fā)現(xiàn)四號現(xiàn)場鑰匙),對結(jié)果進(jìn)行修正。修正的Jaccard系數(shù)無向圖與參考模型無向圖相同,見圖3。

        圖2 Jaccard系數(shù)無向圖Fig.2 Undirected graph ofcoefficient

        圖3 修正的Jaccard系數(shù)無向圖Fig.3 Undirected graph of corrected Jaccard coefficient

        2.5 余弦相似度

        余弦相似度通過計(jì)算兩個(gè)向量之間的角度的余弦值確定兩個(gè)向量是否大致指向相同的方向。兩個(gè)向量有相同的指向時(shí),余弦相似度的值為1;兩個(gè)向量夾角為90°時(shí),余弦相似度的值為0。設(shè)cosθ為余弦值,(x1,x2,…,xn),(y1,y2,…,yn)表示兩點(diǎn)坐標(biāo),則余弦相似度計(jì)算公式為:

        以余弦值大于等于0.71(cos45 °)作無向圖見圖4。使用案件關(guān)聯(lián)串并案條件(五號現(xiàn)場發(fā)現(xiàn)四號現(xiàn)場鑰匙),對結(jié)果進(jìn)行修正。修正的余弦相似度無向圖與參考模型無向圖相同,見圖5。

        圖4 余弦相似度無向圖Fig.4 Undirected graph of cosine similarity

        圖5 修正的余弦相似度無向圖Fig.5 Undirected graph of corrected cosine similarity

        3 結(jié)果與討論

        對參考模型無向圖與修正的Jaccard系數(shù)無向圖、余弦相似度無向圖進(jìn)行比較,得出如下結(jié)果。

        3.1 最終結(jié)果

        可以看出參考模型無向圖、修正的Jaccard系數(shù)無向圖、修正的余弦相似度無向圖這三張圖是完全一樣的。也就是說,基于Jaccard系數(shù)和余弦相似度兩種距離計(jì)算形式的串并案分析結(jié)果與基于邏輯推理的串并案分析結(jié)果完全一致,與破案證實(shí)的結(jié)果也是一致的。

        3.2 聚類閾值

        結(jié)合表4和表5可以看出,Jaccard系數(shù)作為聚類閾值的0.5對應(yīng)于余弦相似度的0.67,小于余弦相似度聚類閾值,也就是Jaccard系數(shù)在維度數(shù)增長到一定數(shù)量時(shí)得到的聚類結(jié)果數(shù)據(jù)點(diǎn)會多于余弦相似度得到的聚類結(jié)果數(shù)據(jù)點(diǎn)。基于Jaccard系數(shù)的聚類算法在維度數(shù)增長到一定數(shù)量時(shí),需控制維度數(shù)或進(jìn)行某種修正才能保證其準(zhǔn)確性。

        3.3 算法時(shí)間

        余弦相似度準(zhǔn)確性較高,但計(jì)算量較Jaccard系數(shù)多,數(shù)據(jù)點(diǎn)增長到一定數(shù)量時(shí)會嚴(yán)重影響算法時(shí)間。Jaccard系數(shù)計(jì)算量較余弦相似度少,但在維度增長到一定數(shù)量時(shí),控制維度數(shù)或進(jìn)行某種修正的算法也會對整體的算法時(shí)間產(chǎn)生影響。

        4 結(jié)論

        如何構(gòu)造特征向量空間和如何設(shè)計(jì)聚類過程及聚類算法是應(yīng)用聚類分析方法串并案件需要解決的問題。解決上述兩個(gè)問題需要在解決聚類算法涉及的性能度量和距離計(jì)算這兩個(gè)基本問題的基礎(chǔ)上開展研究工作。構(gòu)造特征向量空間的問題的研究,基于本文的研究,目前可以明確特征向量采用布爾向量,各個(gè)維度采用二元化的案件特征,而如何進(jìn)行特征選取是解決構(gòu)造特征向量空間問題需要進(jìn)行的下一步研究工作,但是特征選取又會對閥值如何確定產(chǎn)生影響,故而同時(shí)需要研究特征選取對閥值確定產(chǎn)生的影響。如何設(shè)計(jì)聚類過程及聚類算法的問題的研究,需要對聚類過程如何設(shè)計(jì),以及聚類過程的不同階段中聚類算法如何進(jìn)行選擇進(jìn)行研究。

        4.1 性能度量

        通過與串并案件研究中已有的分析方法做對比,并與破案結(jié)果作對照,可以明確優(yōu)化目標(biāo)與方向。

        4.2 距離計(jì)算

        基于本文的研究,可以使用Jaccard系數(shù)和余弦相似度兩種距離計(jì)算形式。

        4.3 特征選取

        哪些案件特征能反映作案手法的獨(dú)特性和相對穩(wěn)定性,是串并案研究的重要問題,也是聚類分析方法應(yīng)用到串并案件中如何構(gòu)造特征向量空間的問題。特征向量空間維度越能反映作案手法的獨(dú)特性,就越能降低數(shù)據(jù)點(diǎn)的簇間相似度,特征向量空間維度越能反映作案手法的相對穩(wěn)定性,就越能提高數(shù)據(jù)點(diǎn)的簇內(nèi)相似度,聚類分析的結(jié)果也就能更加準(zhǔn)確。具體來講,可以采用某種合適的投影方法,將高維數(shù)據(jù)投影到低維數(shù)據(jù)空間,并做到降低數(shù)據(jù)點(diǎn)的簇間相似度并提高數(shù)據(jù)點(diǎn)的簇內(nèi)相似度;尋找衡量特征重要性的方法,量化后就是各特征值的權(quán)重計(jì)量方法,通過含有權(quán)重的距離計(jì)算,可以更好的反映各數(shù)據(jù)點(diǎn)的相似程度;對于存在相關(guān)性的特征,可以通過將一個(gè)特征分解為多個(gè)不相關(guān)的布爾向量,或者多個(gè)特征聚合為一個(gè)布爾向量的方式,減小有相關(guān)性的特征對聚類結(jié)果的影響;通過獲得更多的數(shù)據(jù)提高聚類分析結(jié)果與案件事實(shí)的吻合度,包括但不限于在法醫(yī)檢驗(yàn)、痕跡檢驗(yàn)、理化檢驗(yàn)、文件檢驗(yàn)、影像技術(shù)、聲紋檢驗(yàn)、電子物證檢驗(yàn)、心理測試等物證鑒定學(xué)科中尋找可以作為串并案條件的相關(guān)內(nèi)容,以此提取更多案件特征數(shù)據(jù)用于聚類分析。最終的特征選取,需要綜合解決以上四個(gè)方面問題,得出構(gòu)造特征向量空間的一般方法。

        4.4 閾值確定

        本文為了方便對距離計(jì)算形式作比較研究,兩種距離計(jì)算形式采用與參考模型對應(yīng)的閾值進(jìn)行比較,避免閾值不同對聚類結(jié)果產(chǎn)生差異進(jìn)而影響研究結(jié)果。實(shí)際工作中如何確定閾值,需要在確保與案件事實(shí)一致的前提下,選擇既能保證數(shù)據(jù)點(diǎn)的簇間相似度低又能保證數(shù)據(jù)點(diǎn)的簇內(nèi)相似度高的閾值。閾值的確定要考慮到以下四個(gè)方面問題。首先,需要考慮到作案手法的獨(dú)特性可能因現(xiàn)場環(huán)境限制而顯得獨(dú)特,即過于夸大的獨(dú)特性,合適的閾值應(yīng)能減小這種過于夸大的獨(dú)特性對聚類結(jié)果產(chǎn)生的影響;其次,需要考慮到作案手法的相對穩(wěn)定性與相同類別案件的相同或相似案件特征的區(qū)別,即虛假的相對穩(wěn)定性,合適的閾值應(yīng)能消除這種虛假的相對穩(wěn)定性對聚類結(jié)果產(chǎn)生的影響;再次,需要考慮到對于某一個(gè)已有的串并案模型而言,合適的閾值可能不是一個(gè)數(shù)值,而是在某個(gè)數(shù)值區(qū)間內(nèi),要有計(jì)算閾值數(shù)值區(qū)間的算法;最后,需要考慮到利用一個(gè)地區(qū)已有的串并案模型,先計(jì)算已有的串并案模型的閾值數(shù)值區(qū)間,再分析各個(gè)串并案模型的閾值數(shù)值區(qū)間重疊區(qū)域,以此確定該地區(qū)的合適的閾值。

        4.5 聚類過程

        聚類過程可以分兩個(gè)階段進(jìn)行。第一階段是對某些串并案條件進(jìn)行分析,挑選案件特征,并二元化為布爾向量,采用Jaccard系數(shù)對待串并案件進(jìn)行初步聚類。第二階段是分析某一簇內(nèi)所有案件的串并案條件,挑選案件特征二元化為布爾向量,采用余弦相似度進(jìn)行聚類。

        4.6 聚類算法

        針對聚類過程的兩個(gè)階段,聚類算法選擇有三個(gè)因素的影響。一是因?yàn)檫x擇的串并案條件有差異,導(dǎo)致構(gòu)造的特征向量空間有差異,聚類算法的選擇上有差異。二是因?yàn)檫x擇的距離計(jì)算形式有差異,確定的閾值有差異,聚類算法的選擇上有差異。三是不同聚類算法的運(yùn)行時(shí)間有差異,需要大量串并案件模型進(jìn)行性能度量,確定最優(yōu)算法。

        [1] 周志華. 機(jī)器學(xué)習(xí)[M].北京:清華大學(xué)出版社,2016:197-198.

        [2] 駱建新,張智勇.案件串并工作淺析[J].河南公安高等專科學(xué)校學(xué)報(bào),2010,19(6):123.

        [3] 程琳. SOM網(wǎng)絡(luò)模型在刑事案件并案偵查中的應(yīng)用[J].計(jì)算機(jī)與數(shù)字工程,2009,37(11):95-98.

        [4] 夏穎,王哲,程琳. 聚類分析在犯罪數(shù)據(jù)分析中的應(yīng)用[J].合肥工業(yè)大學(xué)學(xué)報(bào):自然科學(xué)版,2009,32(12):1924-1927.

        [5] 韓寧,陳巍. 基于聚類分析的串并案研究[J].中國人民公安大學(xué)學(xué)報(bào):自然科學(xué)版,2012(1):53-58.

        [6] 張建根,沈建良,于奎棟. 淺析科學(xué)串并案件的條件與方法[J].警察技術(shù),2006(3):53-54.

        [7] 康永為. 大數(shù)據(jù)環(huán)境下高維數(shù)據(jù)處理若干問題[D].桂林:廣西師范大學(xué),2013:14.

        猜你喜歡
        作案人余弦聚類
        智破失竊案
        系列搶劫案件犯罪實(shí)施階段的反偵查行為相關(guān)問題探析*
        法制博覽(2018年31期)2018-01-22 16:21:03
        基于DBSACN聚類算法的XML文檔聚類
        電子測試(2017年15期)2017-12-18 07:19:27
        兩個(gè)含余弦函數(shù)的三角母不等式及其推論
        分?jǐn)?shù)階余弦變換的卷積定理
        圖像壓縮感知在分?jǐn)?shù)階Fourier域、分?jǐn)?shù)階余弦域的性能比較
        基于改進(jìn)的遺傳算法的模糊聚類算法
        一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
        離散余弦小波包變換及語音信號壓縮感知
        自適應(yīng)確定K-means算法的聚類數(shù):以遙感圖像聚類為例
        777午夜精品免费观看| 日本黄网色三级三级三级| 变态另类人妖一区二区三区 | 初尝黑人嗷嗷叫中文字幕| 日韩AV无码中文无码AV| av天堂网手机在线观看| 乱码1乱码2美美哒| 欧美xxxx黑人又粗又长精品| 乱色视频中文字幕在线看| 精品亚洲一区二区三洲| 99久久婷婷国产综合亚洲| 亚洲av无码成人黄网站在线观看| 日本韩国三级aⅴ在线观看| 亚洲国产日韩一区二区三区四区 | 野花视频在线观看免费| 国产亚洲精品精品精品| 日本一区二区三区高清千人斩 | 国产午夜福利短视频| 国产美女精品AⅤ在线老女人| 中文字幕综合一区二区| 日日天干夜夜狠狠爱| 亚洲色欲在线播放一区| 久久色悠悠亚洲综合网| 91丝袜美腿亚洲一区二区| 国产成人av性色在线影院色戒| 高清国产美女一级a毛片在线 | 久久人妻av无码中文专区| 日本黄色影院一区二区免费看| 亚洲av永久中文无码精品综合| 亚洲日本va中文字幕久久| 亚洲成av人片在线天堂无| 免费人成视频网站网址| 国语自产偷拍精品视频偷| 日本专区一区二区三区| 久久精品国产亚洲综合av| 亚欧色一区w666天堂| 亚洲天堂资源网| 国产在线a免费观看不卡| 亚洲精品一区二区国产精华液 | 久久国产综合精品欧美| 手机av在线播放网站|