鐘 飚, 袁夢佳
(1.南京審計大學(xué), 江蘇南京 211815; 2.江蘇省公共工程審計重點實驗室, 江蘇南京 211815)
城市犯罪現(xiàn)象的發(fā)生,受到社會、人文、地理、情感等多因素的綜合影響,呈現(xiàn)出復(fù)雜多變的狀態(tài)。但城市犯罪作為一種社會事件,具有相對穩(wěn)定性和延續(xù)性等特點,其變化趨勢是可測的。沿時間軸線的變化發(fā)展,即犯罪的動態(tài)變化,可以通過科學(xué)的統(tǒng)計分析加以追蹤。
在公共安全研究中,城市空間在地理上可劃分為不同的警務(wù)轄區(qū),對每一轄區(qū)的犯罪案件進行時間序列分析,可以構(gòu)建一個全面的犯罪預(yù)警系統(tǒng)。CrimeStat是受美國司法部National Institute of Justice 資助,多所美國大學(xué)參與經(jīng)過幾十年的不斷研究和使用,最新版由 Ned Levine & Associates[1]開發(fā)的軟件,主要應(yīng)用于犯罪情報分析領(lǐng)域中。通過運用CrimeStat軟件的時間序列預(yù)測模塊,對城市犯罪相關(guān)數(shù)據(jù)作時間序列預(yù)測,使得轄區(qū)的犯罪案件數(shù)量變動可視化。警方可以通過有針對性地巡邏或其他手段的干預(yù),再利用外推預(yù)測,做到合理有效地分配警力資源。
本文以CrimeStat軟件中的時間序列分析模塊為例,研究時間序列分析方法在犯罪預(yù)測中的應(yīng)用。通過簡單易操作的軟件平臺,對犯罪數(shù)據(jù)進行統(tǒng)計分析,達到較清晰的預(yù)測結(jié)果。犯罪時間序列預(yù)測分析方法可以幫助警務(wù)人員有效地把握所在轄區(qū)犯罪案件的波動情況,并對犯罪預(yù)測的動態(tài)情況能夠采取相應(yīng)措施,從而合理分配警力并有效保護公共安全。
關(guān)于公共安全中的犯罪數(shù)據(jù)分析,國內(nèi)的相關(guān)學(xué)者就情報分析進行了探索。大數(shù)據(jù)背景下,人類作為公共安全的中心角色不會變,但必須結(jié)合數(shù)據(jù)分析,從而使數(shù)據(jù)分析發(fā)揮作用,保護好公共安全[2]。在現(xiàn)代情報分析中,犯罪制圖技術(shù)的進步,拓寬了犯罪空間的分析應(yīng)用[3]。用系統(tǒng)的、科學(xué)的數(shù)據(jù)分析方法對犯罪情報做大數(shù)據(jù)分析是目前警務(wù)所需要的思維方式的變革。而就犯罪數(shù)據(jù)分析的直接目的來說,除了掌握犯罪情報以外,更重要的是追求對犯罪趨勢的預(yù)測。其中犯罪預(yù)測的方法一般分為經(jīng)驗預(yù)測法和科學(xué)預(yù)測法[4]。在應(yīng)用中,數(shù)據(jù)分析人員需要結(jié)合實際減少預(yù)測方法產(chǎn)生的誤差,利用統(tǒng)計方法處理犯罪數(shù)據(jù)儼然是一大趨勢。
對于城市犯罪來說,由于分布和人口的因素,犯罪特征具有一定的規(guī)律[5]。從時空分布著手研究城市犯罪的形態(tài)和規(guī)律得到重視,隨著技術(shù)的發(fā)展和城市的動態(tài)演變,犯罪時空分析方法不斷在更新[6]。過去的犯罪預(yù)測方法大都建立在統(tǒng)計學(xué)理論基礎(chǔ)之上,側(cè)重點在于數(shù)據(jù)的描述。如今更多的使用具有信息反饋機制的時空犯罪熱點預(yù)測模型[7]。國外對時間序列的應(yīng)用研究起步較早,時間序列作為一類重要的時態(tài)數(shù)據(jù)對象,具有數(shù)據(jù)量大、維度多、不斷更新的特點,時間序列數(shù)據(jù)引發(fā)了數(shù)據(jù)挖掘領(lǐng)域的大量研究和開發(fā)嘗試[8]。有國內(nèi)學(xué)者在一個連環(huán)犯罪的案例中使用簡單時間序列預(yù)測方法,對罪犯存在的隨機因素而產(chǎn)生的特異的點作平滑處理,用移動平均法對時間曲線進行擬合,得到一個大致的時間間隔,可預(yù)測連環(huán)犯罪罪犯的下次行動[9]。另外,也可以使用更為精確的統(tǒng)計方法,如ARIMA-LSSVM混合模型,預(yù)測出時間序列的線性部分,通過PSO優(yōu)化的LSSVM模型預(yù)測非線性部分,對時間序列進行充分擬合,通過混合算法計算得出最終結(jié)果[10]。也有學(xué)者將模型應(yīng)用于實際案例,將某一地域內(nèi)特定案件的時空分布特征分別從宏觀和局部微觀兩個尺度層面進行系統(tǒng)的分析,按照“熱點時空類型矩陣”的時空分布,把多個穩(wěn)定熱點分別列入不同的微觀時空模式,針對不同模式里的街頭搶劫犯罪給出具體的的防控對策[11]。犯罪分析軟件CrimeStat的開發(fā)和初始研究起源于國外,國內(nèi)雖然有過基于該軟件的犯罪熱點區(qū)域分析和犯罪行程分析的研究[12],但其應(yīng)用在國內(nèi)目前尚未普及。
綜上所述,時間序列分析的統(tǒng)計方法已經(jīng)應(yīng)用到環(huán)境、工程到公共安全等領(lǐng)域。隨著數(shù)據(jù)分析技術(shù)的發(fā)展,數(shù)據(jù)統(tǒng)計的方式也在不斷的更新。利用專門面向犯罪行徑的統(tǒng)計軟件能夠?qū)Ψ缸飻?shù)據(jù)作出較優(yōu)的處理,因此本文將利用CrimeStat軟件的時間序列預(yù)測模塊提出對城市犯罪的預(yù)測方法。
理論上利用外推時間序列模型可以實現(xiàn)預(yù)期犯罪率的預(yù)測,外推時間序列模型主要分為指數(shù)平滑法和變量相關(guān)性估計法。其中,指數(shù)平滑法針對的是時間趨勢,是目前使用最廣泛的時間序列預(yù)測方法。
數(shù)據(jù)分析所要用到的原始數(shù)據(jù)通常存在差異性,為了能夠更好的對數(shù)據(jù)進行統(tǒng)計、得出更顯著的結(jié)論,需要對原始數(shù)據(jù)進行指數(shù)平滑的處理。在本文所取的時間序列模型中,主要是簡單指數(shù)平滑模型和Holt指數(shù)平滑模型。
簡單指數(shù)平滑模型涉及到兩個重要的參數(shù),第一個是序列的平均值at,隨著時間序列的推進,平均值at會相應(yīng)的不斷變化;第二個是平滑參數(shù)α,α的取值范圍在0到1區(qū)間內(nèi),不同值的平滑參數(shù)會產(chǎn)生不同的平滑效果,表現(xiàn)為序列大體趨勢的平穩(wěn)程度,通常由代入試算來確定最佳的α值。而序列平均值at的估計方法是將時間序列中每個數(shù)據(jù)點的總和進行加權(quán),其中,假設(shè)時間序列是完全平滑的,那么權(quán)重則為1,在α較大的情況下,權(quán)重則隨之減小。
簡單指數(shù)平滑為可預(yù)測的時間序列提供了相關(guān)的模型和估計方法。只要平滑的指數(shù)不會突然改變,指數(shù)平滑就可以提供良好的預(yù)測。對于時間趨勢平穩(wěn)的時間序列,簡單指數(shù)平滑的平滑參數(shù)相對較小,并且能夠忽略大的異常變化。
而Holt指數(shù)平滑比簡單指數(shù)平滑更偏向于監(jiān)測較顯著的變化,忽略一些細枝末節(jié)的數(shù)據(jù)異常,因此更適用于時間序列中有強烈時間趨勢的情況。其時間序列水平公式如下:
at=α+(1-α)(at-1+bt-1)
(1)
bt=β(at-at-1)+(1-β)bt-1
(2)
FT=aT+bTk
(3)
其中,t為時間軸上任一時間,at為t時間下的時間序列水平,bt為t時間下點數(shù)據(jù)與前一時間點數(shù)據(jù)之間的變化,α和β都是0到1之間的參數(shù),T為時間軸上最后的時間,F(xiàn)T為最后得出的時間序列水平,k為斜率。
在本文介紹的CrimeStat軟件中,使用的是Holt指數(shù)平滑模型,軟件后臺根據(jù)定義的參數(shù)對計算過程進行自動運行。
犯罪行為分為很多種,因此具有復(fù)雜性和多樣性,但是這并不意味著犯罪沒有規(guī)律可循。將同一地區(qū)不同時間發(fā)生的某一類型犯罪按照時間趨勢排列,則會發(fā)現(xiàn)犯罪行為具有一定的規(guī)律,這種時間上的特殊規(guī)律即稱為“季節(jié)性”。比如,臨近春節(jié)的偷盜類案件比平時更多,這是人們能直觀感受到的“季節(jié)性”表現(xiàn)。通常警方能夠根據(jù)經(jīng)驗來判斷所管轄區(qū)內(nèi)的案件季節(jié)性,但在犯罪分析過程中,存在缺乏確切數(shù)字和程序來支持經(jīng)驗判斷的問題。
經(jīng)典分解方法是估算原始時間序列數(shù)據(jù)中的季節(jié)性因素的方法中最簡單適用的一種。經(jīng)典分解把時間序列看作是趨勢、季節(jié)性和其他因素的簡單疊加。CrimeStat中時間序列模型采取的是乘法經(jīng)典分解,即將趨勢性因素分子、季節(jié)性因素分子和特殊因素分子相乘。在同一犯罪類型下,一例已發(fā)生的案件的空間坐標和作案時間為一組數(shù)據(jù),而為了估算季節(jié)性,需要在轄區(qū)內(nèi)采集盡可能多的犯罪數(shù)據(jù),這要求時間軸的選擇至少在5年以上。
犯罪行為在集中時間段內(nèi)的大幅增長或減少會表現(xiàn)為異常的數(shù)據(jù)變動,這種變動由于整體數(shù)據(jù)體量龐大而很難被觀察到,需要輔助的監(jiān)測手段。指數(shù)平滑模型不適用于精確監(jiān)測數(shù)據(jù)的大幅度的變化,因此需要將指數(shù)平滑和外推預(yù)測相結(jié)合來應(yīng)對數(shù)據(jù)的異常變動。這種能夠監(jiān)測數(shù)據(jù)的異常變動的機制即信號跟蹤。
信號跟蹤與反事實預(yù)測機制相輔相成,信號跟蹤指標是判斷數(shù)據(jù)是否出現(xiàn)了異常變動的指標,而反事實預(yù)測機制則在模型運行過程中連續(xù)監(jiān)測異動。反事實預(yù)測首先設(shè)定一個變動值,根據(jù)變動值判斷數(shù)據(jù)的變動是否異常,通常是將各時點的時間序列水平值和該模型的時間序列水平終值的差值e作為變動值。其次需要為變動值e設(shè)置一個有效變動范圍,如果e沒有在正常的范圍內(nèi)變動,則判斷變動發(fā)生異常。在幾個連續(xù)的時間內(nèi)累計了一定的異常值后,將觸發(fā)異常跟蹤信號。一個簡單的跟蹤信號計算公式如下:
(4)
其中,CUSUM(Cumulative Sum)為累計的異常信號值,T為所選定時間軸的最后一個時間點,t為時間,w為觸發(fā)了異常跟蹤信號的時間段長度,et為t時間的變動值。
由于現(xiàn)實情況較為復(fù)雜,可能存在較微弱的異常變動,因此在分析區(qū)域犯罪案件情況時,需要強化信號跟蹤機制。如果被研究區(qū)域有分轄區(qū),則需要為每一個分轄區(qū)設(shè)置單獨的衡量標準。這一衡量標準是一個特定的上限值,如果e值超出了這一上限值,則觸發(fā)異常跟蹤信號。計算公式如下:
MADt=β|et|+(1-β)MADt-1
(5)
Et=αet+(1-α)Et
(6)
(7)
其中,MADt為標準差的替代度量值,et為t時間的變動值,Et為總異常變動值,Trigg為得到的異常跟蹤信號值。在本文介紹的CrimeStat軟件中,采用的是Trigg跟蹤信號機制。
在時間序列預(yù)測的計算方法之上,利用統(tǒng)計軟件的時間序列預(yù)測模塊能夠提供更有效的預(yù)測。警方對轄區(qū)內(nèi)的公共安全情況有著自己的經(jīng)驗判斷,加上統(tǒng)計軟件的數(shù)據(jù)處理和犯罪預(yù)測,便可以更科學(xué)地幫助警方作出決策。CrimeStat軟件中有不同的模塊,本文介紹的是時間序列預(yù)測模塊,具體運行如下:
首先啟動CrimeStat軟件,初始界面如圖1所示。以1990至1999年匹茨堡某一區(qū)域犯罪案件的計數(shù)數(shù)據(jù)為例,其中犯罪案件計數(shù)以周為單位。
接著定義各個字段對應(yīng)原始數(shù)據(jù)文件,數(shù)據(jù)單位為尺,時間單位為周。完成初始數(shù)據(jù)的導(dǎo)入工作后,進行時間序列預(yù)測模塊的設(shè)置,定義字段界面如圖2所示。
圖1 CrimeStat初始頁面導(dǎo)入數(shù)據(jù)
圖2 時間序列模塊定義變量
圖3 時間序列模塊模擬運行結(jié)果
事件計數(shù)為犯罪案件數(shù),以每年中的以周為單位的數(shù)據(jù)為一個樣本。選擇Holt平滑指數(shù)對原始數(shù)據(jù)進行平滑處理,另外還需設(shè)置Trigg信號跟蹤的統(tǒng)計系數(shù)α、β和閾值,α設(shè)置為0.9使得跟蹤信號對當前數(shù)據(jù)較為敏感,β設(shè)置為0.15可以起到較穩(wěn)定的平滑作用。運行模塊得到運行結(jié)果如圖3所示,保存統(tǒng)計結(jié)果。該輸出結(jié)果是在最后一個時間段對整個轄區(qū)的掃描結(jié)果,在輸出的統(tǒng)計結(jié)果中可以看到,第14條記錄和第26條記錄發(fā)出了正向信號,意味著這兩個分轄區(qū)有大的增長異動,對于該轄區(qū)的警務(wù)人員來說,可以在下一時間段加強對這兩個轄區(qū)的巡邏或采取預(yù)防性措施。
CrimeStat軟件是一個微型空間統(tǒng)計軟件,可以分析犯罪事件的位置數(shù)據(jù),為犯罪事件的時間和空間分析提供各種工具。傳統(tǒng)的時間序列分析需要多種公式的推算,算法復(fù)雜、用時較長且可能存在較大的誤差。利用軟件的時間序列預(yù)測模塊可以在短時間內(nèi)得到所需的統(tǒng)計結(jié)果,相對傳統(tǒng)時間序列分析更能起到科學(xué)預(yù)測的效果。
CrimeStat軟件易安裝,集成統(tǒng)計分析算法多,使用方便。運行時間序列預(yù)測模塊時的操作步驟主要分為導(dǎo)入數(shù)據(jù)文件、定義參數(shù)變量、平滑指數(shù)和導(dǎo)出統(tǒng)計結(jié)果。在這個過程中,不需要編制算法,對于普通的有計算機基礎(chǔ)的警務(wù)人員來說是簡便易行的。
沒有數(shù)據(jù)技術(shù)介入的環(huán)境下,傳統(tǒng)的安全保障主要依靠警務(wù)人員的經(jīng)驗判斷。普通犯罪行為存在一定的規(guī)律,而對轄區(qū)熟悉的警務(wù)人員能夠在長期積累中得出自己的經(jīng)驗判斷。比如偷盜類案件常發(fā)地點、盜竊案件年末發(fā)案率較其他時間會明顯升高等。CrimeStat軟件重要性就在于,在警務(wù)人員作出經(jīng)驗判斷的同時,給出基于數(shù)據(jù)統(tǒng)計的分析意見,使得警力的分配和資源的配置得到更完善的調(diào)整。
CrimeStat軟件中的時間序列預(yù)測模塊得以有效運行的關(guān)鍵點在于數(shù)據(jù)。正如統(tǒng)計分析建立的基礎(chǔ)在于原始數(shù)據(jù)的導(dǎo)入,時間序列預(yù)測的有效性取決于數(shù)據(jù)的完備程度。對于一個地區(qū)來說,首先在地理上劃分為不同轄區(qū),針對所要掌握控制的具體犯罪案件類型,統(tǒng)計一段時間以來該地區(qū)的案件計數(shù)。若想得出空間分析圖,需要結(jié)合ARCGIS等其他地理信息系統(tǒng)(GIS)軟件處理空間地理數(shù)據(jù)。
由于時間序列預(yù)測基于時間軸,為了達到更有效的預(yù)測效果,需要盡可能長的時間下的歷史數(shù)據(jù)。另外,由于季節(jié)性的調(diào)整存在,一年只能得到一個季節(jié)性數(shù)據(jù),因此統(tǒng)計更需要較長的時間軸。但是時間軸越長,需要收集的案件計數(shù)則越多,原始數(shù)據(jù)的采集、處理和導(dǎo)入存在一定困難。
時間序列預(yù)測模塊運行完成后的結(jié)果輸出有3種結(jié)果,分別是全字段輸出、下一時間段預(yù)測和優(yōu)化的平滑參數(shù)輸出。全字段輸出和下一時間段輸出是主要關(guān)注的輸出結(jié)果,可以看到各個轄區(qū)在當前時間段的信號跟蹤情況和下一時間段的預(yù)測變動情況。但是輸出結(jié)果不能給出精確的預(yù)測值,只能提供一個大概的方向,幫助警力的分配和加強關(guān)注的轄區(qū)建議。時間序列預(yù)測模塊從大體的角度跟蹤某一類型犯罪案件的走勢,針對的是轄區(qū)的公共安全,不能根據(jù)單一案件或特殊案件作出分析,存在著一定的局限性。
本文主要研究的是CrimeStat軟件中的時間序列預(yù)測模塊對轄區(qū)內(nèi)犯罪的預(yù)測,除此之外還有包括空間自相關(guān)、距離分析、熱點分析、空間回歸模型等模塊。這些模塊都能從不同方面對犯罪行徑進行單一或綜合分析,輔助警方判斷。
我們的進一步研究中利用CrimeStat軟件中的核密度估計模型,已經(jīng)對我國某省某城市某區(qū)的歷史交通事故數(shù)據(jù)做了分析,在地理信息系統(tǒng)(GIS)的幫助下得到了預(yù)期的結(jié)果,佐證了CrimeStat軟件模塊對交通數(shù)據(jù)分析的適用性。由于時間序列預(yù)測模型需要較長的時間軸和有序的分布,初步可以從交通數(shù)據(jù)入手進行路網(wǎng)動態(tài)預(yù)測。我國城市交通問題集中體現(xiàn)在交通擁堵方面,對事故的發(fā)生進行分析性預(yù)判有助于疏導(dǎo)路網(wǎng)動態(tài)狀況,及時處理已發(fā)生的交通事故。對于北上廣深等大型城市,交通流量較為龐大,不同時間段和季節(jié)下?lián)碛休^為明顯的規(guī)律,采取時間序列預(yù)測方法輔以地理信息系統(tǒng)(GIS)和百度街區(qū)等技術(shù)綜合應(yīng)用可以得到較理想的成果。此類方法還可以從某區(qū)的分析延伸到某市甚至某省的研究,但數(shù)據(jù)的不斷擴充和龐大,將會從EXCEL的小數(shù)據(jù),延伸到ORACLE大型數(shù)據(jù)庫,以及HBASE等非結(jié)構(gòu)化數(shù)據(jù)存儲的數(shù)據(jù)庫。公共安全大數(shù)據(jù)的不斷集成將對CrimeStat的大數(shù)據(jù)分析能力進行測試。未來還將結(jié)合大型統(tǒng)計編程軟件SAS或R,運用其成熟的統(tǒng)計分析模塊對集成的大數(shù)據(jù)進行分析,迎接大數(shù)據(jù)的挑戰(zhàn)。
結(jié)合CrimeStat軟件中的不同模塊,并采集更全面的數(shù)據(jù),能夠?qū)Σ煌愋偷姆缸镄袨榻⑿枨髮?dǎo)向的數(shù)據(jù)分析模型。我國犯罪案件結(jié)構(gòu)中,盜竊類、危害公共安全類、妨害社會管理秩序類犯罪是突出問題,經(jīng)濟發(fā)展的不平衡也表現(xiàn)為了犯罪類型集中的地域性,亡羊補牢的案件處理方式不利于社會安定。這些傳統(tǒng)的犯罪行為在地理位置上是可追蹤的,其數(shù)據(jù)信息在犯罪信息分析模型中可以被有效處理、合理應(yīng)用、準確預(yù)測。
以地理信息為網(wǎng)絡(luò)的核密度估計分析等模塊和以時間信息為軸線的時間序列預(yù)測分析等模塊通過平行結(jié)合,將實現(xiàn)區(qū)域內(nèi)犯罪行為的準備把握,輔助警方?jīng)Q策和抑制犯罪發(fā)生。在以后的研究中,將會采集更加具有事實性的數(shù)據(jù)模型,拓展模塊應(yīng)用外延,并對犯罪數(shù)據(jù)統(tǒng)計分析進行深入的驗證和拓展,從而有助于優(yōu)化警力分配。
利用統(tǒng)計軟件追蹤犯罪行為在國內(nèi)的應(yīng)用還在不斷探索,相關(guān)的軟件配置和數(shù)據(jù)資源整合還可以不斷發(fā)展。盡管有的地區(qū)公共安全部門正在嘗試利用統(tǒng)計軟件實現(xiàn)對犯罪的預(yù)測,但是得到的預(yù)測效果還可以更好。另外,我國警用地理信息系統(tǒng)(PGIS)在公共安全方面還可以進一步的發(fā)展,主要是結(jié)合空間分析和統(tǒng)計模型等,在這樣的基礎(chǔ)上,犯罪預(yù)測的統(tǒng)計軟件將得到更有效的應(yīng)用。