亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于窗口函數(shù)的公安大數(shù)據(jù)摸排分析算法

        2019-06-03 08:00:06吳忠凱
        關(guān)鍵詞:沈陽(yáng)公安運(yùn)算

        高 碩, 佟 冶, 吳忠凱

        (1.遼寧省公安廳, 遼寧沈陽(yáng) 110035; 2.朝陽(yáng)市公安局, 遼寧朝陽(yáng) 112000)

        0 引言

        黨的十九大就建設(shè)數(shù)字中國(guó)、智慧社會(huì)作出了全面部署。習(xí)近平總書(shū)記強(qiáng)調(diào),大數(shù)據(jù)發(fā)展日新月異,我們應(yīng)該審時(shí)度勢(shì)、精心謀劃、超前布局、力爭(zhēng)主動(dòng),實(shí)施國(guó)家大數(shù)據(jù)戰(zhàn)略,加快建設(shè)數(shù)字中國(guó)。對(duì)于公安信息化來(lái)說(shuō),主要任務(wù)就是讓更多的“警之于前”來(lái)代替“察之于后”,這才是新時(shí)期警察工作在數(shù)字中國(guó)、智慧社會(huì)中的完美體現(xiàn)。

        實(shí)現(xiàn)更多的“警之于前”,就是要改變通過(guò)發(fā)現(xiàn)案件、嫌疑人的目標(biāo)之于后再應(yīng)用數(shù)據(jù)的單一做法,真正實(shí)現(xiàn)基于“大數(shù)據(jù)”發(fā)現(xiàn)目標(biāo)[1],只有這樣才能把“警之于前”做到最好。各級(jí)公安“大數(shù)據(jù)”建設(shè)及應(yīng)用部門(mén)不斷探索,積累經(jīng)驗(yàn)?zāi)P?,充分?yīng)用大數(shù)據(jù)資源,做好預(yù)知、預(yù)防、預(yù)警工作[2]。目前的摸排算法多是基于集合的邏輯運(yùn)算進(jìn)行摸排,算法復(fù)雜度大且不容易理解,容易在實(shí)際使用過(guò)程中造成摸排對(duì)象的遺漏,利用窗口函數(shù)可以更直接地對(duì)模型進(jìn)行描述,且培訓(xùn)和理解更加簡(jiǎn)單。

        1 常規(guī)公安“大數(shù)據(jù)”應(yīng)用算法

        算法就是對(duì)解題方案準(zhǔn)確而完整的描述,公安實(shí)戰(zhàn)單位提出的所有業(yè)務(wù)模型,都是用特定的算法來(lái)解決,進(jìn)而算法的特征也就是業(yè)務(wù)模型的特征,具體包括:可行性、有窮性、確定性、輸入、輸出。而近些年主流的算法任務(wù)和方向主要包括:一是數(shù)據(jù)分析處理工作。支撐刑偵、治安、禁毒、經(jīng)偵、國(guó)保、反恐等警種部門(mén),提供已知的數(shù)據(jù),對(duì)其進(jìn)行分類(lèi)匯總、透視、關(guān)聯(lián)比對(duì)分析、統(tǒng)計(jì)等,按照警種要求進(jìn)行反饋結(jié)果。二是數(shù)據(jù)摸排[3]比對(duì)工作。相關(guān)警種提供業(yè)務(wù)模型,依托現(xiàn)有大數(shù)據(jù)資源庫(kù),解讀模型,編制高效的算法,為所提供的模型得出結(jié)果,后續(xù)可以固化模型,直接在系統(tǒng)前臺(tái)調(diào)取。三是數(shù)據(jù)戰(zhàn)略預(yù)警工作。分析案件形勢(shì),支撐打擊整治工作,如5類(lèi)侵才案件,8類(lèi)高發(fā)案件,高危地區(qū)人員等全省分布情況,破案情況,打擊處理情況等進(jìn)行支撐分析。在以上3類(lèi)中,第二類(lèi)數(shù)據(jù)摸排比對(duì)工作對(duì)算法的復(fù)雜度要求是最高的,主要應(yīng)用的是SQL結(jié)構(gòu)化查詢語(yǔ)言[4],一個(gè)完整的算法的實(shí)現(xiàn),要求大數(shù)據(jù)應(yīng)用民警具備以下能力:一是SQL基本語(yǔ)法是基礎(chǔ);二是公安業(yè)務(wù)數(shù)據(jù)應(yīng)該深刻掌握,所有的需求模型都離不開(kāi)公安業(yè)務(wù),用業(yè)務(wù)思路來(lái)理解數(shù)據(jù)的邏輯結(jié)構(gòu);三是關(guān)系表中的集合運(yùn)算是分析業(yè)務(wù)模型的關(guān)鍵;四是查詢條件的設(shè)置決定整個(gè)數(shù)據(jù)分析的效率;五是去除重復(fù)數(shù)據(jù)是確定正確關(guān)系的前提;六是聚合函數(shù)[5]是最常規(guī)的數(shù)據(jù)分析手段。熟練掌握以上六項(xiàng)技能,則具備常規(guī)公安“大數(shù)據(jù)”算法編制工作能力。

        3 集合運(yùn)算實(shí)現(xiàn)數(shù)據(jù)摸排算法弊端

        為便于理解常規(guī)的模型運(yùn)算,列舉如下業(yè)務(wù)模型:圈定一類(lèi)特殊人員,他(她)們一般從家中乘坐火車(chē)出發(fā),到出差地出幾天差,然后乘坐火車(chē)返回原地。試找出一段時(shí)間內(nèi)(2018年上半年)乘火車(chē)到沈陽(yáng)出差4~7天,中途無(wú)火車(chē)離開(kāi)信息,然后乘坐火車(chē)返回原地,并且在沈陽(yáng)期間有住宿記錄的商旅人員,輸出身份號(hào)碼。

        此模型調(diào)取的人員同上半年沈陽(yáng)高發(fā)、連發(fā)、多發(fā)、新發(fā)案件分布情況一并分析,對(duì)于刑偵部門(mén)偵破案件和后續(xù)預(yù)防具有重大意義(有時(shí)也可以把旅館條件去掉,來(lái)擴(kuò)充人員)。為了便于算法的理解,調(diào)取數(shù)據(jù)需要注意的是:到沈陽(yáng)指的是站名里面包含沈陽(yáng)字樣的(減少?gòu)?fù)雜度不考慮蘇家屯站的情況,如需全面考慮,則需要參照城市與火車(chē)站名對(duì)照表),返回原地指的是火車(chē)站名也要完全一致,出差4~7天指的是離開(kāi)沈陽(yáng)火車(chē)日期減去到達(dá)沈陽(yáng)火車(chē)日期在3~6日之間(含3和6)。

        常規(guī)集合運(yùn)算算法思路如下:

        (1)調(diào)取指定時(shí)段內(nèi)(業(yè)務(wù)模型要求的時(shí)段)到站包含沈陽(yáng)二字的火車(chē)乘車(chē)數(shù)據(jù),形成集合;

        (2)調(diào)取指定時(shí)段內(nèi)發(fā)站包含沈陽(yáng)二字的火車(chē)乘車(chē)數(shù)據(jù),形成集合;

        (3)將(1)、(2)兩部分?jǐn)?shù)據(jù)做交集,條件是:a、證件號(hào)碼相等,b、(2)與(1)的發(fā)車(chē)時(shí)間差為3~6天,c、(1)的發(fā)站與(2)的到站站名相等,得到交集結(jié)果;

        (4)將(3)的結(jié)果再與沈陽(yáng)的旅館數(shù)據(jù)做交集,條件是:a、證件號(hào)碼相等,b、是沈陽(yáng)轄區(qū)的旅館數(shù)據(jù),c、入住時(shí)間在兩個(gè)購(gòu)票時(shí)間段內(nèi)。

        4部分如圖1所示。

        算法分析:對(duì)于常規(guī)的數(shù)據(jù)摸排比對(duì),集合運(yùn)算都能發(fā)揮其準(zhǔn)確的摸排結(jié)果,但是對(duì)于當(dāng)前的業(yè)務(wù)模型,采用上述的算法,不能達(dá)到預(yù)期,將部分臟數(shù)據(jù)納入了所求結(jié)果中,比如:該人“張三”的數(shù)據(jù),也在所求結(jié)果之中,“張三”原始表數(shù)據(jù)如表1所示。

        表1 “張三”原始表數(shù)據(jù)

        以上表格中對(duì)應(yīng)的“張三”共計(jì)4條數(shù)據(jù)(假設(shè)旅館數(shù)據(jù)滿足條件),按照前面給出的算法,張三已在所求的結(jié)果之中,但是對(duì)于業(yè)務(wù)模型來(lái)講,張三不是要摸排的人員,因?yàn)樗谥付〞r(shí)段內(nèi)來(lái)過(guò)兩次“沈陽(yáng)”,第一次逗留一天,第二次也逗留一天,不滿足停留“到沈陽(yáng)出差4~7天”這個(gè)條件,恰恰是第三步的集合運(yùn)算,采用笛卡爾積的方式,實(shí)現(xiàn)了第四條數(shù)據(jù)與第一條數(shù)據(jù)的時(shí)間差為4,滿足條件,但是第四條數(shù)據(jù)與第一條數(shù)據(jù)求差是無(wú)意義的操作,此操作隱藏在第三步的集合操作之中,類(lèi)似某人的第六條與第一條,第八條與第三條等都是非法操作,所以算法的隱藏錯(cuò)誤深刻的顯現(xiàn)出來(lái),將表中這一類(lèi)數(shù)據(jù)刪除,才能得到正確的結(jié)果。采用集合操作并將這樣的“數(shù)據(jù)對(duì)”刪除,緊接著上述第四步之后補(bǔ)充算法如下:

        (5)調(diào)取指定時(shí)段內(nèi)到站包含沈陽(yáng)二字或發(fā)站包含沈陽(yáng)二字的火車(chē)乘車(chē)數(shù)據(jù),形成集合。

        (6)將(4)、(5)兩部分?jǐn)?shù)據(jù)做交集,條件是:a、證件號(hào)碼相等,b、(5)的發(fā)車(chē)時(shí)間在(4)的“3到6天”之內(nèi),形成集合,由于特殊條件限制,代碼實(shí)現(xiàn)過(guò)程中(4)、(5)直接做減法不容易操作。

        (7)將(4)的結(jié)果與(6)進(jìn)行差運(yùn)算,得出正確結(jié)果。

        補(bǔ)充步驟如圖2所示,深色區(qū)域?yàn)樗蟆?/p>

        圖2 常規(guī)集合運(yùn)算算法

        4 應(yīng)用窗口函數(shù)支撐公安業(yè)務(wù)的優(yōu)勢(shì)

        窗口函數(shù)[6]:窗口函數(shù)也是作用于一個(gè)數(shù)據(jù)集合。窗口是標(biāo)準(zhǔn)SQL術(shù)語(yǔ),用來(lái)描述SQL語(yǔ)句內(nèi)用OVER子句劃定的內(nèi)容,這個(gè)內(nèi)容就是窗口函數(shù)的作用域。在對(duì)大量公安結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析時(shí),數(shù)據(jù)應(yīng)用部門(mén)越來(lái)越多地利用這些函數(shù)對(duì)解決方案進(jìn)行優(yōu)化,用這些窗口函數(shù)來(lái)取代哪些依賴更古老、傳統(tǒng)的語(yǔ)言結(jié)構(gòu)解決方案,結(jié)果更加簡(jiǎn)單和高效,效果是非常明顯的,所以我們現(xiàn)在的大部分查詢解決方案,都用窗口函數(shù)來(lái)完成。在實(shí)際應(yīng)用中,除了已有的聚合函數(shù)外,還包括3類(lèi)函數(shù):排名函數(shù)、分布函數(shù)、偏移函數(shù)[7]。其中排名函數(shù)主要包括:RANK、DENSE_RANK、ROW_NUMBER、NTILE,分布函數(shù)主要包括:PERCENT_RANK、CUME_DIST、PERCENTILE_CONT、PERCENTILE_DISC,偏移函數(shù)包括:LAG、LEAD、FIRST_VALUE、LAST_VALUE、NTH_VALUE。為支撐公安實(shí)戰(zhàn)研判需要,現(xiàn)對(duì)上述利用集合運(yùn)算實(shí)現(xiàn)的算法進(jìn)行改進(jìn),應(yīng)用窗口函數(shù),無(wú)笛卡爾積操作,在時(shí)間性能上更加簡(jiǎn)單和高效,為深刻體現(xiàn)效果,采用阿里巴巴大數(shù)據(jù)分析平臺(tái),開(kāi)窗偏移后數(shù)據(jù)表現(xiàn)形式(見(jiàn)表2)和SQL查詢實(shí)現(xiàn)代碼如下。

        表2 開(kāi)窗偏移后數(shù)據(jù)表現(xiàn)形式

        商旅人員圈定運(yùn)用窗口函數(shù)算法

        摸排分析總結(jié):窗口函數(shù)是解決這一類(lèi)問(wèn)題的法寶,本模型需要將發(fā)站和到站進(jìn)行向下偏移,按照證件號(hào)碼排序,每條記錄里面包含了該人的相鄰記錄(由偏移后所得),最關(guān)鍵的是通過(guò)partition by 關(guān)鍵字來(lái)進(jìn)行分區(qū)(身份證號(hào)),通過(guò)order by進(jìn)行排序(發(fā)車(chē)時(shí)間)。通過(guò)二次條件篩選再確定來(lái)沈陽(yáng)和從沈陽(yáng)走的人,開(kāi)窗之后,應(yīng)用該結(jié)果限定從“某個(gè)”地方來(lái)沈陽(yáng)且又回到這“某個(gè)”地方去,“某個(gè)”為同一站名,天數(shù)相減:3~6天,即所求的4~7天,在與旅館表進(jìn)行關(guān)聯(lián)的時(shí)候,時(shí)間直接用字符串比較即可,但是旅館表中數(shù)據(jù)應(yīng)該是“沈陽(yáng)”區(qū)劃的旅館數(shù)據(jù),即行政區(qū)劃為“2101”開(kāi)頭。

        窗口函數(shù)最大的優(yōu)點(diǎn)是實(shí)現(xiàn)分區(qū)后,并未改變記錄的數(shù)目,實(shí)現(xiàn)部分字段的聚合、偏移等操作,編制算法的最核心內(nèi)容就是應(yīng)用哪些函數(shù)并以什么內(nèi)容進(jìn)行分區(qū),而研判分析人員最需要打基礎(chǔ)的是對(duì)業(yè)務(wù)工作和數(shù)據(jù)表的掌握,如業(yè)務(wù)詞匯表、元數(shù)據(jù)、主數(shù)據(jù)做到如數(shù)家珍,應(yīng)用窗口函數(shù)后則能發(fā)揮出更大的價(jià)值,實(shí)現(xiàn)精準(zhǔn)的高危預(yù)警。針對(duì)當(dāng)前算法,采用集合運(yùn)算與窗口函數(shù)對(duì)比復(fù)雜情況見(jiàn)表3。

        表3 集合運(yùn)算與窗口函數(shù)復(fù)雜度對(duì)比表

        以上窗口函數(shù)是采用偏移函數(shù)實(shí)現(xiàn)的,除了偏移函數(shù)外,其他類(lèi)別的函數(shù)也發(fā)揮重要價(jià)值,如調(diào)取一段時(shí)間內(nèi)鐵路數(shù)據(jù),摸排同一車(chē)次內(nèi)同一車(chē)廂有同鄉(xiāng)人10名(不包含10名)以上且其中有2人以上(含)有違法前科,輸出全部人員證件信息,其中同鄉(xiāng)的條件是指身份證號(hào)碼前4位相同,SQL查詢實(shí)現(xiàn)代碼如下:

        同車(chē)同鄉(xiāng)違法人員預(yù)警運(yùn)用窗口函數(shù)算法

        摸排分析總結(jié):實(shí)現(xiàn)模型結(jié)果的巧妙之處就是利用兩次窗口函數(shù)[8],為最終的結(jié)果設(shè)計(jì)中間過(guò)程,最終得出查詢結(jié)果。窗口函數(shù)的價(jià)值就是待查詢的身份證與PARTITION BY后的分區(qū)數(shù)據(jù)并存展示,體現(xiàn)了分區(qū)和分組的最大區(qū)別,因?yàn)檫@種并存方式,更有利于各種公安業(yè)務(wù)模型的實(shí)現(xiàn)。

        5 結(jié)語(yǔ)

        當(dāng)前公安數(shù)據(jù)摸排與分析最常見(jiàn)的是3類(lèi)主數(shù)據(jù):人員、車(chē)輛、電話。這3類(lèi)主數(shù)據(jù)的主屬性分別是:身份證號(hào)碼、車(chē)牌號(hào)碼、電話號(hào)碼。在實(shí)際應(yīng)用過(guò)程中,這3類(lèi)數(shù)據(jù)最終都是對(duì)人的研判與分析,圍繞這3種數(shù)據(jù)形成所有感知類(lèi)數(shù)據(jù)包括:話單、車(chē)軌、旅館、網(wǎng)吧、航班、鐵路、客運(yùn)、水運(yùn)等。這些數(shù)據(jù)分類(lèi)別匯集,實(shí)時(shí)價(jià)值重要,而在分析個(gè)體特征時(shí),需要根據(jù)個(gè)體的主屬性分區(qū),按照感知時(shí)間排序,所有行為特征根據(jù)“時(shí)間軸獨(dú)立展示”,而窗口函數(shù)的優(yōu)勢(shì)就是在“時(shí)間軸獨(dú)立展示”后發(fā)揮特定的價(jià)值,經(jīng)過(guò)偏移函數(shù)增加新的字段后,則更能達(dá)到預(yù)期目的,使得算法更加簡(jiǎn)潔、清晰,窗口函數(shù)的靈活運(yùn)用,大大提升了警務(wù)技術(shù)研判團(tuán)隊(duì)服務(wù)實(shí)戰(zhàn)的能力,能在更短的時(shí)間內(nèi)直觀高效地排查出所需要的結(jié)果,且運(yùn)算過(guò)程直接容易理解,大大減少了學(xué)習(xí)的復(fù)雜度和出錯(cuò)率,本文在論述過(guò)程中以常規(guī)的集合運(yùn)算實(shí)現(xiàn)算法為基礎(chǔ),不斷改進(jìn),最終實(shí)現(xiàn)了一種基于窗口函數(shù)的公安大數(shù)據(jù)摸排算法,總結(jié)出窗口函數(shù)替代復(fù)雜算法的魅力之處。在公安大數(shù)據(jù)分析建模工作不斷發(fā)展的今天,做好基于數(shù)據(jù)發(fā)現(xiàn)目標(biāo)的復(fù)雜工作,將公安機(jī)關(guān)治理的對(duì)象進(jìn)行完整的模型化、數(shù)字化、可視化,達(dá)到認(rèn)知高度后并付諸行動(dòng),在模型算法探索過(guò)程中形成一個(gè)新的樣本、新的范式。

        猜你喜歡
        沈陽(yáng)公安運(yùn)算
        重視運(yùn)算與推理,解決數(shù)列求和題
        “老公安”的斂財(cái)“利器”
        有趣的運(yùn)算
        沈陽(yáng)分店
        藝術(shù)品(2019年9期)2019-10-26 06:42:14
        沈陽(yáng)分店
        藝術(shù)品(2019年4期)2019-05-30 04:45:38
        Study on the harmony between human and nature in Walden
        “10歲當(dāng)公安”為何能暢通無(wú)阻
        “整式的乘法與因式分解”知識(shí)歸納
        撥云去“誤”學(xué)乘除運(yùn)算
        公安報(bào)道要有度
        新聞傳播(2016年20期)2016-07-10 09:33:31
        亚洲综合一区二区三区久久| 欧美多毛肥胖老妇做爰| 国产麻豆一精品一AV一免费软件| 亚洲春色视频在线观看| 国产乱码精品一区二区三区久久| 欧美另类人妖| 少妇高潮喷水久久久影院| 国产一区二区三区最新视频| 亚洲精品国产亚洲av| 放荡的少妇2欧美版| 欧美白人最猛性xxxxx| 亚洲人成绝费网站色www| 亚洲精品国产一区二区免费视频| 乱中年女人伦av三区| 五月天精品视频在线观看| 亚洲AV秘 无码一区二区久久| 在线观看一区二区中文字幕| 国产永久免费高清在线| 久久综合第一页无码| 伊人久久婷婷综合五月97色| 久久精品人搡人妻人少妇| 国产一区二区波多野结衣| 91香蕉视频网| 伊人久久综合狼伊人久久| 成熟了的熟妇毛茸茸| 18禁高潮出水呻吟娇喘蜜芽| 日韩精品视频在线观看免费| 91精品国产综合久久精品密臀| 天天摸夜夜摸摸到高潮| 国产精品无码精品久久久| 国语对白三级在线观看| 国产av无码专区亚洲av男同| 在教室伦流澡到高潮hgl视频| аⅴ天堂一区视频在线观看| 国产午夜精品视频在线观看| 国产精品国三级国产av| 在线免费观看国产精品| 亚洲女同av一区二区在线观看| 影音先锋久久久久av综合网成人| 亚洲国产av导航第一福利网| 欧美h久免费女|