◆胡 杰
(中國(guó)電子科技集團(tuán)公司第二十八研究所 江蘇 210007)
公安領(lǐng)域大數(shù)據(jù)安全探討
◆胡 杰
(中國(guó)電子科技集團(tuán)公司第二十八研究所 江蘇 210007)
本文從大數(shù)據(jù)在公共安全領(lǐng)域的應(yīng)用展開(kāi)討論,重點(diǎn)分析了公共安全領(lǐng)域在大數(shù)據(jù)安全方面所面臨的挑戰(zhàn),從這些挑戰(zhàn)出發(fā)研究大數(shù)據(jù)安全相關(guān)的關(guān)鍵技術(shù),并基于這些關(guān)鍵技術(shù)提出了對(duì)應(yīng)的解決思路。
公共安全;大數(shù)據(jù)安全;隱私保護(hù);數(shù)據(jù)訪問(wèn)控制
隨著互聯(lián)網(wǎng)技術(shù)與社會(huì)信息化的快速發(fā)展,整個(gè)社會(huì)積累的數(shù)據(jù)處于爆炸式增長(zhǎng)狀態(tài)。在公共安全領(lǐng)域,除了人員、單位、戶籍、車(chē)輛等大量的基礎(chǔ)數(shù)據(jù)外,還要面對(duì)案件、接處警、出入境等各類(lèi)爆發(fā)式增長(zhǎng)的數(shù)據(jù),而且數(shù)據(jù)類(lèi)型從單一的結(jié)構(gòu)化數(shù)據(jù)向圖像、音頻、視頻等非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)變,如何有效地處理這些海量數(shù)據(jù)成為公安部門(mén)亟需的難題。
面對(duì)當(dāng)前挑戰(zhàn),目前各個(gè)城市公安部門(mén)正逐步開(kāi)展大數(shù)據(jù)中心的建設(shè),在大數(shù)據(jù)中心建設(shè)過(guò)程中,不僅要解決資金、技術(shù)、思維模式等方面的問(wèn)題,大數(shù)據(jù)安全也是其中一個(gè)重要的關(guān)鍵問(wèn)題。本文從公共安全大數(shù)據(jù)的存儲(chǔ)、處理、使用等角度,著重分析與探討公安領(lǐng)域的大數(shù)據(jù)安全問(wèn)題。
目前大數(shù)據(jù)并沒(méi)有一個(gè)特別準(zhǔn)確和公認(rèn)的定義,通常認(rèn)為規(guī)模龐大且結(jié)構(gòu)復(fù)雜、無(wú)法采用傳統(tǒng)的數(shù)據(jù)庫(kù)系統(tǒng)或數(shù)據(jù)管理工具進(jìn)行處理的數(shù)據(jù)集合即為大數(shù)據(jù)[1]。人們通常使用四個(gè)“V”來(lái)形容大數(shù)據(jù),即更大的容量(Volume)、更多樣的結(jié)構(gòu)(Variety)、更快的生成速度(Velocity),以及更高的價(jià)值(Value)[2]。
大數(shù)據(jù)應(yīng)用與各個(gè)行業(yè)的具體業(yè)務(wù)密切關(guān)聯(lián),它在互聯(lián)網(wǎng)、醫(yī)療、金融、公共安全等不同領(lǐng)域的應(yīng)用存在巨大的差異,這里主要?dú)w納一下公共安全領(lǐng)域的應(yīng)用目標(biāo):
(1)犯罪規(guī)律分析與挖掘
通過(guò)面向數(shù)據(jù)全集的分析與挖掘,幫助公安人員從大量原始的、參雜噪聲的各類(lèi)社會(huì)與犯罪數(shù)據(jù)中獲取知識(shí),使公安人員從紛繁復(fù)雜的犯罪現(xiàn)象找出內(nèi)在的規(guī)律,從而指導(dǎo)公安人員進(jìn)行案件的研判與偵破。典型的應(yīng)用案例是刑偵案件的串并分析,通過(guò)對(duì)案件類(lèi)型、嫌疑人員、涉案物品、線索等進(jìn)行特征提取與綜合分析,利用關(guān)聯(lián)、聚類(lèi)等方法并結(jié)合串并規(guī)則,計(jì)算出多個(gè)同類(lèi)案件之間的相似度,向案件偵辦人員提供串并案處理建議。
(2)犯罪預(yù)警預(yù)測(cè)
大數(shù)據(jù)在公共安全領(lǐng)域另一個(gè)重要應(yīng)用就是犯罪的預(yù)警預(yù)測(cè),目前國(guó)內(nèi)外打擊犯罪的發(fā)展趨勢(shì)是由被動(dòng)反應(yīng)轉(zhuǎn)為主動(dòng)出擊,即在出現(xiàn)犯罪苗頭時(shí)及時(shí)采取處置行動(dòng)減少或消滅犯罪發(fā)生的概率,而不是等到犯罪行為發(fā)生后采取應(yīng)對(duì)行動(dòng)或應(yīng)急響應(yīng)措施。犯罪預(yù)警預(yù)測(cè)通過(guò)對(duì)公共安全相關(guān)海量信息的分析和研究,應(yīng)用大數(shù)據(jù)處理和數(shù)據(jù)挖掘的方法,及時(shí)發(fā)現(xiàn)和識(shí)別潛在的公共安全危機(jī)并提前采取相應(yīng)的預(yù)防措施。
對(duì)于公共安全領(lǐng)域而言,大數(shù)據(jù)在提高案件偵破率、降低犯罪率的同時(shí),也面臨著相關(guān)的安全問(wèn)題,下面分別從隱私保護(hù)、數(shù)據(jù)訪問(wèn)控制、數(shù)據(jù)可信性等方面分析公共安全大數(shù)據(jù)的安全問(wèn)題[3]。
在商業(yè)尤其是互聯(lián)網(wǎng)領(lǐng)域,大數(shù)據(jù)環(huán)境下用戶隱私的保護(hù)一直是被廣泛關(guān)注的問(wèn)題。但對(duì)于公安部門(mén)而言,用戶隱私的保護(hù)并不是一個(gè)新出現(xiàn)的挑戰(zhàn),早在大數(shù)據(jù)出現(xiàn)之前公安部門(mén)就掌握了公民的部分隱私,并且公安部門(mén)對(duì)公民隱私的保護(hù)一直有著嚴(yán)格的法律約束,只不過(guò)隨著大數(shù)據(jù)技術(shù)的發(fā)展,公安部門(mén)掌握的公民信息更加豐富,已經(jīng)逐步擴(kuò)大到人們生活的方方面面。因此,從這個(gè)角度來(lái)看,公共安全領(lǐng)域的隱私保護(hù)相對(duì)容易,不必過(guò)多關(guān)注數(shù)據(jù)的匿名處理、數(shù)據(jù)生命周期的制定、人工加擾等技術(shù)手段,更多工作的應(yīng)當(dāng)是放在制定嚴(yán)格完善的隱私保護(hù)制度并予以落實(shí)。
數(shù)據(jù)訪問(wèn)控制是實(shí)現(xiàn)數(shù)據(jù)安全保護(hù)的重要手段,長(zhǎng)期以來(lái)公安部門(mén)按照條塊化進(jìn)行業(yè)務(wù)劃分,導(dǎo)致不同類(lèi)型數(shù)據(jù)分別由各自的業(yè)務(wù)主管部門(mén)管理。然而,大數(shù)據(jù)的分析挖掘需要建立在跨部門(mén)海量數(shù)據(jù)的基礎(chǔ)上,這就需要打破現(xiàn)有數(shù)據(jù)按業(yè)務(wù)部門(mén)劃分的格局,既要實(shí)現(xiàn)公安數(shù)據(jù)的共享訪問(wèn),又要滿足部分敏感數(shù)據(jù)的有效保護(hù),這對(duì)數(shù)據(jù)的訪問(wèn)控制提出很高的要求。
一方面,公安機(jī)關(guān)的許多部門(mén)都有大數(shù)據(jù)分析挖掘的需要,角色的定義與劃分存在較大的難度,直接將管理員角色分配給部門(mén)用戶存在較大的安全隱患;另一方面,即便完成了角色的定義,由于大數(shù)據(jù)分析挖掘的開(kāi)放性和未知性,該角色具體擁有哪些數(shù)據(jù)的訪問(wèn)權(quán)限也無(wú)法準(zhǔn)確定義。
數(shù)據(jù)分析挖掘的結(jié)果好壞取決于數(shù)據(jù)本身的質(zhì)量,這其中數(shù)據(jù)的真實(shí)性、可信性是影響數(shù)據(jù)分析結(jié)果的重要因素。就公共安全領(lǐng)域而言,其數(shù)據(jù)可信性的挑戰(zhàn)主要體現(xiàn)在以下3個(gè)方面:
(1)數(shù)據(jù)偽造
在互聯(lián)網(wǎng)領(lǐng)域,許多不良商家常常利用“刷單”和虛假評(píng)論提高商品的銷(xiāo)量。與此類(lèi)似,隨著反偵察意識(shí)的增強(qiáng),犯罪分子也會(huì)在犯罪現(xiàn)場(chǎng)偽造或消除留下的痕跡,并且在日常生活中盡可能避免留下痕跡或暴露其活動(dòng)軌跡,因此會(huì)造成數(shù)據(jù)的缺失甚至是虛假數(shù)據(jù)隱匿在真實(shí)數(shù)據(jù)中,誤導(dǎo)偵查人員的判斷。
(2)數(shù)據(jù)錄入缺失
數(shù)據(jù)錄入缺失是導(dǎo)致數(shù)據(jù)質(zhì)量低下的重要原因,尤其是公安的基層民警由于日常事務(wù)繁重,對(duì)于一些微小、非重大案件的錄入往往缺乏嚴(yán)謹(jǐn)性,主要表現(xiàn)在對(duì)案件的一些具體特征未予準(zhǔn)確指定,或者在需要進(jìn)行文字錄入的部分(比如案情)沒(méi)有詳細(xì)描述。但根據(jù)實(shí)際經(jīng)驗(yàn)來(lái)看,一些重大案件的涉案人員在前期都發(fā)生過(guò)小的案件,如果這些歷史案件的錄入數(shù)據(jù)足夠具體詳實(shí),就可以通過(guò)案件串并技戰(zhàn)法提高案件的偵破效率[4]。
(3)數(shù)據(jù)失真
數(shù)據(jù)失真往往會(huì)造成數(shù)據(jù)分析結(jié)果出現(xiàn)嚴(yán)重的偏差,造成數(shù)據(jù)失真的原因既存在客觀因素也存在主觀因素:首先,在前期的數(shù)據(jù)采集過(guò)程中,就可能由于人為責(zé)任心和測(cè)量誤差導(dǎo)致數(shù)據(jù)失真或偏差;其次,已經(jīng)進(jìn)入信息系統(tǒng)的正確數(shù)據(jù)也會(huì)因?yàn)闀r(shí)間的推移或外部信息的更新而出現(xiàn)失真,比如行政劃區(qū)、道路地址等信息都可能發(fā)生變更;最后,在將紙質(zhì)歷史數(shù)據(jù)導(dǎo)入信息化系統(tǒng)時(shí),由于技術(shù)實(shí)現(xiàn)方面的原因也會(huì)出現(xiàn)一定的數(shù)據(jù)失真,原始數(shù)據(jù)在進(jìn)行清洗、格式化轉(zhuǎn)換過(guò)程中也會(huì)導(dǎo)致數(shù)據(jù)失真。
對(duì)于公共安全領(lǐng)域而言,由于大數(shù)據(jù)的隱私保護(hù)主要體現(xiàn)在相關(guān)制度的制定與完善,作為政府的行政事務(wù)這里不展開(kāi)討論,下面主要從數(shù)據(jù)訪問(wèn)控制、數(shù)據(jù)可信性分析相關(guān)的技術(shù)與解決思路。
基于角色的訪問(wèn)控制(RBAC)通常采用自頂向下的設(shè)計(jì)模式[5],即首先根據(jù)部門(mén)的職責(zé)分工定義相應(yīng)的角色,然后授予各個(gè)角色相應(yīng)的訪問(wèn)權(quán)限,最后給不同的用戶分配不同的角色。然而在大數(shù)據(jù)環(huán)境下,這種自頂向下的設(shè)計(jì)模式由于角色的過(guò)度交叉、訪問(wèn)權(quán)限的不明確而變得困難。
角色挖掘技術(shù)是當(dāng)前數(shù)據(jù)訪問(wèn)控制新的發(fā)展方向,與傳統(tǒng)的RBAC權(quán)限管理不同,角色挖掘是一種自底向上的權(quán)限管理設(shè)計(jì)模式,它通過(guò)對(duì)用戶權(quán)限的聚類(lèi)、歸并等算法分析,自動(dòng)實(shí)現(xiàn)角色的提取與優(yōu)化,具體包括用戶權(quán)限二維圖的排序歸并,權(quán)限子集的枚舉與聚類(lèi)、形式化語(yǔ)義分析與層次挖掘等?;诮巧诰虻臄?shù)據(jù)訪問(wèn)控制可以根據(jù)用戶的數(shù)據(jù)訪問(wèn)記錄自動(dòng)生成角色,從而在已定義的固定角色權(quán)限的基礎(chǔ)上,智能地為多個(gè)用戶提供個(gè)性化的數(shù)據(jù)訪問(wèn)權(quán)限[6]。
因此,在公共安全領(lǐng)域大數(shù)據(jù)中心建設(shè)中,用戶權(quán)限管理可以從兩個(gè)方面入手:首先,根據(jù)公安各業(yè)務(wù)部門(mén)的職責(zé)和數(shù)據(jù)管理權(quán)限,初步制定一個(gè)固定的角色權(quán)限表;其次,系統(tǒng)建設(shè)初期針對(duì)非敏感數(shù)據(jù)向各部門(mén)的管理員放開(kāi)權(quán)限控制,通過(guò)各部門(mén)管理員用戶的數(shù)據(jù)訪問(wèn)記錄,利用角色挖掘技術(shù)發(fā)現(xiàn)和設(shè)置合理的角色分配。
對(duì)于大數(shù)據(jù)中的數(shù)據(jù)可信性問(wèn)題,目前主要的技術(shù)解決手段包括數(shù)字水印技術(shù)和數(shù)據(jù)溯源技術(shù),下面分別就這兩種的技術(shù)展開(kāi)介紹。
(1)數(shù)字水印技術(shù)
數(shù)字水印作為多媒體數(shù)據(jù)版權(quán)保護(hù)的成熟技術(shù)手段,已經(jīng)被廣泛應(yīng)用到數(shù)字文學(xué)、醫(yī)學(xué)、法律等各個(gè)行業(yè)領(lǐng)域。數(shù)字水印技術(shù)是在保證多媒體數(shù)據(jù)質(zhì)量的前提下,以難以察覺(jué)的方法將數(shù)據(jù)、圖像等標(biāo)志嵌入到多媒體數(shù)據(jù)中,當(dāng)多媒體數(shù)據(jù)遭到篡改時(shí),可以將該水印標(biāo)志提取處理用于判斷數(shù)據(jù)的真?zhèn)蝃7]。
在大數(shù)據(jù)環(huán)境下,需要進(jìn)行數(shù)字水印處理的不僅僅是視頻、圖像等多媒體數(shù)據(jù),還包括數(shù)據(jù)庫(kù)、文本等對(duì)精度誤差敏感的數(shù)據(jù)。由于視頻、圖像等多媒體數(shù)據(jù)的水印技術(shù)相對(duì)成熟,這里不展開(kāi)討論,下面主要分析數(shù)據(jù)庫(kù)與文本2種數(shù)據(jù)的數(shù)字水印處理:對(duì)于數(shù)據(jù)庫(kù)而言,可以通過(guò)修改部分?jǐn)?shù)值型數(shù)據(jù)的小數(shù)點(diǎn)后若干位,或者直接將水印嵌入到某個(gè)屬性數(shù)據(jù)中來(lái)實(shí)現(xiàn)數(shù)據(jù)的防篡改保護(hù);對(duì)于文本而言,可以通過(guò)文檔結(jié)構(gòu)微調(diào)、特殊符號(hào)修改等方式實(shí)現(xiàn)水印的嵌入,具體包括調(diào)整文本的字符間距、行間距、增加空格等。
(2)數(shù)據(jù)溯源技術(shù)
數(shù)據(jù)溯源技術(shù)最早應(yīng)用于數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域,主要用于追溯數(shù)據(jù)倉(cāng)庫(kù)中各項(xiàng)數(shù)據(jù)的來(lái)源,它是對(duì)目標(biāo)數(shù)據(jù)衍生前的原始數(shù)據(jù)以及演變過(guò)程的描述[8]。數(shù)據(jù)溯源最常用的方法為標(biāo)注法和反向查詢法,此外還包括數(shù)據(jù)追蹤法、雙向指針追蹤法、位向量存儲(chǔ)定位法等。常用的數(shù)據(jù)溯源模型包括流溯源信息模型、時(shí)間-值中心溯源模型、四維溯源模型、數(shù)據(jù)溯源安全模型等。
在大數(shù)據(jù)環(huán)境下,由于用戶積累的數(shù)據(jù)具有數(shù)據(jù)規(guī)模大、處理速度要求高等特點(diǎn),因此需要選擇諸如時(shí)間-值中心溯源、四維溯源等支持高容量處理的模型;而在數(shù)據(jù)溯源方法選擇上,雖然標(biāo)注法實(shí)現(xiàn)簡(jiǎn)單、易于管理,但無(wú)法適應(yīng)大數(shù)據(jù)環(huán)境下海量數(shù)據(jù)的處理,因此需要選擇基于逆置函數(shù)的反向查詢法,從而滿足數(shù)據(jù)溯源的處理效率要求。
大數(shù)據(jù)作為近年來(lái)新興的技術(shù),為公共安全領(lǐng)域信息化建設(shè)帶來(lái)了新的技術(shù)解決方案,但是大數(shù)據(jù)安全也是大數(shù)據(jù)發(fā)展中必須解決的問(wèn)題。本文從隱私保護(hù)、數(shù)據(jù)訪問(wèn)控制、數(shù)據(jù)可信性等方面出發(fā),梳理了公共安全領(lǐng)域所面臨的大數(shù)據(jù)安全挑戰(zhàn),并進(jìn)一步探討了解決這些問(wèn)題所涉及的關(guān)鍵技術(shù)。當(dāng)前,國(guó)內(nèi)公安領(lǐng)域大數(shù)據(jù)安全的發(fā)展水平與實(shí)際需求還存在一定的差距,需要進(jìn)一步的深入研究與應(yīng)用探索。
[1] 孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2013.
[2] 李國(guó)杰,程學(xué)旗.大數(shù)據(jù)研究:未來(lái)科技及經(jīng)濟(jì)社會(huì)發(fā)展的重大戰(zhàn)略領(lǐng)域[J].中國(guó)科學(xué)院院刊,2012.
[3] 馮登國(guó),張敏,李昊.大數(shù)據(jù)安全與隱私保護(hù)[J].計(jì)算機(jī)學(xué)報(bào),2014.
[4] 韓寧,陳巍.基于聚類(lèi)分析的串并案研究[J].中國(guó)人民公安大學(xué)學(xué)報(bào)(自然科學(xué)版),2012.
[5] 張學(xué)明,黃志球,孫藝.基于RBAC的隱私訪問(wèn)控制研究[J].計(jì)算機(jī)科學(xué),2016.
[6] 孫偉,蘇輝,李艷靈.基于互斥權(quán)限約束的角色挖掘優(yōu)化方法[J].計(jì)算機(jī)工程,2014.
[7] 譚春嬌,祝恩.一種彩色圖像可恢復(fù)半脆弱數(shù)字水印算法[J].計(jì)算機(jī)工程與科學(xué),2015.
[8] 明華,張勇,符小輝.?dāng)?shù)據(jù)溯源技術(shù)綜述[J].小型微型計(jì)算機(jī)系統(tǒng),2012.