許 鋒 單大國(guó)
(中國(guó)刑事警察學(xué)院聲像資料檢驗(yàn)技術(shù)系 遼寧 沈陽(yáng) 110035)
目前監(jiān)控視頻向著網(wǎng)絡(luò)化、高清化、數(shù)字化、智能化快速發(fā)展,監(jiān)控質(zhì)量的提高、線路和存儲(chǔ)時(shí)間的增加,使得涉案視頻資料和勘查信息海量增長(zhǎng),非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)需求日益突出,傳統(tǒng)存儲(chǔ)方式已無法滿足其爆炸性需求增長(zhǎng)[1]。同時(shí)由于影像資料取證、管理不規(guī)范,使得影像資料無法形成完整統(tǒng)一證據(jù)鏈條,只能作為偵查線索使用,極大影響了對(duì)犯罪分子的有力打擊[2-3]。 上述情況使得規(guī)范、科學(xué)、合理的管理這些海量、復(fù)雜、異構(gòu)的涉案視頻影像資料成為公安部門沉重的負(fù)擔(dān),是當(dāng)下視頻偵查部門亟待解決的關(guān)鍵性問題。
隨著目前信息技術(shù)從“互聯(lián)網(wǎng)時(shí)代”進(jìn)入“大數(shù)據(jù)時(shí)代”,存儲(chǔ)技術(shù)發(fā)生了翻天覆地的改變,云存儲(chǔ)技術(shù)應(yīng)運(yùn)而生,其自身的優(yōu)勢(shì)克服了傳統(tǒng)存儲(chǔ)設(shè)備容量有限、擴(kuò)展難、異構(gòu)數(shù)據(jù)存儲(chǔ)、管理難及訪問效率低等缺陷[4]。本研究基于Linux集群技術(shù),利用Hadoop構(gòu)建底層云存儲(chǔ),設(shè)計(jì)并開發(fā)了涉案視頻資料存儲(chǔ)云平臺(tái),深入研究了平臺(tái)的使用需求、總體框架模型及各功能模塊,從而滿足海量涉案視頻影像資料合理、科學(xué)、高效存儲(chǔ)和管理的需要。
云存儲(chǔ)是大數(shù)據(jù)時(shí)代中的新型存儲(chǔ)模式,可以將不同位置、不同種類的存儲(chǔ)器通過網(wǎng)絡(luò)連通,在分布式計(jì)算、集群應(yīng)用及網(wǎng)格技術(shù)的支撐下,為相關(guān)用戶提供數(shù)據(jù)存儲(chǔ)和業(yè)務(wù)訪問[5-6]。本文針對(duì)規(guī)模化視頻監(jiān)控存儲(chǔ)模式,實(shí)現(xiàn)了集中式存儲(chǔ),提供空間的統(tǒng)一命名,異構(gòu)環(huán)境下集中存儲(chǔ),分布式集群并發(fā)功能,相對(duì)于傳統(tǒng)存儲(chǔ)模式,其優(yōu)勢(shì)有:用戶前期無需購(gòu)買大量高性能的服務(wù)器設(shè)備,后期也無需專業(yè)人員對(duì)設(shè)備進(jìn)行管理和維護(hù),降低用戶成本;各種存儲(chǔ)器被集中管理,依據(jù)帶寬及剩余空間統(tǒng)一分配存儲(chǔ)空間,極大的提高了存儲(chǔ)器的利用率和存儲(chǔ)效率;系統(tǒng)利用自適應(yīng)算法添加硬件及節(jié)點(diǎn),在不影響現(xiàn)有用戶使用的前提下,快速便捷地?cái)U(kuò)充存儲(chǔ)空間和用戶數(shù)量;系統(tǒng)中數(shù)據(jù)的完整性及可靠性是首要前提,利用數(shù)據(jù)自動(dòng)備份機(jī)制,避免各種特殊原因造成的數(shù)據(jù)丟失,從而提高容災(zāi)能力;利用手機(jī)、電腦及平板等智能終端,用戶通過認(rèn)證登錄云存儲(chǔ)系統(tǒng),可不受地域束縛、便捷的獲取相關(guān)數(shù)據(jù)。
由Apache基金會(huì)組織開發(fā)的Hadoop系統(tǒng)具有良好的可擴(kuò)展性、穩(wěn)定性和容錯(cuò)性,其充分借鑒了Google 公司大規(guī)模分布式數(shù)據(jù)存儲(chǔ)、MapReduce計(jì)算框架、可擴(kuò)展的文件分布系統(tǒng)技術(shù),是目前最為流行的開源云平臺(tái)。Hadoop充分利用并行計(jì)算、網(wǎng)格技術(shù)等軟件處理方式,將海量數(shù)據(jù)保存在大量廉價(jià)存儲(chǔ)器上[7-8]。
2.2.1 HDFS
HDFS(Hadoop Distributed File System)是分布式計(jì)算中數(shù)據(jù)存儲(chǔ)管理的基礎(chǔ),專門針對(duì)流數(shù)據(jù)訪問方式和超大文件處理需求而研發(fā),并且可運(yùn)行于廉價(jià)存儲(chǔ)器之上。其自身的高容錯(cuò)性、可擴(kuò)展性、高吞吐率等特點(diǎn)保障了超大數(shù)據(jù)存儲(chǔ)過程中數(shù)據(jù)的完整性和可靠性,為使用者提供了更多的便利。HDFS采用Master/Slave的架構(gòu)存儲(chǔ)數(shù)據(jù),由Client、NameNode、DataNode和Secondary NameNode4個(gè)部分組成。在文件上傳過程中一個(gè)一個(gè)的Block被Client切分,進(jìn)而存儲(chǔ);HDFS 的名稱空間、數(shù)據(jù)信息、副本的配置策略及客戶端讀寫請(qǐng)求由NameNode負(fù)責(zé)管理;DataNode執(zhí)行數(shù)據(jù)塊的讀/寫操作;Secondary NameNode輔助NameNode,分擔(dān)其工作量,定期合并fsimage和fsedits,并推送給NameNode。
2.2.2 MapReduce
MapReduce是一個(gè)離線計(jì)算框架,主要思想是移動(dòng)計(jì)算,在有數(shù)據(jù)存儲(chǔ)的機(jī)器上運(yùn)行編寫完成的程序,從而達(dá)到各個(gè)任務(wù)端進(jìn)行分析計(jì)算,數(shù)據(jù)不發(fā)生移動(dòng)的效果。MapReduce的主導(dǎo)設(shè)計(jì)理念是一主多從,Jobtracker被布置于主節(jié)點(diǎn)之上,主要職責(zé)是調(diào)度及分配相應(yīng)的子任務(wù)使之運(yùn)行于TaskTracker上。而TaskTracker則被布置于從節(jié)點(diǎn)上,其職責(zé)為接收并執(zhí)行map task或reduce task任務(wù)。MapReduce通常包括split、map、fetch和reduce4個(gè)執(zhí)行過程。
2.2.3 HBase數(shù)據(jù)庫(kù)
HBase(Hadoop Database)是分布式的、開源的、非關(guān)系型、面向列的數(shù)據(jù)庫(kù),具有稀疏性、可伸縮、高可靠性和高性能等特點(diǎn)。HBase中以行鍵為唯一標(biāo)識(shí),類似于關(guān)系型數(shù)據(jù)庫(kù)中的主鍵。HBase中的列以列族為單化,列可以在使用時(shí)動(dòng)態(tài)添加,列名由列族名和修飾符組成。HBase數(shù)據(jù)模型主要支持Get、Put、Scan和Delete這4個(gè)操作。
隨著警用及社會(huì)類監(jiān)控網(wǎng)絡(luò)的不斷發(fā)展,產(chǎn)生了大量視頻電子數(shù)據(jù),既有結(jié)構(gòu)化數(shù)據(jù),更包含大量非機(jī)構(gòu)或半結(jié)構(gòu)化數(shù)據(jù)。針對(duì)目前的實(shí)際情況,利用Hadoop分布式技術(shù),對(duì)海量的涉案影像資料數(shù)據(jù)進(jìn)行高效處理、存儲(chǔ)至可擴(kuò)展的分布式數(shù)據(jù)庫(kù)中,進(jìn)而搭建易擴(kuò)展、高效能的存儲(chǔ)管理系統(tǒng),使影像資料形成完整統(tǒng)一證據(jù)鏈條,為后續(xù)司法訴訟提供支持。
刑事案件視頻現(xiàn)場(chǎng)勘查采集的相關(guān)資料種類繁多、文件格式多樣,主要包括涉案視頻影像及MD5校驗(yàn)碼、監(jiān)控點(diǎn)信息(位置、朝向、歸屬、格式、時(shí)差等)、現(xiàn)場(chǎng)勘查及詢問筆錄、視頻現(xiàn)場(chǎng)分布圖、提取證據(jù)通知單、相關(guān)證據(jù)的檢驗(yàn)鑒定、涉案手機(jī)基站信息、手機(jī)通訊錄及話單詳情、網(wǎng)絡(luò)數(shù)據(jù)、賓館登記信息、高速公路通行數(shù)據(jù)信息、公共交通卡信息、銀行卡及取款機(jī)交易記錄信息等。平臺(tái)主要面向公安一線干警,可將需求細(xì)化成本平臺(tái)的總體目標(biāo)和性能要求:解決現(xiàn)場(chǎng)勘查得到的大量視頻、文檔、音頻、照片等各類格式訴訟證據(jù)存儲(chǔ)與備份問題;支持廉價(jià)PC做為服務(wù)器,提供橫向擴(kuò)展存儲(chǔ)空間功能,節(jié)省硬件費(fèi)用;基于數(shù)據(jù)分塊冗余和在線備份技術(shù),管理海量的涉案影像及勘查信息數(shù)據(jù),為基層干警提供可靠、安全的數(shù)據(jù)存儲(chǔ)服務(wù);為用戶提供多維度的資源管理、搜索、分類、共享等功能,支持圖片在線瀏覽、文檔在線編輯等功能;具有數(shù)據(jù)備份、數(shù)據(jù)同步、數(shù)據(jù)加密、數(shù)據(jù)恢復(fù)、數(shù)據(jù)共享、日志查看、案件資源及人員管理等功能。
涉案視頻資料存儲(chǔ)云平臺(tái)根據(jù)存儲(chǔ)數(shù)據(jù)自身特點(diǎn),其邏輯架構(gòu)分為4層,如圖1所示。
圖1 涉案視頻資料云存儲(chǔ)邏輯架構(gòu)圖
3.2.1 資源層
本文中指的資源主要為物理資源(機(jī)房、數(shù)據(jù)中心及災(zāi)難備援設(shè)備等),在分布式文件系統(tǒng)、網(wǎng)格技術(shù)及數(shù)據(jù)庫(kù)集群的支撐下,提供涉案視頻資料存儲(chǔ)云平臺(tái)的基礎(chǔ)資源。
3.2.2 服務(wù)層
控制服務(wù)層應(yīng)用的訪問權(quán)限,為第三方開發(fā)者及用戶提供資源封裝和服務(wù)接口,通過service對(duì)資源層實(shí)現(xiàn)結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)及管理、用戶數(shù)據(jù)同步、備份及恢復(fù)、數(shù)據(jù)格式轉(zhuǎn)換等功能。
3.2.3 應(yīng)用層
應(yīng)用層是涉案視頻資料存儲(chǔ)云平臺(tái)的核心部分,完成資源存儲(chǔ)、管理及業(yè)務(wù)操作。面向公安視頻偵查實(shí)戰(zhàn)部門用戶。通過各功能模塊,提供涉案視頻影像、現(xiàn)場(chǎng)勘查信息及涉案影像資料卷的在線操作。
3.2.4 接入層
用戶可以通過網(wǎng)絡(luò)(內(nèi)網(wǎng)或外網(wǎng)),使用電腦、平板、手機(jī)及其他系統(tǒng)等方式接入平臺(tái),實(shí)現(xiàn)數(shù)據(jù)共享。
本涉案視頻資料云存儲(chǔ)平臺(tái)采用5臺(tái)PC電腦組建Hadoop集群,各電腦配置均為CPU雙核Intel(R)Core(TM) i5-3470 @ 3.20GH Z;內(nèi)存4.0GB;硬盤1TB。其中1臺(tái)電腦作為集群的主節(jié)點(diǎn),其他4臺(tái)作為從節(jié)點(diǎn),主機(jī)的IP設(shè)置為192.168.0.1,網(wǎng)關(guān)為255.255.255.0。
涉案視頻資料云存儲(chǔ)平臺(tái)的主要功能:案件目錄管理、平臺(tái)用戶管理、影像資料及文件管理、菜單標(biāo)簽管理、卷宗生成功能、案件串并管理、數(shù)據(jù)管理和共享管理等功能模塊,如圖2所示。
圖2 涉案視頻資料云存儲(chǔ)平臺(tái)功能模塊圖
其核心功能如下:
影像資料及文件管理:針對(duì)涉案視頻影像及視頻現(xiàn)場(chǎng)勘查所涉及的數(shù)據(jù),提供上傳、下載及編輯功能,可完成word、excel及常見圖片格式的在線預(yù)覽,.mp4及.h264格式視頻在線播放,其中視頻現(xiàn)場(chǎng)勘查信息上傳頁(yè)面,如圖3所示,可完成涉案監(jiān)控點(diǎn)位的設(shè)備信息采集,包括所屬案件、分布圖上攝像頭編號(hào)、采集文件名、MD5碼、時(shí)間校正、視頻格式、GPS坐標(biāo)、所屬單位、朝向及盲區(qū)、見證人、提取物證通知單及嫌疑目標(biāo)等相關(guān)信息。
圖3 勘查信息上傳界面
數(shù)據(jù)管理:提供整個(gè)視頻證據(jù)云存儲(chǔ)平臺(tái)相關(guān)數(shù)據(jù)的處理,提供資料編輯、數(shù)據(jù)備份、數(shù)據(jù)恢復(fù)及數(shù)據(jù)同步等功能,其中數(shù)據(jù)備份頁(yè)面,如圖4所示,現(xiàn)實(shí)正在執(zhí)行的備份任務(wù),包括文件大小、備份時(shí)間、備份類型、進(jìn)度、狀態(tài)等實(shí)時(shí)信息。
圖4 數(shù)據(jù)備份界面
案件串并管理:實(shí)現(xiàn)相關(guān)案件串并的涉案信息及偵查人員的新增、刪除、修改及數(shù)據(jù)編輯等功能,串并案依據(jù)頁(yè)面,如圖5所示,選擇需要串并偵查的案件,根據(jù)案件偵破的實(shí)際需要提供常見的8種(技術(shù)檢驗(yàn)、盜搶財(cái)務(wù)、作案手段、作案時(shí)間、作案工具、遺留物、痕跡附著物及DNA數(shù)據(jù))案件串并偵查功能,并提供案件串并資料匯總功能。
系統(tǒng)管理:利用管理員權(quán)限可實(shí)現(xiàn)人員信息管理、權(quán)限設(shè)置、存儲(chǔ)空間及運(yùn)行日志查詢功能。其中人員信息管理,如圖6所示,包括對(duì)用戶名、姓名、單位、年齡、職務(wù)、最近訪問時(shí)間等信息的新建、編輯及刪除。存儲(chǔ)空間管理,如圖7所示,實(shí)時(shí)顯示云存儲(chǔ)平臺(tái)內(nèi)各個(gè)存儲(chǔ)器的使用狀況(包括硬盤空間、使用空間、剩余空間、存儲(chǔ)速率及最近訪問情況等),根據(jù)實(shí)時(shí)狀況合理分配存儲(chǔ)任務(wù)。
圖6 人員信息管理界面
圖7 存儲(chǔ)空間管理界面
本文基于Hadoop相關(guān)技術(shù)和系統(tǒng)架構(gòu)理論,整合了視頻偵查工作中采集的案件資源,通過改變傳統(tǒng)的存儲(chǔ)與檢索方式,利用綜合平臺(tái)的人性化界面功能,提高了視頻案件資源的存儲(chǔ)與檢索效率,激發(fā)了辦案人員對(duì)于案件數(shù)據(jù)和資料進(jìn)行精細(xì)化梳理的積極性,增強(qiáng)了實(shí)戰(zhàn)辦案能力。在此基礎(chǔ)上,平臺(tái)實(shí)現(xiàn)了對(duì)離散數(shù)據(jù)和碎片化資源的結(jié)構(gòu)化整合,為案件后期的卷宗整理和證據(jù)鏈形成,提供了具體的方案設(shè)計(jì)和模型框架參照,在資源類型和網(wǎng)絡(luò)化模式等方面保證了平臺(tái)功能擴(kuò)展的可行性。本平臺(tái)的核心功能針對(duì)視頻偵查資料的多樣性和豐富性,提供了安全可靠、高效率的處理和管理方案,平臺(tái)的研究作為公安工作信息化的有力補(bǔ)充,為視頻偵查工作節(jié)省了諸多的人力、物力和財(cái)力資源。