閻其成 高亮 朱顯珉
1. 上海市公安局徐匯分局 2.北京至簡(jiǎn)墨奇科技有限公司
生物識(shí)別(Biometric)源自希臘字Bio(生命)及Metric(可計(jì)量),是通過(guò)人體生理如指紋、臉部或虹膜等身體器官組織及行為模式的特征來(lái)識(shí)別一個(gè)人的身份[1]。指紋是人各不同和觸物留痕的,曾被稱為“證據(jù)之首”,其具有易采集、檢驗(yàn)比對(duì)成本較廉價(jià)的特點(diǎn)。上世紀(jì)九十年代以來(lái),我國(guó)開始將計(jì)算機(jī)輔助指紋人工比對(duì)的技術(shù)應(yīng)用到公安領(lǐng)域。傳統(tǒng)的指紋比對(duì)技術(shù)基于經(jīng)典指紋特征理論,人工對(duì)指紋進(jìn)行前期分析處理和特征標(biāo)注,由計(jì)算機(jī)輔助與數(shù)據(jù)庫(kù)里已標(biāo)注特征的指紋樣本進(jìn)行比對(duì),最終再由人工對(duì)比對(duì)結(jié)果進(jìn)行檢視驗(yàn)證。歷經(jīng)三十余年的發(fā)展,傳統(tǒng)指紋比對(duì)技術(shù)已不能滿足公安工作實(shí)時(shí)性、時(shí)效性也即“快采”和“快比”的要求。
本文介紹的智能移動(dòng)警務(wù)應(yīng)用依托于新型人工智能比對(duì)技術(shù),采用手機(jī)現(xiàn)場(chǎng)拍攝可疑對(duì)象指紋并實(shí)時(shí)發(fā)送比對(duì)請(qǐng)求,60秒內(nèi)就可得到精確比對(duì)結(jié)果,進(jìn)行身份信息的生物性同一認(rèn)定。
新型人工智能指紋比對(duì)系統(tǒng)基于面向未來(lái)生物識(shí)別需求,采用了存算分離、多算法融合、多級(jí)比對(duì)、無(wú)限彈性擴(kuò)展的分布式架構(gòu)設(shè)計(jì),具備下一代指紋比對(duì)系統(tǒng)所需的高精度、高性能、智能化、易拓展等特征。新型人工智能指紋比對(duì)技術(shù)無(wú)需人工標(biāo)注特征,且比對(duì)排前準(zhǔn)確率高、對(duì)于低質(zhì)量指紋處理能力強(qiáng),大大簡(jiǎn)化了指紋比對(duì)的流程,使指紋在移動(dòng)設(shè)備上實(shí)現(xiàn)快速比對(duì)的實(shí)戰(zhàn)應(yīng)用成為可能,其總體架構(gòu)如圖1所示。
架構(gòu)主要有三層。底層數(shù)據(jù)存儲(chǔ):基于SeaweedFS 和Cassandra的分布式存儲(chǔ)系統(tǒng),用于存儲(chǔ)和管理原始的指紋圖像數(shù)據(jù)和特征數(shù)據(jù);中間層搜索引擎(Search Engine):系統(tǒng)的“肌肉”,主要完成計(jì)算工作,該層實(shí)現(xiàn)提取多尺度特征的多種人工智能算法,分別構(gòu)造高效的索引和緩存,并實(shí)現(xiàn)多算法融合和多級(jí)比對(duì),支持異構(gòu)計(jì)算;頂層服務(wù)資源管理:系統(tǒng)的“大腦”,該層是一組服務(wù),用來(lái)管理搜索引擎、存儲(chǔ)、查詢請(qǐng)求、事務(wù)、分布式資源調(diào)度、容錯(cuò)以及所有相關(guān)的元數(shù)據(jù)和記錄信息,包括數(shù)據(jù)庫(kù)格式、密鑰管理、用量統(tǒng)計(jì)數(shù)據(jù)等。
新型指紋比對(duì)系統(tǒng)通過(guò)人工智能和機(jī)器學(xué)習(xí)模型進(jìn)行自動(dòng)提取特征,不論是在訓(xùn)練階段還是在推理階段,都不需要人工標(biāo)注,這得益于該系統(tǒng)獨(dú)有的小樣本學(xué)習(xí)技術(shù)。
數(shù)據(jù)存儲(chǔ)SeaweedFS是非常適合于大量小文件存儲(chǔ)的分布式系統(tǒng)。SeaweedFS分布式文件系統(tǒng)是一款使用go語(yǔ)言編寫的開源分布式文件系統(tǒng),是經(jīng)過(guò)與其他開源分布式文件系統(tǒng)進(jìn)行對(duì)比之后選取的一款最適合企業(yè)內(nèi)部自建文件管理系統(tǒng)底層的文件系統(tǒng)[2]。其沒有將所有的元數(shù)據(jù)存儲(chǔ)在一個(gè)中心結(jié)點(diǎn)中,中心結(jié)點(diǎn)只存儲(chǔ)分卷服務(wù)器的分卷(Volumes),分布式的分卷服務(wù)器來(lái)管理文件和它們的元數(shù)據(jù),這樣大大降低了中心結(jié)點(diǎn)的并發(fā)壓,并且支持文件的O(1)快速讀取。Cassandra是一個(gè)高性能的NoSQL存儲(chǔ)系統(tǒng),采用了去中心化的P2P方式來(lái)保證數(shù)據(jù)一致性[3]。從而保證了數(shù)據(jù)的最終一致性,在指紋系統(tǒng)中用于存儲(chǔ)不同算法提取的特征。合起來(lái),存儲(chǔ)層提供了幾乎無(wú)限的高可用、高性能和彈性存儲(chǔ)能力。
搜索引擎可以分成特征提取、索引結(jié)構(gòu)、比對(duì)引擎三個(gè)部分。
1. 特征提取
傳統(tǒng)算法主要依靠細(xì)節(jié)特征點(diǎn)比對(duì),如圖2所示。
經(jīng)研究,指紋除了傳統(tǒng)特征點(diǎn)還有很多信息。例如紋線的曲率、疏密分布、宏觀走向、拓?fù)浣Y(jié)構(gòu)等,以及大量的不能直接用規(guī)則描述但是有區(qū)分度的信息,這些都可以被用來(lái)區(qū)分不同的指掌紋,提高鑒別能力[4]。這些信息分布在不同的尺度上,有的在像素層級(jí),有的在指紋的整體圖像層級(jí),所以具備多尺度的特征。這些特征是需要有特殊的方法標(biāo)記固定。新型指紋識(shí)別系統(tǒng)采用了人工智能技術(shù)來(lái)提取多尺度特征,如圖3所示。在從像素到整體圖像的每一個(gè)中間尺度上,都提取了不同標(biāo)簽、向量和圖等不同的特征,多尺度特征表示將傳統(tǒng)指紋特征的信息量擴(kuò)大了上萬(wàn)倍。提升特征數(shù)量和提取維度對(duì)系統(tǒng)的比對(duì)精度有巨大提升作用。
2. 索引結(jié)構(gòu)
特征的索引結(jié)構(gòu)對(duì)比對(duì)的性能有決定性的影響[5]。在指紋系統(tǒng)的多尺度特征中,存在細(xì)節(jié)特征、拓?fù)涮卣鳌⑾蛄刻卣?、幾何特征和圖形特征等多樣化的特征。系統(tǒng)對(duì)這些特征分配了不同的索引結(jié)構(gòu),例如,對(duì)于向量特征使用了多種量化索引的特征以支持近似和精確查詢。索引是列存儲(chǔ)的內(nèi)存結(jié)構(gòu)[6]。對(duì)于索引來(lái)說(shuō),特別是向量和部分的幾何索引結(jié)構(gòu),列存儲(chǔ)的性能要顯著優(yōu)越于行存儲(chǔ)。索引是向量?jī)?yōu)化的,意味著很多的指令可以以批次(Batch)的方式進(jìn)行,以節(jié)約I/O和提高緩存效率。同樣的做法也被用于很多向量搜索工具中。
3. 比對(duì)引擎
系統(tǒng)比對(duì)引擎由一組異構(gòu)的比對(duì)服務(wù)器組成,支持CPU、GPU、NPU等不同的計(jì)算單元[7]。引擎將不同種類的特征分配到不同的計(jì)算單元上去,在保證準(zhǔn)確率的情況下實(shí)現(xiàn)加速。在比對(duì)過(guò)程中,向量和大尺度被首先分配到GPU/NPU中去,利用其強(qiáng)大的并行計(jì)算能力,對(duì)特征進(jìn)行初步的比對(duì)和過(guò)濾;對(duì)結(jié)果使用CPU進(jìn)行幾何特征的比對(duì)和精確匹配,以及對(duì)于多種算法的候選列表進(jìn)行再排序以優(yōu)化最終的結(jié)果。
系統(tǒng)根據(jù)請(qǐng)求的優(yōu)先級(jí)、準(zhǔn)確率要求、系統(tǒng)配置、任務(wù)負(fù)載等要素來(lái)制定請(qǐng)求的執(zhí)行方式。當(dāng)系統(tǒng)收到一個(gè)查詢請(qǐng)求時(shí),調(diào)度器根據(jù)系統(tǒng)的負(fù)載和比對(duì)的數(shù)據(jù)塊生成比對(duì)任務(wù)并分發(fā)到存有相應(yīng)索引的服務(wù)器進(jìn)行比對(duì),返回最近似的候選[8]。比對(duì)引擎是彈性擴(kuò)展和容錯(cuò)的。集群通過(guò)Raft協(xié)議實(shí)現(xiàn)分布式一致性協(xié)議,當(dāng)有服務(wù)器出現(xiàn)單點(diǎn)錯(cuò)誤時(shí)(磁盤錯(cuò)誤、斷電等),該結(jié)點(diǎn)的數(shù)據(jù)會(huì)被分配到其他節(jié)點(diǎn)上去。在服務(wù)器冗余度較高時(shí),服務(wù)器故障造成的瞬間讀寫負(fù)載并不會(huì)被立刻分?jǐn)偝鋈?,而是通過(guò)緩存機(jī)制逐漸完成,這樣降低對(duì)任務(wù)隊(duì)列的性能波動(dòng)。在實(shí)際運(yùn)行中,不論庫(kù)容的大小,只要硬件資源足夠,系統(tǒng)總是能夠在O(1)的時(shí)間內(nèi)完成比對(duì)請(qǐng)求。
服務(wù)資源管理層是多用戶模式綜合管理層,這一層提供的大部分微服務(wù)都是貫穿的。它也是一個(gè)分布式的設(shè)計(jì),所以比傳統(tǒng)的管理層更加靈活穩(wěn)定。所有的用戶請(qǐng)求都經(jīng)過(guò)服務(wù)資源管理這一層,包括對(duì)象解析、權(quán)限控制和執(zhí)行策略。
1. 優(yōu)化過(guò)的PosgreSQL數(shù)據(jù)庫(kù)引擎
所有的信息都會(huì)被保存在數(shù)據(jù)庫(kù)中,并需要支持高效的增刪查改操作。PosgreSQL是一個(gè)先進(jìn)的SQL和NoSQL混合引擎,同時(shí)支持結(jié)構(gòu)化和半結(jié)構(gòu)化的字段,更加適合云服務(wù)業(yè)務(wù)不斷演化的需求。新型的人工智能指紋比對(duì)技術(shù)對(duì)PosgreSQL 做了優(yōu)化,極大改進(jìn)了十億級(jí)別數(shù)據(jù)量的查詢速度。
2. 基于公平隊(duì)列的任務(wù)管理
系統(tǒng)需要支持不同用戶、不同優(yōu)先級(jí)、不同應(yīng)用(Web/App)的比對(duì)任務(wù),系統(tǒng)設(shè)計(jì)了一套公平隊(duì)列算法,保證不同用戶的任務(wù)之間能夠相對(duì)公平的使用系統(tǒng)資源,優(yōu)先級(jí)高、實(shí)時(shí)性要求高的任務(wù)得到盡快處理的同時(shí),低優(yōu)先級(jí)的任務(wù)也能夠分配到一定的系統(tǒng)資源而不至于完全阻塞[9]。指紋的查詢管理和優(yōu)化是一個(gè)典型的多級(jí)優(yōu)化結(jié)構(gòu),查詢管理維護(hù)一個(gè)任務(wù)隊(duì)列,包括執(zhí)行計(jì)劃的信息。所有用于優(yōu)化的數(shù)據(jù)都被設(shè)計(jì)為自動(dòng)分析和維護(hù)。系統(tǒng)通過(guò)一定的規(guī)則來(lái)縮小搜索空間,以減小策略錯(cuò)誤。一旦查詢?nèi)蝿?wù)優(yōu)化完成,執(zhí)行計(jì)劃就會(huì)被發(fā)送到搜索引擎部分。在搜索引擎的執(zhí)行過(guò)程中,服務(wù)資源管理層持續(xù)監(jiān)控查詢的狀態(tài)并且收集性能指標(biāo)。
當(dāng)前,公安民警在巡邏、街面盤查過(guò)程中,使用移動(dòng)警務(wù)終端設(shè)備的應(yīng)用場(chǎng)景主要是通過(guò)身份信息查詢、反饋實(shí)現(xiàn)快速核查功能,具有一定局限性[10]。傳統(tǒng)指紋算法受比對(duì)速度與比對(duì)精度的限制,很難實(shí)時(shí)返回精確的比對(duì)結(jié)果,且人工標(biāo)注的問(wèn)題使得指紋在治安盤查中應(yīng)用比較困難,無(wú)法大范圍推廣。而新型的人工智能比對(duì)算法比對(duì)的速度與精度大幅提升,可以滿足實(shí)時(shí)返回結(jié)果的需要,使移動(dòng)警務(wù)活動(dòng)中便捷使用指紋生物特征進(jìn)行人員核查成為可能。警用手機(jī)安裝指紋核查比對(duì)APP,民警可在移動(dòng)警務(wù)過(guò)程中,手持終端設(shè)備采集人員指紋進(jìn)行雙重比對(duì),其生物性身份等反饋信息將迅速推送到終端設(shè)備。
以往,可疑人員為隱瞞自己的身份信息往往不會(huì)隨身攜帶證件,而民警不得不將可疑人員帶回派出所才有可能進(jìn)行指紋或DNA的采集和檢驗(yàn)比對(duì),來(lái)確定其身份。利用新型的人工智能指紋比對(duì)技術(shù),民警通過(guò)手機(jī)即可采集可疑人員指紋,上傳比對(duì)并實(shí)時(shí)返回結(jié)果,做到了“快采、快比、快反”(如圖5、圖6所示),使民警在移動(dòng)勤務(wù)中查控人員的效率大大提高,同時(shí)也讓犯罪可疑人員甚至洗白身份的逃犯無(wú)處藏身、無(wú)所遁形。
本文對(duì)新型人工智能指紋比對(duì)系統(tǒng)的架構(gòu)、工作原理以及APP的應(yīng)用做了詳細(xì)的闡述。立足當(dāng)前社會(huì)人員流動(dòng)實(shí)際,著眼公安管理精準(zhǔn)性和便民工作發(fā)展新方向,實(shí)現(xiàn)刑事技術(shù)生物特征數(shù)據(jù)采集終端與警務(wù)PDA手機(jī)等便攜式移動(dòng)終端的技術(shù)融合。