李貝貝,朱建生,閻志遠(yuǎn),戴琳琳,候亞偉
(1.中國鐵道科學(xué)研究院 研究生部,北京 100081;2.中國鐵道科學(xué)研究院集團(tuán)有限公司 電子計(jì)算 技術(shù)研究所,北京 100081)
鐵路客票系統(tǒng)實(shí)施實(shí)名制車票以來,實(shí)名制進(jìn)站核驗(yàn)成為乘車的必要環(huán)節(jié)。鐵路客運(yùn)管理部門一直在嘗試通過技術(shù)手段自動關(guān)聯(lián)旅客實(shí)名制,減緩車站的客運(yùn)組織壓力,提升車站的通行效率。目前,鐵路客運(yùn)在人臉識別技術(shù)的應(yīng)用方面,已于2018年上線了人臉識別平臺,支持鐵路客票12306手機(jī)客戶端、自助實(shí)名制核驗(yàn)閘機(jī)、驗(yàn)檢合一閘機(jī)等線上線下場景1 : 1模式的人臉識別應(yīng)用[1-2]。在人臉核驗(yàn)過程中,除采集現(xiàn)場人臉照外,均會關(guān)聯(lián)旅客的證件照信息或?qū)嵜菩畔?;尤其是線下場景的自助實(shí)名制核驗(yàn)閘機(jī)中人臉的應(yīng)用,在獲取旅客現(xiàn)場人臉信息之外,還需要融合旅客證件類信息讀取(或者掃描二維碼、刷中鐵銀通卡)等方式完成人臉核驗(yàn)。人像檢索平臺的研究,通過關(guān)聯(lián)鐵路客票系統(tǒng)中電子客票集群、數(shù)據(jù)共享平臺、站車無線交互系統(tǒng)等子業(yè)務(wù)系統(tǒng),對鐵路客運(yùn)場景下人像數(shù)據(jù)建桶、關(guān)聯(lián)數(shù)據(jù)組織、人像檢索邏輯等進(jìn)行設(shè)計(jì),進(jìn)一步實(shí)現(xiàn)了站內(nèi)刷臉業(yè)務(wù)查詢、站內(nèi)刷臉檢票乘車、刷臉出站等場景應(yīng)用。基于鐵路客票系統(tǒng)的人像檢索平臺自2020年12月上線以來,已支持京張高速鐵路(北京北—張家口)沿線各站、北京西站等站內(nèi)的刷臉查詢功能,支持部分車站刷臉出站功能,刷臉檢票等功能已經(jīng)完成系統(tǒng)功能、流程等驗(yàn)證,待上線應(yīng)用。
人像檢索平臺首次實(shí)現(xiàn)了人像檢索技術(shù)在鐵路客運(yùn)場景中的工程應(yīng)用,創(chuàng)新了鐵路客運(yùn)實(shí)名制環(huán)境下旅客的進(jìn)出站方式,最大限度地提升了鐵路旅客的出行體驗(yàn),促進(jìn)了鐵路客運(yùn)信息化的智能水平。隨著鐵路電子客票的持續(xù)深入開展,對人臉識別、人像檢索等技術(shù)的應(yīng)用提出了更高的要求[3-4]。為促進(jìn)旅客“無障礙”出行、“解放雙手”等鐵路客運(yùn)場景下的智能化能力提升,創(chuàng)新旅客在進(jìn)站、站內(nèi)、乘車、車上、出站等各環(huán)節(jié)的刷臉出行體驗(yàn),需要開展基于1 :N模式的人像檢索技術(shù)的深入研究[5-6]。
人像檢索平臺的構(gòu)建,通過鐵路電子客票系統(tǒng)推送的實(shí)名制數(shù)據(jù),關(guān)聯(lián)鐵路人臉識別平臺的證件照或已經(jīng)積累的現(xiàn)場照資源,形成人像檢索底庫。當(dāng)現(xiàn)場采集到人像數(shù)據(jù)后,基于人像檢索平臺,在底庫內(nèi)進(jìn)行人像檢索并返回檢索結(jié)果標(biāo)識,再關(guān)聯(lián)旅客的進(jìn)站或出站車票信息等,完善檢索結(jié)果數(shù)據(jù),進(jìn)而通過人像檢索實(shí)現(xiàn)鐵路客運(yùn)場景下的業(yè)務(wù)閉環(huán)。
(1)支持刷臉進(jìn)站。目前鐵路人像檢索算法在實(shí)現(xiàn)的過程中,已知的可控集合在2萬~3萬人,旅客刷臉進(jìn)站時(shí),現(xiàn)有技術(shù)條件對旅客圖片集無法進(jìn)行有效的高精度檢索。后續(xù)基于進(jìn)站旅客圖片完整、清晰或人像檢索有較大技術(shù)突破的情況下,將著重提升人像檢索的準(zhǔn)確度與性能[7],逐步進(jìn)行測試,開展此場景應(yīng)用。
(2)支持站內(nèi)刷臉查詢。隨著鐵路電子客票的普及,旅客進(jìn)站后不再攜帶紙質(zhì)車票,通過網(wǎng)站、手機(jī)客戶端、郵箱、短信等方式查看車票的情況將更加普遍。對站內(nèi)旅客提供智能實(shí)時(shí)的刷臉查看車票、候車室及檢票口等無接觸服務(wù)具有實(shí)際意義。站內(nèi)刷臉查詢時(shí),因車站、日期、時(shí)間等內(nèi)容確定,人像檢索識別精度有保障,進(jìn)而為實(shí)現(xiàn)人像檢索提供可能。
(3)支持刷臉檢票乘車。旅客進(jìn)入候車室,僅是實(shí)現(xiàn)了車票驗(yàn)票環(huán)節(jié),在實(shí)際乘車之前還需要進(jìn)行車票檢票,確定旅客是否已乘車,便于后續(xù)可能存在的退票操作等。檢票乘車環(huán)節(jié)目前支持人工檢票及刷證檢票方式,還未實(shí)現(xiàn)刷臉檢票。旅客檢票環(huán)節(jié),可通過鐵路客票系統(tǒng)關(guān)聯(lián)待檢票旅客實(shí)名制、檢票車次、檢票日期及檢票時(shí)間等信息。此場景下人像檢索范圍一般局限于站內(nèi)旅客,從而使人臉底庫收斂,保障了人像檢索算法的精度。
(4)支持刷臉出站。旅客出站時(shí),系統(tǒng)可預(yù)感知旅客的到站車次、到站日期、到站時(shí)間等基本信息,人像檢索底庫特征集合可收斂。出站口一般人員較為聚集,人像底庫容量較大,人像檢索難度會隨著人員聚集程度而增加,將對人像檢索的效率提出更高要求,但是結(jié)合硬件改造,人像檢索平臺可為中小型車站的出站口提供刷臉出站支撐。
人像檢索平臺的系統(tǒng)架構(gòu)分國鐵集團(tuán)級、路局級和車站級3級,不同層級的應(yīng)用服務(wù)涉及的網(wǎng)絡(luò)存在不同。人像檢索平臺系統(tǒng)架構(gòu)如圖1所示。
圖1 人像檢索平臺系統(tǒng)架構(gòu)Fig.1 System architecture of face retrieval platform
(1)國鐵集團(tuán)級。關(guān)聯(lián)電子客票集群、數(shù)據(jù)共享平臺、站車無線交互平臺等相關(guān)系統(tǒng),實(shí)現(xiàn)數(shù)據(jù)的互聯(lián)互通。內(nèi)部實(shí)現(xiàn)人臉桶的創(chuàng)建、維護(hù)及人像檢索等功能,通過人像檢索算法計(jì)算檢索最優(yōu)解。
(2)路局級。配置人像檢索前置代理服務(wù),向下互通終端應(yīng)用,向上互聯(lián)人像檢索平臺,數(shù)據(jù)流只涉及人像數(shù)據(jù)及電子客票數(shù)據(jù)。
(3)車站級。終端設(shè)備及應(yīng)用內(nèi)嵌SDK (軟件開發(fā)工具包,Software Development Kit),負(fù)責(zé)獲取旅客現(xiàn)場照、人臉桶集合下載,在線/離線混合檢索等模式選擇,實(shí)現(xiàn)終端旅客的卡控等基本操作,同時(shí)針對刷臉檢票乘車業(yè)務(wù),還將把檢索結(jié)果關(guān)聯(lián)出的實(shí)名制和車票信息上傳到路局級檢票系統(tǒng)。在沒有有線網(wǎng)絡(luò)的業(yè)務(wù)應(yīng)用中,終端一般采用無線專網(wǎng)方式,通過站車無線交互平臺中轉(zhuǎn)至人像檢索平臺實(shí)現(xiàn)人像檢索的應(yīng)用。
處于不同網(wǎng)絡(luò)層級中的人像檢索服務(wù)具有不同的邏輯處理能力,國鐵集團(tuán)級的人像檢索功能主要包括集群服務(wù)、算法服務(wù)、接入應(yīng)用程序接口(Application Programming Interface,API)和運(yùn)管中心;路局級人像檢索服務(wù)的主要功能在于緩存和代理;車站級人像檢索主要包含SDK和算法插件等。人像檢索平臺功能架構(gòu)如圖2所示。
圖2 人像檢索平臺功能架構(gòu)Fig.2 Function architecture of face retrieval platform
國鐵集團(tuán)級人像檢索平臺的核心業(yè)務(wù)應(yīng)用主要在于集群服務(wù)、算法服務(wù)和應(yīng)用API。功能各異的集群服務(wù)實(shí)現(xiàn)了人像檢索過程中不同階段的邏輯順接與處理,算法服務(wù)支持線上線下各渠道應(yīng)用的圖片質(zhì)量檢測、特征值提取及人像檢索,應(yīng)用API對外暴露接口,實(shí)現(xiàn)業(yè)務(wù)融合的入口,其中PSR表示旅客服務(wù)記錄單(Passenger Service Record)。
為使系統(tǒng)資源得到均衡利用,人像檢索的功能設(shè)計(jì)實(shí)現(xiàn)了人像檢索云、端相結(jié)合的模式。國鐵集團(tuán)級形成的人臉桶,不僅可以為平臺的在線檢索提供底庫資源,還可以通過路局前置代理,根據(jù)規(guī)則下發(fā)到終端設(shè)備,提供邊緣端人像檢索的底庫。云、端協(xié)同檢索的模式,可以根據(jù)不同的業(yè)務(wù)應(yīng)用場景需要,充分利用相應(yīng)資源,提升業(yè)務(wù)穩(wěn)定的并發(fā)處理能力。
通過國鐵集團(tuán)的人像檢索運(yùn)管中心,實(shí)現(xiàn)對終端算法插件版本的管控。通過人像檢索平臺制定升級規(guī)則,可單臺或者批量式地精細(xì)化實(shí)現(xiàn)對終端人臉應(yīng)用及算法的類型控制和版本控制。與此同時(shí),運(yùn)管中心除了兼具終端狀態(tài)監(jiān)控、路局前置監(jiān)控、平臺業(yè)務(wù)監(jiān)控等基本業(yè)務(wù)監(jiān)控之外,還具有業(yè)務(wù)日志分析、統(tǒng)計(jì)與展示功能,通過對不同業(yè)務(wù)日志或者采集數(shù)據(jù)進(jìn)行聚合,實(shí)現(xiàn)數(shù)據(jù)的關(guān)聯(lián)分析等。
人像檢索技術(shù)通過對多個(gè)人臉識別結(jié)果進(jìn)行排序,對圖像中的人臉信息實(shí)現(xiàn)身份判定,其核心是人臉識別,主要包括人臉檢測、人臉對齊和人臉比對的過程。
(1)人臉檢測。主要實(shí)現(xiàn)2個(gè)方面的內(nèi)容,即判斷當(dāng)前檢測框中是否為人臉,以及輸出檢測到的人臉目標(biāo)框的坐標(biāo)信息。工業(yè)級應(yīng)用中,因?qū)z測算法的準(zhǔn)確性和性能要求較高,常用的算法主要有MTCNN[8]和RetinaFace[9]。MTCNN的實(shí)現(xiàn)采用了3個(gè)模型級聯(lián)的方式,同時(shí)輸出了人臉框和人臉關(guān)鍵點(diǎn)信息。MTCNN網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
圖3 MTCNN網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 MTCNN structure
為了能夠更好地適應(yīng)不同大小的人臉,模型首先對獲取的人像進(jìn)行金字塔構(gòu)建,將大小各異的多張圖片作為模型的輸入。MTCNN模型主要由3個(gè)階段構(gòu)成: P-Net可快速地產(chǎn)生人臉候選框;R-Net對P-Net中生成的人臉候選框進(jìn)一步細(xì)化,有效刪除P-Net產(chǎn)生的錯(cuò)誤人臉候選框;O-Net進(jìn)一步細(xì)化人臉候選框,最終輸出人臉框和關(guān)鍵點(diǎn)信息。每個(gè)階段都采用了極大值抑制(Non-Maximum Suppression,NMS)技術(shù),對重疊度高的人臉框進(jìn)行合并。
RetinaFace基于單階段設(shè)計(jì)提出的人臉檢測金字塔模型,通過圖像的特征實(shí)現(xiàn),并未直接對圖像進(jìn)行處理。獲取圖像在多個(gè)尺度的特征,有效地檢測出較小的人臉,同時(shí)模型加入了較多新的模塊,包括上下文建模、人臉關(guān)鍵點(diǎn)分支以及創(chuàng)新的損失函數(shù)等。損失函數(shù)本質(zhì)上代表了真實(shí)值與預(yù)測值之間的差異,創(chuàng)新的多損失融合函數(shù),其函數(shù)如公式(1)所示。
式中:L為多損失融合函數(shù);Lcls為人臉分類損失函數(shù);Lbox為人臉框損失函數(shù);Lpts為人臉關(guān)鍵點(diǎn)損失函數(shù);Lpixel為面部密集點(diǎn)回歸損失函數(shù);pi為預(yù)測第i個(gè)目標(biāo)框是否為人臉的概率;為人臉真實(shí)標(biāo)簽,如果為正樣本人臉,標(biāo)簽為1,負(fù)樣本人臉,標(biāo)簽為0;ti為預(yù)測的人臉框坐標(biāo)為真實(shí)人臉框坐標(biāo);li為預(yù)測的人臉關(guān)鍵點(diǎn);為真實(shí)的人臉關(guān)鍵點(diǎn);λ1,λ2,λ3為對應(yīng)的損失權(quán)重。
公式(1)指出,損失函數(shù)由4部分組成,第1部分計(jì)算人臉分?jǐn)?shù),第2部分計(jì)算人臉框位置,第3部分計(jì)算人臉關(guān)鍵點(diǎn),第4部分計(jì)算人臉密集回歸。因此,模型能夠輸出人臉得分、人臉框位置以及人臉關(guān)鍵點(diǎn)等信息。
(2)人臉對齊。人臉對齊主要是對檢測出的關(guān)鍵點(diǎn)(如眼睛、嘴巴等)進(jìn)行幾何變換,并映射到標(biāo)準(zhǔn)人臉的關(guān)鍵點(diǎn)位置。
(3)人臉比對。對齊后的人臉便可進(jìn)行人臉特征值提取,并通過人臉特征之間的距離度量實(shí)現(xiàn)人臉識別。人臉識別的發(fā)展主要經(jīng)過了主干網(wǎng)絡(luò)結(jié)構(gòu)的發(fā)展與損失函數(shù)的不斷優(yōu)化等方面,因而人臉識別模型的選擇,主要集中于主干模型與損失函數(shù)2個(gè)方面,如DeepFace模型使用Alexnet卷積神經(jīng)網(wǎng)絡(luò)和softmax損失函數(shù),F(xiàn)aceNet模型使用GoogleNet-24卷積神經(jīng)網(wǎng)絡(luò)和triple loss損失函數(shù),Normface模型使用ResNet-28卷積神經(jīng)網(wǎng)絡(luò)和contrastive loss損失函數(shù),SphereFace模型使用ResNet-64卷積神經(jīng)網(wǎng)絡(luò)和A-softmax損失函數(shù)。鐵路人像檢索平臺的人臉識別模型選擇了ResNet模型,并對其網(wǎng)絡(luò)模型進(jìn)行了改進(jìn),與此同時(shí),選用的損失函數(shù)如公式(2)所示。
式中:L為鐵路人像檢索平臺的人臉識別模型損失函數(shù);b為批尺寸;s為比例縮放值;n為類別數(shù);m為決策邊界的邊距;θ為夾角;yi為類別。
人臉識別模型能夠?qū)崿F(xiàn)對人臉特征進(jìn)行較好的表達(dá),之后通過歐式距離、余弦距離等方式計(jì)算特征之間的距離,完成人臉相似度計(jì)算。當(dāng)輸入特征與底庫人臉桶內(nèi)所有的特征完成人臉比對,得出比分結(jié)果時(shí),對比對分?jǐn)?shù)進(jìn)行排序,輸出最高分,如果最高分高于預(yù)設(shè)閾值,則人像檢索成功,輸出底庫中相應(yīng)的標(biāo)識信息,實(shí)現(xiàn)人像檢索。
人臉識別技術(shù)本身存在誤識率的特點(diǎn),在工程應(yīng)用中,一般需要通過算法能力提升、應(yīng)用模式聚合等方式,限制人像檢索底庫的容量,提升人像檢索的召回率,降低因算法誤差而導(dǎo)致的誤識率。鐵路客運(yùn)場景下無實(shí)體介質(zhì)直接綁定人像檢索場景的應(yīng)用,如刷臉檢票、刷臉出站等,一般人像檢索的人像底庫容量較大,需要通過業(yè)務(wù)模式的限定,縮小人像檢索底庫的范圍,形成人臉桶,并作為人像檢索1 :N中N的來源,其中N代表了人臉桶內(nèi)資源的容量。
鐵路人像檢索平臺在實(shí)現(xiàn)人像檢索的過程中需要形成人像底庫資源,內(nèi)部關(guān)聯(lián)的基礎(chǔ)數(shù)據(jù)包括管控?cái)?shù)據(jù)、電子客票及旅服數(shù)據(jù)等3部分。人像檢索基礎(chǔ)數(shù)據(jù)源如圖4所示。管控?cái)?shù)據(jù)定義了人像檢索業(yè)務(wù)的開展位置、開展有效期等,實(shí)現(xiàn)對人像建桶的預(yù)定義,涉及日期、車站等基本數(shù)據(jù);電子客票數(shù)據(jù)包括特定日期、時(shí)間、車站下的相關(guān)車次的旅客實(shí)名制信息;旅服數(shù)據(jù)向人像檢索平臺推送正晚點(diǎn)等客運(yùn)組織信息。
圖4 人像檢索基礎(chǔ)數(shù)據(jù)源Fig.4 Basic data source of face retrieval platform
上述基礎(chǔ)數(shù)據(jù)源中,因電子客票數(shù)據(jù)包含旅客姓名、證件號及證件類型等實(shí)名制數(shù)據(jù),因而是人像檢索的核心數(shù)據(jù)。將實(shí)名制數(shù)據(jù)與鐵路人臉識別平臺進(jìn)行關(guān)聯(lián),進(jìn)而實(shí)現(xiàn)實(shí)名制數(shù)據(jù)與人像檢索底庫照的一一關(guān)聯(lián),并通過人臉識別算法服務(wù)進(jìn)行底庫照的特征值抽取,進(jìn)而形成人像檢索底庫,該底庫是人像建桶的來源。
鐵路人像檢索平臺的人臉桶,指的是根據(jù)一定的組合邏輯,用特定的人臉?biāo)惴▽θ讼裾者M(jìn)行特征值抽取而形成的具有相同業(yè)務(wù)描述的集合,這些集合保存了人臉的特征值與實(shí)名制信息,以及它們之間的對應(yīng)關(guān)系。鐵路人像檢索平臺主要面向鐵路人臉識別中涉及的1 :N或者未來的M:N模式,無論支撐何種業(yè)務(wù)模式,均需要考慮在相關(guān)比對模式下人像底庫N的創(chuàng)建與維護(hù)[10]。
(1)建桶流程。人臉桶的形成主要分為人臉管控定義、實(shí)名制推送、人臉圖像關(guān)聯(lián)及特征值抽取4個(gè)階段。首先,人像檢索平臺內(nèi)部通過管控定義,定義需要開展業(yè)務(wù)的車站或者車次;其次,實(shí)名制推送服務(wù)根據(jù)管控定義,向電子客票集群獲取旅客實(shí)名制(證件類型、姓名、證件號碼)及車次信息,并推送給人臉桶維護(hù)服務(wù);再次,人臉桶維護(hù)服務(wù)通過旅客實(shí)名制數(shù)據(jù)獲取旅客證件照或歷史記錄照,實(shí)現(xiàn)人、車、照片等的關(guān)聯(lián);最后,人臉桶維護(hù)服務(wù)調(diào)用人臉識別算法,對照片進(jìn)行特征值抽取,從而實(shí)現(xiàn)管控定義范圍內(nèi)列車、旅客、證件、人像、特征值等的一致性關(guān)聯(lián),形成人臉桶。涉及旅客對車票進(jìn)行改簽或者退票,以及算法服務(wù)出現(xiàn)變更等操作的,人臉桶內(nèi)資源需要更新。人像建桶流程如圖5所示。
圖5 人像建桶流程Fig 5 Process of face bucket building
(2)建桶方式。根據(jù)業(yè)務(wù)的不同,人臉桶建設(shè)考慮的人臉數(shù)據(jù)大小存在差異。以車站為基準(zhǔn)而開展相關(guān)業(yè)務(wù)的,人臉桶標(biāo)識根據(jù)車站(始發(fā)或者終到)+日期+時(shí)間范圍+算法標(biāo)識+算法類型等標(biāo)識組合建立。設(shè)計(jì)過程中為了縮小N的大小,可采取某個(gè)時(shí)間跨度內(nèi)的人臉信息進(jìn)行建桶與維護(hù)。該部分可支持刷臉出站、人臉查詢機(jī)等業(yè)務(wù)。以列車為基準(zhǔn)而開展相關(guān)業(yè)務(wù)的,人臉桶標(biāo)識根據(jù)列車+發(fā)站+發(fā)車日期+算法標(biāo)識+算法版本+算法類型等標(biāo)識組合建立。該部分可支持刷臉檢票,也可支持未來車上檢票等人臉識別新業(yè)務(wù)。
(3)容量預(yù)估。管控定義中,定義車站為基準(zhǔn)開展業(yè)務(wù)的,假設(shè)特征值平均大小3 KB左右,標(biāo)識信息1 KB左右,單車站6 h內(nèi),站內(nèi)旅客最大容量7萬人,基于緩存建桶并做備份,鑒于此而建立的人臉桶的大小為560 MB。如果有20個(gè)車站同時(shí)使用人臉查詢機(jī),則人臉桶所需的存儲大小為10.94 GB。人臉桶資源具有時(shí)效性,極端情況可過時(shí)即失效,及時(shí)釋放人臉桶占用的資源。但是針對刷臉出站可能出現(xiàn)的人像檢索不通過的人員,需要持久化人臉桶內(nèi)資源,用于后續(xù)分析,因而該部分的人臉桶內(nèi)資源的過期時(shí)間需要足夠長,甚至可以考慮持久化,此時(shí)需要為人臉桶內(nèi)資源分配足夠大的存儲空間。
人像檢索平臺自上線以來,站內(nèi)智能查詢機(jī)日均完成人像檢索2 000人,累計(jì)完成人像檢索9萬人;刷臉出站日均完成人像檢索2 800人,累計(jì)完成近5萬人的人像檢索。針對京張鐵路沿線各站日均不足2萬人的旅客發(fā)送量,在很大程度上提升了鐵路客運(yùn)生產(chǎn)力,創(chuàng)新了旅客出行體驗(yàn)。受新冠肺炎疫情影響,現(xiàn)場戴口罩旅客人像檢索通過率較低,與此同時(shí),人像檢索平臺目前只考慮了線下應(yīng)用場景,線上12306手機(jī)客戶端等的人像檢索需求還有待進(jìn)一步挖掘。未來將著眼于基于人像檢索技術(shù)的12306手機(jī)客戶端應(yīng)用,并通過目前積累的旅客戴口罩人像信息進(jìn)行算法訓(xùn)練,新建戴口罩人像的算法模型,最終支持混合人像檢索模式。