劉田田
(江蘇開放大學(xué)信息工程學(xué)院,江蘇 南京210017)
現(xiàn)代社會(huì),安全隱私是每個(gè)人甚至每個(gè)企業(yè)不得不面對的問題,安全隱私涉及到的問題,在生活中隨處可見,如教育、醫(yī)療、交通等領(lǐng)域。近年來,隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,視頻作為信息傳遞載體具有諸多優(yōu)勢,而視頻來源的重要設(shè)備——攝像頭則備受關(guān)注。如何安全、可控的采集視頻成為使用者不得不面對的問題。現(xiàn)有技術(shù)的重點(diǎn)僅僅為了保護(hù)視頻的安全,然而內(nèi)容的安全卻少有關(guān)注。2010 年新一代信息技術(shù)變革,深度學(xué)習(xí)技術(shù)也隨之迅猛發(fā)展,因此利用深度學(xué)習(xí)來進(jìn)行研究探索視頻內(nèi)容的安全與可控問題,不失為一種有效的方法。
1956 年美國漢諾斯小鎮(zhèn)的達(dá)特茅斯“用機(jī)器來模仿人類學(xué)習(xí)以及其他方面的智能”的會(huì)議上,“人工智能”首次被提出,經(jīng)歷了繁榮、低谷的輪回期,于2010 年新一代信息技術(shù)引發(fā)的海量信息與數(shù)據(jù)的變革中迎來了增長爆發(fā)期。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究領(lǐng)域目前發(fā)展勢頭最好的一個(gè)新的領(lǐng)域,由Hinton 等人于2006 年,在頂級期刊《科學(xué)》上的一篇論文中提出[1],核心是模擬人腦的機(jī)制來解釋數(shù)據(jù),例如圖像、聲音和文本。對人工神經(jīng)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)訓(xùn)練,試圖尋找最優(yōu)解。語義分割,是計(jì)算機(jī)視覺中的基本任務(wù),在語義分割中我們需要將視覺輸入分為不同的語義可解釋類別,也就是像素級圖像分類任務(wù)[2]。視頻動(dòng)作識(shí)別也是深度學(xué)習(xí)領(lǐng)域一個(gè)較新的研究方向,潘陳聽等人研究了復(fù)雜背景下的視頻動(dòng)作識(shí)別[3]。
U-Net[4]是Olaf Ronneberger 等人參加ISBI Challenge 提出的一種分割網(wǎng)絡(luò),能夠適應(yīng)很小的訓(xùn)練集(大約30 張圖)。U-Net 是很小的分割網(wǎng)絡(luò),既沒有使用空洞卷積,也沒有后接CRF(隨機(jī)場),結(jié)構(gòu)簡單。整個(gè)U-Net 網(wǎng)絡(luò)結(jié)類似于一個(gè)大大的U 字母:首先進(jìn)行Conv+Pooling 下采樣;然后Deconv 反卷積進(jìn)行上采樣,crop 之前的低層feature map,進(jìn)行融合;然后再次上采樣。重復(fù)這個(gè)過程,直到獲得輸出388x388x2 的feature map,最后經(jīng)過softmax 獲得分割圖??傮w來說與FCN 思路非常類似。U-Net 采用將特征在通道維度拼接在一起,形成更“厚”的特征。
MTCNN 網(wǎng)絡(luò)是Kaipeng Zhang 等人于2016 年發(fā)表的“基于多任務(wù)級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的人臉檢測和對齊”一文中提出[5],主要作用主要可以實(shí)現(xiàn)特定目標(biāo)檢測與對齊,其網(wǎng)絡(luò)結(jié)構(gòu)為三層網(wǎng)絡(luò)。第一層PNet 網(wǎng)絡(luò)的結(jié)果經(jīng)過bounding boxes regression 和NMS 處理之后變?yōu)?4*24 的圖像大小放入第二層處理;第二層RNet 處理后的結(jié)果同樣經(jīng)過bounding boxes regression 和NMS處理變成48*48 大小圖像放入第三層處理;結(jié)果同樣經(jīng)過bounding boxes regression 和NMS 處理輸出目標(biāo)框與類別信息。
本方案所應(yīng)用的語義分割深度網(wǎng)絡(luò)U-NET 是一種經(jīng)典網(wǎng)絡(luò),最初用來處理醫(yī)學(xué)影像問題,經(jīng)過改進(jìn)后用來處理分割人體前景與背景的問題?;谏疃葘W(xué)習(xí)的圖像分類技術(shù),是輸入圖像對該圖像內(nèi)容分類的描述的問題。本方案所應(yīng)用的手勢分類深度網(wǎng)絡(luò)MTCNN-P 為較淺網(wǎng)絡(luò),最初用來處理人臉識(shí)別定位問題,經(jīng)過改進(jìn)后用來處理手勢識(shí)別的問題?;谏疃葘W(xué)習(xí)的人臉識(shí)別技術(shù),是當(dāng)下人臉識(shí)別的主要方向,以數(shù)據(jù)作為驅(qū)動(dòng)引擎,解決諸多傳統(tǒng)算法的弊端。本方案所應(yīng)用的人臉識(shí)別網(wǎng)絡(luò)為IsightFace 網(wǎng)絡(luò),用來解決視頻中人臉識(shí)別的問題。
本方案采用改進(jìn)MTCNN 網(wǎng)絡(luò),即MTCNN-P 網(wǎng)絡(luò)。MTCNN網(wǎng)絡(luò)模型尺寸足夠小,使得其可以應(yīng)用于嵌入式,滿足系統(tǒng)性能要求。MTCNN 網(wǎng)絡(luò)主要作用主要可以實(shí)現(xiàn)特定目標(biāo)檢測與對齊,其網(wǎng)絡(luò)結(jié)構(gòu)為三層網(wǎng)絡(luò)。微調(diào)后MTCNN-P 其基本的構(gòu)造是一個(gè)簡單分類網(wǎng)絡(luò),去除原有的框回歸,輸出二值信息,判斷類別?;贛TCNN-P 的手勢分類采用的是基于深度學(xué)習(xí)的普通分類算法,該網(wǎng)絡(luò)用來檢測人臉,可以勝任簡單的分類任務(wù)。
IsightFace 網(wǎng)絡(luò)核心部分損失函數(shù)(Centre loss)主要懲罰了深層特征與其相應(yīng)的歐幾里得空間類中心之間的距離,以實(shí)現(xiàn)類內(nèi)緊湊性。假設(shè)在最后一個(gè)完全連接的層中的線性變換矩陣可以用角空間中的類中心來表示,并且以乘法方式懲罰深度特征與其相應(yīng)的權(quán)重之間的角度。特征和最后一個(gè)完全連接的層之間的點(diǎn)積等于特征和權(quán)重歸一化之后的余弦距離。利用余弦函數(shù)(arc-cosine function)計(jì)算人臉特征和目標(biāo)權(quán)重之間的夾角。然后,在目標(biāo)角度上增加一個(gè)附加的角余量,通過余弦函數(shù)再次得到目標(biāo)logit。最后,用一個(gè)固定的特征范數(shù)重新縮放所有l(wèi)ogits,并且后續(xù)步驟與softmax loss 中的步驟完全相同。傳統(tǒng)的softmax loss 損失函數(shù)為:
也就是向量內(nèi)積的結(jié)果是向量各自的模相乘,在乘上向量夾角的余弦值。那么向量相乘得到的結(jié)果其實(shí)就是xi對應(yīng)在第j 類的夾角。然后使用L2 正則化處理Wj使得,L2 正則化就是將Wj向量中的每個(gè)值都分別除以Wj的模,從而得到新的Wj,新的Wj的模就是1,實(shí)際上是個(gè)方向向量進(jìn)而獲得概率。
集成三種深度神經(jīng)網(wǎng)絡(luò),分別實(shí)現(xiàn)人體輪廓分割、手勢識(shí)別、人臉識(shí)別三大功能。人體輪廓分割為主要處理任務(wù),手勢識(shí)別與人臉識(shí)別相當(dāng)于外層邏輯,實(shí)現(xiàn)“隱私”控制。整套系統(tǒng)架構(gòu)如圖1 系統(tǒng)架構(gòu)圖所示。
圖l 系統(tǒng)架構(gòu)圖
整體代碼為C++程序,便于后續(xù)集成宿主程序。深度學(xué)習(xí)模型代碼文件經(jīng)過特定平臺(tái)編譯器,生成.SO 算法動(dòng)態(tài)庫,這個(gè)動(dòng)態(tài)庫與宿主程序經(jīng)過Hisiv100 交叉編譯工具生成.o 可執(zhí)行程序,燒錄進(jìn)攝像頭,實(shí)現(xiàn)最終軟硬件結(jié)合。
集成到攝像頭終端的三個(gè)深度學(xué)習(xí)模型,為提前訓(xùn)練好的模型。為了滿足在嵌入式設(shè)備上運(yùn)行深度學(xué)習(xí)模型,需要進(jìn)一步優(yōu)化。本方案使用了常見的int8 量化方法,進(jìn)一步壓縮模型,提升性能。原始圖像經(jīng)過預(yù)處理模塊簡單進(jìn)行噪聲過濾處理,消除常見噪聲對圖像質(zhì)量的影響。圖像在進(jìn)入U(xiǎn)-NET 網(wǎng)絡(luò)之前,會(huì)進(jìn)行手勢判斷,檢測手部區(qū)域并定位手部關(guān)節(jié)點(diǎn),根據(jù)手部關(guān)鍵節(jié)點(diǎn)的形狀判斷屬于哪種手勢。這個(gè)手勢為人的手掌“OK”造型時(shí),表示驗(yàn)證通過,視頻流可以進(jìn)入U(xiǎn)-NET 網(wǎng)絡(luò)。這樣做的目的就是錄像的自主可控,在不想要錄制的時(shí)候可以“示意”攝像頭“拳頭”造型,表示終止視頻流。視頻流進(jìn)入U(xiǎn)-NET 網(wǎng)絡(luò),實(shí)現(xiàn)人體輪廓分割,得到輪廓坐標(biāo),進(jìn)一步提取人體前景與背景信息,并對背景部分進(jìn)行遮擋,實(shí)現(xiàn)視頻流隱私的保護(hù)。在進(jìn)行最終結(jié)果輸出的時(shí)候,會(huì)進(jìn)行人臉識(shí)別判斷,如果非設(shè)定人員,則不會(huì)輸出最終結(jié)果,實(shí)現(xiàn)視頻流的自主控制。
本方案組合新穎,核心部分均采用以數(shù)據(jù)為驅(qū)動(dòng)的深度學(xué)習(xí)網(wǎng)絡(luò),對原創(chuàng)視頻(直播)數(shù)據(jù)進(jìn)行多層防加密護(hù),真正做到數(shù)據(jù)的安全自主可控。系統(tǒng)架構(gòu)清晰,可輕松移植到嵌入式、服務(wù)器中,而且不需要過多代碼。整個(gè)架構(gòu)魯棒性較強(qiáng),應(yīng)對人為破壞能力較強(qiáng),安全性和穩(wěn)定性較高。
本方案為了解決視頻內(nèi)容的安全與可控問題,提出集成三種深度神經(jīng)網(wǎng)絡(luò)。通過人體輪廓分割處理視頻內(nèi)容任務(wù),通過手勢識(shí)別與人臉識(shí)別,實(shí)現(xiàn)“隱私”控制。本方案中集成到攝像頭終端的三個(gè)深度學(xué)習(xí)模型,是提前訓(xùn)練好的模型,若將該模型應(yīng)用到嵌入式設(shè)備上,后續(xù)需要進(jìn)一步優(yōu)化。