楊觀賜 楊 靜 蘇志東 陳占杰
越來越多的智能家居系統(tǒng)和服務(wù)機器人廣泛使用攝像頭,這會引入隱私泄漏風(fēng)險,是阻礙此類系統(tǒng)推廣的最大障礙之一[1].前期問卷調(diào)查表明[2],對隱私內(nèi)容有符合人心理需求反應(yīng)的系統(tǒng),可改善用戶體驗感受,如何識別與保護具有視覺設(shè)備的服務(wù)機器人的隱私數(shù)據(jù)是值得研究的問題.Arabo等[3]設(shè)計了一種智能家居環(huán)境中隱私與安全框架,Kozlov等[4]通過分析智能家居環(huán)境下各系統(tǒng)間的安全和隱私與互信風(fēng)險,研究了高度依賴法律支持的隱私控制機制、隱私風(fēng)險分級方法.這些研究主要從數(shù)據(jù)訪問控制等角度考慮信息安全,沒有提出數(shù)據(jù)獲取階段的敏感數(shù)據(jù)識別與保護方案.Denning等[5]指出,即使智能服務(wù)機器人使用加密和認證方式,網(wǎng)絡(luò)攻擊者也有機會控制機器人或提取敏感數(shù)據(jù).
在學(xué)術(shù)界,圖像特征提取方法是研究的熱點[6].文獻[7]通過映射聚合層中各個點的值為Block中各個點的激活概率均值,得到一種均值聚合機制.雖然此方法的準確率高于基于聚合層進行圖像特征提取方法[8],但是特征提取過程復(fù)雜,模型訓(xùn)練時間較長.文獻[9]通過定義新的結(jié)構(gòu)元和自適應(yīng)向量融合模型,提出一種加權(quán)量化方法自適應(yīng)融合圖像目標和背景.當(dāng)圖像背景與目標均較大時,該方法能體現(xiàn)圖像全局特征的相關(guān)性,但當(dāng)目標較小時相關(guān)性表征變得困難.文獻[10]采用Gabor濾波器[11]和局部模式分析來提取特征,雖然該方法可以獲得較多的灰度圖像特征,但在圖像預(yù)處理和測試階段需要將圖像歸一化大小,不能檢測隨機大小的圖片.此類特征提取方法對小規(guī)模數(shù)據(jù)集的特征提取具有很好的表現(xiàn)能力,但對海量數(shù)據(jù),特別是復(fù)雜背景環(huán)境下的數(shù)據(jù),其特征提取能力有待進一步提高.
YOLO(You only look once:unified,real-time object detection)[12]是一種基于卷積神經(jīng)網(wǎng)絡(luò)的目標實時檢測模型,因其具有海量數(shù)據(jù)的學(xué)習(xí)能力、點對點的特征提取能力以及良好的實時識別效果而備受關(guān)注[13?14].文獻[15]通過使用高斯混合模型模擬背景特征,提出基于高斯混合模型和YOLO的行人檢測算法,在檢測變電站監(jiān)控視頻中的行人時取得良好效果.文獻[16]利用交替方向乘子法[17]提取灰度圖像上下文信息特征,并將該信息組合成一個2D輸入通道作為YOLO神經(jīng)網(wǎng)絡(luò)模型的輸入,形成了基于YOLO的實時目標檢測算法,雖然識別精度有所提高,但是模型的時間開銷較大.文獻[18]設(shè)計了提取圖像內(nèi)文本字符的機制,并采用YOLO進行文本檢測和邊界框回歸.文獻[19]評估了目標檢測算法YOLO、Faster-RCNN[20]、霍夫森林[21]的性能,并指出YOLO在檢測速度和識別精度上都要高于兩種比較算法.上述這些研究就提高YOLO的性能、拓展其應(yīng)用等方面做了許多工作,但是采用YOLO神經(jīng)網(wǎng)絡(luò)解決圖像的特征提取問題時,存在以下不足[22?23]:
1)在識別的過程中,YOLO將需要識別的圖像分割為7×7的網(wǎng)格,單元格內(nèi)用于預(yù)測目標的神經(jīng)元可以屬于若干個屬于同一類別的滑動窗口,這使得模型具有很強的空間約束性.若滑動窗口內(nèi)涵蓋多個不同類別的對象時,系統(tǒng)無法同時檢測出全部的目標對象.
2)在訓(xùn)練過程中對數(shù)據(jù)集特征提取,網(wǎng)絡(luò)中的單元格最多負責(zé)預(yù)測一個真實目標,這導(dǎo)致YOLO檢測相對靠近且較小的目標時效果欠佳.
3)在圖像預(yù)處理階段,YOLO將訓(xùn)練數(shù)據(jù)集的高分辨率圖像處理為低分辨率數(shù)據(jù)并用于最終的分類特征的提取.經(jīng)過多次卷積后,原始圖片分布區(qū)域中的小目標特征難以保存.
使用服務(wù)機器人引起的道德問題沒有被充分考慮,倫理原則應(yīng)該體現(xiàn)到服務(wù)機器人的研發(fā)中[24].課題組在研發(fā)服務(wù)機器人時,采用YOLO識別家庭環(huán)境中不同情境.為了提高YOLO神經(jīng)網(wǎng)絡(luò)對較小目標的識別能力,解決其在特征提取過程中信息丟失的問題,本文提出了改進的YOLO特征提取算法,并將其應(yīng)用于服務(wù)機器人隱私情境檢測.
目標實時檢測模型YOLO[12]包括18個卷積層、2個全連接層和6個池化層,其中卷積層用于提取圖像特征,全連接層預(yù)測圖像位置與類別估計概率值,池化層負責(zé)縮減圖片像素.YOLO根據(jù)輸入的圖像數(shù)據(jù),運用回歸分析法輸出圖像數(shù)據(jù)的多個滑動窗口位置及該窗口中檢測到的目標類別.
YOLO將輸入圖像分成S×S個單元格,每個單元格的神經(jīng)元負責(zé)檢測落入該單元格的對象,最多可包括兩個預(yù)測對象的滑動窗口.滑動窗口的信息采用五元組T(x,y,w,h,c)表示,x與y是當(dāng)前格子神經(jīng)元預(yù)測到的檢測對象的置信度中心位置的橫坐標與縱坐標.w和h分別是滑動窗口的寬度和高度.c是置信度,它反映當(dāng)前滑動窗口是否包含檢測對象及其預(yù)測準確性的估計概率,計算公式為
其中,Po表示滑動窗口包含檢測對象的概率,PIOU表示滑動窗口與真實檢測對象區(qū)域的重疊面積(單位是像素).若滑動窗口中包含檢測對象,則Po=1,否則Po=0.當(dāng)單元格具有多個滑動窗口時,它們的最大PIOU值將代入式(1)計算,最終只選擇重疊面積最大的檢測對象輸出.
通常,若B為每個單元格可以用于預(yù)測對象的滑動窗口數(shù)量,C為類別總數(shù),則YOLO的全連接層的輸出維度是:S×S×(B×5+C).
YOLO的損失函數(shù)計算公式為
其中,Ec,EIOU和Eclass分別表示預(yù)測數(shù)據(jù)與標定數(shù)據(jù)之間的坐標誤差、PIOU誤差與分類誤差.
坐標誤差Ec的計算公式為
其中,λc是坐標誤差Ec的權(quán)重系數(shù),YOLO中的取值為5.xi,yi,wi和hi分別表示預(yù)測的單元格i的滑動窗口的中心點橫坐標與縱坐標及其長度和寬度;分別表示真實的單元格i的滑動窗口的中心點橫坐標與縱坐標及其長度與寬度;表示單元格i包含檢測目標對象(其值歸一化為0或1),表示第j個滑動窗口中單元格i的神經(jīng)元負責(zé)檢測目標對象(其值歸一化為0或1).
PIOU誤差EIOU的計算公式為
其中,λnbj是滑動窗口與真實檢測對象區(qū)域的重疊面積PIOU誤差的權(quán)重,YOLO中設(shè)置為0.5.ci表示預(yù)測的滑動窗口中單元格i的置信度值;表示真實的滑動窗口中的單元格i的置信度值.表示第j個滑動窗口內(nèi)單元格i不負責(zé)檢測目標對象,即分別表示檢測目標對象是否存在于第j個滑動窗口的單元格i內(nèi).考慮到單元格包含檢測對象與不包含檢測對象其PIOU誤差對整個訓(xùn)練模型的損失函數(shù)的貢獻不同,不包含檢測對象的單元格的神經(jīng)元的置信度值趨近于0,若采用相同的權(quán)重,則會間接地放大包含有檢測對象的單元格的自信度誤差.因此,YOLO使用λnbj=0.5以減小傳遞誤差.
分類誤差Eclass計算公式為
其中,pi(k)與分別表示預(yù)測的與真實的滑動窗口中單元格i包含第k類對象的條件概率.
1)第1類現(xiàn)象:典型的目標匹配檢測方法DPM(Deformable parts model)[25]利用梯度信息提取圖像的特征,通過計算梯度方向的直方圖獲得梯度模型與目標匹配關(guān)系,從而實現(xiàn)目標分類和檢測.對于梯度方向的直方圖,首先將滑動窗口劃分為大小相同的細胞單元,并分別提取相應(yīng)的梯度信息,以減少光照或背景因素的影響;之后,將相鄰細胞單元組合成相互重疊的塊以充分利用重疊的單元信息;然后統(tǒng)計整個塊的直方圖,與此同時通過歸一化處理每個塊內(nèi)的直方圖以減少噪聲對圖片的影響;之后,收集所有直方圖特征形成特征向量.最后,采用支持向量機分類得到物體的梯度模型.此方法可以減少背景噪聲數(shù)據(jù)對判定精度的影響,有利于提高分類和檢測的準確性.
2)第2類現(xiàn)象:最近鄰的目標檢測方法RPN(Region proposal networks)[20]的核心思想是給定輸入圖像,經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)對輸入的特征圖進行卷積和池化,在最后一個卷積層,采用滑動窗口進行特征提取操作,得到相應(yīng)的特征向量,再采用Softmx分類函數(shù)進行分類和邊框回歸,RPN方法能夠以較低的時間成本獲得較高的單一目標識別準確率.
3)第 3類現(xiàn)象:全卷積神經(jīng)網(wǎng)絡(luò) R-FCN(Region-based fully convolutional networks)[26]只包括卷積層和池化層,具有實現(xiàn)整個圖像信息共享的機制,在分類準確性方面具有良好表現(xiàn).
綜上可知,當(dāng)處理因光照、背景、采集設(shè)備等不同而引入的噪聲數(shù)據(jù)時,可以借鑒DPM方法,通過增加滑動窗口內(nèi)細胞單元的數(shù)量提高復(fù)雜背景數(shù)據(jù)的分類和檢測準確性;與此同時,對于單一目標的數(shù)據(jù),可以基于RPN方法獲得較好的識別效果;而R-FCN方法可以保留更多的圖像信息,這有利于特征的提取.正是基于這些啟發(fā),本文試圖通過增加檢測窗口內(nèi)細胞單元的數(shù)量,移除全連接層,并結(jié)合邊框回歸和滑動窗口,以提高YOLO性能.
基于上一節(jié)的啟發(fā),本文提出了改進的YOLO神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),包括18個提取圖像特征的卷積層、6個用來縮減圖片像素的池化層、1個Softmax輸出層和1個全連接層,如圖1所示.同時,采用Dropout[27]方法以0.3的概率隨機將神經(jīng)元置為零,從而丟棄神經(jīng)網(wǎng)絡(luò)中的部分神經(jīng)元,以減少計算成本,降低節(jié)點間耦合性,緩解過擬合問題.此結(jié)構(gòu)中,借鑒R-FCN方法采用一個全連接層以減少特征信息的丟失;在輸入圖像后,借鑒RPN方法設(shè)置了一個2×2的最大池化層以縮小圖片尺寸的同時盡可能多的保存原始圖片信息.與此同時,將多層卷積和池化操作后的網(wǎng)格由原來的7×7變?yōu)?4×14以提高網(wǎng)絡(luò)特征圖譜的尺寸.圖2是不同網(wǎng)格尺寸下目標識別結(jié)果對比圖.由圖2可知,在7×7網(wǎng)格下,系統(tǒng)只能預(yù)測2個目標,但在14×14網(wǎng)格下系統(tǒng)可以識別出3個目標,當(dāng)圖中有多個目標對象,特別是包括小目標對象時,這種擴大后的網(wǎng)格尺寸,可以增加小目標特征的提取能力,實現(xiàn)對小目標的識別,從而提高系統(tǒng)的識別準確性.各種目標是構(gòu)成不同情境的要素,通過對目標的識別可以區(qū)分不同的情境,當(dāng)情境中包括涉及隱私內(nèi)容的目標時,即可判定為隱私情境.因此,當(dāng)目標中包括涉及隱私內(nèi)容的小目標時,提高小目標識別準確性,有利于提高隱私情境檢測的準確性.
圖1 改進的YOLO神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Improved YOLO neural network structure
圖2 不同網(wǎng)格規(guī)模下的目標識別效果對比圖Fig.2 Comparison diagram of object recognition with different grid scale
YOLO在檢測目標對象時,一個單元格涉及到多個滑動窗口,而最終輸出的標識目標對象的窗口小于等于圖片數(shù)據(jù)分類數(shù).當(dāng)將YOLO應(yīng)用于情境檢測時,不需要標識所有的目標,而是需要反饋需要檢測的對象是否存在于當(dāng)前視圖中.因此設(shè)計了基于RPN的滑動窗口合并算法,具體見算法1.
算法1.基于RPN的滑動窗口合并算法
輸入.圖片數(shù)據(jù)Xpic.
輸出.檢測目標的滑動窗口位置的集合L.
步驟1.利用網(wǎng)格劃分的方法將Xpic劃分為n個單元格,生成集合R={S1,S2,···,Sn};
步驟2.初始化單元格Si的相似集合mi=?,并初始化14×14規(guī)格的滑動窗口;
步驟3.for滑動窗口中的鄰近區(qū)域?qū)?Si,Sj)do
步驟3.1采用RPN方法及式(1)計算滑動窗口內(nèi)與Si相鄰的所有單元格Sj的特征相似度F(Si,Sj);
步驟3.2找出最大相似度值Fmax(Si,Sj);
步驟3.3更新單元格Si的相似集合mi=mi∪{Fmax(Si,Sj)};
步驟3.4 while(每一個單元格Si的相似集合mi?)
1)找出集合mi中的元素對應(yīng)的所有單元格,并去除不包括檢測對象的單元格;
2)將所獲得的單元格與單元格Si合并形成新的Si,并將其作為集合L的元素;
步驟4.輸出目標位置檢測滑動窗口集合i.
運用算法1獲得的集合L可以確定經(jīng)過卷積和池化操作后的滑動窗口的邊框.通過合并相似區(qū)域可以減少冗余和時間開銷.
結(jié)合第2.2節(jié)的結(jié)構(gòu)及第2.3節(jié)設(shè)計的算法,本節(jié)給出基于改進YOLO的特征提取算法,具體見算法2.
算法2.基于改進YOLO的特征提取算法
輸入.圖片數(shù)據(jù)集X.
輸出.圖片數(shù)據(jù)X的特征模型Mweights.
步驟1.圖片數(shù)據(jù)預(yù)處理,針對圖片數(shù)據(jù)集X的每一張圖片采用LabelImg[28]工具獲得真實目標的矩形區(qū)域坐標,生成每張圖片中真實目標的坐標信息文件Fc;
步驟2.加載YOLO的圖片分類訓(xùn)練模型,同時初始化圖片數(shù)據(jù)X的特征模型Mweights,初始化每張圖片的預(yù)測矩形區(qū)域坐標為空;
步驟3.坐標信息文件Fc,基于RPN方法生成每張圖片的若干個目標候選區(qū)域矩陣向量;
步驟4.將候選區(qū)域矩陣向量作為第1層的輸入,將其結(jié)果作為第二層的輸入;
步驟5.執(zhí)行池化操作;
步驟6.將步驟5中的結(jié)果作為輸入,采用一個滑動窗口掃描網(wǎng)格,進行卷積與池化操作計算出滑動窗口內(nèi)單元格的特征向量;
步驟7.將步驟6所得的特征向量作為第18個卷積層的輸入,運用2×2步幅進行卷積操作;
步驟8.將步驟7的輸出作為全連接層的輸入,采用1×1步幅進行卷積操作;
步驟9.將步驟8的輸出作為分類函數(shù)Softmax的輸入,計算圖片數(shù)據(jù)Xpic的預(yù)測概率估計值Ppic,并保存運用算法1獲得的重疊面積最大的PIOU對應(yīng)的目標區(qū)域的特征;
步驟10.將對應(yīng)的目標區(qū)域的特征保存到特征模型Mweights中每一個類別相對應(yīng)的位置;
步驟11.輸出特征模型Mweights.
算法2中,步驟1的LabelImg工具用于獲得選定區(qū)域的坐標信息.步驟7運用2×2的最大池化層以縮小圖片尺寸的同時盡可能多的保存原始圖片的信息,輸出14×14的網(wǎng)絡(luò)特征圖譜.步驟8中,滑動窗口要在17個用來提取圖像特征的卷積層和6個減小圖像尺寸的池化層中進行操作.在這個過程中,滑動窗口每次進行卷積操作時,運用算法1計算出重疊面積最大的PIOU代入式(2)計算損失函數(shù)的最小值.在應(yīng)用系統(tǒng)中,可以根據(jù)步驟11中輸出的特征模型Mweights進行應(yīng)用判定.
圖3 服務(wù)機器人平臺Fig.3 Social robot platform
圖4 情境檢測系統(tǒng)的總體工作流程Fig.4 The overallflow chart of the privacy situation detection system
圖3是課題組搭建的服務(wù)機器人平臺,包括移動底座、數(shù)據(jù)處理器、數(shù)據(jù)采集設(shè)備以及機械支架等部分.圖4為系統(tǒng)的總體工作流程.用于輸入與顯示數(shù)據(jù)的觸摸顯示屏是16寸的支持Linux系統(tǒng)的工業(yè)觸摸屏;視覺系統(tǒng)采用ORBBEC 3D體感攝像頭,可以采集RGB深度圖像.聽覺系統(tǒng)是基于科大訊飛語音模塊拓展而成,能夠在嘈雜環(huán)境中識別語音和定位聲音方位.開發(fā)板是擁有256核GPU的NVIDIA Jetson TX1;移動底座是iRobot Create 2.系統(tǒng)的操作系統(tǒng)是Ubuntu 16.04,并安裝了Kinect版本的ROS(Robot operation system)系統(tǒng).用于降低服務(wù)機器人運算負荷的工作站是ThinkPad t550(GPU為NVIDA geForce 940MB),主要用于數(shù)據(jù)分析.同時,服務(wù)機器人與工作站均安裝了OpenCV 3.1與TensorFlow 0.9[29],YOLO,ROS系統(tǒng).服務(wù)機器人具有無線通訊模塊,可以實現(xiàn)服務(wù)機器人與工作站間端到端的通信.
圖4中,在收集訓(xùn)練數(shù)據(jù)集的基礎(chǔ)上,具有GPU的工作站運用算法2訓(xùn)練數(shù)據(jù)集以獲得特征模型.然后,將獲得的特征模型傳送到服務(wù)機器人,服務(wù)機器人接收到模型后開啟攝像頭,并按給定頻率(10秒)從攝像頭讀取圖片進行情境檢測.最后,根據(jù)檢測結(jié)果決定機器人動作.若檢測到隱私情境,機器人調(diào)整攝像頭的角度,同時根據(jù)識別的隱私內(nèi)容形成摘要的信息存儲在文本文件中,每隔30秒后,用語音咨詢的方式,詢問是否可以將攝像頭重新用于觀察人的行為.若回復(fù)是否定的,則系統(tǒng)的攝像頭保持不工作的狀態(tài),從而達到保護隱私信息的目的.例如,當(dāng)系統(tǒng)檢測到用戶在洗澡時,將攝像頭旋轉(zhuǎn)90度,并存儲文本信息“2017年3月29日8:00用戶在洗澡”.同時,系統(tǒng)開始記時,30秒后,詢問是否已經(jīng)洗澡完成.若人響應(yīng)的內(nèi)容是肯定的,則攝像頭恢復(fù)到前一時刻的觀察角度繼續(xù)采集數(shù)據(jù),然后依據(jù)識別的數(shù)據(jù)決定服務(wù)機器人的動作.
訓(xùn)練數(shù)據(jù)集由不同情境下的圖片數(shù)據(jù)組成,運用提出的算法獲得特征模型用于應(yīng)用系統(tǒng).驗證數(shù)據(jù)集用于特征模型提取過程中,測試特征模型在不同參數(shù)下的識別性能以精練特征模型.
本文考慮的家居情境包括6類:C1:洗澡;C2:裸體或半裸體睡覺;C3:上廁所;C4:導(dǎo)致身體裸露的換衣服;C5:有人但不涉及上述隱私內(nèi)容;C6:家居環(huán)境中沒有人的存在.數(shù)據(jù)來源包括兩種方式:1)在課題組組建的家居環(huán)境中,使用構(gòu)建的服務(wù)機器人平臺上的3D體感攝像頭自主采集的圖片,約占整個數(shù)據(jù)集的81%.2)從網(wǎng)絡(luò)中收集、篩選并進行適當(dāng)處理后的家居環(huán)境中的圖片,它們具有不同的場景、對象、光亮、角度與像素,以豐富數(shù)據(jù)集.
訓(xùn)練數(shù)據(jù)集的6類情境共包括2580個樣本,每類包括430張樣本.
驗證數(shù)據(jù)集的6類情境由360個樣本組成,每一個類包括60個樣本.
圖5是數(shù)據(jù)集的樣本示例.
圖5 數(shù)據(jù)集示例Fig.5 Samples of the collected dataset
為了測試系統(tǒng)的性能,設(shè)計了3個實驗.
實驗1.家居環(huán)境包括在訓(xùn)練數(shù)據(jù)集中的隱私情境檢測.測試數(shù)據(jù)a與b的獲取方式是:由訓(xùn)練集中的對象和不在訓(xùn)練集中的對象分別在課題組家居環(huán)境中獲取的圖片.此實驗測試系統(tǒng)對不同檢測對象的檢測魯棒性.
實驗2.檢測對象(人)相同時,檢測環(huán)境不包括在訓(xùn)練數(shù)據(jù)集中的隱私檢測.這一實驗查驗訓(xùn)練集中的情境發(fā)生變化后,系統(tǒng)對于隱私檢測內(nèi)容的準確性.測試數(shù)據(jù)c為:訓(xùn)練集中的對象在其他家居環(huán)境中的圖片.此實驗考查系統(tǒng)對不同檢測環(huán)境的檢測表現(xiàn).
實驗3.檢測對象與家居環(huán)境情境均不包括在訓(xùn)練數(shù)據(jù)集中的隱私檢測.為了體現(xiàn)數(shù)據(jù)的客觀性和多樣性,測試數(shù)據(jù)d從網(wǎng)絡(luò)上搜集整理而得.在測試時,通過模擬系統(tǒng)攝像頭實時采集的方式為檢測系統(tǒng)提供數(shù)據(jù).該實驗檢測系統(tǒng)在檢測對象與環(huán)境均與訓(xùn)練數(shù)據(jù)完全不同時的性能.
上述a,b,c,d四類測試數(shù)據(jù),在每種情境下均測試40張圖片,每類數(shù)據(jù)在6種情境下共測試相互各異的240張圖片.完成4個實驗,共涉及960張圖片.測試數(shù)據(jù)集與訓(xùn)練集無雷同數(shù)據(jù).
特別需要說明的是,考慮到實時采集的數(shù)據(jù)不方便比較測試與分析,因此,后文測試和比較所用的數(shù)據(jù)集均是提前采集的數(shù)據(jù),測試時模擬攝像頭實時工作的機制將數(shù)據(jù)傳送給系統(tǒng).
考慮到模型的訓(xùn)練需要花費大量的時間,不同的訓(xùn)練規(guī)模對模型的性能有影響.為了讓提出的訓(xùn)練模型具有較好的性能,本節(jié)研究訓(xùn)練步驟對預(yù)測概率估計值的影響,從而找出較優(yōu)(或者說可行的)訓(xùn)練步驟規(guī)模.同時,由于不同的學(xué)習(xí)率對模型的識別準確性也有影響,因此通過實驗測試,研究了不同學(xué)習(xí)率下模型的識別準確性.
設(shè)計了11種不同的步驟規(guī)模,并針對上一節(jié)給出的驗證數(shù)據(jù)集的360個樣本,借鑒YOLO的設(shè)置給定模型的學(xué)習(xí)率為0.001時,模型的預(yù)測概率估計值、識別準確率及單圖識別時間的平均值統(tǒng)計結(jié)果如表1所示,變化趨勢如圖6所示,不同訓(xùn)練步驟下模型的類別估計值統(tǒng)計盒圖如圖7所示.
表1 不同步驟下的模型性能表現(xiàn)Table 1 The model performance with different steps
圖6 不同步驟下的模型性能變化趨勢Fig.6 Variation trends of the proposed model under different steps
從圖6與表1可以看出,當(dāng)訓(xùn)練步驟為1000時,平均預(yù)測概率估計值為0.588,識別準確率為0.733;隨著訓(xùn)練步驟的增加,模型的預(yù)測概率估計值和隱私情境識別準確值呈上升趨勢,當(dāng)訓(xùn)練步驟規(guī)模為9000時,模型的平均預(yù)測概率估計值達到最高值0.830,同時識別準確率的均值也達到最大0.967.當(dāng)訓(xùn)練步驟繼續(xù)增大到20000步時,模型的平均預(yù)測概率估計值下降為0.568,此時的平均預(yù)測準確值為0.417.同時,結(jié)合圖7可知,在當(dāng)訓(xùn)練步驟處于1000~7000時,雖然矩形外的異常值較少,但是所對應(yīng)的盒圖矩形區(qū)域較長,且中位線較低.當(dāng)訓(xùn)練步驟為8000與10000時,雖然數(shù)據(jù)的中位線較高,但是處于矩形框外的異常點也比較多,而且存在接近0的預(yù)測估計值奇異點.當(dāng)訓(xùn)練步驟為9000時,盒圖矩形區(qū)域面積較窄,并且較其他情況下具有最高的中位線,雖然存在處于矩形框外的異常點,但最低的異常點都高于訓(xùn)練步驟為2000、3000和4000所對應(yīng)的最低矩形區(qū)域;進一步檢查對應(yīng)的數(shù)據(jù)發(fā)現(xiàn),此時的異常點數(shù)據(jù)僅有2個,均大于0.450.
圖7 不同訓(xùn)練步驟下模型的預(yù)測概率估計值統(tǒng)計盒圖Fig.7 Boxplot of prediction accuracy under different training steps
從表1中的時間開銷統(tǒng)計結(jié)果可知,系統(tǒng)的平均開銷時間在2.1~2.6ms之間,模型具有較短的識別時間,滿足實時性要求較低的實時檢測應(yīng)用要求.
綜上分析可以得出結(jié)論,當(dāng)訓(xùn)練步驟設(shè)置為9000時,所提出的模型能夠獲得最好的預(yù)測估計值與識別準確性.
為了獲得能夠讓模型發(fā)揮最好性能的學(xué)習(xí)率設(shè)置,結(jié)合上一節(jié)的結(jié)論,在設(shè)置訓(xùn)練步驟為9000時,考查學(xué)習(xí)率分別為 1,10?1,10?2,10?3,10?4,10?5,10?6,10?7,10?8,10?9和10?10時的模型性能表現(xiàn).針對設(shè)計的驗證數(shù)據(jù)集的360個樣本,模型的預(yù)測概率估計值與識別準確率平均值統(tǒng)計結(jié)果見表2、圖8與圖9.
從表2與圖8可以看出,當(dāng)學(xué)習(xí)率大于0.100時,隨著學(xué)習(xí)率的減小,模型的平均概率預(yù)測估計值與識別準確率均有增大的趨勢.當(dāng)學(xué)習(xí)率為10?1時,預(yù)測概率估計值達到最大值0.911,并且平均識別準確率達到1.當(dāng)學(xué)習(xí)率從10?1減小到10?4時,預(yù)測概率估計值處于0.800以上,識別準確率均值處于0.940左右,學(xué)習(xí)率的變化對上述兩性能指標的影響較小.當(dāng)學(xué)習(xí)率從10?4減小到10?10時,預(yù)測概率估計值與識別準確率的均值隨著學(xué)習(xí)率的變小而呈現(xiàn)出明顯下降,它們的最低平均值分別為0.315和0.417.
表2 不同學(xué)習(xí)率下的模型性能統(tǒng)計結(jié)果Table 2 The statistical results of model performance with different learning rates
圖8 不同學(xué)習(xí)率下的模型性能變化趨勢Fig.8 The trend of model performance under different learning rates
圖9 不同學(xué)習(xí)率下的預(yù)測估計值統(tǒng)計盒圖Fig.9 Boxplot of prediction accuracy with different learning rates
從圖9可進一步發(fā)現(xiàn),當(dāng)學(xué)習(xí)率為1時,對應(yīng)的矩形框面積最大,雖然表2中對應(yīng)的平均值只有0.670,但其盒圖中對應(yīng)的矩形框延伸到了縱軸上的0.900刻度以上,表明存在一定數(shù)量大于0.900的預(yù)測估計值.當(dāng)學(xué)習(xí)率為0.100時,雖然存在一些異常值,但其矩形區(qū)域較小,表明系統(tǒng)在大數(shù)情況下可以輸出較大的預(yù)測估計類別值.在學(xué)習(xí)率為1010~10?1內(nèi)時,對應(yīng)圖形存在較多的異常點,并輸出大量較小的預(yù)測概率估計值.
綜上分析可以得出結(jié)論,當(dāng)學(xué)習(xí)率設(shè)置為0.100時,所提出的模型具有較好的性能表現(xiàn),在應(yīng)用時可以采用此設(shè)置.
在搭建的服務(wù)機器人平臺上,部署設(shè)計的算法,同時將學(xué)習(xí)率與訓(xùn)練步驟分別設(shè)置為0.100和9000,針對測試數(shù)據(jù)集中的四類數(shù)據(jù)進行測試,系統(tǒng)情境識別準確率、類別估計值及時間開銷統(tǒng)計結(jié)果見表3與表4,預(yù)測概率估計值統(tǒng)計盒圖見圖10.
表3 系統(tǒng)針對不同測試數(shù)據(jù)集的隱私識別準確率Table 3 Privacy situation recognition accuracy of the proposed system for different testing data sets
觀察這些數(shù)據(jù)可知:
1)由實驗1中的a類測試數(shù)據(jù)可知,系統(tǒng)的情境識別準確率在情境C2,C3,C4和C6下為0.975,在C5情境下為1,在C1情境下最低為0.9.對于實驗1中的b類測試數(shù)據(jù),在C2,C3,C4和C6情境下分別對應(yīng)的識別準確率為0.950,0.975,0.925,0.950,在C5情境下為1,在C1情境下為0.850.表4的數(shù)據(jù)顯示,對于a類測試數(shù)據(jù),針對C1~C6情境類別估計值均值分別是:0.82,0.968,0.971,0.972,0.920和0.972,與之相對應(yīng)的標準方差分別為:0.275,0.006,0.168,0.038,0.141和0.152,它們的類別估計值較高而方差較小,表明系統(tǒng)對于測試的數(shù)據(jù)能夠以非常大的概率歸到相應(yīng)的類別中,對于對象與背景均包括在訓(xùn)練集中的數(shù)據(jù),系統(tǒng)對于不同視角下的對象與背景組成的新情境具有較強的識別能力.b類測試數(shù)據(jù)對應(yīng)的結(jié)果,較a類的結(jié)果整體稍差一些,各情境下的類別估計值均值分別是0.789,0.849,0.922,0.977,0.918,0.869,而識別準確率方面,情境C1,C2,C4與C6分別下降了0.05,0.025,0.050與0.025,表明對象的變化對系統(tǒng)的識別性能有一定的影響.
表4 系統(tǒng)針對不同測試數(shù)據(jù)的隱私類別估計值統(tǒng)計表Table 4 Privacy situation recognition accuracy of the proposed system for different testing data sets
圖10 預(yù)測概率估計值統(tǒng)計盒圖Fig.10 Boxplot of prediction accuracy
2)由實驗2的結(jié)果可知,系統(tǒng)對C4和C5的情境識別準確率為1,對C1~C3和C6情境下識別準確率為0.850,0.850,0.950與0.925.對應(yīng)的預(yù)測概率估計值,較a與b類測試數(shù)據(jù)的結(jié)果,C1~C3,C5,C6情境的均值分別最大下降了0.069,0.194,0.034,0.066和0.108,表明通過有限的訓(xùn)練集獲取的特征,可以較高的識別準確率預(yù)測已在訓(xùn)練集中的對象和未在訓(xùn)練集中的家居環(huán)境組成的新情境,但家居環(huán)境的改變會讓系統(tǒng)的情境識別性能呈現(xiàn)出下降的趨勢.
3)由實驗3的數(shù)據(jù)可知,雖然系統(tǒng)的識別準確率均值最高為0.975,最低為0.850,但是其預(yù)測估計值均值分布在相對較低的區(qū)間[0.713,0.890].表明當(dāng)家居環(huán)境與對象均發(fā)生改變后,系統(tǒng)的識別準確性與類別估計值均會下降.但值得注意的是,d類數(shù)據(jù)來源于網(wǎng)絡(luò),其背景主題、對象與采集角度均與訓(xùn)練集的數(shù)據(jù)差異較大,而系統(tǒng)依然可以獲得0.85以上的識別準確率,說明系統(tǒng)對于識別具有較大差異的新樣本擁有較強魯棒性.
4)觀察圖10可知,圖10(a)~(c)對應(yīng)的中位線均處于刻度0.800之上,且盒圖矩形區(qū)域較小,表明系統(tǒng)對于a,b和c類數(shù)據(jù)的識別性能較好.而由圖10(d)可知,系統(tǒng)輸出的預(yù)測概率估計值分布區(qū)域較大,表明環(huán)境和對象的改變會影響系統(tǒng)的識別性能.整體上,雖然系統(tǒng)擁有94.48%的識別準確性,但是卻存在處于矩形外的異常點,特別是預(yù)測估計值非常小的點,表明系統(tǒng)對于某些情境的識別是在預(yù)測概率估計值非常低的情況下做出的判定,系統(tǒng)對于這一類數(shù)據(jù)的識別魯棒性需要改進.
從上一節(jié)的分析可知,構(gòu)建的系統(tǒng)有5.52%的情境識別錯誤,我們從960張測試圖片中找出了識別有誤的53張圖片,分析這些圖片可知:
1)由系統(tǒng)中攝像頭采集的數(shù)據(jù),具有光線較暗和存曝光過度的亮區(qū)域的特點.同時我們查驗了訓(xùn)練數(shù)據(jù),發(fā)現(xiàn)當(dāng)中不存在此類訓(xùn)練數(shù)據(jù).
2)來自于網(wǎng)絡(luò)的圖片,具有分辨率低或色彩單一的特點,這會引入較強的噪聲.
因此,為了提高系統(tǒng)的識別性能,應(yīng)擴大訓(xùn)練集的樣本多樣性,并將識別錯誤的樣本放置到相應(yīng)的訓(xùn)練數(shù)集中,以獲取更加具有普適性的特征模型.
本節(jié)給出了本文算法與YOLO算法的比較結(jié)果.針對前文設(shè)計的情境與實驗方案,部署的YOLO算法運行參數(shù)與文獻[30]相同,情境識別準確率和預(yù)測概率估計值統(tǒng)計結(jié)果如表5與表6所示.結(jié)合表3與表4的數(shù)據(jù)可知:
1)對于a類測試數(shù)據(jù)集中的各個情境,除C4情境下YOLO的表現(xiàn)優(yōu)于本文算法,其他C1,C2,C3,C5及C6情境,YOLO的識別準確率均值分別比本文算法低了0.150,0.000,0.025,0.025,0.025,其預(yù)測概率估計值分別低了0.176,0.029,0.098,?0.052,0.036,且方差分別高0.091,0.176,0.076,?0.008,0.071.
2)對于b類測試數(shù)據(jù)集,除了C2情境下YOLO的表現(xiàn)優(yōu)于本文算法,在C1,C3,C4,C5及C6情境下,本文算法的識別準確率均值與預(yù)測概率估計值均值均大于YOLO算法的均值.
表5 YOLO算法的隱私識別準確率統(tǒng)計結(jié)果Table 5 Privacy situation recognition accuracy by applying YOLO
表6 YOLO算法的隱私類別預(yù)測概率估計值統(tǒng)計結(jié)果Table 6 Statistical results of privacy situation estimates by applying YOLO
3)對于c類測試數(shù)據(jù)集中的各個情境,YOLO算法的識別準確率均值比本文算法分別低0.225,0.000,0.275,0.325,0.400,0.175;而預(yù)測概率估計值均值和方差方面,YOLO算法的表現(xiàn)均差于本文算法.
4)對于d類測試數(shù)據(jù)的各情境,YOLO算法的預(yù)測概率估計值均值分別為0.501,0.305,0.851,0.513,0.568,0.622;而本文算法的預(yù)測概率估計值分別為0.742,0.713,0.854,0.890,0.768,0.807.
綜上可知,本文提出的改進算法的識別性能優(yōu)于YOLO算法.導(dǎo)致這種不同的原因正是因為改進后的網(wǎng)絡(luò)結(jié)構(gòu)可以保留更多的原始圖片信息以及增加目標特征的提取能力,而其中的基于RPN的滑動窗口合并算法能夠提高具有復(fù)雜背景數(shù)據(jù)的分類和檢測的準確性.正是這些改進使得算法在處理具有不同場景、對象、光亮、角度與像素等的圖片時,能夠表現(xiàn)出更好的識別性能.
對隱私內(nèi)容有符合人心理需求反應(yīng)的系統(tǒng),可以改善用戶體驗感受,服務(wù)機器人的視覺設(shè)備會引入隱私泄漏風(fēng)險,因此,試圖通過設(shè)計圖像特征提取方法及系統(tǒng)以求較好地解決此問題.本文改進了YOLO神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)、特征提取過程以及圖片網(wǎng)格劃分大小,同時設(shè)計了基于RPN的滑動窗口合并算法,形成了基于改進YOLO的特征提取算法.通過在課題組建立的隱私情境數(shù)據(jù)集和搭建的服務(wù)機器人平臺上進行實驗分析,結(jié)果表明,提出的特征提取算法在服務(wù)機器人系統(tǒng)中可以較好地識別智能家居環(huán)境中涉及隱私的情境,算法具有較好的魯棒性,可以實時檢測家庭環(huán)境中的隱私情境.與YOLO的比較結(jié)果表明設(shè)計的方法具有明顯的優(yōu)勢.下一步工作將豐富涉及隱私信息的情境類別,豐富隱私圖片數(shù)據(jù)集,并研究將隱私內(nèi)容轉(zhuǎn)化為非隱私內(nèi)容的近似等價方法.