摘 要:為獲得機(jī)器人聽覺行為隱私感知方法,解決語音監(jiān)聽設(shè)備存在的隱私泄露風(fēng)險,本文提出了基于卷積神經(jīng)網(wǎng)絡(luò)的服務(wù)機(jī)器人聽覺隱私信息分類算法(APICA)。首先,設(shè)計(jì)了基于卷積神經(jīng)網(wǎng)絡(luò)的服務(wù)機(jī)器人聽覺隱私信息分類算法及其卷積神經(jīng)網(wǎng)絡(luò)模型;其次,給出了機(jī)器人的聽覺隱私信息監(jiān)聽系統(tǒng)工作流程;最后,為評估該聽覺隱私信息分類算法性能,構(gòu)建了訓(xùn)練和測試數(shù)據(jù)集,并在服務(wù)機(jī)器人平臺上部署和實(shí)現(xiàn)了該算法。測試結(jié)果表明:系統(tǒng)識別隱私信息的平均精確率P、召回率R和F1值分別為96.35%、93.20%和94.53%,具有良好的識別和分類效果。
關(guān)鍵詞:隱私感知方法;服務(wù)機(jī)器人;分類算法;聽覺隱私信息
中圖分類號:TP181
文獻(xiàn)標(biāo)識碼: A
隨著人口老齡化趨勢加快,越來越多的獨(dú)居老人需要被照顧,人們對助老機(jī)器人的需求也越來越明顯[1]。
為輔助老年人日常生活,薛同來等[2]研究了基于激光SLAM的助老機(jī)器人,其擁有自主構(gòu)建室內(nèi)地圖以及自主導(dǎo)航的功能,可以定位目標(biāo)物體和自主移動,并使用機(jī)械臂對物體進(jìn)行抓取。為解決老年人心理健康問題,劉策等[3]構(gòu)建了具有語音識別、手勢識別、人臉識別和遠(yuǎn)程控制功能的多模式友好交互系統(tǒng),實(shí)現(xiàn)了注冊與驗(yàn)證、移動控制、新聞點(diǎn)播、日程提醒及語音對話5種功能。與此同時,為給老年人提供科學(xué)合理的飲食建議,蘇志東等[4-5]提出了基于服務(wù)機(jī)器人聽覺的個體膳食構(gòu)成自主感知算法,實(shí)現(xiàn)了對用戶膳食構(gòu)成的智能感知,為用戶醫(yī)療診斷、飲食干預(yù)和機(jī)器人的主動服務(wù)等提供決策依據(jù)。為了應(yīng)對老年人記憶力衰退的情況,Ahn Ho等[6]提出了一種基于家庭服務(wù)機(jī)器人的大腦訓(xùn)練方法,將記憶訓(xùn)練部署到機(jī)器人上,以增強(qiáng)機(jī)器人功能性。為增強(qiáng)老年人的體質(zhì),降低老年人摔倒的風(fēng)險,F(xiàn)oukarakis等[7]提出了一種利用機(jī)器人視覺系統(tǒng)來識別和跟蹤用戶行為的方法,可以提供相關(guān)的練習(xí)和反饋來激勵用戶進(jìn)行體育鍛煉和康復(fù)訓(xùn)練。為滿足老年人的遠(yuǎn)程護(hù)理需求,Zhou等[8]提出了一種基于服務(wù)機(jī)器人的遠(yuǎn)程醫(yī)療系統(tǒng)。該系統(tǒng)在家庭成員和醫(yī)生之間建立連接,利用自動健康數(shù)據(jù)采集技術(shù)和目標(biāo)檢測算法,實(shí)現(xiàn)遠(yuǎn)程護(hù)理。然而,智能家居系統(tǒng)和服務(wù)機(jī)器人廣泛使用語音監(jiān)聽設(shè)備,這存在用戶隱私泄露的風(fēng)險。
有研究表明,用戶會因擔(dān)憂語音監(jiān)聽設(shè)備泄露隱私而影響心理狀態(tài)甚至引起心理障礙[9]。如何構(gòu)建對隱私內(nèi)容有符合人心理需求反應(yīng)的系統(tǒng),是值得深入研究的課題。為獲得機(jī)器人聽覺行為隱私感知方法,解決語音監(jiān)聽設(shè)備存在的隱私泄露的風(fēng)險,本文提出了基于卷積神經(jīng)網(wǎng)絡(luò)的服務(wù)機(jī)器人聽覺隱私信息分類算法。
1 基于卷積神經(jīng)網(wǎng)絡(luò)的服務(wù)機(jī)器人聽覺隱私信息分類算法
卷積神經(jīng)網(wǎng)絡(luò)是受生物學(xué)啟發(fā)而提出形成的一種前饋神經(jīng)網(wǎng)絡(luò),利用局部連接和權(quán)值共享特性,減少模型參數(shù),并具有平移、尺度和視角不變性[10]。卷積神經(jīng)網(wǎng)絡(luò)不僅在圖像分類領(lǐng)域貢獻(xiàn)巨大,而且在自然語言方面也取得了引人注目的成果[11-13]。針對機(jī)器人聽覺行為隱私感知,本文提出了算法1所示的基于卷積神經(jīng)網(wǎng)絡(luò)的服務(wù)機(jī)器人聽覺隱私信息分類算法(Social Robot Auditory Privacy Information Classification Algorithm based on Convolutional Neural Network, APICA)。圖1是卷積神經(jīng)網(wǎng)絡(luò)模型。
2 機(jī)器平臺
圖2所示為課題組搭建的服務(wù)機(jī)器人平臺MAT[5,14],主要包括Intel NUC mini主機(jī)、EAI DashgoB1移動底盤、IPad顯示屏、科大訊飛六麥環(huán)形麥克風(fēng)陣列板、Microsoft Kinect V2深度攝像頭、輔助傳感器和數(shù)據(jù)處理器等。聽覺系統(tǒng)采用的六麥環(huán)形麥克風(fēng)陣列板具有聲源定位、回聲消除、噪聲過濾等功能,用于實(shí)現(xiàn)對音頻信號的采集;視覺采用的Microsoft Kinect V2深度攝像頭用于采集RGB彩色圖像;機(jī)器人上配備的GSM通信模塊可以在緊急狀況下與監(jiān)護(hù)人進(jìn)行通話。為減少機(jī)器人平臺運(yùn)算負(fù)荷,訓(xùn)練數(shù)據(jù)和數(shù)據(jù)分析由數(shù)據(jù)處理工作站完成。服務(wù)機(jī)器人主機(jī)安裝了Ubuntu16.04操作系統(tǒng)、Kinect 版本 ROS(Robot Operation System)系統(tǒng)、TensorFlow CPU版本深度學(xué)習(xí)框架和機(jī)器視覺工具包Opencv3.3.0。課題組運(yùn)用Python語言實(shí)現(xiàn)了APICA算法,并將其部署在MAT機(jī)器人上。
3 測試與分析
3.1 訓(xùn)練數(shù)據(jù)集、測試數(shù)據(jù)集和性能指標(biāo)
使用MAT服務(wù)機(jī)器人的六麥環(huán)形麥克風(fēng)陣列收集訓(xùn)練語音數(shù)據(jù)。與此同時,考慮到法律、文化習(xí)俗、認(rèn)知心理學(xué)等與隱私信息形成有關(guān)的因素,調(diào)研相關(guān)文獻(xiàn)資料,收集、整理、歸納出家庭生活中涉及語音隱私信息的特殊場景,研究確定不同場景下所涉及的語音隱私內(nèi)容特征,設(shè)計(jì)了以下6種場景:(1)對話內(nèi)容涉及家庭人員出行計(jì)劃的場景;(2)對話內(nèi)容涉及家庭人員聯(lián)系方式的場景;(3)對話內(nèi)容涉及支付密碼的場景;(4)對話內(nèi)容涉及宗教的場景;(5)對話內(nèi)容涉及貴重物存放處的聊天場景;(6)對話內(nèi)容涉及言語批評朋友或者攻擊雙方父母的場景。
基于上述6種場景構(gòu)建了包括7種類別的訓(xùn)練數(shù)據(jù)集:
(1)第1類數(shù)據(jù) 對話內(nèi)容涉及家庭人員出行計(jì)劃的場景,其對話內(nèi)容中包含:①未來出行計(jì)劃的時間名詞;②未來出行計(jì)劃的地理名詞。
(2)第2類數(shù)據(jù) 對話內(nèi)容涉及家庭人員聯(lián)系方式的場景,其對話內(nèi)容中包含:①聯(lián)系方式的相關(guān)表達(dá);②有關(guān)聯(lián)系方式的數(shù)字。
(3)第3類數(shù)據(jù) 對話內(nèi)容涉及支付密碼的場景,其對話內(nèi)容中包含:①支付密碼的相關(guān)表達(dá);②有關(guān)支付密碼的數(shù)字和字母。
(4)第4類數(shù)據(jù) 對話內(nèi)容涉及宗教的場景,其對話內(nèi)容中包含:①某人是某宗教成員;②某人表達(dá)愿意加入某宗教;③某人喜歡、尊崇、信仰某宗教。
(5)第5類數(shù)據(jù) 對話內(nèi)容涉及貴重物存放處的場景,其對話內(nèi)容中包含:①貴重物品的名稱;②對應(yīng)貴重物品的存放地點(diǎn)。
(6)第6類數(shù)據(jù) 對話內(nèi)容涉及言語批評朋友或者言語攻擊雙方父母的場景,其對話內(nèi)容中包含批評或謾罵朋友或父母的詞匯。
(7)第7類數(shù)據(jù) 不屬于上述6種場景的對話,屬于不包含隱私信息的數(shù)據(jù)。
測試數(shù)據(jù)集構(gòu)建方面,對話內(nèi)容通過網(wǎng)上收集和課題組成員構(gòu)思獲得。訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)規(guī)模見表1。
采用精確率P、召回率R與綜合評價指標(biāo)F1值度量算法的性能。
3.2 測試結(jié)果與分析
在已搭建的服務(wù)機(jī)器人平臺上部署設(shè)計(jì)的算法,將超參數(shù)設(shè)置為:迭代次數(shù)為3 000,卷積核數(shù)目為256,批處理參數(shù)為64,初始學(xué)習(xí)率為0.001,Dropout保留比例為0.5。測試數(shù)據(jù)識別結(jié)果的混淆矩陣如表2所示。精確率P、召回率R和綜合評價指標(biāo)F1值統(tǒng)計(jì)結(jié)果如表3所示。
觀察表2和表3可知:
(1)第1類測試數(shù)據(jù)共75條,其中正確識別數(shù)為68條,錯誤識別的有7條,系統(tǒng)的精確率和召回率分別為93.15%和90.67%。核查識別錯誤的數(shù)據(jù),發(fā)現(xiàn)識別錯誤的原因?yàn)椋孩賹υ捨闯霈F(xiàn)具體的地理名詞,而是通過其中一般名詞和方向名詞可以推理出地理名詞;②對話出現(xiàn)多個地理名詞,且對話雙方經(jīng)過反復(fù)談?wù)摮鲂杏?jì)劃但最終又否定出行計(jì)劃。
(2)第2類、第3類和第5類測試數(shù)據(jù)分別有72條、76條和48條,系統(tǒng)的精確率和召回率均為100%。
(3)第4類測試數(shù)據(jù)共58條,其中正確識別數(shù)為54條,錯誤識別為類別7的有4條,系統(tǒng)的精確率和召回率分別為96.43%和93.10%。核查識別錯誤的數(shù)據(jù),發(fā)現(xiàn)識別錯誤的原因?yàn)椋簩υ拑?nèi)容中存在否定是某個宗教人員的話語,如“我不是佛教成員,我是基督教成員?!?/p>
(4)第6類測試數(shù)據(jù)共58條,其中正確識別數(shù)為42條,錯誤識別為類別7的有16條,其精確率和召回率分別為95.45%和72.41%。核查識別錯誤的數(shù)據(jù),發(fā)現(xiàn)識別錯誤的原因?yàn)椋孩傺哉Z批評的對象為影視劇或歷史人物;②一些詞語在不同的語句中含義不同,例:“我身體不舒服,有點(diǎn)想吐”與“我每次看到我們領(lǐng)導(dǎo)都想吐”,這兩句話中的“吐”字,用在不同的地方具有不同的語義;③語氣導(dǎo)致的語義改變而導(dǎo)致識別錯誤。
(5)第7類測試數(shù)據(jù)共238條,系統(tǒng)正確識別229條,錯誤識別為類別1、4、6的數(shù)據(jù)分別有5條、2條和2條,系統(tǒng)的精確率和召回率分別為89.45%和96.22%。
綜上,測試數(shù)據(jù)集共625條數(shù)據(jù),系統(tǒng)正確識別數(shù)為589條,總體識別準(zhǔn)確率為94.24%,平均精確率為96.35%,平均召回率為93.20%,綜合評價指標(biāo)為94.53%,系統(tǒng)具有很好的識別和分類效果。
4 結(jié)語
研究服務(wù)機(jī)器人聽覺隱私信息的感知和保護(hù)技術(shù),有助于服務(wù)機(jī)器人的推廣與普及。本文正是針對機(jī)器人所監(jiān)聽到的語音數(shù)據(jù),提出和實(shí)現(xiàn)了基于卷積神經(jīng)網(wǎng)絡(luò)的服務(wù)機(jī)器人聽覺隱私信息分類算法,來判定語音數(shù)據(jù)的隱私類別,為隱私數(shù)據(jù)的保護(hù)奠定基礎(chǔ)。下一步將繼續(xù)補(bǔ)充和完善訓(xùn)練數(shù)據(jù)集,使監(jiān)聽系統(tǒng)具有更好的魯棒性;此外,聽覺隱私數(shù)據(jù)的保護(hù)機(jī)制與方法也是值得深入研究的方向。
參考文獻(xiàn):
[1]ZHAO J M, LI X Y. The status quo of and development strategies for healthcare towns against the background of aging population[J]. Journal of Landscape Research, 2018, 10(4): 41-44.
[2]薛同來,趙冬暉,韓菲,等. 基于激光SLAM的助老機(jī)器人[J]. 工業(yè)控制計(jì)算機(jī), 2019, 32(6): 35-36.
[3]劉策,劉小峰. 助老服務(wù)機(jī)器人多模式友好交互系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J]. 電子測量與儀器學(xué)報(bào), 2019, 33(1): 177-182.
[4]蘇志東,楊觀賜,李楊,等. 基于服務(wù)機(jī)器人聽覺的個人膳食構(gòu)成自主感知算法[J]. 貴州大學(xué)學(xué)報(bào)(自然科學(xué)版), 2019, 36(4): 80-86.
[5]SU Z D, LI Y, YANG G C. Dietary composition perception algorithm using social robot audition for mandarin Chinese[J]. IEEE Access, 2020, 8: 8768-8782.
[6]AHN H S, SANTOS M P G, WADHWA C, et al. Development of brain training games for a healthcare service robot for older people[C]//6th International Conference on Social Robotics (ICSR 2014). Sydney, NSW, Australia: Springer Verlag, 2014 :1-10.
[7]FOUKARAKIS M, ADAMI I, IOANNIDI D, et al. A Robot-based application for physical exercise training[C]//Proceedings of the International Conference on Information and Communication Technologies for Ageing Well and e-Health. Rome, Italy: SciTePress, 2016: 45-52.
[8]ZHOU B, WU K, LV P, et al. A new remote health-care system based on moving robot intended for the elderly at home[J]. Journal of Healthcare Engineering, 2018, 2018:4949863.
[9]KALPANA S, JEAN C, KAY C, et al. Aging, privacy, and home-based computing: development of a framework for design[J]. IEEE Pervasive Computing, 2012, 11(4): 46-54.
[10]籍祥. 卷積神經(jīng)網(wǎng)絡(luò)在中文問題分類中的應(yīng)用[J]. 軟件導(dǎo)刊, 2018, 17(9): 25-27.
[11]趙力,將春輝,鄒采榮,等. 語音信號中的情感特征分析和識別的研究[J]. 電子學(xué)報(bào), 2004, 32(4): 606-609.
[12]韓文靜,李海峰,阮華斌,等. 語音情感識別研究進(jìn)展綜述[J]. 軟件學(xué)報(bào), 2014, 25(1): 37-50.
[13]徐濟(jì)仁,陳家松,徐屹. 語音信號預(yù)處理技術(shù)綜述[J]. 電子工程師, 2001,27(6): 26-27.
[14]楊觀賜,楊靜,蘇志東,等. 改進(jìn)的YOLO特征提取算法及其在服務(wù)機(jī)器人隱私情境檢測中的應(yīng)用[J]. 自動化學(xué)報(bào), 2018, 44(12): 2238-2249.
(責(zé)任編輯:曾 晶)