黃一明,吳斌,蔡培森,余亞東
(紹興文理學(xué)院數(shù)理信息學(xué)院,浙江紹興 312000)
中國自20 世紀末進入老齡化社會以來,老年人口數(shù)量快速增加,老年人口占比大幅攀升。2000 年至2018 年,60 歲及以上老年人口從1.26 億增加到2.49 億人。同期,老年人口占比從10.2%上升到17.9%,提升幅度是世界平均水平的2 倍多。與龐大老年群體相對的是養(yǎng)老資源的供給難以滿足養(yǎng)老需求[1-2]。此外,由于老人子女工作繁忙,平時都不在身邊,更沒有條件和時間顧及獨居老人,因此如何在日常生活中持續(xù)照顧和監(jiān)護獨居老人的生理及心理健康,破解當(dāng)前養(yǎng)老困局成為當(dāng)下社會亟待解決的問題。
隨著互聯(lián)網(wǎng)、人工智能等技術(shù)的飛速發(fā)展,傳統(tǒng)養(yǎng)老行業(yè)迎來了全面的轉(zhuǎn)型升級。智慧養(yǎng)老的發(fā)展將會突破傳統(tǒng)養(yǎng)老在居家照顧、出行、安全保護、健康管理、精神關(guān)愛等5 個方面的難點。文中介紹了一種基于語音交互與人體姿態(tài)識別技術(shù)的獨居老人智能陪護系統(tǒng),老人可以通過語音與系統(tǒng)進行交流,詢問新聞、天氣等信息,系統(tǒng)也可以通過實時視頻監(jiān)控,監(jiān)測老人的安全,當(dāng)發(fā)生意外時立刻向子女發(fā)送報警信息。
基于語音交互與人體姿態(tài)識別技術(shù)的獨居老人智能陪護系統(tǒng)主要分為3 個功能模塊,即人體姿態(tài)識別、異常行為報警以及智能語音交互。系統(tǒng)設(shè)計框圖如圖1 所示。
圖1 系統(tǒng)設(shè)計框圖
1)人體姿態(tài)識別:通過攝像頭對運動目標(biāo)進行檢測,針對目標(biāo)檢測的結(jié)果,經(jīng)過一定的篩選后建立混合高斯背景模型,并進行形態(tài)學(xué)處理,再對運動目標(biāo)建立外接矩形窗,通過矩形窗的高寬比來判斷老人是否發(fā)生跌倒行為。
2)異常行為報警:報警采用聲響以及通過GPRS/GSM 通信模塊自動推送數(shù)據(jù)到子女手機,當(dāng)觸發(fā)異常行為報警后,將報警時間以及地點等信息存儲到本地數(shù)據(jù)庫中,同時在系統(tǒng)運行過程中,采用循環(huán)覆蓋的方法存儲由相機采集到的圖像畫面,一旦發(fā)生警報,則將這些圖像組合為視頻保存到本地數(shù)據(jù)庫中。
3)智能語音交互:當(dāng)系統(tǒng)被關(guān)鍵詞喚醒時,語音交互模式啟動,利用開源在線的科大訊飛SDK 對老人的語音信息進行語義識別與合成,并針對語音信息利用數(shù)據(jù)挖掘進行網(wǎng)絡(luò)數(shù)據(jù)爬取,獲取相關(guān)信息,如了解實時新聞、天氣狀況以及音樂播放等,滿足老人的日常需求。
系統(tǒng)采用樹莓派4(Raspberry Pi 4)作為主控中心,它是一款A(yù)RM Cortex-A72 架構(gòu)的微型計算機,搭載1.5 GHz 的64 位四核處理器,4 GB LPDDR4 內(nèi)存,支持Linux 操作系統(tǒng)的運行,具有OpenGL ES 3.0 GPU,支持HEVC/ H.265 視頻的4kp60 硬件解碼,并提供了CSI 排線接口和USB 2.0 與USB 3.0 數(shù)據(jù)傳輸端口,能夠連接CSI 攝像頭或者USB 通用攝像頭;同時還具有多種串行、并行、PWM 等擴展引腳。
樹莓派4 微型計算機體積小巧、功耗開銷低、價格低廉、性能強大并且具有豐富的可拓展資源,是非常理想的主控中心平臺,可快速得到硬件支持。
2.2.1 圖像傳感器
圖像傳感器是利用光電器件的光電效應(yīng),將感光面上的光信號轉(zhuǎn)換為與之成相應(yīng)比例的電信號的一種傳感器。系統(tǒng)采用基于CSI 排線接口的單目攝像頭,其搭載Sony IMX219PQ 圖像傳感器,具有高速視頻成像和高靈敏度的特點。該攝像頭模塊在面對如固定模式噪聲和拖尾效應(yīng)等圖像污染時具有十分良好的抑制作用,同時,還具有曝光控制、白平衡和亮度檢測等自動控制功能。此外,該攝像頭具有在黑暗環(huán)境中進行攝影的能力,使系統(tǒng)在夜間也能監(jiān)測獨居老人的行為活動,符合系統(tǒng)設(shè)計要求。
2.2.2 語音采集模塊
系統(tǒng)使用ReSpeaker 4-Mic 陣列作為語音模塊,它是一塊適用于AI 和語音應(yīng)用的四通道麥克風(fēng)模塊,具有I2S/TDM 輸出轉(zhuǎn)換功能的高度集成四通道ADC,拾音半徑為3 m,可捕獲高清晰度語音,因此使用ReSpeaker 4-Mic 陣列可以很好地契合該系統(tǒng)的設(shè)計。
2.2.3 GPRS/GSM通信模塊
系統(tǒng)GPRS/GSM 通信采用希姆通公司推出的SIM900A 無線通信模塊。SIM900A 是一款支持雙頻GSM/GPRS 的無線通信模塊,其GPRS 的最大數(shù)據(jù)速率可達上行85.6 kbps,下行42.8 kbps。同時,模塊還具有尺寸小、功耗低、環(huán)境適應(yīng)性強等優(yōu)點。此外,模塊支持語音通話、SMS 短信以及全球GSM 網(wǎng)絡(luò),能夠很好地支撐系統(tǒng)設(shè)計需要的緊急報警功能。
系統(tǒng)軟件設(shè)計基于Ubuntu 操作系統(tǒng),人體姿態(tài)識別采用OpenCV 開源計算機視覺庫,根據(jù)獨居老人姿態(tài)的改變判斷老人是否發(fā)生意外跌倒;語音交互設(shè)計將利用科大訊飛SDK 實現(xiàn)[3-6],通過Python 靈活便捷的代碼風(fēng)格設(shè)計爬蟲程序,通過爬蟲將語音采集模塊捕獲到的語音信息進行爬取,得到各大新聞網(wǎng)站相關(guān)的時事資訊、氣象信息以及音樂等。
系統(tǒng)采用的語音交互主要由語音數(shù)據(jù)采集層、智能語音系統(tǒng)層和語音數(shù)據(jù)處理層3 部分組成,如圖2 所示。系統(tǒng)通過語音采集模塊ReSpeaker 4-Mic陣列接收獨居老人的語音數(shù)據(jù),實現(xiàn)語音輸入,智能語音系統(tǒng)層將對輸入的語音數(shù)據(jù)進行處理,并通過爬蟲技術(shù)實現(xiàn)相應(yīng)網(wǎng)絡(luò)數(shù)據(jù)爬取[7-9],進而獲得老人獲取需求的信息。
圖2 語音交互流程圖
其中,對于語音數(shù)據(jù)處理的關(guān)鍵技術(shù)實現(xiàn)主要包括語音識別(ASR)、語義處理(NLP)和語音合成(TTS),如圖3 所示。該系統(tǒng)采用科大訊飛開源語音開發(fā)平臺實現(xiàn)語音識別與語音合成的功能。將采集到的老人的語音信號轉(zhuǎn)化為文本數(shù)據(jù)信號后輸入至自然語義處理系統(tǒng),從識別出的文本數(shù)據(jù)信號中讀取關(guān)鍵信息從而理解老人的需求,而圖靈機器人作為一個開源的自然語義處理云計算引擎,能夠抓取語音中與老人需求相關(guān)的重要數(shù)據(jù),從而為進行邏輯處理做出相應(yīng)反饋。語音合成是將文本數(shù)據(jù)信號轉(zhuǎn)換成音頻信號,通過輸出播放設(shè)備反饋給老人。
圖3 語音處理關(guān)鍵技術(shù)框圖
3.2.1 設(shè)計思路
人體姿態(tài)檢測技術(shù)在國內(nèi)外的發(fā)展都已相對充分。目前,主要有3 種方案,分別是基于外圍環(huán)境傳感器的檢測、基于可穿戴設(shè)備的檢測以及基于計算機視覺的檢測,因為基于計算機視覺的檢測方法具有無侵入性、易于使用的特點十分契合系統(tǒng)的需求,因此該系統(tǒng)采用此方案實現(xiàn)人體姿態(tài)識別。
姿態(tài)識別的主要處理步驟:首先,系統(tǒng)通過圖像傳感器采集視頻圖像,并對識別目標(biāo)進行檢測;然后,利用混合高斯背景模型對視頻圖像中的運動目標(biāo)進行提?。辉偻ㄟ^形態(tài)學(xué)、濾波等處理使提取出的目標(biāo)輪廓邊緣更加清晰、內(nèi)部更加充實;再對運動目標(biāo)進行特征提取,采用常見的最小外接矩形提取方法,此外在特征提取前,先標(biāo)記出感興趣的區(qū)域;最后,通過外接矩形窗口的寬高比判斷目標(biāo)是否發(fā)生跌倒行為,姿態(tài)識別流程如圖4 所示。
圖4 姿態(tài)識別流程圖
3.2.2 混合高斯背景建模算法
混合高斯模型[10-14]是應(yīng)用最廣泛的背景建模算法,是對單高斯模型的改進,在背景多模態(tài)現(xiàn)象下具有優(yōu)秀的魯棒性。在混合高斯背景模型中,視頻圖像彼此之間的顏色信息被認為是不相關(guān)的,并且每個像素點的處理彼此獨立。對于視頻圖像中的各個像素點,其值的變化在序列圖像中可以看作是連續(xù)生成像素值的隨機過程,也就是說高斯分布能夠用于描述每個像素點的顏色規(guī)律。對于多峰高斯分布模型,通過疊加具有不同權(quán)重的多個高斯分布來給圖像的每個像素建模。每個高斯分布對應(yīng)一個可能產(chǎn)生圖像上各個像素點所呈現(xiàn)顏色的狀態(tài)。而高斯分布的權(quán)重和分布參數(shù)則隨每一幀圖像的獲取進行實時更新。
當(dāng)處理彩色圖像時,假定圖像像素點R、G、B 三色通道彼此獨立并且具有相同的方差。對于隨機變量x的觀察數(shù)據(jù)集{x1,x2,…,xN},其中xt=(rt,gt,bt)是在t時刻像素的樣本,用混合高斯模型為其建模,定義當(dāng)前觀測點像素值的概率為:
其中,k為高斯模型的數(shù)量,η(xt,μi,t,τi,t)為t時刻第i個高斯分布;μi,t為其均值;wi,t為t時刻第i個高斯分布的權(quán)重。
η(xt,μi,t,τi,t)為高斯概率密度函數(shù),公式如下:
τi,t為其協(xié)方差矩陣,公式如下:
其中,δi,t為t時刻第i個高斯分布,I為三位單元矩陣。
3.2.3 形態(tài)學(xué)處理
運動目標(biāo)圖像通過混合高斯背景建模被提取出來,并經(jīng)過腐蝕膨脹[15-16]將運動目標(biāo)圖像縮小或放大,從而可以分割出完整的人體輪廓。
1)腐蝕是消除圖像無用點的過程。質(zhì)數(shù)點設(shè)置了閾值范圍,以消除無關(guān)的細節(jié)。
2)膨脹是腐蝕的對偶運算,通過與腐蝕閾值的逆運算,可以將裂縫橋接起來填補目標(biāo)空洞。
當(dāng)系統(tǒng)檢測到老人發(fā)生跌倒行為時,系統(tǒng)會自動記錄下發(fā)生跌倒行為時的一幀圖片,并觸發(fā)室內(nèi)安全警報[17],通過GPRS/GSM 無線通信模塊立即將老人跌倒的信息發(fā)送給子女手機,實現(xiàn)異常行為報警。
系統(tǒng)通過語音關(guān)鍵詞被動喚醒語音交互功能,通過對輸入語音進行識別、處理、合成,實現(xiàn)相應(yīng)的應(yīng)用需求[18]。通過網(wǎng)絡(luò)爬取相關(guān)信息,響應(yīng)速度較快并且與語音需求的匹配度較高,反饋的信息較為準確。對于姿態(tài)識別測試部分,通過多組數(shù)據(jù)可以得出正常行走、坐下、蹲下和跌倒4 種姿態(tài)時的外接矩形寬高比,利用各個姿態(tài)之間不同的外接矩形寬高比可以較準確地判定當(dāng)前老人的行為,為了防止對跌倒行為的誤識別,系統(tǒng)將在檢測到摔倒行為時持續(xù)判定,若30 s 后系統(tǒng)仍檢測到老人行為是跌倒?fàn)顟B(tài)時,便觸發(fā)報警模塊及時告知子女。
系統(tǒng)將語音交互、人體姿態(tài)識別技術(shù)與智能陪護相結(jié)合,保障獨居老人生理健康安全,同時為老人提供智能語音服務(wù)改善獨居老人日常生活的孤獨感,滿足獨居老人的精神需求,為獨居老人提供更加安全、便捷、智能的養(yǎng)老服務(wù)體驗,響應(yīng)智能養(yǎng)老建設(shè)的號召[19]。
文中通過對基于語音交互與人體姿態(tài)識別技術(shù)的獨居老人智能陪護系統(tǒng)各功能的設(shè)計及實現(xiàn),較完整地闡述了系統(tǒng)各個模塊的功能測試及其之間的相互聯(lián)系、相互作用,以實現(xiàn)相關(guān)功能的過程,并對相關(guān)功能進行了一系列測試,測試結(jié)果表明系統(tǒng)的整體性能較優(yōu)良,達到了預(yù)期的設(shè)計目的。今后還需進一步完善系統(tǒng)的穩(wěn)定性及可靠性,不斷改進智能陪護系統(tǒng)的功能。