摘要:目的:隨著我國老齡化程度的加深,老齡化人群聽覺功能障礙成為不可忽視的社會議題。聽力損失不僅損害老年人的感知能力,更會對其身心健康和社會參與造成嚴重影響。文章以老年聽障人群為研究對象,探究以深度學習聲音識別技術促進老年聽障人群無障礙交互的可行性,探究無障礙交互產品設計策略。方法:基于無障礙設計理論、老年聽障人群特征,研究深度學習聲音識別技術在輔聽軟件中的作用。通過聲音識別和音頻分類技術,實現(xiàn)對語言信息和關鍵環(huán)境聲(如門鈴聲、警報聲、嬰兒哭聲等)的監(jiān)測、判斷與提醒,幫助聽障用戶通過感官代償?shù)姆绞皆谌粘I钪屑皶r獲取聲音的重要信息。結果:文章歸納了基于深度學習聲音識別技術的無障礙交互產品設計策略,并討論實現(xiàn)過程中面臨的技術難點,提出優(yōu)化建議。圍繞感官代償、簡化操作、安全隱私及情感化界面,設計適合老年聽障用戶的交互界面和多模態(tài)提醒方式,改善老年聽障人群的聽力狀態(tài),幫助他們更好地生活。結論:深度學習聲音識別技術為無障礙交互產品設計提供了新的可能,使手機輔聽軟件可以切實為老年聽障人群這一特殊群體提供幫助,進而推動社會包容與人文關懷設計的發(fā)展。
關鍵詞:深度學習聲音識別技術;老年聽障人群;無障礙交互產品;交互設計;輔聽軟件
中圖分類號:TP311.5 文獻標識碼:A 文章編號:1004-9436(2024)16-0-03
0 引言
隨著我國老年人口的不斷增加,社會將進入深度老齡化階段。據(jù)《中國聽力健康報告(2021)》藍皮書,我國老年聽障患者約占老齡人口的30%,60歲以上的老年人患聽力障礙的比例為11.4%[1]。由于進口助聽器價格高昂、輔聽設備較少、輔聽應用難以普及、人們對老年聽障危害的認知水平不足等,許多聽障老年人默默忍受著失去聲音的世界。目前,聽障交互領域的研究缺乏對聽障人群的界定與細分,對老年聽障人群的關注嚴重不足。但隨著手機在老年人中的普及以及AI深度學習聲音識別技術的進步,通過無障礙交互設計的方法構建滿足實用性與情感體驗的無障礙交互產品,利用技術手段幫助老年聽障人群克服在聲音信息接收轉換方面遇到的困難,對促進老年聽力健康發(fā)展、構建老年友好型社會有重要的參考意義。
1 研究背景
習近平總書記強調,“有效應對我國人口老齡化,事關國家發(fā)展全局,事關億萬百姓福祉”[2]。面對老齡化社會的到來,將深度學習聲音識別技術應用于無障礙交互產品設計,提高老年聽障人群在社交、生活中獲取信息的能力,增強他們的社會參與感,能為其他特殊群體的交互設計提供借鑒,推動人機交互技術在銀發(fā)健康領域發(fā)展。
1.1 老年聽障人群現(xiàn)狀
老年聽力損失是指60歲以上老年人因年齡增長、耳科疾病、遺傳因素、噪聲損傷、耳毒性藥物、代謝性疾病和不良生活習慣等出現(xiàn)的聽覺功能下降的情況[3],通常也被描述為“耳背”或者“老年性耳聾”。聽障是一種常見的感官障礙,隨著年齡的增長,聽覺器官逐漸衰退,加上疾病、環(huán)境等因素的影響,許多老年人面臨不同程度的聽力損失。研究表明,超過60歲,聽力損失及聽力殘疾患病率升高;在80歲以上的人群中,超過90%的人有一定程度的聽力損失,超過50%的人有中度到完全的聽力損失。這不僅影響老年人的日常生活,還限制了他們對現(xiàn)代科技產品的使用,使他們在信息獲取方面處于劣勢。
1.2 老年聽障人群特征
聽力正常的人可以聽到20 Hz~20000 Hz的聲音,國際衛(wèi)生組織判定平均聽力閾值≥20 dBHL為存在聽力損失。老年性聾是與年齡相關的聽力損失累積的病理生理變化,其特征是進行性、不可逆[4]。它主要由耳蝸內的毛細胞或聽神經(jīng)的退化引起,主要特征為高頻聽力損失,即對2000 Hz以上的高頻聲音的感知減弱。因此,老年人難以聽清較尖細或高音調的聲音,如兒童的說話聲、鳥鳴聲、電話鈴聲以及火警警報聲等。聽力損失不僅影響聲音的接收,還會影響老年人對言語的理解能力。即便可以聽到聲音,也難以分辨單詞和句子的細節(jié)。例如,對“s”“f”“th”等輔音分辨困難。即便聲音足夠響亮,也可能難以分辨內容,還可能對噪聲更加敏感。
2 理論與技術基礎
2.1 深度學習聲音識別技術
深度學習聲音識別技術是指通過移動端集成麥克風收集音頻數(shù)據(jù),根據(jù)AI機器學習和深度學習技術分析音頻數(shù)據(jù),將音頻信號分為預定義類別的技術。區(qū)別于傳統(tǒng)的識別技術,AI的應用使語音識別技術的速度與精度大幅提升,深度學習在語音處理領域取得了顯著進展。在機器學習領域,卷積神經(jīng)網(wǎng)絡是一種屬于深度學習網(wǎng)絡范疇的前饋人工神經(jīng)網(wǎng)絡,非常適合應用于語音信號識別分析[5]。卷積神經(jīng)網(wǎng)絡(CNN)、循環(huán)神經(jīng)網(wǎng)絡(RNN)等深度學習算法通過識別不同的聲音,如人聲、環(huán)境聲、噪聲等,能夠自動學習特征,大大提高語音分類的性能。隨著計算能力的提升和數(shù)據(jù)量的增加,深度學習聲音識別技術應用于聽障老年人的交互系統(tǒng)設計中大有可為,將為他們提供聲音輔助,如支持方言語音識別、提供聲音事件檢測提示等。
2.2 無障礙交互設計案例
國內智能手機聽力輔助App主要有“訊飛聽見”和“音書”?!耙魰笔且豢顬槁犝先巳捍蛟斓臏贤ń涣鬈浖?,無障礙溝通和語音訓練是其主要的兩大功能[6]?!坝嶏w聽見”主要適用于會議與記錄,配合助聽耳機使用,對于聽障用戶可免費轉錄。
谷歌的實時字幕和微軟的直播字幕等服務能為口語提供實時字幕,使聽力障礙者能夠在視頻通話或現(xiàn)場活動期間跟蹤對話。蘋果、華為等各大手機生產公司也在輔助服務中配備了無障礙功能,包括語音轉文字、實時字幕、聲道融合、助聽器鏈接以及聲音提醒等。但無障礙功能一般隱藏較深,老年聽障人群對該功能了解甚少,也很少有人能充分使用智能手機的無障礙功能。
3 無障礙交互產品設計策略
3.1 設計原理
無障礙交互設計/信息無障礙設計原理(Information Accessibility Design)是在無障礙的基礎上,引入信息時代背景形成的相關概念。其認為設計不僅要為健全人服務,還要為殘障人士服務;不僅要為人服務,還要考慮環(huán)境與資源問題[7]。要利用科學技術減少殘障人士在信息獲取、接收過程中的阻礙。
以用戶為中心的設計原理是要通過對用戶的深刻了解,根據(jù)用戶需求設計,并且通過用戶驗證[8],強調在設計過程中充分考慮使用者的需求、能力、偏好等因素。針對老年聽障人群進行無障礙交互產品設計,意味著要深入了解他們的聽力狀況、認知能力、使用習慣等,以確保設計出的交互系統(tǒng)符合其實際需求。
感官代償交互設計原理指利用通感的方式對有損失的感官進行代償。可以利用視覺代償聽覺的方式進行老年聽障人群輔聽軟件設計。采用多模態(tài)的交互方式,如用視覺、觸覺等反饋方式將聲音信息轉換為文字或者圖形語音。在信息傳遞過程中,以視覺的形式來表現(xiàn),輔之以頻閃呈現(xiàn),對吸引老年人的注意力有良好的效果。
3.2 針對老年聽障人群特征的設計策略
老年聽障人群除了聽力損失,還可能伴隨視力下降。同時,他們對自身的聽力損傷存在一定的抵觸心理,對新事物的接受程度較低。輔聽軟件應考慮老年聽障人群的身心特征,簡化交互流程,減少跳轉層級,增強交互的便捷性,并設計清楚直觀的交互界面和學習指引,便于他們使用,還需要在提供錄音功能的同時,保障個人隱私不被泄露。
4 交互設計實踐
本次設計實踐將基于深度學習聲音識別技術為老年聽障人群設計一款簡單易用的聲音提醒App。以上文提出的設計策略為基礎,探究如何利用移動應用幫助老年聽障人群克服聲音接收場景中遇到的困難。通過訪問調研與問卷調查發(fā)現(xiàn),老年聽障群體主要在聲音接收、分辨、對話等方面存在困難??紤]到現(xiàn)有設備對噪聲環(huán)境識別不佳、移動設備續(xù)航等問題,因此將App的使用場景確定為室內聲音接收判定并通過感官代償方式提醒老年人。
4.1 聲音監(jiān)聽
聲音監(jiān)聽功能可幫助用戶在不便直接聽到聲音的情況下獲得提醒,能捕捉打招呼聲、門鈴聲、鬧鐘聲、警報聲、小孩哭聲等重要聲音,并給予提醒。
需要注意的是,在嘈雜的環(huán)境中,音頻分類的準確性容易受到干擾。可利用先進的去噪算法,如譜減法和自適應濾波器,將背景噪聲從音頻信號中分離出來,保留關鍵聲音信息。在模型訓練中引入不同噪聲場景的音頻數(shù)據(jù)進行增強,提升模型的抗噪性。在實時檢測中進行降噪處理,可以通過濾波或自適應降噪算法去除不必要的背景音,從而提高重要聲音的識別率。
利用深度學習聲音識別技術,對采集的聲音進行分類。由于個人居家環(huán)境聲音比較固定,可以利用公開的大規(guī)模音頻數(shù)據(jù)集,在目標數(shù)據(jù)較少的情況下,通過遷移學習對預訓練模型進行微調,輸入符合自己需求的環(huán)境聲音和人聲標注,構建更加精準的音頻分類模型。
4.2 聲音提示
識別聲音后,需要區(qū)分語音和非語音信號,以便決定開啟對話輔助還是聲音提醒模式。需要對提醒做到情境化聲音識別,通過情境化的聲音捕捉和自定義提醒設定,實現(xiàn)對特定聲音的監(jiān)控,減少干擾性提示??紤]到老年用戶可能存在不同的感知偏好,應設計多種提醒方式,如振動、閃爍光效、屏幕提示等,確保提醒效果明顯。輔聽App的界面設計和交互風格應更加人性化,增強情感關懷。核心界面可以設計成溫暖柔和的色調,采用大字體、友好的圖標風格,讓用戶產生親近感。界面配色應柔和,增強視覺舒適性,符合老年用戶的審美傾向(見圖1)。
語音轉文字功能旨在幫助用戶快速獲取他人的言語內容,適用于交流場景?;诶夏暧脩舻男枨?,使用大字號和高對比度的文字,確保用戶能輕松獲取文字信息(見圖2)。
5 結語
基于深度學習聲音識別技術為老年聽障人群的無障礙交互產品設計提供了新的可能。設計以聲音監(jiān)聽和聲音提醒這兩項功能為核心的輔聽應用,可以有效提升老年聽障人群對語言和非語言信息的接收能力。雖然深度學習聲音識別技術在輔聽App中的應用有巨大的潛力,但手機麥克風在嘈雜環(huán)境中的分辨能力較弱,模型訓練難度大,續(xù)航時間短,在數(shù)據(jù)隱私保護等方面仍面臨巨大挑戰(zhàn)。老年聽障人群的社會問題也不單是技術層面可以解決的,政府與社會需要共同努力,提高全社會對老年人聽力健康問題的重視度。
參考文獻:
[1] 中國聽力健康報告.中國聽力醫(yī)學發(fā)展基金會研創(chuàng)[M].北京:社會科學文獻出版社,2021:73-75.
[2] 馬曉偉.全力推進新時代老齡工作高質量發(fā)展[N].人民日報,2021-12-24(10).
[3] 全國防聾治聾技術指導組,中華醫(yī)學會耳鼻咽喉頭頸外科學分會,中華耳鼻咽喉頭頸外科雜志編輯委員會,等.老年聽力損失診斷與干預專家共識[J].中華耳鼻咽喉頭頸外科雜志,2019,54(3):166-173.
[4] 賀祖宏,李明,鄒圣宇,等.老年性聾的發(fā)病機制及干預研究進展[J].中華耳鼻咽喉頭頸外科雜志,2020,55(11):1105-1110.
[5] 邵娜,李曉坤,劉磊,等.基于深度學習的語音識別方法研究[J].智能計算機與應用,2019,9(2):135-142.
[6] 王翀,周龍飛,張祖耀.基于活動理論的聽障騎手AI語音交互產品設計[J].設計,2023,36(9):138-141.
[7] 帕帕奈克·維克多.為真實的世界設計[M].北京:生活·讀書·新知三聯(lián)書店,2002:7.
[8] 董建明,傅利民,饒培倫.人機交互:以用戶為中心的設計和評估[M]. 4版.北京:清華大學出版社,2013:5.
基金項目:本論文為2024年度江蘇省研究生實踐創(chuàng)新計劃人文社科項目“針對中老年聽障人群的無障礙交互設計研究”成果,項目編號:SJCX24_1846
作者簡介:江雪瑩 (1996—) ,女,研究方向:數(shù)字媒體藝術、交互;邵斌 (1969—) ,男,副教授,系本文通訊作者,研究方向:數(shù)字媒體藝術、影視動畫。