亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

用AI讓聽(tīng)障人群感受聲音

2022-03-14 21:07:38李敘瑾

第一財(cái)經(jīng) 2022年3期

李敘瑾

在被吸音綿包裹的消音室，天籟實(shí)驗(yàn)室的研究員正在訓(xùn)練算法識(shí)別各種聲音。

因?yàn)槿栽趥鞑サ男鹿谝咔椋缃瘢藗兯坪醵家蚜?xí)慣了隨時(shí)佩戴口罩。很少有人關(guān)注的是，這一抗擊病毒的好習(xí)慣，有可能讓聽(tīng)障者舉步維艱—即便用上聽(tīng)力輔助工具，在嘈雜的室外環(huán)境中，聽(tīng)障者在和人溝通時(shí)也總會(huì)下意識(shí)地緊盯對(duì)方嘴唇，試圖讀懂唇語(yǔ)以輔助理解。而口罩，可能讓唇語(yǔ)在公共場(chǎng)合消失。

正常人耳中擁有1.5萬(wàn)個(gè)聽(tīng)覺(jué)細(xì)胞，它們直接與大腦相連，由此人類能從幾十種環(huán)境聲音中自覺(jué)捕捉到需要放大的那一項(xiàng)。聽(tīng)障者耳中卻僅存幾百個(gè)聽(tīng)覺(jué)細(xì)胞，為了讓大腦獲得聽(tīng)覺(jué)刺激，它們會(huì)拼命放大包括噪音在內(nèi)的一切聲音。

然而，如今普遍使用的輔聽(tīng)設(shè)備—無(wú)論是放大聲音的助聽(tīng)器，還是將外界聲音轉(zhuǎn)換成電信號(hào)（著時(shí)間而變化的電壓或電流）的人工耳蝸，在面對(duì)復(fù)雜的聲學(xué)場(chǎng)景時(shí)，都不太能從嘈雜的環(huán)境中直接還原出自然的聲音。即使戴上動(dòng)輒十幾萬(wàn)元的人工耳蝸，聽(tīng)障者也無(wú)法感受到千奇百怪的蟲(chóng)鳴鳥(niǎo)叫。

世界衛(wèi)生組織發(fā)布的《世界聽(tīng)力報(bào)告》顯示，目前全球有15億人受到聽(tīng)力損失影響;到2050年，預(yù)計(jì)至少7億人需要聽(tīng)力康復(fù)服務(wù)。當(dāng)聽(tīng)力受損成為一種普遍疾病時(shí)，技術(shù)必然會(huì)推動(dòng)人們尋求新的解決辦法。

比如騰訊天籟實(shí)驗(yàn)室就研發(fā)出一款人工智能（AI）降噪算法，它會(huì)吸收環(huán)境里的眾多聲音，篩選出環(huán)境噪聲和與會(huì)者的話語(yǔ)，然后消除前者，針對(duì)性地增強(qiáng)后者。這款降噪算法目前主要搭載在騰訊自己的在線會(huì)議平臺(tái)騰訊會(huì)議上，與會(huì)者會(huì)置身于各種場(chǎng)景—高鐵、超市、咖啡廳乃至自家廚房中，但終端另一側(cè)的人基本不會(huì)感知到他們所處的嘈雜環(huán)境。

天籟實(shí)驗(yàn)室有一個(gè)專門(mén)的被吸音綿包裹的消音室，這里充斥著研究員用錄音筆和聲卡捕捉到的各種噪聲—鍵盤(pán)聲、關(guān)門(mén)聲、紙巾的摩擦、杯子碰撞桌面的聲音……研究員會(huì)將這些聲音交由AI算法，通過(guò)學(xué)習(xí)，AI能像人耳一樣分辨它們。

天籟實(shí)驗(yàn)室的研究員一直在思考如何將這種AI降噪與場(chǎng)景識(shí)別技術(shù)運(yùn)用到其他領(lǐng)域。該實(shí)驗(yàn)室的技術(shù)曾搭載在騰訊一款針對(duì)聽(tīng)障用戶居家問(wèn)診需求的線上測(cè)聽(tīng)調(diào)音小程序上，這讓研究員產(chǎn)生了將其放到人工耳蝸上的想法，他們找到耳蝸廠商諾爾康合作，一起進(jìn)一步幫助聽(tīng)障人士。

然而在具體執(zhí)行時(shí)，天籟實(shí)驗(yàn)室發(fā)現(xiàn)，人工耳蝸給AI算法帶來(lái)的挑戰(zhàn)遠(yuǎn)大于應(yīng)用在諸如騰訊會(huì)議這樣的在線會(huì)議軟件中。

由于佩戴者在實(shí)際生活中面臨的環(huán)境比開(kāi)會(huì)時(shí)復(fù)雜得多，人工耳蝸不能只是做到“減少噪音、增強(qiáng)人聲”。

“不是人聲越大、環(huán)境聲音越小越好，比如日常出行，在地鐵上就要聽(tīng)到報(bào)站，以及適當(dāng)?shù)倪^(guò)往車(chē)笛聲?！碧旎[實(shí)驗(yàn)室研究員肖瑋對(duì)《第一財(cái)經(jīng)》雜志說(shuō)，“我們所做的事情并不是為了抑制噪聲，而是為了增強(qiáng)我們想聽(tīng)的聲音?！毙が|在音頻技術(shù)行業(yè)擁有15年經(jīng)驗(yàn)，專注于語(yǔ)音增強(qiáng)、心理聽(tīng)覺(jué)建模等研究。

肖瑋他們的解決方法是，先找到算法的普適能力，即盡可能還原人耳所能覆蓋的各種場(chǎng)景，再讓AI通過(guò)深度學(xué)習(xí)學(xué)會(huì)區(qū)分場(chǎng)景，并根據(jù)不同環(huán)境給出相匹配的反應(yīng)—日常單人對(duì)話、安靜場(chǎng)合聆聽(tīng)音樂(lè)、純?cè)肼晥?chǎng)景的馬路和市場(chǎng)，以及帶有噪音的語(yǔ)音場(chǎng)景，例如聚餐和會(huì)議，就需要靠4種截然不同的方案提升耳蝸佩戴者的聽(tīng)音效果。

對(duì)于助聽(tīng)翻譯眼鏡來(lái)說(shuō)，很重要的一點(diǎn)是實(shí)現(xiàn)“音字同步”的效果。

最終，諾爾康的試驗(yàn)檢測(cè)數(shù)據(jù)顯示，天籟技術(shù)與人工耳蝸結(jié)合后，語(yǔ)音平均識(shí)別率達(dá)到96.28%，其中帶噪語(yǔ)音識(shí)別率為93.38%，環(huán)境噪音中聲音識(shí)別率達(dá)到94.24%。

在提高識(shí)別率之外，更重要的是植入帶有AI技術(shù)的人工耳蝸能讓聽(tīng)障者“聽(tīng)”到此前無(wú)法感受到的豐富聲音。比如佩戴普通人工耳蝸的聽(tīng)障者是無(wú)法欣賞音樂(lè)的—從聲學(xué)角度看，相比人聲，音樂(lè)的振動(dòng)與噪音更加接近，所以常被人工耳蝸視為需要“去除”的部分。

經(jīng)過(guò)學(xué)習(xí)的AI算法解決了這個(gè)問(wèn)題：純音樂(lè)的場(chǎng)景中，它能完整保留音樂(lè)旋律;在比較敏感的頻段，它還會(huì)增強(qiáng)音樂(lè)旋律和音色。

除了讓聽(tīng)障人士能更清楚地“聽(tīng)到”聲音，AI技術(shù)其實(shí)還可以幫助他們通過(guò)“看到”聲音，與外界更好地溝通。

成立8年的增強(qiáng)現(xiàn)實(shí)（AR）眼鏡公司亮亮視野，正在嘗試在產(chǎn)品上搭載AI字幕翻譯系統(tǒng)。

2020年年初，在與相關(guān)公益組織的一次交流中，亮亮視野的產(chǎn)品設(shè)計(jì)總監(jiān)劉天一了解到，很多先天失聰?shù)暮⒆右驗(yàn)闊o(wú)法有效接觸外界信息，甚至連肢體發(fā)展都出現(xiàn)了障礙，這讓他很受觸動(dòng)。

而來(lái)自外界的被動(dòng)信息有時(shí)會(huì)比聽(tīng)障人士自主接收的信息提供更多的內(nèi)容，比如走在街上路人隨口一句“天快下雨了”，對(duì)于聽(tīng)障人士來(lái)說(shuō)，這個(gè)重要內(nèi)容就很可能被遺漏。

所以，劉天一決定改造團(tuán)隊(duì)后于2020年年底發(fā)布的一款面向企業(yè)端的AR眼鏡。這款眼鏡鏡片采用亮亮視野自研的雙目光波導(dǎo)AR技術(shù)，這使得即便在陽(yáng)光下，呈現(xiàn)在佩戴者眼前的內(nèi)容也可以清楚顯示;鏡腿略寬，下接一根可以連接手機(jī)的電線，手機(jī)提供電池供應(yīng)，并與一款名為“可譯”的翻譯App自動(dòng)連接。

這款專門(mén)服務(wù)于聽(tīng)障群體的助聽(tīng)眼鏡，搭載了字節(jié)跳動(dòng)旗下的火山引擎，而火山翻譯是火山引擎的核心AI能力之一，它通過(guò)神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯技術(shù)開(kāi)展模型訓(xùn)練，可以讓語(yǔ)音識(shí)別、自動(dòng)斷句和機(jī)器翻譯等功能表現(xiàn)得更加優(yōu)異。

對(duì)于助聽(tīng)翻譯眼鏡來(lái)說(shuō)，很重要的一點(diǎn)是實(shí)時(shí)性。為此，亮亮視野的這款產(chǎn)品配備了AI處理芯片，以盡可能接近“音字同步”的效果?！白帜伙@示至多半句話延遲?！眲⑻煲粚?duì)《第一財(cái)經(jīng)》雜志說(shuō)。

不過(guò)這枚算力強(qiáng)大的芯片，也給劉天一團(tuán)隊(duì)帶來(lái)了一些困擾。安裝到AR眼鏡上時(shí)，它出現(xiàn)了散熱、耗電不匹配的問(wèn)題，這讓團(tuán)隊(duì)不得不從各方面盡可能降低延時(shí)與耗電?！熬拖褡黾訙p法，減掉我們?cè)让嫦駼端時(shí)成熟但不合適的地方，再針對(duì)聽(tīng)障人群的需求做一次加法?！眲⑻煲?說(shuō)。

比如，為了更方便聽(tīng)障人士，團(tuán)隊(duì)通過(guò)調(diào)研，在保障語(yǔ)音翻譯足夠準(zhǔn)確、字體觀看效果足夠清晰的前提下，對(duì)文字選擇、字體大小、顯示位置都做了調(diào)整。

此外，這款A(yù)R助聽(tīng)眼鏡還有環(huán)境音智能識(shí)別、人名喚醒等功能?！奥?tīng)”到佩戴者的名字后它能自動(dòng)給出提示，這讓聽(tīng)障人士在醫(yī)院、民政窗口等公共場(chǎng)所可以更方便地辦事。

天籟實(shí)驗(yàn)室也在芯片上遇到了問(wèn)題：其研制出的滿足需求的算法程序太大了。一開(kāi)始，程序無(wú)法被塞進(jìn)位于人工耳蝸中央的那枚微小的芯片中。后來(lái)，團(tuán)隊(duì)想到了通過(guò)手機(jī)處理器和藍(lán)牙協(xié)議連接程序的辦法，并最終確立了人工耳蝸+手機(jī)伴侶的架構(gòu)。但同樣，為了緩解由此帶來(lái)的延時(shí)問(wèn)題，團(tuán)隊(duì)必須盡量精簡(jiǎn)耗電的功能。

目前，天籟實(shí)驗(yàn)室的AI音頻技術(shù)免費(fèi)開(kāi)放給公益開(kāi)發(fā)者、設(shè)備廠商、NGO及相關(guān)行業(yè)，這意味著，這一技術(shù)不僅可以用在人工耳蝸，未來(lái)還有可能植入手機(jī)、耳機(jī)中，服務(wù)對(duì)象也可從聽(tīng)障人士擴(kuò)展至聽(tīng)力逐漸衰退的老年人群體。

而亮亮視野的第一代AI助聽(tīng)眼鏡原本是專為研究開(kāi)發(fā)的，因?yàn)闇y(cè)試時(shí)不少聽(tīng)障人士表示它的確在生活中幫了大忙，亮亮視野決定將其推向市場(chǎng)，聽(tīng)障人士拿著國(guó)家認(rèn)證的聽(tīng)力障礙殘疾證明能以3999元的價(jià)格買(mǎi)入—產(chǎn)品的成本大約是1.2萬(wàn)元。

當(dāng)然，無(wú)論是騰訊和諾爾康的AI人工耳蝸還是亮亮視野的AI助聽(tīng)眼鏡，目前都遠(yuǎn)非完美產(chǎn) 品。

肖瑋和他的團(tuán)隊(duì)如今每一至兩周就要迭代出一份新版本的程序，但仍有一些當(dāng)前技術(shù)還無(wú)法解決的難題。

比如他們的這款人工耳蝸可以讓聽(tīng)障人士欣賞純音樂(lè)，但面對(duì)一首由人聲演唱的歌曲時(shí)，眼下它依舊無(wú)法展現(xiàn)歌曲的原貌—器樂(lè)和人聲混雜在一起，超出了當(dāng)下算法的處理能力。

另外，聽(tīng)障人士的病因和病情各不相同，對(duì)人工耳蝸的適應(yīng)性也由此存在著差異。有的用戶佩戴人工耳蝸時(shí)可能突然就聽(tīng)不到了，降低人工耳蝸的電刺激強(qiáng)度后聲音才“回來(lái)”—人的神經(jīng)系統(tǒng)藏著各種醫(yī)學(xué)專業(yè)人士至今都未徹底揭開(kāi)的奧秘。

對(duì)于劉天一團(tuán)隊(duì)來(lái)說(shuō)，如今稍顯笨重的助聽(tīng)眼鏡怎樣做到和普通眼鏡沒(méi)有區(qū)別，是他下一步要解決的問(wèn)題。目前，它還只能連接安卓設(shè)備，蘋(píng)果手機(jī)因?yàn)榻涌跇?biāo)準(zhǔn)不同暫時(shí)不支持，“大概今年還會(huì)出新一代的助聽(tīng)眼鏡，它會(huì)是無(wú)線的一體機(jī)，能支持的機(jī)型更多，而且佩戴感受也會(huì)提升不少?！眲⑻煲徽f(shuō)。

至于在AI算法上，助聽(tīng)眼鏡也仍有許多提高的空間。更好地適應(yīng)復(fù)雜環(huán)境背景，進(jìn)一步拓展語(yǔ)料庫(kù)，引入手語(yǔ)識(shí)別、助聽(tīng)技術(shù)，并提供除交流以外的更多使用場(chǎng)景等等，劉天一都列入計(jì)劃表了。

從不完美到逐漸趨于完美也正是AI的特性之一：只有讓它學(xué)習(xí)得足夠多，積累了足夠的用戶使用習(xí)慣和環(huán)境場(chǎng)景等數(shù)據(jù)，它才能擁有更強(qiáng)的適應(yīng)和推導(dǎo)能力。

肖瑋和劉天一都相信，隨著計(jì)算機(jī)每秒幾億次的高速運(yùn)算，總有一天，冰冷的技術(shù)會(huì)更加善解人意，并讓聽(tīng)障人士以不同方式接觸到無(wú)限接近真實(shí)的所有聲音。

3026500338294