摘 要:語音控制是當(dāng)下智能家居系統(tǒng)的主流管理方式。然而目前大部分語音控制系統(tǒng)只針對普通話進行研發(fā)并使用,而對于方言的支持則相對有限,普及率不高。針對目前語音控制系統(tǒng)存在的方言識別水平較低等問題,設(shè)計了一款可實現(xiàn)多種方言精準識別的智能家居語音控制系統(tǒng),該系統(tǒng)能夠?qū)崿F(xiàn)方言種類的自適應(yīng)判斷,可以通過多種方言實現(xiàn)對智能家居系統(tǒng)的控制。實驗結(jié)果表明,在加入3種不同噪音值的音樂噪聲下,系統(tǒng)對兩種方言的語音識別準確率均保持在90%以上,最高可達95.1%,表明本系統(tǒng)具有較好的自適應(yīng)識別能力,是一種可實現(xiàn)方言自適應(yīng)判斷和精準識別的智能家居控制系統(tǒng)。
關(guān)鍵詞:語音識別;方言識別;智能家居系統(tǒng);自適應(yīng)判斷;家居終端;STM32
中圖分類號:TP302.1 文獻標識碼:A 文章編號:2095-1302(2025)06-0-03
DOI:10.16667/j.issn.2095-1302.2025.06.025
0 引 言
智能家居系統(tǒng)作為物聯(lián)網(wǎng)技術(shù)及人工智能技術(shù)持續(xù)進步的結(jié)晶,逐漸與傳統(tǒng)家居結(jié)合并成為方便人們生活的一大利器。在智能家居應(yīng)用技術(shù)尚未成熟時,智能控制系統(tǒng)主要應(yīng)用于商務(wù)辦公以及工業(yè)領(lǐng)域。伴隨著物聯(lián)網(wǎng)技術(shù)及人工智能技術(shù)的持續(xù)進步,智能控制系統(tǒng)應(yīng)用于商務(wù)辦公和工業(yè)領(lǐng)域的局面逐漸被扭轉(zhuǎn)。而現(xiàn)有智能家居系統(tǒng)的智能化水平普遍較低,難以滿足用戶日益增長的多樣化、個性化、智能化需求。因此,更加便利的語音控制成為當(dāng)下智能家居系統(tǒng)的主流管理方式。目前,大多數(shù)語音交互系統(tǒng)主要依賴于大規(guī)模語種訓(xùn)練。但由于方言分支種類繁多、方言數(shù)據(jù)收集困難,所以語音控制系統(tǒng)在方言領(lǐng)域的應(yīng)用水平和識別精準度普遍偏低。
在方言語音識別研究的前期階段,比較常見的研究方法是為每種方言搭建專屬的語音識別系統(tǒng),這一方法至今依舊是語音識別領(lǐng)域內(nèi)的一大研究重點。例如,文獻[1]探討了為五種主要的阿拉伯語方言分別建立特定方言的ASR系統(tǒng)可行性問題。文獻[2]對于藏語的民族方言研究處于初級階段,其將主要的研究焦點集中在藏語安多方言的連續(xù)語音識別效果上,并成功實現(xiàn)了基于混合端到端技術(shù)的藏語安多方言語音識別;文獻[3]針對方言語音識別研究的局限性和有限性,在現(xiàn)有語音識別理論的基礎(chǔ)上,建立了陜北方言語料庫,并借助開源語音識別工具搭建了陜北方言語音識別系統(tǒng)。這類專注識別單一方言的模型,具有一定的局限性。
有些研究者更多地著眼于多方言模型的搭建。文獻[4]為了簡化訓(xùn)練多方言系統(tǒng)的過程,研究并探索了訓(xùn)練單個模型來識別不同英語方言的可能性,但本質(zhì)上還是單類語音識別模型;文獻[5]針對日本方言中的語言差異問題,提出了一種可接受多種方言的自動語音識別系統(tǒng);文獻[6]以藏語的衛(wèi)藏方言、康方言和安多方言為研究對象,以藏語多方言語音識別為主任務(wù),探討了基于多任務(wù)學(xué)習(xí)的藏語多方言語音識別技術(shù)和方法。由此可見,目前大部分方言語音識別基本圍繞一大類方言的分支方言展開,此類方言的差異粒度較小,它們當(dāng)中的聲學(xué)特征、語調(diào)韻律都具有相似之處,實質(zhì)上此類多方言識別的跨度不大。并且由于漢語方言分支種類繁多、方言數(shù)據(jù)收集困難,所以針對大跨度多方言的語音識別研究在我國的發(fā)展比較緩慢。
因此,本文設(shè)計了一款以語音控制為基礎(chǔ)、能夠識別多種方言的智能語音家居系統(tǒng)。為了提升用戶使用方言與控制系統(tǒng)進行語音交互的良好體驗,此系統(tǒng)實現(xiàn)了方言種類的自適應(yīng)判斷,能夠?qū)蚀_的指令精準傳遞給家居終端。該系統(tǒng)具有簡單易用、高效便捷的特點,提高了智能家居系統(tǒng)的智能化程度和用戶體驗。
1 智能家居系統(tǒng)總體設(shè)計
本文設(shè)計的智能家居系統(tǒng)以語音識別技術(shù)為核心、以語音信號作為操作指令。本系統(tǒng)采用STM32微處理器作為主控模塊,結(jié)合基于云服務(wù)器的語音識別引擎以及Python、Visual Studio開發(fā)環(huán)境作為控制管理中心。該系統(tǒng)能夠連接小型家電系統(tǒng),包含照明系統(tǒng)、空調(diào)系統(tǒng)等,通過連接多個智能家居設(shè)備,實現(xiàn)了無線智能控制家電終端的功能,達到了用戶通過語音控制智能家居設(shè)備的目的,滿足人們對家居生活更高質(zhì)、更舒適、更便捷的需求。
該系統(tǒng)主要分為基于云的語音識別引擎、主控模塊硬件、智能家居終端。系統(tǒng)工作流程如圖1所示,主控硬件中語音采集模塊將收集的語音指令上傳并調(diào)用云語音識別引擎,通過云端引擎進行方言的自識別處理,并將處理后的控制信號傳輸?shù)街骺啬K硬件,從而達到控制家居終端的目的。同時,該系統(tǒng)還支持自定義語音指令,用戶可以根據(jù)自己的需求和習(xí)慣自由定義語音指令,提高系統(tǒng)的靈活性和易用性。這不僅提升了家居系統(tǒng)的交互體驗,還使得系統(tǒng)能夠更深入地理解用戶需求,從而為用戶提供更加貼心、便捷的智能化生活體驗。
2 智能家居系統(tǒng)的硬件結(jié)構(gòu)
本文的智能語音控制系統(tǒng)中的嵌入式主控模塊采用STM32F103C86作為主控芯片,主要用于接收和處理來自軟件的信號,再將其傳遞給輔助控制模塊以控制智能家居終端。STM32F0系列產(chǎn)品基于超低功耗的ARM Cortex-M0處理器內(nèi)核[7],STM32系列單片機功耗低,運算速度快[8],因此選擇此產(chǎn)品作為主控芯片以滿足主控制模塊對資源的需要。主控模塊的電壓使用范圍為2.0~3.6 V,工作頻率最高可以達到72 MHz,內(nèi)部采用64 KB FLASH程序存儲器,以及高達20 KB的SRAM數(shù)據(jù)存儲器[9],含有異步串行接口。主控模塊結(jié)構(gòu)如圖2所示。
智能語音控制系統(tǒng)的主控硬件包含信息采集模塊,其主要通過各類傳感器完成語音信息、室內(nèi)溫度、照明強度等數(shù)據(jù)的采集,并進行處理及傳輸。
3 智能家居系統(tǒng)的軟件設(shè)計
在本文設(shè)計的智能家居語音控制系統(tǒng)中,軟件部分主要結(jié)合基于云服務(wù)器的語音處理引擎、Python和Visual Studio開發(fā)環(huán)境進行搭建。
在利用云語音識別引擎對語音數(shù)據(jù)進行自適應(yīng)識別時,應(yīng)考慮多種方言的語種判斷問題,同時還需要考慮語料庫存儲空間的限制。盡管當(dāng)前的本地資源硬件在算法層面已經(jīng)能夠?qū)崿F(xiàn)對語音數(shù)據(jù)的方言語種判斷,但這一過程仍需要綜合考量語種識別的準確性以及硬件資源的高效利用,存在本地研發(fā)成本過高、本地硬件存儲資源有限、算力性能未達到理想結(jié)果的情況[10]。因此,充分考慮到軟件設(shè)計的可推廣性和完整性,本系統(tǒng)采用基于云服務(wù)器的語音識別引擎進行語種判斷的方案。
語音識別過程如圖3所示。首先對硬件采集模塊收集的語音信息進行分析,創(chuàng)建喚醒詞與命令詞數(shù)據(jù),通過喚醒詞數(shù)據(jù)請求云端,對提取的語音進行方言特征提取,進而自適應(yīng)判斷方言種類,并進一步調(diào)用對應(yīng)的方言命令。然后,通過語義轉(zhuǎn)譯引擎將數(shù)據(jù)轉(zhuǎn)譯并傳輸?shù)接布骺啬K,從而控制智能家居終端[11-13]。
本系統(tǒng)通過調(diào)用云方言識別引擎中的大規(guī)模語料庫進行訓(xùn)練,能夠高效、準確地實現(xiàn)語音到文本的轉(zhuǎn)換,并對多種方言進行特征提取,具有較高的拓展性,可以滿足不同用戶的需求。同時,可以充分發(fā)揮云語音識別引擎的強大算力。
4 實驗測試
云語音識別引擎對多種方言具備自適應(yīng)判斷功能,本實驗選取適用范圍相對較廣并且方言發(fā)音特征跨度較大的四川話和粵語進行喚醒及語種判斷性能驗證。在對語種判斷性能的驗證中,加入不同噪音值的音樂噪音,將實驗分為三種情況進行驗證:在安靜環(huán)境(即不加入音樂噪音)下、在次級噪音環(huán)境(即加入20 dB的音樂噪音)下、在噪音環(huán)境(即加入40 dB的音樂噪音)下。
表1展示了多種方言的喚醒性能及語種識別準確率統(tǒng)計數(shù)據(jù)。分析表1中的數(shù)據(jù)得出,四川話語種在安靜環(huán)境條件下表現(xiàn)出色,其喚醒率接近100%,語種識別準確率高達95.1%,體現(xiàn)出四川話語種在家居系統(tǒng)中的良好適應(yīng)性和識別準確性;在次級噪音環(huán)境下,四川話系統(tǒng)喚醒率為98.4%,相比普通話略低,但其語種識別準確率為92.6%,略低于普通話;加入40 dB的音樂噪音后,四川話系統(tǒng)的喚醒率略有降低,同時其語種識別準確率在噪音的干擾下,降低到了91.2%。在相同的對比條件下,粵語在安靜環(huán)境條件下的喚醒率為99.4%,同樣展現(xiàn)出較好的喚醒性能,與普通話的喚醒率基本保持持平;粵語語種識別準確率為93.6%,與普通話相比還有一定差距;在次級噪音環(huán)境條件下,粵語語種喚醒率為99.1%,相比普通話略低,語種識別準確率為94.7%,優(yōu)于相同條件下的四川話識別準確率;在噪音條件下,粵語的喚醒率為99%,喚醒率依舊表現(xiàn)出良好的適應(yīng)性,其語種識別準確率為93.2%,和普通話相比有所降低。當(dāng)然,實驗過程中可能會遇到由于概率性問題導(dǎo)致驗證結(jié)果存在偏差的情況[14-16]。
綜上所述,普通話、粵語和四川話等語種在整體的喚醒算法延遲和語種識別準確率方面,與單獨的普通話喚醒算法相比,基本保持相當(dāng)?shù)乃?。這表明本文的智能家居語音控制系統(tǒng)在處理不同語種時,其性能和穩(wěn)定性均得到了良好的保證。在噪音的干擾下,本文系統(tǒng)對于不同語種的識別準確率均保持在90%以上,證明云語音識別引擎在處理語音數(shù)據(jù)方面,有較好的表現(xiàn)。
5 結(jié) 語
在物聯(lián)網(wǎng)技術(shù)快速發(fā)展的當(dāng)下,萬物互聯(lián)已成為現(xiàn)實。智能家居系統(tǒng)作為物聯(lián)網(wǎng)技術(shù)及人工智能技術(shù)不斷發(fā)展的產(chǎn)物,極大程度地改善了用戶的生活環(huán)境、提升了人們的生活體驗,具有深遠的意義和廣闊的前景。尤其是自然語言處理等人工智能技術(shù)和算法的持續(xù)進步,家居系統(tǒng)的智能化控制得以不斷優(yōu)化,為用戶提供了更加個性化和智能化的產(chǎn)品與服務(wù)。本文設(shè)計了一個可實現(xiàn)多方言精準識別的智能家居語音控制系統(tǒng),能夠完成方言種類的自適應(yīng)判斷,使用戶可以通過多種方言控制智能家居系統(tǒng)。測試結(jié)果表明,本文系統(tǒng)在噪音環(huán)境下對兩種方言的判斷正確率可以達到90%以上,證明了系統(tǒng)良好的適應(yīng)性和穩(wěn)定性。未來將在云系統(tǒng)中加入更多方言模塊,使系統(tǒng)的功能更加豐富,以實現(xiàn)更加舒適、節(jié)能、方便的家居生活。
注:本文通訊作者為丁千惠。
參考文獻
[1] EIMAN A, ALLAN R. Investigating the effects of gender, dialect, and training size on the performance of Arabic speech recognition [J].Language resources and evaluation, 2020, 54(4): 975-998.
[2]孫婧雯. 基于深度學(xué)習(xí)的藏語安多方言語音識別的研究[D].蘭州:西北師范大學(xué),2021.
[3]楊迪一.基于深度學(xué)習(xí)的陜北方言語音識別系統(tǒng)設(shè)計[D].延安:延安大學(xué),2023.
[4] LI B, SAINATH T N, SIM K C, et al. Multi-dialect speech recognition with a single sequence-to-sequence model [C]// 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Calgary, AB, Canada: IEEE, 2018: 4749-4753.
[5] HIRAYAMA N, YOSHINO K, ITOYAMA K, et al. Automatic speech recognition for mixed dialect utterances by mixing dialect language models [J]. Transactions on audio speech amp; language processing, 2015, 23(2): 373-382.
[6]旦正加. 低資源藏語多方言語音識別[D].北京:中央民族大學(xué),2023.
[7]李聰,李春梅,周志群,等.基于STM32數(shù)據(jù)傳輸轉(zhuǎn)換接口器的設(shè)計與實現(xiàn)[J].計算機工程與設(shè)計,2014,35(10):3416-3421.
[8]黃江,趙玲峰.基于STM32的廚房智能機器人的設(shè)計[J].現(xiàn)代電子技術(shù),2021,44(19):183-186.
[9]沙鵬程,賈艷玲,羅浩,等.基于NB-IoT的城市橋梁監(jiān)測與信息共享系統(tǒng)設(shè)計[J].數(shù)字技術(shù)與應(yīng)用,2023,41(5):187-189.
[10]周婕,劉婷婷,黃才華,等.智能家居環(huán)境中計算資源的分配方法[J].計算機應(yīng)用,2021,41(z2):165-168.
[11]余亞東,李春江,楊麗.基于語音識別的智能家居物聯(lián)網(wǎng)系統(tǒng)[J].計算機應(yīng)用,2022,42(z1):391-394.
[12]陳希祥,黃伍,李德英.基于語音識別的智能家居控制系統(tǒng)設(shè)計[J].自動化與儀表,2021,36(7):91-95.
[13]田鈺彬,朱劍剛,王國坤.智能家居語音交互體驗的設(shè)計方法探析[J].家具,2021,42(3):23-27.
[14]蔡青竹.基于人工智能的語音識別分析[J].集成電路應(yīng)用,2020,37(9):6-7.
[15]黨丹丹,陳健聰.基于云端的智能家居物聯(lián)網(wǎng)系統(tǒng)的研究與實現(xiàn)[J].現(xiàn)代信息科技,2020,4(16):170-172.
[16]黃興,李文金,蘇凱雄.一種基于安卓與云平臺的智能家居系統(tǒng)設(shè)計[J].電腦知識與技術(shù),2021,17(7):5-8.
作者簡介:張 昱(1979—),男,博士,副教授,研究方向為大數(shù)據(jù)、人工智能與巖爆。
丁千惠(1999—),女,在讀碩士研究生,研究方向為大數(shù)據(jù)、人工智能。
王俊超(1998—),男,在讀碩士研究生,研究方向為大數(shù)據(jù)、人工智能。
收稿日期:2024-04-26 修回日期:2024-05-31
基金項目:北京市教育科學(xué)“十四五”規(guī)劃2024年度課題(ADDB24251);北京建筑大學(xué)研究生教育教學(xué)質(zhì)量提升項目(J2025003);北京建筑大學(xué)碩士研究生創(chuàng)新項目(PG2025106)