張潤澤 王子豪 柏宇 戴海鴻 南京郵電大學(xué)通信與信息工程學(xué)院
引言:智能語音作為一種最天然的“交互技術(shù)”,已成為服務(wù)型機(jī)器人領(lǐng)域的場景標(biāo)配。隨著人類不斷進(jìn)化,從最初通過手掌、肢體使用簡單工具、傳遞簡單信息,發(fā)展到控制發(fā)聲并通過耳朵接收,形成了一個(gè)以語音為載體的快速信息傳遞通道和收發(fā)閉環(huán),成為人類間最自然、最重要的信息交互手段。聲波對(duì)接收指向性的要求更寬松,這個(gè)寶貴的特性會(huì)在很多場景下帶來極大便利。隨著智能設(shè)備和應(yīng)用的影響逐漸擴(kuò)大,用戶群向老齡人群、低齡人群、身體殘障人群擴(kuò)散的趨勢(shì)非常明顯。幼兒時(shí)期作為最具有可塑性的一個(gè)時(shí)期,這一時(shí)段的德智教育伴隨一生,近些年來,掀起了一陣早教的風(fēng)潮。但不是所有的父母都有足夠的時(shí)間能進(jìn)行足夠的教育,也不是所有的父母都有正確的早教經(jīng)驗(yàn)。本作品針對(duì)2-6歲兒童的益智多功能玩具,在家長沒有時(shí)間照顧孩子時(shí)可以充當(dāng)一個(gè)玩伴的角色,通過豐富的內(nèi)置早教與對(duì)話資源可以很好地培養(yǎng)孩子的語言和學(xué)習(xí)能力。語音交互技術(shù)主要分為語音喚醒、語音識(shí)別、和語音合成這三大技術(shù)。
基于這三項(xiàng)關(guān)鍵技術(shù),本文將深入解析基于語音交互技術(shù)的智能兒童玩具。
智能兒童玩具選用了SYN7318中文語音交互模塊,模塊的核心技術(shù)為語音識(shí)別、語義理解、語音合成三項(xiàng)技術(shù),在此基礎(chǔ)上可以應(yīng)用在自動(dòng)售貨機(jī)、POS機(jī)、車載GPS設(shè)備、智能玩具等多種語音交互場合。
在和智能兒童玩具進(jìn)行語音交互之前,必須先對(duì)其進(jìn)行語音喚醒。喚醒之后才能讓智能玩具開始接收語音并且進(jìn)行識(shí)別。語音喚醒支持以下特定名字的喚醒功能模塊支持下列特定喚醒名字進(jìn)行喚醒。同時(shí)還支持用戶自定義設(shè)置喚醒名。模塊支持用戶按照自己的喜好進(jìn)行喚醒名稱自定義。如“快樂小播”等四個(gè)漢字的喚醒名。用戶設(shè)置喚醒名字方便快速,可以通過控制命令設(shè)置模塊的當(dāng)前喚醒名為以上喚醒名中的任意一個(gè)或者自定義一個(gè)個(gè)性喚醒名,為設(shè)備取一個(gè)名字,交互方式簡單有趣。還可以通過控制命令開啟喚醒模式,之后進(jìn)行人機(jī)的交互。
SYN7318中文語音交互模塊支持非特定人命令詞識(shí)別,即只識(shí)別語音內(nèi)容而不區(qū)分說話人。同時(shí)不限定被識(shí)別語音范圍,男女老幼語音均可使用普通話進(jìn)行識(shí)別。語音交互模塊還支持中文、英文、中英文混合識(shí)別。系統(tǒng)最多支持定義10000條語音命令,識(shí)別命令詞可以在單片機(jī)編程時(shí)動(dòng)態(tài)更新,用戶可以通過控制命令直接更新內(nèi)部詞條。
模塊支持任意中文文本的合成,可以采用GB2312、GBK、BIG5和Unicode大頭或Unicode小頭 四類五種編碼方式。文本智能分析處理模塊具有文本智能分析處理功能,對(duì)常見的數(shù)值、電話號(hào)碼、時(shí)間日期、度量衡符號(hào)等格式的文本,模塊能夠根據(jù)內(nèi)置的文本匹配規(guī)則進(jìn)行正確的識(shí)別和處理。例如: “火車的速度是622km/h”讀作 “火車的速度是六百二十二公里每小時(shí)”,“-12℃”讀作“零下十二攝氏度”等等。
基于智能語音交互技術(shù)的兒童玩具建立在SYN7318中文語音交互模塊語音識(shí)別、語義理解、語音合成三項(xiàng)技術(shù)設(shè)計(jì)實(shí)現(xiàn)了語音喚醒玩具、幼兒語音的識(shí)別、語音指令的處理和反饋。其優(yōu)點(diǎn)十分明顯,通過這三項(xiàng)技術(shù)設(shè)計(jì)而成的智能玩具能夠?qū)崿F(xiàn)對(duì)幼兒的語音識(shí)別和指令處理,完成講故事、唱兒歌、說英語等早教功能,以此實(shí)現(xiàn)早教、陪伴的功能,對(duì)于幼兒的早期智力、語言功能的發(fā)展具有十分重要的意義,因此具有廣闊的商業(yè)前景。