鄺展鵬
摘要:隨著人工智能技術(shù)不斷取得突破,人機(jī)交互的模式逐漸從傳統(tǒng)的鼠標(biāo)鍵盤交互和觸屏交互向自然交互發(fā)展。在這種大環(huán)境下,為了提高現(xiàn)有三維繪圖軟件的工作效率,提出了一種利用開放平臺(tái)的語音識(shí)別技術(shù)輔助繪圖的方法。在保留三維繪圖軟件原有的鼠標(biāo)鍵盤操作模式下,增加了語音指令輔助設(shè)計(jì)的方式。
關(guān)鍵詞:語音識(shí)別;語音繪圖;智能語音
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):2095-2945(2019)12-0168-02
1概述
隨著語音識(shí)別技術(shù)和自然語言處理技術(shù)的發(fā)展,科大訊飛、云知聲和百度智能等開放平臺(tái)日趨成熟,這為當(dāng)前開發(fā)應(yīng)用級(jí)別的語音輔助系統(tǒng)提供了良好的技術(shù)支持。無論是在移動(dòng)智能手機(jī)上的語音助手,還是風(fēng)靡各個(gè)家庭的智能音箱,都代表著語言交互這一種我們?nèi)粘I钪惺褂米顝V泛也是最重要的交互方式融入到人機(jī)交互中是不可避免的趨勢(shì)。Solidworks是一款專門用于工程制圖的三維繪圖軟件,在國(guó)內(nèi)廣泛應(yīng)用于機(jī)械設(shè)計(jì)與評(píng)估。其內(nèi)置應(yīng)用程序編程接口(API),便于開發(fā)者進(jìn)行二次開發(fā)。百度智能語音平臺(tái)為開發(fā)者提供的軟件開發(fā)工具包(SDK)具有強(qiáng)大且完善的功能,包括語音識(shí)別、詞法分析、語音合成等圈。這兩者的結(jié)合讓語音識(shí)別技術(shù)應(yīng)用于現(xiàn)有的三維繪圖軟件,從而提高設(shè)計(jì)師的工作效率成為可能。
2語音識(shí)別和語義理解
語音識(shí)別技術(shù)是以人的語音信號(hào)為研究對(duì)象,能通過模式識(shí)別或深度學(xué)習(xí)的方法將語音信號(hào)轉(zhuǎn)換成文字信息。目前國(guó)外的開源語音識(shí)別引擎(ASR)有CMU Sphinx、HTK、Kaldi等,國(guó)內(nèi)有訊飛語音、百度智能等開放平臺(tái)提供語音識(shí)別服務(wù)。其中,國(guó)內(nèi)的大型開放平臺(tái)在中文語音識(shí)別的準(zhǔn)確率已經(jīng)達(dá)到了95%以上。然而語音識(shí)別技術(shù)只能將語音信息轉(zhuǎn)換成文字,進(jìn)行語音識(shí)別后獲得的文本信息還需要讓計(jì)算機(jī)理解后才能轉(zhuǎn)化成具體的指令,從而執(zhí)行相應(yīng)的任務(wù)以滿足我們的需要。
語義理解是在自然語言處理(NLP)技術(shù)的基礎(chǔ)上,針對(duì)文本信息中人的意圖進(jìn)行識(shí)別并讓計(jì)算機(jī)理解的過程。首先需要使用NLP中的詞法分析對(duì)文本信息進(jìn)行處理。詞法分析是一種能夠?qū)ξ谋拘畔⑦M(jìn)行分詞、詞性識(shí)別和專名識(shí)別的技術(shù),其處理過程如圖1所示。
進(jìn)行詞法分析后,計(jì)算機(jī)就可以對(duì)結(jié)果所得的詞匯進(jìn)行檢索,并使用匹配模型匹配對(duì)應(yīng)的用戶意圖。匹配模型包括一個(gè)喚醒關(guān)鍵字和數(shù)目不等的參數(shù),例如“繪制圓柱”這個(gè)意圖對(duì)應(yīng)的匹配模型包括了喚醒關(guān)鍵字“繪制”、參數(shù)“圓柱”、還有圓柱對(duì)應(yīng)的高度和直徑尺寸。計(jì)算機(jī)只有獲取到滿足匹配模型的所有參數(shù)才能準(zhǔn)確按照用戶的意圖進(jìn)行操作。語義理解的結(jié)構(gòu)如圖2所示。
3SolidWorks動(dòng)作宏
要實(shí)現(xiàn)語音控制繪圖軟件進(jìn)行工作,就需要繪圖軟件能夠通過除了鼠標(biāo)鍵盤輸入指令之外的方式進(jìn)行繪圖。SolidWorks自帶宏工具,用戶可以通過錄制/編輯/執(zhí)行宏提高工作效率。錄制并保存的宏文件可以保存為C#、VB.NE3F等格式。因此,使用動(dòng)作宏進(jìn)行繪圖是該繪圖軟件的第三種輸入方式。由于宏文件使用了C#、VB.NET等高級(jí)語言進(jìn)行編輯和運(yùn)行,因此可以通過讀取XML等外部文件進(jìn)行信息傳遞,從而根據(jù)外部指令控制繪圖軟件進(jìn)行不同的操作,如圖3所示。
Solidworks的動(dòng)作宏具有強(qiáng)大的功能,例如捕捉繪圖空間中的焦點(diǎn)、調(diào)用任意繪圖工具、移動(dòng)窗口鏡頭等,完全能夠滿足開發(fā)者需求。因此宏文件的編寫關(guān)鍵是對(duì)各個(gè)繪圖工具的使用進(jìn)行結(jié)構(gòu)化設(shè)計(jì),通過讀取外部文件的信息得知滿足用戶的意圖需要調(diào)用哪個(gè)繪圖工具,以及具體的繪制參數(shù)是什么。
4系統(tǒng)設(shè)計(jì)
通過前文對(duì)于當(dāng)前語音識(shí)別、語義理解技術(shù)的探索以及Solidworks軟件本身研究,可知在理論上能夠?qū)⒄Z音識(shí)別技術(shù)運(yùn)用于三維繪圖軟件的輔助繪制上。整個(gè)系統(tǒng)的結(jié)果框圖如圖4所示。
用戶可以通過原有的鼠標(biāo)鍵盤使用繪圖軟件進(jìn)行圖形繪制,也可以通過麥克風(fēng)使用語言進(jìn)行指令輸入。使用語音輸入時(shí),語音識(shí)別程序先將語音信號(hào)轉(zhuǎn)化成計(jì)算機(jī)指令并保存在信息文件中,用戶執(zhí)行動(dòng)作宏讀取信息文件中的指令并執(zhí)行,達(dá)到語音輔助制圖的效果。
5用戶與系統(tǒng)的語音交互方式
用戶通過語音向系統(tǒng)發(fā)出指令以及系統(tǒng)回應(yīng)用戶的交互過程關(guān)乎到用戶的使用體驗(yàn)。也就是說,系統(tǒng)需要知道用戶什么時(shí)候開始說話,用戶需要知道系統(tǒng)有沒有聽到自己說話。這樣才能讓用戶更好的說出自己的操作意圖,讓系統(tǒng)便于分析理解并執(zhí)行。用戶與系統(tǒng)的語音交互方式如圖5所示。
在握手階段內(nèi)用戶通過語音喚醒激活識(shí)別系統(tǒng),系統(tǒng)通過鈴聲等方式進(jìn)行回應(yīng)并開始聆聽用戶說話。語音喚醒是指系統(tǒng)通過麥克風(fēng)持續(xù)監(jiān)聽周圍的聲音,當(dāng)用戶說出設(shè)定好的詞語后就激活系統(tǒng),而對(duì)喚醒詞語以外的聲音不作任何反應(yīng)。當(dāng)前的智能音箱和手機(jī)上的語音助手廣泛采用這種激活系統(tǒng)的模式。
6結(jié)束語
本文通過分析當(dāng)前基于云端開放平臺(tái)的智能語音技術(shù)以及繪圖軟件本身所提供的動(dòng)作宏模塊得出了能通過語音識(shí)別技術(shù)控制繪圖軟件進(jìn)行工作的結(jié)論。并設(shè)計(jì)了一種系統(tǒng)結(jié)構(gòu),可以在保留原有的鼠標(biāo)鍵盤輸入命令的繪圖方式的基礎(chǔ)上,增加語音輔助繪圖的功能。不僅能減少繪圖繁瑣的操作步驟,更為用戶提供了新的操作體驗(yàn),具有廣泛的應(yīng)用前景。