尹雪婷
摘要 語(yǔ)音模塊的功能是實(shí)現(xiàn)將用戶(hù)通過(guò)語(yǔ)音控制電腦的語(yǔ)音輸入轉(zhuǎn)換成可以控制電腦的文本信息,將電腦反饋的信息文本轉(zhuǎn)換成語(yǔ)音,播放給用戶(hù),它承擔(dān)著軟件人機(jī)交互的主要功能。由于語(yǔ)音識(shí)別和語(yǔ)音合成的復(fù)雜性和專(zhuān)業(yè)性,本文采用了百度提供的語(yǔ)音識(shí)別和合成功能。首先利用python平臺(tái)開(kāi)發(fā)一款智能人機(jī)交互助手軟件,它的使用群體可以是那些雙手操作電腦不便的特殊用戶(hù),也可以是那些電腦知識(shí)匱乏不會(huì)使用鍵盤(pán)打字的老人或兒童,還可以是那些想要提高個(gè)人電腦的使用效率或者單純追求個(gè)人電腦使用新鮮感的人群。
【關(guān)鍵詞】語(yǔ)音控制 人工智能 人機(jī)交互助手技術(shù)研發(fā)
1 引言
語(yǔ)言是人類(lèi)溝通的重要方式,我們從很小的時(shí)候就開(kāi)始學(xué)習(xí)語(yǔ)言,語(yǔ)言交流陪伴我們一生,是我們最基本、最重要的一種社會(huì)能力。語(yǔ)言交流以其高效的表現(xiàn)方式提高了人與人之間的溝通效率,進(jìn)而提高社會(huì)生產(chǎn)效率。推而廣之,這種高效的溝通方式我們可以用在人機(jī)交互上,讓那些死板的電子產(chǎn)品變得鮮活起來(lái)。對(duì)于那些沒(méi)有接受過(guò)計(jì)算機(jī)技能培訓(xùn),電腦知識(shí)匱乏,不能熟練使用鍵盤(pán)打字的老人或兒童,智能人機(jī)助手可以方便他們用電腦進(jìn)行文字、指令的輸入和控制。而對(duì)于那些忙于文案工作的人員來(lái)說(shuō),他們不用抬頭放下手中的紙筆,輕輕對(duì)著電腦發(fā)出語(yǔ)音指令就能完成很多常用的諸如調(diào)用搜索引擎、打開(kāi)地圖等工作,提高了他們的工作效率。
本文的研究?jī)?nèi)容是要開(kāi)發(fā)一款智能人機(jī)交互助手軟件,它的作用就是通過(guò)語(yǔ)音控制個(gè)人電腦,使所有這些群體便捷地通過(guò)網(wǎng)絡(luò)獲取信息和控制電腦應(yīng)用,提高他們的工作效率,增加他們使用個(gè)人電腦的樂(lè)趣。
2 本文設(shè)計(jì)的智能人機(jī)交互系統(tǒng)功能分析
一個(gè)良好的智能語(yǔ)音交互系統(tǒng),應(yīng)該具有操作方便,簡(jiǎn)單等特性。本文設(shè)計(jì)的這個(gè)系統(tǒng)按照功能的不同分為了語(yǔ)音模塊,控制模塊,記憶模塊幾大模塊。從數(shù)據(jù)角度來(lái)看語(yǔ)音和視覺(jué)模塊負(fù)責(zé)數(shù)據(jù)的輸入,其中語(yǔ)音模塊還負(fù)責(zé)部分?jǐn)?shù)據(jù)的輸出,記憶模塊負(fù)責(zé)數(shù)據(jù)的存儲(chǔ),控制模塊負(fù)責(zé)數(shù)據(jù)的處理。
語(yǔ)音模塊:收集輸入語(yǔ)音轉(zhuǎn)換成文本信息記憶模塊;記憶模塊負(fù)責(zé)處理和存儲(chǔ)文本信息;控制模塊:負(fù)責(zé)對(duì)輸入信息做判斷,進(jìn)行執(zhí)行電腦功能模塊或利用語(yǔ)音進(jìn)行語(yǔ)數(shù)據(jù)流圖(DFD)是對(duì)系統(tǒng)中數(shù)據(jù)流動(dòng)變化進(jìn)行抽象,用來(lái)表示系統(tǒng)主要的邏輯流轉(zhuǎn)模型。
2 本文設(shè)計(jì)的智能人機(jī)交互系統(tǒng)設(shè)計(jì)與關(guān)鍵技術(shù)實(shí)現(xiàn)
本系統(tǒng)從總體上分為語(yǔ)音,控制,記憶三大模塊。不同的模塊負(fù)責(zé)不同的功能,模塊之間相互協(xié)調(diào)和配合。
2.1 語(yǔ)音模塊的設(shè)計(jì)實(shí)現(xiàn)
利用Python中的Pyaudio模塊錄制固定格式音頻,通過(guò)Http協(xié)議調(diào)用百度的語(yǔ)音識(shí)別模塊將音頻轉(zhuǎn)換成字符串,然后將字符進(jìn)行分詞處理。其中分詞處理利用了國(guó)內(nèi)優(yōu)秀的中文分詞模塊一一結(jié)巴(Jieba)分詞,這樣用戶(hù)輸入的語(yǔ)音數(shù)據(jù)就變成了容易處理的關(guān)鍵字字符串。待程序處理了用戶(hù)的輸入之后,會(huì)有一部分指令需要有語(yǔ)音輸出作為反饋,這里調(diào)用了百度語(yǔ)音合成功能,將用戶(hù)反饋的文本信息轉(zhuǎn)換成語(yǔ)音播放給用戶(hù)。
2.2 控制模塊的設(shè)計(jì)實(shí)現(xiàn)
這個(gè)模塊的主要作用是控制程序的正確運(yùn)行及功能的調(diào)用。當(dāng)系統(tǒng)啟動(dòng)之后,系統(tǒng)會(huì)處于一個(gè)休眠模式,在后臺(tái)一直運(yùn)行語(yǔ)音監(jiān)聽(tīng)程序,由于用戶(hù)在使用電腦的時(shí)候,不管是用戶(hù)本身還是用戶(hù)所處的環(huán)境都會(huì)有些雜音,所以程序設(shè)定了語(yǔ)音指令“小明”來(lái)喚醒智能人機(jī)交互助手,當(dāng)用戶(hù)給出語(yǔ)音指令“小明”的時(shí)候。智能人機(jī)交互助手就會(huì)被喚醒。播放語(yǔ)音“您好,需要什么幫助呢”。之后就會(huì)再次進(jìn)入語(yǔ)音監(jiān)聽(tīng)程序,控制臺(tái)顯示recording等待用戶(hù)的指令。按照智能人機(jī)交互助手的不同功能,我們會(huì)對(duì)用戶(hù)的語(yǔ)音指令做出判斷,然后執(zhí)行用戶(hù)所要求的功能。
2.3 功能模塊的設(shè)計(jì)實(shí)現(xiàn)
智能人機(jī)交互助手提供給用戶(hù)調(diào)用搜索引擎,智能語(yǔ)音聊天,啟動(dòng)電腦應(yīng)用三大功能。
2.3.1 調(diào)用搜索引擎
當(dāng)系統(tǒng)收到“百度”語(yǔ)音指令的時(shí)候,經(jīng)過(guò)語(yǔ)音模塊處理好的文本會(huì)被當(dāng)成百度搜索的關(guān)鍵字,通過(guò)調(diào)用函數(shù),自動(dòng)啟動(dòng)電腦瀏覽器并且搜索關(guān)鍵字展示給用戶(hù),搜索的結(jié)果經(jīng)過(guò)篩選之后會(huì)存入數(shù)據(jù)庫(kù)
2.3.2 智能語(yǔ)音聊天
用戶(hù)利用語(yǔ)音調(diào)用成功語(yǔ)音聊天功能之后,經(jīng)過(guò)語(yǔ)音模塊處理好的文本,首先會(huì)被切成提取關(guān)鍵字,通過(guò)這些關(guān)鍵字去匹配數(shù)據(jù)庫(kù)中的關(guān)鍵字矩陣尋找回答內(nèi)容,如果沒(méi)有找到,會(huì)調(diào)用圖靈機(jī)器人的語(yǔ)音聊天API,將結(jié)果反饋給用戶(hù),最后會(huì)把對(duì)話(huà)內(nèi)容加入關(guān)鍵字矩陣。
2.3.3 啟動(dòng)電腦應(yīng)用
當(dāng)系統(tǒng)收到“打開(kāi)”語(yǔ)音指令的時(shí)候,經(jīng)過(guò)語(yǔ)音模塊處理好的文本會(huì)被當(dāng)成啟動(dòng)應(yīng)用的關(guān)鍵字傳入調(diào)用電腦應(yīng)用的函數(shù)。
2.4 記憶模塊的設(shè)計(jì)實(shí)現(xiàn)
利用網(wǎng)絡(luò)圖的方式來(lái)存儲(chǔ)數(shù)據(jù),通過(guò)從圖中節(jié)點(diǎn)(我叫它們關(guān)鍵字)做添加,修改,搜索來(lái)實(shí)現(xiàn)對(duì)數(shù)據(jù)的存儲(chǔ)和利用,其中每個(gè)節(jié)點(diǎn)也叫關(guān)鍵字關(guān)聯(lián)詞語(yǔ)和與之有關(guān)的圖片,所以這個(gè)記憶模塊就由一系列圖和關(guān)鍵字組成。給予這些關(guān)鍵字有序的編號(hào)存儲(chǔ)在數(shù)據(jù)庫(kù)中。
3 結(jié)論
本智能語(yǔ)音交互系統(tǒng)在設(shè)計(jì)編寫(xiě)之初是以語(yǔ)音交互為基礎(chǔ)的,但是設(shè)計(jì)完成之后發(fā)現(xiàn)必要的用戶(hù)交互界面還是需要,時(shí)間倉(cāng)促,希以后為本程序開(kāi)發(fā)良好的交互界面。對(duì)于程序的個(gè)性化這部分的實(shí)現(xiàn),是對(duì)數(shù)據(jù)庫(kù)中矩陣數(shù)據(jù)的匹配識(shí)別,以后還需結(jié)合大數(shù)據(jù)這方面的知識(shí)進(jìn)一步完善。
參考文獻(xiàn)
[1]楊威,吳建,李珊珊,孫佳鈺,張旭彤,劉英博,耿立明.智能家居下的語(yǔ)音控制系統(tǒng)[J].電子制作,2016 (06):37.
[2]馬漢,訊飛發(fā)布多款語(yǔ)音新品發(fā)力智能家庭領(lǐng)域[J],計(jì)算機(jī)與網(wǎng)絡(luò),2014,40 (16):32-33.
[3]林峰,蔡宇博,周浪,馬學(xué)品,試制智能服務(wù)機(jī)器人(上)[J].電子制作,2005 (10):30-33.