亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于語音交互系統(tǒng)導(dǎo)游機(jī)器人設(shè)計

        2023-09-27 14:21:04楊鵬楊會潘杰陸思奇劉錦燁
        電子制作 2023年17期
        關(guān)鍵詞:麥克風(fēng)錄音導(dǎo)游

        楊鵬,楊會,潘杰,陸思奇,劉錦燁

        (宿遷學(xué)院 信息工程學(xué)院,江蘇宿遷,223800)

        0 引言

        在浮躁的社會環(huán)境下,人們越來越喜歡前往博物館品味歷史文化,感受歷史積淀??墒遣┪镳^講解人員接受教育程度、職業(yè)技能水平、道德素質(zhì)參差不齊,而現(xiàn)有的藍(lán)牙耳機(jī)定點(diǎn)講解過于死板,有著信號干擾、游客互動性差等缺點(diǎn),不能滿足游客的用戶體驗(yàn)[1]。所以本文設(shè)計一款可為游客提供引導(dǎo)講解的機(jī)器人語音交互系統(tǒng),通過人工智能技術(shù)的引入促使博物館轉(zhuǎn)入新的發(fā)展方向,更加智慧化、智能化[2]。

        文獻(xiàn)[3]利用科大訊飛開放云平臺,搭建一種基于云平臺的智能語音交互機(jī)器人系統(tǒng),使機(jī)器人能夠根據(jù)不同的環(huán)境與任務(wù)需求實(shí)現(xiàn)雙向互動交流[3]。文獻(xiàn)[4]就介紹了一種運(yùn)用于煤礦的機(jī)器人語音交互系統(tǒng),該系統(tǒng)可以提高煤礦機(jī)器人的人機(jī)交互性能,使現(xiàn)場作業(yè)人員與機(jī)器人的交互更加便利,也可以與機(jī)器人管理系統(tǒng)配合,提高機(jī)器人的協(xié)調(diào)作業(yè)能力[4]。文獻(xiàn)[5]利用語音識別技術(shù)中的動態(tài)時間規(guī)整算法,針對系統(tǒng)中的指定的詞匯進(jìn)行測試,實(shí)驗(yàn)結(jié)果表明DTW 算法可以很好地實(shí)現(xiàn)系統(tǒng)中指定的詞匯識別,具有較好的魯棒性和抗噪性能,識別率高[5]。在上述研究的基礎(chǔ)上,我們針對博物館、藝術(shù)館等室內(nèi)場景,設(shè)計了一款識別能力較優(yōu)的語音交互系統(tǒng)。

        1 導(dǎo)游機(jī)器人語音交互系統(tǒng)框架

        圖1 語音交互系統(tǒng)總體框架圖

        智慧博物館下導(dǎo)游機(jī)器人語音交互系統(tǒng)搭載在Jestnano-NX 上,主要由以下三個層次構(gòu)成:最底層是物理層,系統(tǒng)運(yùn)行環(huán)境為Ubantu18.04,對應(yīng)的機(jī)器人操作系統(tǒng)ROS 版本為Melodic;其次是中間層,該層主要是科大訊飛SDK 以及ROS操作系統(tǒng);最上層為應(yīng)用層,主要是機(jī)器人進(jìn)行語音交互,分為語音識別、語義理解、對話生成、文本轉(zhuǎn)語音四個模塊。

        2 語音交互系統(tǒng)

        ■2.1 語音交互流程

        導(dǎo)游機(jī)器人所用語音交互系統(tǒng)主要模塊包含語音采集、語音喚醒、語音檢測、語音識別、本地語音庫的檢索、語音交互、語音合成、輸出設(shè)備播放從而構(gòu)成滿足功能需要的語音交互系統(tǒng)。

        一次完整的語音交互,包含:語音識別(ASR)→語義理解(NLU)→對話生成(NLG)→文本轉(zhuǎn)語音(TTS)的流程。

        圖2 語音交互流程圖

        語音識別(ASR)用于將聲學(xué)語音進(jìn)行分析,并得到對應(yīng)的文字或拼音信息。語音識別系統(tǒng)一般分為:訓(xùn)練和解碼兩階段。訓(xùn)練即通過大 量標(biāo)注的語音數(shù)據(jù)訓(xùn)練數(shù)學(xué)模型,通過大量標(biāo)注的文本數(shù)據(jù)訓(xùn)練語言模型。解碼則是通過聲學(xué)和語言模型將語音數(shù)據(jù)識別成文字。機(jī)器人通過訓(xùn)練與解碼實(shí)現(xiàn)對語音指令的識別。

        語義理解(NLU)為了讓機(jī)器人能夠理解到它所識別的,我們對機(jī)器構(gòu)造語義網(wǎng)絡(luò)表達(dá)對世界的認(rèn)知,用有序的詞語映射到語義網(wǎng)絡(luò),并且特定詞語和語義網(wǎng)絡(luò)中特定元素對應(yīng)。使其能夠理解所說的話。

        對話生成(NLG)即機(jī)器人根據(jù)理解所得到的結(jié)構(gòu)化的數(shù)據(jù)、文本等,生成人類可以理解的自然語言形式的文本。實(shí)現(xiàn)文本到文本(text-to-text)等。

        文字轉(zhuǎn)語音(TTS)就是將得到的信息從文本轉(zhuǎn)換成語音,讓機(jī)器說話。一般主要使用兩種做法:一種是拼接法,一種是參數(shù)法。我們使用的是參數(shù)法,即使用統(tǒng)計模型來產(chǎn)生語音參數(shù)并轉(zhuǎn)化成波形。

        ■2.2 語音交互系統(tǒng)算法

        (1)動態(tài)時間規(guī)整識別算法

        假設(shè)參考模板為{R1,R2,…Rm…,RM}共有M 幀;測試語音為{T1,2T,…Tn…,TN}共有N 幀。由于M ≠N,則動態(tài)時間規(guī)整通過尋找一個時間規(guī)整函數(shù)m=w(n),使得測試語音的時間軸n 通過非線性變換函數(shù)w 映射到參考模板的時間軸m,并使得該函數(shù)滿足一下關(guān)系式:

        在這里,[TN,]是第n 幀測試語音特征矢量和第m 幀參考模板特征矢量之間的距離。D 是處于最優(yōu)時間規(guī)整情況下兩矢量的累積距離。由于DTW 一直在計算兩矢量的距離并尋找最優(yōu)的匹配路徑,所以得到的是兩矢量匹配時累積距離最小所對應(yīng)的規(guī)整函數(shù),這就保證了它們之間存在的最大聲學(xué)相似性?;镜腄TW 算法對端點(diǎn)檢測非常敏感,它要求進(jìn)行比較的兩個模板起點(diǎn)和終點(diǎn)分別對應(yīng),并且對端點(diǎn)檢測的精度要求很高,在背景噪聲較大或者語音中存在摩擦音時,端點(diǎn)檢測往往不會非常精準(zhǔn),端點(diǎn)檢測結(jié)果可能會對動態(tài)規(guī)整造成不可預(yù)知的誤差。此時,必須將邊界約束條件放寬。通常的做法是放寬區(qū)域中邊界約束條件不再要求起點(diǎn)和終點(diǎn)嚴(yán)格對齊,這樣就解決了由于端點(diǎn)檢測算法的缺陷帶來的參考模板和測試模板的起點(diǎn)和終點(diǎn)不能分別對齊的問題。實(shí)際中,起點(diǎn)和終點(diǎn)分別在橫軸和縱軸兩個方向上各放寬2~3 幀,即起點(diǎn)(1,1)、(1,2)、(1,3)、(2,1)、(3,1)處,終點(diǎn)類推,就可以在不影響識別結(jié)果的前提下解決端點(diǎn)檢測缺陷問題。

        (2)基于TDOA 的聲源定位算法

        TDOA 定位算法是目前應(yīng)用與研究最廣泛的聲源定位算法,該算法主要原理是利用接收器接收到的聲音信號,求取聲音信號到達(dá)各個接收器的時間延遲,時間延遲即對應(yīng)三維空間中各個接收器與聲源之間的聲程差,再利用聲程差與定位方程解算方法求解聲源位置坐標(biāo)?;赥DOA 的定位算法的主要流程可以分為兩個步驟:

        步驟一:時延估計,即從導(dǎo)游機(jī)器人的聲音信號中得到聲源與接收器之間的時間延遲的過程。

        步驟二:位置解算,即得到時間延遲后,利用接收器坐標(biāo)求取導(dǎo)游機(jī)器人聲源坐標(biāo)的過程。位置解算中的主流算法包括迭代法以及球面插值法等。

        TDOA 的定位算法的所需的計算復(fù)雜度大為減小,因此很容易滿足算法的實(shí)時性,但是也存在一些不足之處。第一步的時延估計算法對于噪聲與混響比較敏感,因此主要適用于低噪低混響環(huán)境。引入PHAT、SCOT、ROTH 等許多加權(quán)函數(shù)來弱化實(shí)際環(huán)境中的噪聲與混響帶來的影響,銳化互相關(guān)峰值。第二步中的位置解算方法中,牛頓迭代法最為基本,但是在實(shí)際使用中經(jīng)常會遇到迭代結(jié)果無法收斂的情景,并且迭代情況受迭代初始值影響較大,為此使用封閉解來避免定位結(jié)果發(fā)散等算法被提出。封閉解的推導(dǎo)也成為位置解算方法中的常用改進(jìn)方法。

        3 導(dǎo)游機(jī)器人語音交互設(shè)計

        ■3.1 硬件平臺

        我們的語音硬件系統(tǒng)采用的是科大訊飛的麥克風(fēng)陣列,麥克風(fēng)陣列是由一定數(shù)目的聲學(xué)傳感器組成,對聲場的空間特性進(jìn)行采樣并處理的系統(tǒng)。其主要作用有聲源定位,抑制背景噪聲、干擾、混響、回聲,信號提取與分離。

        麥克風(fēng)陣列采用平面式分布結(jié)構(gòu),包含6 個麥克風(fēng),可實(shí)現(xiàn)360 度等效拾音,喚醒分辨率為1 度。可以使用麥克風(fēng)陣列獲取原始和降噪音頻,獲取喚醒角度,主麥編號。圖3 為麥克風(fēng)陣列圖。

        圖3 麥克風(fēng)陣列硬件圖

        ■3.2 機(jī)器人語音交互結(jié)構(gòu)設(shè)計

        導(dǎo)游機(jī)器人的語音交互系統(tǒng)主要是語音交互底層節(jié)點(diǎn)與麥克風(fēng)運(yùn)行節(jié)點(diǎn)、導(dǎo)航節(jié)點(diǎn)、雷達(dá)避障節(jié)點(diǎn)等相互作用。設(shè)計思路主要是進(jìn)行節(jié)點(diǎn)狀態(tài)的識別與反饋,還要確保節(jié)點(diǎn)的開啟/關(guān)閉,不與基本節(jié)點(diǎn)進(jìn)行沖突,如圖4 所示。

        圖4 底層運(yùn)行節(jié)點(diǎn)構(gòu)成

        根據(jù)以上設(shè)計思路,進(jìn)行程序結(jié)構(gòu)設(shè)計,如圖5 所示。

        圖5 程序設(shè)計結(jié)構(gòu)

        成功開啟語音交互節(jié)點(diǎn)的時候,就表明我們已經(jīng)建立好了語音交互的入口,可以進(jìn)行無接觸語音控制小車探索功能,再配合自啟動語音交互,可以實(shí)現(xiàn)無電腦等輔助設(shè)備的情況下,進(jìn)行小車控制。小車識別到開啟指令的時候,并開啟相關(guān)功能然后把標(biāo)志位flag 置1,標(biāo)志flag 位置1之后會進(jìn)行成功打開的語音播報;當(dāng)接收到關(guān)閉的指令后,殺死相關(guān)的節(jié)點(diǎn)然后進(jìn)行語音播報。每當(dāng)小車識別到小車成功開啟、關(guān)閉節(jié)點(diǎn)的時候,需要進(jìn)行語音反饋進(jìn)行狀態(tài)的識別,同時添加了音頻庫,可以加強(qiáng)游客對語音交互功能的體驗(yàn)。

        ■3.3 機(jī)器人錄音識別動作

        通過語音驅(qū)使機(jī)器人的動作是導(dǎo)游機(jī)器人工作必不可少的一環(huán),圖6 為本文設(shè)計的基于語音交互系統(tǒng)的導(dǎo)游機(jī)器人的錄音識別動作圖。

        圖6 錄音識別動作流程圖

        圖6 中的SDK 源文件主要有三個作用,第一方面,它有麥克風(fēng)陣列的回調(diào)函數(shù),可以獲取麥克風(fēng)陣列錄制的音頻流,喚醒的方向以及它的主麥編號;第二個方面,可以調(diào)用科大訊飛的離線識別引擎,把音頻信號送入到識別引擎里面;第三個方面,SDK 節(jié)點(diǎn)里面有很多服務(wù)類的函數(shù),錄音調(diào)用節(jié)點(diǎn)會請求SDK 的錄音識別服務(wù),去請求SDK 的錄音,SDK 接收到錄音請求之后,發(fā)送給硬件科大訊飛去進(jìn)行錄音,錄音完,會把音頻流數(shù)據(jù)傳輸給SDK,然后SDK就會把收到的音頻文件送入到科大訊飛的識別引擎,識別引擎識別以后把文本類的識別結(jié)果再返回到SDK 節(jié)點(diǎn)中,再把識別結(jié)果作為服務(wù)類型的請求結(jié)果返回到錄音調(diào)用節(jié)點(diǎn),這是一個完整的錄音識別的動作調(diào)用。

        在麥克風(fēng)陣列喚醒狀態(tài)下,錄音調(diào)用節(jié)點(diǎn)會不斷的去請求SDK 的錄音,得到識別結(jié)果后,通過話題的方式發(fā)布出去,而命令控制器節(jié)點(diǎn),訂閱了識別結(jié)果的話題后,根據(jù)話題的信息和我們預(yù)設(shè)好的指令去匹配,判定動作指令,再將動作指令發(fā)送到我們的底盤運(yùn)動控制器,由底盤運(yùn)動控制器去控制小車的底盤運(yùn)動,同時底盤運(yùn)動控制器在收到命令控制器發(fā)的速度指令之后,根據(jù)小車目前的位置狀態(tài),根據(jù)雷達(dá)所反饋的信息去判斷小車適不適合執(zhí)行這個動作,倘若前方有障礙物的情況下,就會屏蔽這個信息,產(chǎn)生雷達(dá)避障的效果。

        4 語音測試

        在實(shí)驗(yàn)室環(huán)境下,對導(dǎo)游機(jī)器人搭載的語音交互功能進(jìn)行測試,通過麥克風(fēng)陣列對語音進(jìn)行采集,回復(fù)的語音內(nèi)容通過語音播放器進(jìn)行播放,挑選五句交互語句,每句測試50 次,分別針對博物館信息,作品講解以及機(jī)器人介紹信息,將語音識別置信度設(shè)置為47,發(fā)現(xiàn)平均識別率能達(dá)到96%以上,滿足博物館內(nèi)游客對于語音交互功能的使用,識別結(jié)果統(tǒng)計如表1 所示。

        表1 語音交互識別結(jié)果

        5 總結(jié)

        本文主要介紹了針對博物館、藝術(shù)館,基于語音交互系統(tǒng)的導(dǎo)游機(jī)器人的設(shè)計,并經(jīng)過測試與驗(yàn)證,發(fā)現(xiàn)該設(shè)計方案的語音交互系統(tǒng)識別率高,有很強(qiáng)的可行性。語音系統(tǒng)與機(jī)器人的結(jié)合證明了機(jī)器人應(yīng)用于導(dǎo)游行業(yè)的可行性,通過該語音系統(tǒng)能夠給游客帶來優(yōu)質(zhì)的旅行體驗(yàn),給導(dǎo)游行業(yè)帶來更好的發(fā)展。

        猜你喜歡
        麥克風(fēng)錄音導(dǎo)游
        金牌“導(dǎo)游”
        Listen and Paint, etc.
        尋找火星導(dǎo)游
        軍事文摘(2023年14期)2023-08-06 15:39:52
        Being a Tour Guide in Shuangqing Villa在雙清別墅做導(dǎo)游
        跟著西安導(dǎo)游吃,準(zhǔn)沒錯
        奇妙博物館(2021年2期)2021-03-18 03:29:57
        Funny Phonics
        Binaural Rendering based on Linear Differential Microphone Array and Ambisonic Reproduction
        基于數(shù)字麥克風(fēng)的WIFI語音發(fā)射機(jī)
        電子測試(2018年23期)2018-12-29 11:11:24
        Colorful Seasons多彩四季
        A New Term
        久久午夜伦鲁鲁片免费| 日本真人做爰免费视频120秒| 国产成人综合精品一区二区| 国产精品视频白浆免费视频| 久久成人国产精品一区二区| 国产三级久久久精品麻豆三级| 亚洲人成网站在线播放2019| 免费a级毛片无码av| 亚洲中文有码字幕青青| 亚洲精品永久在线观看| 2017天天爽夜夜爽精品视频| 日韩一区中文字幕在线| 中文字幕人妻av四季| 中文字幕一区二区人妻性色av| 亚洲综合色区一区二区三区| 欧洲熟妇色xxxx欧美老妇软件| 日本一区二区在线播放| 成年女人免费视频播放体验区| 猫咪免费人成网站在线观看| 国产精品亚洲А∨天堂免下载| 欧美刺激午夜性久久久久久久| 亚洲xx视频| 久久99免费精品国产| 亚洲中文字幕精品乱码2021| 人与禽性视频77777| 久久综合给合久久狠狠狠97色69| 太大太粗太爽免费视频| 色视频日本一区二区三区| 色婷婷久色国产成人免费| 99久久婷婷亚洲综合国产| 国产国产精品人在线视| 男女裸交无遮挡啪啪激情试看| 国产乱子伦在线观看| www.日本一区| 日韩精品夜色二区91久久久| 偷拍偷窥在线精品视频| 日本一区二区视频在线| 狠狠综合久久av一区二区蜜桃| 一本色道无码道在线观看| 国产成人无码免费看片软件| 亚洲中文一本无码AV在线无码|