亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種通用語音接口模式的設(shè)計(jì)和實(shí)現(xiàn)

        2012-04-29 00:00:00鄧紅
        網(wǎng)友世界 2012年23期

        【摘 要】用戶的語音輸入和對(duì)話系統(tǒng)關(guān)系密切,通用的接口風(fēng)格應(yīng)該能夠進(jìn)行靈活和有效的開發(fā);而且應(yīng)用程序接口的開發(fā)要魯棒易于進(jìn)行。本文主要針對(duì)現(xiàn)有的接口模式在應(yīng)用中的局限,提出了一個(gè)通用的語音接口模式,適應(yīng)于處理指揮所事務(wù)的對(duì)話系統(tǒng)[1]。并對(duì)該模式的語言以及詳細(xì)的策略進(jìn)行了介紹。實(shí)驗(yàn)表明該模式具有較好的語音識(shí)別性能、魯棒性,而且系統(tǒng)開發(fā)周期較短。

        【關(guān)鍵詞】對(duì)話系統(tǒng);語音接口;魯棒

        1.現(xiàn)有的語音接口模式分析

        目前基于語音的對(duì)話系統(tǒng)其接口模式主要三種[2]:指令和控制CC(Command and Control),交互式語音應(yīng)答IVR(Interactive Voice Response),自然語言NL(Natural Language)。CC接口限制用戶跟系統(tǒng)可以交談的詞匯為特定嚴(yán)格的命令,由于不要求復(fù)雜的語法,CC開發(fā)容易而且語音識(shí)別的錯(cuò)誤率低。但是,在某領(lǐng)域中學(xué)會(huì)的交互技巧不能應(yīng)用到新的領(lǐng)域中去,CC很難使用。IVR系統(tǒng)的詞匯是由動(dòng)態(tài)的分層結(jié)構(gòu)化話語集合組成的。對(duì)話上下文決定了在任何特定的時(shí)刻什么話語是可理解的,在每一輪對(duì)話中,系統(tǒng)都會(huì)用一個(gè)可理解話語集合來提示用戶,而不是要求用戶記住對(duì)話內(nèi)容。NL接口則嘗試分析自然語言,從用戶的話語中提取任務(wù)相關(guān)的信息。這一般與魯棒分析和填槽策略有關(guān),需要很少或不需要用戶去記憶對(duì)話狀態(tài)或?qū)W習(xí)。CC接口不需要很多的訓(xùn)練,但是過于呆板和機(jī)械,使用起來生硬。IVR接口對(duì)于頻繁的使用不太有效,而且NL接口的開發(fā)比較容易出錯(cuò)而且代價(jià)高。

        本文在現(xiàn)有的語音接口模式的基礎(chǔ)上,提出了一個(gè)通用的用戶語音接口模式Speech User Interface(SUI)。用戶人員發(fā)出的語音通過人機(jī)對(duì)話接口,最終達(dá)到與系統(tǒng)中的設(shè)備或應(yīng)用程序的交互的目的,這里人機(jī)對(duì)話接口,不僅要能識(shí)別用戶的話語,而且要能使設(shè)備或應(yīng)用程序使其按照用戶的意圖對(duì)用戶提供相應(yīng)的服務(wù)。

        2.SUI模式

        設(shè)計(jì)SUI的目的是給用戶和簡(jiǎn)單應(yīng)用程序或設(shè)備能夠自然、高效的進(jìn)行對(duì)話,介于CC和NL之間:其形式比自然語言更加結(jié)構(gòu)化,比等級(jí)菜單或嚴(yán)格的CC更加靈活。本文的正是在研究了兩個(gè)的非語音交互方式:WIMP界面[3](窗口、圖標(biāo)、菜單和下拉菜單)和手寫識(shí)別系統(tǒng)[4]基礎(chǔ)上設(shè)計(jì)的。

        2.1 相關(guān)組件

        在本文的實(shí)驗(yàn)中,語音識(shí)別是由科大訊飛語音識(shí)別引擎完成的,使用基于SUI應(yīng)用程序的發(fā)生器模塊和科大訊飛語音識(shí)別開發(fā)包?;趩卧x擇和有限域的語音合成使用的是科大訊飛語音合成系統(tǒng)。我們已經(jīng)開發(fā)了一個(gè)工具包,它包含了所有建立并運(yùn)行SUI信息訪問應(yīng)用程序的必要程序和文件。這些組件有:

        1)領(lǐng)域管理器訪問給定應(yīng)用程序或代理生成代碼。

        2)語音識(shí)別產(chǎn)生語法文件,該文件是用來執(zhí)行SUI交互模式并且和數(shù)據(jù)庫(kù)內(nèi)容一致。

        3)科大訊飛語音識(shí)別器產(chǎn)生一個(gè)和語法保持一致的語言模型及發(fā)音詞典。

        4)適當(dāng)聯(lián)系不同對(duì)話系統(tǒng)中的知識(shí),多個(gè)SUI應(yīng)用程序就不會(huì)干擾其他應(yīng)用程序。

        針對(duì)特定應(yīng)用程序設(shè)置的變量是由擴(kuò)展BNF即ABNF(Augmented Backus-Naur Form)文件插入到不同組件中去的,程序開發(fā)者可以手動(dòng)構(gòu)造,構(gòu)造完成以后,可以用語法檢查器來檢查ABNF文檔的正確性。如圖2是SUI領(lǐng)域發(fā)生器的處理流程。

        2.2 SUI語言

        2.2.1 詞典

        SUI應(yīng)用程序詞典包括兩個(gè)部分:通用關(guān)鍵詞集合和一組特定領(lǐng)域應(yīng)用程序?qū)S迷~匯。

        圖1 SUI領(lǐng)域發(fā)生器

        特定應(yīng)用程序詞匯的規(guī)模和內(nèi)容,是由各個(gè)應(yīng)用程序的功能和復(fù)雜性決定的,通常要比SUI關(guān)鍵詞集合要大得多。如果要成為真正的通用接口,SUI模式包含的關(guān)鍵詞集必須是小規(guī)模的,這樣才能使非技術(shù)用戶感到舒服易于使用。選擇的一般原則是:有簡(jiǎn)單明確的含義以及同時(shí)在自然音上相對(duì)好區(qū)分,而且做了用戶調(diào)查,來研究我們選取的關(guān)鍵詞的適合度并根據(jù)用戶的建議選取替代的關(guān)鍵詞。保持SUI關(guān)鍵詞數(shù)量盡可能少是必要的,一方面是方便用戶的學(xué)習(xí),另一方面有利于用戶的記憶,使其最小化。

        2.2.2 短語

        在SUI系統(tǒng)中,訪問應(yīng)用程序或設(shè)備,最基本的動(dòng)作是查詢,其基本形式是由若干“槽+值”對(duì)組成的短語?!安?值”的短語格式使語義解析的工作變得簡(jiǎn)單并大體上遵循了自然說話的形式。當(dāng)短語被用作指定一個(gè)槽值時(shí),它的輸入輸出形式是“<槽>是<值>”。用戶查詢某個(gè)槽屬性時(shí)其輸入輸出形式:“查詢<槽>?”為了避免帶給用戶機(jī)械、命令式控制的感覺,SUI的輸入,應(yīng)該也具有自然語言的特點(diǎn)。例如,在合適的情況下,普通同義詞會(huì)被接受(例如,在三維態(tài)勢(shì)應(yīng)用程序中,軍標(biāo)和目標(biāo)是代表相同的槽)。

        2.2.3 語法

        有效的SUI用戶輸入語句,大都是由任意數(shù)量的“<槽>+<值>|<槽>+<值>”或者“<槽>是什么”短語組成的,其它情況還有關(guān)鍵詞如再見、重復(fù)或幫助等,跟在<槽>+<值>短語串的最后。應(yīng)用程序或設(shè)備(軟硬件)的功能規(guī)范以一個(gè)ABNF文檔描述。在應(yīng)用程序管理器中我們建立一個(gè)應(yīng)用程序樹,根據(jù)對(duì)話管理結(jié)果將其每個(gè)節(jié)點(diǎn)按照是否可操作來分類??刹僮鞴?jié)點(diǎn)被激活時(shí),將導(dǎo)致一個(gè)設(shè)備后端的操作,比如被查詢時(shí)系統(tǒng)將返回一個(gè)值。此外,在任何情況下,系統(tǒng)中都有一個(gè)焦點(diǎn)節(jié)點(diǎn),一般是最近被激活的節(jié)點(diǎn)或查詢的節(jié)點(diǎn)。

        2.3 ABNF文檔

        ABNF文檔采用了W3C的語音識(shí)別語法規(guī)范1.0標(biāo)準(zhǔn)(簡(jiǎn)稱SRGS1.0)[5],并在此基礎(chǔ)上根據(jù)系統(tǒng)的特點(diǎn)和主要的應(yīng)用場(chǎng)景進(jìn)行了部分?jǐn)U展。ABNF是一種明文表示方式。ABNF文檔結(jié)構(gòu)包括兩個(gè)部分,文檔首部和文檔主體。

        文檔首部定義了文檔的多種屬性,包括ABNF文檔自標(biāo)識(shí)頭、語言、模式、根規(guī)則、標(biāo)簽格式、基礎(chǔ)URI、發(fā)音詞典、元數(shù)據(jù)和標(biāo)簽。文檔的主體則具體定義了用戶說話的內(nèi)容和模式。下面如圖2是三維態(tài)勢(shì)應(yīng)用程序的ABNF文檔的實(shí)例。

        圖2 三維態(tài)勢(shì)應(yīng)用程序的ABNF文檔

        3.詳細(xì)設(shè)計(jì)

        3.1 上下文管理

        SUI能根據(jù)單個(gè)應(yīng)用程序或設(shè)備的要求來保持或丟棄上下文。如果上下文是關(guān)閉的,查詢命令之后,分析后的短語會(huì)被丟掉。如果上下文被保存,從最后一次清除上下文之后的所有被分析后的短語將被用于產(chǎn)生一個(gè)數(shù)據(jù)庫(kù)查詢字符串。圖3顯示了一個(gè)上下文保存例子。當(dāng)用戶在第三句中要求顯示紅色指揮所坦克,上下文還沒有被清除,所以系統(tǒng)返回了所有的兩個(gè)查詢(包括先前的查詢中紅色指揮所坦克的位置)。關(guān)鍵詞或者個(gè)別槽重寫入新值,上下文被清除。

        圖3 上下文保存對(duì)話示例

        3.2 列表顯示和導(dǎo)航

        3.2.1 列表顯示

        在查詢應(yīng)用程序中,返回給用戶的信息經(jīng)常是以表的形式。根據(jù)顯示盡可能多的有效消息這一原則,基本策略是輸出易處理的塊信息。然而,列表一次顯示3項(xiàng)或者是4項(xiàng),如果有分割就會(huì)導(dǎo)致形成一個(gè)項(xiàng)的單獨(dú)塊。圖3中的{...}符號(hào)代表在點(diǎn)擊塊末端顯示的語音圖標(biāo)后,列表就會(huì)在當(dāng)前塊之外繼續(xù)顯示。三次蜂鳴聲信號(hào)執(zhí)行{...},正像書面上的省略號(hào)(…)。最初名單塊前綴的一個(gè)題頭顯示的是整個(gè)列表項(xiàng)的數(shù)量,例如,2個(gè)目標(biāo)(S.2),4個(gè)目標(biāo)(S.3)。如果在數(shù)據(jù)庫(kù)中找不到所查數(shù)據(jù),系統(tǒng)返回“對(duì)不起,沒有匹配信息!”。

        3.2.2 列表導(dǎo)航

        表的導(dǎo)航包含一套關(guān)鍵詞:更多,下一頁(yè),前一頁(yè),首頁(yè),末頁(yè)和停止。更多是訪問同種類型的附加信息,即同一級(jí)別信息上的下一個(gè)塊。水平的更多和垂直的下一頁(yè),可以被認(rèn)為是作為圖形瀏覽一個(gè)二維表。前一頁(yè)返回列表中以前的塊,首頁(yè)返回第一個(gè)塊,末頁(yè)返回表中的最后一個(gè)塊。每個(gè)瀏覽關(guān)鍵詞可以跟隨一個(gè)整數(shù),用于允許用戶自定義,返回列表的大小。例如,末頁(yè)6將返回列表尾部第6項(xiàng)。

        將復(fù)雜的輸出信息塊分成幾個(gè)小信息塊,不僅可以減少用戶對(duì)信息認(rèn)知的負(fù)擔(dān),而且使用戶對(duì)自己感興趣的小信息塊使用重復(fù)關(guān)鍵詞來進(jìn)行重聽。

        3.3 話輪控制和會(huì)話管理

        話輪控制一般分為用戶主導(dǎo),系統(tǒng)主導(dǎo)和混合主導(dǎo)三種方式,SUI采用混合主導(dǎo)方式,使系統(tǒng)和用戶能夠互相提出問題或者回答問題,具有較大的靈活性,能夠較流暢的進(jìn)行對(duì)話。SUI以簡(jiǎn)潔的標(biāo)準(zhǔn)化語句確認(rèn)相應(yīng)各用戶的輸入(圖3中的S.2,S.4);如果有必要用戶將繼續(xù)他們的輸入或者糾正系統(tǒng)的應(yīng)答。系統(tǒng)也能夠針對(duì)用戶輸入進(jìn)行提問或回答。而且重復(fù)關(guān)鍵詞通常都能重復(fù)系統(tǒng)的上一句話。

        當(dāng)用戶想要和系統(tǒng)對(duì)話時(shí),用戶首先以“HELLO!或你好!”開始,當(dāng)系統(tǒng)識(shí)別后,系統(tǒng)將會(huì)有一個(gè)簡(jiǎn)短的記錄型的系統(tǒng)介紹,有經(jīng)驗(yàn)的用戶會(huì)打斷這個(gè)介紹并開始交互。當(dāng)SUI識(shí)別再見后,系統(tǒng)會(huì)回答再見!但如輸入沒有被識(shí)別,系統(tǒng)則會(huì)繼續(xù)起作用。如果用戶想繼續(xù),只需再說一遍,否則系統(tǒng)不會(huì)響應(yīng)。因?yàn)樾畔⒃L問程序類似于telephone-based,通過用戶呼叫系統(tǒng),會(huì)話才會(huì)被開啟。

        4.實(shí)驗(yàn)

        實(shí)驗(yàn)SUI模式和NL模式進(jìn)行了比較,其主要目的是確定用戶是喜歡高效而結(jié)構(gòu)化的交互方式,還是喜歡自然但效率較低的交互方式。實(shí)驗(yàn)采用了主觀和客觀的評(píng)估方法,包括用戶滿意度,任務(wù)完成率,完成時(shí)間出錯(cuò)率等。SUI-CPoF和NL-CPoF系統(tǒng)都訪問三個(gè)應(yīng)用程序,即總線控制器,態(tài)勢(shì)標(biāo)繪系統(tǒng),信息哨兵,其中SUI-CPoF是用SUI接口實(shí)現(xiàn)未來指揮所中指揮人員與應(yīng)用程序的交互,而NL-CPoF是用NL接口模式的,下面將詳細(xì)介紹該實(shí)驗(yàn)的設(shè)計(jì)和分析。

        4.1 實(shí)驗(yàn)設(shè)計(jì)

        本系統(tǒng)是用標(biāo)準(zhǔn)普通話訓(xùn)練的,實(shí)驗(yàn)者必須說普通話而且都是新手。為了使用該系統(tǒng),在監(jiān)督者的監(jiān)督下,測(cè)試者首先要完成一個(gè)在線教程。本教程包括四個(gè)網(wǎng)頁(yè):說明,例子和練習(xí),一個(gè)報(bào)警器設(shè)備和總線控制器的實(shí)例。教程涵蓋了所有的關(guān)鍵詞,會(huì)話管理,應(yīng)用程序開發(fā),設(shè)置和查詢?cè)O(shè)備狀態(tài),獲取幫助。由監(jiān)督者檢測(cè)測(cè)試者對(duì)教程的理解程度。當(dāng)測(cè)試者掌握了如何與系統(tǒng)交互后,將給測(cè)試者提出了有關(guān)使用總線控制的四個(gè)任務(wù),這個(gè)總線控制器是培訓(xùn)中使用過的產(chǎn)品。

        在完成總線控制的任務(wù)后,為了測(cè)試應(yīng)用程序間的技術(shù)轉(zhuǎn)換,測(cè)試者還需對(duì)他們以前沒有交互過或訓(xùn)練過的信息哨兵進(jìn)行操作,測(cè)試者要完成關(guān)于信息哨兵的四個(gè)任務(wù)。當(dāng)完成所有的12個(gè)任務(wù)后,實(shí)驗(yàn)參與者還要完成一個(gè)調(diào)查表,每個(gè)題目有七個(gè)Likert式的選項(xiàng)。從6個(gè)方面對(duì)語音設(shè)備進(jìn)行主觀評(píng)價(jià):準(zhǔn)確率,速度,習(xí)慣性,厭惡度、認(rèn)知容易度和親和力。

        4.2 實(shí)驗(yàn)分組

        測(cè)試者被分成兩組:第一組(n=14人),第二組(n=14人)。兩組實(shí)驗(yàn)的過程相同。為了提高第二組的識(shí)別率,對(duì)第二組的系統(tǒng)進(jìn)行了5處的修改:

        1)第一組使用語音自動(dòng)分割技術(shù),第二組使用手動(dòng)語音輸入系統(tǒng)。

        2)第一組解碼器的語言模型是由一個(gè)概率CFG產(chǎn)生的60000個(gè)句子集合生成的(CFG是由設(shè)備說明書中得來的),然后使用詞組數(shù)從句子集合中得到三元組。對(duì)于第二組,則是在概率CFG中通過Stolcke’s[6]方法計(jì)算出準(zhǔn)確的三元組。

        3)CFG的概率最大熵是由第一組數(shù)據(jù)訓(xùn)練而來的,將在第二組中使用。

        4)第一組的解碼器每幀只計(jì)算一個(gè)碼字,而第二組每幀有四個(gè)碼字。

        5)第一組,語法中總是同時(shí)出現(xiàn)的多個(gè)字將被合并成一個(gè)詞組。第二組不使用該方法。

        4.3 實(shí)驗(yàn)分析

        12個(gè)任務(wù)中,測(cè)試者完成任務(wù)的中位數(shù)是12,首先完成任務(wù)的1/4人數(shù)的中位數(shù)是11。這樣,測(cè)試者能夠使用所學(xué)的交互語言來有效的控制設(shè)備。測(cè)試者平均花費(fèi)34分鐘來學(xué)習(xí)交互語言。指導(dǎo)過程是半監(jiān)督的,內(nèi)容包括瀏覽4個(gè)網(wǎng)頁(yè)并嘗試一些練習(xí)。

        4.3.1 主觀分析

        圖4 兩組用戶主觀評(píng)價(jià)比較

        實(shí)驗(yàn)調(diào)查結(jié)果表明,兩組調(diào)查統(tǒng)計(jì)的用戶主觀評(píng)價(jià)比較如圖4所示。第二組對(duì)這6個(gè)方面的主觀評(píng)價(jià)更加肯定,所以總體得分比第一組高1.18。兩組的唯一區(qū)別是實(shí)驗(yàn)變量,第二組的準(zhǔn)確率較高。準(zhǔn)確識(shí)別對(duì)主觀評(píng)價(jià)影響較大。我們得到如下結(jié)論:

        1)更好的語法導(dǎo)致更好的識(shí)別率;

        2)更好的識(shí)別率導(dǎo)致更好的響應(yīng);

        3)用戶的語句被系統(tǒng)正確理解后,將促使用戶再次說出符合語法的語句;

        4)語法和識(shí)別率之間互相影響。

        4.3.2 語法出錯(cuò)率

        在28個(gè)測(cè)試者的4265個(gè)語句中,其中有951(22.3%)的句子不符合語法。我們將這951個(gè)句子分成24種語法錯(cuò)誤。其中前8類的語法錯(cuò)誤的語句占了語法錯(cuò)誤語句總數(shù)的68.2%,如表1所示。

        出錯(cuò)率的中位數(shù)是22%,我們認(rèn)為一大半是由于低識(shí)別率,另一小半則是由于語法不好導(dǎo)致的。11%的識(shí)別錯(cuò)誤率是由于系統(tǒng)中使用了限制性的詞匯和語法的直接結(jié)果。研究不符合語法語句的意義在于確定適當(dāng)放松語法規(guī)則的限制,以便降低語句的整體出錯(cuò)率。

        5.小結(jié)

        本文提出了一種通用的語音接口模式,SUI模式能為用戶和簡(jiǎn)單機(jī)器提供自然、高效的對(duì)話,SUI規(guī)范語言和通信協(xié)議有效的分離了對(duì)話系統(tǒng)和所控制的設(shè)備,支持機(jī)動(dòng)的和通用的基于語音的設(shè)備控制。大量應(yīng)用程序接口的開發(fā)過程和用戶使用效果證明SUI接口模式是很非常有效的,這表明高質(zhì)量和低成本的人-機(jī)語音接口可以在很大程度上與設(shè)備無關(guān)。這些因素使得系統(tǒng)更加魯棒,比具有同等功能的自然語言語音接口產(chǎn)生更少的錯(cuò)誤,能有效的增強(qiáng)識(shí)別和理解準(zhǔn)確率,具有較好的魯棒性,而且減少開發(fā)周期,可移植性較強(qiáng)。

        參考文獻(xiàn):

        [1]王鵬.未來指揮所雙手觸摸式自然交互技術(shù)研究[D].長(zhǎng)沙:國(guó)防科學(xué)技術(shù)大學(xué),2007.

        [2]Tomko,S.Speech Graffiti:Assessing the User Experience[D].Masters Thesis,Ameria:Carnegie Mellon University,2004.

        [3]Alan Dix,Janet Finlay,Gregory D.Abowd.人機(jī)交互(蔡利棟,方思行,周繼鵬等)[M].北京:電子工業(yè)出版社,2006:91-95.

        [4]BLICKENSTORFER,C.H.Graffiti:Wow![J].Pen Comput.Mag,1995:30-31.

        [5]http://www.w3.org/.

        [6]Stolcke,A.and Segal,J.Precise n-gram probabilities from stochastic context-free grammars[J].Proceedings of the 32nd Annual Meeting of the Association for Computational Linguistics,1995:74-79.

        作者簡(jiǎn)介:鄧紅(1986—),安徽宿州人,助教,現(xiàn)供職于無錫機(jī)電高等職業(yè)技術(shù)學(xué)校。

        亚洲国产精品久久精品| 欧美色资源| 亚洲精品国产不卡在线观看| 亚洲在线一区二区三区| 日本一区二区免费高清| 久久婷婷色香五月综合缴缴情| 久久久久无码精品国产app| 乱人伦中文字幕成人网站在线| 欧美性xxx久久| 国产av一区二区三区狼人香蕉| 自拍视频在线观看首页国产| 亚洲黄片高清在线观看| 久久精品国产亚洲av日韩精品| 日本免费一区二区精品| 久久精品色福利熟妇丰满人妻91| 亚洲精品久久7777777| 亚洲精品久久久久avwww潮水| 99蜜桃在线观看免费视频网站| 少妇厨房愉情理伦片免费| 久久久精品久久日韩一区综合| 国产亚洲精选美女久久久久 | 五月天激情婷婷婷久久| 国产精品美女黄色av| 漂亮人妻被强中文字幕乱码| 91自拍视频国产精品| 乱子伦在线观看| 国产美女在线精品免费观看网址| 在线视频一区二区亚洲| 精品久久一品二品三品| 久久精品国产亚洲av高清三区| 99无码熟妇丰满人妻啪啪| 午夜福利理论片高清在线观看| 人人妻人人澡人人爽人人精品电影 | 国产亚洲精品综合一区二区| 亚洲综合av一区二区三区蜜桃| 无码一区二区三区亚洲人妻| 无码片久久久天堂中文字幕 | 抽搐一进一出试看60秒体验区| 亚洲免费无毛av一区二区三区| 人妻有码av中文幕久久| 岛国av无码免费无禁网站|