亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        MRCPv2在電信智能語音識別業(yè)務中的應用

        2014-05-26 05:37:28陳茂國
        科技創(chuàng)新導報 2014年3期
        關鍵詞:電信系統(tǒng)結構

        陳茂國

        摘 要:隨著自然語音識別技術的成熟,智能語音識別業(yè)務將會在傳統(tǒng)電信行業(yè)迎來大發(fā)展,MRCPv2標準協(xié)議使得語音識別能力的集成變得更加方便快捷。該文詳細介紹了MRCPv2協(xié)議的系統(tǒng)架構和控制流程,總結了MRCPv2協(xié)議的使用規(guī)范,并且通過MRCPv2在語音識別中狀態(tài)機變遷、關鍵方法、事件以及重要消息頭的講解,對一次典型語音識別業(yè)務中MRCPv2協(xié)議的應用進行了詳細的闡述。

        關鍵詞:MRCPv2 智能語音識別 系統(tǒng)結構 控制機制 電信

        中圖分類號:TN912.34 文獻標識碼:A 文章編號:1674-098X(2014)01(c)-0057-04

        Abstract:With natural language recognition technology matures, intelligent speech recognition service will get great development in the traditional telecommunications industry, MRCPv2 standard protocols enables the integration of speech recognition capabilities becoming more convenient. This paper describes the system architecture and control process of MRCPv2, summarizes MRCPv2 Use Agreement. Furthermore, by the detailed description of MRCPv2s state machine mechanism, key method, events and important message headers in speech recognition, it explains clearly the application of MRCPv2 in a typical speech recognition service.

        Key words:MRCPv2 Intelligent Speech Recognition System Architecture Control Mechanism Telecommunication

        1 MRCPv2協(xié)議簡介

        媒體資源控制協(xié)議(Media Resource Control Protocol,MRCP)是一種基于TCP/IP的通訊協(xié)議,用于客戶端向媒體資源服務器請求提供各種媒體資源服務。此協(xié)議最初是由Cisco、Nuance等公司聯(lián)合開發(fā),由IETF作為Internet草案發(fā)布,經(jīng)過不斷的更新,目前最新的版本為RFC6787[1],可以支持的媒體資源業(yè)務包括文語轉換(Text to Speech,TTS)、自動語音識別(Automatic Speech Recognition,ASR)、錄音(Recording)、聲紋識別(Voiceprint Recognition, VPR)。

        2 MRCPv2系統(tǒng)結構及協(xié)議控制

        MRCP協(xié)議本身不是獨立的,它不僅僅依賴于TCP/IP協(xié)議,還依賴于SIP、SDP、RTP、RTCP、RTSP等協(xié)議。

        其系統(tǒng)結構如圖1所示。[1]

        (1)控制面:它通過SIP協(xié)議在客戶端(MRCP Client)和服務器(MRCP Server)之間建立和管理會話(注:MRCPv1就使用RTSP協(xié)議完成控制,MRCPv2改為SIP協(xié)議)。

        (2)媒體面:它通過SDP交換媒體能力以及通過RTP協(xié)議完成媒體的承載交換。

        (3)業(yè)務面:它通過MRCP協(xié)議來控制完成媒體資源服務的相關請求、響應和事件的傳遞,從而為客戶端提供所需要的媒體資源服務。

        其協(xié)議控制機制如圖2所示。

        (1)SIP協(xié)商過程中,MRCP Client在INVITE消息中攜帶自身用于傳遞MRCP協(xié)議以及RTP語音流的SDP(IP地址、端口號)[2-3]。

        (2)協(xié)商成功返回的200消息中會帶上MRCP Server側的SDP;

        (3)MRCP Client發(fā)起TCP連接創(chuàng)建,并且通過在TCP連接上發(fā)送MRCP協(xié)議消息控制MRCP Server分配的資源。

        (4)MRCP Client/Server通過在RTP連接上傳輸語音數(shù)據(jù)從而實現(xiàn)媒體資源業(yè)務。

        (5)當業(yè)務應用結束時,終止SIP會話的同時,還需要關閉TCP和RTP連接。

        MRCPv2的使用規(guī)范可以總結如下:

        (1)MRCP Client通過SIP&SDP建立與MRCP Server的MRCP控制通道(使用MRCP通道ID進行唯一標識,MRCP Server回200消息時通過a=channel屬性指定)。

        (2)可以通過SIP的Re-INVITE消息添加或者刪除一個會話中的MRCP控制通道,所以一個會話可以擁有多個MRCP控制通道(比如一個會話可以同時擁有ASR&TTS通道)。

        (3)多個MRCP控制通道可以共享同一個TCP連接。

        (4)一個MRCP消息只能攜帶一個MRCP通道ID。

        (5)MRCP控制消息不能更改SIP會話的狀態(tài)。

        (6)由于MRCP不保證傳輸?shù)目煽啃?,所以必須使用TCP來保證其傳輸。

        3 語音識別技術及其在電信智能語音識別業(yè)務中的應用

        自動語音識別技術(Automatic Speech Recognition,ASR)是一種將人的語音轉換為文本的技術,其廣泛應用于語音通訊系統(tǒng)、聲控電話交換、數(shù)據(jù)查詢、訂票系統(tǒng)、電信銀行客服、計算機控制、工業(yè)控制等領域。endprint

        通常,我們說的語音識別可以分為固定詞識別以及自然語音識別[4-5],固定詞語音識別只能識別已經(jīng)指明的固定短語或詞,而且用戶也只能說這些固定的詞,否則無法識別,而自然語音識別可以識別用戶隨意說的短語或者句子,很顯然自然語音識別更易用,其技術難度也更大;

        近幾年來,自然語音識別相關的技術隨著移動互聯(lián)網(wǎng)的發(fā)展迎來了迅猛的發(fā)展。在Google引領下,互聯(lián)網(wǎng)、通信公司紛紛把自然語音識別作為重要研究方向。

        美國市場調查咨詢公司Gartner于2013年發(fā)布的新興技術成熟度曲線顯示,語音識別技術已經(jīng)走向成熟,在未來2~5年之內將會有大幅度的利用,而自然語音問答目前處于技術期望過熱區(qū),預計在未來的5~10年會有大幅度的利用,自然語音問答技術中就使用到自然語音識別。

        在電信領域,語音識別技術應用多年來一直停留在固定詞識別上,基本限定在簡單IVR領域,因為限制了用戶的語音輸入范圍,易用性和可靠性受限導致應用實際并不廣泛,從目前國內各大運營商的客服電話就很容易發(fā)現(xiàn),采用按鍵式交互的IVR仍然是主流。

        隨著近幾年語音識別技術的不斷發(fā)展,自然語音識別技術也逐漸成熟,而且在移動互聯(lián)網(wǎng)等可靠性要求不是太高的領域得到廣泛的應用,iPhone的Siri、QQ的語音輸入、Google的語音翻譯、科大和移動合作的靈犀等智能語音識別業(yè)務都廣泛應用到此技術。

        擁有海量一手語音數(shù)據(jù)的電信行業(yè)也因為自然語音識別技術的成熟,智能語音識別業(yè)務將會迎來新的發(fā)展機遇。

        4 MRCPv2協(xié)議在電信智能語音識別業(yè)務中的應用

        由于識別技術的專一性,在電信領域,控制著語音接入的電信設備制造商,很少擁有扎實的語音識別技術,而提供語音識別技術的廠家很多。以前各電信設備集成商必須針對不同的語音識別廠家提供的API接口進行專門的集成開發(fā),不同識別引擎的接口各不相同,從而導致了集成過程的復雜性和局限性。而利用MRCP協(xié)議提供的標準接口,電信設備集成商們不必再針對特定的識別引擎進行開發(fā),而只需要滿足MRCP協(xié)議即可與多個不同廠商的識別引擎對接。這樣就為各種語音應用開發(fā)提供了更加靈活的選擇,并有效地降低業(yè)務開發(fā)周期和成本。正是由于具有以上優(yōu)勢,MRCP協(xié)議在推出以后得到了國外各電信設備制造商和語音識別提供商的廣泛支持[6],各電信設備制造商提供MRCP Client,語音識別提供商提供MRCP Server,通過對接完成語音識別業(yè)務。

        MRCPv2為語音識別業(yè)務提供除了公共的SIP、SDP、RTP配合機制,公共的方法、消息頭和事件之外,還包含如下兩個部分:

        (1)語音識別業(yè)務中的狀態(tài)變遷機制;

        (2)語音識別業(yè)務中的方法、事件以及配套的消息頭、參數(shù)。

        4.1 MRCPv2語音識別業(yè)務中的狀態(tài)變遷機制介紹(圖4)

        在MRCPv2定義的語音識別應用中,MRCP Client和MRCP Server必須遵循如上圖所示的狀態(tài)機變遷機制,只有空閑、識別中、識別完三個狀態(tài)。狀態(tài)的變遷依靠方法和事件的驅動:

        (1)通過RECOGNIZE方法觸發(fā)進入識別中狀態(tài);

        (2)通過RECOGNITION-COMPLETE事件觸發(fā)進入識別完態(tài);

        (3)通過STOP方法觸發(fā)進入空閑態(tài);

        4.2 MRCPv2定義的語音識別應用中的方法、事件及重要消息頭

        支持語音識別業(yè)務的方法和事件主要如下:

        (1)RECOGNIZE方法:啟動識別命令,攜帶的主要消息頭有No-Input-Timeout、Recognition-Timeout、Speech-Complete-Timeout、Start-Input-Timers、Confidence-Threshold,其含義分別如下:

        No-Input-Timeout:無話超時時間,單位為毫秒,用于定義MRCP server啟動識別后允許用戶無聲音輸入的最大時長;

        Recognition-Timeout:識別超時時間,單位為毫秒,用于定義MRCP server啟動識別后允許返回識別結果的最大時長;

        Speech-Complete-Timeout:說話完檢測超時時間,單位為毫秒,用于定義MRCP Server判斷用戶一句話已說完的靜默時長;

        Start-Input-Timers:是否立即啟動無話超時定時器,為“true”時立即啟動,通常啟動識別時同時伴隨有提示音的情況下,可以置為“false”,即讓MRCP Server暫時不要啟動無話超時定時器;

        Confidence-Threshold:識別置信度門檻,用于定義返回識別結果時必須滿足的最小置信度;

        4.3 一次語音識別業(yè)務中完整MRCP交互

        一次完整的語音識別業(yè)務交互如圖5所示:

        (1)MRCP Client發(fā)送INVITE消息給MRCP Server請求建立會話,攜帶MRCP Client側的SDP;

        (2)MRCP Server回復200表示請求已經(jīng)成功接受處理,攜帶MRCP Server側的SDP;

        (3)MRCP Client隨后發(fā)送ACK消息證實200消息已經(jīng)收到,至此一個SIP會話成功建立;

        (4)MRCP Client發(fā)送RECOGNIZE消息給MRCP Server,請求語音識別,按照MRCP協(xié)議規(guī)定的格式攜帶相關的語音識別控制消息頭,并且指定語法文件路徑;

        (5)MRCP Server接收RECOGNIZE請求,編譯語法文件,回復200消息給MRCP Client,此時兩側進入識別中狀態(tài);

        (6)MRCP Client此時開始根據(jù)之前協(xié)商好的SDP,開始源源不斷的發(fā)送RTP語音流給MRCP Server;

        (7)MRCP Server接收RTP語音流,當檢測到用戶開始說話時,發(fā)送START-OF-INPUT事件;

        (8)當MRCP Server根據(jù)語法文件定義得到識別結果時,通過RECOGNITION-COMPLETE事件返回識別結果,兩側進入識別完狀態(tài);

        (9)MRCP Client發(fā)送BYE消息給MRCP Server結束會話;

        (10)MRCP Server發(fā)送200消息給MRCP Client確認結束;

        MRCP Client通過上述消息交互獲得MRCP Server提供的一次完整語音識別能力。

        5 MRCPv2在電信實時智能語音識別業(yè)務中的應用展望

        當前,MRCPv2協(xié)議已經(jīng)能夠很好的解決單次語音識別問題,各大電信運營商正火熱上線的智能語音導航、機器人客服等業(yè)務都基于MRCPv2協(xié)議,但是這些都是IVR性質,其特定都是要識別的語音內容不長。在人工業(yè)務輔助識別等大量連續(xù)識別場景中應用仍然受限,比如說話內容實時回顯,此時需要完成不間斷的語音識別結果上報,而當前的MRCPv2協(xié)議只支持每次上報一個結果,所以需要進一步擴展MRCPv2協(xié)議才能完成。

        參考文獻

        [1] MRCPv2 RFC 6787: Media Resource Control Protocol Version 2.

        [2] SDP RFC 2327: Session Description Protocol.

        [3] SIP RFC 3261: Session Initiation Protocol.

        [4] 薛德黔.交互式自然口語語音識別關鍵技術[J].計算機應用,2002,22(7): 45-47.

        [5] 馮俊蘭,杜利民.自然口語語音識別研究概況[J].電子商務,1999(9):3-7.

        [6] 史俊波,詹舒波.MRCPv2協(xié)議及其在分布式語音資源解決方案中的應用,2010.

        [7] Gartner.Hype Cycle for Emerging Technologies 2013[R].2013.endprint

        通常,我們說的語音識別可以分為固定詞識別以及自然語音識別[4-5],固定詞語音識別只能識別已經(jīng)指明的固定短語或詞,而且用戶也只能說這些固定的詞,否則無法識別,而自然語音識別可以識別用戶隨意說的短語或者句子,很顯然自然語音識別更易用,其技術難度也更大;

        近幾年來,自然語音識別相關的技術隨著移動互聯(lián)網(wǎng)的發(fā)展迎來了迅猛的發(fā)展。在Google引領下,互聯(lián)網(wǎng)、通信公司紛紛把自然語音識別作為重要研究方向。

        美國市場調查咨詢公司Gartner于2013年發(fā)布的新興技術成熟度曲線顯示,語音識別技術已經(jīng)走向成熟,在未來2~5年之內將會有大幅度的利用,而自然語音問答目前處于技術期望過熱區(qū),預計在未來的5~10年會有大幅度的利用,自然語音問答技術中就使用到自然語音識別。

        在電信領域,語音識別技術應用多年來一直停留在固定詞識別上,基本限定在簡單IVR領域,因為限制了用戶的語音輸入范圍,易用性和可靠性受限導致應用實際并不廣泛,從目前國內各大運營商的客服電話就很容易發(fā)現(xiàn),采用按鍵式交互的IVR仍然是主流。

        隨著近幾年語音識別技術的不斷發(fā)展,自然語音識別技術也逐漸成熟,而且在移動互聯(lián)網(wǎng)等可靠性要求不是太高的領域得到廣泛的應用,iPhone的Siri、QQ的語音輸入、Google的語音翻譯、科大和移動合作的靈犀等智能語音識別業(yè)務都廣泛應用到此技術。

        擁有海量一手語音數(shù)據(jù)的電信行業(yè)也因為自然語音識別技術的成熟,智能語音識別業(yè)務將會迎來新的發(fā)展機遇。

        4 MRCPv2協(xié)議在電信智能語音識別業(yè)務中的應用

        由于識別技術的專一性,在電信領域,控制著語音接入的電信設備制造商,很少擁有扎實的語音識別技術,而提供語音識別技術的廠家很多。以前各電信設備集成商必須針對不同的語音識別廠家提供的API接口進行專門的集成開發(fā),不同識別引擎的接口各不相同,從而導致了集成過程的復雜性和局限性。而利用MRCP協(xié)議提供的標準接口,電信設備集成商們不必再針對特定的識別引擎進行開發(fā),而只需要滿足MRCP協(xié)議即可與多個不同廠商的識別引擎對接。這樣就為各種語音應用開發(fā)提供了更加靈活的選擇,并有效地降低業(yè)務開發(fā)周期和成本。正是由于具有以上優(yōu)勢,MRCP協(xié)議在推出以后得到了國外各電信設備制造商和語音識別提供商的廣泛支持[6],各電信設備制造商提供MRCP Client,語音識別提供商提供MRCP Server,通過對接完成語音識別業(yè)務。

        MRCPv2為語音識別業(yè)務提供除了公共的SIP、SDP、RTP配合機制,公共的方法、消息頭和事件之外,還包含如下兩個部分:

        (1)語音識別業(yè)務中的狀態(tài)變遷機制;

        (2)語音識別業(yè)務中的方法、事件以及配套的消息頭、參數(shù)。

        4.1 MRCPv2語音識別業(yè)務中的狀態(tài)變遷機制介紹(圖4)

        在MRCPv2定義的語音識別應用中,MRCP Client和MRCP Server必須遵循如上圖所示的狀態(tài)機變遷機制,只有空閑、識別中、識別完三個狀態(tài)。狀態(tài)的變遷依靠方法和事件的驅動:

        (1)通過RECOGNIZE方法觸發(fā)進入識別中狀態(tài);

        (2)通過RECOGNITION-COMPLETE事件觸發(fā)進入識別完態(tài);

        (3)通過STOP方法觸發(fā)進入空閑態(tài);

        4.2 MRCPv2定義的語音識別應用中的方法、事件及重要消息頭

        支持語音識別業(yè)務的方法和事件主要如下:

        (1)RECOGNIZE方法:啟動識別命令,攜帶的主要消息頭有No-Input-Timeout、Recognition-Timeout、Speech-Complete-Timeout、Start-Input-Timers、Confidence-Threshold,其含義分別如下:

        No-Input-Timeout:無話超時時間,單位為毫秒,用于定義MRCP server啟動識別后允許用戶無聲音輸入的最大時長;

        Recognition-Timeout:識別超時時間,單位為毫秒,用于定義MRCP server啟動識別后允許返回識別結果的最大時長;

        Speech-Complete-Timeout:說話完檢測超時時間,單位為毫秒,用于定義MRCP Server判斷用戶一句話已說完的靜默時長;

        Start-Input-Timers:是否立即啟動無話超時定時器,為“true”時立即啟動,通常啟動識別時同時伴隨有提示音的情況下,可以置為“false”,即讓MRCP Server暫時不要啟動無話超時定時器;

        Confidence-Threshold:識別置信度門檻,用于定義返回識別結果時必須滿足的最小置信度;

        4.3 一次語音識別業(yè)務中完整MRCP交互

        一次完整的語音識別業(yè)務交互如圖5所示:

        (1)MRCP Client發(fā)送INVITE消息給MRCP Server請求建立會話,攜帶MRCP Client側的SDP;

        (2)MRCP Server回復200表示請求已經(jīng)成功接受處理,攜帶MRCP Server側的SDP;

        (3)MRCP Client隨后發(fā)送ACK消息證實200消息已經(jīng)收到,至此一個SIP會話成功建立;

        (4)MRCP Client發(fā)送RECOGNIZE消息給MRCP Server,請求語音識別,按照MRCP協(xié)議規(guī)定的格式攜帶相關的語音識別控制消息頭,并且指定語法文件路徑;

        (5)MRCP Server接收RECOGNIZE請求,編譯語法文件,回復200消息給MRCP Client,此時兩側進入識別中狀態(tài);

        (6)MRCP Client此時開始根據(jù)之前協(xié)商好的SDP,開始源源不斷的發(fā)送RTP語音流給MRCP Server;

        (7)MRCP Server接收RTP語音流,當檢測到用戶開始說話時,發(fā)送START-OF-INPUT事件;

        (8)當MRCP Server根據(jù)語法文件定義得到識別結果時,通過RECOGNITION-COMPLETE事件返回識別結果,兩側進入識別完狀態(tài);

        (9)MRCP Client發(fā)送BYE消息給MRCP Server結束會話;

        (10)MRCP Server發(fā)送200消息給MRCP Client確認結束;

        MRCP Client通過上述消息交互獲得MRCP Server提供的一次完整語音識別能力。

        5 MRCPv2在電信實時智能語音識別業(yè)務中的應用展望

        當前,MRCPv2協(xié)議已經(jīng)能夠很好的解決單次語音識別問題,各大電信運營商正火熱上線的智能語音導航、機器人客服等業(yè)務都基于MRCPv2協(xié)議,但是這些都是IVR性質,其特定都是要識別的語音內容不長。在人工業(yè)務輔助識別等大量連續(xù)識別場景中應用仍然受限,比如說話內容實時回顯,此時需要完成不間斷的語音識別結果上報,而當前的MRCPv2協(xié)議只支持每次上報一個結果,所以需要進一步擴展MRCPv2協(xié)議才能完成。

        參考文獻

        [1] MRCPv2 RFC 6787: Media Resource Control Protocol Version 2.

        [2] SDP RFC 2327: Session Description Protocol.

        [3] SIP RFC 3261: Session Initiation Protocol.

        [4] 薛德黔.交互式自然口語語音識別關鍵技術[J].計算機應用,2002,22(7): 45-47.

        [5] 馮俊蘭,杜利民.自然口語語音識別研究概況[J].電子商務,1999(9):3-7.

        [6] 史俊波,詹舒波.MRCPv2協(xié)議及其在分布式語音資源解決方案中的應用,2010.

        [7] Gartner.Hype Cycle for Emerging Technologies 2013[R].2013.endprint

        通常,我們說的語音識別可以分為固定詞識別以及自然語音識別[4-5],固定詞語音識別只能識別已經(jīng)指明的固定短語或詞,而且用戶也只能說這些固定的詞,否則無法識別,而自然語音識別可以識別用戶隨意說的短語或者句子,很顯然自然語音識別更易用,其技術難度也更大;

        近幾年來,自然語音識別相關的技術隨著移動互聯(lián)網(wǎng)的發(fā)展迎來了迅猛的發(fā)展。在Google引領下,互聯(lián)網(wǎng)、通信公司紛紛把自然語音識別作為重要研究方向。

        美國市場調查咨詢公司Gartner于2013年發(fā)布的新興技術成熟度曲線顯示,語音識別技術已經(jīng)走向成熟,在未來2~5年之內將會有大幅度的利用,而自然語音問答目前處于技術期望過熱區(qū),預計在未來的5~10年會有大幅度的利用,自然語音問答技術中就使用到自然語音識別。

        在電信領域,語音識別技術應用多年來一直停留在固定詞識別上,基本限定在簡單IVR領域,因為限制了用戶的語音輸入范圍,易用性和可靠性受限導致應用實際并不廣泛,從目前國內各大運營商的客服電話就很容易發(fā)現(xiàn),采用按鍵式交互的IVR仍然是主流。

        隨著近幾年語音識別技術的不斷發(fā)展,自然語音識別技術也逐漸成熟,而且在移動互聯(lián)網(wǎng)等可靠性要求不是太高的領域得到廣泛的應用,iPhone的Siri、QQ的語音輸入、Google的語音翻譯、科大和移動合作的靈犀等智能語音識別業(yè)務都廣泛應用到此技術。

        擁有海量一手語音數(shù)據(jù)的電信行業(yè)也因為自然語音識別技術的成熟,智能語音識別業(yè)務將會迎來新的發(fā)展機遇。

        4 MRCPv2協(xié)議在電信智能語音識別業(yè)務中的應用

        由于識別技術的專一性,在電信領域,控制著語音接入的電信設備制造商,很少擁有扎實的語音識別技術,而提供語音識別技術的廠家很多。以前各電信設備集成商必須針對不同的語音識別廠家提供的API接口進行專門的集成開發(fā),不同識別引擎的接口各不相同,從而導致了集成過程的復雜性和局限性。而利用MRCP協(xié)議提供的標準接口,電信設備集成商們不必再針對特定的識別引擎進行開發(fā),而只需要滿足MRCP協(xié)議即可與多個不同廠商的識別引擎對接。這樣就為各種語音應用開發(fā)提供了更加靈活的選擇,并有效地降低業(yè)務開發(fā)周期和成本。正是由于具有以上優(yōu)勢,MRCP協(xié)議在推出以后得到了國外各電信設備制造商和語音識別提供商的廣泛支持[6],各電信設備制造商提供MRCP Client,語音識別提供商提供MRCP Server,通過對接完成語音識別業(yè)務。

        MRCPv2為語音識別業(yè)務提供除了公共的SIP、SDP、RTP配合機制,公共的方法、消息頭和事件之外,還包含如下兩個部分:

        (1)語音識別業(yè)務中的狀態(tài)變遷機制;

        (2)語音識別業(yè)務中的方法、事件以及配套的消息頭、參數(shù)。

        4.1 MRCPv2語音識別業(yè)務中的狀態(tài)變遷機制介紹(圖4)

        在MRCPv2定義的語音識別應用中,MRCP Client和MRCP Server必須遵循如上圖所示的狀態(tài)機變遷機制,只有空閑、識別中、識別完三個狀態(tài)。狀態(tài)的變遷依靠方法和事件的驅動:

        (1)通過RECOGNIZE方法觸發(fā)進入識別中狀態(tài);

        (2)通過RECOGNITION-COMPLETE事件觸發(fā)進入識別完態(tài);

        (3)通過STOP方法觸發(fā)進入空閑態(tài);

        4.2 MRCPv2定義的語音識別應用中的方法、事件及重要消息頭

        支持語音識別業(yè)務的方法和事件主要如下:

        (1)RECOGNIZE方法:啟動識別命令,攜帶的主要消息頭有No-Input-Timeout、Recognition-Timeout、Speech-Complete-Timeout、Start-Input-Timers、Confidence-Threshold,其含義分別如下:

        No-Input-Timeout:無話超時時間,單位為毫秒,用于定義MRCP server啟動識別后允許用戶無聲音輸入的最大時長;

        Recognition-Timeout:識別超時時間,單位為毫秒,用于定義MRCP server啟動識別后允許返回識別結果的最大時長;

        Speech-Complete-Timeout:說話完檢測超時時間,單位為毫秒,用于定義MRCP Server判斷用戶一句話已說完的靜默時長;

        Start-Input-Timers:是否立即啟動無話超時定時器,為“true”時立即啟動,通常啟動識別時同時伴隨有提示音的情況下,可以置為“false”,即讓MRCP Server暫時不要啟動無話超時定時器;

        Confidence-Threshold:識別置信度門檻,用于定義返回識別結果時必須滿足的最小置信度;

        4.3 一次語音識別業(yè)務中完整MRCP交互

        一次完整的語音識別業(yè)務交互如圖5所示:

        (1)MRCP Client發(fā)送INVITE消息給MRCP Server請求建立會話,攜帶MRCP Client側的SDP;

        (2)MRCP Server回復200表示請求已經(jīng)成功接受處理,攜帶MRCP Server側的SDP;

        (3)MRCP Client隨后發(fā)送ACK消息證實200消息已經(jīng)收到,至此一個SIP會話成功建立;

        (4)MRCP Client發(fā)送RECOGNIZE消息給MRCP Server,請求語音識別,按照MRCP協(xié)議規(guī)定的格式攜帶相關的語音識別控制消息頭,并且指定語法文件路徑;

        (5)MRCP Server接收RECOGNIZE請求,編譯語法文件,回復200消息給MRCP Client,此時兩側進入識別中狀態(tài);

        (6)MRCP Client此時開始根據(jù)之前協(xié)商好的SDP,開始源源不斷的發(fā)送RTP語音流給MRCP Server;

        (7)MRCP Server接收RTP語音流,當檢測到用戶開始說話時,發(fā)送START-OF-INPUT事件;

        (8)當MRCP Server根據(jù)語法文件定義得到識別結果時,通過RECOGNITION-COMPLETE事件返回識別結果,兩側進入識別完狀態(tài);

        (9)MRCP Client發(fā)送BYE消息給MRCP Server結束會話;

        (10)MRCP Server發(fā)送200消息給MRCP Client確認結束;

        MRCP Client通過上述消息交互獲得MRCP Server提供的一次完整語音識別能力。

        5 MRCPv2在電信實時智能語音識別業(yè)務中的應用展望

        當前,MRCPv2協(xié)議已經(jīng)能夠很好的解決單次語音識別問題,各大電信運營商正火熱上線的智能語音導航、機器人客服等業(yè)務都基于MRCPv2協(xié)議,但是這些都是IVR性質,其特定都是要識別的語音內容不長。在人工業(yè)務輔助識別等大量連續(xù)識別場景中應用仍然受限,比如說話內容實時回顯,此時需要完成不間斷的語音識別結果上報,而當前的MRCPv2協(xié)議只支持每次上報一個結果,所以需要進一步擴展MRCPv2協(xié)議才能完成。

        參考文獻

        [1] MRCPv2 RFC 6787: Media Resource Control Protocol Version 2.

        [2] SDP RFC 2327: Session Description Protocol.

        [3] SIP RFC 3261: Session Initiation Protocol.

        [4] 薛德黔.交互式自然口語語音識別關鍵技術[J].計算機應用,2002,22(7): 45-47.

        [5] 馮俊蘭,杜利民.自然口語語音識別研究概況[J].電子商務,1999(9):3-7.

        [6] 史俊波,詹舒波.MRCPv2協(xié)議及其在分布式語音資源解決方案中的應用,2010.

        [7] Gartner.Hype Cycle for Emerging Technologies 2013[R].2013.endprint

        猜你喜歡
        電信系統(tǒng)結構
        電信通信建設工程項目管理探討
        電信充值卡有期限,違法么?
        淺談“營改增”擴圍后對電信的影響
        財會學習(2016年19期)2016-11-10 05:04:15
        電信運營中的維護服務外包模式研究
        淺析電信行業(yè)在互聯(lián)網(wǎng)+時代的微信維系與營銷新模式
        觀音巖水電站計算機監(jiān)控系統(tǒng)結構與分析
        中波廣播發(fā)射系統(tǒng)結構及日常維護技術研究
        考慮助力器動力學的舵系統(tǒng)結構非線性顫振特性分析
        物聯(lián)網(wǎng)與移動通信平臺在電信實驗教學中的應用
        大型鋼制真空球罐及管路系統(tǒng)結構強度分析
        激情五月天俺也去综合网| 亚洲精品无码永久在线观看你懂的 | 日韩一级精品视频免费在线看| 一本一道久久精品综合| 成人免费无遮挡在线播放| 特级婬片国产高清视频| 精品亚洲欧美高清不卡高清| 蜜桃视频一区二区三区在线| 99久久婷婷国产精品综合网站| 国产综合精品久久99之一| 免费人妻无码不卡中文字幕系| 日本大尺度吃奶呻吟视频| 真人在线射美女视频在线观看| 一道本中文字幕在线播放| 人妻少妇猛烈井进入中文字幕| 国产精品白浆在线观看免费| 成 人 免费 黄 色 视频| 岛国精品一区二区三区| 国产精品美女自在线观看| 在线观看国产成人自拍视频 | 亚洲av无码专区亚洲av| 国产三级黄色片子看曰逼大片| 青青草在线免费观看视频| 久久久精品中文字幕麻豆发布| 玩弄放荡人妻少妇系列视频| 加勒比无码专区中文字幕| 久久精品国产亚洲av调教| 久久99精品国产麻豆| 久久久久久九九99精品| 日日干夜夜操高清视频| 日产精品一区二区三区免费| av在线免费观看男人天堂| 色欲人妻aaaaaaa无码| 野花在线无码视频在线播放| 无码一区二区三区在| 街拍丝袜美腿美女一区| 亚洲国产精品无码久久一线| 亚洲av永久无码精品一区二区| 色系免费一区二区三区| 国成成人av一区二区三区| 日本伊人精品一区二区三区|