亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        語音識別技術(shù)與新華社視音頻應(yīng)用

        2013-03-18 03:00:36王可佳徐東健
        中國傳媒科技 2013年15期

        文|王可佳 徐東健

        一.引言

        語音識別是一種讓機(jī)器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)槲谋净蛎畹母呒壖夹g(shù),涉及到生理學(xué)、心理學(xué)、語言學(xué)、計(jì)算機(jī)科學(xué)以及信號處理等諸多領(lǐng)域。近年來語音識別在視頻領(lǐng)域出現(xiàn)了很多應(yīng)用,如音字轉(zhuǎn)寫、固定音頻檢索、語種識別、音頻特征提取、關(guān)鍵詞檢索等等。應(yīng)用自動語音識別技術(shù),將大大提高效率并大幅降低成本。語音識別作為一門交叉學(xué)科,經(jīng)過多年的積累研究,獲得了巨大的進(jìn)展。特別是近20年來,語音識別技術(shù)取得了顯著的進(jìn)步,并逐步的走向市場。在未來的日子里,語音識別技術(shù)將應(yīng)用更為廣泛。

        新華社在戰(zhàn)略轉(zhuǎn)型以及大力發(fā)展全媒體市場的背景之下,擁有豐富的多媒體及視音頻資源,這些零散的資源只有基本的視音頻文件信息,以及編輯進(jìn)行編目錄入的項(xiàng)目作為元數(shù)據(jù)描述。在浪費(fèi)了大量的人力資源的同時(shí),從視音頻文件中獲取的只是極其有限的信息。為了深度分析視音頻內(nèi)容,進(jìn)一步挖掘媒體資產(chǎn)所蘊(yùn)含的信息,并且充分利用其所含的價(jià)值,我們需要引入語音識別技術(shù),在流程中對稿件內(nèi)容進(jìn)行進(jìn)一步處理分析,從而做到節(jié)省人力成本,深度剖析視音頻內(nèi)容,實(shí)現(xiàn)新華社媒體資產(chǎn)價(jià)值的最大化。

        二.語音識別技術(shù)的發(fā)展

        語音識別技術(shù)通過全球科學(xué)家的共同努力,經(jīng)歷半個(gè)多世紀(jì)的研究,目前已經(jīng)發(fā)展到了接近實(shí)用的階段。在實(shí)驗(yàn)室環(huán)境下,大詞匯量的朗讀式連續(xù)說話的寬帶語音信號的平均識別率可以達(dá)到90%以上。正式有了如此高的識別率之后,語音識別技術(shù)慢慢地從實(shí)驗(yàn)室演示系統(tǒng)逐步走向?qū)嵱没唐贰?/p>

        1.世界語音識別技術(shù)的發(fā)展歷史

        1952年貝爾研究所Davis等人研究成功了世界上第一個(gè)能識別10個(gè)英文數(shù)字發(fā)音的實(shí)驗(yàn)系統(tǒng)。1960年英國的Denes等人研究成功了第一個(gè)計(jì)算機(jī)語音識別系統(tǒng)。大規(guī)模的語音識別研究是在進(jìn)入了70年代以后,在小詞匯量、孤立詞的識別方面取得了實(shí)質(zhì)性的進(jìn)展。進(jìn)入80年代以后,研究的重點(diǎn)逐漸轉(zhuǎn)向大詞匯量、非特定人連續(xù)語音識別。在研究思路上也發(fā)生了重大變化,即由傳統(tǒng)的基于標(biāo)準(zhǔn)模板匹配的技術(shù)思路開始轉(zhuǎn)向基于統(tǒng)計(jì)模型 (HMM)的技術(shù)思路。1987年起,日本又?jǐn)M出新的國家項(xiàng)目——高級人機(jī)口語接口和自動電話翻譯系統(tǒng)。進(jìn)入90年代以后,在語音識別的系統(tǒng)框架方面并沒有什么重大突破。但是,在語音識別技術(shù)的應(yīng)用及產(chǎn)品化方面出現(xiàn)了很大的進(jìn)展。2000年及之后,語音識別無論在系統(tǒng)框架還是在應(yīng)用模式上都有了突出的進(jìn)展,現(xiàn)在國外語音識別技術(shù)的準(zhǔn)確率和效率都有了大幅度的提升,已經(jīng)成為人工智能領(lǐng)域成熟的應(yīng)用之一,并且進(jìn)一步和云計(jì)算平臺結(jié)合在一起,對外提供高效可用的服務(wù)。

        2.國內(nèi)語音識別技術(shù)的發(fā)展歷史

        中國的語音識別研究起始于1958年,由中國科學(xué)院聲學(xué)所利用電子管電路識別10個(gè)元音。直至1973年才由中國科學(xué)院聲學(xué)所開始計(jì)算機(jī)語音識別。由于當(dāng)時(shí)條件的限制,中國的語音識別研究工作一直處于緩慢發(fā)展的階段。進(jìn)入80年代以后,隨著計(jì)算機(jī)應(yīng)用技術(shù)在中國逐漸普及和應(yīng)用以及數(shù)字信號技術(shù)的進(jìn)一步發(fā)展,國內(nèi)許多單位具備了研究語音技術(shù)的基本條件。與此同時(shí),國際上語音識別技術(shù)在經(jīng)過了多年的沉寂之后重又成為研究的熱點(diǎn),發(fā)展迅速。就在這種形式下,國內(nèi)許多單位紛紛投入到這項(xiàng)研究工作中去。1986年3月中國高科技發(fā)展計(jì)劃(863計(jì)劃)啟動,語音識別作為智能計(jì)算機(jī)系統(tǒng)研究的一個(gè)重要組成部分而被專門列為研究課題。在863計(jì)劃的支持下,中國開始了有組織的語音識別技術(shù)的研究,并決定了每隔兩年召開一次語音識別的專題會議。從此中國的語音識別技術(shù)進(jìn)入了一個(gè)前所未有的發(fā)展階段。中文因其具有的獨(dú)特性和語義特點(diǎn),令中國的企業(yè)機(jī)構(gòu)在研究和發(fā)展中文相關(guān)識別技術(shù)時(shí)具有與生俱來的優(yōu)勢。這也就是目前國內(nèi)主要市場仍被本土企業(yè)和研究機(jī)構(gòu)所占領(lǐng)的原因。

        3.云計(jì)算時(shí)代語音識別技術(shù)的發(fā)展

        近年來隨著計(jì)算機(jī)技術(shù)和互聯(lián)網(wǎng)應(yīng)用的不斷發(fā)展,信息技術(shù)產(chǎn)業(yè)正逐步整合資源,進(jìn)入云計(jì)算平臺的初級發(fā)展時(shí)代。

        語音識別技術(shù)作為人工智能中的一項(xiàng)重點(diǎn)和基礎(chǔ)應(yīng)用,已經(jīng)和視音頻技術(shù)、新媒體應(yīng)用、移動終端應(yīng)用等運(yùn)用模式緊密結(jié)合起來。在模式提取以及模式匹配的過程中,需要耗費(fèi)大量的物理存儲和數(shù)據(jù)運(yùn)算資源,因需求導(dǎo)致的將存儲和運(yùn)算資源整合起來提供對外接口服務(wù)的業(yè)務(wù)形式也就越發(fā)普遍起來。如siri、科大訊飛等等都是利用云計(jì)算平臺提供語音查詢、識別、轉(zhuǎn)寫等基本服務(wù),讓語音識別技術(shù)可以不再只是神秘的高科技,而是真正透過網(wǎng)絡(luò)和云計(jì)算平臺深入普通人生活的基礎(chǔ)服務(wù)。

        三.語音識別的基礎(chǔ)應(yīng)用

        智能語音行業(yè)因?yàn)楹诵募夹g(shù)的緣故具有很高的行業(yè)技術(shù)壁壘,在全球范圍內(nèi),只有少數(shù)的企業(yè)具有競爭實(shí)力,在國外,有Nuance、蘋果、Google等;在國內(nèi),有科大訊飛、凌聲芯、思必馳、捷通華聲等。

        國外語音市場主要以語音識別為主,具有代表性的產(chǎn)品有Nuance的Dragon Dictation,蘋果新推出的Siri;而在國內(nèi),語音市場主要以語音合成為主,其中科大訊飛及捷通華聲基本占領(lǐng)了語音合成市場。但隨著世界范圍內(nèi),越來越多的語音識別軟件的涌現(xiàn),如語音類搜索應(yīng)用Dragon Search、語音類聽寫功能整合軟件訊飛口訊、語音類音樂軟件Shazam、口語在線學(xué)習(xí)平臺思必馳AIChinese,以及語音控制軟件Siri等,語音識別勢必會成為智能語音市場的主流。

        目前,全球語音技術(shù)市場規(guī)模超過30億美元,近年來年增長率保持在25%以上,未來語音識別市場被看好,其中電信行業(yè),移動應(yīng)用領(lǐng)域,都會呈現(xiàn)出爆發(fā)式增長。

        在語音識別的基礎(chǔ)應(yīng)用當(dāng)中,我們按照業(yè)務(wù)模式和運(yùn)用情況將其主要劃分為以下的幾類應(yīng)用類型:

        1.語音識別類應(yīng)用

        所謂語音識別類應(yīng)用,即純粹運(yùn)用聲學(xué)特征提取和匹配的應(yīng)用類型。它的典型的應(yīng)用為說話人查詢、廣告播出監(jiān)控、非法語音信息過濾、聲紋密碼鎖等等。該項(xiàng)技術(shù)旨在提取檢測目標(biāo)的聲學(xué)特征信息作為模式,通過搜索或監(jiān)控去進(jìn)行聲學(xué)特征的模式匹配。只有在兩種聲學(xué)特征完全一致的時(shí)候,才認(rèn)為匹配成功。在這種應(yīng)用模式下,程序不會進(jìn)行語義分析,因?yàn)樗恍枰崛〕雎晫W(xué)信息即可,而不需要了解這段語音背后的內(nèi)容含義。

        2.內(nèi)容理解類應(yīng)用

        我們運(yùn)用語音識別技術(shù),除了對于固定模式音頻的聲學(xué)提取與匹配之外,更重要的是要將其作為人工智能的其中一個(gè)重要環(huán)節(jié),去減少不必要的人力成本,以及為人類提供更加方便的生活輔助。這樣的應(yīng)用場景之下,計(jì)算機(jī)對于語音中所蘊(yùn)藏的語義內(nèi)容是如何把握的就成了關(guān)鍵。為了合成出高質(zhì)量的語言,除了依賴于各種規(guī)則,包括語義學(xué)規(guī)則、詞匯規(guī)則、語音學(xué)規(guī)則外,還必須對文字的內(nèi)容有很好的理解,這也涉及到自然語言理解的問題。音字轉(zhuǎn)換過程是先將文字序列轉(zhuǎn)換成音韻序列,再由系統(tǒng)根據(jù)音韻序列生成語音波形。因此一般說來,音字轉(zhuǎn)換系統(tǒng)都需要一套復(fù)雜的文字序列到音素序列的轉(zhuǎn)換程序,也就是說,不僅要應(yīng)用數(shù)字信號處理技術(shù),而且必須有大量的語言學(xué)知識的支持。這種情況之下,對核心技術(shù)的要求和應(yīng)用的復(fù)雜度都會提高很多,因此,這也被普遍認(rèn)為是語音識別技術(shù)乃至于人工智能技術(shù)中最復(fù)雜的應(yīng)用模式之一。其典型應(yīng)用形式包括:音字轉(zhuǎn)寫、關(guān)鍵詞查詢、字幕抽取、語音文件智能關(guān)聯(lián)、語音合成等等。

        3.網(wǎng)絡(luò)服務(wù)應(yīng)用

        隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展和移動終端的普及,語音識別技術(shù)已經(jīng)被廣泛應(yīng)用于互聯(lián)網(wǎng)服務(wù)當(dāng)中,現(xiàn)如今,各大門戶網(wǎng)站、搜索引擎、購物電商等紛紛提供了語音輸入搜索的服務(wù),用戶可以很方便地通過移動終端的mic進(jìn)行關(guān)鍵詞輸入,免去了繁瑣的中文輸入環(huán)節(jié),為終端使用者提供了極大的方便。另外,隨著云計(jì)算平臺的興起以及計(jì)算存儲資源的深度整合,解決了單機(jī)版程序的規(guī)格要求和運(yùn)行資源限制,使得利用云計(jì)算平臺提供大運(yùn)算量的語音識別、搜索等服務(wù)成了廣泛的趨勢。

        四.語音識別在新華社視音頻系統(tǒng)中的應(yīng)用模式

        經(jīng)過近10年的數(shù)據(jù)建設(shè)和技術(shù)建設(shè),音像資料總量已達(dá)近80萬條,總時(shí)長5萬小時(shí),新聞類音像資料量在行業(yè)內(nèi)處于領(lǐng)先地位。2008年后,隨著新華社戰(zhàn)略轉(zhuǎn)型工作的開展和不斷深入,我社視頻業(yè)務(wù)實(shí)現(xiàn)了跨越式發(fā)展,目前視頻節(jié)目制作量已是2008年之前的10倍以上。在這一發(fā)展過程中,音像資料庫對視頻業(yè)務(wù)的支撐與服務(wù)地位日益突出。據(jù)統(tǒng)計(jì),2008年以來新華社各視頻業(yè)務(wù)對音像資料的需求呈現(xiàn)爆炸性增長,目前總出庫數(shù)量已接近15萬條,總出庫時(shí)長達(dá)1萬小時(shí),音像資料庫的資料使用率在業(yè)界處于領(lǐng)先地位。2011年,我社已把視頻業(yè)務(wù)的發(fā)展方向逐漸從量的提升轉(zhuǎn)變到質(zhì)的提升,充分利用好我社已有的音像資源,也將成為提升我社節(jié)目質(zhì)量的有效途徑。

        擁有如此豐富的視音頻資源,如何深度挖掘視音頻文件蘊(yùn)含的各種信息,進(jìn)一步提升資源的價(jià)值變成我們重要的工作之一。因此,視音頻系統(tǒng)需要引入語音識別技術(shù),作為自身平臺提供的基礎(chǔ)服務(wù)之一,對視音頻資源及其元數(shù)據(jù)信息進(jìn)行進(jìn)一步加工、提取與分析,實(shí)現(xiàn)智能而自動的后臺流程服務(wù)。

        在視音頻系統(tǒng)中,為引入語音識別服務(wù),我們按照調(diào)研資料和測試數(shù)據(jù)進(jìn)行了初步設(shè)計(jì),提出了以下幾個(gè)應(yīng)用場景。

        1.音頻特征提取

        音頻特征提取是語音識別引擎最基礎(chǔ)的應(yīng)用之一,它可以對音頻數(shù)據(jù)進(jìn)行處理,獲得采樣率、碼率、時(shí)長等一些基礎(chǔ)信息。并能夠進(jìn)行進(jìn)一步分析,得到例如有無旁白、背景音樂等等輔助信息,為編輯人員進(jìn)行簡單編目和高級編目提供直觀參照,可以提升編輯人員的整體工作效率(見圖1)。

        音頻特征提取可以提供以下服務(wù)功能:

        ★ 提取音頻文件基本信息,豐富元數(shù)據(jù)內(nèi)容

        ★ 提取音頻文件背景音信息,進(jìn)行稿件進(jìn)一步分類

        ★ 提取音頻文件人聲聲紋信息,進(jìn)行固定人聲紋檢索

        2.語種識別

        分析音頻數(shù)據(jù),從而進(jìn)行簡單的語種判別,自動歸類,可以為編輯人員節(jié)省時(shí)間提高效率(見圖2)。

        語種識別能提供以下服務(wù)功能:

        ★ 提取語種信息,豐富元數(shù)據(jù)內(nèi)容,節(jié)省人工開銷

        ★ 進(jìn)行稿件自動語種分類,方便查詢

        圖1

        圖2

        3.字幕提取

        音像資料庫系統(tǒng)中在視頻資料入庫預(yù)處理環(huán)節(jié)中加入語音識別功能,提取語音字幕,能夠起到輔助全文檢索,支援瀏覽,節(jié)省編目人員錄入時(shí)間的三重效果,充分發(fā)揮視頻資料的價(jià)值(見圖3)。

        字幕提取能為用戶提供以下的服務(wù)功能:

        ★ 音字轉(zhuǎn)寫,抽取文稿,作為進(jìn)一步精編的參照,節(jié)約編目人的錄入時(shí)間

        ★ 對抽取的文稿內(nèi)容進(jìn)行全文索引,提升簡單檢索的體驗(yàn)

        保存文稿和相對詞組出現(xiàn)的時(shí)間對照,為流媒體瀏覽提供字幕輔助,并能夠支援點(diǎn)擊關(guān)鍵詞的時(shí)碼跳轉(zhuǎn),方便用戶盡快定位到視頻中需要的部分。

        4.語音相關(guān)度檢索

        系統(tǒng)利用語音識別的先進(jìn)技術(shù),對資料庫里的稿件在一定相關(guān)度以內(nèi)進(jìn)行近音提示和音頻關(guān)聯(lián)檢索。此項(xiàng)技術(shù)能夠在語音技術(shù)方面對檢索進(jìn)行輔助,大幅提升用戶的瀏覽和檢索體驗(yàn)(見圖4)。

        為了實(shí)現(xiàn)以上的應(yīng)用場景,我們需要引入聲學(xué)模型、語言模型的智能庫,對聲學(xué)和語言的特征樣本、中間結(jié)果索引、語音識別任務(wù)調(diào)度等平臺進(jìn)行管理和維護(hù)。

        圖3

        圖4

        5.聲學(xué)智能庫管理

        聲學(xué)智能庫是存儲有大量聲學(xué)特征及對其照語音信息的聲學(xué)智能模型庫,它按照固定標(biāo)準(zhǔn)對音頻信息進(jìn)行采樣分析,提取特征和對照信息合入智能字典,是進(jìn)行語音流、音頻文件等分析的基礎(chǔ)參照。語音識別分析的效率和準(zhǔn)確率在很大程度上取決于聲學(xué)智能庫聲學(xué)模型的信息量、采樣標(biāo)準(zhǔn)、模型精準(zhǔn)度等等。它是語音識別平臺最重要的組成部分。

        聲學(xué)智能庫管理相關(guān)操作于web管理界面上呈現(xiàn)選項(xiàng),通過上層應(yīng)用邏輯選擇去調(diào)用平臺底層封裝的API接口,主要功能包括:

        ★ 語音模型建立、維護(hù)、選用、刪除。

        ★ 策略規(guī)則匹配

        ★ 模型參數(shù)設(shè)定

        6.語言智能庫管理

        語言智能庫是存儲有大量語義分詞、語料分析等信息的智能語言模型庫,它對大量從歷史文本、時(shí)政新聞、網(wǎng)絡(luò)搜索等途徑獲得的語言文字進(jìn)行切分、提取、分析和處理,從海量語料中獲得精煉的統(tǒng)計(jì)學(xué)模型。語言模型不止一個(gè),對于不同領(lǐng)域使用不同內(nèi)容語料來源生成的語言模型,對于語音識別及語義分析準(zhǔn)確度的提升有很大幫助。語言智能庫具有很好的擴(kuò)展性,可以人為設(shè)置和導(dǎo)入新的規(guī)則、參數(shù)等信息,從達(dá)到到對語言模型的分析算法進(jìn)行規(guī)范、調(diào)整、限制的目的。并且,對于不斷新加入的分析處理任務(wù)以及定期更新入庫的新增語料信息,語言智能庫會按規(guī)則抽取其中的有用部分,對統(tǒng)計(jì)模型進(jìn)行更新和不斷完善。

        語言智能庫管理相關(guān)操作于web管理界面上呈現(xiàn)選項(xiàng),通過上層應(yīng)用邏輯選擇去調(diào)用平臺底層封裝的API接口,主要功能包括:

        ★ 語言模型建立、分類、維護(hù)、選用、刪除。

        ★ 策略規(guī)則匹配

        ★ 模型參數(shù)設(shè)定

        ★ 語料信息分類導(dǎo)入,可設(shè)手工導(dǎo)入或定時(shí)自動導(dǎo)入策略

        ★ 語言模型再訓(xùn)練,可設(shè)定手動模式或自學(xué)習(xí)模式

        7.索引庫管理

        音頻信息經(jīng)過語音識別處理之后,所產(chǎn)生的中間結(jié)果會以特征的形式存在索引信息當(dāng)中。索引信息的存在,可以加速上層應(yīng)用交付的檢索、識別等任務(wù),提升分析、處理服務(wù)的效率。對索引信息進(jìn)行統(tǒng)一管理,定期整理,批量進(jìn)行更新、刪除,可以維護(hù)整個(gè)語音識別平臺的信息完整性,避免產(chǎn)生性能瓶頸,平衡系統(tǒng)開銷,為上層應(yīng)用提供最優(yōu)策略的服務(wù)。索引文件可以以文件或其他形式進(jìn)行存儲。在提升效率的同時(shí),它也可以視為是一份廉價(jià)的冗余信息,一旦產(chǎn)生數(shù)據(jù)丟失,可以通過定期或人工再掃描分析的方法進(jìn)行重建。

        索引庫管理相關(guān)操作于web管理界面上呈現(xiàn)選項(xiàng),通過上層應(yīng)用邏輯選擇去調(diào)用平臺底層封裝的API接口,主要功能包括:

        ★ 索引策略指定,設(shè)定需要進(jìn)行索引的內(nèi)容、操作以及保存形式。

        ★ 索引批量重建:可進(jìn)行手工重建或自動定時(shí)重建。

        ★ 索引定期刪除:對已經(jīng)利用完畢的部分中間結(jié)果進(jìn)行手動和自動刪除。

        ★ 索引文件導(dǎo)入導(dǎo)出:可以將索引庫中索引信息導(dǎo)出為文件形式進(jìn)行備份,也在符合完整性約束的前提下,可將索引文件導(dǎo)入索引庫中進(jìn)行恢復(fù)操作。

        8.語音識別任務(wù)管理

        語音識別平臺對語音識別任務(wù)進(jìn)行管理,并與服務(wù)集成總線進(jìn)行對接,由服務(wù)集成總線負(fù)責(zé)對其任務(wù)進(jìn)行統(tǒng)一資源分配、調(diào)度、處理。這樣的設(shè)計(jì)能夠減少系統(tǒng)冗余資源開銷、規(guī)避瓶頸,使語音識別進(jìn)一步流程化自動化。在任務(wù)管理區(qū),也可以通過調(diào)用服務(wù)集成總線的接口對所有任務(wù)進(jìn)行人工干預(yù)控制,主要功能包括:

        ★ 語音識別任務(wù)暫停、再運(yùn)行

        ★ 任務(wù)停止、刪除

        ★ 任務(wù)優(yōu)先級設(shè)定

        ★ 出錯(cuò)處理

        ★ 警告、任務(wù)運(yùn)行信息記錄

        ★ 設(shè)置定時(shí)任務(wù)運(yùn)行

        五.引入語音識別技術(shù)面臨的機(jī)遇與挑戰(zhàn)

        語音識別技術(shù)通過全球科學(xué)家的共同努力,經(jīng)歷半個(gè)多世紀(jì)的研究,目前已經(jīng)發(fā)展到了接近實(shí)用的階段。在實(shí)驗(yàn)室環(huán)境下,大詞匯量的朗讀式連續(xù)說話的寬帶語音信號的平均識別率可以達(dá)到90%以上。正是有了如此高的識別率之后,語音識別技術(shù)慢慢地從實(shí)驗(yàn)室演示系統(tǒng)逐步走向?qū)嵱没唐贰UZ音搜索技術(shù)正在逐漸成熟,擺脫噱頭的頭銜走向普及應(yīng)用。但是,語音識別技術(shù)目前仍然存在很多的困難和不足,有待于進(jìn)一步的探索,具體可分為以下幾個(gè)方面:

        語音識別系統(tǒng)的適應(yīng)性差,主要體現(xiàn)在對環(huán)境依賴性強(qiáng),即在某種環(huán)境下采集到的語音訓(xùn)練系統(tǒng)只能在這種環(huán)境下應(yīng)用,否則系統(tǒng)性能將急劇下降;另外一個(gè)問題是對用戶的錯(cuò)誤輸入不能正確響應(yīng),使用不方便。

        高噪聲環(huán)境下語音識別進(jìn)展困難,因?yàn)榇藭r(shí)人的發(fā)音變化很大,像聲音變高,語速變慢,音調(diào)及共振峰變化等等,這就是所謂Lombard效應(yīng),必須尋找新的信號分析處理或者降噪預(yù)處理的方法。

        語言學(xué)、生理學(xué)、心理學(xué)方面的研究成果已有不少,但如何把這些知識量化、建模并用于語音識別,還需研究。而語言模型、語法及詞法模型在中、大詞匯量連續(xù)語音識別中是非常重要的。

        我們對人類的聽覺理解、知識積累和學(xué)習(xí)機(jī)制以及大腦神經(jīng)系統(tǒng)的控制機(jī)理等分面的認(rèn)識還很不清楚;其次,把這方面的現(xiàn)有成果用于語音識別,還有一個(gè)艱難的過程。

        語音識別系統(tǒng)從實(shí)驗(yàn)室演示系統(tǒng)到商品的轉(zhuǎn)化過程中還有許多具體問題需要解決,識別速度、拒識問題以及關(guān)鍵詞(句)檢測技術(shù)等等技術(shù)細(xì)節(jié)要解決?!?/p>

        色婷婷色99国产综合精品| 色综合色狠狠天天综合色| 午夜视频在线观看日本| 国产一区二区三区精品成人爱| 中文亚洲第一av一区二区| 精品国产污黄网站在线观看| 成人av综合资源在线| 很黄很色的女同视频一区二区| 亚洲色图在线免费视频| 丰满精品人妻一区二区| 狠狠cao日日橹夜夜十橹| 欧美怡春院一区二区三区| 国产成人av一区二区三区在线观看 | 亚洲精品一区二区三区麻豆| 国产精品久久久亚洲| 国产av无码专区亚洲avjulia| 三年片免费观看大全有| 在线看片免费人成视频久网下载| 伊人久久大香线蕉亚洲五月天| 老熟妇乱子伦av| 国产精品亚洲综合色区韩国| 中文字幕影片免费在线观看| 免费看一级a女人自慰免费| 欧美xxxx新一区二区三区| 91福利国产在线观看网站| 中文字幕一区二区三区亚洲| 亚洲色图在线免费观看视频| 久久99精品久久久久久9蜜桃| 亚洲av无码专区亚洲av| 国产不卡一区二区三区视频| 久久久99精品国产片| 成人国产av精品麻豆网址| 加勒比日韩视频在线观看 | 蜜桃视频网站在线观看一区| 成熟了的熟妇毛茸茸| 亚洲视频在线观看| 少妇无码吹潮| 国产乱妇乱子视频在播放| 一本一本久久久久a久久综合激情| 97中文字幕一区二区| 国产色视频在线观看了|