亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        自動語音識別:從幻想到現(xiàn)實

        2013-04-29 00:44:03辛妍
        新經(jīng)濟導(dǎo)刊 2013年7期
        關(guān)鍵詞:系統(tǒng)

        辛妍

        您是否曾經(jīng)夢想有一天能用自己的聲音控制你的房子、汽車,甚至機器人管家?自動語音識別曾經(jīng)只是科幻小說中的概念,而現(xiàn)在它是信息和通信技術(shù)的一個重要組成部分,越來越成為我們?nèi)粘I畹闹髁?。?dāng)您讓您的iPhone“呼叫Tom”的時候,你就在使用自動語音識別。

        簡單地說,自動語音識別(ASR)是一種讓計算機識別語音,并將它轉(zhuǎn)換為書面文本的技術(shù),是語音科學(xué)與工程發(fā)展最快的領(lǐng)域之一。作為新一代的計算技術(shù),它是人機交互領(lǐng)域繼文本到語音轉(zhuǎn)換(TTS)和支持交互式語音響應(yīng)(IVR)系統(tǒng)之后的又一個重大創(chuàng)新。自動語音識別系統(tǒng)的目標(biāo)是準(zhǔn)確、有效地將語音信號轉(zhuǎn)換成文本,并且不受說話者、環(huán)境或者是使用的設(shè)備(即麥克風(fēng))的限制。

        語音識別技術(shù)最初是為殘疾人設(shè)計的,它可以幫助那些肌肉骨骼殘疾人士實現(xiàn)計算機上的最大生產(chǎn)力。雖然自動語音識別是一項幾十年前就開始開發(fā)的技術(shù),但直到Apple的虛擬個人助理SiriTM和IBM的WatsonTM的商業(yè)成功才真正展示了這一領(lǐng)域的重大突破。事實上,當(dāng)2011年底Apple推出新一代的iPhone Siri語音識別軟件時,在某種意義上意味著這個具有幾十年歷史的舊技術(shù)對普通消費者來說已經(jīng)足夠好了。

        全球語音識別市場的主導(dǎo)者是總部設(shè)在美國的Nuance Communications,其軟件被認(rèn)為是Siri的動力, 而它的大多數(shù)技術(shù)依賴于將語音轉(zhuǎn)換為計算機可以理解的文本。Nuance的語音解決方案支持多達(dá)50種不同的語言,并且維護著世界上最大的語音數(shù)據(jù)圖書館之一;有近三分之二的財富100強公司依靠Nuance的解決方案;Nuance的解決方案已經(jīng)應(yīng)用到超過50億部手機和7千萬輛汽車上。在醫(yī)療方面,僅在美國就有超過3千家醫(yī)院使用Nuance的醫(yī)療保健解決方案,超過15萬的醫(yī)生和護理人員使用Nuance的Dragon Medical系統(tǒng)。

        自動語音識別的發(fā)展

        最早嘗試設(shè)計機器自動語音識別系統(tǒng)是在20世紀(jì)50年代,但以失敗告終。第一次成功的語音識別成果產(chǎn)生在20世紀(jì)70年代,當(dāng)時一般的模式匹配技術(shù)被推出。由于應(yīng)用擴展有限,基于統(tǒng)計方法的自動語音識別技術(shù)也在同一時期開始開發(fā)。如今,統(tǒng)計技術(shù)在自動語音識別應(yīng)用中盛行,常見的語音識別系統(tǒng)可以識別數(shù)千字。

        在20世紀(jì)90年代初,計算機語音識別技術(shù)出現(xiàn)了巨大的市場機會。但當(dāng)時這些產(chǎn)品的早期版本笨重且很難使用,而且不得不做出妥協(xié):它們或者被“調(diào)整”為要依賴于一個特定的說話者,或者是只有小詞匯量,或者是用一種非常程式化、僵化的語法。然而,在計算機行業(yè)中沒有什么可以長期保持不變。20世紀(jì)90年代末期,出現(xiàn)了全新的商業(yè)語音識別軟件包,它們比上一代產(chǎn)品更容易使用,也更有效。

        自動語音識別研究的“神圣目標(biāo)”是讓計算機實時地以100%的準(zhǔn)確度識別任何一個人說的話,并且不受詞匯量、噪音、說話者特征和口音、或者說話渠道的影響。盡管在這一領(lǐng)域的研究已經(jīng)有幾十年了,但大于90%的準(zhǔn)確率只有在某種程度的制約下才能實現(xiàn)。例如對通過使用麥克風(fēng)(小詞匯量,無噪音)的連續(xù)數(shù)字的識別準(zhǔn)確率可以達(dá)到99%以上;如果系統(tǒng)被訓(xùn)練學(xué)習(xí)某個說話者的聲音,那么在可用的商用系統(tǒng)中較大的詞匯也同樣能被處理,只是準(zhǔn)確率會下降到90%~95%;而不同說話者不同渠道的大詞匯量語音識別的準(zhǔn)確率不超過87%,并且處理時間是實時的數(shù)百倍。自動語音識別的性能可能受許多因素的影響,包括技術(shù)設(shè)計、語音輸入的類型和質(zhì)量、周邊環(huán)境和用戶特征等。當(dāng)有更多的數(shù)據(jù)時,自動語音識別系統(tǒng)的性能可以更好,因為這樣統(tǒng)計模型就可以建立在更大的基礎(chǔ)上。Google的自動語音識別系統(tǒng)性能好的原因是它們存儲了每個鍵入或說到Google中的搜索詞,并基于搜索的共性來確定概率。

        自動語音識別的應(yīng)用

        過去十年目睹了語音識別技術(shù)的顯著改善,高性能算法與系統(tǒng)都已可用,使得自動語音識別的應(yīng)用越來越廣泛。IT主流使得采用自動語音識別在全球商業(yè)中變得更為關(guān)鍵,尤其是近年來互聯(lián)網(wǎng)協(xié)議(VoIP)平臺的擴散刺激了企業(yè)對語音識別技術(shù)的采用。以支持應(yīng)用程序開始,語音識別解決方案已經(jīng)演變成滲透包括航空公司、銀行、倉儲、庫存管理和安全券商等多個行業(yè)的核心應(yīng)用程序,并已經(jīng)成為差異化服務(wù)和建立客戶關(guān)系的工具。甚至醫(yī)療中心、醫(yī)院、制藥公司和其他醫(yī)療保健行業(yè)參與者也紛紛采用自助語音解決方案,因為這不僅能降低運營成本,同時也提高了客戶的隱私度。

        消費者對自動語音識別技術(shù)的應(yīng)用程序范圍從基本的依靠語音啟動的報警系統(tǒng)和手機上的語音撥號,到智能手機應(yīng)用中的語音股票報價和基于語音的電子郵件,以及更多的有針對性的解決方案,如互動娛樂和語音身份驗證等。同時,自動語音識別也是汽車導(dǎo)航、遠(yuǎn)程信息處理系統(tǒng)和信息跟蹤等的重要組成部分。隨著對支持語言學(xué)習(xí)的創(chuàng)新應(yīng)用的需求日益增加,使用自動語音識別技術(shù)的計算機輔助語言學(xué)習(xí)(CALL)系統(tǒng)也越來越受關(guān)注。

        語音自動轉(zhuǎn)化為文本 我們都聽過像Apple的Siri一類的可以自動識別我們說什么的系統(tǒng),并想知道我們能否使用這種“自動語音識別”技術(shù)來替代手工轉(zhuǎn)錄口述內(nèi)容的繁瑣過程。

        自動語音識別的一個流行應(yīng)用是語音自動轉(zhuǎn)錄為文本,比如將講話轉(zhuǎn)錄成手機短信、自動數(shù)據(jù)輸入、直接語音輸入和制備結(jié)構(gòu)化文檔等。日本議會的轉(zhuǎn)錄系統(tǒng)就使用了自動語音識別。在這種應(yīng)用下,聲音用電子方式被轉(zhuǎn)換成文本,并創(chuàng)建會議記錄或者報告草稿等。然后會議記錄或者報告草稿被格式化,編輯修正翻譯、標(biāo)點或語法中的錯誤,并且檢查一致性和任何可能的錯誤。在有標(biāo)準(zhǔn)化術(shù)語的領(lǐng)域工作的轉(zhuǎn)錄員——比如放射學(xué)或病理學(xué)領(lǐng)域中——更有可能會遇到語音識別技術(shù)。在醫(yī)療界,醫(yī)療轉(zhuǎn)錄機可以聽醫(yī)生和其他專業(yè)醫(yī)療保健人員的錄音,并把它們轉(zhuǎn)錄到醫(yī)療報告、信件和其他行政材料中。這一應(yīng)用具有提高工作輸出效率并改善訪問和控制各種計算機應(yīng)用的潛力。通過使用語音輸入,自動語音識別應(yīng)用程序繞過或盡量減少傳統(tǒng)的手動輸入方法(例如鍵盤、鼠標(biāo)),因此也使它成為有嚴(yán)重的肢體或神經(jīng)運動障礙人士的一種替代輸入法。

        同聲傳譯 目前同聲傳譯設(shè)備雖然尚未完善,但達(dá)到基本上可用的要求卻是指日可待。2012年夏天,倫敦發(fā)明家Will Powell展示了一個進行英語和西班牙語即時互譯的系統(tǒng)。對話雙方都戴著與手機相連的耳機,而他們佩帶的特制的眼鏡可以像字幕一樣把翻譯的文字顯示出來。這款即時互譯系統(tǒng)在只要有手機信號的地方就能工作,但目前此系統(tǒng)需要耳機、云服務(wù)和筆記本電腦的支持,也就意味著它目前還只能是個設(shè)計原型。

        2012年11月,日本最大的移動電話運營商NTT DoCoMo推出了一項可以將電話中的日語與英語、中文或韓語互譯的服務(wù)。通話的每一方都連續(xù)說話,然后該公司的計算機在幾秒鐘內(nèi)將聽到的內(nèi)容翻譯到所要求的語言,并將結(jié)果視情況適當(dāng)?shù)赜媚新暬蚺曒敵觥?/p>

        在同聲傳譯領(lǐng)域最誘人的成果可能來自Microsoft。2012年10月,當(dāng)該公司的首席研究官Rick Rashid出席天津的一個會議時,他的英語演講現(xiàn)場就被翻譯成了普通話,先是以字幕的形式顯示在大屏幕上,接著以電腦合成的聲音讀出。最引人注目的是,Rashid先生的中文版演講與他的英文版演講具有相同的語氣和音調(diào)。Microsoft認(rèn)為,如果以說話者自己的聲音傳遞譯文,聽眾對錯誤的容忍度會提高,比如Rashid先生演講的即時中文翻譯雖然偶有錯誤,但仍收到熱烈的掌聲。

        自動語音翻譯技術(shù)和智能手機中的應(yīng)用目前可用的視頻和音頻數(shù)據(jù)量正在以指數(shù)級飛速增長,遠(yuǎn)遠(yuǎn)超過了人工翻譯的承受力。當(dāng)人工翻譯不可行時,自動語音翻譯可以發(fā)揮重要的作用,它不僅讓通信成為可能,而且可以幫助從海量的數(shù)據(jù)中找出重要信息。自動語音識別和機器翻譯能讓會議跨越國界和語言地高效舉行。

        不僅是技術(shù)的進步支持自動語音識別的采用,商業(yè)趨勢也如此。在各個行業(yè)中,對最新移動技術(shù)的需求與日俱增。為順應(yīng)這一趨勢,許多語音翻譯技術(shù)都可以裝在智能手機應(yīng)用或平板電腦上使用。

        不可否認(rèn),基于互聯(lián)網(wǎng)的解決方案有巨大的優(yōu)勢,因為當(dāng)人們說話時他們的數(shù)據(jù)可以被收集和分析,而識別準(zhǔn)確率的一個主要因素是訓(xùn)練聲學(xué)模型的數(shù)據(jù)量。越多的人對Google Search和Siri說話,這些系統(tǒng)的性能就會越好。但是如果一個系統(tǒng)只能聯(lián)網(wǎng)使用,那旅行者的使用就會受限。而英國的一家叫Nouvaris的公司于2012年開發(fā)的Nova Search不需要連接到互聯(lián)網(wǎng)就能使用。因此,當(dāng)沒有3G或無線網(wǎng)信號時,你仍然能讓智能手機或計算機通過數(shù)據(jù)庫進行搜索或回答問題。而當(dāng)如果有互聯(lián)網(wǎng)連接時,該技術(shù)可以在幾秒鐘之內(nèi)就從龐大的數(shù)據(jù)庫中完成篩選,到目前為止,它已對高達(dá)2.45億條的列表起作用。由于是在智能手機上而不是互聯(lián)網(wǎng)上解碼語音,Nova Search可以更快速地完成語音指令的數(shù)據(jù)庫搜索。

        Google和Siri基本上是將語音轉(zhuǎn)換為單詞流輸入到網(wǎng)絡(luò)搜索或人工智能口譯員。而Nova Search不同是因為它直接用語音輸入搜索自定義數(shù)據(jù)庫,它會產(chǎn)生拼音符號流,并將其用在一個非??斓囊勋@得專利的搜索技術(shù)中。通過使用以拼音為基礎(chǔ)的方法,該軟件可以一次搜索整個詞組,而不是只搜索個別單詞。雖然該軟件仍然是在搜索互聯(lián)網(wǎng)時最有用,但能在本地使用設(shè)備的語音識別功能仍具有一些關(guān)鍵的優(yōu)勢,因為需要發(fā)送的數(shù)據(jù)大大減少,而且很快,要知道語音是一種非常昂貴的信號發(fā)送。該軟件的應(yīng)用包括對智能手機或電腦說出目的地,然后它會幫你找到公共交通路線等。

        語音識別驗證 在興起的所有類型的生物特征識別應(yīng)用中,基于語音的身份驗證是用戶排斥較小的安全驗證,它是一種非接觸式、非侵入式且易于使用的方法。使用說話人的語音進行驗證可以有許多應(yīng)用。例如,當(dāng)倉庫中員工在工作中走來走去時,可以給他們配備可穿戴/便攜式語音數(shù)據(jù)收集系統(tǒng)使其進入倉庫;可以對因酒后駕車而定罪的罪犯方便地進行遠(yuǎn)程酒精測試。結(jié)合移動定位系統(tǒng),語音驗證還可以用于跟蹤保安人員,以確保他們自己在正常巡邏,而不是讓他們的朋友在幫他們巡邏。另外,語音驗證也可作為多安全系統(tǒng)用來控制過境。比如在Montana州的Scobey,氣溫有時會降至零度以下,于是大多數(shù)其他形式的生物識別技術(shù)不再可行,而語音驗證裝置卻可以照常工作。

        在金融方面,語音驗證也開始有了應(yīng)用。Nuance公司2013年5月的調(diào)查數(shù)據(jù)顯示,有85%的人對當(dāng)前的身份驗證方法不滿,因為要登錄到銀行帳戶、旅行網(wǎng)站或其他個人帳戶時,必須要記住許多個人識別碼、密碼、安全問題及其答案;數(shù)據(jù)還顯示,如果能有相同高的安全級別的話,90%的人希望能使用語音識別解決方案來代替?zhèn)鹘y(tǒng)的身份驗證方法,因為語音識別技術(shù)可以通過每個人獨特的聲音來標(biāo)識他,從而消除了要記住和鍵入密碼、個人識別碼的麻煩,讓身份驗證過程變得快速而簡單。

        2013年5月,Barclays財富投資管理部署了Nuance的Free Speech語音識別方案,成為第一家在呼叫中心將被動的語音識別技術(shù)部署為主要客戶驗證手段的金融服務(wù)公司。自推出以來,超過84%的Barclays客戶已在Nuance語音生物識別技術(shù)解決方案中注冊,其中有95%的人第一次使用時就成功驗證了身份。更妙的是,客戶與聯(lián)系中心的經(jīng)驗反饋也有所改進,93%的客戶對新的身份驗證系統(tǒng)就速度、易用性和安全性的評分至少為90分。Nuance的語音生物識別技術(shù)讓象Barclays銀行這樣的組織通過更直觀、更透明的認(rèn)證方式重新定義它們的客戶服務(wù)經(jīng)驗,減輕了客戶和服務(wù)代理的負(fù)擔(dān)。

        汽車上的應(yīng)用 技術(shù)的發(fā)展一日千里,這極大影響了現(xiàn)代汽車中的駕駛員界面。先進的駕駛員輔助系統(tǒng)、自動泊車制動系統(tǒng)和無鑰匙點火等創(chuàng)新從根本上改變了駕駛員界面的構(gòu)成。這些新的舒適性、信息和娛樂系統(tǒng)要求駕駛員處置大量的按鈕、旋鈕和屏幕,并且這一需求還在不斷增加。移動智能手機和平板電腦也被越來越多地納入汽車中,以滿足駕駛員在行車中對連接和新服務(wù)的需求。對駕駛員來說,這顯然帶來了駕駛干擾和信息超載的風(fēng)險,尤其是這些主要車輛控制還只是冰山一角。而最有前景的解決方案似乎是語音控制,并且這早已是汽車行業(yè)的愿望。2013年現(xiàn)代的下一代汽車將有自然語言的語音啟動電話撥號、消息聽寫、目的地輸入等,并能在車內(nèi)或在線音樂服務(wù)中搜索音樂。然而需要認(rèn)識到的是,即使有語音控制,駕駛員分神的風(fēng)險依然存在。

        自動語音識別的其他應(yīng)用 移動廣告是數(shù)字廣告中增長最快的領(lǐng)域之一。根據(jù)eMarketer的數(shù)據(jù),2012年全球移動廣告支出達(dá)84.1億美元,是2011年的40億美元的兩倍以上,并且預(yù)計到2013年達(dá)到近370億美元。作為創(chuàng)新性的新的移動廣告格式,語音廣告是游戲規(guī)則改變者,它可以讓人們與他們喜歡的品牌有動人有趣的雙向?qū)υ?,品牌可以通過讓消費者在廣告中暢所欲言而令其對品牌產(chǎn)生持久的印象。在以前,從來沒有一個品牌能夠有超過10億用戶的個人對話,而這正是品牌一直渴求的與公眾的親密關(guān)系。目前Nuance VoiceAds已經(jīng)完全可以做到這一點。

        2013年,松下新的高清智能電視SMARTVIERA采用Nuance配備的Dragon TV系統(tǒng),人們可以坐著通過語音來查找內(nèi)容、搜索網(wǎng)頁、控制音量等, 創(chuàng)造了更多的互動和智能電視體驗。

        另一個更為有趣的應(yīng)用發(fā)生在俄羅斯,該國最大的零售銀行聯(lián)邦儲蓄銀行(Sber bank)開發(fā)了一種使用語音識別來測謊的自動提款機。該機器通過將客戶對一些問題的反應(yīng)與一個記錄審訊中說謊人的數(shù)據(jù)庫比較,從而確定客戶是否說謊。

        自動語音識別的未來

        除了從事自動語音識別的研究和開發(fā)的科學(xué)家和技術(shù)人員,大多數(shù)人考慮自動語音識別時低估了它的復(fù)雜性。它不僅是自動的文本到語音,復(fù)雜的識別任務(wù)的一個必要條件是自動語音識別需要有大的數(shù)據(jù)容量和存儲器的快速計算機,并且需要語音科學(xué)家、語言學(xué)家、計算機科學(xué)家、數(shù)學(xué)家和工程師的參與。這些參與者應(yīng)用神經(jīng)網(wǎng)絡(luò)、心理聲學(xué)、語言學(xué)、言語感知、人工智能、聲學(xué)語音學(xué)等領(lǐng)域的知識,為實現(xiàn)人類和機器之間的自然會話這一最終目標(biāo)共同努力。

        過去三十多年來,語音識別研究的特點是小改進的穩(wěn)步積累。由于語音識別性能的提高和更快計算機的可用,商業(yè)研究和其他學(xué)術(shù)研究繼續(xù)把重點放在日益難以解決的問題上。其中一個關(guān)鍵領(lǐng)域是提高語音識別性能的強健耐用性,這不僅是指抗噪音方面,也包括在所有可能導(dǎo)致性能大幅下降的情況下的強健耐用性。另一個關(guān)鍵領(lǐng)域關(guān)注的是一個機會,而不是一個問題,因為這項研究嘗試?yán)迷S多應(yīng)用中的大量高達(dá)數(shù)百萬小時的可用語音數(shù)據(jù)。如果靠人來把這些語音轉(zhuǎn)錄成文本,成本相當(dāng)高昂,因此研究關(guān)注的是開發(fā)一種新的機器學(xué)習(xí)的方法,使之能有效地利用大量未標(biāo)記的數(shù)據(jù)。還有一個研究領(lǐng)域是更好地理解人的能力,并使用這種理解來提高機器識別性能。

        自動語音識別產(chǎn)品將會不斷完善,并被更多地使用。雖然在鍵盤上打字相對容易,但很難有人可以像說話一樣快速準(zhǔn)確地鍵入文字。基于我們生活的現(xiàn)代世界里時間是最重要的這一事實,自動語音識別將幫助人類提高生產(chǎn)力,讓我們能夠更容易更迅速地運行搜索查詢、撰寫重要文檔和管理我們的日常生活。此外,企業(yè)還將能在沒有互聯(lián)網(wǎng)連接時隨時使用相應(yīng)的應(yīng)用程序,而目前在旅行時這些應(yīng)用并不總是可用的。

        下一代的移動語音翻譯應(yīng)用將會針對特定的行業(yè)量身定制,這種特定的環(huán)境或目的假定可以提高準(zhǔn)確性。1993年,自動語音識別系統(tǒng)的準(zhǔn)確率只有10%,到1995年大概為48%,而2001年系統(tǒng)的準(zhǔn)確率可達(dá)80%以上?;谧詣诱Z音識別系統(tǒng)準(zhǔn)確性的不斷提高,加之人類自身聽語音演講時準(zhǔn)確率可達(dá)96%這一事實,相信在不久的將來,語音識別設(shè)備就能以比我們自己還要高的準(zhǔn)確度來抄寫我們的語言。

        猜你喜歡
        系統(tǒng)
        Smartflower POP 一體式光伏系統(tǒng)
        WJ-700無人機系統(tǒng)
        ZC系列無人機遙感系統(tǒng)
        北京測繪(2020年12期)2020-12-29 01:33:58
        基于PowerPC+FPGA顯示系統(tǒng)
        基于UG的發(fā)射箱自動化虛擬裝配系統(tǒng)開發(fā)
        半沸制皂系統(tǒng)(下)
        FAO系統(tǒng)特有功能分析及互聯(lián)互通探討
        連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
        一德系統(tǒng) 德行天下
        PLC在多段調(diào)速系統(tǒng)中的應(yīng)用
        老妇高潮潮喷到猛进猛出| 免费国产自拍视频在线观看| 国产成人国产在线观看入口| 中文字幕第一页亚洲| 亚洲VA中文字幕无码毛片春药 | 亚洲国产高清在线一区二区三区 | 亚洲国产成人久久三区| 国产午夜福利100集发布| 最新国产乱人伦偷精品免费网站| 色偷偷88888欧美精品久久久| 亚洲中文字幕久久精品蜜桃 | 插插射啊爱视频日a级| 国内精品久久久久伊人av| 亚洲精品国产av天美传媒| 成人亚洲性情网站www在线观看| 久久婷婷是五月综合色狠狠 | 国产激情一区二区三区| 欧美丰满熟妇xxxx性| 波多野结衣一区二区三区高清| 精品一级毛片| 国产视频嗯啊啊啊| av免费在线观看在线观看| 中国一级特黄真人片久久| 亚洲色www成人永久网址| 精品国产三级a在线观看| 久久一区av蜜桃人妻| 久久中文字幕av一区二区不卡| 日本免费一区二区三区在线播放| 久久久久高潮综合影院| 国产va免费精品高清在线观看| 亚洲av无码专区在线电影| 久久这里有精品国产电影网| 国产高清在线精品一区二区三区| 少妇激情一区二区三区99| 夜夜春亚洲嫩草影院| 国产成人亚洲精品无码mp4| 欧美乱妇日本无乱码特黄大片| 午夜无码片在线观看影院y | 国产精品青草久久久久婷婷| 亚洲最新中文字幕一区| 草青青在线视频免费观看|