亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        語音識別技術(shù)的探究

        2017-05-27 14:47:55劉雨燃
        中國科技縱橫 2016年24期
        關(guān)鍵詞:人工智能

        劉雨燃

        【摘 要】隨著現(xiàn)代科學(xué)技術(shù)的發(fā)展,語音識別技術(shù)廣泛運(yùn)用于人們?nèi)粘I畹姆椒矫婷?,為機(jī)器與人的交互提供了新的形式。本文將探究傳統(tǒng)語言識別技術(shù)的發(fā)展,介紹經(jīng)典語音識別技術(shù)的發(fā)展歷程,描述典型語言識別框架的組成模塊,以及展望語音識別技術(shù)的未來發(fā)展趨勢。近年來,由于機(jī)器學(xué)習(xí),特別是深度神經(jīng)網(wǎng)絡(luò)的發(fā)展,語言識別的準(zhǔn)確率和實(shí)用性得到了大幅度提升。

        【關(guān)鍵詞】語音識別 語言模型 聲學(xué)模型 人工智能

        使用智能手機(jī)的朋友們都會對語音助手產(chǎn)生極大的興趣,不管是微軟的Cortana,還是蘋果的Siri,都是將語音識別融入現(xiàn)代技術(shù)的典范。語音識別是解決機(jī)器“聽懂”人類語言的一項(xiàng)技術(shù),也是人工智能重要部分。

        語音識別技術(shù)(speech recognition),也被稱為自動語音識別 (ASR),其目標(biāo)是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,例如按鍵、二進(jìn)制編碼或者字符序列。與說話人識別及說話人確認(rèn)不同,后者嘗試識別或確認(rèn)發(fā)出語音的說話人而前者的目標(biāo)是語音中所包含的詞匯內(nèi)容。

        探究語音識別技術(shù)的框架、應(yīng)用與發(fā)展有利于全面了解語音識別。本文將從語音識別簡介、主流語言識別框架以及語言識別近年來的發(fā)展三個方面探究語音識別。

        1 語音識別簡介

        1.1 傳統(tǒng)語言識別技術(shù)發(fā)展

        對語音識別技術(shù)的研究可以追述到上世紀(jì)五十年代,1952年貝爾研究所Davis等人研究成功了世界上第一個能識別10個英文數(shù)字發(fā)音的實(shí)驗(yàn)系統(tǒng),開創(chuàng)了語音識別的先河。上世紀(jì)六十年代,人工神經(jīng)網(wǎng)絡(luò)被引入了語音識別。上世紀(jì)七十年代以后,大規(guī)模的語音識別在小詞匯量、孤立詞的識別方面取得了實(shí)質(zhì)性的進(jìn)展。傳統(tǒng)語音識別技術(shù)最大突破是隱式馬爾可夫模型的應(yīng)用,這一模型極大提高了語音識別的準(zhǔn)確率[1]。

        1.2 語言識別的應(yīng)用

        作為智能計(jì)算機(jī)研究的主導(dǎo)方向和人機(jī)語音通信的關(guān)鍵技術(shù),語音識別一直受到各國科學(xué)界的廣泛關(guān)注。如今,隨著語音識別技術(shù)的研究的突破,其對計(jì)算機(jī)發(fā)展和社會生活的重要性日益凸現(xiàn)出來。在現(xiàn)實(shí)生活中,語音識別技術(shù)的應(yīng)用相當(dāng)廣泛,它改變了人與計(jì)算機(jī)交互的方式,使計(jì)算機(jī)更加智能。和鍵盤輸入相比,語音識別更符合人的日常習(xí)慣;使用語言控制系統(tǒng),相比手動控制,語音識別更加方便快捷,可以用在工業(yè)控制、智能家電等設(shè)備;通過智能對話查詢系統(tǒng),企業(yè)可以根據(jù)用戶的語音進(jìn)行操作,為用戶提供自然、友好的數(shù)據(jù)檢索服務(wù)。

        2 語音識別框架

        目前主流的語音識別框架可以分為以下幾個模塊:信號處理,特征提取,聲學(xué)模型,語言模型,解碼器。

        2.1 信號處理

        信號處理模塊是對語音文件進(jìn)行預(yù)處理。聲音是一種縱波,在識別語音時,輸入為WMV,MP3等格式的文件會被轉(zhuǎn)換成非壓縮的純波文件wav格式。然后在進(jìn)行語音識別前,需要檢測該文件中的語音信號,該技術(shù)被稱之為語音活性檢測[2]。使用語言活性檢測技術(shù)可以有效降低噪音,去除非語音片段,提高語音識別的準(zhǔn)確率。經(jīng)典的語音活性檢測算法由如下步驟組成:

        (1)使用spectral subtraction等方法對語言序列進(jìn)行降噪。(2)將輸入信號的分成區(qū)塊并提取特征。(3)設(shè)計(jì)分類器判斷該區(qū)塊是否為語音信號。

        2.2 特征提取

        特征提取目的是提取出語音文件的特征,以一定的數(shù)學(xué)方式表達(dá),從而可以參與到后續(xù)模塊處理中。在這一模塊,首先要將連續(xù)的聲音分成離散的幀。每一幀的時間既要足夠長,使得我們能夠判斷它屬于哪個聲韻母的信息,若過短則包含信息過少;每一幀時間也要盡量短,語音信號需要足夠平穩(wěn),能夠通過短時傅里葉分析進(jìn)行特征提取,過長則會使信號不夠平穩(wěn)。分幀時使用如下改進(jìn)技術(shù)可以有效提高識別準(zhǔn)確率:相鄰的兩幀有所重疊減少分割誤差,將與臨近幀之間的差分作為額外特征,將多個語音幀堆疊起來。通過分幀處理,連續(xù)的語音被分為離散的小段,但還缺乏數(shù)學(xué)上的描述能力,因此需要對波形作特征提取。常見的方法是根據(jù)人耳的生理特征,把每一幀波形變換成一個多維向量。因此,這些向量包含了這些語音的內(nèi)容信息。該過程被稱為聲學(xué)特征提取,常見的聲學(xué)特征有MFCC、CPE、LPC等。

        MFCC是目前最常用、最基本的聲學(xué)特征,提取MFCC特征可以分為如下四個步驟:首先對每一幀進(jìn)行傅里葉變換,取得每一幀的頻譜。再把頻譜與圖1中每個三角形相乘并積分,求出頻譜在每一個三角形下的能量,這樣處理可以減少數(shù)據(jù)量,并模仿人耳在低頻處分辨率高的特性。然后取上一步得到結(jié)果的對數(shù),這可以放大低能量處的能量差異。最后對得到的對數(shù)進(jìn)行離散余弦變換,并保留前12~20個點(diǎn)進(jìn)一步壓縮數(shù)據(jù)。通過特征提取,聲音序列就被轉(zhuǎn)換為有特征向量組成的矩陣。

        2.3 聲學(xué)模型

        聲學(xué)模型是語音識別中最重要的組成部分之一,其用于語音到音節(jié)概率的計(jì)算。目前主流的方法多數(shù)采用隱馬爾科夫模型,隱馬爾可夫模型的概念是一個離散時域有限狀態(tài)自動機(jī)。

        隱馬爾可夫模型HMM如圖2所示,是指這一馬爾可夫模型的內(nèi)部狀態(tài)x1,x2,x3外界不可見,外界只能看到各個時刻的輸出值y1,y2,y3。對語音識別系統(tǒng),輸出值通常就是從各個幀計(jì)算而得的聲學(xué)特征,輸入是由特征提取模塊提取的特征。用HMM刻畫語音信號需作出兩個假設(shè),一是內(nèi)部狀態(tài)的轉(zhuǎn)移只與上一狀態(tài)有關(guān),另一是輸出值Y只與當(dāng)前狀態(tài)X(或當(dāng)前的狀態(tài)轉(zhuǎn)移)有關(guān),這兩個假設(shè)大大降低了模型的復(fù)雜度。HMM的打分、解碼和訓(xùn)練相應(yīng)的算法是前向算法、維特比算法和前向后向算法。

        早期的聲學(xué)模型使用矢量量化(Vector Quantification)的方法,使其性能受到VQ算法的極大影響。對于連續(xù)取值的特征應(yīng)當(dāng)采用連續(xù)的概率分布如高斯混合模型或混合拉普拉斯模型等。為了解決模型參數(shù)過多的問題,可以使用某些聚類方法來減小模型中的參數(shù)數(shù)量,提高模型的可訓(xùn)練性。聚類可以在模型層次,狀態(tài)層次乃至混合高斯模型中每個混合的層次進(jìn)行。

        2.4 語言模型

        語言模型音節(jié)到字概率的計(jì)算。 語言模型主要分為規(guī)則模型和統(tǒng)計(jì)模型兩種。相比于統(tǒng)計(jì)模型,規(guī)則模型魯棒性較差,對非本質(zhì)錯誤過于嚴(yán)苛,泛化能力較差,研究強(qiáng)度更大。因此主流語音識別技術(shù)多采用統(tǒng)計(jì)模型。統(tǒng)計(jì)模型采用概率統(tǒng)計(jì)的方法來揭示語言單位內(nèi)在的統(tǒng)計(jì)規(guī)律,其中N-Gram簡單有效,被廣泛使用。

        N-Gram基于如下假設(shè):第N個詞的出現(xiàn)只與前面N-1個詞相關(guān),而與其它任何詞都不相關(guān),整句的概率即為各個詞出現(xiàn)概率的乘積。詞與詞之間的概率可以直接從語料中統(tǒng)計(jì)N個詞同時出現(xiàn)的次數(shù)得到??紤]計(jì)算量和效果之間的平衡,N取值一般較小,常用的是二元的Bi-Gram和三元的Tri-Gram。

        2.5 解碼器

        解碼器是語音識別系統(tǒng)的核心之一,其任務(wù)是對輸入信號,根據(jù)聲學(xué)、語言模型及詞典,尋找能夠以最大概率輸出該信號的詞串。在實(shí)踐中較多采用維特比算法[3]搜索根據(jù)聲學(xué)、語言模型得出的最優(yōu)詞串。

        基于動態(tài)規(guī)劃的維特比算法在每個時間點(diǎn)上的各個狀態(tài),計(jì)算解碼狀態(tài)序列對觀察序列的后驗(yàn)概率,保留概率最大的路徑,并在每個節(jié)點(diǎn)記錄下相應(yīng)的狀態(tài)信息以便最后反向獲取詞解碼序列。維特比算法在不喪失最優(yōu)解的條件下,同時解決了連續(xù)語音識別中HMM模型狀態(tài)序列與聲學(xué)觀察序列的非線性時間對準(zhǔn)、詞邊界檢測和詞的識別,從而使這一算法成為語音識別搜索的基本策略。

        維特比(Viterbi)算法的時齊特性使得同一時刻的各條路徑對應(yīng)于同樣的觀察序列,因而具有可比性,Beam搜索在每一時刻只保留概率最大的前若干條路徑,大幅度的剪枝提高了搜索的效率。Viterbi-Beam算法是當(dāng)前語音識別搜索中最有效的算法。

        3 語音識別技術(shù)的發(fā)展

        近幾年來,特別是2009年以來,借助機(jī)器學(xué)習(xí)領(lǐng)域深度學(xué)習(xí)研究的發(fā)展,以及大數(shù)據(jù)語料的積累,語音識別技術(shù)得到突飛猛進(jìn)的發(fā)展。

        在模型方面,傳統(tǒng)語音識別模型逐步被神經(jīng)網(wǎng)絡(luò)替代,使用神經(jīng)網(wǎng)絡(luò)可以更好地提取特征,擬合曲線。使用人工神經(jīng)網(wǎng)絡(luò)來提高語音識別性能的概念最早在80年代就提出了,但當(dāng)時高斯混合模型在大詞匯語音識別上表現(xiàn)得更好,因此人工神經(jīng)網(wǎng)絡(luò)并沒有進(jìn)行商業(yè)應(yīng)用。隨著相關(guān)技術(shù)的進(jìn)一步發(fā)展,微軟研究院利用深度神經(jīng)網(wǎng)絡(luò)建立了數(shù)千個音素的模型,比傳統(tǒng)方法減少了16%的相對誤差。其在建立起有超過660萬神經(jīng)聯(lián)系的網(wǎng)絡(luò)后,將總的語音識別錯誤率降低了30%,實(shí)現(xiàn)了語音識別巨大的突破[4]。

        同時目前多數(shù)主流語言識別解碼器采用了基于有限狀態(tài)機(jī)的解碼網(wǎng)絡(luò),該網(wǎng)絡(luò)將語音模型、詞典、聲學(xué)共享音字集統(tǒng)一為大的解碼網(wǎng)絡(luò),大幅度提高了解碼速度。

        在數(shù)據(jù)量上,由于移動互聯(lián)網(wǎng)的急速發(fā)展,從多個渠道獲取的海量語言原料為聲學(xué)模型和語言模型的訓(xùn)練提供了豐富的資源,不斷提升語音識別的準(zhǔn)確率。

        4 結(jié)語

        語音是人們工作生活中最自然的交流媒介,所以語音識別技術(shù)在人機(jī)交互中成為非常重要的方式,語音識別技術(shù)具有非常廣泛的應(yīng)用領(lǐng)域和非常廣闊的市場前景。而隨著深度神經(jīng)網(wǎng)絡(luò)發(fā)展,硬件計(jì)算能力的提高,以及海量數(shù)據(jù)積累,語音識別系統(tǒng)的準(zhǔn)確率和實(shí)用性將得到持續(xù)提高。

        參考文獻(xiàn):

        [1]維基百科編者.語音識別[G/OL].維基百科,2016(20160829)[2016-08-29].

        [2]維基百科編者.語音活性檢測[G/OL].維基百科,2016(20160629)[2016-06-29].

        [3]維基百科編者.維特比算法[G/OL].維基百科,2016(20160920)[2016-09-20].

        [4] Dahl G E, Yu D, Deng L, et al. Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2012, 20(1):30-42.

        [5]王炳錫,屈丹,彭煊.實(shí)用語音識別基礎(chǔ)[M].北京:國防工業(yè)出版社,2005.

        [6]詹新明,黃南山,楊燦.語音識別技術(shù)研究進(jìn)展[J].現(xiàn)代計(jì)算機(jī):下半月版,2008(9):43-45.

        猜你喜歡
        人工智能
        我校新增“人工智能”本科專業(yè)
        用“小AI”解決人工智能的“大”煩惱
        汽車零部件(2020年3期)2020-03-27 05:30:20
        當(dāng)人工智能遇見再制造
        2019:人工智能
        商界(2019年12期)2019-01-03 06:59:05
        AI人工智能解疑答問
        人工智能與就業(yè)
        基于人工智能的電力系統(tǒng)自動化控制
        人工智能,來了
        數(shù)讀人工智能
        小康(2017年16期)2017-06-07 09:00:59
        人工智能來了
        国产一级淫片免费播放电影| 又色又爽又高潮免费视频国产| 精产国品一二三产品蜜桃| 狠狠色狠狠色综合日日92| 日韩人妻系列在线视频| 亚洲国产精品中文字幕久久| 三年片免费观看大全有| 双腿张开被9个黑人调教影片| 欧美性受xxxx狂喷水| av在线播放亚洲天堂| 人人人妻人人澡人人爽欧美一区| 乱码午夜-极国产极内射| 欧美成人网视频| 久久久国产精品黄毛片| 北条麻妃国产九九九精品视频 | 国产精品v欧美精品v日韩精品| 久久se精品一区精品二区国产| 日韩女同一区二区三区久久| 99久久免费视频色老| 国语自产偷拍精品视频偷| 日韩精品欧美激情亚洲综合| 麻豆成年人视频在线观看| 亚洲av一二三区成人影片| 欧美巨大xxxx做受l| 高潮社区51视频在线观看| 国产激情在线观看免费视频| 一二三四日本中文在线| 人妻无码一区二区| 少妇人妻偷人中文字幕| 国产自国产自愉自愉免费24区 | 91av手机在线观看| 一区二区三区精彩视频在线观看| 一二三四五区av蜜桃| 97夜夜澡人人爽人人喊中国片| 国产精品98视频全部国产| 精品亚洲一区中文字幕精品| 亚洲乱亚洲乱妇50p| 亚洲综合欧美在线| 日韩精品自拍一区二区| 特级做a爰片毛片免费看| 草草网站影院白丝内射|