亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

語音識別預處理過程及其存在問題

2019-05-10 03:32:00付學桐

科技傳播 2019年8期

付學桐

摘要隨著人工智能和網(wǎng)絡自動化工程的不斷發(fā)展，人機交互模型發(fā)生了天翻地覆的變化，傳統(tǒng)的文字交互模式已被各種新型交互技術所取代，其中語音識別就是最為典型高效的一種。語音識別可以有效地將人類語音轉(zhuǎn)化為文字并識別，目前已廣泛地應用于文字輸入等多個領域，在語音識別的整個流程中，預處理階段決定了其識別成功率和效率。文章從語音識別的過程講起，詳細分析了語音識別預處理過程，并對其未來發(fā)展進行了展望。

關鍵詞語音識別；預處理；端點檢測；采樣定理

中圖分類號 G2 文獻標識碼 A 文章編號 1674-6708（2019）233-0135-02

隨著當今人工智能的迅速發(fā)展，語音識別技術取得了較大的突破，在商業(yè)、軍事、民用等方面語音識別都得到了廣泛的運用。目前國內(nèi)外已有許多對語音識別領域的研究和產(chǎn)品，如蘋果手機的Siri，微軟的Cortana，百度的智能音箱，科大訊飛的訊飛語音輸入等產(chǎn)品。語音識別之所以得到空前重視，從根本上說，也就是源于語音識別所帶來的簡便性。在人工智能中，尤其重要的一點就是要讓機器人知道人類要做什么，所以務必要將人的指令轉(zhuǎn)化為計算機可以識別的代碼數(shù)字，常見的方式有圖像、動作、語音轉(zhuǎn)換等。而語言就是最直接最簡單的轉(zhuǎn)換方式，但在其識別系統(tǒng)中，一般要將其在理想環(huán)境下訓練成運用于復雜含噪環(huán)境中的語音識別系統(tǒng)。語音識別預處理過程是整個語音識別處理過程的前端環(huán)節(jié)，負責將復雜無規(guī)律的語音信號轉(zhuǎn)化為可供計算機識別的數(shù)字信息，對提高語音識別效率和成功率起著決定性作用。

1 語音識別技術概述

語音識別屬于新興技術，目前尚未有一種嚴格規(guī)范化的定義，通常被認為是一種將人類語音信息通過軟硬件轉(zhuǎn)化為文本信息的計算機技術，由于其的特殊屬性，也有科學家將其歸類為自動化技術。語音識別的技術體系復雜，主要包括基礎的發(fā)聲機理、聲波傳播、信號學，高級的模式識別和人工智能理論，數(shù)學上的概率論和數(shù)理統(tǒng)計也有所涉及。語音識別的整個過程基本可以歸納成以下的步驟：輸入—接收語音—預處理—特征提取—對比—翻譯—輸出。

簡單地說語音識別第一步就是將接受到的語音信息進行一定的處理，將其切成一小段一小段的語音片段，再通過波形轉(zhuǎn)換，將每一小段語音變成一個多維向量，再將其向量與自身數(shù)據(jù)庫中的進行對比，選出概念大的向量，轉(zhuǎn)化成數(shù)據(jù)庫中所對應的狀態(tài)號，最終將各個詞匯拼接從而得到語音識別的結果。在特征提取之前，有一項極為重要的流程——預處理。預處理是語音識別過程的前端，所以也叫做前端處理，其目的是通過對原始語音信號的處理，使其更好地被轉(zhuǎn)化為特定的數(shù)字量，以便進行特征識別，提高語音識別的成功率和效率。如果語音識別中不做前端處理，則計算機就無法判斷該音頻從何開始，又從何結束，同時大量的噪音也大大降低的音頻的準確度。所以即使系統(tǒng)已收集可以比對的大量數(shù)據(jù)，可接收的語言無法轉(zhuǎn)化正確的狀態(tài)號，一切都無法達到相應的指令?？梢哉f語音識別的預處理就相當于系統(tǒng)的眼睛，所以預處理在整個過程中極其重要[ 1 ]。

2 預處理方法及其技術

預處理的常用方法有端點檢測、聲道轉(zhuǎn)換、預加重、去加重、分帖、加窗、重采樣等，不同的語音識別在預處理順序上有一定差別。

2.1 端點檢測

對語音信號進行時域分析，可以明顯地辨別出原始語音信息包含有聲段、無聲段和濁音段，端點檢測則是通過區(qū)分以上不同段的信號來達到區(qū)劃語音的開頭與結尾，端點檢測的唯一目的就是找到語音信號的起始點與結束點。端點檢測最常用的方法就是雙門眼檢測法。雙門眼檢測法是通過計算門限能量的方式來判斷語音端點的技術，一般會在語音識別之前設置雙門的門限λ，然后分別計算每個時刻的語音能量，若該能量大于門限閾值，則新生成門限序列為1，反之則為0，從而得到門限序列后，將其點乘原始語音序列，得到有效語音序列。語音能量的計算公式為：

2.2 預加重與去加重

在實際應用過程中，語音信息往往夾雜著環(huán)境中的各種其他聲音信息，由于人類發(fā)音的特性，語音信息經(jīng)過頻率轉(zhuǎn)換后往往大部分集中于低頻帶，從而使得低頻能量過大，高頻能量過低，計算機難以有效提取高頻語音信息。為了抵消掉這種情況，預處理階段使用預加重技術，在語音信息的處理階段預先添加與原始語音高頻信號，通過疊加之后，原始語音信息在高頻和低頻段的能量相當，使得識別效率明顯提升。而在語音識別系統(tǒng)的輸出端，則需要做相反的處理，也就是去加重，采用相反的負能量信號將添加的高頻成分去掉，從而還原原來的信號分布，有效提高聲音信號的信噪比[2]。

2.3 分幀與加窗

分幀從簡單來說，一段信號整體是不穩(wěn)定的，但從局部來看，信號是穩(wěn)定的，所以要想接收端接收平穩(wěn)的信號，就需對整段語音進行分幀，也就是切成幾段。但是需要注意的是，根據(jù)香農(nóng)定理（Shannons Theorem），分幀越多地聲音片段，其開始段和結束段會存在聲音不連續(xù)的現(xiàn)象，導致了分幀的幀長越短，信號的誤差就越大。為了解決此問題，語言學家提出了利用帶通濾波器來過濾的方法，也就是加窗。常見的三種窗函數(shù)是矩形窗、漢明窗和漢寧窗，其數(shù)學公式如下。

實際系統(tǒng)中，語音信號處理一般加漢明窗，就可以滿足絕大多數(shù)種語音情況。語音識別的加窗類型受到許多因素的影響，包括不同說話人的發(fā)音方式、說話方式、環(huán)境噪音、傳輸信道衰落等，實際應用時需要根據(jù)不同的情況選擇窗。

2.4 重采樣

根據(jù)信號學中的奈奎斯特采樣定理（Nyquists Theorem），再信號采集時，如果采樣頻率滿足采樣頻率大于2倍最高頻率時，經(jīng)過采樣后的信息可以原本保持的所有特征信息。根據(jù)這一定理，語音識別系統(tǒng)中通常采用重采樣技術，也就是限定采樣器的采樣頻率為最高頻率的5～8倍。根據(jù)人類語音信號50Hz～6kHz的頻率范圍，可以得出重采樣器的采樣頻率為約16kHz左右，重采樣可以保證語音中的所有信息均被送至特征識別環(huán)節(jié)中[ 3 ]。

3 語音識別預處理缺陷及其解決方案

語音識別的局限性主要在語音源的多樣性，據(jù)相關資料顯示，全世界當前一共有超過1 000種語言，而其中常規(guī)語言也就多達數(shù)十種，語言識別對于各種語言的適配是一項長期的過程。同時，類似于中文中的四川話、廣東話、上海話，各種大型語言中都有其特定的方言，且使用頻次很高，這些方言在語言詞匯和字符發(fā)音上都和傳統(tǒng)的語言不同，訓練語音識別系統(tǒng)適配方言也是亟待解決的問題。當語音信號在傳播過程中有所衰減，為了在保留細節(jié)的情況下還原聲波，人為可以利用前置聲音放大器的方式解決。在回聲消除和空間降噪方面，筆者認為可以利用多麥克風采樣技術作為解決方案。區(qū)別于一般的單一麥克風采集技術，多麥克風技術搭配多通道采樣技術，分別將人聲的高、中、低頻波段分別采集，同時將不同時間到達的聲音區(qū)分開來，在已知噪聲特性的情況下，可以有效降噪，提高人聲的辨識度[ 4 ]。

當前語音識別的發(fā)展問題主要存在于兩種：一是反復說話識別，頓挫識別。往往生活中由于某些人的語言習慣，可能會出現(xiàn)反復出現(xiàn)某個詞語，或說話結結巴巴。針對這一問題，就要加強端點檢測的端點的選取，正確選取語音的頭尾，去除話語中間隔的空隙，使一段斷斷續(xù)續(xù)的話變成一段聯(lián)結的話。同時在處理中，可對某些重復出現(xiàn)的詞語進行適當?shù)膭h減，增加識別的速率。二是自然語言處理和字典的擴充。由于語音識別運用時的外界環(huán)境的復雜性，可能會出現(xiàn)方言，別的語種類型的語言。而解決的首要之舉就是增加數(shù)據(jù)庫中的數(shù)據(jù)，從而擴充字典，達到有效的預處理[5]。

參考文獻

[1]陳慧，芮賢義.基于VC++的汽車語音駕駛助手的設計與實現(xiàn)[J].電聲技術，2016，40（8）：36-39.

[2]鐘浩，鮑鴻，張晶.一種改進的語音動態(tài)組合特征參數(shù)提取方法[J].電腦與信息技術，2017，25（3）：4-7.

[3]陸振宇，何玨杉，趙為漢.關于多通道語音去噪的識別優(yōu)化研究[J].計算機仿真，2016，33（6）：315-320.

[4]胡郁.人工智能與語音識別技術[J].電子產(chǎn)品世界，2016，23（4）：23-25.

[5]張曉丹，黃麗霞，張雪英.關于在噪聲環(huán)境下語音識別優(yōu)化研究[J].計算機仿真，2016，33（8）：172-176.