亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        語音識別預處理過程及其存在問題

        2019-05-10 03:32:00付學桐
        科技傳播 2019年8期
        關鍵詞:語音識別預處理

        付學桐

        摘 要 隨著人工智能和網(wǎng)絡自動化工程的不斷發(fā)展,人機交互模型發(fā)生了天翻地覆的變化,傳統(tǒng)的文字交互模式已被各種新型交互技術所取代,其中語音識別就是最為典型高效的一種。語音識別可以有效地將人類語音轉(zhuǎn)化為文字并識別,目前已廣泛地應用于文字輸入等多個領域,在語音識別的整個流程中,預處理階段決定了其識別成功率和效率。文章從語音識別的過程講起,詳細分析了語音識別預處理過程,并對其未來發(fā)展進行了展望。

        關鍵詞 語音識別;預處理;端點檢測;采樣定理

        中圖分類號 G2 文獻標識碼 A 文章編號 1674-6708(2019)233-0135-02

        隨著當今人工智能的迅速發(fā)展,語音識別技術取得了較大的突破,在商業(yè)、軍事、民用等方面語音識別都得到了廣泛的運用。目前國內(nèi)外已有許多對語音識別領域的研究和產(chǎn)品,如蘋果手機的Siri,微軟的Cortana,百度的智能音箱,科大訊飛的訊飛語音輸入等產(chǎn)品。語音識別之所以得到空前重視,從根本上說,也就是源于語音識別所帶來的簡便性。在人工智能中,尤其重要的一點就是要讓機器人知道人類要做什么,所以務必要將人的指令轉(zhuǎn)化為計算機可以識別的代碼數(shù)字,常見的方式有圖像、動作、語音轉(zhuǎn)換等。而語言就是最直接最簡單的轉(zhuǎn)換方式,但在其識別系統(tǒng)中,一般要將其在理想環(huán)境下訓練成運用于復雜含噪環(huán)境中的語音識別系統(tǒng)。語音識別預處理過程是整個語音識別處理過程的前端環(huán)節(jié),負責將復雜無規(guī)律的語音信號轉(zhuǎn)化為可供計算機識別的數(shù)字信息,對提高語音識別效率和成功率起著決定性作用。

        1 語音識別技術概述

        語音識別屬于新興技術,目前尚未有一種嚴格規(guī)范化的定義,通常被認為是一種將人類語音信息通過軟硬件轉(zhuǎn)化為文本信息的計算機技術,由于其的特殊屬性,也有科學家將其歸類為自動化技術。語音識別的技術體系復雜,主要包括基礎的發(fā)聲機理、聲波傳播、信號學,高級的模式識別和人工智能理論,數(shù)學上的概率論和數(shù)理統(tǒng)計也有所涉及。語音識別的整個過程基本可以歸納成以下的步驟:輸入—接收語音—預處理—特征提取—對比—翻譯—輸出。

        簡單地說語音識別第一步就是將接受到的語音信息進行一定的處理,將其切成一小段一小段的語音片段,再通過波形轉(zhuǎn)換,將每一小段語音變成一個多維向量,再將其向量與自身數(shù)據(jù)庫中的進行對比,選出概念大的向量,轉(zhuǎn)化成數(shù)據(jù)庫中所對應的狀態(tài)號,最終將各個詞匯拼接從而得到語音識別的結果。在特征提取之前,有一項極為重要的流程——預處理。預處理是語音識別過程的前端,所以也叫做前端處理,其目的是通過對原始語音信號的處理,使其更好地被轉(zhuǎn)化為特定的數(shù)字量,以便進行特征識別,提高語音識別的成功率和效率。如果語音識別中不做前端處理,則計算機就無法判斷該音頻從何開始,又從何結束,同時大量的噪音也大大降低的音頻的準確度。所以即使系統(tǒng)已收集可以比對的大量數(shù)據(jù),可接收的語言無法轉(zhuǎn)化正確的狀態(tài)號,一切都無法達到相應的指令??梢哉f語音識別的預處理就相當于系統(tǒng)的眼睛,所以預處理在整個過程中極其重要[ 1 ]。

        2 預處理方法及其技術

        預處理的常用方法有端點檢測、聲道轉(zhuǎn)換、預加重、去加重、分帖、加窗、重采樣等,不同的語音識別在預處理順序上有一定差別。

        2.1 端點檢測

        對語音信號進行時域分析,可以明顯地辨別出原始語音信息包含有聲段、無聲段和濁音段,端點檢測則是通過區(qū)分以上不同段的信號來達到區(qū)劃語音的開頭與結尾,端點檢測的唯一目的就是找到語音信號的起始點與結束點。端點檢測最常用的方法就是雙門眼檢測法。雙門眼檢測法是通過計算門限能量的方式來判斷語音端點的技術,一般會在語音識別之前設置雙門的門限λ,然后分別計算每個時刻的語音能量,若該能量大于門限閾值,則新生成門限序列為1,反之則為0,從而得到門限序列后,將其點乘原始語音序列,得到有效語音序列。語音能量的計算公式為:

        2.2 預加重與去加重

        在實際應用過程中,語音信息往往夾雜著環(huán)境中的各種其他聲音信息,由于人類發(fā)音的特性,語音信息經(jīng)過頻率轉(zhuǎn)換后往往大部分集中于低頻帶,從而使得低頻能量過大,高頻能量過低,計算機難以有效提取高頻語音信息。為了抵消掉這種情況,預處理階段使用預加重技術,在語音信息的處理階段預先添加與原始語音高頻信號,通過疊加之后,原始語音信息在高頻和低頻段的能量相當,使得識別效率明顯提升。而在語音識別系統(tǒng)的輸出端,則需要做相反的處理,也就是去加重,采用相反的負能量信號將添加的高頻成分去掉,從而還原原來的信號分布,有效提高聲音信號的信噪比[2]。

        2.3 分幀與加窗

        分幀從簡單來說,一段信號整體是不穩(wěn)定的,但從局部來看,信號是穩(wěn)定的,所以要想接收端接收平穩(wěn)的信號,就需對整段語音進行分幀,也就是切成幾段。但是需要注意的是,根據(jù)香農(nóng)定理(Shannons Theorem),分幀越多地聲音片段,其開始段和結束段會存在聲音不連續(xù)的現(xiàn)象,導致了分幀的幀長越短,信號的誤差就越大。為了解決此問題,語言學家提出了利用帶通濾波器來過濾的方法,也就是加窗。常見的三種窗函數(shù)是矩形窗、漢明窗和漢寧窗,其數(shù)學公式如下。

        實際系統(tǒng)中,語音信號處理一般加漢明窗,就可以滿足絕大多數(shù)種語音情況。語音識別的加窗類型受到許多因素的影響,包括不同說話人的發(fā)音方式、說話方式、環(huán)境噪音、傳輸信道衰落等,實際應用時需要根據(jù)不同的情況選擇窗。

        2.4 重采樣

        根據(jù)信號學中的奈奎斯特采樣定理(Nyquists Theorem),再信號采集時,如果采樣頻率滿足采樣頻率大于2倍最高頻率時,經(jīng)過采樣后的信息可以原本保持的所有特征信息。根據(jù)這一定理,語音識別系統(tǒng)中通常采用重采樣技術,也就是限定采樣器的采樣頻率為最高頻率的5~8倍。根據(jù)人類語音信號50Hz~6kHz的頻率范圍,可以得出重采樣器的采樣頻率為約16kHz左右,重采樣可以保證語音中的所有信息均被送至特征識別環(huán)節(jié)中[ 3 ]。

        3 語音識別預處理缺陷及其解決方案

        語音識別的局限性主要在語音源的多樣性,據(jù)相關資料顯示,全世界當前一共有超過1 000種語言,而其中常規(guī)語言也就多達數(shù)十種,語言識別對于各種語言的適配是一項長期的過程。同時,類似于中文中的四川話、廣東話、上海話,各種大型語言中都有其特定的方言,且使用頻次很高,這些方言在語言詞匯和字符發(fā)音上都和傳統(tǒng)的語言不同,訓練語音識別系統(tǒng)適配方言也是亟待解決的問題。當語音信號在傳播過程中有所衰減,為了在保留細節(jié)的情況下還原聲波,人為可以利用前置聲音放大器的方式解決。在回聲消除和空間降噪方面,筆者認為可以利用多麥克風采樣技術作為解決方案。區(qū)別于一般的單一麥克風采集技術,多麥克風技術搭配多通道采樣技術,分別將人聲的高、中、低頻波段分別采集,同時將不同時間到達的聲音區(qū)分開來,在已知噪聲特性的情況下,可以有效降噪,提高人聲的辨識度[ 4 ]。

        當前語音識別的發(fā)展問題主要存在于兩種:一是反復說話識別,頓挫識別。往往生活中由于某些人的語言習慣,可能會出現(xiàn)反復出現(xiàn)某個詞語,或說話結結巴巴。針對這一問題,就要加強端點檢測的端點的選取,正確選取語音的頭尾,去除話語中間隔的空隙,使一段斷斷續(xù)續(xù)的話變成一段聯(lián)結的話。同時在處理中,可對某些重復出現(xiàn)的詞語進行適當?shù)膭h減,增加識別的速率。二是自然語言處理和字典的擴充。由于語音識別運用時的外界環(huán)境的復雜性,可能會出現(xiàn)方言,別的語種類型的語言。而解決的首要之舉就是增加數(shù)據(jù)庫中的數(shù)據(jù),從而擴充字典,達到有效的預處理[5]。

        參考文獻

        [1]陳慧,芮賢義.基于VC++的汽車語音駕駛助手的設計與實現(xiàn)[J].電聲技術,2016,40(8):36-39.

        [2]鐘浩,鮑鴻,張晶.一種改進的語音動態(tài)組合特征參數(shù)提取方法[J].電腦與信息技術,2017,25(3):4-7.

        [3]陸振宇,何玨杉,趙為漢.關于多通道語音去噪的識別優(yōu)化研究[J].計算機仿真,2016,33(6):315-320.

        [4]胡郁.人工智能與語音識別技術[J].電子產(chǎn)品世界,2016,23(4):23-25.

        [5]張曉丹,黃麗霞,張雪英.關于在噪聲環(huán)境下語音識別優(yōu)化研究[J].計算機仿真,2016,33(8):172-176.

        猜你喜歡
        語音識別預處理
        基于預處理MUSIC算法的分布式陣列DOA估計
        制導與引信(2017年3期)2017-11-02 05:16:56
        通話中的語音識別技術
        面向移動終端的語音簽到系統(tǒng)
        淺談PLC在預處理生產(chǎn)線自動化改造中的應用
        絡合萃取法預處理H酸廢水
        農(nóng)業(yè)物聯(lián)網(wǎng)平臺手機秘書功能分析與實現(xiàn)
        基于LD3320的非特定人識別聲控燈系統(tǒng)設計
        基于語音識別的萬能遙控器的設計
        PMU數(shù)據(jù)預處理及壓縮算法
        基于Android手機語音和Arduino控制板的機器人控制系統(tǒng)
        在线观看视频日本一区二区三区| 国产一级三级三级在线视| 国产成人77亚洲精品www | 一本大道久久东京热无码av| 无码精品一区二区三区免费16 | 久久综合五月天啪网亚洲精品| 久久精品国产av麻豆五月丁| 97超碰中文字幕久久| 网站在线观看视频一区二区 | 欧洲多毛裸体xxxxx| 亚洲日产精品一二三四区| 区久久aaa片69亚洲| 人妻少妇不满足中文字幕| 欧美亚洲另类 丝袜综合网| 亚洲一级天堂作爱av| 97人妻人人揉人人躁九色| 亚洲av无码一区二区三区乱子伦| 中国xxx农村性视频| 国产精品一区高清在线观看| 久久久调教亚洲| 国产精品一区二区三区四区亚洲| 亚洲成av人在线播放无码 | 欧美亚洲综合另类| 午夜精品久视频在线观看| 久草视频在线视频手机在线观看| 国产av丝袜熟女丰满一区二区| 中文无码人妻有码人妻中文字幕| 亚洲日韩av无码| 四虎国产精品永久在线无码| 亚洲一区二区三区久久蜜桃| 区二区三区亚洲精品无| 亚洲国产av一区二区四季| 无码aⅴ精品一区二区三区浪潮| 久久精品人人做人人综合| 久久精品片| 国产91九色视频在线播放| 亚洲sm另类一区二区三区| 国产欧美亚洲精品第一页| 天躁夜夜躁狼狠躁| a级福利毛片| 亚洲国产精品色一区二区|