亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于C#的同聲傳譯研究

2019-07-01 14:01:04周家寧

現(xiàn)代商貿(mào)工業(yè) 2019年12期

周家寧

摘要：隨著電子信息技術(shù)的飛速發(fā)展，計算機同聲傳譯技術(shù)已經(jīng)擁有了可行性。但是由于目前理論研究水平的不足，以及語音識別情形的多變性和復(fù)雜性，例如小語種識別和方言的識別還有待完善，因此同聲傳譯的準(zhǔn)確性和實時性還有很大的提升空間。結(jié)合實踐，研究了同聲傳譯的發(fā)展歷史和目的意義，以及探索了語音識別和機器翻譯的理論基礎(chǔ)，并著重研究了語音識別和機器翻譯的實現(xiàn)方法，并設(shè)計了一個基于c#語言的同聲傳譯系統(tǒng)。由于同聲傳譯系統(tǒng)非常貼近我們的生活，因此研究結(jié)論就具有很大的研究意義和實用價值。

關(guān)鍵詞：語音識別;機器翻譯;c#語言;同聲傳譯

中圖分類號： G4????? 文獻(xiàn)標(biāo)識碼： A????? doi：10.19311/j.cnki.1672-3198.2019.12.089

0 前言

隨著信息技術(shù)的飛速發(fā)展，語音技術(shù)已經(jīng)悄悄走入人們的生活中。它包括語音識別、語音合成、關(guān)鍵詞檢出、說話人識別與確認(rèn)、口語對話系統(tǒng)等，是現(xiàn)代人機交互的重要方式之一，具有廣泛的應(yīng)用前景。其中語音識別技術(shù)，尤其是連續(xù)語音識別技術(shù)，是最基礎(chǔ)、最重要的部分，而且已經(jīng)逐步走向成熟與實用。

到目前為止，語音識別已經(jīng)廣泛運用到車載設(shè)備、智能手機等產(chǎn)品當(dāng)中，為生活帶來了極大的便利。從目前的成果來看，技術(shù)已經(jīng)可以相當(dāng)準(zhǔn)確地識別出朗讀式發(fā)音的信號，但這對說話者的發(fā)音要求較高，一旦出現(xiàn)非標(biāo)準(zhǔn)發(fā)音、兒化音或是連讀等現(xiàn)象，識別出的紙面信息就會出現(xiàn)較大偏差。因此，本文將圍繞以基于c#語言設(shè)計有正常識別、斷句等基本功能的同聲傳譯研究產(chǎn)品為中心展開，并嘗試探究提高識別生活化語言的準(zhǔn)確率的方法。

1 同聲傳譯的發(fā)展概述

對自動的語音識別的研究，可以追溯到上世紀(jì)50年代，美國最先出現(xiàn)了識別英文數(shù)字的系統(tǒng)，中國也隨后設(shè)計出了識別元音字母的“識別器”。從此，這項新型技術(shù)開始進(jìn)入科學(xué)家們的視野。

上世紀(jì)70年代左右，語音技術(shù)有了較大突破，尤其是小詞匯量、特定人、孤立詞的識別方面，取得了許多實質(zhì)性的進(jìn)展，產(chǎn)生了象線性預(yù)測分析技術(shù)、動態(tài)時間規(guī)整算法、矢量量化技術(shù)等手段。

上世紀(jì)80年代中期，隨著隱馬爾可夫模型（HMM）的廣泛應(yīng)用和研究，語音識別的任務(wù)得以由連接詞向連續(xù)語音擴展，并陸續(xù)出現(xiàn)了許多基于 HMM 模型的語音識別系統(tǒng)，比如DRAGON公司的dragon dictate系統(tǒng)。

語音技術(shù)的市場化是從上世紀(jì)90年代開始的，例如IBM的 ViaVoice 系統(tǒng)以及 L&H 、Philips、Dragon等公司的聽寫機等產(chǎn)品。這標(biāo)志著實用領(lǐng)域?qū)φZ音技術(shù)的需求，也不斷推動著它向生活化、口語化信息識別的方向進(jìn)步。

另外，關(guān)于機器翻譯的研究，同樣也是起源于上世紀(jì)五十年代初。1954年，IBM與美國喬治敦大學(xué)合作公布了世界上第一臺翻譯機IBM-701，它可以將俄文翻譯成英文。然而在巨大的身軀之下，這臺翻譯機僅僅存儲了6條文法規(guī)則和250余個單詞，效率相當(dāng)?shù)拖隆?/p>

在之后的很長一段時間里，翻譯系統(tǒng)發(fā)展停滯，并且只局限于單詞對譯，無法矯正語法。直到上世紀(jì)末，日本京都大學(xué)教授提出來基于實例的翻譯這一跨時代的思路，刺激了領(lǐng)域的發(fā)展，機器翻譯進(jìn)入了新的紀(jì)元。

一直到近十年，機器翻譯系統(tǒng)都沿用了基于實例這一思路，并不斷完善著、補充著，創(chuàng)新出了基于統(tǒng)計的翻譯體系。也就是這十年，機器翻譯系統(tǒng)開始與語音識別系統(tǒng)合作，完成較為復(fù)雜的工作——同聲傳譯。

可以說，同聲傳譯是一門剛開始發(fā)展的新興技術(shù)，還有著以語音識別準(zhǔn)確率為主的問題等待不斷改善，具有很大的提升空間。而隨著世界各地間交流的頻率不斷上升，無論是上到國家會議，還是下到平常的生活當(dāng)中，同聲傳譯都具有極高的利用價值和現(xiàn)實意義，它的快速發(fā)展是社會所必需的。

2 同聲傳譯的目的及意義

同聲傳譯系統(tǒng)的根本目的在于即時地解決面對面（或?qū)崟r）跨語言交流的問題，為人們的溝通、交流、合作提供便利。如今，同聲傳譯系統(tǒng)已經(jīng)廣泛應(yīng)用于電子詞典、旅游app、電話會議、電視轉(zhuǎn)播等不同地方。

本文所設(shè)計的同聲傳譯產(chǎn)品，旨在面向大型會議，為跨語言會議交流提供便捷。理想狀態(tài)是，在中文發(fā)言者講話的同時，系統(tǒng)自動收錄識別語言信息，在大屏幕上提前設(shè)計好的界面上打出相應(yīng)的漢語文字，并在下一個欄目中實時將其翻譯成英文句子，供臺下英語語種的聽者觀看、參考。

這樣，可以大大減少會議用于翻譯的時間，使英語聽者可以實時跟上漢語發(fā)言者的節(jié)奏，提高會議的效率和互動性。除此之外，本系統(tǒng)的使用，也可降低會議對翻譯官的需求，減少該方面的支出，從而為公司或是項目組等減少財力負(fù)擔(dān)。

3 同聲傳譯的研究方法

3.1 語音識別的研究方法

總的來說，語音識別系統(tǒng)的總體框架如圖1所示，一般語音信號會先經(jīng)過VAD操作，切除語音信號的靜音段的無效信息，然后對語音信號進(jìn)行特征提取，提取MFCC特征，然后MFCC特征經(jīng)過解碼器的解碼，得到最終的識別結(jié)果。其中解碼器需要綜合考慮聲學(xué)模型和語言模型兩部分的評估信息，以及詞典信息，生成解碼圖，通過搜索解碼圖找到最優(yōu)路徑，得到可能性最大的次序列。

語音識別的研究方法有很多，大致可以分成傳統(tǒng)語音識別方法和基于深度學(xué)習(xí)的語音識別方法。傳統(tǒng)語音識別方法包括模板匹配法、模式識別法、HMM-GMM方法、基于極大似然估計的方法等;基于深度學(xué)習(xí)的語音識別方法包括DNN-HMM模型，端到端模型（End to End），RNN+LSTM+HMM模型等。

3.2 機器翻譯方法

機器翻譯方法分為傳統(tǒng)的和運用神經(jīng)網(wǎng)絡(luò)的兩種。傳統(tǒng)的機器翻譯方法按照其基本工作原理，可以分為基于規(guī)則的機器翻譯，基于實例的機器翻譯和統(tǒng)計型的機器翻譯這三種基本類型。神經(jīng)機器翻譯指直接采用神經(jīng)網(wǎng)絡(luò)以端到端方式進(jìn)行翻譯建模的機器翻譯方法。這里著重介紹一下采用注意力機制的神經(jīng)翻譯系統(tǒng)。

神經(jīng)機器翻譯采用一種簡單直觀的方法完成翻譯工作：首先使用一個稱為編碼器（Encoder）的神經(jīng)網(wǎng)絡(luò)將源語言句子編碼為一個稠密向量，然后使用一個稱為解碼器（Decoder）的神經(jīng)網(wǎng)絡(luò)從該向量中解碼出目標(biāo)語言句子。上述神經(jīng)網(wǎng)絡(luò)模型一般稱之為“編碼器-解碼器”（Encoder-Decoder）結(jié)構(gòu)，其結(jié)構(gòu)如圖2所示。

采用注意力機制的神經(jīng)機器翻譯的工作流程下圖3所示。Attention 機制核心思想是建立輸出序列和encoder 歷史狀態(tài)之間的直接連接，在翻譯時將“注意力”集中在與當(dāng)前輸出相關(guān)性強的輸入上。在解碼時刻t，解碼器分別產(chǎn)生該時刻的目標(biāo)語言隱式狀態(tài)和目標(biāo)語言單詞。t時刻目標(biāo)語言隱式狀態(tài) s（t）由t-1時刻目標(biāo)語言隱式狀態(tài)s（t-1），t-1時刻解碼器所生成的目標(biāo)語言單詞y（t-1）和t時刻上下文向量c（t）所決定：

st=f（st-1，yt-1，ct）。

其中，f是一個非線性方程。根據(jù)源語言隱式狀態(tài)和注意力系統(tǒng)模型所產(chǎn)生的權(quán)重加權(quán)，可以得到目標(biāo)狀態(tài)s（t）之后，模型通過softmax函數(shù)估計t時刻目標(biāo)語言單詞的概率分布：

P（yt|y

從而，將概率最大的結(jié)果作為注意力機制下的翻譯結(jié)果如圖2、3。

4 同聲傳譯系統(tǒng)實現(xiàn)

4.1 同聲傳譯系統(tǒng)界面設(shè)計

如圖4所示，本項目設(shè)計的同聲傳譯界面如圖4所示，識別和翻譯結(jié)果顯示都使用richText控件進(jìn)行顯示，錄音按鈕開關(guān)使用micControl控件，中英文圖標(biāo)顯示使用pictureBox控件，從而完成了同聲傳譯系統(tǒng)的界面設(shè)計。

4.2 同聲傳譯系統(tǒng)功能實現(xiàn)

該系統(tǒng)設(shè)計的初期版本，是實現(xiàn)中英文之間的同步翻譯，功能模塊主要有兩部分組成：錄音功能、語音識別顯示功能和機器翻譯顯示功能。語音識別結(jié)果顯示在控件richText_input框中，機器翻譯結(jié)果顯示在控件richText_output框中。

錄音功能界面，采用自定義控件;音量反饋條亦采用自定義控件;左鍵點擊可返回主界面，并終止錄音與視頻通信;右鍵點擊可以彈出右鍵菜單，包含退出選項，點擊退出選項可退出程序。

語音識別顯示功能，采用標(biāo)準(zhǔn)winform窗體richText控件，將錄制的音頻進(jìn)行vad靜音消除之后傳送至語音識別服務(wù)器159.226.21.71進(jìn)行處理，然后將識別結(jié)果發(fā)送回來，發(fā)送回來的信息包含兩部分內(nèi)容，確定信息和不確定信息，中間使用“ /”進(jìn)行隔開，然后將該部分的反饋信息實時顯示在richText_input框中，確定部分用黑色字體顯示，不確定部分使用紅色字體顯示，這樣既可實時顯示語音識別結(jié)果的顯示。

機器翻譯顯示功能，采用標(biāo)準(zhǔn)winform窗體richText控件，此部分是利用語音識別的識別結(jié)果信息作為輸入，然后傳送至翻譯服務(wù)器159.226.21.71進(jìn)行翻譯，并將翻譯結(jié)果實時顯示在richText_output框中，這樣實現(xiàn)了實時翻譯顯示的功能。

5 結(jié)語

本論文主要介紹了同聲傳譯的發(fā)展概述，目的意義，研究方法和具體實現(xiàn)，實現(xiàn)了一個基于C#開發(fā)的同聲傳譯系統(tǒng)，能夠?qū)崿F(xiàn)同聲傳譯的功能。從實現(xiàn)效果上看，語音識別部分準(zhǔn)確率以及實時性效果很好，但是實時翻譯部分效果還有待完善。

參考文獻(xiàn)

[1] 李虎生，劉加，劉潤生.語音識別說話人自適應(yīng)研究現(xiàn)狀及發(fā)展趨勢[J].電子學(xué)報，2003，31（1）：33-36.

[2]何湘智.語音識別的研究與發(fā)展[J].計算機與現(xiàn)代化，2002，（3）：3-6.

[3]陳方，高升.語音識別技術(shù)及發(fā)展[J].電信科學(xué)，1996，（10）：54-57.

[4]熊德意，王星，張民.一種調(diào)序模型建立方法、裝置及翻譯方法，CN 104572636 A[P].2015.

[5]劉洋.神經(jīng)機器翻譯前沿進(jìn)展[J].計算機研究與發(fā)展，2017，54（6）：1144-1149.