鄭百花 雷群泌
(湖南環(huán)境生物職業(yè)技術(shù)學(xué)院,湖南 衡陽 421005)
英語作為世界通用語言,是對外交流的必備工具,手語作為特殊人群的專用語言具有無可替代性。但是兩者的互通互譯尚屬于空缺狀態(tài),不便于語言障礙人士與外界,尤其與外賓進(jìn)行直接交流。因此,設(shè)計(jì)語音識別平臺,并融合圖像識別與展示功能,形成英語、普通話和手語的低延時(shí)自動翻譯工具。
當(dāng)設(shè)計(jì)基于語音圖像融合平臺的英語與手語自動翻譯系統(tǒng)時(shí),該控制器由STM32單片機(jī)構(gòu)成,對采集到的語音和圖像進(jìn)行處理,內(nèi)置STM32M3核心,并與控制器的外部接口集成ADC,設(shè)置了集成采集方式,實(shí)現(xiàn)對數(shù)據(jù)的快速傳送功能。基于語音圖像融合平臺的英語與手語自動翻譯系統(tǒng)硬件結(jié)構(gòu)如圖1所示。
圖1 硬件設(shè)計(jì)
在上述硬件設(shè)計(jì)的構(gòu)造中,通過呼叫控制芯片中的信息信道,使控制時(shí)鐘的頻率達(dá)到28 MHz,控制系統(tǒng)采用掃描和變換的方式進(jìn)行操作。在單片機(jī)的外端,采用2套傳感器結(jié)構(gòu)引腳,完成英語和手語翻譯系統(tǒng)間的信息同步傳遞任務(wù)。
該文將語音圖像融合技術(shù)應(yīng)用到英語和手語的自動翻譯系統(tǒng)中,利用CNN技術(shù)可以有效降低語音信號在時(shí)間、頻率上的損耗,同時(shí)也保證了語音的整體特性,便于網(wǎng)絡(luò)的訓(xùn)練和識別。該文所設(shè)計(jì)的英語與手語自動翻譯系統(tǒng)先利用語音識別模塊對輸入的語音進(jìn)行預(yù)處理,并抽取其特征,然后將其作為語音特征圖像,利用該圖像進(jìn)行CNN的訓(xùn)練和識別。語音識別的流程如圖2所示。
圖2 語音識別流程
為了獲得正確且較為典型的語音信號,要對采集的語音信號進(jìn)行預(yù)處理,并利用能量與過零率法進(jìn)行終端檢測,經(jīng)過預(yù)處理后則可進(jìn)行特征提取。英語與手語翻譯系統(tǒng)中的語音信號源都是以人聲為基礎(chǔ)的,利用梅爾倒譜系數(shù)來進(jìn)行語音識別[1]。在該基礎(chǔ)上,將小波包分解技術(shù)應(yīng)用于快速傅里葉變換中,傅里葉變換是時(shí)域—頻域變換分析中的基本方法。分割Mel尺度的頻域,Mel音階可以使純音的感知頻率或音調(diào)與其實(shí)際測量頻率相關(guān)聯(lián),從而保證語音特征完整。
在英語和手語的自動翻譯中,利用語義單元融合本體,從語音及圖像中抽取語義上下文。通過修改文本的語義來構(gòu)造自動轉(zhuǎn)化的聯(lián)合特征分布集K,并將其與Fuzzy綜合判斷相結(jié)合,構(gòu)造一個(gè)自動轉(zhuǎn)化的分段函數(shù),如公式(1)所示。
式中:t1為翻譯時(shí)輸出在英漢2種語言中的時(shí)間序列;t2為采樣時(shí)英語與手語自動轉(zhuǎn)換翻譯的間隔時(shí)間;ET為T時(shí)的常數(shù)函數(shù)。
建立自動轉(zhuǎn)換的聯(lián)合特征值,如公式(2)所示。
式中:δ(t1,t2)為英語與手語之間自動轉(zhuǎn)化的分段函數(shù);u為自動轉(zhuǎn)化分段函數(shù)中出現(xiàn)的并集;C為復(fù)數(shù)集合。
語義融合后獲得特征分布節(jié)點(diǎn)I1、I2的自動翻譯轉(zhuǎn)換,定義I1、I2間的距離,建立聯(lián)合特征?x為自動轉(zhuǎn)換翻譯特征分量,在區(qū)間中,構(gòu)造一種用于自動翻譯的約束最優(yōu)化問題,并給出英語和手語的自動翻譯的聯(lián)合限制特征量,如公式(3)所示。
建立計(jì)算英語和手語翻譯模型中的語義單位向量模型,滿足翻譯系統(tǒng)在輸入時(shí)的自適應(yīng)性,提高語音特征在檢測識別時(shí)的效率,便于排除歧義特征項(xiàng)。
通過去除模糊特征項(xiàng)可以有效提高英語與手語自動翻譯系統(tǒng)的精度,從而使英語和手語自動翻譯成為可能[2]。一方面,由于詞性的歧義,因此同一詞語的詞類差異也會導(dǎo)致譯文意義存在差異。另一方面,在不同的環(huán)境下,同樣的詞語的意義也會存在細(xì)微差異[3]。為了消除因詞類而產(chǎn)生的模糊性,應(yīng)首先明確詞語的詞性,并根據(jù)相似性來標(biāo)記詞類[4]。通過計(jì)算所選的n個(gè)句子的相似度,對所選n個(gè)句子的相似性進(jìn)行分析,并將其輸入類似的語句組合模塊中,相似度如公式(4)所示。
式中:words(A)為英語句子A中的一組單詞;words(B)為輸入手語B的圖像集合;i為字組中的第i個(gè)要素;Len為字符串的長度;sim(A,B)為詞形的相似性。
通過分析詞形相似度可以提高句子的翻譯質(zhì)量。通過所標(biāo)記的詞性可以判斷所指的具體意義,從而排除歧義,完成英語與手語間的翻譯工作。為了避免由于上下文的差異而產(chǎn)生的歧義,必須采用本體的方法來排除歧義。首先,要單獨(dú)處理需要翻譯的句子。其次,在領(lǐng)域字典中找到每個(gè)詞,把這個(gè)詞定義在一個(gè)特定的詞義范圍內(nèi),并賦予它一定的意義,從而消除歧義,方便規(guī)整雙向翻譯。
英語和手語自動翻譯系統(tǒng)在建立雙向翻譯時(shí),由于估計(jì)的人體阻抗參數(shù)偏低,因此使英語與手語翻譯系統(tǒng)無法識別所有的翻譯節(jié)點(diǎn),翻譯路徑太少。建立手語處理的空間域,并將手部處理空間與在軌跡中的數(shù)據(jù)點(diǎn)相結(jié)合,將初始節(jié)點(diǎn)作為特征向量,手部軌跡匹配函數(shù)D如公式(5)所示。
式中:ai為特征矢量;bj為數(shù)值單調(diào);wn為手語路徑權(quán)值。
校準(zhǔn)2個(gè)循環(huán)的軌道變量,該軌跡周期數(shù)字變量P(λ)如公式(6)所示。
式中:Bj為數(shù)字的似然性。
基于所形成的軌道變量,設(shè)置一個(gè)模糊的數(shù)字控制關(guān)系來控制所估計(jì)的手部處理空間阻抗參數(shù),其數(shù)值關(guān)系如公式(7)所示。
式中:M為手部處理空間的轉(zhuǎn)譯路徑;d為手語的轉(zhuǎn)換循環(huán)。
為了達(dá)到雙向轉(zhuǎn)換,以語義解碼技術(shù)為支撐實(shí)現(xiàn)翻譯軟件的功能[5]。在實(shí)際過程中,通過規(guī)整處理2個(gè)轉(zhuǎn)換過程,對硬件結(jié)構(gòu)的可視語義進(jìn)行編碼,將其轉(zhuǎn)換成英語語言信息,然后將其輸入編碼矢量中,輸出的語言序列矢量如公式(8)所示。
式中:yt為接收到的視覺語義編碼;hm為自然語言序列的映射過程;m為維度參數(shù)[6]。
在系統(tǒng)軟件中,經(jīng)過控制維度參數(shù)標(biāo)準(zhǔn)化處理,相應(yīng)地處理了一個(gè)具體詞匯類的矢量,數(shù)字關(guān)系如公式(9)所示。
式中:zt為向量索引值;p(zi)為詞語類別函數(shù);wk為手語譯碼產(chǎn)生的單詞參數(shù)。
與以上具體分類所產(chǎn)生的單詞參數(shù)相對應(yīng),通過轉(zhuǎn)換句式的指標(biāo)單詞構(gòu)造實(shí)際的解碼產(chǎn)生過程,數(shù)字關(guān)系如公式(10)所示。
式中:ht為該索引函數(shù)的詞匯表;Y為譯碼產(chǎn)生函數(shù)。
譯碼處理程序被用作所述的語句轉(zhuǎn)換次序,當(dāng)所述轉(zhuǎn)換程序數(shù)據(jù)被執(zhí)行時(shí),所述譯碼產(chǎn)生函數(shù)是由Java程序編寫的,嚴(yán)格地遵循譯碼產(chǎn)生的次序,形成英語與手語的雙向自動轉(zhuǎn)換。
在caffeine平臺上進(jìn)行試驗(yàn),采用英特爾3770芯片,主頻3.4 GHz,內(nèi)存16 GB。為了確保試驗(yàn)結(jié)果的正確性,對試驗(yàn)參數(shù)進(jìn)行統(tǒng)一設(shè)置,將英語與手語的自動翻譯中斷圖取樣時(shí)間間隔設(shè)為0.26 ms,英語與手語的自動轉(zhuǎn)換為15 kHz,轉(zhuǎn)換字長度為1 800 Bit,提取的翻譯文本為800 個(gè)字符,翻譯速度為18 Byte 。FPGA對CMOS進(jìn)行手語圖像的采集、傳輸及存儲等操作,通過VGA顯示手語定格圖像。該文使用VisualDSP++進(jìn)行模擬,使用的參數(shù)設(shè)定見表1。
表1 試驗(yàn)參數(shù)
根據(jù)上述參數(shù)設(shè)定,采用基于語音圖像融合平臺的英語與手語自動翻譯系統(tǒng)進(jìn)行自動轉(zhuǎn)換翻譯測試。
3.2.1 手語圖像識別結(jié)果
在基于語音圖像融合平臺的英語與手語自動翻譯系統(tǒng)設(shè)計(jì)中,將完全捕捉手語內(nèi)容才能更具體地翻譯相關(guān)內(nèi)容,因此,進(jìn)行實(shí)時(shí)手語視頻圖像采集顯示試驗(yàn)。從以上250 個(gè)手語樣本中選出8 個(gè)作為該試驗(yàn)的具體試驗(yàn)樣本,通過整理手部姿勢生成的數(shù)據(jù),從而構(gòu)成手勢數(shù)據(jù)集,見表2。
根據(jù)表2中的手勢轉(zhuǎn)換資料設(shè)置相應(yīng)的手指關(guān)節(jié)空間維度和關(guān)節(jié)點(diǎn)的置信分?jǐn)?shù),并將其作為關(guān)節(jié)點(diǎn)的特征。經(jīng)過處理后,選擇同樣的系統(tǒng)性能指數(shù)捕獲手語圖像。在該系統(tǒng)中,采用FPGA對CMOS進(jìn)行圖像控制,VGA顯示傳送和存儲的圖像,結(jié)果如圖3所示。
表2 手勢翻譯數(shù)據(jù)
圖3 手語顯示圖像
通過圖像捕捉試驗(yàn)可知,8 個(gè)手語圖像捕捉效果清晰,F(xiàn)PGA的高速并行優(yōu)點(diǎn)使手語圖像捕捉可以更快融入語音圖像融合平臺,該系統(tǒng)設(shè)計(jì)捕捉的畫面更清晰,采集的圖像更流暢。運(yùn)用試驗(yàn)測試中的手語圖像捕捉以及英語語音采集,根據(jù)試驗(yàn)環(huán)境和有關(guān)參數(shù)設(shè)置對該文基于語音圖像融合平臺的英語與手語自動翻譯系統(tǒng)設(shè)計(jì)進(jìn)行仿真分析,將準(zhǔn)確率和語義信息召回率檢測評價(jià)指標(biāo)作為對手語圖像識別的評價(jià)依據(jù),如圖4所示。
由圖4可知,該文設(shè)計(jì)的雙語翻譯系統(tǒng)在手語圖像識別時(shí),準(zhǔn)確率和召回率較穩(wěn)定,語義樣本規(guī)模上升,其準(zhǔn)確率和召回率也隨之上升。由此可見,該文所設(shè)計(jì)的英語與手語翻譯系統(tǒng)的手語圖像識別結(jié)果準(zhǔn)確性和智能化程度較高。
圖4 準(zhǔn)確率與召回率示意圖
3.2.2 英語翻譯結(jié)果
語音識別作為基于語音圖像融合平臺的英語與手語自動翻譯系統(tǒng)設(shè)計(jì)中重要的環(huán)節(jié),識別內(nèi)容夠準(zhǔn)確才能保證語音交互正常運(yùn)行。采用8 組英語語音句子進(jìn)行識別,以8 個(gè)試驗(yàn)的平均識別率為最終目標(biāo),相應(yīng)的試驗(yàn)數(shù)據(jù)見表3。
表3 英語語音識別結(jié)果
由表3可知,8 個(gè)英語句子的識別速度大約都為1 s,識別速度較快,語音字節(jié)長度對識別速度沒有太大的影響,識別率最高為98.54%,最低為97.33%,召回率最低為82.22%,最高為84.11%。因此,該文所設(shè)計(jì)的語音識別較準(zhǔn)確,可以準(zhǔn)確識別語音。
綜上所述,該文在系統(tǒng)的硬件設(shè)計(jì)方面,以STM32微控制器作為主控模塊,實(shí)現(xiàn)英語與手語自動翻譯系統(tǒng)的同步信息轉(zhuǎn)換。在系統(tǒng)的軟件設(shè)計(jì)方面,用CNN對特征圖像進(jìn)行模型訓(xùn)練和識別,采用語義單元的本體融合方法自動提取系統(tǒng)內(nèi)錄入的英語和手語的語義語境,按照解碼生成的順序規(guī)整雙向翻譯。試驗(yàn)結(jié)果顯示,英語和手語的自動翻譯系統(tǒng)在語音圖像融合平臺的基礎(chǔ)上,可以有效提高句子的翻譯效率和準(zhǔn)確性。