亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

語音識別中的Conformer模型壓縮研究

2023-04-13 23:20:37盧江坤許鴻奎張子楓周俊杰李振業(yè)郭文濤

計算機時代 2023年4期

盧江坤許鴻奎張子楓周俊杰李振業(yè) 郭文濤

摘要：針對使用Conformer模型的語音識別算法在實際應(yīng)用時設(shè)備算力不足及資源缺乏的問題，提出一種基于Conformer模型間隔剪枝和參數(shù)量化相結(jié)合的模型壓縮方法。實驗顯示，使用該方法壓縮后，模型的實時率（real time factor， RTF）達到0.107614，較基線模型的推理速度提升了16.2%，而識別準確率只下降了1.79%，并且模型大小也由原來的207.91MB下降到72.69MB。該方法在模型準確率損失很小的情況下，較大程度地提升了模型的適用性。

關(guān)鍵詞：深度學(xué)習(xí)；模型壓縮；模型量化；模型剪枝； Conformer

中圖分類號：TP319? ? ? ? ? 文獻標識碼：A? ? ?文章編號：1006-8228（2023）04-16-07

Abstract： Aiming at the problem of insufficient computing power and resources in the actual application of speech recognition algorithm using the Conform model， a model compression method based on the combination of interval pruning and parameter quantization of Conformer model is proposed. Experimental results show that the real time factor （RTF） of the compressed model is 0.107614， which is 16.2% higher than the reasoning speed of the baseline model， while the recognition accuracy is only 1.79% lower， and the size of the model is reduced from 207.91MB to 72.69MB. This method greatly improves the applicability of the model with little loss of accuracy.

Key words： deep learning; model compression; model quantization; model pruning; Conformer

0 引言

端到端（end-to-end，E2E）語音識別系統(tǒng)將整個識別網(wǎng)絡(luò)簡化成一個單一的網(wǎng)絡(luò)結(jié)構(gòu)，在訓(xùn)練時只需要注意整個系統(tǒng)的輸入和輸出，大大減少了對語音識別系統(tǒng)構(gòu)建的難度[1-3]。隨著Transformer模型在計算機視覺、自然語言處理等領(lǐng)域展現(xiàn)出來出色的性能[4]，Dong等人首次將具有自注意力機制的深度神經(jīng)網(wǎng)絡(luò)Transformer模型引入到語音識別領(lǐng)域[5]。文獻[6]提出一種模型結(jié)構(gòu)Conformer，將卷積模塊加入到Transformer模型的編碼器部分，從而達到增強識別效果的目的。

不斷加深的神經(jīng)網(wǎng)絡(luò)迅速增加了數(shù)據(jù)量，這將花費更大的存儲資源和計算開銷。僅8層的AlexNet[7]就需要至少7.29億次浮點型計算，需要占用約233MB內(nèi)存。龐大的網(wǎng)絡(luò)參數(shù)極大地限制了模型在算力有限的設(shè)備上部署[8]。因此需要對這些大型神經(jīng)網(wǎng)絡(luò)模型進行壓縮，降低模型大小和計算成本[9]。

早期Babak Hassibi等人使用來自誤差函數(shù)的所有二階導(dǎo)數(shù)來判斷哪些不重要的參數(shù)來進行剪枝，進而提升模型的泛化能力和推理速度[10]。Hao Li 等人在卷積神經(jīng)網(wǎng)絡(luò)中剪去對輸出精度又很小影響的通道大大降低了計算量并且對原始精度影響較小[11]。這些剪枝操作在使精度下降一定范圍內(nèi)，推理速度提升不明顯并且參數(shù)存儲空間較大，而使用模型量化技術(shù)則能顯著減少參數(shù)存儲空間并加快運算速度。Gong等人提出將k-means聚類用于量化全連接層參數(shù)，將原始權(quán)重聚類成碼本，為均值分配碼本中的索引，只需存儲碼本和索引而不許存儲原始權(quán)重信息[12]。Wu等人將k-means聚類拓展到卷積層，將權(quán)值矩陣劃分成很多塊，再通過聚類獲得碼本[13]。Choi等人分析了量化誤差和loss的關(guān)系，提出了基于海森加權(quán)k-means聚類的量化方法[14]。

本文提出一種基于Conformer的模型壓縮算法，使用模型剪枝算法對編碼器的卷積層部分進行通道剪枝。以L1范數(shù)作為判斷標準對等間隔編碼器進行剪枝，避免了對模型的過度破壞，又保證了剪枝質(zhì)量，再結(jié)合模型量化算法對模型進行量化，最終達到提升模型推理速度和減小模型的大小的目的。經(jīng)實驗表明，在模型識別準確度下降很少的情況下大大提升了模型的推理速度并且模型的大小也減少了65.05%。

1 模型結(jié)構(gòu)

語音識別模型使用編碼器-解碼器（Encoder-Decoder）結(jié)構(gòu)，如圖1所示，編碼器部分將語音輸入序列映射到特征序列，生成指定長度的向量。解碼器部分對輸入向量進行解碼，根據(jù)語義向量生成指定的序列。

本文編碼器使用Conformer結(jié)構(gòu)編碼[6]，解碼器使用CTC（connectionist temporal classification）進行解碼[15]。

1.1 Conformer結(jié)構(gòu)

本文所使用的Conformer結(jié)構(gòu)是在Transformer結(jié)構(gòu)的基礎(chǔ)上增加卷積模塊，以加強模型對局部和全局依賴性建模的效果，增強語音識別模型的性能[6]。如圖2所示，Conformer結(jié)構(gòu)由歸一化層、前饋層、卷積層和多頭注意力層組成。

多頭注意力層中使用注意力機制在輸入的大量信息中選擇關(guān)鍵信息加以處理。如公式⑴，使用信息提取的方法將維度為[dm]的輸入映射到一組查詢[Q]、鍵[K]和值[V]的矢量輸出，其中查詢[Q]和鍵[K]的維度是[dK]，值[V]的維度是[dV]。然后再利用[softmax]函數(shù)來獲得值的權(quán)重，最后返回值的加權(quán)總和[Z]。

卷積層由Layer Norm、Batch Norm、Pointwise卷積、Depthwise卷積、GLU激活層和ReLU激活層組成。Pointwise 卷積運算負責將深度卷積的輸出按通道投影到新的特征圖上；Depthwise卷積不同于原始卷積，一個卷積核負責一個通道，獨立地在每個通道上進行空間卷積。

前饋層使用ReLU激活函數(shù)來進行線性變換，并且通過使用Dropout來減少過擬合發(fā)生進而幫助訓(xùn)練更深層次的網(wǎng)絡(luò)。前饋層作用是更新注意力層輸出向量的每個狀態(tài)信息，如公式⑵，其中[W]表示權(quán)重，[b]表示偏差，[x]表示輸入。

1.2 解碼器結(jié)構(gòu)

解碼器使用CTC Decoder，對Encoder部分的輸出進行前向計算，再由[softmax]計算得到結(jié)果。

解碼算法為CTC Prefix Beam Search算法，該算法對輸入一幀的數(shù)據(jù)給出當下各種字符的概率，然后利用這一層的概率展開搜索，選取搜索空間中最優(yōu)的k條路經(jīng)的前綴，并把這些前綴挨個輸入到模型中，同時把相同的前綴路徑合并，不斷重復(fù)最終得到最優(yōu)解。

基于CTC Loss訓(xùn)練的模型不用進行強制對齊，可以通過學(xué)習(xí)，直接將語音映射成對應(yīng)的字符，并且引入空白標簽Blank實現(xiàn)自動對齊，解決了輸入音頻數(shù)據(jù)和輸出文本數(shù)據(jù)長度不一致的問題。

2 模型剪枝

卷積層和全連接層的輸入和輸出之間都存在密集連接，而刪除冗余的連接可以達到提升模型推理速度的目的。模型剪枝是指在訓(xùn)練好的模型上設(shè)計對模型參數(shù)的評價準則，通過該準則刪除不重要的參數(shù)來減小模型RTF達到提升模型推理速度的目的。模型剪枝可以分為非結(jié)構(gòu)化剪枝和結(jié)構(gòu)化剪枝[9，16]。

2.1 非結(jié)構(gòu)化剪枝

非結(jié)構(gòu)化剪枝可以將網(wǎng)絡(luò)任何位置的參數(shù)剪掉，本質(zhì)是對單個神經(jīng)元的權(quán)重進行剪枝來減少神經(jīng)元之間的連接。如圖3所示，這樣剪枝操作可以對模型的權(quán)重參數(shù)稀疏化。

雖然非結(jié)構(gòu)化剪枝使模型可以在非常精密的模式下進行剪枝且可以實現(xiàn)很高的裁剪率，但這種剪枝方式對模型推理速度提升并不會產(chǎn)生明顯的效果。

2.2 結(jié)構(gòu)化剪枝

結(jié)構(gòu)化剪枝不同于非結(jié)構(gòu)化剪枝，它更專注于相對完整的網(wǎng)絡(luò)結(jié)構(gòu)進行修剪，可以修剪整個神經(jīng)元，如圖4所示，這樣修剪之后會使模型的通道數(shù)減小，從而提升模型整體的推理速度，但不可避免的會造成精度損失。

3 模型量化

模型量化是指將高精度浮點表示的網(wǎng)絡(luò)參數(shù)包括權(quán)重、激活值、梯度和誤差等用低精度來近似表示。通常使用8位整型作為統(tǒng)一的位寬，也可以根據(jù)經(jīng)驗或一定策略自由組合不同的位寬，可以有效地減少參數(shù)存儲空間與內(nèi)存占用空間，加快模型運算速度降低設(shè)備能耗。但同時也會導(dǎo)致部分信息的損失，造成模型識別精度的下降。模型參數(shù)量化可分為對稱量化和非對稱量化[9] 。

3.1 對稱量化

對稱量化的算法是通過一個收縮因子將32位浮點型數(shù)據(jù)中的最大絕對值映射到8位整型數(shù)據(jù)的最大值，將32位浮點型數(shù)據(jù)中最大絕對值的負值映射到8位整型數(shù)據(jù)的最小值，將零點限制為0，收縮因子[Δ]如式⑶所示，[xmax]和[xmin]分別表示模型中32位浮點型參數(shù)的最大值和最小值，[absxmax]表示取參數(shù)中最大值的絕對值，[absxmin]表示取參數(shù)中最小值的絕對值。

其中，在函數(shù)[clampa，b，x]中，[a]表示最小值，[b]表示最大值，而當首選值[x]比最小值要小時，則使用最小值；當首選值[x]介于最小值和最大值之間時，用首選值；當首選值[x]比最大值要大時，則使用最大值。

如圖5所示為參數(shù)量化對應(yīng)參數(shù)值的范圍，a表示參數(shù)浮點型的最大絕對值。對于32位浮點型參數(shù)如果均勻分布在0點左右，那么映射后的值也會均勻分布，若分布不均勻，則映射后不能充分利用。

3.2 非對稱量化

非對稱量化可以很好的處理32位浮點型數(shù)據(jù)分布不均勻的情況，通過收縮因子和零點，將32位浮點型數(shù)據(jù)中的最小值和最大值分別映射到8位整型數(shù)據(jù)中的最小值和最大值。加入零點之后會將32位浮點型數(shù)據(jù)中的0量化映射到[0，255]中的某個數(shù)，不會出現(xiàn)浮點0量化后直接映射到0的情況，可以無誤差的量化32位浮點型數(shù)據(jù)中的0，從而減少補零操作在量化中產(chǎn)生額外的誤差。式⑽為收縮因子，式⑾中的z表示零點位置的取值。

其中，[xQ]表示最終量化所得到的值。如圖6所示，為非對稱參數(shù)量化參數(shù)映射的取值范圍，將浮點型的參數(shù)[xmin，xmax]映射到整型的[0，255]數(shù)值區(qū)域，此時的零點映射到8位整型數(shù)值區(qū)域[0，255]中的某個值。

4 實驗

4.1 實驗數(shù)據(jù)

實驗用到的語音數(shù)據(jù)來自于北京希爾貝殼科技有限公司出版的中文語音數(shù)據(jù)集AISHELL-1，該數(shù)據(jù)集由400名中國不同口音區(qū)域的發(fā)言人參與錄制，采樣率為16kHZ，包含178 h的普通話音頻及文本。

4.2 實驗配置

實驗所使用的電腦操作系統(tǒng)為Ubuntu20.04.2LTS，硬件配置為Intel i7處理器，16GB運行內(nèi)存，GPU為NVIDIA RTX 2060（6GB顯存）。

本實驗基于WeNet語音識別工具包[17]來進行，使用Fbank特征，編碼器有12個Conformer Blocks，注意力頭數(shù)設(shè)置為4。訓(xùn)練使用CTC loss與Attention loss 聯(lián)合優(yōu)化訓(xùn)練，避免 CTC 對齊關(guān)系過于隨機，并可以使訓(xùn)練過程更加穩(wěn)定，取得更好的識別結(jié)果。

使用的組合損失如式⒁所示，[x]表示聲學(xué)特征，[y]為對應(yīng)標注，表示CTC loss，表示Attention loss，[λ]表示平衡CTC loss和Attention loss的系數(shù)并且[λ∈0，1][18-19]。

4.3 評價標準

在數(shù)據(jù)集AISHELL-1上進行實驗，采用字錯率（character error rate， CER）作為評價模型識別準確性的指標。如式⒂所示，字錯率就是將插入I、替換S和刪除D的詞的總個數(shù)除以標準的詞序列中詞的總個數(shù)的百分比。

實時率RTF表示處理單位時長語音數(shù)據(jù)所需要的時間，如式⒃所示，該值越小表示模型處理語音的效率越高，即模型推理的速度越快。

其中，T表示所有音頻總時間，單位是秒；t表示模型識別所有音頻所用時間，單位是秒。

4.4 實驗結(jié)果

本實驗以在數(shù)據(jù)集AISHELL-1上訓(xùn)練得到的Conformer模型作為基線模型，對編碼器部分Conformer Blocks中的卷積層進行剪枝。以L1范數(shù)作為剪枝的判斷標準，對權(quán)重進行排序，按照不同的剪枝比例對卷積層進行剪枝，然后再對模型的線性層進行模型量化，以實驗A和實驗B的結(jié)果對比來驗證模型壓縮方法的有效性。

4.4.1 實驗A

以L1范數(shù)為標準，采用傳統(tǒng)的剪枝模式對模型編碼器中全部Conformer Blocks的卷積層以不同的剪枝比例進行剪枝，結(jié)果如表1和圖7所示，可以看出對模型進行剪枝操作后模型的RTF下降推理速度提高，但是模型的準確率也隨之下降。隨著剪枝比例的提升，模型的準確率急劇下降，在剪枝比例為0.35時，模型的CER已經(jīng)達到53.58%，此時模型CER過高，不適合實際應(yīng)用。

對模型完成以不同剪枝比例剪枝后，再對該模型進行8位整型量化，結(jié)果如表2和圖8所示，量化后的模型推理速度得到提升，隨著模型剪枝比例的增加，模型識別的CER也在提升。

如圖9所示比較了剪枝模型和剪枝加量化后的模型的CER，圖10比較了剪枝模型與剪枝加量化模型的RTF，從這兩個圖中可以看出對模型量化之后模型的準確率下降不明顯，但模型的推理速度有很大提升。

4.4.2 實驗B

在模型編碼器中以L1范數(shù)為標準，使用改進的剪枝算法對編碼器進行剪枝，按照Conformer Blocks排列的順序等間隔對第1、3、5、7、9和11個Conformer Blocks中卷積層進行通道剪枝并進行參數(shù)量化，結(jié)果如表3和圖11所示，隨著剪枝比例的提升，模型的RTF逐漸下降，模型的CER不斷上升。

如圖12所示，分別比較了兩個實驗對模型RTF的影響，可以看出隨著剪枝比例的增加，模型的RTF都受到了影響，但實驗B中的模型RTF較實驗A下降明顯，在剪枝比例大于0.15的情況下實驗B中模型的RTF均小于實驗A中模型的RTF。在圖13中可以看出隨著剪枝比例的增加，模型識別的準確率均發(fā)生了下降，并且對比兩個實驗，實驗A中模型CER的變化更為明顯，在剪枝比例不斷增加的情況下其模型的CER均大于實驗B中模型的CER，并且在實驗B中，剪枝比例為0.2時模型壓縮的效果最好。

4.4.3 對比結(jié)果

對比在剪枝比例為0.2時的不同模型性能（表2）。表4中，實驗A中只進行剪枝的模型較基線模型的RTF降低0.00191，CER上升了12.58%，實驗A中剪枝加量化的模型較基線模型的RTF下降0.01232，CER上升了12.93%；僅采用實驗B中的剪枝方法所得到的模型與基線模型相比RTF下降了0.00974，CER上升了0.81%，而使用實驗B中的剪枝加量化方法所得的模型，與基線模型相比RTF下降了0.02074，CER上升了1.71%，推理速度提升了16.2%。

基線模型的大小為207.91MB，壓縮后的模型大小為72.69MB，僅為基線模型大小的34.95%。由此可以看出，使用本文提出的模型壓縮方法的有效性。

5 結(jié)束語

本文針對在語音識別任務(wù)中的Conformer模型在資源受限設(shè)備上算力不足及資源缺乏的問題，提出了結(jié)合模型剪枝和模型量化的模型壓縮技術(shù)來提升模型的推理速度和減小模型大小。實驗表明，以L1范數(shù)作為判斷標準在剪枝比例為0.2時，用本文所提出的間隔剪枝和模型量化相結(jié)合的模型壓縮方法對基于語音識別的Conformer模型進行壓縮時效果最好，壓縮后的模型較基線模型的RTF下降了0.02074推理速度提升了16.2%，字錯率CER卻只下降了1.71%且模型大小僅為基線模型的34.95%，此時的模型在精度下降很小的情況下推理速度有較大的提升，模型大小縮減明顯，更適合于實際應(yīng)用的需要。

參考文獻（References）：

[1] Graves A， Jaitly N. Towards end-to-end speech recogni-tion with recurrent neural networks[C]//International conference on machine learning.PMLR，2014：1764-1772

[2] Miao Y， Gowayyed M， Metze F. EESEN： End-to-end speech recognition using deep RNN models and WFST-based decoding[C]//2015 IEEE Workshop on Automatic Speech Recognition and Understanding （ASRU）. IEEE，2015：167-174

[3] Lu L， Zhang X， Renais S. On training the recurrent neural?network encoder-decoder for large vocabulary end-to-end speech recognition[C]//2016 IEEE International Conference on Acoustics，Speech and Signal Processing （ICASSP）. IEEE，2016：5060-5064

[4] Vaswani A， Shazeer N， Parmar N， et al. Attention is all you need[J]. Advances in neural information processing systems，2017，30

[5] Dong L， Xu S， Xu B. Speech-transformer： a no-recurrence sequence-to-sequence model for speech recognition[C]//2018 IEEE International Conference on Acoustics， Speech and Signal Processing （ICASSP）. IEEE，2018：5884-5888

[6] Gulati A， Qin J， Chiu CC， et al. Conformer：? Convolution augmented transformer for speech recognition. Proceedings of the 21st Annual Conference of the International Speech Communication Association. Shanghai，2020：5036-5040

[7] Krizhevsky A， Sutskever I， Hinton G E. Imagenet classification with deep convolutional neural networks[J]. Advances in neural information processing systems，2012，25：1097-1105

[8] 高晗，田育龍，許封元，等.深度學(xué)習(xí)模型壓縮與加速綜述[J].軟件學(xué)報，2021，32（1）：25

[9] 吳衛(wèi)賢，趙鳴，黃曉丹.基于量化和模型剪枝的卷積神經(jīng)網(wǎng)絡(luò)壓縮方法[J].軟件導(dǎo)刊，2021，20（10）：6

[10] Hassibi B. Second Order Derivatives for Network Pruning：Optimal Brain Surgeon[C]//CiteSeer.CiteSeer，1992：164-171

[11] Li H， Kadav A， Durdanovic I， et al. Pruning filters for efficient convnets[J]. arXiv preprint arXiv：1608.08710，2016

[12] Gong Y，? Liu L，? Ming Y， et al. Compressing Deep Convolutional Networks using Vector Quantization[J]. Computer Science，2014

[13] Wu J， Leng C， Wang Y， et al. Quantized convolutional neural networks for mobile devices[C]//Proceedings of the IEEE conference on computer vision and pattern recognition，2016：4820-4828

[14] Choi Y， El-Khamy M， Lee J. Towards the limit of network quantization[J].arXiv preprint arXiv：1612.01543，2016

[15] Graves A， Fernández S， Gomez F， et al. Connectionist temporal classification：labelling unsegmented sequence data with recurrent neural networks[C]//Proceedings of the 23rd international conference on Machine learning，2006：369-376

[16] Gao Z，? Yao Y，? Zhang S， et al. Extremely Low Footprint End-to-End ASR System for Smart Device[C]// 2021

[17] Zhang B， Wu D， Yang C， et al. Wenet： Production first and production ready end-to-end speech recognition toolkit[J]. arXiv e-prints，2021： arXiv： 2102.01547

[18] Watanabe S ，? Hori T ，? Kim S ， et al. Hybrid CTC/Attention Architecture for End-to-End Speech Recognition[J]. Selected Topics in Signal Processing， IEEE Journal of，2017，11（8）：1240-1253

[19] Kim S， Hori T， Watanabe S. Joint CTC-attention based?end-to-end speech recognition using multi-task learning[C]//2017 IEEE international conference on acoustics， speech and signal processing （ICASSP）. IEEE，2017：4835-4839

*基金項目：山東省重大科技創(chuàng)新工程（2019JZZZY010120）；山東省重點研發(fā)計劃（2019GSF111054）

作者簡介：盧江坤（1996-），男，河北邢臺人，碩士研究生，主要研究方向：語音識別。