亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于殘差門控循環(huán)卷積和注意力機(jī)制的端到端光學(xué)樂譜識別方法

        2022-07-29 06:17:26孫弘揚(yáng)
        計算機(jī)與現(xiàn)代化 2022年7期
        關(guān)鍵詞:模型

        孫弘揚(yáng),王 尚

        (東華理工大學(xué)信息工程學(xué)院,江西 南昌 330013)

        0 引 言

        音樂是人類精神文明的瑰寶,是人類藝術(shù)的結(jié)晶,而樂譜是音樂傳承的載體,音樂家們可以通過樂譜記錄音樂作品,以便再一次演奏。即使在科學(xué)技術(shù)不斷發(fā)展的今天,要讓計算機(jī)也能“理解”樂譜,完成對文檔中音樂符號的讀取,實(shí)現(xiàn)樂譜的數(shù)字化,仍是一項(xiàng)巨大的挑戰(zhàn)。光學(xué)樂譜識別(Optical Music Recognition, OMR)[1]正是研究如何從樂譜圖像中解碼音樂信息的一種方法。它成為了保存音樂創(chuàng)作的重要工具,可促進(jìn)音樂文化的持久流傳,推動音樂智能化與數(shù)字化[2]。

        傳統(tǒng)的光學(xué)樂譜識別流程將整個識別過程劃分為4個階段[3],分別為:圖像預(yù)處理、音符識別、音樂信息重建和音符編碼表達(dá)。隨著深度學(xué)習(xí)研究的深入,學(xué)者們將深度學(xué)習(xí)方法應(yīng)用于樂譜識別的各個階段以優(yōu)化效果:對于樂譜圖像二值化,Calvo-Zaragoza等人[4]提出選擇性自編碼器學(xué)習(xí)樂譜圖像二值化轉(zhuǎn)換,其表現(xiàn)優(yōu)于傳統(tǒng)二值化方法,但是在前景像素邊緣易發(fā)生錯誤;傳統(tǒng)樂譜識別流程需要對譜線進(jìn)行去除或隔離,Calvo-Zaragoza等人[5]利用CNN將譜線檢測視作分類任務(wù),通過對音符和譜線的人工注釋,在ICDAR2013譜線去除數(shù)據(jù)集上進(jìn)行訓(xùn)練,使識別精度達(dá)到98.87%;在音符識別階段,Pacha等人[6]使用預(yù)訓(xùn)練Faster R-CNN網(wǎng)絡(luò)模型,針對MUSCIMA++數(shù)據(jù)集對模型進(jìn)行微調(diào),使模型對音符檢測的mAP達(dá)到80%。然而,傳統(tǒng)的樂譜識別流程在每個階段都被近似為單個子任務(wù),盡管通過對每一個步驟的優(yōu)化使整體識別性能提升,但由于錯誤傳遞、誤差累積存在,如譜線刪除的效果不佳容易導(dǎo)致譜線與音符交疊,從而給后續(xù)識別造成障礙,影響效果[7],且計算量較大,整體識別時間過長。

        此外,深度學(xué)習(xí)的發(fā)展[8-9]也促進(jìn)了OMR研究范式的轉(zhuǎn)換[10],學(xué)者們嘗試通過端到端的方式解決OMR問題,用單個模型取代傳統(tǒng)多階段的流程,避免不同階段錯誤積累。其原理主要分為2類:目標(biāo)檢測和序列識別。基于目標(biāo)檢測的方法一般先檢測出音符位置,再對音符進(jìn)行分類達(dá)到識別目的。Hajic jr.等人[11]通過U-Net[12]架構(gòu)對音符進(jìn)行分割,結(jié)合連通分量檢測器識別符頭;Tuggener等人[13]將深度分水嶺探測器與邊框檢測結(jié)相合,可以很好地對常見音符進(jìn)行識別,但對于拍號和斷音記號等不常見音符,識別精度不足50%?;谛蛄凶R別的方法直接將樂譜圖像視作序列進(jìn)行處理,隨后輸入循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行建模,模型預(yù)測出音符識別結(jié)果。Van der Wel等人[14]最先使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)和序列到序列(seq2seq)模型對單聲部樂譜進(jìn)行識別;Calvo-Zaragoza等人[15-16]采用Shi等人[17]提出的用于場景文本識別的卷積循環(huán)神經(jīng)網(wǎng)絡(luò)(CRNN)結(jié)構(gòu),以解決OMR問題。CRNN結(jié)構(gòu)由VGG結(jié)構(gòu)[18]的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,輸入循環(huán)神經(jīng)網(wǎng)絡(luò)[19]進(jìn)行序列建模,并通過連接序列分類[20]損失計算對模型進(jìn)行反向傳播。但樂譜中的音符往往分布不均,并且臨時記號、附點(diǎn)和倚音等與其他音符間隔較近,不能有效地提取音符的特征與上下文信息。

        針對上述問題,本文提出一種基于殘差門控循環(huán)卷積和注意力機(jī)制的端到端光學(xué)樂譜識別方法。殘差門控循環(huán)卷積為整個OMR系統(tǒng)提供更好的特征表示和更廣泛的上下文信息推導(dǎo),后續(xù)的Bi-GRU負(fù)責(zé)樂譜圖像特征序列建模,并結(jié)合基于注意力機(jī)制的解碼器完成特征表示和解碼對齊操作。為評估本文所提出模型的性能,采用包含印刷樂譜圖像及變形后的圖像的Camera-PrIMuS數(shù)據(jù)集[15]進(jìn)行訓(xùn)練和測試。

        1 模型結(jié)構(gòu)

        本章將對本文所提出的端到端模型中各個模塊進(jìn)行詳細(xì)介紹。

        1.1 殘差門控循環(huán)卷積編碼

        在基于CRNN框架的樂譜識別中,樂譜的特征提取由卷積神經(jīng)網(wǎng)絡(luò)完成,前饋模型存在只能捕獲單元中高維特征空間中的上下文信息的缺陷。本文在卷積神經(jīng)網(wǎng)絡(luò)中引入循環(huán)連接對視覺信號處理進(jìn)行上下文調(diào)制,使得網(wǎng)絡(luò)在高維空間也能獲得不同感受野信息輸入,兼顧不同尺度特征的提取。隨著網(wǎng)絡(luò)的迭代,感受野也不斷增大,可以獲取更大尺度上的視覺特征。但是對于樂譜圖像識別而言,感受野并不是越大越好。如圖1所示,當(dāng)網(wǎng)絡(luò)識別“升號”時,循環(huán)核可能會覆蓋到右側(cè)的“二分音符”上,這會對后續(xù)識別造成干擾。因此,受啟發(fā)于Wang等人[21]運(yùn)用于光學(xué)字符識別特征提取方法,本文提出一種門控循環(huán)卷積機(jī)制對神經(jīng)元進(jìn)行調(diào)制,以弱化來自無關(guān)上下文的信號。

        圖1 感受野示意圖

        門控循環(huán)卷積的原理見公式(1)。

        (1)

        (2)

        在公式(2)中,x(t)表示網(wǎng)絡(luò)第t層的內(nèi)部狀態(tài):當(dāng)t=0時,網(wǎng)絡(luò)中只有前饋輸入,與標(biāo)準(zhǔn)卷積神經(jīng)網(wǎng)絡(luò)一致;當(dāng)t>0時,門的輸出G(t)作用于網(wǎng)絡(luò)的循環(huán)分量,而G(t)又由前饋輸入和t-1時間步的狀態(tài)決定。sigmoid函數(shù)分布在[0,1]區(qū)間內(nèi),考慮2種極端情況:當(dāng)G(t)=1時,x(t)引入完全循環(huán)輸入,與標(biāo)準(zhǔn)循環(huán)卷積層一致;當(dāng)G(t)=0時,循環(huán)連接被舍棄,網(wǎng)絡(luò)又與標(biāo)準(zhǔn)卷積層一致。門的引入達(dá)到對上下文信息的動態(tài)調(diào)制,避免干擾。

        本文提出的殘差門控循環(huán)卷積結(jié)構(gòu)整合了殘差網(wǎng)絡(luò)[22]和門控循環(huán)卷積神經(jīng)網(wǎng)絡(luò)(GRCNN)[21]的特點(diǎn),其結(jié)構(gòu)如圖2所示。1×1卷積操作[23]用于減少輸入的通道數(shù)(僅在首個單元出現(xiàn)),緊接著2個t=2的循環(huán)卷積單元,通過循環(huán)機(jī)制的特征積累來豐富樂譜圖像的音符特征。

        圖2 殘差門控循環(huán)卷積塊結(jié)構(gòu)

        圖2中,門控循環(huán)卷積單元的詳細(xì)結(jié)構(gòu)如圖3所示。首先,將通道縮減后的圖像作為第一個門控循環(huán)卷積單元的前饋輸入,在t=0時間步,使用大小為3×3的卷積核進(jìn)行卷積,通過批標(biāo)準(zhǔn)化操作以提高模型訓(xùn)練效率,采用ReLU函數(shù)進(jìn)行激活;其次,引入門控循環(huán)輸入再進(jìn)行2次循環(huán)卷積,不同的循環(huán)卷積層之間共享權(quán)重,最后得到門控循環(huán)卷積單元的輸出。在整個塊的最后,引入殘差網(wǎng)絡(luò)的跨層連接,使網(wǎng)絡(luò)在易于訓(xùn)練的同時,防止可能出現(xiàn)的退化問題,從而獲得整個塊的輸出。

        圖3 門控循環(huán)卷積單元展開結(jié)構(gòu)

        1.2 基于注意力機(jī)制的解碼

        注意力機(jī)制(Attention Mechanism, AM)[24],可以理解為計算機(jī)視覺系統(tǒng)在模擬人類視覺系統(tǒng)中選擇性地關(guān)注所有目標(biāo)信息的重點(diǎn)部分,同時忽略抑制其他無用的信息。在深度學(xué)習(xí)領(lǐng)域,注意力機(jī)制在語音識別[25]、場景文本識別[26]等領(lǐng)域得到廣泛的應(yīng)用。本文采用Chorowski等人[27]提出的基于位置的注意力,它根據(jù)生成器和對齊來計算當(dāng)前步的對齊,其原理見公式(3):

        αi=Attend(si-1,αi-1)

        (3)

        其中,si-1是循環(huán)神經(jīng)網(wǎng)絡(luò)第i-1步狀態(tài),被稱作生成器,αi∈L為注意力權(quán)重向量,被稱作對齊。

        在樂譜識別中,注意力機(jī)制與RNN結(jié)構(gòu)一同作用作為預(yù)測解碼模塊。具體來說,注意力機(jī)制可以通過參考Bi-GRU單元輸出的特征向量權(quán)重,對預(yù)測結(jié)果中可能性更大的特征進(jìn)行凸顯。表現(xiàn)在本文的樂譜識別任務(wù)中,注意力機(jī)制主要負(fù)責(zé)凸顯音符特征的隱藏狀態(tài),并將音符特征表示與解碼步驟對齊。

        1.3 端到端光樂譜識別方法

        一些現(xiàn)有研究表明,將單聲部樂譜不進(jìn)行符號分割或譜線刪除等預(yù)處理操作,而直接輸入進(jìn)行端到端識別是具有可操作性的[15,28-29]。端到端的樂譜圖像識別是將輸入的樂譜視作由音符組成的序列,通過檢索每一音符概率最大的輸出路徑,完成對樂譜的識別。

        圖4 端到端樂譜識別模型

        本文基于對殘差門控循環(huán)卷積和注意力機(jī)制的認(rèn)識,將二者結(jié)合提出端到端的光學(xué)樂譜識別方法,并依此構(gòu)建網(wǎng)絡(luò)模型,端到端框架的樂譜識別方案如圖4所示。首先,將單聲部樂譜的圖像直接作為殘差門控循環(huán)卷積遞歸神經(jīng)網(wǎng)絡(luò)的輸入;其次,將提取的特征表示由圖轉(zhuǎn)為序列輸入Bi-GRU中進(jìn)行序列建模;接著,使用基于位置的注意力,區(qū)分同一符號在不同時刻位置的特征的不同表示,注意力機(jī)制負(fù)責(zé)將音符特征表示與解碼步驟對齊。最后,解碼器模塊由單向多層GRU組成。解碼器按照順序提供已識別的符號,在每個時間步中,解碼器GRU接收其前一時間步和當(dāng)前上下文向量的連接,以預(yù)測音符。采用注意力機(jī)制的解碼器,一方面可以通過多個解碼路徑以獲得最終預(yù)測音符編碼,另一方面,采用標(biāo)簽平滑提高泛化性能[30],防止過度自信的預(yù)測分布出現(xiàn)。

        具體訓(xùn)練時,將輸入樂譜圖像高度固定為128像素,寬度按等比例重新縮放[31]。然后,通過由4個殘差門控循環(huán)單元組成的骨干網(wǎng)絡(luò)進(jìn)行特征提取。每個殘差門控循環(huán)單元由1個1×1的卷積核、2個采用3×3卷積核的門控循環(huán)卷積塊和1個窗口大小為2×2的最大匯聚下采樣算子構(gòu)成,完成樂譜圖像的特征編碼。接著,將編碼結(jié)果輸出作為256個神經(jīng)元的2個Bi-GRU的輸入,Bi-GRU產(chǎn)生離散的音樂符號序列。表1為改進(jìn)后網(wǎng)絡(luò)的結(jié)構(gòu)參數(shù)。

        表1 改進(jìn)后網(wǎng)絡(luò)的結(jié)構(gòu)參數(shù)

        2 模型訓(xùn)練過程

        2.1 實(shí)驗(yàn)數(shù)據(jù)集

        眾所周知,深度學(xué)習(xí)任務(wù)是由數(shù)據(jù)驅(qū)動的,模型的能力會隨著經(jīng)驗(yàn)數(shù)據(jù)的積累而得到不斷演化和提升。為滿足這些要求,本文的端到端識別系統(tǒng)采用模擬相機(jī)拍攝的單行印刷體樂譜圖像Camera-PrIMuS(Camera-Printed Images of Music)[15]數(shù)據(jù)集。該數(shù)據(jù)集包含87678張干凈樂譜圖像和相同數(shù)量的合成失真圖像,以還原真實(shí)相機(jī)拍攝的場景。實(shí)驗(yàn)中將數(shù)據(jù)集劃分為3個部分,其中80%的數(shù)據(jù)作為訓(xùn)練集,10%的數(shù)據(jù)作為測試集,剩余的10%作為驗(yàn)證集。

        對于數(shù)據(jù)集中每張圖片,有2種表現(xiàn)編碼方式與之對應(yīng)來實(shí)現(xiàn)樂譜圖像的識別目的,如圖5所示。一種是音樂語義編碼,其編碼方式包含音樂意義,如圖5(c)所示,“F大調(diào)調(diào)號”被記作“keySignature-FM”。另一種是語義無關(guān)編碼,其編碼方式主要根據(jù)不同音符的圖形特點(diǎn),如圖5(d)。在這種編碼方式中,“E大調(diào)調(diào)號”會被表示為4個“升號”構(gòu)成的序列。

        (a) 原始樂譜

        2.2 訓(xùn)練過程

        本文中實(shí)驗(yàn)環(huán)境配置為:Intel(R) Core(TM) i7-9700K CPU,16 GB RAM,Nvidia GTX2070 8G GPU, Ubuntu18.04 LTS操作系統(tǒng),深度學(xué)習(xí)框架Pytorch 1.8.0版本。模型在訓(xùn)練時樂譜圖像高度固定為128像素,寬度按等比例重新縮放,初始學(xué)習(xí)率設(shè)置為0.001,批處理量(batch size)設(shè)置為16,訓(xùn)練輪數(shù)(epochs)設(shè)置為100,并采用Adam算法進(jìn)行優(yōu)化。

        2.3 評價指標(biāo)

        樂譜識別任務(wù)和采用的具體方法,相較于其他計算機(jī)視覺領(lǐng)域,在評價指標(biāo)上沒有形成統(tǒng)一的標(biāo)準(zhǔn)[11],本文采用與Calvo-Zaragoza等人[15]提出的基線方法中的音符錯誤率和序列錯誤率2項(xiàng)指標(biāo)對模型性能進(jìn)行評估。

        音符錯誤率(Symbol Error Rate, Sym-ER):表示從模型預(yù)測輸出音符編碼序列到真值序列的編輯距離的平均值與真值序列長度的比例。其數(shù)學(xué)表示如公式(4)所示。

        (4)

        其中,編輯距離為插入(I)、刪除(D)與替換操作(S)之和,N為序列長度。

        序列錯誤率(Sequence Error Rate, Seq-ER):表示模型預(yù)測輸出的錯誤序列E占全部測試序列T的比例,序列中任何一項(xiàng)音符識別錯誤均視作序列錯誤。其數(shù)學(xué)表示如公式(5)所示。

        (5)

        二者可以從2個不同維度對模型預(yù)測性能做出評判,音符錯誤率從具體譜例著眼,引入編輯距離這一常見評價參數(shù)進(jìn)行差異程度的量測;序列錯誤率從整個測試集著眼,能更直觀地對整體預(yù)測識別性能提供參考。

        3 實(shí)驗(yàn)結(jié)果與分析

        本文對不同的訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)進(jìn)行組合,均輸出語義和語義無關(guān)2種編碼形式結(jié)果,詳細(xì)數(shù)據(jù)比較見表2。從表2中數(shù)據(jù)可以得知,在不同的訓(xùn)練與測試場景下,本文提出的方法在識別性能上均優(yōu)于原CRNN模型,特別是當(dāng)采用變形樂譜在原始樂譜上訓(xùn)練出的模型測試時,輸出語義無關(guān)編碼的符號錯誤率和序列錯誤率由44.3%和95.1%下降至9.86%和32.8%,這也表明本文所提出的模型有較好的泛化性。

        表2 各條件下本文方法與原CRNN方法的音符錯誤率/序列錯誤率對比 單位:%

        由于本文模型是將樂譜識別為對應(yīng)編碼序列,無法直觀地顯示識別結(jié)果。對此,本文采用Verovio軟件[32]對編碼進(jìn)行渲染還原為樂譜圖像,以便從樂譜圖像層面對結(jié)果進(jìn)行比較。從圖6中可以看到,當(dāng)采用變形樂譜進(jìn)行測試時,輸入是模糊不清的,原CRNN結(jié)構(gòu)網(wǎng)絡(luò)錯誤地將還原記號識別為升號,而本文的方法能夠?qū)纷V圖中的音符準(zhǔn)確識別,這也證明本文方法的有效性。

        圖6 識別結(jié)果示例

        此外,將本文方法與其他有代表性的OMR方法進(jìn)行對比實(shí)驗(yàn),結(jié)果如表3所示??梢钥闯霰疚姆椒ㄔ诜栧e誤率和序列錯誤率上均具有較好效果。Tuggener等人[13]的方法在針對不同種類音符時存在較大差異,例如,它在附點(diǎn)等小型符號上表現(xiàn)較好,但對于不常見符號及交疊符號不能很好識別,Van der Wel等人[14]的方法在音符種類識別上具有較好性能,但對于音高的識別上不夠理想,且上述2種方法均無法直接將樂譜圖像轉(zhuǎn)化為數(shù)字格式,實(shí)際應(yīng)用價值較低。而本文方法能夠?qū)纷V圖像進(jìn)行端到端識別,在未來實(shí)際應(yīng)用上具有可操作性。

        表3 與其他OMR方法的對比

        4 結(jié)束語

        本文針對CRNN架構(gòu)下的卷積神經(jīng)網(wǎng)絡(luò)不能有效提取對于識別任務(wù)有用的音符及其上下文信息的問題,提出一種改進(jìn)方法。首先,通過殘差門控循環(huán)卷積神經(jīng)網(wǎng)絡(luò),提取樂譜圖像特征,殘差門控循環(huán)卷積為整個OMR系統(tǒng)帶來更好的特征表示和更廣泛的上下文信息推導(dǎo);其次,將提取的特征圖轉(zhuǎn)換為特征序列輸入Bi-GRU中進(jìn)行序列建模;最后,通過注意力機(jī)制解碼器,使音符特征信息更受關(guān)注,并將音符特征表示與解碼步驟對齊,采用注意力機(jī)制的解碼器,不僅獲得最終預(yù)測音符編碼,也防止過度自信的預(yù)測分布出現(xiàn)。實(shí)驗(yàn)結(jié)果表明,相比CRNN模型,本文提出的殘差門控循環(huán)卷積塊的端到端模型,在符號錯誤率和序列錯誤率2方面,均顯著地下降,且本文方法能夠直接將樂譜圖像轉(zhuǎn)化為數(shù)字格式,具有一定實(shí)用價值。

        但由于實(shí)驗(yàn)中僅采用生成的樂譜圖像用于模擬真實(shí)場景下的樂譜識別,且識別對象為單聲部樂譜圖像,因此,下一步的研究方向主要集中于手寫體樂譜和更為復(fù)雜的多聲部樂譜2個方面,從而提高整個OMR系統(tǒng)的魯棒性。

        猜你喜歡
        模型
        一半模型
        一種去中心化的域名服務(wù)本地化模型
        適用于BDS-3 PPP的隨機(jī)模型
        提煉模型 突破難點(diǎn)
        函數(shù)模型及應(yīng)用
        p150Glued在帕金森病模型中的表達(dá)及分布
        函數(shù)模型及應(yīng)用
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        3D打印中的模型分割與打包
        日本xxxx色视频在线观看| 无码伊人久久大杳蕉中文无码| 久久99精品免费国产| 亚洲日本一区二区三区四区| 国产两女互慰高潮视频在线观看| 曰本女人牲交全视频免费播放| 亚洲中文字幕巨乳人妻| 久久午夜一区二区三区| 少妇性l交大片7724com| 亚洲一线二线三线写真| 四虎成人精品国产一区a| 麻豆av毛片在线观看| 亚洲码欧美码一区二区三区| 日韩亚洲av无码一区二区三区| 久久久99精品成人片中文字幕| 国产一区二区在线观看av| 米奇欧美777四色影视在线| 五级黄高潮片90分钟视频| 在线观看网址你懂的| 国产视频一区二区三区免费| 国产精品亚洲精品日韩已方| 亚洲中文字幕无码久久| 少妇粉嫩小泬喷水视频www| 色爱区综合激情五月综合小说| 日韩一区二区三区中文字幕| 亚洲精品在线免费视频| 久久久无码人妻精品无码| 伊人网在线视频观看| 白色白色在线视频播放平台| 人妻丝袜中文无码av影音先锋专区| 亚洲精品网站在线观看你懂的| 国产av无码专区亚洲草草| 一级老熟女免费黄色片| 妺妺窝人体色www聚色窝 | 女女同性黄网在线观看| 精品一区二区三区牛牛| 亚洲日韩精品无码专区网址| 区二区欧美性插b在线视频网站| 中文字幕日本女优在线观看| 在线观看视频日本一区二区| 乌克兰少妇xxxx做受野外|