陳琢 吳亞聯(lián) 何婕
摘 要:針對(duì)傳統(tǒng)五線譜識(shí)別方法存在譜線過刪和漏刪的缺點(diǎn),以及現(xiàn)有音符特征提取方法與譜線刪除相互制約的問題,提出一種改進(jìn)的、無需刪除譜線的特征提取方法。在圖像預(yù)處理階段保留譜線,將音符與譜線同時(shí)投影,結(jié)合音符符桿垂直像素?cái)?shù)據(jù)與音符其它部位像素?cái)?shù)據(jù)攜帶的映射特征,對(duì)橫縱向投影數(shù)據(jù)進(jìn)行數(shù)理統(tǒng)計(jì)分析,得到供音符類型識(shí)別的歸一化特征值,再利用基準(zhǔn)譜線與音符符頭的相對(duì)位置獲取音調(diào)信息。實(shí)驗(yàn)結(jié)果表明,該方法在保證較高識(shí)別精度的基礎(chǔ)上,進(jìn)一步提高了識(shí)別速率,可以有效識(shí)別音符組合形式較復(fù)雜的樂譜,對(duì)于五線譜識(shí)別應(yīng)用具有重要意義。
關(guān)鍵詞:五線譜識(shí)別;特征提取;映射特征;橫縱向投影;歸一化特征值
DOI:10. 11907/rjdk. 182639
中圖分類號(hào):TP319
文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1672-7800(2019)006-0125-05
Abstract:Concerning the excessive-deleting problem and leaky-deleting problem that existed in spectral delete of traditional recognition of music score, and the mutual restraint between the feature extraction algorithm of notes and the lines delete, a novel feature extraction algorithm is proposed, which preserves the spectral lines. We preserved the spectral lines in image?preprocessing and projected the notes and spectral lines at the same time. Combined with the mapping characteristics carried by the vertical pixel data of notes rod and pixel data of other parts of notes, performing basic mathematical statistical analysis on the horizontal and vertical projection data, the normalized feature values for musical note type recognition are obtained. Then we used the relative location between the standard lines and notes head to obtain the tone information. The results of the simulation illustrate that the proposed algorithm is a feasible way to recognize more complex combinations of notes and improve the recognition rate under the premise of ensuring high recognition accuracy.
Key Words:recognition of musical notation; feature extraction; mapping characteristics; horizontal and vertical projection; normalized feature
0 引言
五線譜是目前世界通用的一種記譜法,通過在五根等距離的平行橫線上標(biāo)以不同時(shí)值的音符及其它記號(hào)記載樂曲。隨著音樂產(chǎn)業(yè)的快速發(fā)展和五線譜的廣泛應(yīng)用,五線譜自動(dòng)識(shí)別需求也越來越迫切。五線譜識(shí)別與數(shù)字簡(jiǎn)譜識(shí)別有很大差別:①相較于簡(jiǎn)譜,五線譜基本符號(hào)更多,并且基本符號(hào)之間可以構(gòu)成復(fù)雜的組合形式。符號(hào)作為五線譜重要的特征點(diǎn),在識(shí)別過程中有非常重要的作用;②同一個(gè)符號(hào)在五根譜線中的位置不同,表達(dá)的音樂特性也不同,而簡(jiǎn)譜中音符位置不含音樂相關(guān)信息。相比于簡(jiǎn)譜,五線譜的復(fù)雜多變使其具有更豐富的音樂表現(xiàn)力,但同時(shí)也給五線譜自動(dòng)識(shí)別帶來了更大挑戰(zhàn)。
國(guó)內(nèi)外許多學(xué)者對(duì)五線譜識(shí)別進(jìn)行了研究[1-7],其中使用較廣泛的五線譜識(shí)別方法是先進(jìn)行圖像預(yù)處理,再提取音符特征進(jìn)行音符識(shí)別,然后提取樂譜記號(hào)特征進(jìn)行樂譜記號(hào)識(shí)別,最后根據(jù)音符在譜線中的位置得到該音符的音調(diào)。五線譜識(shí)別基本流程如圖1所示。
目前常用的圖像預(yù)處理方法均需刪除譜線,譜線刪除方法有直線穿越檢測(cè)法[8-9]、游程分析法[10-12]。直線穿越檢測(cè)法的優(yōu)勢(shì)在于可一定程度上避免過刪除,缺點(diǎn)是計(jì)算過于復(fù)雜,并且存在刪除不完全的情形;游程分析法是一種被廣泛使用的譜線刪除方法,其首先對(duì)圖像進(jìn)行垂直游程編碼,然后找出譜線位置附近的游程,刪除其中厚度小于某個(gè)閾值(通常取2倍譜線線寬)的游程。其優(yōu)點(diǎn)是實(shí)現(xiàn)簡(jiǎn)單、處理速度快,缺點(diǎn)是過刪現(xiàn)象較嚴(yán)重。在真實(shí)的五線譜中,譜線與其它對(duì)象交叉粘連的情況錯(cuò)綜復(fù)雜,過刪和漏刪會(huì)引起后續(xù)音符及樂譜記號(hào)特征提取計(jì)算誤差。
關(guān)于音符特征提取,常用方法有鏈碼識(shí)別方法[13-14]、數(shù)學(xué)形態(tài)學(xué)法[15-17]、模板匹配方法[18-19]。鏈碼識(shí)別方法首先對(duì)音符采取骨架化[20-21]處理,對(duì)各個(gè)節(jié)點(diǎn)求取鏈碼差分碼后綜合判別,缺點(diǎn)在是骨架化過程中,對(duì)噪聲和粘連非常敏感,交點(diǎn)處會(huì)發(fā)生畸變,所以必須建立在譜線刪除的基礎(chǔ)上才能應(yīng)用,且復(fù)雜音符組合粘連性太過嚴(yán)重也不便于分析。依據(jù)數(shù)學(xué)形態(tài)法構(gòu)造垂線結(jié)構(gòu)元素抽取符桿與橢圓盤結(jié)構(gòu)元素抽取符頭,以平行四邊形結(jié)構(gòu)抽取粘連于符桿間的尾橋,但涉及大量像素操作,處理速度慢。模板匹配法根據(jù)音符的直觀形狀設(shè)計(jì)光柵模板,利用相關(guān)匹配原理進(jìn)行目標(biāo)搜索,選出匹配程度較高的區(qū)域作為抽取結(jié)果。該方法直觀明了,對(duì)于粘連有很強(qiáng)的魯棒性,主要缺陷在于計(jì)算開銷大,刪除譜線時(shí)殘存的譜線像素使音符原有形狀特征退化,導(dǎo)致匹配結(jié)果不可靠。
五線譜樂譜記號(hào)可分為3類,第一類為文字,如作者、曲名等;第二類為點(diǎn)、線圖,如附點(diǎn)、小節(jié)線等;第三類為樂譜專用符號(hào),如譜號(hào)、休止符等。由于各類型間形狀相差大,因此需要先對(duì)它們進(jìn)行分割再提取特征。但樂譜記號(hào)不會(huì)有方向翻轉(zhuǎn)、記號(hào)組合等復(fù)雜變換,且尺寸固定,所以無需復(fù)雜的處理方法,文獻(xiàn)[22]提出了較好的樂譜記號(hào)識(shí)別解決方案。
針對(duì)刪除譜線帶來的問題及現(xiàn)有音符特征提取存在的問題,本文利用譜線垂直投影后像素?cái)?shù)據(jù)特征仍然保留的特點(diǎn),提出一種無需刪除譜線的音符特征提取方法。該方法結(jié)合符桿與音符其它部位的像素統(tǒng)計(jì)數(shù)據(jù)得到特征提取公式,一方面大幅降低了前期刪除譜線的時(shí)耗和不夠精準(zhǔn)的譜線刪除引起的后續(xù)誤差累計(jì),另一方面不受音符組合變化帶來的影響,可提高識(shí)別速率。
1 圖像預(yù)處理
將圖2所示樂譜處理成二值圖像的樂譜,再進(jìn)行垂直投影,結(jié)果如圖3所示。
觀察樂譜與其垂直投影分布圖可以發(fā)現(xiàn)以下特點(diǎn):
(1)投影分布圖中像素統(tǒng)計(jì)值特別突出的各個(gè)位置恰好對(duì)應(yīng)樂譜中一個(gè)音符或者小節(jié)線。利用該特征便于找到每一個(gè)音符(或其它符號(hào))的位置。
(2)同一種音符的不同組合形式對(duì)垂直投影分布特征影響不大,所以在考慮音符模板時(shí),不必為了顧及識(shí)別精度而列出同一種音符的每一種存在形式,從而可有效減少模板數(shù)量,大幅提高匹配速度。
(3)不同類型的音符垂直投影分布特征有明顯區(qū)別,且其區(qū)別比同種音符不同呈現(xiàn)形式間的區(qū)別更大。該特點(diǎn)可作為區(qū)別不同音符(或符號(hào))的有利判據(jù)。
根據(jù)上述第一個(gè)特點(diǎn),可對(duì)原有樂譜上的音符(或符號(hào))進(jìn)行定位分割,得到一系列包含音符(或符號(hào))的矩形單元,設(shè)其中一個(gè)矩形單元如圖4所示。
其中[yn]為第n行上黑色像素的統(tǒng)計(jì)值。水平投影分布圖中統(tǒng)計(jì)值最為突出的5個(gè)位置為五條譜線的所在位置。平滑圓頂峰值所在位置為該音符符頭水平所在位置。根據(jù)符頭與五線譜的相對(duì)位置可以判斷出該音符的音調(diào)信息,而符頭和譜線位置的確定只需基本的數(shù)據(jù)分析手段便可快速判斷出來。
2 音符特征提取
2.1 傳統(tǒng)特征提取算法
鏈碼識(shí)別方法采用各種邊界腐蝕操作,逐層削去圖像外邊界像素點(diǎn)與產(chǎn)生單像素寬的骨架點(diǎn),并將其轉(zhuǎn)化成鏈碼表示,然后通過折線擬合將鏈碼矢量化為短線段,最后從短線段中識(shí)別出直線。鏈碼識(shí)別方法可有效抽取簡(jiǎn)單音符中的線型基元,例如符桿和尾橋,該方法對(duì)噪聲和粘連非常敏感,并且交點(diǎn)處會(huì)形成畸變,因此在處理相交密集、有粘連的復(fù)雜音符時(shí)收效并不明顯。模板匹配方法根據(jù)基元的直觀形狀設(shè)計(jì)光柵模板,利用相關(guān)匹配原理進(jìn)行目標(biāo)搜索,選出匹配程度較高的區(qū)域作為抽取結(jié)果,常用于檢測(cè)尺寸固定的音符部位,如符頭和符尾。該方法直觀明了、對(duì)于粘連有很強(qiáng)的魯棒性,主要缺陷在于:①需要計(jì)算模板和樂譜圖像在所有可能位移上的相似度,計(jì)算開銷大、非常耗時(shí);②由于樂譜磨損、音符環(huán)境干擾及刪除譜線時(shí)殘存譜線像素,會(huì)引起音符原有形狀特征退化,導(dǎo)致匹配結(jié)果不可靠;③在不同版式的樂譜中,同一符號(hào)的形狀可能存在差異,模板匹配方法對(duì)其較敏感。
傳統(tǒng)特征提取算法對(duì)于噪聲和音符粘連敏感,無法有效處理復(fù)雜組合音符,刪除譜線殘留的譜線像素會(huì)破壞音符原有形狀特征。針對(duì)該問題,提出改進(jìn)的特征提取算法。
2.2 改進(jìn)的特征提取算法
在五線譜中,非音符的符號(hào)常以固定形式出現(xiàn),因此對(duì)該類符號(hào)進(jìn)行識(shí)別較為簡(jiǎn)便,如最基本的特征匹配算法。但對(duì)于變化相對(duì)復(fù)雜許多的音符而言,該類特征匹配算法難以有效提取組合音符特征、準(zhǔn)確識(shí)別音符類型。為保證識(shí)別精度與識(shí)別速率,本文根據(jù)音符矩形單元垂直投影后符桿像素部分突出的特點(diǎn),尋找符桿像素與音符其它部位像素的數(shù)量關(guān)系,構(gòu)建歸一化特征值。
圖像分割后得到一系列僅包含一個(gè)符號(hào)的N*N的子圖,假設(shè)某一子圖的模型結(jié)構(gòu)如圖7所示。
該特征提取算法的優(yōu)點(diǎn)體現(xiàn)在3個(gè)方面:①特征值提取過程十分簡(jiǎn)單,時(shí)間復(fù)雜度低;②在投影過程中沒有刪除譜線,充分保留音符特征,避免了刪除譜線引起的破壞音符特征的問題;③特征值在垂直投影的基礎(chǔ)上,進(jìn)一步縮小了同種音符不同表現(xiàn)形式之間的差異,可高效識(shí)別復(fù)雜組合音符與五線譜符號(hào)類型。
3 音調(diào)判斷算法
音符類型被識(shí)別后,若識(shí)別結(jié)果為某種音符類型,將根據(jù)分割的子圖水平投影數(shù)據(jù),進(jìn)一步分析音調(diào)。音調(diào)是根據(jù)符頭在五線譜中的位置判斷而來,每一個(gè)位置代表一個(gè)音調(diào)。確定一條基準(zhǔn)譜線,從符頭和基準(zhǔn)譜線的相對(duì)位置判斷音調(diào),無需確定符頭在五線譜的位置。音調(diào)分析過程可分為以下4個(gè)步驟:
步驟1 對(duì)子圖進(jìn)行水平投影得到水平投影數(shù)據(jù)[yi],[i]為水平像素總數(shù);
步驟2 在[yi]中,通過找到最大的統(tǒng)計(jì)值在五根譜線的位置,算出譜線間距平均值,將其作為譜線間距[d],并確定一條音調(diào)為T譜線作為基準(zhǔn)譜線,其水平位置為[Ls];
步驟3 根據(jù)[yi]的局部數(shù)據(jù)特征區(qū)別符尾和符頭,從而定位符頭水平位置,并將該位置記為[Lh];
4 實(shí)驗(yàn)結(jié)果與分析
4.1 有效性驗(yàn)證
實(shí)驗(yàn)運(yùn)行環(huán)境為Windows 7、2.3 GHz Intel處理器、4GB內(nèi)存、基于MatlabR2014b的開發(fā)平臺(tái)。從圖1中截取部分樂譜,如圖8所示,對(duì)其中3種較為相似的音符進(jìn)行特征值提取。3種音符分別是:①附點(diǎn)八分音符;②十六分音符;③八分音符。
由表1可以看出,在3種相似但不同的音符類型之間,特征值存在明顯差異;從八分音符角度分析,前兩個(gè)音符與第3個(gè)音符在位置和形式上有明顯差異,但該差異給特征值造成的誤差卻非常小,該組特征值方差僅為0.000 057 66??梢园l(fā)現(xiàn)同一種音符在五線譜上不同位置和不同形式,并不會(huì)給特征值造成較大誤差,從而驗(yàn)證了本文特征值提取算法的有效性。
4.2 五線譜識(shí)別測(cè)評(píng)
在相同的測(cè)試環(huán)境下,應(yīng)用本文特征提取方法和傳統(tǒng)特征提取方法進(jìn)行五線譜識(shí)別,并對(duì)識(shí)別結(jié)果進(jìn)行對(duì)比分析。
實(shí)驗(yàn)運(yùn)行環(huán)境為Windows 7、2.3 GHz Intel處理器、4GB內(nèi)存、基于Visual Studio2010開發(fā)平臺(tái),實(shí)驗(yàn)代碼采用C語(yǔ)言編寫。將10個(gè)由專業(yè)制譜軟件制作的音符圖作為模板圖,見圖12;將3幅由專業(yè)制譜軟件制作的五線譜作為測(cè)試譜,如圖13-圖15所示。
從樂譜中隨機(jī)截取10個(gè)音符作為模板圖,分別為八分休止符、八分音符、二分音符、附點(diǎn)八分音符、四分音符、附點(diǎn)四分音符、連續(xù)八分音符、全音符、十六分音符與附點(diǎn)二分音符,這10個(gè)音符用作3幅測(cè)試譜的匹配模板已足夠。圖13完全由非組合音符構(gòu)成,圖14加入了大量組合音符,圖15則由各類音符隨機(jī)組合而成,并加入大量非音符符號(hào)作為干擾,用于模擬一般情況下五線譜隨機(jī)性和復(fù)雜性。
實(shí)驗(yàn)代碼包括應(yīng)用傳統(tǒng)特征提取方法的五線譜識(shí)別算法代碼與應(yīng)用改進(jìn)特征提取方法的五線譜識(shí)別算法代碼,在Visual Studio2010開發(fā)平臺(tái)上運(yùn)行實(shí)驗(yàn)代碼,加載3幅測(cè)試譜,輸出得到音符特征值和音調(diào)信息。將輸出結(jié)果與音符模板圖的音符特征值及測(cè)試譜音調(diào)信息進(jìn)行比較,計(jì)算音符識(shí)別正確率和音調(diào)判別正確率,數(shù)據(jù)見表2。
通過對(duì)表2分析,可以得出:從測(cè)試譜1到3,應(yīng)用傳統(tǒng)特征提取方法識(shí)別五線譜的音符正確率呈下降趨勢(shì),本文方法保持相對(duì)穩(wěn)定的音符識(shí)別正確率。測(cè)試譜2與測(cè)試譜3由許多組合音符構(gòu)成,傳統(tǒng)算法由于對(duì)音符粘連的敏感性,無法有效識(shí)別組合音符,而本文方法在測(cè)試譜2和3中的音符識(shí)別正確率比傳統(tǒng)方法高7%-10%,可有效識(shí)別組合音符。對(duì)于同一幅測(cè)試譜,本文算法在音調(diào)識(shí)別準(zhǔn)確率上比傳統(tǒng)算法高約15%,傳統(tǒng)五線譜識(shí)別在刪除譜線后,對(duì)音符原有形狀會(huì)造成一定破壞,給后續(xù)還原五線譜判斷音調(diào)帶來極大誤差。本文一直保留五根譜線,所以只需計(jì)算符頭與本文給出的基準(zhǔn)譜線相對(duì)位置即可得出音調(diào)??傮w而言,本文方法在簡(jiǎn)單音符識(shí)別、組合音符識(shí)別和音調(diào)判斷上均優(yōu)于傳統(tǒng)特征提取方法。
5 結(jié)語(yǔ)
本文首先將樂譜進(jìn)行不刪譜圖像的預(yù)處理,結(jié)合音符符桿垂直像素?cái)?shù)據(jù)與音符其它部位像素?cái)?shù)據(jù)攜帶的映射特征得到音符特征值,再利用基準(zhǔn)譜線與音符符頭的相對(duì)位置得到音調(diào)信息。實(shí)驗(yàn)結(jié)果表明,本文提出的特征提取算法有效。對(duì)比傳統(tǒng)特征提取算法和匹配算法,本文算法充分利用符桿位置與垂直投影數(shù)據(jù)構(gòu)造高區(qū)分度特征值,為后續(xù)音符類別匹配提供了具有高區(qū)分度的數(shù)據(jù),解決了傳統(tǒng)算法無法有效識(shí)別組合音符的問題。在音符類別確定后,利用基準(zhǔn)譜線與符頭相對(duì)位置可有效確定音高。
未來將對(duì)樂譜結(jié)構(gòu)更為復(fù)雜的復(fù)調(diào)性樂譜識(shí)別作進(jìn)一步研究,尋求一種嚴(yán)謹(jǐn)高效的復(fù)調(diào)樂譜全局整合策略,進(jìn)一步增強(qiáng)樂譜識(shí)別技術(shù)的實(shí)用性。
參考文獻(xiàn):
[1] BLOSTEIN D. Using diagram generation software to improve diagram recognition: a case study of music notation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,1999,21(11):1121-1136.
[2] ROSSANT F,BLOCHB I. A fuzzy model for optical recognition of musical scores[J]. Fuzzy Sets and Systems, 2003,141(2):165-201.
[3] ROSSANT F. A global method for music symbol recognition in typeset music sheets[J]. Pattern Recognition Letters,2002,23(10):1129-1141.
[4] MIYAO H,NAKANO Y. Note symbol extraction for printed piano scores using neural networks[J]. IEICE Transactions on Information and Systems,1996,E79-D(5):548-554.
[5] FAHMY H. A graph-rewriting approach to discrete relaxation application to music recognition[C]. Proceedings of SPIE,1994:291-302.
[6] 張登盛,馬頌德.多聲部樂譜圖像識(shí)別系統(tǒng)[J]. 計(jì)算機(jī)工程,1998,24(3):41-43.
[7] 王林泉,章文怡. 區(qū)域特征的樂譜識(shí)別系統(tǒng)[J]. 軟件學(xué)報(bào),1994,5(11):44-49.
[8] RANDRIAMAHEFA R,COCQUEREZ J P,F(xiàn)LUHR C,et al. Printed music recognition [C]. Proceedings of the 2nd IEEE International Conference on Document Analysis and Recognition,1993:898-901.
[9] BAINBRIDGE D,BELL T C. Dealing with superimposed objects in optical music recognition [C]. Proceedings of the 6th IET International Conference on Image Processing&Its Applications, 1997:756-760.
[10] GEORGE S E. Visual perception of music notation: on-Line and off line recognition[M]. New York:IGI Publishing,2004.
[11] BAINBRIDGE D. Extensible optical music recognition[D]. Christchurch: University of Canterbury,1997.
[12] FUJINAGA I,PENNYCOOK B, et al. The optical music recognition project[J]. ?Computers in Music Research,1991(3):139-142.
[13] 胡曉宏. 基于鏈碼特征的幾何圖形快速識(shí)別算法[J]. 吉林大學(xué)學(xué)報(bào):理學(xué)版,2015,53(3):490-491.
[14] IICARINEN J. A shape recognition of irregular objects[C]. ?Proceedings of SPIE the International Society for Optical Engineering,1996:1-8.
[15] 劉清,林土勝. 基于數(shù)學(xué)形態(tài)學(xué)的圖像邊緣檢測(cè)算法[J]. 華南理工大學(xué)學(xué)報(bào):自然科學(xué)版,2008,36(9):113-116.
[16] GERAUD T. A morphological method for music score staff removal [C]. IEEE International Conference on Image Processing,2015:2599-2603.
[17] MONTAGNER I S,HIRATA R,HIRATA N S T. Learning to remove staff lines from music score images[C]. IEEE International Conference on Image Processing, 2014:2614-2618.
[18] 陳皓,馬彩文等. 基于灰度統(tǒng)計(jì)的快速模板匹配算法[J]. 光子學(xué)報(bào),2009,38(6):1587-1588.
[19] KOBAYAKAWA T. Auto music score recognizing system[C]. Proceedings of SPIE:Character Recognition technologies,1993:112-123.
[20] MARTIN P,BELLISSANT C. Low-level analysis of music drawing images[C]. First International Conference on Document Analysis and Recognition,1991:417-425.
[21] CHANG S,SOAK S. Optical music recognition using skeleton structure and neural network[C]. Proceeding of SPIE,2002,4734:132-140.
[22] 劉曉翔. 光學(xué)樂譜識(shí)別技術(shù)研究與實(shí)現(xiàn)[D]. 西安:西北工業(yè)大學(xué),2006,76-87.
(責(zé)任編輯:江 艷)