孫夢青
【關(guān)鍵詞】樂音 識別技術(shù) 應(yīng)用 研究
1.相關(guān)概念
樂音(musical tone),發(fā)音物體有規(guī)律地振動而產(chǎn)生的具有固定音高的音稱樂音。樂音是音樂中所使用的最主要、最基本的材料,音樂中的旋律、和聲等均由樂音構(gòu)成。從聲學(xué)分析角度,樂音有三個要素:音調(diào)(音高)、響度(音強)、音色,也可以用基頻、振幅和倍頻來表示。
音量,即聲音強弱,跟發(fā)聲體的振幅大小有關(guān)。
音色/ 音品(Tone),由聲音波形的諧波頻率和包絡(luò)決定,包括基頻所產(chǎn)生的基音和各次諧波的微小振動產(chǎn)生的泛音。音色通常代表人類對聲音的感覺特性。泛音的不同決定了音色的不同。
音符(Note),是用來記錄不同長短的音的進行符號,它是樂音的最基本表示單位,是音樂的最基本要素。音樂中的一個音符,表示在音樂中某一時刻發(fā)出了什么聲音,以及聲音的持續(xù)長度。
音符的識別主要包括音高估計和時值估計。
基頻/ 主頻(Fundamental Frequency),是基音頻率的簡稱,即物理學(xué)上的本征頻率,通常是指聲音中使得聲音達到最強的那個最低頻率。基頻決定了聲音的基礎(chǔ)音調(diào)。
時值(Note Values),指一個音符持續(xù)的時間,本質(zhì)上是發(fā)聲體發(fā)生振動的持續(xù)時間。
全音符(Whole Note),是一種音符時值基準。確定了一個全音符時間長度,就可以以此為基礎(chǔ),定義其它音符的時值。
復(fù)調(diào)(polyphony),指由幾個聲部構(gòu)成的多聲部音樂,即同一時刻存在多個旋律同時發(fā)音,與單聲音樂相對。
基音檢測/ 提?。╬itch exaction),即對基音頻率的估計,采用技術(shù)手段得到聲源體振動的基音頻率輪廓圖。
音樂特征識別。從音高、音色等基本特征,節(jié)奏、旋律等復(fù)雜特征,曲式結(jié)構(gòu)、音樂風(fēng)格等整體特征三個維度進行信息提取和識別。
音頻信息檢索,是指從音頻資源中找到滿足用戶所需信息的匹配、定位過程。具體實現(xiàn)的途徑包括基于文本標注的檢索和基于內(nèi)容的檢索等。
自動音樂標注技術(shù),也稱自動音樂記譜或樂譜自動識別,廣義上講,指將音樂演奏的聲學(xué)信號所對應(yīng)的樂譜信息自動翻譯出來,即將音樂數(shù)據(jù)的表示形式從其他形式轉(zhuǎn)換成樂譜形式。自動音樂標注技術(shù)主要包括音符識別與音高估計、節(jié)拍與節(jié)奏識別、旋律與和聲提取以及多基頻估計等幾個方面。
2.樂音識別技術(shù)的應(yīng)用
樂音識別領(lǐng)域的相關(guān)技術(shù)蓬勃發(fā)展。業(yè)內(nèi)出現(xiàn)了ISMIR(音樂信息檢索國際會議)、ICMC(計算機音樂國際會議)、CSMT(中國聲音與音樂技術(shù)會議)、ICASSP(聲學(xué)、語言、信號處理國際會議)等國內(nèi)外高水準學(xué)術(shù)會議,ComputerMusic Journal、Journal of New Music Research 等期刊持續(xù)發(fā)表高水準研究成果。技術(shù)的進展為樂音識別的廣泛應(yīng)用提供了技術(shù)。
20 世紀90 年代以來互聯(lián)網(wǎng)的高速發(fā)展,使得用戶可以接觸到海量的數(shù)字音樂資源。傳統(tǒng)的資源分類和管理依靠文字標簽實現(xiàn)分類,不能滿足用戶基于音樂本身信息檢索和運用的旺盛需求。這就為樂音識別的廣泛應(yīng)用創(chuàng)造了市場條件。
樂音識別技術(shù)的應(yīng)用領(lǐng)域涉及聲學(xué)、音頻信號處理、人機交互、軟件工程、作曲編曲及音樂制作等多個學(xué)科,體現(xiàn)了多學(xué)科門類交叉融合的特點。
樂音識別技術(shù)成功的在以下幾個方向?qū)崿F(xiàn)了工程化應(yīng)用。
2.1 音樂識別系統(tǒng)(Music Recognition System)。倫敦大學(xué)推進的OMRAS 項目衍生出音樂可視化軟件SonicVisualiser,可以實現(xiàn)音樂的音高、節(jié)奏和音量信息的識別與提取。中國科學(xué)院聲學(xué)研究所在該領(lǐng)域也推出了高水準的專業(yè)平臺產(chǎn)品。當前的音樂識別系統(tǒng)對音樂片段開展識別匹配,計算Chroma、節(jié)奏直方圖、節(jié)拍、MFCC 峰值等音樂特性,而后與音樂數(shù)據(jù)庫中記錄進行匹配。網(wǎng)易云音樂、ACRCloud 等商業(yè)機構(gòu)都實現(xiàn)了基于人聲、音頻的音樂識別功能,在PC 端和移動端實現(xiàn)高效識別和與海量音樂聲紋庫的匹配。
2.2 音樂信息檢索(Music Information Retrieval)。音樂信息檢索包括音樂流派風(fēng)格識別、音樂情感識別、作曲家信息識別、音樂結(jié)構(gòu)分析等。本文僅以音樂流派風(fēng)格識別為例進行介紹。
音樂流派風(fēng)格的識別起源于20 世紀90 年代,業(yè)內(nèi)試圖通過音樂專家開展人工篩選,將音樂區(qū)分為不同類型,這就是Music Genome Project(音樂染色體工程)。但是面對海量音樂數(shù)據(jù),人工分類效果不佳。美國研究人員試圖通過音樂數(shù)據(jù)的計算均值、方差、自相關(guān)系數(shù)等參數(shù)的提取,結(jié)合樂音基本特征來進行篩選。進入21 世紀,G.Tzanetakis 等人開展了基于樂音結(jié)構(gòu)的提取實驗,對歌曲的一小部分隨機取樣,用于學(xué)習(xí)歌曲的特定特征,然后使用訓(xùn)練好的分類器對整個歌曲進行分類和分割,借此區(qū)分音樂的流派和風(fēng)格。Lin 等人利用小波和SVM 技術(shù)改進的樂音分類方法,對音頻數(shù)據(jù)進行精確分類,將分類誤差從8.1% 降低到3.0% 左右。2017 年,王芳等人針對音樂流派和中國傳統(tǒng)樂器識別分類問題,研究并改進了基于深度置信網(wǎng)絡(luò)的音樂流派識別分類算法, 對GTZAN 庫的十大音樂流派進行識別分類的準確率最高達75.8%,對自建中國傳統(tǒng)樂器音樂庫的六種樂器進行識別分類的準確率最高達99.2%。
2.3 計算機音樂生成。計算機音樂生成也稱自動作曲或算法作曲(Algorithmic Composition),最早始于1957年。Mozer 于1994 年開發(fā)了CONCERT 系統(tǒng), 運用人工神經(jīng)網(wǎng)絡(luò)來生成音樂。2009 年,Nierhaus 等人出版專著《Algorithmic composition:paradigms of automatedmusic generation》,介紹算法作曲的數(shù)學(xué)原理和范例。2015 年,Nayebi 等人通過實驗比較了基于字符級長短期記憶網(wǎng)絡(luò)(LSTM)和遞歸神經(jīng)網(wǎng)絡(luò)在音樂生成中的效果,最終確認了LSTM 算法在計算機音樂生成中的優(yōu)勢。2017 年,王程等人實現(xiàn)了基于LSTM 網(wǎng)絡(luò)的計算機音樂生成方法,并分析了其不同網(wǎng)絡(luò)結(jié)構(gòu)在計算機音樂生成的效果,實現(xiàn)端到端訓(xùn)練。
至此,應(yīng)用領(lǐng)域已經(jīng)可以通過給定的要求讓計算機產(chǎn)生相對完整的樂音旋律,并且對已有樂音部分進行內(nèi)容接續(xù)創(chuàng)作。盡管人們對其藝術(shù)效果、水平的評價各有差異,但是計算機音樂生成已經(jīng)具備了初步的生產(chǎn)力和生命力,這一點是毋庸置疑的。
2.4 數(shù)字音頻的版權(quán)保護。
數(shù)字時代,音樂產(chǎn)品的市場容量十分巨大。隨之而來的,是盜版下載、未授權(quán)播放、扒流(stream-ripping)等行為給音樂生產(chǎn)方帶來的巨大損失。據(jù)測算,《Divide》等三張隨意挑選統(tǒng)計的專輯,在2019 年7 月一個月內(nèi)被非法下載了超過100 萬次,給音樂制作行業(yè)和音樂零售商造成1000萬美元的損失。
數(shù)字音頻作品的版權(quán)保護主要通過魯棒數(shù)字音頻水?。≧obust Audio Watermarking,RAW)和音頻指紋技術(shù)(AudioFingerprinting)。常見的頻域魯棒數(shù)字音頻水印是在人類聽覺最敏感的中低頻段內(nèi)嵌入水印,在保證人耳無法識別的情況下為機器識別和判斷提供便利;音頻指紋則是首先提取音樂文件時域和頻域的特征信息,通過特定模型獲得指紋,而盜版、翻錄的音頻片段的失真會造成音頻指紋匹配失敗。
樂音識別技術(shù)的應(yīng)用,雖然不能完全杜絕盜版等行為的發(fā)生,但是為非法行為的甄別鎖定創(chuàng)造了技術(shù)條件。
3.樂音識別技術(shù)的應(yīng)用發(fā)展趨勢
經(jīng)過多年發(fā)展,樂音識別技術(shù)的發(fā)展體系漸成,日益完備。單音及其要素的識別提取手段豐富,多音、復(fù)調(diào)識別運用方面不斷取得突破。
樂音識別技術(shù)的應(yīng)用場景廣泛,其發(fā)展和應(yīng)用出現(xiàn)了“普及化”和“專業(yè)化”兩極并舉的趨勢。一方面,隨著硬件性能的提升和算法的不斷成熟完善,樂音識別技術(shù)已經(jīng)開始與移動互聯(lián)網(wǎng)絡(luò)與終端結(jié)合,進入普通用戶的生活,在聽歌識曲、哼唱檢索、翻唱檢索、音樂分類及推薦、卡拉OK 應(yīng)用等場景下發(fā)揮了越來越重要的技術(shù)支撐作用。另一方面,在音樂工業(yè)級的伴奏生成、自動配樂、音樂內(nèi)容標注、音樂合成及轉(zhuǎn)換、智能作曲、數(shù)字樂器、音樂編輯制作等專業(yè)方面,樂音識別也發(fā)揮著越來越重要的作用。
在本質(zhì)上,都是由于樂音識別技術(shù)可以極大的減輕人力認知、識別音樂的成本和難度,從而涌現(xiàn)出巨大的研究價值和商業(yè)價值。相比之下,圍繞樂音識別技術(shù)及其應(yīng)用的相關(guān)問題,國內(nèi)研究力量起步較晚,研究工作的連續(xù)性不足,同時兼具音樂理論基礎(chǔ)和工程技術(shù)能力的團隊不多,藝術(shù)和科技領(lǐng)域的融合有待進一步加強。中國的移動互聯(lián)網(wǎng)產(chǎn)業(yè)已經(jīng)走在世界前列,數(shù)字音樂資源幾近極大豐富。如何更好的研究、發(fā)展和運用樂音識別技術(shù),仍然是一個非常有價值的問題,值得更多的同志關(guān)注。