趙興元,王晶瑩
(1.天水師范學院音樂舞蹈學院,甘肅 天水 741000;2.北京師范大學教育學部,北京 100873)
隨著人工智能的基礎(chǔ)——大數(shù)據(jù)、算法、算力——“三位一體”地整體性發(fā)展,算法研究獲得突飛猛進的進展,并且在各個領(lǐng)域都展現(xiàn)了舉世矚目的成就[1]。其中,算法對音樂特征的研究也更加廣泛和深入,我國也越來越重視音樂領(lǐng)域算法研究對智能音樂學的影響。自1992年王緝志以探討“線性算法合成音色”拉開了國內(nèi)音樂領(lǐng)域算法研究的帷幕以來[2],時至今日,研究者們已深入該領(lǐng)域,在算法作曲[3-5]、音樂特征識別[6][7]、信息檢索[8][9]、音樂風格分析[10][11]等方面形成大量的研究成果。本文將利用CiteSpace軟件分析技術(shù),對相關(guān)文獻進行計量研究,希望為同行進一步開展音樂領(lǐng)域算法研究提供鏡鑒。
在中國知網(wǎng)(CNKI)中,對有關(guān)該領(lǐng)域的核心期刊、CSSCI文獻分別進行兩次檢索。第一次檢索式為:SU=(‘音樂’+‘算法’),獲得文獻結(jié)果383條;二次檢索式為:SU=(‘音樂’+‘人工智能’),獲得文獻結(jié)果100條,共獲得483條檢索條目。為了提高樣本數(shù)據(jù)分析準確率,在CNKI檢索結(jié)果界面通過閱讀題目、內(nèi)容摘要等方式,剔除與研究主題無關(guān)的征稿通知、新聞報道等相關(guān)度低的非研究類文獻,并將兩次檢索結(jié)果導入Endnote,進行刪重,最后將Endnote中篩選的文獻與CNKI檢索結(jié)果比對整合,檢查樣本數(shù)據(jù)的完整性與準確度。最終確定的樣本數(shù)據(jù)為393篇,儲存題錄信息的同時獲取全文內(nèi)容。
本文采用基礎(chǔ)統(tǒng)計分析、機構(gòu)共現(xiàn)分析、關(guān)鍵詞聚類分析等量化方法,結(jié)合文獻樣本歸納分析,試圖梳理國內(nèi)音樂領(lǐng)域的算法研究現(xiàn)狀與熱點,預(yù)測未來發(fā)展趨勢。研究工具是文獻計量分析專業(yè)工具CiteSpace。
對特定領(lǐng)域特定學科文獻年度分布情況分析能在一定程度上反映出該領(lǐng)域研究的趨勢和變化[12]。由圖1可以看出,近30年來國內(nèi)音樂領(lǐng)域算法研究有393篇文章,年均發(fā)文量14.04篇。1997年的音樂文獻中首次出現(xiàn)“算法”這一概念[13],此后相關(guān)學者一直關(guān)注這一新興領(lǐng)域,但研究文獻數(shù)量相對較少。直到2018年陳根方在其著作《智能音樂學與中國音樂數(shù)字媒體論》中將人工智能引入音樂學領(lǐng)域,并提出了智能音樂學的概念,才由此引發(fā)了我國的大討論。相關(guān)研究激增,文獻數(shù)量不斷涌現(xiàn),該領(lǐng)域也正成為一個迅速發(fā)展的熱點領(lǐng)域。
1.機構(gòu)分布特征
通過1992-2020年的樣本數(shù)據(jù),使用CiteSpace軟件生成相關(guān)機構(gòu)分布表1。在發(fā)文機構(gòu)統(tǒng)計過程中,以二級單位名稱為標準進行統(tǒng)計,同一機構(gòu)的二級單位不進行合并。經(jīng)統(tǒng)計,得到二級單位發(fā)文機構(gòu)344個,“發(fā)文量≥4”的機構(gòu)有14個(見表1)。從前40名機構(gòu)論文數(shù)量排名看,92.5%的論文來自北京師范大學信息科學與技術(shù)學院、復(fù)旦大學計算機科學技術(shù)學院、華東理工大學信息科學與工程學院、中國人民大學信息學院等高校,音樂專業(yè)類院校(上海音樂學院音樂工程系、武漢音樂學院作曲系、中央音樂學院)僅占7.5%。這說明國內(nèi)音樂領(lǐng)域的算法研究發(fā)文方面集中于中國高等院校理工科院系。其中北京師范大學信息科學與技術(shù)學院對音樂特征的算法研究發(fā)文量最多,共有8篇,其研究對整個領(lǐng)域的發(fā)展起著重要的推動作用;其次是復(fù)旦大學計算機科學技術(shù)學院,發(fā)文7篇。
表1 相關(guān)研究機構(gòu)發(fā)文量排名(≥4)
2.機構(gòu)合作關(guān)系分析
借助機構(gòu)間合作關(guān)系頻次原始數(shù)據(jù),利用CiteSpace軟件生成機構(gòu)合作關(guān)系可視化圖像,如圖2??梢钥闯?,高等院校信息科學院、計算機科學學院是國內(nèi)音樂領(lǐng)域的算法研究的主要力量。圖2中的線條表示研究機構(gòu)是否與外界有合作關(guān)系,連接線條的粗細和密集程度表示合作關(guān)系的強弱。可以看出,除北京師范大學與中國人民大學、廈門大學合作關(guān)系密切外,其它機構(gòu)之間合作頻次較低,各高??蒲袡C構(gòu)之間的合作網(wǎng)絡(luò)尚未完全建立,連接強度和密集程度都呈現(xiàn)出弱化的態(tài)勢。遺憾的是,經(jīng)過調(diào)查分析,我國綜合高校與專業(yè)音樂院校之間缺乏合作,不利于跨學科的研究發(fā)展。
圖2 國內(nèi)音樂領(lǐng)域算法研究機構(gòu)網(wǎng)絡(luò)圖譜
3.相關(guān)發(fā)文作者與合作網(wǎng)絡(luò)分析
(1)發(fā)文作者分析
經(jīng)統(tǒng)計分析發(fā)現(xiàn),有458位作者共同承擔了相關(guān)的音樂特征的算法研究,排名靠前的作者分布見圖3。
圖3 國內(nèi)音樂領(lǐng)域算法研究作者網(wǎng)絡(luò)圖譜
依據(jù)普賴斯定律,如果核心作者的發(fā)文數(shù)量閾值m≥3.30,發(fā)文量大于等于4篇的作者則為該領(lǐng)域的核心作者[14]。目前,本研究領(lǐng)域共有5人(見表2),分別是李偉(復(fù)旦大學)、周明全(北京師范大學)、李鵬(陜西師范大學)、關(guān)欣(天津大學)、王向陽(遼寧師范大學)。5位核心作者共發(fā)表文章29篇,占總數(shù)(393篇)的7.38%。其中,復(fù)旦大學計算機科學技術(shù)學院李偉(8篇)和北京師范大學虛擬現(xiàn)實與可視化研究所周明全(8篇)是該領(lǐng)域的領(lǐng)軍人物。李偉研究的重點在于音樂科技、音樂人工智能(Music AI)、語音信息處理等,周明全研究的重點在于MIDI旋律特征提取、哼唱音樂檢索與旋律匹配模型等。
表2 基于普賴斯定律的核心作者
(2)發(fā)文作者合作網(wǎng)絡(luò)分析
作者合作方面,在20世紀末本領(lǐng)域開始出現(xiàn)作者合作現(xiàn)象,常見國內(nèi)高校內(nèi)部或高校之間交流,少有和國外互動。1999年周斌與張鳳池[15]合作探討“計算機配樂與人工智能”的應(yīng)用,2000年顧健與周敬利、余勝生[16]合作探討“音樂聲道”等問題。此后圍繞音樂特征的算法研究作者之間的合作進一步拓展,出現(xiàn)了一些較有影響力的研究團體。利用CiteSpace繪制的圖4是作為一張作者網(wǎng)絡(luò)圖譜,其中的節(jié)點表示作者,作者之間的連線粗細表示作者之間的合作關(guān)系??梢园l(fā)現(xiàn),國內(nèi)比較有影響力的團隊有:復(fù)旦大學計算機科學技術(shù)學院的李偉、馮瑞等;陜西師范大學計算機科學學院的李鵬與北京師范大學信息科學與技術(shù)學院的周明全等;遼寧師范大學計算機與信息技術(shù)學院的王向陽、楊紅穎與中國科學院軟件研究所信息安全國家重點實驗室的趙紅;華中科技大學電信系的孫銳、孫洪與武漢大學通信工程系的姚天任;清華大學電子工程系微波與數(shù)字通信技術(shù)國家重點實驗室的李曄、崔慧娟、唐昆。究其原因,這些團隊研究問題比較聚焦,大多與該校學科方向或國家項目有關(guān)。一方面,上述團隊所在院校凝聚專家學者團體力量開設(shè)了人工智能學科方向;另一方面,他們都承擔相關(guān)的國家自然基金項目,如陜西師范大學的李鵬在2019年主持國家自然科學基金面上項目“基于移動社會網(wǎng)絡(luò)的校園協(xié)作學習交互與微視頻擴散關(guān)鍵技術(shù)研究”等。值得注意的是,國內(nèi)音樂領(lǐng)域的算法研究作者合作關(guān)系與其他領(lǐng)域比較而言仍較少,研究視角主要從個人視角來研究問題,研究力量也顯得較為分散,尤其與音樂專業(yè)類院校合作還處于空白階段,主要原因在于音樂與人工智能的學科屬性不同,作為一門交叉學科起步較晚,還未形成穩(wěn)定的合作網(wǎng)絡(luò)和研究團體。
關(guān)鍵詞共現(xiàn)分析是對樣本數(shù)據(jù)集中提供的關(guān)鍵詞的分析[18],是針對兩個或兩個以上的關(guān)鍵詞在論文之間共同出現(xiàn)的頻次來說的。利用關(guān)鍵詞的頻次和中心度,可以清楚認識到國內(nèi)音樂領(lǐng)域算法研究的熱點,如圖4和表3所示。從圖4看出,“人工智能”面積最大,這與本研究宏觀主題一致。其余圓形較大的關(guān)鍵詞依次有“語音增強”“音樂噪聲”“音樂檢索”“譜減法”“算法作曲”“哼唱檢索”“先驗信噪比”等,說明以上關(guān)鍵詞在樣本文獻中出現(xiàn)的次數(shù)較多、頻數(shù)較高,是目前該領(lǐng)域研究的熱點。對音樂領(lǐng)域算法研究關(guān)鍵詞詞頻降序排名表(表3)進一步證實了這點。從表中可以發(fā)現(xiàn),關(guān)鍵詞詞頻以降序排名,詞頻越高說明該關(guān)鍵詞的文獻越多,其中“人工智能”的最高,這與圖4一致。綜上可以得出,當前國內(nèi)音樂領(lǐng)域算法研究主要偏向于智能音聲識別、智能推薦、智能創(chuàng)作、智能分析等方面。
表3 國內(nèi)音樂領(lǐng)域算法研究關(guān)鍵詞詞頻降序排名表(≥4)
圖4 國內(nèi)音樂領(lǐng)域算法研究關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)圖譜
關(guān)鍵詞突變是指一定時間內(nèi)關(guān)鍵詞增長速度的突然加快或使用頻率的突然提高,利用突變詞的動態(tài)變化性,能確切了解該領(lǐng)域的研究前沿[18]。CiteSpace根據(jù)突變率權(quán)值和年代,排列出了國內(nèi)音樂領(lǐng)域算法研究中十八個突變率較高的關(guān)鍵詞突變圖譜(如圖5)。根據(jù)關(guān)鍵詞突變出現(xiàn)的年份和突變率,可將該領(lǐng)域的研究分為四個組別。
圖5 國內(nèi)音樂領(lǐng)域算法研究高突變率關(guān)鍵詞圖譜
第一組是“數(shù)字水印”“音樂”與“音頻水印”,其中“音頻水印”突變率最高,達到2.9521,“數(shù)字水印”突變率次之,突變時間段分別處于2008-2009年和2002-2006年,說明數(shù)字水印主題在此期間頻次變化較顯著。在這段時間內(nèi),我國如何利用算法對數(shù)字音樂知識產(chǎn)權(quán)保障的研究不斷深入,包括對MP3壓縮攻擊特點與音樂聽覺掩蔽特性的探索,隨之帶動相關(guān)音頻水印主題的研究文獻數(shù)量增加,成為當時的研究熱點與趨勢。
第二組是“譜減法”“聽覺掩蔽特性”“先驗信噪比”“音樂噪聲”“語音增強”與“壓縮域”,其中,“語音增強”突變率最高,達到7.171,“音樂噪聲”也突變明顯,成為近幾年的研究熱點。國內(nèi)音樂領(lǐng)域算法研究視角逐漸深入微觀視角,說明如何去除數(shù)字音樂中的雜質(zhì)和噪聲、提高音樂音質(zhì)的清晰度和可懂度成為該領(lǐng)域的又一研究熱點;音樂質(zhì)量方面的研究不再滿足于傳統(tǒng)的譜減法、最大似然估計等來改善音樂音質(zhì),而是基于RS理論的壓縮域算法提高音樂圖像處理技術(shù),通過語音增強算法改善數(shù)字音樂語音處理系統(tǒng)等維度進行分析,逐漸趨向多元化。
第三組是“音樂檢索”“音樂信息檢索”“協(xié)同過濾”與“音樂推薦”,其中“協(xié)同過濾”突變率最高,是2.7408。針對音樂用戶需求領(lǐng)域,運用協(xié)同過濾、音樂推薦等研究手段進行研究的方法已被業(yè)界廣泛使用,2010年起便涌現(xiàn)了大量的相關(guān)文獻。受千萬用戶喜歡的網(wǎng)易云音樂,就是通過協(xié)同過濾推薦算法這一應(yīng)用最廣泛的個性化推薦算法,將海量音樂按照其風格特征的聚類快速推送到用戶面前,實現(xiàn)了智能化的音樂聽覺需求。正如圖5所示,音樂推薦這一主題在2016-2020年的出現(xiàn)頻次明顯突變,說明國內(nèi)音樂領(lǐng)域算法研究順勢發(fā)展,音樂推薦、協(xié)同過濾等研究熱點將成為未來發(fā)展趨勢。
第四組是“支持向量機”“獨創(chuàng)性”“深度學習”與“人工智能”,其中,“人工智能”突變率最高,多達11.7716,突變發(fā)生時間段為2018-2020年,說明人工智能在當下國內(nèi)音樂領(lǐng)域算法研究中熱度非常高。這一階段的研究已經(jīng)深入到了智能推薦、智能視覺、智能語音、智能創(chuàng)作以及機器學習等專業(yè)和前沿的技術(shù)領(lǐng)域[19],并已經(jīng)成為中國智能音樂學研究的熱點和前沿。
圖6 國內(nèi)音樂領(lǐng)域的算法研究關(guān)鍵詞聚類網(wǎng)絡(luò)圖譜
為了聚焦研究主題,更加清楚地展示關(guān)鍵詞之間內(nèi)在的邏輯關(guān)系,借助CiteSpace軟件生成國內(nèi)音樂領(lǐng)域的算法研究關(guān)鍵詞聚類網(wǎng)絡(luò)圖譜(圖7)。一般來說,圖中代表關(guān)鍵詞的數(shù)字越小,說明其聚類中包含的關(guān)鍵詞越多[19]。從圖7得知,網(wǎng)絡(luò)圖譜Q值是0.9325,S值是0.5436,說明聚類效果明顯,聚類結(jié)果有效。目前,國內(nèi)音樂領(lǐng)域的算法研究聚焦于人工智能、算法作曲、語音增強、音樂推薦、輔助信息、鄰接權(quán)、人類聽覺系統(tǒng)、音樂、音樂流派分類、哼唱檢索。從圖7來看,涉及多個聚類重疊的核心關(guān)鍵詞為“算法作曲”。因此,基于此量化聚類分析結(jié)果,綜合考察關(guān)鍵詞網(wǎng)絡(luò)圖譜,對文獻內(nèi)容進行二次梳理后歸納分析,將國內(nèi)音樂領(lǐng)域的算法研究的熱點主題歸納為人工智能作曲、智能音樂識別、智能音樂檢索、智能音樂推薦四個維度。
1.人工智能作曲
人工智能作曲是借助特定的算法和深度學習,利用從音樂作曲理論或某個音樂家的作品、某種音樂流派、某種音樂風格等中提煉出的形式化生成規(guī)則,通過參數(shù)創(chuàng)作出音樂動機、音樂伴奏、音樂作品等音樂信息的過程[20]。關(guān)于人工智能作曲概念界定,劉健提出了“分層結(jié)構(gòu)控制”的概念,認為音樂是通過某種邏輯過程來生成的。劉弘認為遺傳算法作曲系統(tǒng)應(yīng)包括交互的、基于實例的、基于規(guī)則的與自發(fā)式的四種系統(tǒng)。
關(guān)于人工智能作曲算法,學界認為主要有遺傳算法[21]、人工神經(jīng)網(wǎng)絡(luò)與馬爾可夫鏈[22]等方面。遺傳算法方面,崔嘉、曹西征等學者認為遺傳算法是人工智能作曲的一種主要手段,蘇慶堂認為遺傳算法是作曲的知識符號表示,張英俐認為遺傳算法在旋律生成樂曲的過程中使用人與作曲系統(tǒng)間建立的交互式系統(tǒng),生成的樂曲比較符合人們的欣賞習慣。人工神經(jīng)網(wǎng)絡(luò)方面,苗北辰等提出基于循環(huán)神經(jīng)網(wǎng)絡(luò)的多聲部音樂生成算法,李雄飛等提出以音樂音頻為處理對象的基于長短時記憶遞歸神經(jīng)網(wǎng)絡(luò)的音樂自動合成算法,這兩種算法比較方便實現(xiàn)自動作曲,以此得到的模型可以生成旋律與和弦匹配度較好的多聲部音樂數(shù)據(jù);張曉娜等提出基于粒子群算法優(yōu)化神經(jīng)網(wǎng)絡(luò)的電子音樂分類模型,獲得精準度較高的樂曲分類;黃璟提出基于群智優(yōu)化神經(jīng)網(wǎng)絡(luò)構(gòu)建音樂風格分類模型,幫助用戶更快地獲取偏好的音樂風格。馬爾可夫鏈方面,鄭曉妹等提出基于旋律馬爾可夫鏈的中國民歌自動作曲模式,該模式可以生成具有中國民族音樂特征的樂曲。
關(guān)于人工智能作曲系統(tǒng),常見的有EMI系統(tǒng)、交互式即興演奏系統(tǒng)GenJam、旋律創(chuàng)作系統(tǒng)ERNN等。研究者普遍采取的做法是將樂譜轉(zhuǎn)換成編碼,采用遺傳算法中的選擇、交叉和變異算子產(chǎn)生新的樂曲,或利用FM技術(shù)結(jié)合Max/MSP算法作曲平臺進行特性模擬、程序構(gòu)建,實時控制音響并實現(xiàn)樂曲創(chuàng)作[23]。
2.智能音樂識別
名詞的意動用法,指的是主語將結(jié)構(gòu)中賓語指的人或者物當作結(jié)構(gòu)中的名詞所指代的人或物,可以按照“以為賓語是謂語”的格式進行解釋。如:“草菅人命”這個成語指的是將性命看作雜草,意味著肆意踐踏性命。
音樂領(lǐng)域中的智能識別,是以提取音樂樣本數(shù)據(jù)的音高、旋律、節(jié)奏及節(jié)拍等音頻特征為主,設(shè)置不同分類器進行分類,從而達到識別音樂低層特征、存儲音樂基礎(chǔ)元素的目的。在探討如何識別音高問題時,翟景瞳等提出了一種基于自相關(guān)處理和快速傅里葉變換(FFT)的改進的單音音高識別算法,該算法比傳統(tǒng)的時域處理法具有更高的識別精度;楊岱錦等提出以相對振幅為依據(jù)快速提取基頻的方法,設(shè)計出一種可變區(qū)域的傅里葉變換迭代算法,以更加精確地識別哼唱曲調(diào)。在探討旋律特征如何提取時,黃志剛等提出一種應(yīng)用隨機森林的方法自動抽取MIDI文件中主旋律所在的音軌,從而有效規(guī)避了從MIDI文件中抓取主旋律信息的難度與誤差。在對音樂的情感識別系統(tǒng)分析時,陳曉鷗等指出音樂情感識別系統(tǒng)一般是采用機器學習的方法來建立計算模型,可采用音樂表達情感離散類別模型、通用連續(xù)維度模型、音樂喚起情感離散類別模型等模型;蔣旻雋等提出一種基于PAD(pleasure arousal dominance)模型以及基因表達式編程(GEP)算法的音樂情感自動識別方法,該系統(tǒng)能降低識別誤差,達到一個比較理想的識別效果。
3.智能音樂檢索
智能音樂檢索是通過一定的算法,利用有限的音樂信息獲取更多相關(guān)音樂信息的過程。陳根方認為常見的智能音樂檢索方法有基于文本關(guān)鍵詞檢索、基于內(nèi)容的音樂檢索(可分為基于音樂情感分類檢索與基于哼唱的音樂檢索)等。目前,類似于百度MP3、谷歌音樂搜索為主的文本關(guān)鍵詞檢索應(yīng)用較窄,已無法滿足用戶的個性化需求,學界對此也關(guān)注較少,基于內(nèi)容的音樂檢索技術(shù)是該領(lǐng)域的研究熱點。王培培等通過使用BDTW算法對音樂數(shù)據(jù)庫和用戶提供的哼唱片段進行音高相似性計算,提出一種新的基于語句特征的音樂哼唱快速檢索技術(shù),實現(xiàn)哼唱音樂的快速檢索。李鵬等在對音樂旋律的定義及表達方式的基礎(chǔ)上,根據(jù)旋律輪廓的幾何相似性實現(xiàn)音樂的相似度計算,提出影響檢索算法準確度的若干因素,并通過實驗的方法確定相應(yīng)的閾值,實現(xiàn)檢索系統(tǒng)的單機版開發(fā)和Web版發(fā)布。溫贊揚采用Skyline主旋律提取算法提取音樂數(shù)據(jù)特征,構(gòu)建BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),采用果蠅群智優(yōu)化算法對BP神經(jīng)網(wǎng)絡(luò)的初始化權(quán)值參數(shù)進行優(yōu)化,以便實現(xiàn)音樂風格自動分類。
4.智能音樂推薦
智能音樂推薦是指根據(jù)用戶的歷史瀏覽數(shù)據(jù),從候選庫中推薦給用戶可能喜歡的音樂的一種新型網(wǎng)絡(luò)服務(wù)。目前學界多根據(jù)智能音樂推薦引擎數(shù)據(jù)源分類進行研究,分為基于音樂用戶的推薦、基于內(nèi)容過濾的推薦以及基于協(xié)同過濾的推薦等維度。(1)音樂用戶推薦方面,多基于人口統(tǒng)計學、人類行為學角度進行分析,以用戶年齡或性別相同的相似用戶為研究對象。潘洋等通過提取用戶行為數(shù)據(jù)構(gòu)建行為特征模型,用以分析用戶行為與興趣的關(guān)聯(lián)性,并采用因子分解機(factorization machine,FM)預(yù)測用戶行為類型,作為音樂推薦的依據(jù)。李瑞敏等通過分析用戶對不同音樂基因特征的偏好情況及用戶興趣的相似情況,提出個性化移動音樂推薦系統(tǒng)。(2)內(nèi)容過濾推薦方面,多基于聲學元數(shù)據(jù)進行分析。牛濱等采用MFCC技術(shù)提取歌曲的語音特征,提出一種基于高斯混合模型(GMM)與Mel頻率倒譜系數(shù)(MFCC)的個性音樂推薦模型的構(gòu)建方法。張燕等應(yīng)用分形理論,從構(gòu)建的音樂數(shù)據(jù)庫中獲取音樂風格特征向量,定義出一種新的距離度量方法,完成音頻歸類和個性化的網(wǎng)絡(luò)推薦。(3)在協(xié)同過濾推薦方面,以發(fā)現(xiàn)相同音樂內(nèi)容或音樂用戶的相關(guān)性推薦為研究對象。吳海金等提出一種融合分類與協(xié)同過濾的情境感知音樂推薦算法,該算法不僅有效地降低了推薦過程的復(fù)雜度,還使傳統(tǒng)的協(xié)同過濾推薦算法具備了情境感知的能力。李博等根據(jù)已有的基于音頻信息的音樂推薦以及協(xié)同過濾方法,分析用戶的音樂試聽數(shù)據(jù)以及下載數(shù)據(jù),并結(jié)合Latent Dirichlet分配(LDA)主題挖掘模型提出的音樂推薦算法,可以更加高效地向用戶推薦感興趣的音樂。
遺傳算法、交互式遺傳算法、卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、深度神經(jīng)網(wǎng)絡(luò)、馬爾科夫鏈等多樣化的主流算法共同構(gòu)建起宏大的人工智能作曲平臺。未來,算法作曲系統(tǒng)將得益于多種算法融合的“混合一體型”系統(tǒng),更加人性化與智慧化,主要圍繞兩個方面:第一,人工智能樂曲生成的自動化能力不斷加強。一方面,人工智能將不斷深入人工作曲系統(tǒng),對其做出建議、補充與配合,并逐漸獨立于人工作曲系統(tǒng)之外;另一方面,機器學習將基于深度學習技術(shù)讀取成千上萬的曲子進行學習,從大數(shù)據(jù)、海量計算中發(fā)現(xiàn)更多的音樂風格和有趣的旋律,依靠強大的硬件計算能力實現(xiàn)音樂的全自動生成。第二,人工智能樂曲的運用領(lǐng)域不斷增大。將機器學習、音樂作曲和音頻制作相融合,創(chuàng)作出用戶需求的各種主題與情景的音樂,將是人工智能作曲的未來發(fā)展趨勢之一,人工智能樂曲在視頻游戲、電視預(yù)告片、商業(yè)廣告、短視頻、發(fā)布會與電影插曲等多個領(lǐng)域中的應(yīng)用也將更加普及和廣泛。
音樂特征以專業(yè)性強、曲式范式復(fù)雜、旋律模塊多變等特點,對其人工智能識別提出更高的要求和新的挑戰(zhàn),未來研究從以下兩個方面展開:第一,開展基于完整音樂作品的識別。設(shè)計音樂信號采集模塊與音樂信號處理模塊,通過海量數(shù)據(jù)樣本采集與算法設(shè)計,識別并提取音樂特征,結(jié)合音樂理論自身提供的基礎(chǔ)知識構(gòu)建音樂標簽化管理系統(tǒng),實現(xiàn)音樂作品的整體識別模型體系。第二,開展微觀音樂特征識別。著眼于識別比較微觀的音樂元素,如細化樂譜、節(jié)奏、節(jié)拍、音高、音色、調(diào)式、旋律、和聲、情感、歌手、樂器等音樂特征,基于智能模擬理論、建構(gòu)主義理論,構(gòu)建多樣化的音樂特征動態(tài)識別,提高復(fù)雜情況下的音樂特征識別率。
隨著娛樂等領(lǐng)域?qū)σ魳沸畔z索需求的不斷增加,其關(guān)鍵技術(shù)也從早期的文本檢索向哼唱檢索、聽歌檢索、風格檢索等方向發(fā)展,并成為數(shù)字音樂智能檢索研究的未來趨勢。其中:第一,基于內(nèi)容的音樂信息檢索(MIR)技術(shù)成為數(shù)字音樂內(nèi)容分析理解的關(guān)鍵技術(shù)。相對于傳統(tǒng)基于文本的音樂搜索,基于音樂內(nèi)容的搜索和發(fā)現(xiàn)則更受人們歡迎。音頻內(nèi)容檢索通過分析音高、旋律、調(diào)式、和弦、節(jié)奏等音頻本身,實現(xiàn)音樂旋律的識別和索引。第二,人工智能技術(shù)應(yīng)用檢索技術(shù)系統(tǒng)化。人工智能時代,音樂檢索技術(shù)將在優(yōu)化資源組織與檢索需求匹配度的基礎(chǔ)上,運用MIR技術(shù)、SLB技術(shù)、CNN技術(shù)等,構(gòu)建音樂資源綜合檢索等平臺,從而更易發(fā)現(xiàn)音樂信息。
在大數(shù)據(jù)時代,算法推薦是用戶獲取音樂信息的重要渠道,推薦質(zhì)量關(guān)乎用戶的體驗態(tài)度。目前,單一的推薦模式不能適應(yīng)當前社會服務(wù)領(lǐng)域的個性化需求,多算法機制構(gòu)建系統(tǒng)化推薦模式成為目前研究的趨向之一。未來,要遵循個體訴求與群體環(huán)境相協(xié)調(diào)的原則,在構(gòu)建基于音樂內(nèi)容的、基于用戶對音樂評價的、基于用戶與用戶之間相似度的推薦系統(tǒng)的基礎(chǔ)上,打造基于專家的推薦、基于內(nèi)容過濾的推薦、基于協(xié)同過濾的推薦、基于語境的推薦、基于圖模型的推薦以及混合型推薦的音樂綜合型推薦模式體系,從而實現(xiàn)個體用戶推薦與群組用戶推薦相統(tǒng)一,實現(xiàn)實時推薦和偏好推薦相統(tǒng)一,實現(xiàn)音樂風格與情感推薦相統(tǒng)一。通過多種算法機制構(gòu)建音樂主題推薦模型,提升音樂主題分類精度,使數(shù)字音樂消費服務(wù)領(lǐng)域更加人性化和普及化。
根據(jù)以上的分析,結(jié)合三十年來國內(nèi)音樂領(lǐng)域算法研究的積累,可以作如下總結(jié):第一,隨著對音樂領(lǐng)域算法研究的不斷深入,國內(nèi)相關(guān)研究在數(shù)量、質(zhì)量上不斷提升,發(fā)文量在未來幾年內(nèi)將持續(xù)上升,具有主題聯(lián)系緊密并交叉等特征,但存在研究力量分散等問題;第二,相關(guān)研究集中在音樂版權(quán)保護、音樂智能去噪、算法作曲、音樂檢索、音樂推薦等領(lǐng)域,其中算法作曲是最早開始關(guān)注本領(lǐng)域研究問題的,并成為促進音樂領(lǐng)域算法研究的主力軍;第三,人工智能作曲、智能音樂識別、智能音樂檢索、智能音樂推薦作為近年來該領(lǐng)域的研究熱點,未來仍有持續(xù)探討的空間??梢灶A(yù)見,多學科共同體是促進國內(nèi)音樂領(lǐng)域算法研究體系的重要屏障,智能音樂學、音樂科技學等相關(guān)學科研究將進一步深入,機器學習等技術(shù)的應(yīng)用將促進國際智能音樂教育的發(fā)展,相關(guān)研究也更注重當代社會對音樂科技人才的實際需求。