世紀(jì)以來,人工智能與基因工程、納米科學(xué)并稱為“世界三大尖端技術(shù)”。其中,就“如何運用機器模擬人類的智能模式”展開討論與探索的人工智能目前在許多領(lǐng)域都取得了令人矚目的研究成果和應(yīng)用,尤其在機器人的模型制作、不同種類的仿真學(xué)系統(tǒng)中已經(jīng)運用到了成熟的人工智能技術(shù)和手段。那么AI技術(shù)將如何能為音樂藝術(shù)領(lǐng)域帶來哪些改變與創(chuàng)新,本文將著重論述相關(guān)話題。
一、AI技術(shù)在音樂領(lǐng)域的發(fā)展現(xiàn)狀
雖然今天AI技術(shù)在生產(chǎn)和發(fā)展中的應(yīng)用已司空見慣,但由此所帶來的巨大變革卻仍讓人驚嘆不已。譬如AI技術(shù)應(yīng)用的經(jīng)典案例,谷歌公司旗下的著名人工智能開發(fā)團隊“深度學(xué)習(xí)”(DeepMind{1})公司所開發(fā)的電腦圍棋軟件 “AlphaGo”,讓機器擁有了“頭腦”,學(xué)會了“圍棋技術(shù)”,并戰(zhàn)勝
了眾多的人類圍棋高手。
與此同時,AI技術(shù)同樣引起了藝術(shù)工作者們的極大關(guān)注和探索研究。2018年1月,一張名為《Hello World》的音樂專輯問世,這張專輯由索尼的人工智能作曲AI Flow Machines與人類作曲家合作完成,其中的15首歌曲都由AI技術(shù)進行
創(chuàng)作編配,在樂界引起了不小的轟動。
簡單來說,“AI作曲”就是通過AI技術(shù)將音樂樣本數(shù)據(jù)化、模式化,根據(jù)用戶的要求選擇相應(yīng)的素材來進行創(chuàng)作的一種自動化作曲呈現(xiàn)方式。這種理念給傳統(tǒng)的作曲形式帶來了新的沖擊和思考。相對于傳統(tǒng)的作曲方式和手段,它極速便捷的制作速度(尤其是風(fēng)格的把握)以及滿足于用戶定制的交互模式讓人嘆為觀止。隨著相關(guān)技術(shù)的不斷推進完備,越來越多專業(yè)作曲家也逐漸開始思考如何將AI技術(shù)融入音
樂創(chuàng)作和音響結(jié)構(gòu)中。
音樂雖是感性為主的藝術(shù)創(chuàng)作,但其本身卻存在非常強的可計算性和邏輯性,音樂創(chuàng)作技法的背后更是蘊含著豐富而嚴(yán)謹(jǐn)?shù)臄?shù)理邏輯。常規(guī)的作曲技法如旋律模進、調(diào)式轉(zhuǎn)變、音程的收縮與擴張、和聲音高的縱橫排列、樂器音色的搭配比例與融合、曲式中的遞進回旋等,都可被定義為單一或組合式的算法模型。在這種計算模式下,AI技術(shù)可以非常融洽
地運用到音樂創(chuàng)作的領(lǐng)域。
從這個層面來說,AI作曲的本質(zhì)就是由計算機通過對于數(shù)字化信息之間的算法模型來進行音樂創(chuàng)作與演算。目前,
比較常見的AI作曲模型有:
1.馬爾可夫鏈{2}(Markov Chain)? 這是一種較為簡單的算法模型,這種模型可以根據(jù)數(shù)據(jù)庫大量信息的學(xué)習(xí),推測出當(dāng)某一個音或某幾個音出現(xiàn)時接下來出現(xiàn)各個音的可能性,以此產(chǎn)生新的音樂。它在一些商業(yè)程序中被廣泛使用,許多互動音樂家在制作交互式音樂作品需要即時演算的時候也
經(jīng)常使用它。
2.遺傳算法{3}(Genetic Algorithm)? 這種模型的基本原理是將音符之間的排列組合和規(guī)律進行編碼處理,模擬物種繁衍的過程選出最為優(yōu)秀的作品。在利用這種算法模型進行藝術(shù)創(chuàng)作的過程中,由于選取合適的評價函數(shù){4}是一項非常具有挑戰(zhàn)性的工作,很大程度上限制了其應(yīng)用的發(fā)展速度。
3.人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks)? 這是自20世紀(jì)80年代以來人工智能領(lǐng)域興起的研究熱點。通俗來說,這種數(shù)字模型試圖模仿人腦接納知識和技能的神經(jīng)網(wǎng)絡(luò),讓人工智能進行模仿學(xué)習(xí)。在實際的藝術(shù)學(xué)習(xí)生產(chǎn)過程中,AI系統(tǒng)通過對大量音樂數(shù)據(jù)的搜集,讓人工設(shè)備對現(xiàn)有的音樂資源中的音高、節(jié)奏、調(diào)式等音樂特征元素進行精細提取與存儲,進而根據(jù)用戶所給出的要求輸出具有針對性特點的藝術(shù)
風(fēng)格作品。
這種算法技術(shù)在目前許多的商業(yè)實例中都有所體現(xiàn):
(1)A.I.Duet—Google Magenta項目是“谷歌大腦”的一個重要的分支。谷歌大腦作為谷歌公司在人工智能領(lǐng)域開發(fā)出來的一款模擬人腦的軟件,通過數(shù)據(jù)鏈接將萬臺處理器進行相連并形成一個互通的神經(jīng)網(wǎng)絡(luò),進而使它能夠不斷地學(xué)習(xí)與進步,在更多的領(lǐng)域大顯身手。作為谷歌大腦的神經(jīng)系統(tǒng)在藝術(shù)層面的嘗試,該項目除去利用算法來作曲外,也可以運用算法的運行模式來繪制圖像等其他藝術(shù)形式和表
現(xiàn)手段。
(2)Jukedeck是英國作曲家,也是被譽為“第一位國際AI創(chuàng)業(yè)者”的Ed Newton-Rex創(chuàng)立的公司,其產(chǎn)品Jukedeck MAKE主要面向視頻制作者,為其提供免版稅的人工智能原創(chuàng)音樂。這款軟件通過豐富的算法進行數(shù)據(jù)庫的儲備,用戶只需要選擇音樂的情緒以及氣氛(如憂傷、快樂、充滿活力等等)再選擇音樂的類型以及演奏形式(如鋼琴、交響樂、室內(nèi)樂等),設(shè)置好節(jié)拍與時長之后,所有的選擇與要求會被反饋回云端的Jukedeck Make,經(jīng)過10到30分鐘,用戶即可得到反
饋回來的量身定做的原創(chuàng)音樂。
目前,AI作曲的方式大多是對音樂本身進行分析學(xué)習(xí)與模仿,以創(chuàng)造具有特征性的音樂作品。與此同時,采用數(shù)據(jù)化整合的信息處理方式,人工智能也開始運用在對樂器的種類、音色、技法的識別上,精細化區(qū)分其同質(zhì)化和異質(zhì)化的關(guān)系,尤其是同質(zhì)性樂器的種類音響細分、音色相似度、技術(shù)重
合度的人工分離和精準(zhǔn)辨別。
二、人工智能AI對于中國民族樂器種類
以及樂器技法的識別
AI技術(shù)在中國得到了音樂家的高度重視和運用。目前,上海音樂學(xué)院正著手開展人工智能對于中國民族樂器以及樂器技法識別的研究,并將與舊金山音樂學(xué)院合作開發(fā)的軟音源數(shù)據(jù)庫。這一研究的本質(zhì)是為了讓計算機或者處理中樞通過對于一段音頻片段的分析,對獲取到的頻譜特征、數(shù)值參量上進行分析理解,從中得到正在演奏的樂器音色以及演奏技法,盡可能地優(yōu)化算法的準(zhǔn)確性,從而得到更為精確、優(yōu)質(zhì)的演奏效果。在上個世紀(jì),世界上已有許多作曲家對于樂器做出過相關(guān)的研究和優(yōu)化改良,譬如日本的鬼太鼓就通過參數(shù)測量和優(yōu)化改良極大地增強了它的表現(xiàn)力。近幾年,通過精確數(shù)據(jù)測算與音色和技法的反復(fù)論證實踐,中國民族傳統(tǒng)樂器的研發(fā)和改良,尤其是中低頻的優(yōu)化,正在得到快速的發(fā)展。如蝶式箏、加鍵竹笛等的聲學(xué)頻譜數(shù)據(jù)整理。同時,這種技術(shù)也能夠應(yīng)用于一些新作品的創(chuàng)作與演奏之中,更好地實現(xiàn)科技為藝術(shù)服務(wù),以多元化、現(xiàn)代化的形式弘揚民族
文化和中國文脈的傳承。
該技術(shù)對推動中國民族音樂標(biāo)簽化管理分類,對數(shù)據(jù)的整合和處理同樣具有革命性意義。目前,歐洲、美國、日本等國家和地區(qū)電子分析技術(shù)及電子音樂實驗室的相關(guān)研究正在積極進行中。他們主要通過頻譜分析方式分析同一樂器各個演奏技法間的區(qū)別,如龐培法布拉大學(xué)(Universitat Pompeu Fabra)開展的關(guān)于中國京劇演奏技法識別項目。該項目側(cè)重于對京劇中司鼓和主胡的整體音樂和音響結(jié)構(gòu)的識別性研究,通過大量的數(shù)據(jù)樣本采集和算法設(shè)計,對司鼓的節(jié)奏音響和主胡的音色特征進行識別,以達到識別分析演奏
技法的目的。
相比起西洋樂器大量的音色與演奏技法的識別研究,對于我國傳統(tǒng)民族樂器的演奏技法及音色識別領(lǐng)域的相關(guān)研究在國內(nèi)也日益受到關(guān)注,其中比較有代表性的有,中國音樂學(xué)院韓寶強教授團隊進行的編鐘等中國民族樂器的測評研究。其方法主要是通過頻譜分析的方式,對樂器的音準(zhǔn)、音量、延時、音色及隔離度等參數(shù)進行量化評估,進而在認識并
改善音色,優(yōu)化樂器音響等方面開展實踐性運用。
下圖所示是初擬的樂器性能所具備的各種相關(guān)參數(shù),在
實際的評估過程中影響著評估結(jié)果和樂器改良效果。
這種研究側(cè)重于通過算法來直接對一段音頻進行分析,對其中運用的樂器及演奏技法進行識別檢測,可用于樂器音響的優(yōu)化,但更加重要的意義是通過與人工智能深度學(xué)習(xí)技術(shù)相結(jié)合,實現(xiàn)對中國民族器樂曲目的深度學(xué)習(xí)和量化精準(zhǔn)分類,進一步還可應(yīng)用于中國民族音樂的標(biāo)簽化分類管理,
結(jié)合信息檢索系統(tǒng)建立民族音樂數(shù)據(jù)庫。
AI作曲始終由人工智能技術(shù)在背后進行支持。這一領(lǐng)域目前比較熱門的是多倫多大學(xué)研究者的研究,他們利用深度學(xué)習(xí)的LSTM模型{5}(hierarchical recurrent network),對100個小時的流行歌曲 MIDI格式小樣進行訓(xùn)練和分析。在這個模型中有key layer(音高信息),press layer(力度信息), chord layer(和聲信息),drum layer(節(jié)奏信息)等結(jié)構(gòu),當(dāng)然在模型的設(shè)計與合成中也考慮了音階等其他因素。這種模型的建立可以更好地幫助人工智能模型學(xué)習(xí)音樂中的關(guān)鍵元素以及常見的音樂結(jié)構(gòu)與規(guī)則。這種思路也為民族樂器音響頻率的技術(shù)分離與后期AI作曲使用及進行深度學(xué)習(xí)方面提
供了參考和技術(shù)支撐。
對于人工智能而言,賦予其一種新的識別某項音樂特征的能力就好像賦予了它一個新的感官,使其能夠?qū)σ魳分械哪撤N元素進行剝離和識別,從而進行深度學(xué)習(xí),進而達到模仿創(chuàng)作的目的。筆者的研究正是基于MPEG-76定義的音色標(biāo)準(zhǔn)中包含的13個特征性參數(shù),從時域(音色的時間域)、頻域(音色波形的頻率)與倒頻域(反向的音色波形頻率)三個層面對樂器音色進行特征性捕捉,從中國民族樂器音色延伸至樂器的演奏法,進行遞推分析,探索人工智能對于中國民族
樂器演奏法的識別性能。
目前,就中國民族樂器與AI科技的技術(shù)融合方面所研究
的主要重點與問題有:
1.通過對中國民樂的吐音、顫音、撥弦,揉弦、掃弦以及音量幅度控制等特定技法采樣的系統(tǒng)分析,通過頻譜及其他聲音特性參量,研究出合理的樂器演奏技法特性數(shù)字識別方案,確定相應(yīng)算法,使計算機系統(tǒng)能夠通過數(shù)字分析的方式對樂器的特定演奏技法進行判別,盡可能地減小誤差,并有
效增強其技術(shù)性和藝術(shù)性的融合表達。
2.通過算法解決樂器聲音的評測問題,并能夠?qū)Σ煌瑯菲鞯穆曇暨M行基礎(chǔ)的剝離與判別。通過與優(yōu)質(zhì)樣本的比對,
實現(xiàn)客觀的音色評價并為產(chǎn)業(yè)服務(wù)。{7}
3.通過該算法與人工智能作曲系統(tǒng)的結(jié)合,使人工智能能夠獨立自主地對一段音頻進行樂器及演奏技法的分析,提
升其自我學(xué)習(xí)效率,促進智能作曲AI的快速發(fā)展。
4.將該技術(shù)應(yīng)用到創(chuàng)作及作品分析中,使用人工智能技術(shù)輔助創(chuàng)作音樂,為創(chuàng)作者提供靈感和音樂素材,并為音樂
分析者提供更真實的聲音樣本參考。
三、AI音色識別在實際項目中的應(yīng)用
在藝術(shù)實踐中,筆者不僅利用AI技術(shù)創(chuàng)作了多部交互式電子音樂作品,還通過與相關(guān)機構(gòu)的合作,將數(shù)字音頻的頻譜技術(shù)運用到了樂器制造中的調(diào)音和優(yōu)化環(huán)節(jié),并取得一定的效果。例如,筆者的團隊在進行AI聲音采集測試的同時,通過聲音采樣和頻譜分析的方式對竹笛的音色和相關(guān)演奏技
法進行了邏輯分析,并歸納了相關(guān)實驗數(shù)據(jù)。
以上實驗數(shù)據(jù)來自筆者對于竹笛相關(guān)演奏技法的數(shù)據(jù)采集,可以為分析竹笛音色,識別竹笛樂器的相關(guān)演奏技法提供數(shù)據(jù)參考,后期筆者還將采集更多的樂器和演奏技法。
如何直接代替表演者亦是AI技術(shù)在當(dāng)代創(chuàng)作中非常重要的一種大膽嘗試。筆者也曾在創(chuàng)作中嘗試以機器人為演奏載體,通過人工智能方式賦予機器人吹奏竹笛的技能。機器人通過設(shè)置好的程序以及曲譜,中樞控制器對機器手進行交互響應(yīng)從而進行演奏,尤其是“嘴、氣、力、手、舌”的有機結(jié)合。這種技術(shù)的難點在于如何讓機器人通過程序?qū)菲鞯母?/p>
種技術(shù)表達正確并準(zhǔn)確地演奏出來。
如上圖,在設(shè)置好了古箏的定點位置后,設(shè)置一臺特殊的“樂手機器”,通過數(shù)個“機器手指”來進行古箏的演奏。該同質(zhì)技術(shù)在美國AI樂器研究所數(shù)月前也運用在馬林巴的演奏中,其在演奏速度與節(jié)奏精度上可以遠超人類演奏家。該技術(shù)通過中樞控制端進行集體控制,人工智能“大腦”將彈奏的時間、節(jié)奏、力度、節(jié)點信息發(fā)送到機器本身從而讓這臺機器能夠非常準(zhǔn)確地跟其他樂器進行獨奏和合奏。
四、對于人工AI技術(shù)在音樂創(chuàng)作上的展望
AI技術(shù)將會為我們這個世界帶來怎樣的變化,這是誰都無法預(yù)估的。在高度發(fā)達、學(xué)習(xí)速度極快的AI面前,傳統(tǒng)藝術(shù)家和傳統(tǒng)作曲形式以及樂器演奏是否還有新的發(fā)展理念和
價值性提升空間,這是學(xué)術(shù)界需要關(guān)注和思考的話題。
就目前而言,人工智能雖然能夠快速給予作曲家或演奏家藝術(shù)響應(yīng),能根據(jù)用戶的要求在短時間內(nèi)將一首完整的作品制作并演奏出來,但依然受到算法音樂的本質(zhì)以及程序的限制。如今,AI所創(chuàng)作的作品尚欠缺規(guī)?;m然其生產(chǎn)的音樂擁有復(fù)雜的結(jié)構(gòu),嚴(yán)密的邏輯關(guān)系以及正確的樂器演奏方式,但總體來說還顯得有些“稚嫩”,可聽性或藝術(shù)性語言表
達并不夠充分。
科學(xué)技術(shù)的發(fā)展進步對當(dāng)代社會影響深遠,面對人工智能所創(chuàng)造出來的藝術(shù)成果,傳統(tǒng)藝術(shù)家不應(yīng)該對其帶有觀望,也不應(yīng)該對新的技術(shù)抱有排斥感。正確認識人工智能對于藝術(shù)表現(xiàn)力以及表現(xiàn)形式的豐富與加持,意識到將這種技術(shù)真正運用于創(chuàng)作和觀念的提升,可以讓更多藝術(shù)作品具有時代感、科技感和生命力,亦是音樂與科技相互聯(lián)系、融合的
綜合發(fā)展方向和愿景。
參考文獻
[1] 韓寶強《如何評測編鐘的音樂性能》,《黃鐘》(武漢音樂學(xué)院學(xué)報)2018年第3期。
[2]劉灝《淺論算法作曲與交互遺傳算法作曲》,《人民音樂》2014年第7期。
[3] 張英俐《基于遺傳算法的作曲系統(tǒng)研究》,山東師范大學(xué)2006年碩士論文。
[4] 李東洋、郭為安等《基于隱馬爾可夫和交互式遺傳算法的計算機作曲算法設(shè)計》,《微型電腦應(yīng)用》2016年第11期。
[5] 崔嘉《遺傳算法在計算機輔助樂曲創(chuàng)作中的研究與應(yīng)用》,山東師范大學(xué)2007年碩士論文。
[6] 張英俐、劉弘、馬金剛《遺傳算法作曲系統(tǒng)研究》,《信息技術(shù)與信息化》 2005年第5期。
[7] 付曉東《音樂人工智能的倫理思考——算法作曲的“自律”與“他律”》,《藝術(shù)探索》 2018年第5期。
[8]韓艷玲《可能性構(gòu)造空間理論與計算機作曲思維模型研究》,華中科技大學(xué)2010年博士論文。
{1} DeepMind,位于英國倫敦,是由人工智能程序師兼神經(jīng)科學(xué)家戴密斯·哈薩比斯(Demis Hassabis)等人聯(lián)合創(chuàng)立,是前沿的人工智能企業(yè),其將機器學(xué)習(xí)和系統(tǒng)神經(jīng)科學(xué)的最先進技術(shù)結(jié)合起來,建立
強大的通用學(xué)習(xí)算法。
{2}馬爾可夫鏈(Markov Chain, MC)是概率論和數(shù)理統(tǒng)計中具有馬爾可夫性質(zhì)(Markov property)且存在于離散的指數(shù)集(index set)和狀態(tài)空間(state space)內(nèi)的隨機過程(stochastic process)。
{3}遺傳算法(Genetic Algorithm)是模擬達爾文生物進化論的自然選擇和遺傳學(xué)機理的生物進化過程的計算模型。
{4} 用于評價節(jié)點重要性的函數(shù)叫做評價函數(shù)。
{5} 長短時記憶網(wǎng)絡(luò)模型,一種算法模型。
{6} MPEG-7標(biāo)準(zhǔn)被稱為“多媒體內(nèi)容描述接口”,為各類多媒體信息提供一種標(biāo)準(zhǔn)化的描述,這種描述將與內(nèi)容本身有關(guān),允許快速和有效地查詢用戶感興趣的資料。它將擴展現(xiàn)有內(nèi)容識別專用解決方案的有限能力,特別是它還包括了更多的數(shù)據(jù)類型。換言之,MPEG-7規(guī)定一個用于描述各種不同類型多媒體信息的描述符的標(biāo)準(zhǔn)集合,該標(biāo)準(zhǔn)于1998年10月提出。
{7} 目前對于樂器聲音質(zhì)量進行評測的技術(shù)研究已較為成熟,與相關(guān)
樂器廠商合作,已投入其出廠樂器的評價及調(diào)試流程。
劉灝? 博士,上海音樂學(xué)院音樂工程系副教授
(責(zé)任編輯? ?張萌)