■劉奡智 韓寶強(qiáng)
20 19 年由中國(guó)平安人工智能研究院推出的由AI 創(chuàng)作的《我和我的祖國(guó)交響變奏曲》在深圳音樂廳首演。作品通過自動(dòng)變奏模型,對(duì)歌曲《我和我的祖國(guó)》的旋律進(jìn)行變奏,并在變奏的同時(shí)融入其他經(jīng)典歌曲的元素。全曲總共分為五個(gè)段落,通過對(duì)《我和我的祖國(guó)》歌曲主題的變奏,表現(xiàn)了新中國(guó)發(fā)展歷程的宏大畫卷。這部作品由深圳交響樂團(tuán)演出,樂團(tuán)音樂總監(jiān)林大葉對(duì)音樂品質(zhì)表示了肯定,并提出了未來5—10 年AI能創(chuàng)作傳世作品的期許,這次的演出也引起了社會(huì)各界對(duì)人工智能音樂的注意。實(shí)際上人工智能音樂并非一個(gè)全新的領(lǐng)域,該領(lǐng)域已有若干年的發(fā)展歷史,而在近些年人工智能音樂則掀起了一波熱潮,受到了前所未有的關(guān)注。
“人工智能”(Artificial Intelligence)通常界定為“機(jī)器展示的智能”,“人工智能音樂”(AI Music)則特指由計(jì)算機(jī)神經(jīng)網(wǎng)絡(luò)等算法生成的音樂。雖然當(dāng)前人工智能技術(shù)仍處于初級(jí)階段,距成熟還有較長(zhǎng)的路要走。但其在某些領(lǐng)域達(dá)到的智慧水平已讓人刮目相看,眾所周知的例證便是谷歌公司的阿爾法狗(AlphaGo)完勝世界著名圍棋大師。
作為音樂人自然會(huì)問這個(gè)問題:人工智能會(huì)不會(huì)擊敗人類作曲大師?根據(jù)現(xiàn)實(shí)已有的答案是:還不能。因?yàn)橐魳穼儆谒囆g(shù)范疇,不像圍棋這種競(jìng)技項(xiàng)目有客觀的勝負(fù)標(biāo)準(zhǔn),音樂取勝的標(biāo)準(zhǔn)由人類審美習(xí)慣來判定,雖然機(jī)器可在1 分鐘內(nèi)生成上千首樂曲,但很可能被聽賞者一句“不好聽”而拋棄。目前國(guó)際上較為成功的人工智能技術(shù)也只能模仿一些規(guī)律性較強(qiáng)的音樂風(fēng)格,如巴赫、披頭士等,且未達(dá)到逼真程度,更遑論超越音樂大師的創(chuàng)作。那么這種情況是否就意味著神經(jīng)網(wǎng)絡(luò)永遠(yuǎn)產(chǎn)生不出大師之作,注定要與平庸為伍呢?本文旨在通過觀察前期人工智能音樂演化歷程和當(dāng)前應(yīng)用發(fā)展趨勢(shì),來探討人工智能音樂未來發(fā)展的前景與挑戰(zhàn)。
馬爾科夫模型是以俄羅斯數(shù)學(xué)家馬爾科夫命名的一種模型方案。通常來說馬爾科夫模型用來解決眾多序列問題,比如天氣的預(yù)測(cè)、股票的預(yù)測(cè)等等。音樂的創(chuàng)作,也可以被看作是一個(gè)序列問題,這也是馬爾科夫模型廣泛用于音樂生成的重要原因。馬爾科夫模型時(shí)至今日仍是用于音樂生成的有力工具,而這個(gè)模型早在1950 年就已經(jīng)被美國(guó)聲學(xué)工程的大師哈里·費(fèi)迪南德·奧爾森(Harry F.Olson)用于音樂結(jié)構(gòu)的生成。
語法系統(tǒng)起源于語言生成系統(tǒng)。早在1957 年,語言學(xué)家諾姆·喬姆斯基(Noam Chomsky)便提出了最為基礎(chǔ)的語言模型。里多夫(Lidov)和加布勒(Gabura)是較早采用語法系統(tǒng)生成音樂的研究者,他們?cè)?973 年,通過語法系統(tǒng)生成了簡(jiǎn)單的節(jié)奏,取得了基礎(chǔ)性的突破。一般來說,語法系統(tǒng)包含了起始符號(hào)、終止符號(hào)、非終止符號(hào)及生成過程的一系列規(guī)則。這種基于語法系統(tǒng)的生成方案,在音樂生成的研究上非常流行,因?yàn)橐魳芬灿幸魳返恼Z法,如和聲、復(fù)調(diào)、曲式、配器的作曲理論規(guī)則。而研究這種生成方法的也往往是具備強(qiáng)音樂背景的音樂與計(jì)算機(jī)復(fù)合型人才。
所謂物競(jìng)天擇,適者生存。遺傳算法是一種類似于達(dá)爾文進(jìn)化論的機(jī)器學(xué)習(xí)算法,屬于機(jī)器學(xué)習(xí)五大流派中的進(jìn)化學(xué)派。遺傳算法中的適應(yīng)性函數(shù),用于評(píng)價(jià)大量生成的“種群”當(dāng)中適合存活的對(duì)象,對(duì)種群中的個(gè)體進(jìn)行優(yōu)勝略汰?;艏{·安德魯(Horner Andrew)以及大衛(wèi)·戈德堡(David Goldberg)是較早研究遺傳算法與音樂生成的研究員。他們通過自己定義的適應(yīng)性函數(shù),來不斷優(yōu)化生成的旋律。適應(yīng)性函數(shù)的設(shè)計(jì)方法很多,其中也有不少的研究引入作曲理論規(guī)則,如四部和聲理論、對(duì)位規(guī)則等,進(jìn)行適應(yīng)性篩選,盡可能讓能“存活”的音樂片段符合規(guī)則,增加可聽性。由于遺傳算法可以通過引入作曲規(guī)則提高音樂的悅耳程度,至今仍有少數(shù)研究機(jī)構(gòu)致力于遺傳算法進(jìn)行音樂生成的研究。
1.循環(huán)神經(jīng)網(wǎng)絡(luò)
循環(huán)神經(jīng)網(wǎng)絡(luò)是深度神經(jīng)網(wǎng)絡(luò)模型的一種,常用于解決序列問題,比如機(jī)器翻譯、文本生成、語音識(shí)別。由于基礎(chǔ)的循環(huán)神經(jīng)網(wǎng)絡(luò)中,反向傳播過程有梯度消失的問題,現(xiàn)代一般采用改進(jìn)的循環(huán)神經(jīng)網(wǎng)絡(luò)模型:長(zhǎng)短記憶網(wǎng)絡(luò)(LSTM)。這種神經(jīng)網(wǎng)絡(luò)的輸入可以是一個(gè)序列,輸出也可以是一個(gè)序列。對(duì)于音樂生成的任務(wù)而言,用戶輸入若干個(gè)音符作為動(dòng)機(jī),一個(gè)訓(xùn)練好的循環(huán)神經(jīng)網(wǎng)絡(luò)模型會(huì)自動(dòng)幫助機(jī)器進(jìn)行續(xù)創(chuàng),較早的例子有道格拉斯·艾爾克(Douglas Eck)通過LSTM模型進(jìn)行的藍(lán)調(diào)音樂生成研究。
圖1 循環(huán)神經(jīng)網(wǎng)絡(luò)
2.Transformer
Transformer 是谷歌大腦在2017 年提出的一種序列模型,該模型最早應(yīng)用于機(jī)器翻譯。這個(gè)模型的出現(xiàn)也撼動(dòng)了循環(huán)神經(jīng)網(wǎng)絡(luò)在深度學(xué)習(xí)中的地位。甚至在很多的研究測(cè)試中,Transformer 的表現(xiàn)均優(yōu)于循環(huán)神經(jīng)網(wǎng)絡(luò)。2018 年谷歌大腦亦把Transformer 模型應(yīng)用于音樂生成的問題,發(fā)表了music transformer 的論文,曾名噪一時(shí)。
圖2 Transformer 模型機(jī)制
3.變分自編碼器(VAE)
自編碼器(AE),即通過一個(gè)神經(jīng)網(wǎng)絡(luò),將一張圖片或者一段語音變成一串?dāng)?shù)字,目的是增加圖片或語音的可搜索性,并且通過該數(shù)字重建圖片或者語音。變分自編碼器(VAE)是自編碼器的一種,是自編碼器的升級(jí)版本,結(jié)構(gòu)與自編碼器類似,亦由編碼器和解碼器構(gòu)成。與單純的自編碼器相比,變分自編碼器強(qiáng)制編碼得到的隱含向量需要遵循一個(gè)標(biāo)準(zhǔn)正態(tài)分布。早期將VAE 模型用于音樂生成的,則是谷歌的MusicVAE 模型,用戶輸入兩段音樂片段,模型為用戶進(jìn)行插值,生成連續(xù)的過渡性片段。
圖 3 自編碼器(AE)
d.生成對(duì)抗網(wǎng)絡(luò)(GAN)
生成對(duì)抗網(wǎng)絡(luò),顧名思義,該模型包含生成器以及判別器兩個(gè)部分。生成器與判別器的關(guān)系,則好比印假鈔團(tuán)伙與警察的關(guān)系。生成器與判別器互相博弈,兩者不斷升級(jí),
經(jīng)過了多輪博弈,訓(xùn)練出的生成器則可以假亂真。近些年生成對(duì)抗網(wǎng)絡(luò)成為了計(jì)算機(jī)視覺生成領(lǐng)域的主流模型。在音樂生成領(lǐng)域,MIDI-Net 是最早用GAN 來生成音樂的模型,該模型最核心的一個(gè)思想即把鋼琴窗的矩陣類比成圖片,如此一來在一定的時(shí)間內(nèi),多聲部的音樂便可表示為一張圖。如此,在計(jì)算機(jī)視覺領(lǐng)域流行的生成對(duì)抗網(wǎng)絡(luò),便可用于音樂的生成。
圖4 生成對(duì)抗網(wǎng)絡(luò)機(jī)制
人工智能音樂是近些年的一大噱頭,許多初創(chuàng)公司也在這一波風(fēng)口浪尖上,持續(xù)地拿到了融資。自2014 年Jukedeck在巴黎的Le Web 會(huì)議高調(diào)亮相以后,人工智能音樂領(lǐng)域掀起了一波融資浪潮,在國(guó)際上較為高調(diào)的尤數(shù)Amper Music①、Jukedeck②以及AIVA③。Amper Music 是一家由三位好萊塢制作人創(chuàng)立的,聲稱以人工智能提供音樂內(nèi)容服務(wù)的公司。Amper的交互十分簡(jiǎn)單,用戶只需要選擇一種風(fēng)格、一種情緒以及對(duì)應(yīng)時(shí)長(zhǎng),就可以得到一首樂曲,這種交互簡(jiǎn)明、低門檻、容易操作。Jukedeck 的產(chǎn)品邏輯與Amper 類似,以為客戶定制音樂作為商業(yè)模式進(jìn)行探索。2019 年7 月,Jukedeck 被Tiktok 收購(gòu)。Jukedeck 的音樂生成內(nèi)容庫(kù)也成為了Tiktok 這個(gè)大流量短視頻平臺(tái)的助推器。
相較之下,AVIA 系統(tǒng)則更注重通過高品質(zhì)作品來博取眼球并吸引投資。一方面,AVIA 推出由人工智能生成的樂隊(duì)作品,并交由樂團(tuán)來演奏。另一方面,AVIA 也出版了多張專輯,并表示專輯中的音樂都是人工智能生成的。最近,AVIA 在對(duì)外網(wǎng)站中上線了輔助音樂人創(chuàng)作的工具,欲另辟蹊徑避免與Amper 及Jukedeck 的業(yè)務(wù)高度一致。
除了這三家較為高調(diào)的公司以外,諸如Popgun、Amadues Code、Melodrive、Ecrett Music 等,都是這個(gè)領(lǐng)域的初創(chuàng)玩家,均聚焦于音樂生成或音樂生成的一些子任務(wù),如自動(dòng)配和聲、節(jié)奏生成等等。然而眾多的初創(chuàng)企業(yè)中,尚未有任何一家能體現(xiàn)出顯著的技術(shù)優(yōu)勢(shì)。因而人工智能音樂行業(yè)也一直被認(rèn)為處于起步階段,這與行業(yè)的產(chǎn)品化現(xiàn)狀不無關(guān)系。
人工智能音樂生成,本質(zhì)上就是一個(gè)極具挑戰(zhàn)性的任務(wù)。培養(yǎng)一個(gè)作曲家尚需要漫長(zhǎng)的時(shí)間,培養(yǎng)一個(gè)人工智能又談何容易。在人工智能音樂生成的研究當(dāng)中,有諸多技術(shù)上的挑戰(zhàn),其中有一些挑戰(zhàn),似乎也決定了人工智能難以超越人類的宿命。
音樂為什么好聽?事實(shí)上人類大腦對(duì)音樂的感知機(jī)制,至今仍未有高度定量化的結(jié)論。換句話說,我們不是不懂音樂,而是不懂我們自己。再則,對(duì)音樂的喜好,不僅僅是“好聽”與“不好聽”的問題。音樂的審美往往受諸多因素影響,例如人的個(gè)性、音樂學(xué)習(xí)經(jīng)歷以及文化背景等等,是個(gè)體生活經(jīng)歷的衍生品。如果希望人工智能真正能創(chuàng)作音樂,那首先需要教會(huì)人工智能審美,而教會(huì)人工智能審美本身就已經(jīng)是一個(gè)極限挑戰(zhàn)。
1.結(jié)構(gòu)缺失問題
人工智能音樂的生成模型有很多,然而大多數(shù)在設(shè)計(jì)階段就沒有考慮到生成的音樂是需要具備一定結(jié)構(gòu)的。這種問題的出現(xiàn),一方面是通用人工智能領(lǐng)域并沒有十分合適的工具,能讓音樂的結(jié)構(gòu)被學(xué)進(jìn)去。另一方面,許多人工智能音樂生成的研究者,本身音樂背景略為單薄,對(duì)曲式結(jié)構(gòu)的理解十分有限。人類在訓(xùn)練人工智能過程不重視結(jié)構(gòu),就好比在作曲的教學(xué)當(dāng)中,略去了曲式分析的課程,讓學(xué)生在這方面能力有所缺失,大大減弱了學(xué)生創(chuàng)作完整作品的能力。
2.深度學(xué)習(xí)的過擬合問題
深度學(xué)習(xí)極其容易有過擬合問題。如果深度學(xué)習(xí)模型過擬合到特定數(shù)據(jù)集上,則會(huì)出現(xiàn)了單純記憶的情況,即在生成的過程中形成大塊片段的抄襲。這是諸多深度學(xué)習(xí)模型都具有的通病,其中尤以序列模型為嚴(yán)重。一般認(rèn)為,人工智能音樂生成是為了解決版權(quán)制約的問題,但技術(shù)所面臨的挑戰(zhàn)卻暴露了另外一個(gè)現(xiàn)實(shí),基于深度學(xué)習(xí)模型生成的音樂可能是在抄。這個(gè)問題如果不能妥善解決,那用深度學(xué)習(xí)去做人工智能音樂生成,可能已經(jīng)違背了人工智能生成的初衷,并且引發(fā)了新的侵權(quán)風(fēng)險(xiǎn)。
3.統(tǒng)計(jì)模型的理念問題
機(jī)器學(xué)習(xí)模型中,有相當(dāng)一部分本質(zhì)上是統(tǒng)計(jì)模型。統(tǒng)計(jì)模型是不是適合藝術(shù)創(chuàng)作呢?藝術(shù)創(chuàng)作是具備一定頂端優(yōu)勢(shì)的,有了一個(gè)梵高,也許不需要第二個(gè)。但我們用統(tǒng)計(jì)模型去做生成,往往結(jié)果是從大量數(shù)據(jù)中統(tǒng)計(jì)出分布聚集的部分,企圖用這種方式讓人工智能去超越數(shù)據(jù)中的優(yōu)秀作品,是未必現(xiàn)實(shí)的。統(tǒng)計(jì)模型是否適合用于藝術(shù)創(chuàng)作,也是一個(gè)需要理性審視的問題。現(xiàn)今深度學(xué)習(xí)大量用于音樂生成問題的研究,或有跟風(fēng)之嫌。
如果假定了評(píng)價(jià)音樂的核心是人,那么人工智能挑戰(zhàn)人類的命題將無從說起。根本上說,既然人工智能不具備審美,那就沒有人工智能創(chuàng)作的音樂,只有人創(chuàng)作的音樂。人工智能不會(huì)取代人類,更不會(huì)超越人類。然而,人類也并不是要排斥人工智能。從音樂發(fā)展的歷史長(zhǎng)河看來,音樂創(chuàng)作并不只是遵照前人技法的繼承,推陳出新同樣重要。總有一些音樂,引領(lǐng)著時(shí)代,也總有一些音樂,試圖打破前人的思想局限,尋覓新的音響效果。也許人工智能是一種很好的實(shí)驗(yàn)工具,加快新作品的誕生,偶爾的打破想象力的局限,帶來一絲絲的新鮮感。
假定人工智能生成的音樂已經(jīng)比較成熟,那人工智能生成的音樂如何歸屬,則是一個(gè)無法繞開的議題。實(shí)際上,以計(jì)算機(jī)作為工具創(chuàng)作音樂并非新鮮事。但人工智能的發(fā)展還是帶來了新的問題。人工智能生成的音樂,無論品質(zhì)如何,在形式或體裁上可以做到與人類創(chuàng)作的一致,比起純粹的工具而言有更高的自動(dòng)化程度,這也不可避免了引發(fā)了人工智能音樂歸屬權(quán)的討論,尤其受到關(guān)注的討論則是,人工智能音樂應(yīng)該屬于人工智能的編程者(設(shè)計(jì)者),還是人工智能音樂系統(tǒng)的操作者?從現(xiàn)實(shí)情況來看,人工智能音樂尚未發(fā)展到有足夠自主意識(shí)的程度,人機(jī)交互或是目前輸出作品的主流形式。這個(gè)過程,人工智能音樂的操作者舉足輕重,從學(xué)理上,版權(quán)屬于操作者的論斷得到了不少支持。
但從另一個(gè)角度來看,這種論斷也有站不住腳的地方。人工智能音樂的生成,尤其是基于數(shù)據(jù)驅(qū)動(dòng)的人工智能解決方案,是依賴于數(shù)據(jù)的。一方面,這些數(shù)據(jù),作為作品,本身就可能具有版權(quán)。另一方面,這些數(shù)據(jù)的收集與篩選也是基于人工智能設(shè)計(jì)師的邏輯。從這個(gè)角度來講,將版權(quán)歸屬于操作者的做法,也必然受到質(zhì)疑。在目前的行業(yè)技術(shù)現(xiàn)狀之下,通過版權(quán)法對(duì)人工智能音樂的操作者進(jìn)行激勵(lì),可以為這些操作者的創(chuàng)作行為提供驅(qū)動(dòng)力。但在未來,如果操作者已經(jīng)無需深度參與創(chuàng)作,僅僅需要按下一個(gè)按鈕,或者插上電源,對(duì)操作者的激勵(lì)可能就不再具有必要性。
人工智能音樂的教學(xué)在我國(guó)剛剛起步。中央音樂學(xué)院已建立人工智能與音樂信息科技系,招收相關(guān)專業(yè)博士研究生。四川音樂學(xué)院設(shè)立了人工智能音樂碩士專業(yè),疫情期間在線上舉辦8 次人工智能音樂專題講座,研究生反響強(qiáng)烈。還有一些理工科大學(xué)教授出于個(gè)人對(duì)音樂的愛好,建立了與人工智能音樂相關(guān)的研究項(xiàng)目,培養(yǎng)音樂科技兩棲人才。
人工智能音樂在我國(guó)的教育模式建設(shè),可以說是經(jīng)歷著一個(gè)從0 到1 的過程。這個(gè)過程的建設(shè),也必然有些問題需要思考。需要深入探討的一點(diǎn)是,人工智能音樂,重點(diǎn)是人工智能還是音樂?這個(gè)問題或許會(huì)有不同的理解。假設(shè)人工智能音樂的教育模式中,人工智能是重點(diǎn),那么在課程的設(shè)計(jì)上,應(yīng)該借鑒現(xiàn)今高校開設(shè)的人工智能專業(yè)課程體系,從編程基礎(chǔ)入手,循序漸進(jìn),首先把人工智能理論知識(shí)掌握透徹,再著手把理論知識(shí)應(yīng)用至音樂當(dāng)中。另一種理解則是,“人工智能音樂”更應(yīng)該調(diào)整語序?yàn)椤耙魳啡斯ぶ悄堋?,?qiáng)調(diào)教學(xué)過程中音樂的地位。這種觀點(diǎn)很重要的一個(gè)論點(diǎn)是,技術(shù)是服務(wù)于藝術(shù)的。音樂是一門聽覺藝術(shù),需要用聲音來傳遞情感,喚起人們內(nèi)心的共鳴。因此無論是用何種方法創(chuàng)造的音樂,都不應(yīng)該忽視人的審美。倘若人工智能音樂的側(cè)重點(diǎn)在于技術(shù),興許有本末倒置之嫌。
然而,如果有足夠多的學(xué)生,既懂音樂又懂計(jì)算機(jī),這種方向之爭(zhēng)大可淡化?,F(xiàn)實(shí)情況是,音樂與計(jì)算機(jī)的跨域人才十分稀缺。因而推動(dòng)人工智能音樂這個(gè)領(lǐng)域的發(fā)展,人才培養(yǎng)是一大關(guān)鍵要素。有更多的人才進(jìn)入人工智能音樂這個(gè)交叉學(xué)科領(lǐng)域,深耕技術(shù),潛心科研,不斷尋求創(chuàng)新與突破,才會(huì)讓這個(gè)學(xué)科不斷進(jìn)步,走向成熟。
縱觀音樂發(fā)展史可知,科技一直在音樂中擔(dān)當(dāng)基本發(fā)展動(dòng)力的角色,從春秋時(shí)期的管子、古希臘的畢達(dá)哥拉斯對(duì)樂音和音階構(gòu)成的數(shù)理解釋,到當(dāng)今飛速發(fā)展的網(wǎng)絡(luò)技術(shù)對(duì)音樂全球一體化的影響,種種事例無一不在提示我們:科技自身不會(huì)產(chǎn)生藝術(shù),但可以激發(fā)人類以形式創(chuàng)新的方式來推動(dòng)整體音樂藝術(shù)的發(fā)展。這也正是我們堅(jiān)信人工智能音樂具有光明發(fā)展前景的基本理念所在。
①Amper Music 詳情見網(wǎng)站https://ampermusic.com/
②Jukedeck 公司目前已被字節(jié)跳動(dòng)收購(gòu)
③AVIA 詳情見網(wǎng)站https://www.aiva.ai/