周 莉鄧 陽
(1,2.中國(guó)地質(zhì)大學(xué) 藝術(shù)與傳媒學(xué)院,湖北 武漢 430074)
近年來,音樂人工智能在歐美以及日本等地區(qū)發(fā)展迅速,已成為人工智能的一個(gè)重要分支。人工智能作曲由于能將人類的創(chuàng)造力、情感表達(dá)、審美等智能與計(jì)算機(jī)的計(jì)算能力、機(jī)器人機(jī)械系統(tǒng)、自動(dòng)化控制等技術(shù)相結(jié)合,突破了人類作曲的專業(yè)技術(shù)制約,創(chuàng)造出更具新奇感的音樂效果,同時(shí)也節(jié)省了人力成本,提高了音樂創(chuàng)作和音樂表演的效率。在“互聯(lián)網(wǎng)+”以及“工業(yè)制造4.0”的新時(shí)代背景下,具備通信、網(wǎng)絡(luò)與人機(jī)交互功能的人工智能作曲系統(tǒng)進(jìn)入教育科普、藝術(shù)表演以及娛樂服務(wù)等領(lǐng)域已是大勢(shì)所趨。
隨著人工智能研發(fā)水平的快速提升,自2013年以來,我國(guó)的人工智能市場(chǎng)需求連續(xù)多年位居世界前列,在教育科普、醫(yī)療康復(fù)、家庭養(yǎng)老、娛樂服務(wù)等行業(yè)有著廣泛的需求。2017年,國(guó)家發(fā)布了《新一代人工智能發(fā)展規(guī)劃》,明確提出將人工智能作為未來優(yōu)先發(fā)展的戰(zhàn)略性技術(shù)。同年底,工信部印發(fā)的《新一代人工智能產(chǎn)業(yè)三年行動(dòng)計(jì)劃(2018—2020)》,為大力發(fā)展人工智能指明了方向。習(xí)近平總書記在黨的十九大報(bào)告中也指出,要加快人工智能和實(shí)體經(jīng)濟(jì)深度融合,將人工智能發(fā)展提升到國(guó)家戰(zhàn)略高度。
與此同時(shí),用戶對(duì)人工智能產(chǎn)品也提出了更高的要求,希望人工智能產(chǎn)品具有“情感智能”(Emotional Intelligence)[1]185-211,能感知識(shí)別人類的情感、意圖,并主動(dòng)為人類服務(wù)。因此,情感型人工智能產(chǎn)品受到國(guó)內(nèi)外科技工作者的廣泛關(guān)注,具有情感計(jì)算功能的人工智能產(chǎn)品已成為人工智能的未來發(fā)展趨勢(shì)。
音樂是人類情感表達(dá)的重要形式之一。音樂情感在概念上被認(rèn)為是一種難以量化的人類情感表達(dá),且隨著音樂的進(jìn)行發(fā)生著豐富的變化。以人工的方法和技術(shù)讓機(jī)器快速識(shí)別光學(xué)樂譜和實(shí)時(shí)樂音,通過音樂情感模型的推理和優(yōu)化,獲取人類音樂情感的表達(dá)模式,主動(dòng)與用戶完成人機(jī)協(xié)同的智能作曲等相關(guān)服務(wù),對(duì)促進(jìn)基于多源感知的情感型人工智能發(fā)展具有重要的研究?jī)r(jià)值和實(shí)踐意義。
算法作曲(Algorithmic Composition)也稱自動(dòng)作曲,是試圖使用某個(gè)形式化的過程,以使人(或作曲家)在利用計(jì)算機(jī)進(jìn)行音樂創(chuàng)作時(shí)實(shí)現(xiàn)不同程度上的自動(dòng)化[2]235-265,[3]377-421。目前已有較多計(jì)算機(jī)輔助算法作曲系統(tǒng)(Computer-Aided Algorithmic Composition,簡(jiǎn)稱 CAAC),如 Super Collider、C Sound、MAX/MSP、Kyma、Nyquist、AC Toolbox 等眾多國(guó)外研發(fā)的系統(tǒng)。典型的CAAC是一種自動(dòng)化程度較低的作曲系統(tǒng),這種系統(tǒng)不具備自主創(chuàng)造力(人工介入較多),也不具備較為抽象的高程度音樂知識(shí)庫(kù)體系。
人工智能作曲(Artificial Intelligence Composition)簡(jiǎn)稱AI作曲,隸屬于算法作曲的范疇,是運(yùn)用人工智能算法進(jìn)行機(jī)器作曲的過程,以使人(或作曲家)在利用計(jì)算機(jī)進(jìn)行音樂創(chuàng)作時(shí)的介入程度達(dá)到最?、貯dam Alpern,Techniques for Algorithmic Composition of Music,1995.http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.23.9364&rep=rep1&type=pdf.。將人工智能運(yùn)用到計(jì)算機(jī)輔助算法作曲系統(tǒng),可以模擬作曲家的創(chuàng)作思維,將極大提高作曲系統(tǒng)的自動(dòng)化程度。具有高自動(dòng)化程度的AI作曲,不僅可以使作曲家更高效地工作,提高作曲效率,還可以簡(jiǎn)化作曲的繁雜性,提高音樂創(chuàng)作的普遍性,更增加了音樂與人工智能等多領(lǐng)域交叉發(fā)展的可能性。自1950年以來,多種基于人工智能的算法被運(yùn)用到作曲中來。其中主要包括馬爾科夫鏈、神經(jīng)網(wǎng)絡(luò)、遺傳算法,以及多種混合型算法等。
使用計(jì)算機(jī)作曲的時(shí)間最早可以追溯到20世紀(jì)50年代中期,而人工智能的概念也幾乎同時(shí)在達(dá)特茅斯(Darmouth)會(huì)議上被提出來。但是當(dāng)時(shí)計(jì)算機(jī)價(jià)格昂貴,速度慢,而且使用起來也很困難,所以經(jīng)過多年后算法作曲才開始與人工智能相結(jié)合。
最早完全由計(jì)算機(jī)生成的音樂作品是由列哈倫·希勒(Lejaren Hiller)在1956年創(chuàng)作的弦樂四重奏《伊利亞克組曲》(Illiac Suite)。1995年由阿爾佩(Alpern)研發(fā)的EMI作曲系統(tǒng)也是較早的一個(gè)成熟的古典音樂作曲系統(tǒng),該系統(tǒng)注重各種音樂的風(fēng)格,主要采用拼接的方式來創(chuàng)作再現(xiàn)已故作曲家音樂風(fēng)格的作品。這些作品有類巴赫的創(chuàng)意曲、器樂協(xié)奏曲和組曲,還有類莫扎特的奏鳴曲以及類肖邦的夜曲。
此外,2010年由格奧爾(Georg Boenn)等人研發(fā)的Anton作曲系統(tǒng),是使用答案集編程來構(gòu)建的一個(gè)自動(dòng)化系統(tǒng),是算法作曲領(lǐng)域的一個(gè)較大突破。該系統(tǒng)可以在一個(gè)框架體系內(nèi)生成音高和節(jié)奏,并識(shí)別判斷人為的錯(cuò)誤。21世紀(jì)以來學(xué)術(shù)界對(duì)算法作曲研究展開了較為全面的描述,2013年費(fèi)爾南德斯(Fernández)認(rèn)為算法作曲系統(tǒng)的發(fā)展將從根本上改變音樂作曲的過程,進(jìn)而影響到音樂的市場(chǎng),為人工智能作曲研究提供一個(gè)全面的視角。
近年來,國(guó)外在人工智能作曲領(lǐng)域發(fā)展較為迅速,國(guó)外人工智能巨頭公司都對(duì)人工智能作曲展開了深入研究,一些由人工智能創(chuàng)作的音樂作品已經(jīng)達(dá)到“大師級(jí)”水平,甚至可以“以假亂真”。2016年2月,第一部由算法創(chuàng)作的音樂劇《越過墻垣》(Beyond theFence)在倫敦上演,獲得較高評(píng)價(jià);2016年6月,谷歌公司研發(fā)的機(jī)器學(xué)習(xí)項(xiàng)目馬真塔(Magenta)通過神經(jīng)學(xué)習(xí)網(wǎng)絡(luò)創(chuàng)作出一首時(shí)長(zhǎng)90秒的鋼琴曲;同年9月,索尼計(jì)算機(jī)科學(xué)實(shí)驗(yàn)室利用人工智能程序創(chuàng)作了一首披頭士音樂風(fēng)格的歌曲《爸爸的汽車》(Daddy'sCar),廣受好評(píng);美國(guó)網(wǎng)紅兼流行歌手泰琳·薩頓(Taryn Southern)近日發(fā)表了一張名為《我是人工智能》(Iam AI)的新專輯,成為人類歷史上第一張正式發(fā)行的人工智能歌曲專輯。其中,主打單曲《沖破藩籬》(BreakFree)聽眾普遍反映完全聽不出是由應(yīng)用程序創(chuàng)作完成,和音樂人創(chuàng)作的作品沒有太大差別,改變了人工智能創(chuàng)作的音樂比較機(jī)械、情感空白的現(xiàn)狀。
我國(guó)在人工智能作曲領(lǐng)域發(fā)展還處在起步階段,百度、平安科技等公司和研究機(jī)構(gòu)相繼有AI作曲系統(tǒng)和作品推出,但成果還較為零星,不成體系,且作品的可聽性有待提高。
當(dāng)前AI作曲與深度學(xué)習(xí)結(jié)合日益緊密,朝著多元化方向發(fā)展,其中遺傳算法、人工神經(jīng)網(wǎng)絡(luò)、馬爾科夫鏈、混合型算法使用最為廣泛。
遺傳算法(Genetic Algorithm)是一個(gè)使用適應(yīng)性函數(shù)來演化樣本的全局優(yōu)化算法,[4]209-215其中變異算子能夠很好地模擬人在其創(chuàng)作當(dāng)中靈感的閃現(xiàn)。該算法的核心是對(duì)于適應(yīng)性函數(shù)的設(shè)計(jì),目前尚無統(tǒng)一標(biāo)準(zhǔn)。
國(guó)外已有相關(guān)遺傳算法作曲系統(tǒng),1994年拜爾斯(Biles)構(gòu)建的Gen Jam系統(tǒng)為基于遺傳算法的人機(jī)交互系統(tǒng)構(gòu)建提供了一種可能性,其主要采用遺傳算法的交互式即興演奏系統(tǒng),能在一個(gè)給定的和弦序列上生成爵士器樂獨(dú)奏旋律,與人交互演奏爵士樂。2003年安赫拉(M.Unhera)和歐尼斯瓦(T.Onisawa)提出的音樂作曲系統(tǒng),允許無音樂技能的人介入其作曲系統(tǒng)來創(chuàng)作音樂,出現(xiàn)了讓人代替適應(yīng)性函數(shù)來直接評(píng)估染色體的一種方法,即交互式的遺傳算法IGA(Interactive Genetic Algorithm)。所有和交互式的遺傳算法IGA相關(guān)的方法都具有主觀片面性的弊端。
2011年塞特澤(Seitzer)引入了一個(gè)新的數(shù)據(jù)結(jié)構(gòu)來跟蹤遺傳算法的執(zhí)行,采用了一種基于時(shí)間軸的適應(yīng)度函數(shù)來形成旋律進(jìn)化。2013年瓦格納(Wagner)論證的島嶼模型遺傳算法,介紹了合適的遷移算子,引入了圖像、視頻和音樂分割等每個(gè)鄰域的遺傳算法,通過對(duì)音樂結(jié)構(gòu)進(jìn)行深入的分析,完成了音樂信息檢索、主題性挖掘技術(shù),為實(shí)現(xiàn)遺傳算法優(yōu)化操作集合奠定基礎(chǔ)。
2008年,我國(guó)學(xué)者曹西征等對(duì)由計(jì)算機(jī)自動(dòng)生成音符序列和音頻文件的具體問題進(jìn)行了討論;2014年,黃澄宇等針對(duì)音樂質(zhì)量評(píng)估問題,提出了將相關(guān)音樂知識(shí)的規(guī)則和人機(jī)交互相結(jié)合的模式,共同對(duì)所創(chuàng)作音樂進(jìn)行合理評(píng)價(jià);2017年,郭衡澤等對(duì)基于交互式遺傳算法作曲系統(tǒng)的架構(gòu)與實(shí)現(xiàn),在編碼機(jī)制、人工評(píng)估及人機(jī)交互操作等諸多方面都有創(chuàng)新的設(shè)計(jì)應(yīng)用和實(shí)現(xiàn)方法。
人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks)是一種模仿生物神經(jīng)網(wǎng)絡(luò)行為特征,進(jìn)行分布式并行信息處理的算法數(shù)學(xué)模型。[5]23-26國(guó)內(nèi)外已經(jīng)有多種基于神經(jīng)網(wǎng)絡(luò)的作曲系統(tǒng):2009年,陳魁提出使用循環(huán)神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)音樂的曲式結(jié)構(gòu);2010年,伊斯塔托(Istituto)提出使用長(zhǎng)短時(shí)記憶(LSTM)神經(jīng)網(wǎng)絡(luò)可以使生成的音樂更具有完整性;2013年,殷波提出通過神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)和聲進(jìn)行可以獲得音樂的內(nèi)在聯(lián)系;2017年,李雄飛等指出人工神經(jīng)網(wǎng)絡(luò)為算法作曲提供了一種新的方式,其優(yōu)勢(shì)在于能夠?qū)σ魳纷髌返娜中蕴卣鬟M(jìn)行學(xué)習(xí),但是需采用大量的樣本進(jìn)行訓(xùn)練。
針對(duì)單一特征難以建立理想音樂分類模型的問題,為了幫助用戶找到自己喜歡的音樂,我國(guó)學(xué)者趙偉和劉明星分別于2015年、2018年提出了基于BP(Back Propagation,反向傳播)神經(jīng)網(wǎng)絡(luò)的音樂分類模型。通過對(duì)音樂旋律特征的音高、音長(zhǎng)、音色、節(jié)拍、速度和力度等特征向量的提取,構(gòu)建基于BP神經(jīng)網(wǎng)絡(luò)的情感模型,并用多首不同情感特征的歌曲對(duì)其進(jìn)行訓(xùn)練和驗(yàn)證。實(shí)驗(yàn)結(jié)果顯示這一模型的運(yùn)用取得了較好的效果。
馬爾科夫鏈(MarkovChain)是一種隨機(jī)過程,[6]19-26一直被廣泛地應(yīng)用于算法作曲領(lǐng)域,國(guó)外已有相關(guān)作曲系統(tǒng)。早在1989年科荷倫(Kohonen)就提出一種基礎(chǔ)馬爾科夫鏈的擴(kuò)展模型,使基于馬爾科夫鏈的作曲方法得到改進(jìn)。1999年,內(nèi)特(Neto)認(rèn)為,在算法作曲中一個(gè)簡(jiǎn)單但有趣的技術(shù)是按照一個(gè)轉(zhuǎn)換表來依次選擇音符,這個(gè)轉(zhuǎn)換表就像一個(gè)函數(shù),其自變量是當(dāng)前的音符,而函數(shù)值則是下一個(gè)要出現(xiàn)音符的可能性。此后,也有學(xué)者采用馬爾科夫鏈對(duì)音樂中連續(xù)的旋律片段進(jìn)行模型構(gòu)建,從而生成具有特定音樂風(fēng)格的新旋律片段,但是整部作品的曲式結(jié)構(gòu)無法通過馬爾科夫鏈建模。
2010年,結(jié)合馬爾科夫模型在作曲中存在的問題,韓艷玲指出,可以通過馬爾科夫鏈預(yù)測(cè)音符來作曲;米歇爾·黛拉文圖拉(Michele Della Ventura)則提出,通過馬爾科夫算法的自我學(xué)習(xí)模型來生成音樂旋律。2017年,張藝婕通過研究希臘裔法國(guó)籍作曲家澤納基斯的馬爾可夫鏈作曲技術(shù)理論與方法,論述了概率、馬爾可夫鏈原理與音樂創(chuàng)作、分析之間的關(guān)系。
混合型算法(Hybrid Algorithm)是將多種不同算法進(jìn)行組合,可以實(shí)現(xiàn)多種算法優(yōu)勢(shì)互補(bǔ)。國(guó)內(nèi)外對(duì)隨機(jī)過程與其他算法的結(jié)合有了相關(guān)的嘗試,[7]191-199也有了使用人工神經(jīng)網(wǎng)絡(luò)與遺傳算法相結(jié)合的作曲解決方案。[8]157-177
1990年艾布斯格魯(Ebcioglu)提出了CHORAL系統(tǒng),是一個(gè)基于規(guī)則的專家系統(tǒng)。該系統(tǒng)可以為單聲部主旋律構(gòu)造出具有巴赫風(fēng)格的四聲部合唱曲,且有一定的實(shí)用價(jià)值,它包含大約350條規(guī)則,這些規(guī)則從合唱曲多個(gè)單聲部的旋律線以及和弦結(jié)構(gòu)等多個(gè)角度來描述音樂知識(shí)。其存在的問題是知識(shí)引導(dǎo)機(jī)制及相關(guān)規(guī)則的建立既困難又費(fèi)時(shí),且難以進(jìn)一步擴(kuò)充。
1995年雅各布(Jacob)認(rèn)為遺傳算法與神經(jīng)網(wǎng)絡(luò)的結(jié)合能夠極大提高音樂的可聽性。旋律創(chuàng)作系統(tǒng)ERNN是一個(gè)遞歸神經(jīng)網(wǎng),能以一小節(jié)接一小節(jié)的方式來生成類似于貝拉·巴托克(Bela Bartok)風(fēng)格的短小旋律。同時(shí)使用遺傳算法以適應(yīng)函數(shù)來演化ERNN,基于音樂基本理論和貝拉·巴托克作品風(fēng)格構(gòu)造一系列約束集。該系統(tǒng)可視為基于客觀適應(yīng)函數(shù)進(jìn)行演化的旋律創(chuàng)作系統(tǒng)的代表。但是這類創(chuàng)作系統(tǒng)的結(jié)果通常都比較簡(jiǎn)單,還不具有實(shí)用價(jià)值,需要引入更多的音樂知識(shí)和規(guī)則,才能使系統(tǒng)變得實(shí)用和有效。
我國(guó)學(xué)者馮寅、周昌樂在2006年對(duì)交互式電子音樂研究領(lǐng)域進(jìn)行了較為詳細(xì)的文獻(xiàn)梳理,指出智能作曲系統(tǒng)可以朝著集多種方法為一體的混合型系統(tǒng)(hybrid system)的方向發(fā)展,系統(tǒng)應(yīng)在音樂創(chuàng)作的各個(gè)層面上提供靈活的人機(jī)交互手段,以便提高系統(tǒng)的實(shí)用性和有效性。2015年翁詩杰還研究了音樂的節(jié)奏、音高和力度的建模和推理方法,設(shè)計(jì)了基于貝葉斯網(wǎng)的輔助作曲與編曲的智能音樂系統(tǒng),實(shí)現(xiàn)了基于貝葉斯網(wǎng)研究的半監(jiān)督的音樂作曲原型,并進(jìn)行了實(shí)驗(yàn)分析,實(shí)驗(yàn)結(jié)果表明這一方法是可行的。
綜上所述,各種作曲算法在使用中都有其自身的優(yōu)勢(shì)和不足,智能作曲需要朝多元化混合算法的方向發(fā)展。
通過梳理從算法作曲到人工智能作曲的發(fā)展軌跡和國(guó)內(nèi)外研究現(xiàn)狀,我們不難發(fā)現(xiàn),人工智能作曲在快速發(fā)展的同時(shí)也存在一定的困境。各種作曲算法在使用中都存在著不同的優(yōu)劣勢(shì),所創(chuàng)作的音樂作品風(fēng)格和體裁還比較單一,且可聽性不高。國(guó)外算法作曲系統(tǒng)的研發(fā)相對(duì)活躍,而我國(guó)相關(guān)研究則較少,中國(guó)民族音樂人工智能作曲系統(tǒng)的研發(fā)更是缺乏。但隨著人工智能整體技術(shù)水平的提升,用戶對(duì)作曲系統(tǒng)智能化程度要求的提高,我國(guó)人工智能作曲正逐步走出困境,其發(fā)展也呈現(xiàn)出以下趨勢(shì)。
由于各種算法在人工智能作曲的使用中都有其自身的優(yōu)勢(shì)和不足,目前人工智能作曲的音樂作品風(fēng)格和體裁比較單一,且可聽性不強(qiáng)。多算法組合優(yōu)化將是人工智能作曲未來發(fā)展的主要方向。在混合型的算法作曲中,各種算法將揚(yáng)長(zhǎng)避短,發(fā)揮各自的優(yōu)勢(shì),作品的風(fēng)格和體裁將變得豐富且具有一定的可聽性。
現(xiàn)有的人工智能作曲系統(tǒng)大部分整體智能化程度相對(duì)較低,大多是基于內(nèi)置MIDI音樂信號(hào)進(jìn)行機(jī)器學(xué)習(xí)和創(chuàng)作,缺乏人類對(duì)音樂情感的識(shí)別體系,無擬人化音樂作曲思維。人機(jī)交互系統(tǒng)也僅限于表層信息交流,機(jī)器根據(jù)表層信息交流所獲得的用戶指令,以被動(dòng)的形式執(zhí)行相應(yīng)的任務(wù)。通過機(jī)器視覺、機(jī)器聽覺等多渠道智能信息融合來識(shí)別人類對(duì)音樂情感的譜面和音頻表達(dá)體系,再基于深度學(xué)習(xí)的智能規(guī)劃,是未來人機(jī)交互智能作曲系統(tǒng)建構(gòu)的主要基礎(chǔ)。
我國(guó)民族音樂資源豐富,是人工智能作曲機(jī)器深度學(xué)習(xí)的理想資料庫(kù)。國(guó)外人工智能作曲系統(tǒng)的研發(fā)相對(duì)活躍,而我國(guó)相關(guān)研究則較少。將國(guó)際上的人工智能作曲技術(shù)運(yùn)用到中國(guó)民族音樂的分析與創(chuàng)作之中,構(gòu)建中國(guó)民族音樂智能作曲系統(tǒng),對(duì)發(fā)展和傳播中國(guó)民族音樂具有重要意義。
人工智能作曲的實(shí)現(xiàn)需要有機(jī)器作為載體,隨著機(jī)器人學(xué)的快速發(fā)展,音樂機(jī)器人是比較好的載體選擇。在綜合運(yùn)用國(guó)內(nèi)外音樂機(jī)器人相關(guān)研究成果的基礎(chǔ)上,實(shí)現(xiàn)情感計(jì)算下的音樂機(jī)器人智能作曲和協(xié)同演奏是該領(lǐng)域未來發(fā)展的主要途徑。人工智能作曲與機(jī)器人的緊密結(jié)合,將為人機(jī)交互系統(tǒng)注入情感計(jì)算和主動(dòng)服務(wù)模式的新思路和新方法,為實(shí)現(xiàn)音樂機(jī)器人的智能化和情感化,使之能夠在感知音樂情感的基礎(chǔ)上主動(dòng)完成智能作曲與協(xié)同演奏,為消除人與機(jī)器人之間的交互障礙,提供了切實(shí)可行的解決方案。