陳根方
(浙江音樂(lè)學(xué)院 音樂(lè)工程系,浙江 杭州 310024)
人工智能(Arti fi cial Intelligence)是近半個(gè)世紀(jì)以來(lái)人類(lèi)科技史上發(fā)展最快的重大技術(shù)之一,在機(jī)器人、語(yǔ)言識(shí)別、圖像識(shí)別、自然語(yǔ)言處理和專(zhuān)家系統(tǒng)等領(lǐng)域取得了令人矚目的成就[1]。2017年,國(guó)務(wù)院印發(fā)《新一代人工智能發(fā)展規(guī)劃》,明確指出在中小學(xué)階段設(shè)置人工智能相關(guān)課程、逐步推廣編程教育、建設(shè)人工智能學(xué)科,以培養(yǎng)復(fù)合型人才,形成我國(guó)人工智能人才高地。2018年4月,由華東師范大學(xué)慕課中心、商湯科技、上海知名高中優(yōu)秀教師共同編著的《人工智能基礎(chǔ)(高中版)》[2]教材出版,此書(shū)是面向高中學(xué)生的教材,講授人工智能的發(fā)展歷史、基本概念以及實(shí)際應(yīng)用,將在上海多所首批“人工智能教育實(shí)驗(yàn)基地學(xué)?!痹圏c(diǎn)人工智能課程。
算法作曲是人工智能在音樂(lè)藝術(shù)領(lǐng)域的較早應(yīng)用之一,早在1956 年,Lejaren Hiller出版了算法作曲作品——弦樂(lè)四重奏《Illiac 組曲》,從而揭開(kāi)了人工智能在音樂(lè)藝術(shù)領(lǐng)域的應(yīng)用前景。利用深度學(xué)習(xí)技術(shù)進(jìn)行音樂(lè)創(chuàng)作的探索研究正在展開(kāi),2017年,多倫多大學(xué)的儲(chǔ)航(音)等利用深度學(xué)習(xí)(Recurrent Neural Networks)的方法,從100小時(shí)的midi音樂(lè)格式里面進(jìn)行學(xué)習(xí),然后采樣訓(xùn)練好的模型來(lái)生成音樂(lè)[3]。
由于人類(lèi)腦科學(xué)研究的滯后性,對(duì)音樂(lè)創(chuàng)作這一理性與感性起雙重作用的人類(lèi)活動(dòng)的研究尚處于開(kāi)拓期,人工智能創(chuàng)作的音樂(lè)作品,面臨著諸多亟待解決的問(wèn)題,如音樂(lè)信息的評(píng)估問(wèn)題,很顯然,不同的人聆聽(tīng)人工智能創(chuàng)作的音樂(lè)會(huì)有不同的評(píng)估結(jié)果。這些問(wèn)題還需要多學(xué)科、多領(lǐng)域協(xié)同研究,付出更大的努力。
傳統(tǒng)音樂(lè)藝術(shù)院校研究生的培養(yǎng)內(nèi)容主要集中于音樂(lè)藝術(shù)領(lǐng)域,藝術(shù)性突出,缺乏對(duì)科技領(lǐng)域知識(shí)的有效傳授。研究生一般已學(xué)習(xí)了大量的音樂(lè)專(zhuān)業(yè)知識(shí),具有一定的學(xué)習(xí)能力,也需要拓展自身的知識(shí)面,了解社會(huì)熱點(diǎn)。人工智能科普課程主要介紹人工智能的基本思想和方法,向?qū)W生提供最基本的人工智能技術(shù)和相關(guān)問(wèn)題的入門(mén)知識(shí),重點(diǎn)學(xué)習(xí)人工智能在音樂(lè)藝術(shù)領(lǐng)域的研究成果和應(yīng)用場(chǎng)景,為進(jìn)一步利用人工智能打下良好的基礎(chǔ)。
(1)可以讓學(xué)生了解信息技術(shù)的當(dāng)前熱點(diǎn),激發(fā)其對(duì)音樂(lè)與科技交叉學(xué)習(xí)的熱情。相對(duì)于較為成熟的中西方音樂(lè)理論,音樂(lè)與人工智能的融合研究尚處于開(kāi)拓期,很多技術(shù)都有待進(jìn)一步完善和更新,不同的研究?jī)?nèi)容將為學(xué)生提供廣闊的發(fā)展空間,探索出多樣化的理論和應(yīng)用成果。
(2)能使音樂(lè)藝術(shù)院校的研究生具有初步的求解問(wèn)題的能力。音樂(lè)專(zhuān)業(yè)使得學(xué)生塑造出特定的音樂(lè)思維,利用這些思維方式能很好處理經(jīng)典的音樂(lè)問(wèn)題,而音樂(lè)領(lǐng)域的很多問(wèn)題是非線性、非結(jié)構(gòu)化的,這些問(wèn)題通常無(wú)法用簡(jiǎn)單的數(shù)學(xué)方法或音樂(lè)理論進(jìn)行解答,需要培養(yǎng)學(xué)生人工智能式“面向問(wèn)題”的思維方式,提高工作效率,優(yōu)化知識(shí)結(jié)構(gòu)。
(3)能使學(xué)生了解人工智能在音樂(lè)藝術(shù)領(lǐng)域的應(yīng)用前景。人工智能技術(shù)已經(jīng)在音樂(lè)領(lǐng)域有半個(gè)多世紀(jì)的應(yīng)用研究,取得了豐富的研究成果,開(kāi)發(fā)了許多實(shí)用的音樂(lè)系統(tǒng),如音樂(lè)推薦系統(tǒng)、樂(lè)譜識(shí)別系統(tǒng)、自動(dòng)伴奏系統(tǒng)等,這些都是多學(xué)科交叉研究的成果,音樂(lè)藝術(shù)院校的研究生應(yīng)該了解這些具有代表性的研究成果,積累人工智能的相關(guān)知識(shí),為日后的科學(xué)研究打下廣闊的知識(shí)結(jié)構(gòu)。
“音樂(lè)與人工智能”科普課程的教學(xué)方法必須從音樂(lè)出發(fā),經(jīng)過(guò)技術(shù)處理,回到音樂(lè)??梢圆捎脝?wèn)題驅(qū)動(dòng)的方式,如通過(guò)講解“圖靈測(cè)試”問(wèn)題,提出“如果你無(wú)法區(qū)分一首樂(lè)曲是算法作曲還是人工作曲的時(shí)候,怎么辦”來(lái)引出算法作曲的評(píng)估問(wèn)題?!耙魳?lè)與人工智能”科普課程的內(nèi)容見(jiàn)表1所示。
表1中包含有人工智能在音樂(lè)領(lǐng)域的研究?jī)?nèi)容,其中有些內(nèi)容針對(duì)的是特定的音樂(lè)媒體,這些音樂(lè)媒體包括文本、樂(lè)譜、音頻、音序4類(lèi),如算法作曲是文本信息到樂(lè)譜或音序信息的轉(zhuǎn)換,文字信息到音頻信息是音樂(lè)檢索的研究對(duì)象,在數(shù)字音樂(lè)媒體的基礎(chǔ)上,人工智能在音樂(lè)領(lǐng)域的研究?jī)?nèi)容包括音樂(lè)作品的不同數(shù)字音樂(lè)媒體之間的自動(dòng)轉(zhuǎn)換,音樂(lè)媒體在轉(zhuǎn)換前和轉(zhuǎn)換后有不同的表示形態(tài),不同的轉(zhuǎn)換過(guò)程采用了不同的實(shí)現(xiàn)方法,分別隸屬于不同的研究范疇。
“音樂(lè)與人工智能”科普課程以音樂(lè)理論為基礎(chǔ),以音樂(lè)的表示媒體為對(duì)象,利用人工智能理論研究音樂(lè)媒體之間的轉(zhuǎn)換方法,涉及樂(lè)譜識(shí)別、音頻識(shí)別、情感感知、音樂(lè)檢索、自動(dòng)作曲、自動(dòng)標(biāo)注和音樂(lè)挖掘等相關(guān)研究領(lǐng)域。相關(guān)的教材可采用文獻(xiàn)[1]。
(1)人工智能概述:在科普內(nèi)容中,人工智能的歷史、內(nèi)容、應(yīng)用需要讓學(xué)生進(jìn)行簡(jiǎn)單的了解,特別是三起三落的發(fā)展歷史,每個(gè)階段的主要技術(shù)和應(yīng)用場(chǎng)景,這些主要技術(shù)與音樂(lè)領(lǐng)域交叉研究成果。人工智能與大數(shù)據(jù)、云計(jì)算的關(guān)系,音樂(lè)與大數(shù)據(jù)、音樂(lè)與云計(jì)算的關(guān)系等內(nèi)容的介紹,讓學(xué)生對(duì)“音樂(lè)與人工智能”有總體的概念和了解。
(2)音樂(lè)檢索:音樂(lè)檢索是利用有限的音樂(lè)信息獲取更多相關(guān)音樂(lè)信息的過(guò)程,通過(guò)提供文本、情感、片段或?qū)嵗扔邢薜囊魳?lè)信息,獲取更多與提供的音樂(lè)信息相同或相似的音樂(lè)信息,常見(jiàn)的音樂(lè)檢索有基于文本關(guān)鍵詞檢索、基于音樂(lè)情感分類(lèi)檢索、基于哼唱的音樂(lè)檢索和基于實(shí)例的音樂(lè)檢索,檢索的結(jié)果有文本、樂(lè)譜、音頻或音序等形式。
表1 “音樂(lè)與人工智能”科普課程的內(nèi)容
(3)樂(lè)譜識(shí)別:樂(lè)譜音樂(lè)信息的自動(dòng)識(shí)別研究,它是利用計(jì)算機(jī)進(jìn)行數(shù)字樂(lè)譜圖像處理與識(shí)別的技術(shù)。它利用掃描儀等數(shù)字化設(shè)備,將紙質(zhì)樂(lè)譜以圖像的形式輸入到計(jì)算機(jī),經(jīng)過(guò)圖像處理與識(shí)別,把樂(lè)譜圖像自動(dòng)轉(zhuǎn)化為標(biāo)準(zhǔn)的音樂(lè)格式文件。它綜合利用了人工智能、圖像工程、模式識(shí)別、MIDI技術(shù)、數(shù)學(xué)形態(tài)學(xué)、音樂(lè)理論等方面的知識(shí)。
計(jì)算機(jī)光學(xué)樂(lè)譜識(shí)別技術(shù)能較好地完成從紙質(zhì)樂(lè)譜向數(shù)字音樂(lè)的轉(zhuǎn)化,提高了手工輸入數(shù)字樂(lè)譜的速度,使基本的音樂(lè)音符輸入由人工完成為計(jì)算機(jī)外設(shè)來(lái)完成。OMR技術(shù)為紙質(zhì)樂(lè)譜數(shù)字化提供了一個(gè)的新途徑,有著極為廣泛的應(yīng)用前景,其中在計(jì)算機(jī)輔助音樂(lè)教學(xué)、音樂(lè)統(tǒng)計(jì)學(xué)和數(shù)字音樂(lè)圖書(shū)館建設(shè)等方面得到或?qū)⒌玫捷^好的應(yīng)用。
樂(lè)譜識(shí)別研究起源于1966年MIT的研究人員對(duì)五線譜樂(lè)譜進(jìn)行的音樂(lè)信息識(shí)別[4],經(jīng)過(guò)半個(gè)多世紀(jì)的研究,取得了大量的研究成果,其中在OMR研究中使用的理論方法有神經(jīng)網(wǎng)絡(luò)、模糊理論、遺傳算法、高層領(lǐng)域知識(shí)、圖文法、數(shù)學(xué)形態(tài)學(xué)、投影法等,研究對(duì)象也從五線譜樂(lè)譜逐步擴(kuò)展到medieval music、white mensural notation、early music prints、orthodox Hellenic Byzantine music notation、Greek traditional music、昆曲樂(lè)譜[5]等。并產(chǎn)生了大量的實(shí)用軟件,如Capella-scan、Optical Music Easy Reader、Photo Score、Sharp Eye、Smart Score、Vivaldi Scan,這些軟件都是針對(duì)印刷的五線譜樂(lè)譜進(jìn)行識(shí)別的,正確識(shí)別率可達(dá)到90%以上。
(4)音頻識(shí)別:音頻是信息的重要載體,是音樂(lè)傳播的主要方式之一。數(shù)字音頻中攜帶的音樂(lè)信息,可以轉(zhuǎn)換為其他音樂(lè)媒體。音頻識(shí)別研究有30多年的研究歷史,主要針對(duì)音樂(lè)音頻和語(yǔ)音音頻進(jìn)行識(shí)別和分類(lèi),音頻轉(zhuǎn)換為文本的研究對(duì)象有樂(lè)器音頻識(shí)別、中國(guó)民歌分類(lèi)識(shí)別、中國(guó)戲曲唱腔分類(lèi)識(shí)別、音樂(lè)流派分類(lèi)識(shí)別等;轉(zhuǎn)換為樂(lè)譜(或音序)的研究對(duì)象有音高分類(lèi)識(shí)別、節(jié)奏識(shí)別等。
(5)情感感知:音樂(lè)是情感的藝術(shù),基于內(nèi)容的情感感知和識(shí)別是智能音樂(lè)學(xué)的一個(gè)重要方向,也是從數(shù)字音頻到“情感表示”模型的轉(zhuǎn)換過(guò)程。常見(jiàn)的音樂(lè)“情感表示”模型有Thayer的二維情感模型、Dorai 和 Venkatesh的節(jié)拍和清晰度二維模型、Hevner的情感環(huán)模型等。情感感知與分類(lèi)的常見(jiàn)技術(shù)有多模型分類(lèi)器、模糊法、個(gè)性特征、感知模型、GMM模型、HMM模型、SVM模型等。
(6)算法作曲:算法作曲利用從音樂(lè)作曲理論或某個(gè)音樂(lè)家的作品、某種音樂(lè)風(fēng)格、某種音樂(lè)流派等中提煉出來(lái)的形式化生成規(guī)則,通過(guò)提供一些必要的參數(shù),創(chuàng)作出音樂(lè)動(dòng)機(jī)、音樂(lè)作品、音樂(lè)伴奏等音樂(lè)信息的過(guò)程。
音頻作曲主要以傅立葉變換為理論基礎(chǔ),常見(jiàn)的算法作曲的方法有風(fēng)格模型、分層結(jié)構(gòu)控制、遺傳算法、全面控制、馬爾可夫鏈、音樂(lè)樣式、HMM模型、調(diào)式和弦字典庫(kù)、人工神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)等。這些研究有些是模仿作曲家的音樂(lè)風(fēng)格,有些針對(duì)自動(dòng)伴奏或配器,大多數(shù)的研究成果圍繞音樂(lè)旋律或動(dòng)機(jī)展開(kāi),從而產(chǎn)生完整的樂(lè)曲。
(7)音樂(lè)智能分析與音樂(lè)推薦:音樂(lè)智能分析是從大量的音樂(lè)數(shù)據(jù)中通過(guò)算法搜索隱藏于其中有用信息的過(guò)程。分析過(guò)程通常通過(guò)統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專(zhuān)家系統(tǒng)(依靠過(guò)去的經(jīng)驗(yàn)法則)和模式識(shí)別等諸多方法來(lái)實(shí)現(xiàn)上述目標(biāo)。音樂(lè)資料浩如煙海,大量資料可以在信息時(shí)代被利用,在音樂(lè)大數(shù)據(jù)中進(jìn)行信息挖掘,特別是從大量的樂(lè)曲中提煉出個(gè)性化、適合特定用戶(hù)的樂(lè)曲,是音樂(lè)推薦的主要研究目的。根據(jù)不同的分析目的有多個(gè)不同的研究方向。如梳理音樂(lè)信息鏈屬于音樂(lè)考古學(xué),獲取音樂(lè)家的影響力可統(tǒng)計(jì)作品或名字的出現(xiàn)頻率,對(duì)用圖像格式存儲(chǔ)的樂(lè)譜圖像進(jìn)行文本標(biāo)注,自動(dòng)分析音樂(lè)數(shù)據(jù)中的音樂(lè)風(fēng)格和作曲家的創(chuàng)作習(xí)慣等。這些研究都需要有音樂(lè)大數(shù)據(jù)的支撐。
(8)水印技術(shù)與音樂(lè)版權(quán):數(shù)字水印技術(shù)是將一些標(biāo)識(shí)信息(數(shù)字水?。┲苯忧度霐?shù)字載體(包括多媒體、文檔、軟件等)中,并不影響原載體的使用價(jià)值。版權(quán)保護(hù)是水印技術(shù)重要應(yīng)用場(chǎng)景,可利用版權(quán)認(rèn)證來(lái)保護(hù)原數(shù)字載體的權(quán)益。在研究音樂(lè)作品版權(quán)保護(hù)的問(wèn)題時(shí),音頻、樂(lè)譜、文本等不同媒體是常用的數(shù)字載體,針對(duì)不同的媒體格式,開(kāi)發(fā)出大量不同的水印技術(shù),一些技術(shù)已應(yīng)用于MP3音頻的版權(quán)保護(hù)。
(9)樂(lè)器3D打印與智能音箱:3D打印是一種累積制造技術(shù),即擁有快速成形技術(shù)的機(jī)器。它是以數(shù)字模型文件為基礎(chǔ),運(yùn)用特殊蠟材、粉末狀金屬或塑料等可粘合材料,通過(guò)打印一層層的粘合材料來(lái)制造三維的物體。有別于傳統(tǒng)的減材制造技術(shù)。3D打印在綠色環(huán)保方面有巨大的經(jīng)濟(jì)效益,在生物醫(yī)療、藝術(shù)設(shè)計(jì)、航天工程、建筑行業(yè)、汽車(chē)行業(yè)和電子行業(yè)等具有廣闊的應(yīng)用前景。利用3D打印技術(shù)打印的樂(lè)器有電聲吉他、鼓、長(zhǎng)笛、鋼琴、黃鐘笛、電簫等,其中我國(guó)學(xué)者在黃鐘笛、電簫的3D打印上進(jìn)行了有益的嘗試。
智能音箱是利用人機(jī)語(yǔ)音交互技術(shù),面向家居場(chǎng)景提供搜索、聽(tīng)歌、購(gòu)物、社交等服務(wù)的智能硬件[6]。2014年11月,Amazon公司公布了全球首款智能音箱Echo,迄今其全球銷(xiāo)量超過(guò)1 000萬(wàn)臺(tái)。5年來(lái),大量的智能音箱先后出現(xiàn),如Rokid Alien、天貓精靈X1、蘋(píng)果Home Pad、Google Home、聯(lián)想智能音箱、叮當(dāng)智能音箱A1等產(chǎn)品上市。
(10)機(jī)器演奏與虛擬演奏。音樂(lè)機(jī)器人(Musical Robot)是通過(guò)程序輸入(數(shù)字或機(jī)械)而實(shí)現(xiàn)自動(dòng)演奏音樂(lè)的仿真機(jī)器[7]。音樂(lè)機(jī)器人具有悠久的歷史,從最早的八音盒到豐田公司的小提琴演奏手經(jīng)歷了200多年的發(fā)展歷史,在世界上有影響力的有鋼琴機(jī)器人、小提琴機(jī)器人、長(zhǎng)笛機(jī)器人、風(fēng)笛機(jī)器人、馬林巴機(jī)器人等,我國(guó)科研工作者在葫蘆絲演奏機(jī)器人、揚(yáng)琴演奏機(jī)器人、豎笛演奏機(jī)器人、鋼琴演奏機(jī)器人、鼓樂(lè)演奏機(jī)器人和民族樂(lè)隊(duì)演奏機(jī)器人[8]等方面進(jìn)行了探索研究和實(shí)踐嘗試。
虛擬演奏是綜合利用人機(jī)交互、虛擬現(xiàn)實(shí)、手勢(shì)識(shí)別、模式識(shí)別和圖像處理等技術(shù),通過(guò)建立特定樂(lè)器的演奏模型,把采集的演奏動(dòng)作信息轉(zhuǎn)換為實(shí)時(shí)音樂(lè)信息的過(guò)程。比較著名的有芬蘭赫爾辛基工程大學(xué)計(jì)算機(jī)科學(xué)專(zhuān)業(yè)系的學(xué)生設(shè)計(jì)發(fā)明的一套虛擬空氣吉他系統(tǒng)——對(duì)著空氣模擬吉他演奏并能聽(tīng)到樂(lè)音。
我們探討了音樂(lè)藝術(shù)院校研究生開(kāi)設(shè)“音樂(lè)與人工智能”科普課程的必要性,重點(diǎn)對(duì)“音樂(lè)與人工智能”科普課程的內(nèi)容進(jìn)行了詳細(xì)說(shuō)明,為進(jìn)一步開(kāi)設(shè)課程提供了方便。下一步有必要通過(guò)預(yù)講座和問(wèn)卷調(diào)查等形式了解學(xué)生的需求和接受能力,調(diào)整和充實(shí)相關(guān)課程內(nèi)容。