2019年,教育部正式提出大力發(fā)展新文科的要求,意在突破傳統(tǒng)文科的思維模式,打破文理科之間的學(xué)科壁壘,實(shí)現(xiàn)文理交融。在此背景下,藝術(shù)學(xué)界提出了構(gòu)建“新藝科”的設(shè)想,其含義是“新文科語境下的藝術(shù)學(xué)學(xué)科建設(shè)構(gòu)想”,既要具備“新文科”提倡的文理交融性,又要顧及藝術(shù)學(xué)各學(xué)科的獨(dú)特性。長(zhǎng)期以來,文科與藝術(shù)學(xué)學(xué)科處于相對(duì)封閉的狀態(tài), 欲迅速改變現(xiàn)狀須借助外力做功, 而科技正是新時(shí)代的最佳外力?!靶滤嚳啤钡慕ㄔO(shè)方針正是基于科技飛速發(fā)展的背景下提出, 為包括音樂在內(nèi)的藝術(shù)創(chuàng)作與研究帶來了全新的生態(tài)環(huán)境。
2024年10月11—13日,中國地質(zhì)大學(xué)(武漢) 舉辦了第11屆全國聲音與音樂技術(shù)會(huì)議。大會(huì)聚集了來自人工智能、計(jì)算機(jī)科學(xué)、電子工程、數(shù)學(xué)以及音樂學(xué)等領(lǐng)域的眾多學(xué)者。此次會(huì)議可謂是對(duì)“新文科”與“新藝科”建設(shè)構(gòu)想的一次積極響應(yīng),極大促進(jìn)了“兩科”的發(fā)展。會(huì)議研討專題多達(dá)14個(gè),如音樂學(xué)+ 計(jì)算機(jī)、民族樂器+ 計(jì)算機(jī)、聲學(xué)+ 計(jì)算機(jī)等。根據(jù)這些專題的研究對(duì)象和研究方法,可將其分為三類:音樂與人工智能的新興結(jié)合點(diǎn)、樂器與樂譜的數(shù)字化研究、音樂與聲音評(píng)價(jià)標(biāo)準(zhǔn)的定量研究。本文試圖以會(huì)議內(nèi)容為出發(fā)點(diǎn), 一窺音樂與科技協(xié)同共生的態(tài)勢(shì)及其所面臨的諸多問題。
一、音樂與人工智能的新興結(jié)合點(diǎn)
音樂與科技的結(jié)合很早便存在于人類漫長(zhǎng)的歷史長(zhǎng)河中。如早在先秦時(shí)期,編鐘的鑄造要兼顧尺寸大小成序和音階模式成列的雙重目的,這對(duì)鑄鐘技術(shù)提出了非常嚴(yán)格的“標(biāo)準(zhǔn)化”要求。
人工智能時(shí)代,音樂與科技的關(guān)系進(jìn)入到全新的態(tài)勢(shì)中,一些新興技術(shù)給音樂帶來了近乎顛覆性的影響。音樂與人工智能的深度結(jié)合是兩個(gè)領(lǐng)域共生發(fā)展的重要增長(zhǎng)點(diǎn), 也是本次會(huì)議的重要議題之一。
科技為音樂生產(chǎn)帶來了新模式和新生態(tài)?!叭斯ぶ悄苌蓛?nèi)容”(Artificial"Intelligence Generated Content,簡(jiǎn)稱AIGC)是指通過訓(xùn)練人工智能模型以生成與原始訓(xùn)練數(shù)據(jù)相似的內(nèi)容,如當(dāng)下日益更新的音樂生成模型、語音克隆和文本轉(zhuǎn)語音等均是AIGC在音樂上的實(shí)際應(yīng)用。日本廣島大學(xué)于漪副教授從多模態(tài)人工智能的角度探討了音樂生成的方法。她的研究關(guān)注音樂的歌詞、旋律和舞蹈三者之間以“語義”為聯(lián)通樞紐的潛在關(guān)系, 通過整合三者之間的“語義”相關(guān)性,便可生成具有語義一致性的音樂與舞蹈。網(wǎng)易云音樂的鄧陽介紹了流媒體平臺(tái)在音樂AIGC 方面的應(yīng)用,他首先剖析了國際上音樂生產(chǎn)的主流模式及其難題, 再以網(wǎng)易天音內(nèi)容生產(chǎn)引擎為例, 詳述其設(shè)計(jì)理念和技術(shù)框架。中國傳媒大學(xué)的林義超等人采用AI 語音克隆技術(shù),探索跨語言語音在電影領(lǐng)域的應(yīng)用;此類技術(shù)能夠?qū)⑷我庹Z音素材轉(zhuǎn)換成跨語言的語音內(nèi)容, 它可解決演員遇到非母語臺(tái)詞發(fā)音不準(zhǔn)的難題。美國羅徹斯特大學(xué)段志堯副教授分享了其實(shí)驗(yàn)室團(tuán)隊(duì)在實(shí)時(shí)人機(jī)即興演奏、中西音樂風(fēng)格融合、音樂模型框架開發(fā)和歌聲深度鑒偽等方面的成果。
“基于內(nèi)容的音樂信息檢索”(Content-based Music Information Retrieval,簡(jiǎn)稱CBMIR)是在海量數(shù)字音樂帶來分類組織、查詢檢索、內(nèi)容理解與分析等一系列問題的基礎(chǔ)上產(chǎn)生的一個(gè)新興交叉學(xué)科。如相似歌曲檢索是當(dāng)今每個(gè)智能手機(jī)用戶都會(huì)碰到的場(chǎng)景, 但是如何根據(jù)用戶輸入的內(nèi)容(如歌詞、旋律等)得到與之相似或匹配的輸出結(jié)果? 來自網(wǎng)易云音樂的何其锜指出, 通過應(yīng)用經(jīng)過深度學(xué)習(xí)和訓(xùn)練的語義大模型, 可提高檢索效率與結(jié)果準(zhǔn)度; 在音樂平臺(tái)中, 這項(xiàng)技術(shù)還可根據(jù)用戶的需求提供個(gè)性化的音樂服務(wù)。
可見, 人工智能的介入為音樂帶來了新的機(jī)遇,音樂也為人工智能拓寬了應(yīng)用范圍,這種互動(dòng)關(guān)系本身成為一個(gè)重要思考點(diǎn)。例如,華中科技大學(xué)蔡新元教授并不局限于講述AI 工作流程等復(fù)雜的技術(shù)原理,而是站在藝術(shù)的立場(chǎng),思考如何利用AI 技術(shù)拓寬藝術(shù)研究的范圍和視角,增加人機(jī)共創(chuàng)的可能性。這是藝術(shù)學(xué)界與科技學(xué)界需要共同思索的延展性問題。
二、樂器與樂譜的數(shù)字化研究
自古以來, 樂器是音樂中最能與科技產(chǎn)生直接聯(lián)系的部分, 如中國歷朝歷代對(duì)弦律與管律的實(shí)驗(yàn)與實(shí)踐,無不融合了數(shù)學(xué)、聲學(xué)和古代天文學(xué)等多學(xué)科知識(shí)。中國古代樂譜自魏晉南北朝至明清時(shí),便已有文字譜、減字譜、律呂譜和工尺譜等多種記譜形態(tài)。進(jìn)入科技時(shí)代,樂器與樂譜這類具象化的實(shí)物是否會(huì)煥發(fā)出新的研究面貌? 日益更新迭代的計(jì)算機(jī)技術(shù)給出了答案:建立樂器數(shù)據(jù)集和進(jìn)行樂譜數(shù)字化工作。
樂器數(shù)據(jù)集與樂譜數(shù)字化是本次會(huì)議的研討重點(diǎn)之一。中央音樂學(xué)院的博士研究生張宇指出, 當(dāng)前人工智能多集中于西方古典音樂和流行音樂,而在傳統(tǒng)音樂方面尚待深入研究。她將人工智能多模態(tài)技術(shù)與中國傳統(tǒng)胡琴類樂器相結(jié)合, 構(gòu)建出第一個(gè)中國胡琴音樂標(biāo)注數(shù)據(jù)集。她從胡琴標(biāo)注數(shù)據(jù)集的構(gòu)建原則、建設(shè)過程及未來應(yīng)用等方面展示了計(jì)算機(jī)技術(shù)輔助音樂研究的優(yōu)勢(shì)。此外,她還將數(shù)據(jù)集上傳至Zenodo平臺(tái)免費(fèi)公開, 真正落實(shí)其提出的FAIR 原則。東南大學(xué)王元成博士則以琵琶為研究對(duì)象,采用光電傳感器捕捉琴弦振動(dòng)的信號(hào),以輔助確定演奏者彈奏的準(zhǔn)確位置。他還創(chuàng)造性地開發(fā)出一套用于樂器自動(dòng)轉(zhuǎn)錄和表達(dá)的標(biāo)注系統(tǒng)(TEAS),構(gòu)建了中國第一個(gè)多模態(tài)琵琶標(biāo)注數(shù)據(jù)集。在該數(shù)據(jù)集中,數(shù)據(jù)類型包括音頻、弦振信號(hào)、視頻、樂譜和標(biāo)注等多種模態(tài),每一類數(shù)據(jù)在時(shí)間上都需要做到精確對(duì)齊, 真正將傳統(tǒng)樂器與新興科技進(jìn)行深度融合。
自動(dòng)轉(zhuǎn)錄技術(shù)是一項(xiàng)十分具有創(chuàng)造性和挑戰(zhàn)性的研究, 它可將音頻與視頻中的內(nèi)容轉(zhuǎn)換為書面文本,如將音視頻中的語音轉(zhuǎn)為文字。北京郵電大學(xué)李榮鋒博士等人以彈撥樂器為切入點(diǎn),提出一種基于多模態(tài)網(wǎng)絡(luò)的自動(dòng)轉(zhuǎn)錄技術(shù)。其方案是增加音頻和視頻兩個(gè)維度, 從中提取表演特征, 再以特征集合來預(yù)測(cè)彈撥樂器演奏的旋律、和聲和指法等多種信息。這與張宇和王元成的多模態(tài)(包含音頻、視頻、數(shù)字化樂譜和豐富的標(biāo)注文件)樂器標(biāo)注數(shù)據(jù)集原理相似,說明多模態(tài)特征的整合是增強(qiáng)自動(dòng)轉(zhuǎn)錄技術(shù)的優(yōu)良方案之一, 進(jìn)一步優(yōu)化了樂器的數(shù)據(jù)化研究效度。
本次會(huì)議“最佳論文獎(jiǎng)”頒給了樂譜數(shù)字化方面的成果。北京郵電大學(xué)的碩士研究生卜凡等人以簡(jiǎn)譜為研究對(duì)象,采用OMR(光學(xué)音樂識(shí)別)技術(shù),構(gòu)建樂譜數(shù)據(jù)集,并基于此搭建了一個(gè)可聽化平臺(tái)——“工尺留聲”。卜凡及其導(dǎo)師李榮鋒博士還有志于將中國民間音樂“四大集成”(《中國民間歌曲集成》《中國戲曲音樂集成》《中國曲藝音樂集成》《中國民族民間器樂曲集成》)全部數(shù)字化,以期構(gòu)建中國民間音樂樂譜數(shù)據(jù)集。除此之外,中國人民大學(xué)的博士研究生夏翠娟以古琴減字譜為研究對(duì)象, 構(gòu)建了減字譜的多模態(tài)數(shù)據(jù)集, 這也極大地推動(dòng)了減字譜的數(shù)字化過程。
上述研究使得傳承千百年的中國樂器和樂譜在新時(shí)代煥發(fā)出新的生命力, 展現(xiàn)了科技對(duì)音樂研究的促進(jìn)作用。誠然,我國民間依然存有大量民族樂器和樂譜亟待深入研究, 這條路雖剛剛起步, 但它預(yù)示了音樂與科技互相結(jié)合研究的新興路徑和巨大前景。
三、音樂和聲音評(píng)價(jià)標(biāo)準(zhǔn)的定量研究
音樂評(píng)價(jià)活動(dòng)自古有之, 但是常見的音樂評(píng)價(jià)是基于人的主觀意識(shí)進(jìn)行的, 并無定量標(biāo)準(zhǔn)這一客觀維度, 這種研究能揭示音樂中許多潛在的客觀規(guī)律。本屆會(huì)議的一個(gè)重要議題是如何對(duì)音響文本進(jìn)行客觀評(píng)價(jià)。
量化研究對(duì)于辨識(shí)音樂作品中不同國家或民族的風(fēng)格元素帶來科學(xué)手段。西南大學(xué)石豐愷副教授試圖對(duì)中國音樂風(fēng)格的音色語義特征建構(gòu)一套量化標(biāo)準(zhǔn)。他指出,20世紀(jì)初中國音樂家借鑒歐洲交響樂模式, 創(chuàng)作出一系列具有中國特色的交響樂作品, 但中西文化差異可能導(dǎo)致對(duì)音色語義的理解發(fā)生偏離,如“明亮”和“黯淡”等詞在中西方語境中可能存在偏差。其研究篩選出36個(gè)音色評(píng)價(jià)術(shù)語,并通過計(jì)算歐氏距離的方法, 根據(jù)數(shù)據(jù)點(diǎn)之間的距離大小對(duì)數(shù)據(jù)進(jìn)行排序,評(píng)價(jià)術(shù)語間的相關(guān)性,最終創(chuàng)建了中國風(fēng)格交響樂作品音色評(píng)價(jià)術(shù)語集。該研究有助于克服音樂理解的文化障礙, 更加精確地辨識(shí)交響樂作品中的“中國風(fēng)格”。
不同國家和民族的聲樂演唱風(fēng)格差異可以借助量化分析進(jìn)行更精確地界定。英國倫敦瑪麗女王大學(xué)李輿坤博士通過比較各國典型聲樂作品的音高, 揭示了各類聲樂作品之間的客觀差異。這種差異是由于各國文化風(fēng)情不同所致, 如瑞士的約德爾唱法、俄羅斯民歌與中國梆子戲之間的穩(wěn)定音和顫音情況具有本質(zhì)差異。如何定量描述這種差異性? 李輿坤博士使用音高識(shí)別軟件分別計(jì)算出三者的穩(wěn)定音與顫音的時(shí)長(zhǎng)比值, 從而進(jìn)行聲樂作品的跨文化風(fēng)格對(duì)比分析??梢?, 此類研究已深入到音樂的微觀層面。
量化手段在更加廣泛的聲音現(xiàn)象研究中也發(fā)揮著不可替代的作用。中國傳媒大學(xué)的一眾師生集中于各類聲音的主、客觀評(píng)價(jià)研究。如郭靖怡等人基于中國人的主觀感知,探究了HRTF(頭相關(guān)傳輸函數(shù))對(duì)三維立體聲場(chǎng)效果的影響, 此研究涉及聲學(xué)現(xiàn)象與數(shù)學(xué)原理之間的關(guān)聯(lián)性解讀。張思雨等人針對(duì)近年來猛然增長(zhǎng)的AI 語音及其鑒偽模型,認(rèn)為在語音自然度方面,人耳自身的檢測(cè)能力具有一定優(yōu)勢(shì)。陳柳如等人探討了三維聲拾音技術(shù)與主觀評(píng)價(jià)指標(biāo)(偏愛度、音色自然度等)之間的相關(guān)性。唐爽等人則以流行歌曲為對(duì)象, 強(qiáng)調(diào)了計(jì)算機(jī)對(duì)歌聲的評(píng)價(jià)應(yīng)當(dāng)加入人耳主觀感知維度。這些研究有兩個(gè)共同點(diǎn): 一是都需要一定數(shù)量的測(cè)試人員參與評(píng)價(jià),強(qiáng)調(diào)聲音與音樂中的主觀性;二是均采用多元線性回歸分析法,以得到目標(biāo)對(duì)象與其影響因素之間的關(guān)系。
上述表明, 以科技輔助的實(shí)證手段在音樂研究中具有不可忽視的作用。由于“定量分析”側(cè)重于實(shí)證預(yù)測(cè)和統(tǒng)計(jì)分析等, 強(qiáng)調(diào)客觀性與科學(xué)主義, 往往能揭示音樂中潛在的不易發(fā)現(xiàn)的規(guī)律、趨勢(shì)或現(xiàn)象,是補(bǔ)充“定性分析”的有力手段。
四、音樂與科技協(xié)同共生的相關(guān)問題反思
顯然, 新興科技是未來任何領(lǐng)域的一條新賽道。但對(duì)于音樂此類需要注入人類創(chuàng)造力與情感價(jià)值的藝術(shù)活動(dòng)來說,科技可謂是把雙刃劍,它勢(shì)必會(huì)導(dǎo)致“新文科”與“新藝科”建設(shè)下的音樂學(xué)科產(chǎn)生喜憂交叉的雙重態(tài)勢(shì)。此次會(huì)議已經(jīng)很大程度上展現(xiàn)了音樂與科技珠聯(lián)璧合的協(xié)同共生之路,但是其中有待深入反思的問題也初見端倪。
一方面, 音樂與科技的結(jié)合將在多方面產(chǎn)生相輔相成的作用。
其一,拓寬雙方的研究模式。如王元成和張宇等人構(gòu)建的琵琶與胡琴標(biāo)注數(shù)據(jù)集, 又如李榮鋒、卜凡和夏翠娟等人在工尺譜、簡(jiǎn)譜與減字譜數(shù)字化方面所做的努力, 這些都是拓展音樂研究的實(shí)例。當(dāng)然,音樂也可反哺科技。如張宇利用其構(gòu)建的胡琴標(biāo)注數(shù)據(jù)集展開進(jìn)一步研究——利用演奏技法的可視化實(shí)驗(yàn)提高算法的精確性,并促進(jìn)計(jì)算機(jī)多模態(tài)的學(xué)習(xí)。他們不僅促進(jìn)了當(dāng)下音樂與科技深度融合的步伐,還奠定了兩者未來研究的基礎(chǔ)。
其二,影響雙方的發(fā)展方向。本次會(huì)議不乏有關(guān)音樂生成的研究成果, 這類音樂人工智能技術(shù)使音樂創(chuàng)作的方式發(fā)生巨大變化。如一鳴驚人的Suno AI基于歌詞創(chuàng)作、語音合成和音樂生成的多模態(tài)網(wǎng)絡(luò),能夠快速“生產(chǎn)”出一首完整的音樂作品。這降低了普通人創(chuàng)作音樂的門檻,節(jié)約了各類媒體公司的生產(chǎn)成本,促進(jìn)了音樂產(chǎn)業(yè)的轉(zhuǎn)型發(fā)展等。而對(duì)音樂創(chuàng)作要求的提升(如作曲技法的復(fù)雜化、音樂風(fēng)格的多樣化等)也反推著各類人工智能產(chǎn)品不斷更新?lián)Q代。
其三,彰顯雙方的現(xiàn)實(shí)價(jià)值。中國地大物博且歷史悠久,其積累的音樂類非物質(zhì)文化遺產(chǎn)形態(tài)各異、數(shù)量龐大,然而多數(shù)均面臨傳承土壤消解以致后繼無人的時(shí)代困境。本次會(huì)議已有學(xué)者涉及建立樂器數(shù)據(jù)集和進(jìn)行樂譜數(shù)字化等技術(shù)手段,這些保護(hù)傳統(tǒng)音樂的措施又使得科技方進(jìn)一步思考,如何通過技術(shù)手段有效地使“非遺”在人類生活與生產(chǎn)中落地生根。
另一方面, 音樂與科技的聯(lián)姻也帶來了許多值得思考的問題。
其一,如何看待人工智能“創(chuàng)作”的音樂作品的價(jià)值? 人工智能是基于程式性的算法產(chǎn)生音樂,雖然其底層算法邏輯是人類賦予的,但它在“創(chuàng)作”時(shí)又直接省略了人類發(fā)揮主觀能動(dòng)性這一過程。筆者將其稱為“程式性的主觀能動(dòng)性”, 這導(dǎo)致人工智能音樂作品的價(jià)值難以評(píng)判。此外,此類作品的受眾群體是誰,作品意義為何等問題都需要思考。如2024年9月,中央音樂學(xué)院開學(xué)典禮首次亮相“智音” 指揮機(jī)器人,并由它登臺(tái)執(zhí)棒指揮開場(chǎng)曲《歡迎》(此曲也由人工智能創(chuàng)作)。當(dāng)樂隊(duì)指揮被算法精確主導(dǎo)時(shí),那么樂隊(duì)的靈魂是否也隨之消失?
其二, 如何看待科技研究與音樂研究之間的關(guān)系? 在各類科技的加持下,人們可能會(huì)一味地追求科技層面的表現(xiàn)而淡化音樂規(guī)則。本次會(huì)議中,許多研究都是從科技角度來闡釋音樂,將音樂當(dāng)成科技研究的附屬品, 因而并未真正理解音樂。如各類音樂生成大模型采用海量數(shù)據(jù)喂養(yǎng)的方式簡(jiǎn)單粗暴地生產(chǎn)音樂; 各種感應(yīng)裝置追求極高的精確度而忽略了音樂的自由性與表達(dá)性; 以及定量研究采用理想化的數(shù)理公式而摒棄了音樂的現(xiàn)實(shí)性等等??梢哉f,它們皆以科技主導(dǎo)音樂,而并未融洽地接納音樂。
其三, 如何看待當(dāng)下音樂與科技研究的學(xué)科定位? 從此次參會(huì)人員的構(gòu)成來看,大多來自計(jì)算機(jī)科學(xué)、電子工程和數(shù)學(xué)等理工科,而來自音樂學(xué)院的研究者占比極低, 這顯得此次會(huì)議更像是“一個(gè)人的狂歡”。這確實(shí)是值得音樂學(xué)界反思的一個(gè)問題。音樂研究者往往對(duì)自然科學(xué)的研究手段感到陌生,而科技研究者又往往因?qū)I(yè)音樂素養(yǎng)的局限而無法深入透徹理解音樂的本質(zhì)及其規(guī)律。在這種背景下,雙方該如何看待對(duì)方的定位與價(jià)值? 這必定是值得長(zhǎng)期探索的一個(gè)宏觀性問題。
綜上, 雖然科技在某些方面淡化了人類在音樂創(chuàng)作中特有的思維與情感, 但它更大程度上促進(jìn)了音樂產(chǎn)業(yè)的快速發(fā)展, 展現(xiàn)了音樂研究、音樂創(chuàng)作與音樂傳承的未來前景。反之,音樂也加速了科技某些方面的更新速度, 反推著科技方進(jìn)一步思索該如何落實(shí)到人類的生活與生產(chǎn)中去。正如韓寶強(qiáng)所言,人工智能音樂的最佳選擇應(yīng)當(dāng)是社會(huì)音樂教育, 因?yàn)樗茌o助音樂教育領(lǐng)域中的很多重復(fù)性勞動(dòng), 如基礎(chǔ)性的音樂理論學(xué)習(xí)和日復(fù)一日的樂器訓(xùn)練。筆者認(rèn)為,音樂與科技的結(jié)合,只有與人發(fā)生實(shí)質(zhì)性關(guān)系時(shí)才有意義, 這為兩者的結(jié)合提供了一個(gè)可借鑒的價(jià)值評(píng)判導(dǎo)向。
此外,從“新文科”與“新藝科”的建設(shè)趨勢(shì)來看,當(dāng)下音樂與科技的融合尚處在一個(gè)合作共贏的階段。目前音樂與科技的研究成果,幾乎都是由音樂人員與科技人員共同完成。但是隨著時(shí)代發(fā)展,率先邁出自身“舒適圈”的一方必定優(yōu)先掌握話語權(quán)。不過,所謂“術(shù)業(yè)有專攻”,在音樂與科技各自規(guī)律和壁壘的限制下,雙方人員在很長(zhǎng)一段時(shí)間內(nèi)仍需互相擁抱與接納。
郭西洋 武漢音樂學(xué)院碩士研究生
(特約編輯 盛漢)