新媒介、新范式、新景觀：AI技術(shù)賦能下的音樂(lè)創(chuàng)演樣態(tài)變革

2025-07-30 00:00:00趙曉雨周文軒

電影評(píng)介 2025年9期

美國(guó)學(xué)者約書(shū)亞·梅羅維茨（Joshua Meyrowitz）在其著作《消失的地域：電子媒介對(duì)社會(huì)行為的影響》中，圍繞“新媒介一新情境一新行為”三者的關(guān)系，提出“媒介情境理論”，詮釋了新媒介對(duì)社會(huì)情境和人的行為產(chǎn)生影響的機(jī)制。從這一視角出發(fā)，技術(shù)媒介對(duì)人與社會(huì)的影響機(jī)制也同樣在遵循著該路徑。當(dāng) ”時(shí)代來(lái)臨后，人工智能技術(shù)的熱潮席卷著各個(gè)領(lǐng)域，藝術(shù)創(chuàng)作隨即迎來(lái)了創(chuàng)作情境的重構(gòu)與新情境的誕生，從而促使創(chuàng)作者的行為轉(zhuǎn)變。這也似乎正在印證媒介學(xué)家麥克盧漢的觀點(diǎn)：“我們開(kāi)始意識(shí)到，新媒介不僅是機(jī)械性的小玩意，它們還是新的語(yǔ)言，具有嶄新而獨(dú)特的表現(xiàn)力量?！?/p>

探索人工智能技術(shù)所帶來(lái)的新的藝術(shù)語(yǔ)言和獨(dú)特表現(xiàn)力是近年來(lái)音樂(lè)領(lǐng)域關(guān)注的焦點(diǎn)。AI技術(shù)催生出一系列適應(yīng)多層級(jí)需求的AI音樂(lè)生成工具，在Suno AI^① 問(wèn)世后，輿論稱之為“開(kāi)啟了音樂(lè)領(lǐng)域的GPT時(shí)代”。全球各大人工智能音樂(lè)公司幾乎同時(shí)以競(jìng)技時(shí)速紛紛推出自己的AI音樂(lè)平臺(tái)。除此之外，各種AI、智能模型、開(kāi)源算法也為專業(yè)創(chuàng)作者帶來(lái)了新的視角。在多重人工智能技術(shù)的加持下，基于不同的音樂(lè)內(nèi)容需求和創(chuàng)作者專業(yè)程度，AIGC音樂(lè)生態(tài)新格局正在逐漸形成，由此，也帶來(lái)了新的音樂(lè)創(chuàng)作范式及新的音樂(lè)表演樣態(tài)，重塑著新的音樂(lè)情境與景觀。

一、AI技術(shù)在音樂(lè)領(lǐng)域的應(yīng)用現(xiàn)狀

（一）從PGC模式到AIGC模式

人工智能時(shí)代的到來(lái)，引發(fā)了音樂(lè)創(chuàng)作的變。在此之前，數(shù)字音頻技術(shù)在音樂(lè)編創(chuàng)方面已進(jìn)入了高度成熟的PGC（專業(yè)生產(chǎn)內(nèi)容）模式。這種創(chuàng)作模式① Suno是一款生成式人工智能音樂(lè)創(chuàng)作程序。

下，音樂(lè)創(chuàng)作的每一個(gè)步驟都以“人”為主體，每一個(gè)環(huán)節(jié)都要依托創(chuàng)作者深厚的音樂(lè)基礎(chǔ)和專業(yè)的創(chuàng)作技巧，也決定了音樂(lè)創(chuàng)作具有較長(zhǎng)的時(shí)間周期和較高的生產(chǎn)門(mén)檻。

各類生成式AIGC音樂(lè)平臺(tái)的誕生完全打破了音樂(lè)內(nèi)容從無(wú)到有的創(chuàng)作過(guò)程，輸入音樂(lè)風(fēng)格、演奏樂(lè)器和演唱類別的提示詞，幾十秒就可以生成一段音樂(lè)。類似于人類對(duì)AI系統(tǒng)進(jìn)行的命題作曲，這種“一鍵生成”的文生音樂(lè)模式，似乎將數(shù)字技術(shù)未曾達(dá)到的“人人都是藝術(shù)家”照進(jìn)現(xiàn)實(shí)。讓“作曲”不再囿于專業(yè)音樂(lè)人群體，非專業(yè)的音樂(lè)愛(ài)好者也能利用人工智能技術(shù)，基于數(shù)據(jù)和算法來(lái)完成音樂(lè)“創(chuàng)作”。

（二）多層級(jí)AI音樂(lè)工具的應(yīng)用

1.生成式AI音樂(lè)工具

就廣義層面而言，人工智能音樂(lè)目前最為被大眾接受的是針對(duì)音樂(lè)內(nèi)容層級(jí)的AI工具，例如Suno、Udio、AIAV、網(wǎng)易天音、天工SkyMusic等等。生成式AI大模型為音樂(lè)內(nèi)容創(chuàng)作帶來(lái)了前所未有的便捷和無(wú)限可能。以歌曲創(chuàng)作為例，目前主流的AI音樂(lè)平臺(tái)具有兩種生成方式，一種是直接對(duì)歌曲進(jìn)行描述，比如音樂(lè)風(fēng)格、演奏樂(lè)器、情緒氛圍、歌手類別等，AI會(huì)按照上述提示詞直接生成包含歌詞的歌曲；另一種是先輸入歌詞，在指定歌詞的基礎(chǔ)上完成歌曲生成。

在生成模式和時(shí)長(zhǎng)方面，AI音樂(lè)平臺(tái)也在不斷迭代更新。UdioAI最新的1.5代大模型已經(jīng)允許付費(fèi)用戶每次生成長(zhǎng)達(dá)2分10秒的音樂(lè)，時(shí)長(zhǎng)擴(kuò)展了4倍，數(shù)量也由之前的每次2條音頻增加為每次4條。另外還增加了一些進(jìn)階功能，比如可以對(duì)已生成的音樂(lè)進(jìn)行續(xù)寫(xiě)（Extend），進(jìn)一步發(fā)展音樂(lè)，可以對(duì)不同風(fēng)格的作品進(jìn)行重寫(xiě)（Remix），類似于模仿寫(xiě)作。這些進(jìn)階功能賦予了音樂(lè)生成更靈活的維度，在作品的復(fù)雜程度上有了提高，也為主觀音樂(lè)意識(shí)更明確的專業(yè)創(chuàng)作者提供更廣闊的創(chuàng)作空間。

2.AI虛擬人聲

除了音樂(lè)內(nèi)容的生成，AI技術(shù)賦能音樂(lè)創(chuàng)作的另一大亮點(diǎn)無(wú)疑是對(duì)新的音色的貢獻(xiàn)一—即虛擬人聲對(duì)音樂(lè)演唱的全新演繹。在此之前，歌曲演唱聲部只能通過(guò)真人實(shí)錄的方式完成，而自微軟小冰問(wèn)世后，各種風(fēng)格的虛擬歌手逐漸登上舞臺(tái)，在制作Demo階段為創(chuàng)作和試聽(tīng)?zhēng)?lái)了極大便利。隨著技術(shù)的不斷升級(jí)，近年來(lái)虛擬人聲在風(fēng)格多樣性、音色仿真度、氣口變化等各個(gè)方面都有了顯著提高。代表性平臺(tái)例如時(shí)域科技旗下的ACEStudio，不僅能夠依照語(yǔ)言系統(tǒng)、性別和風(fēng)格等條件對(duì)數(shù)十種虛擬人聲進(jìn)行篩選，還能通過(guò)多種虛擬人聲的混合和參數(shù)調(diào)整，合成新的聲音。在今年完成的最新功能升級(jí)中，ACEStudio為付費(fèi)用戶提供了“定制歌手”功能—可以通過(guò)已有聲音素材訓(xùn)練自己專屬的虛擬音色，建立更為個(gè)性化、更符合特定創(chuàng)作需求的獨(dú)有人聲。

相較于預(yù)置的虛擬歌手，“定制人聲”的自主性無(wú)疑更強(qiáng)，相當(dāng)于可以在無(wú)限廣闊的范圍內(nèi)實(shí)現(xiàn)音色的遷移，不再受制于平臺(tái)限定，自定義歌手音色。在音色訓(xùn)練的過(guò)程中，AI模型的學(xué)習(xí)效果與原始聲音樣本的質(zhì)量密切相關(guān)2，為提升音頻的純凈度與樣本的處理效率，ACE提供了“一鍵去除和聲和混響”的功能，用于維持原始聲音樣本處于干聲狀態(tài)。在原始人聲基礎(chǔ)上訓(xùn)練新的音色一般需要 30～100 分鐘的清晰干聲樣本作為訓(xùn)練數(shù)據(jù)，在此范圍內(nèi)，時(shí)長(zhǎng)與訓(xùn)練效果成正比。但是當(dāng)樣本超過(guò)120分鐘時(shí)，AI可能因?qū)W習(xí)過(guò)多細(xì)節(jié)導(dǎo)致音色訓(xùn)練的結(jié)果偏離預(yù)期。

在訓(xùn)練完成后，ACEStudio提供5個(gè)不同訓(xùn)練深度的聲線版本，每個(gè)版本的聲線呈現(xiàn)出了不同的音色層次與細(xì)節(jié)表現(xiàn)。創(chuàng)作者可以通過(guò)“混合聲線”功能，對(duì)不同版本的聲線進(jìn)行精細(xì)調(diào)整。平臺(tái)目前提供了34位虛擬歌手的音色種子，以便創(chuàng)作者在原有聲線的基礎(chǔ)上，通過(guò)不同音色與唱法的混合，定制出更符合創(chuàng)作預(yù)期的個(gè)性化聲線配方。部署聲線后，創(chuàng)作者也可以在創(chuàng)作界面利用“混合聲線”功能，對(duì)聲線參數(shù)進(jìn)行動(dòng)態(tài)調(diào)整，進(jìn)一步增強(qiáng)了定制聲線的自由度與便捷性。

（三）小結(jié)

在AI技術(shù)賦能下，音樂(lè)創(chuàng)作正在開(kāi)啟科技與藝術(shù)融合的新紀(jì)元。生成式AI工具使常規(guī)音樂(lè)內(nèi)容的生產(chǎn)實(shí)現(xiàn)了“一鍵生成”模式。就生成結(jié)果而言，確實(shí)極大地縮短了之前依靠“手動(dòng)”完成的音樂(lè)創(chuàng)編時(shí)間。但其目前在精細(xì)化上存在的盲區(qū)也很明顯，由于“一鍵生成”建立在機(jī)器學(xué)習(xí)基礎(chǔ)上，人類無(wú)法實(shí)時(shí)參與和更改其學(xué)習(xí)的過(guò)程，當(dāng)對(duì)學(xué)習(xí)結(jié)果不滿意時(shí)，只能讓機(jī)器重新學(xué)習(xí)，而無(wú)法對(duì)音樂(lè)發(fā)展過(guò)程中的旋律、配器、節(jié)奏、結(jié)構(gòu)等細(xì)節(jié)進(jìn)行修改。因此在要求很高的場(chǎng)景下，比如在需要音樂(lè)的情緒、節(jié)奏與畫(huà)面的情緒、節(jié)奏精準(zhǔn)對(duì)位的視聽(tīng)環(huán)境中，目前生成式AI音樂(lè)的可控性及其在音色、音質(zhì)上要弱于人類手動(dòng)“創(chuàng)作+樂(lè)器”實(shí)錄模式。在這些環(huán)境中，很多對(duì)音樂(lè)創(chuàng)制流程掌控度極高的資深作曲家目前對(duì)AI音樂(lè)生成平臺(tái)的依賴度并不高。但是AI技術(shù)所帶來(lái)的新的創(chuàng)作媒介、新的聲音語(yǔ)匯、新的創(chuàng)作語(yǔ)境，以及由此產(chǎn)生的對(duì)人類能力之不可及的探索是極其富有價(jià)值的。這些創(chuàng)新點(diǎn)構(gòu)成人工智能時(shí)代“AI化的藝術(shù)語(yǔ)言”，也勢(shì)必會(huì)形成新的藝術(shù)表現(xiàn)。

二、AI音樂(lè)創(chuàng)作情境的重構(gòu)

事實(shí)上，國(guó)內(nèi)音樂(lè)科技領(lǐng)域在探索AI藝術(shù)表現(xiàn)方面已有大量新的嘗試和成果一一通過(guò)不同類型的AI模型、工具進(jìn)行長(zhǎng)板組合、打破壁壘、建立AI化的創(chuàng)作語(yǔ)境。盡管AI機(jī)器學(xué)習(xí)的目標(biāo)是高度自動(dòng)化，但在專業(yè)音樂(lè)創(chuàng)作中，“手動(dòng)化”與“自動(dòng)化”本身并非二元對(duì)立。就目前AI技術(shù)在音樂(lè)領(lǐng)域的應(yīng)用層面看，隨著技術(shù)的不斷升級(jí)，二者之間的交互有可能改變音樂(lè)創(chuàng)作的某些階段，形塑新的音樂(lè)創(chuàng)作范式，也由此重構(gòu)音樂(lè)的創(chuàng)作情境。

為深入探究AI技術(shù)語(yǔ)境下的新型音樂(lè)創(chuàng)作范式，本文將以在2024首屆大學(xué)生AI藝術(shù)季AI音樂(lè)比賽中，榮獲最佳AI音樂(lè)技術(shù)探索獎(jiǎng)的AI歌曲《精衛(wèi)》做具體解析。該作品由中國(guó)傳媒大學(xué)音樂(lè)與錄音學(xué)院戴姍姍博士創(chuàng)作，是一首極具創(chuàng)新性的作品。其主題靈感來(lái)自《山海經(jīng)》中“精衛(wèi)填?！钡膫髡f(shuō)，整首歌曲的詞、曲、演唱全部由人工智能完成，作者巧妙地將戲曲與流行風(fēng)格相融合，在AI全流程基礎(chǔ)上，又打破了常規(guī)AI音樂(lè)生成模式，以AI敘事為主線，重現(xiàn)中國(guó)傳統(tǒng)神話故事的情節(jié)。

（一）AI歌曲生成

《精衛(wèi)》在創(chuàng)作理念致力于突破當(dāng)下生成式AI在音樂(lè)內(nèi)容方面僅擅長(zhǎng)于流行、電子、搖滾等風(fēng)格的局限，作者挑戰(zhàn)性地使用了全AI流程制作具有復(fù)雜情節(jié)與豐富結(jié)構(gòu)的音樂(lè)劇風(fēng)格歌曲，并通過(guò)AI續(xù)寫(xiě)完成對(duì)音樂(lè)結(jié)構(gòu)的設(shè)置、推進(jìn)以及音樂(lè)情緒、張力的發(fā)展。在通過(guò)AI音樂(lè)平臺(tái)Udio生成音樂(lè)內(nèi)容時(shí)，使用的提示詞力圖讓音樂(lè)風(fēng)格向戲劇性、宏大、樂(lè)隊(duì)化發(fā)展。主要提示詞包括：video gamesoundtrack（電子游戲音樂(lè)）、epicmusic（史詩(shī)般的音樂(lè)）、orchestral（管弦樂(lè)隊(duì)）、epic（史詩(shī)般的）、fantasy（幻想的）、passionate（熱情、激昂的）、triumphant（勝利的、凱旋的）、crescendo（漸強(qiáng)）、main theme（主題）、finalfantasy（最終幻想）、lowwhistle（低音哨笛）、fierytrumpets（熾熱的號(hào)角）、D#minor（D大調(diào)）和femalevocalist（女聲演唱）等。

在確定音樂(lè)情節(jié)的敘事線和時(shí)間節(jié)點(diǎn)后，全曲根據(jù)歌詞的敘事結(jié)構(gòu)通過(guò)進(jìn)行了10次音樂(lè)續(xù)寫(xiě)。每次續(xù)寫(xiě)時(shí)的提示詞都需要由音樂(lè)的情節(jié)發(fā)展進(jìn)行調(diào)整，以作曲思維控制音樂(lè)生成的結(jié)構(gòu)，讓音樂(lè)表現(xiàn)與歌詞敘事相吻合。例如在引子部分，對(duì)AI使用“atmospheric”（氛圍感的）氣氛提示詞，讓其生成富有神話色彩的開(kāi)篇樂(lè)段；隨著音樂(lè)的發(fā)展，在高潮段落使用“powerful”（有力的、強(qiáng)烈的）、epicmusic（史詩(shī)般的音樂(lè)）、orchestral（管弦樂(lè)隊(duì)）、epic（史詩(shī)般的）、fantasy（幻想的）、passionate（熱情、激昂的）、triumphant，（勝利的、凱旋的）提示詞并加強(qiáng)“powerful”的權(quán)重比例以生成相對(duì)應(yīng)的音樂(lè)，突出情感的高亢與主題的升華。在情節(jié)敘事的主線基礎(chǔ)上，以“節(jié)點(diǎn)式”生成方式逐步推進(jìn)，打破常規(guī)AI“一鍵生成”音樂(lè)中對(duì)曲式結(jié)構(gòu)難以控制的弊端。

（二）AI歌詞生成

《精衛(wèi)》的歌詞部分同樣注重與敘事結(jié)構(gòu)的融合，歌詞的生成過(guò)程根據(jù)劇情結(jié)構(gòu)共分成8個(gè)部分，分別是“第三人稱視角講述故事緣起”“精衛(wèi)自述”“精衛(wèi)回憶往昔”“精衛(wèi)在海中嬉戲”“精衛(wèi)深陷于汪洋”“第三人稱視角講述精衛(wèi)身死”“精衛(wèi)死后化身小鳥(niǎo)”“精衛(wèi)將填海不休”。

作者通過(guò)AI工具Kimi和文心一言共同撰寫(xiě)了具有故事性的歌詞。先在Kimi中發(fā)送指令，要求其以“說(shuō)書(shū)人的方式撰寫(xiě)、可以用五言，內(nèi)容為一只精衛(wèi)鳥(niǎo)，孤單的銜著石頭投入海中”。生成歌曲引子部分的歌詞。根據(jù)指令，Kimi很快給出了答案“孤鳥(niǎo)海上飛，名曰精衛(wèi)哀。石小情何重，投海誓難回”AI基本能夠理解創(chuàng)作者意圖，也能夠較正確闡述“精衛(wèi)填?！钡墓适轮髦?，但其生成的歌詞在文法上以及詞尾押韻方面都略顯不足。在通過(guò)另一個(gè)擅長(zhǎng)歌詞寫(xiě)作功能的AI平臺(tái)“文心一言”繼續(xù)進(jìn)行精修、優(yōu)化后，引子部分歌詞修改為“海上孤鳥(niǎo)飛，填海永不息，其中幾許意，且待我說(shuō)緣起。”可見(jiàn)歌詞的韻腳、尾調(diào)、詞格等內(nèi)容都進(jìn)行了明顯的優(yōu)化和提升。

（三）歌聲分離與AI虛擬歌手演唱

當(dāng)歌曲、歌詞的生成工作完成后，最后進(jìn)行“升級(jí)”的是歌曲的演唱部分。由于之前Udio生成版本中的歌手音色達(dá)不到一首優(yōu)質(zhì)歌曲的演唱標(biāo)準(zhǔn)，也無(wú)法進(jìn)行戲腔和流行兩種音色的轉(zhuǎn)換，需要通過(guò)專門(mén)針對(duì)演唱的AI虛擬人聲工具對(duì)演唱聲部進(jìn)行優(yōu)化。

作者先通過(guò)人工智能音色分離工具UltimateVocalRemover5將伴奏聲部和人聲演唱聲部分離，再利用AI工具SythesizerV中的虛擬歌手音色重新制作演唱部分。經(jīng)過(guò)一系列試聽(tīng)和精細(xì)對(duì)比后，用戲腔演唱與流行演唱兩種風(fēng)格共同演繹的方式呈現(xiàn)。其中，戲腔使用了AI虛擬歌手“澄宵”的聲線，流行演唱?jiǎng)t使用了AI虛擬歌手“Weina”（胡為娜）。為了使AI人聲聽(tīng)起來(lái)更加貼近真實(shí)人聲的發(fā)音演唱和換氣特征，作者對(duì)虛擬歌手的聲線進(jìn)行參數(shù)的精細(xì)調(diào)整。

由于戲腔演唱的部分比較短，主要集中在歌曲開(kāi)始的引子部分，為了突出其聲腔特點(diǎn)，主要調(diào)整了“澄宵”聲線的“resonant（共鳴）”，以突出戲腔音色的高亢、嘹亮。而流行演唱占據(jù)了全曲的三分之二，為了在長(zhǎng)時(shí)間的持續(xù)演唱中更好地模擬真人歌手，避免虛擬人聲的“塑料感”，作者將流行演唱部分的音色參數(shù)按照音樂(lè)的結(jié)構(gòu)發(fā)展分成3組進(jìn)行控制：首先在引子與主歌的部分，手動(dòng)在音高上繪制滑音包絡(luò)線，將人聲變得輕柔纖細(xì)，更加具有意境；在歌曲的中間部分增加虛擬人聲中的“powerful”參數(shù)，讓聲線變得更有力量。除了表情參數(shù)的調(diào)整，作者還制作了流行演唱部分的二聲部，在其中增加低音部分，讓演唱更加具有穿透力、爆發(fā)力。

（四）小結(jié)

《精衛(wèi)》以巧妙“混搭”多種AI工具、AI模型的方式對(duì)AI語(yǔ)境下的新型音樂(lè)創(chuàng)作方式進(jìn)行了實(shí)踐探索，為歌曲的全流程AI化進(jìn)行了有益的示范，同時(shí)也在AI歌曲的風(fēng)格突破上做出了大膽的嘗試，拓寬了生成式AI音樂(lè)的常規(guī)路徑。深入分析《精衛(wèi)》使用AI進(jìn)行音樂(lè)創(chuàng)作的過(guò)程會(huì)發(fā)現(xiàn)，現(xiàn)階段創(chuàng)作者對(duì)音樂(lè)本體的認(rèn)知和創(chuàng)作意識(shí)仍然是主導(dǎo)AI音樂(lè)質(zhì)量的關(guān)鍵因素。在混搭各種AI工具取長(zhǎng)補(bǔ)短的過(guò)程中，每一項(xiàng)方案的制定、工作的完成和結(jié)果的選擇都取決于創(chuàng)作者的主觀意識(shí)一一即對(duì)音樂(lè)的審美。從這個(gè)角度而言，人工智能技術(shù)賦能下的音樂(lè)創(chuàng)作情境，仍然是“以人為本”的AI。

開(kāi)發(fā)了基于人工智能的交互式音樂(lè)創(chuàng)作系統(tǒng)Ricercar，專注于探索音樂(lè)的變奏與和聲變化的無(wú)窮可能。人類藝術(shù)家可以向該系統(tǒng)提供音樂(lè)靈感——輸入特定字符作為AI音樂(lè)的主題動(dòng)機(jī)，之后系統(tǒng)將開(kāi)始進(jìn)行自主創(chuàng)作，在此過(guò)程中，藝術(shù)家可以隨時(shí)根據(jù)AI的輸出調(diào)整程序，與AI以交互行進(jìn)的方式共同創(chuàng)作音樂(lè)。

中央音樂(lè)學(xué)院音樂(lè)人工智能與音樂(lè)科技系同樣自主研發(fā)了用于音樂(lè)創(chuàng)作的AI大模型——央音人工智能作曲系統(tǒng)，在國(guó)內(nèi)外各大專業(yè)音樂(lè)會(huì)中已多次上演過(guò)由該系統(tǒng)創(chuàng)作的交響曲《歡迎》和《千里江山圖》，并通過(guò)指揮家YuFeng的虛擬數(shù)字人實(shí)時(shí)指揮中央音樂(lè)學(xué)院交響樂(lè)團(tuán)進(jìn)行演奏。在2023年6月的《面向未來(lái)-電子音樂(lè)與AI的交響導(dǎo)賞音樂(lè)會(huì)》，中央音樂(lè)學(xué)院展示了一系列基于最新的AI技術(shù)與電子音樂(lè)結(jié)合的創(chuàng)演成果，一些頗具創(chuàng)新性的作品也脫穎而出。

另外，依托最新的VR、AR等擴(kuò)展現(xiàn)實(shí)技術(shù)的AI音樂(lè)會(huì)演出——如2022中國(guó)傳媒大學(xué)的“E音之夜-元宇宙音樂(lè)會(huì)”、中央音樂(lè)學(xué)院“12生肖元宇宙音樂(lè)會(huì)”將視聽(tīng)融合、人機(jī)交互延伸至“元宇宙”全景沉浸空間，以AI虛擬偶像替代真人表演，與觀眾在真實(shí)與虛擬共存的空間中進(jìn)行互動(dòng)，尤其深受青年群體的熱烈追捧。

（二）AI多模態(tài)大模型技術(shù)在舞臺(tái)藝術(shù)中的實(shí)時(shí)應(yīng)用：《說(shuō)書(shū)：三打白骨精》

三、AI協(xié)作與音樂(lè)表演

（一）“AI+音樂(lè)演出”新樣態(tài)

人工智能技術(shù)的日新月異同樣為音樂(lè)表演帶來(lái)了全新的演出樣態(tài)。音樂(lè)藝術(shù)與人工智能的跨界融合正在從弱人工智能向強(qiáng)人工智能階段邁進(jìn)。除了已被大眾知曉的生成式AI音樂(lè)外，專業(yè)音樂(lè)科技領(lǐng)域的重要研究方向是建立能夠在創(chuàng)作和演出過(guò)程中與人類達(dá)成合作關(guān)系的AI交互系統(tǒng)——即通過(guò)AI程序模擬人類的音樂(lè)創(chuàng)作甚至演出過(guò)程，與人類意識(shí)和行為在相對(duì)平行的關(guān)系中共同行進(jìn)。藝術(shù)家、科學(xué)家通過(guò)自主研發(fā)AI模型用于創(chuàng)作和表演中，不斷地突破音樂(lè)創(chuàng)演的傳統(tǒng)邊界，延伸音樂(lè)舞臺(tái)的表現(xiàn)力，呈現(xiàn)出人工智能時(shí)代“AI+音樂(lè)演出”的新景觀。[]

慕尼黑音樂(lè)與戲劇大學(xué)的人工智能和音樂(lè)創(chuàng)作教授、研究員阿里·尼克朗（AliNikrang）為古典音樂(lè)家

由新媒體藝術(shù)家、中國(guó)傳媒大學(xué)副教授馮金碩創(chuàng)作的人工智能交互音樂(lè)作品《說(shuō)書(shū)：三打白骨精》在2024杭州國(guó)際電子音樂(lè)節(jié)上進(jìn)行了全球首演，成為該年度音樂(lè)節(jié)最受矚目的中國(guó)作曲家AI技術(shù)新作品。這部作品首次將人工智能多模態(tài)大模型技術(shù)在舞臺(tái)表演中進(jìn)行實(shí)時(shí)應(yīng)用，巧妙地將傳統(tǒng)京韻大鼓藝術(shù)與現(xiàn)代人工智能技術(shù)相結(jié)合，通過(guò)先進(jìn)的AI技術(shù)實(shí)時(shí)捕捉語(yǔ)音、面部表情、身體動(dòng)作等多模態(tài)數(shù)據(jù)，并借助人工智能深度學(xué)習(xí)大模型，對(duì)這些數(shù)據(jù)進(jìn)行高精度、低延遲的實(shí)時(shí)分析和處理，從而實(shí)現(xiàn)音樂(lè)和視覺(jué)內(nèi)容與表演者動(dòng)作和情感的精準(zhǔn)同步，探索了現(xiàn)場(chǎng)音樂(lè)表演與人工智能技術(shù)結(jié)合的新范式。

1.實(shí)時(shí)語(yǔ)音與劇情生成

在實(shí)時(shí)語(yǔ)音與劇情生成模塊中，作曲家采用了一系列前沿技術(shù)解決方案，實(shí)現(xiàn)對(duì)表演者語(yǔ)音的實(shí)時(shí)捕捉、分析及劇情響應(yīng)的生成。

首先，系統(tǒng)通過(guò)使用Azure Cognitive Services

Speech SDK對(duì)表演者的實(shí)時(shí)語(yǔ)音進(jìn)行捕捉②和轉(zhuǎn)錄。在《說(shuō)書(shū)：三打白骨精》中，語(yǔ)音程序不僅需要識(shí)別標(biāo)準(zhǔn)的普通話，還需對(duì)京韻大鼓特有的表達(dá)方式進(jìn)行適應(yīng)和學(xué)習(xí)。該系統(tǒng)基于大規(guī)模多模態(tài)深度學(xué)習(xí)模型進(jìn)行構(gòu)建。能夠解析文本中的情感波動(dòng)、關(guān)鍵詞及其與已有劇情的關(guān)聯(lián)性。例如，模型能夠識(shí)別出表演者語(yǔ)氣的緊張、興奮或沮喪，并判斷這些情感如何與“三打白骨精”的故事情節(jié)相符合。解析后的數(shù)據(jù)一—包括劇情指引、情感強(qiáng)度和關(guān)鍵動(dòng)作指令一一隨即通過(guò)Open Sound Control（OSC）協(xié)議傳輸至實(shí)時(shí)音視頻處理中心—使用Max/MSP④撰寫(xiě)的程序中。通過(guò)這種方式，劇情的每一個(gè)轉(zhuǎn)折和情感的每一次波動(dòng)都能實(shí)時(shí)地反映在伴隨的音樂(lè)和視覺(jué)效果上，為觀眾提供了一種高度動(dòng)態(tài)且富有表現(xiàn)力的觀看體驗(yàn)。

2.多模態(tài)大模型的情緒與動(dòng)作識(shí)別

情緒與動(dòng)作識(shí)別模塊主要針對(duì)表演者的面部表情、語(yǔ)音情感和肢體動(dòng)作語(yǔ)言。通過(guò)高分辨率攝像頭實(shí)時(shí)捕捉表演者的面部表情數(shù)據(jù)，再利用OpenAI的深度學(xué)習(xí)模型，結(jié)合Aliyun API^°ledcirc 進(jìn)行面部情緒分析。面部表情的數(shù)據(jù)通過(guò)作曲家自創(chuàng)的算法模型進(jìn)行處理，可以從復(fù)雜的面部數(shù)據(jù)中提取情緒強(qiáng)度和具體的情緒類型，再將這些信息實(shí)時(shí)轉(zhuǎn)譯成可以被音視頻生成系統(tǒng)解讀的數(shù)據(jù)格式。在身體動(dòng)作識(shí)別方面，作品使用了M5 Stick C Plus？等智能硬件傳感器捕捉表演者的身體動(dòng)作，這些姿態(tài)數(shù)據(jù)對(duì)于理解表演者的表演風(fēng)格和動(dòng)作意圖至關(guān)重要。作品通過(guò)Mediapipe框架處理這些數(shù)據(jù)，用于分析表演者的表演風(fēng)格，并將它們與音樂(lè)生成邏輯進(jìn)行精確映射一一通過(guò)動(dòng)作的幅度、快慢、強(qiáng)弱調(diào)整音樂(lè)的節(jié)奏和強(qiáng)度，使音樂(lè)更好地與表演同步。

3.音視頻實(shí)時(shí)生成與控制

在《說(shuō)書(shū)：三打白骨精》中，音視頻實(shí)時(shí)生成與控制部分是實(shí)現(xiàn)整個(gè)交互體驗(yàn)的關(guān)鍵環(huán)節(jié)，確保表演者的動(dòng)作、語(yǔ)言和情緒可以精確地映射到音樂(lè)和視覺(jué)效果上。這一過(guò)程涉及到復(fù)雜的音頻處理技術(shù)、視頻生成算法以及實(shí)時(shí)數(shù)據(jù)同步。實(shí)時(shí)音頻生成系統(tǒng)的核心依賴于Max/MSP編程環(huán)境，在本作品中，Max/MSP不僅負(fù)責(zé)生成伴隨音樂(lè)，還處理從Python腳本和OSC協(xié)議接收的各種動(dòng)態(tài)數(shù)據(jù)，這些不斷變化的數(shù)據(jù)，影響著音樂(lè)的內(nèi)容生成、節(jié)奏強(qiáng)度和風(fēng)格轉(zhuǎn)換。根據(jù)語(yǔ)音與情緒分析模塊識(shí)別的情緒強(qiáng)度和劇情關(guān)鍵詞，Max/MSP調(diào)整音樂(lè)的節(jié)奏、調(diào)性和音量。作品的視頻實(shí)時(shí)生成同樣基于Max/MSP編程環(huán)境——通過(guò)其視頻處理Jitter算法程序?qū)崿F(xiàn)。作曲家編寫(xiě)的Jitter視覺(jué)程序通過(guò)OSC協(xié)議接收到多模態(tài)數(shù)據(jù)后，根據(jù)數(shù)據(jù)內(nèi)容生成相應(yīng)的視覺(jué)效果，如顏色變化、圖像扭曲或特定圖案的生成等，并通過(guò)實(shí)時(shí)色彩校正和動(dòng)態(tài)遮罩等一系列圖像處理技術(shù)，加強(qiáng)視覺(jué)內(nèi)容的表現(xiàn)力，使其與音樂(lè)和表演者的情緒緊密相連。

4.小結(jié)

作為一部新穎的AI交互作品，《說(shuō)書(shū)：三打白骨精》創(chuàng)新性地將人工智能多模態(tài)大模型技術(shù)實(shí)時(shí)運(yùn)用在舞臺(tái)表演過(guò)程中，是一次頗具挑戰(zhàn)的嘗試。首先，在多模態(tài)數(shù)據(jù)的準(zhǔn)確識(shí)別與分析方面，同時(shí)處理并分析來(lái)自不同源（如音頻、視頻、傳感器等）的數(shù)據(jù)，需要復(fù)雜的算法來(lái)確保對(duì)數(shù)據(jù)的準(zhǔn)確解讀。特別是在嘈雜的現(xiàn)場(chǎng)環(huán)境中，如何準(zhǔn)確捕捉并識(shí)別表演者的語(yǔ)音、表情和動(dòng)作，是技術(shù)實(shí)現(xiàn)中的一大難點(diǎn)。而音樂(lè)和視覺(jué)內(nèi)容的實(shí)時(shí)生成并保持同步同樣是一大挑戰(zhàn)。從最終的演出效果看，作者成功地將多模態(tài)數(shù)據(jù)進(jìn)行了深度整合并完成了現(xiàn)場(chǎng)實(shí)時(shí)交互。通過(guò)人工智能深度學(xué)習(xí)模型和自然語(yǔ)言處理分析表演者的語(yǔ)音、表情和身體動(dòng)作，以自動(dòng)化的情感分析和動(dòng)作識(shí)別系統(tǒng)來(lái)理解表演者的表達(dá)意圖，為AI時(shí)代的舞臺(tái)演出提供了新的表現(xiàn)樣本。

結(jié)語(yǔ)

隨著人工智能技術(shù)的快速發(fā)展，特別是AI大模型的突破，音樂(lè)藝術(shù)的創(chuàng)演樣態(tài)正在經(jīng)歷深刻的變革，從數(shù)字音頻時(shí)代漸行進(jìn)入“AI+”時(shí)代。在這一輪顛覆式的智能革命中，我們正在見(jiàn)證AI的角色從“人機(jī)交互”到“人機(jī)共生”，從“響應(yīng)式工具”到“助手式參與”的過(guò)程，也必然親歷籍由新技術(shù)賦能下，藝術(shù)的樣態(tài)、范式、邊界被不斷地重構(gòu)與衍變，呈現(xiàn)出新的景觀。在這個(gè)過(guò)程中，越復(fù)雜、越訓(xùn)練有素的人工智能系統(tǒng)越是具有相當(dāng)程度的獨(dú)立意識(shí)能動(dòng)性，但其表現(xiàn)的行為其實(shí)在反映人類的“意圖”，可以說(shuō)越是“訓(xùn)練有素”越符合人類的音樂(lè)價(jià)值觀，越能夠成為人類的機(jī)器協(xié)作者。無(wú)論未來(lái)達(dá)到高度自動(dòng)化的AI能否以一個(gè)有機(jī)“生命體”的形態(tài)成為人類的“智能分身”，在藝術(shù)創(chuàng)作過(guò)程中創(chuàng)作者的審美意識(shí)和藝術(shù)理念都是寶貴而無(wú)法被忽略的，也是藝術(shù)的價(jià)值所在。[4]而通過(guò)科技賦能，打破創(chuàng)作的邊界、拓展人類思維局限、探索更多維的藝術(shù)語(yǔ)言、語(yǔ)境和表現(xiàn)，無(wú)疑是新技術(shù)賦予藝術(shù)創(chuàng)作的有益風(fēng)景，或許也將是AI對(duì)于藝術(shù)的釋意。

參考文獻(xiàn)：

[1]王鉉，張圣楠.人工智能音樂(lè)模型演進(jìn)脈絡(luò)及未來(lái)發(fā)展展望——以基于提示詞的生成式人工智能音樂(lè)模型為例[J].牡丹江大學(xué)學(xué)報(bào)，2025（03）：92-101.

[2]張宇，孫茂松.面向人工智能的傳統(tǒng)音樂(lè)標(biāo)注數(shù)據(jù)集構(gòu)建研究一—兼論多模態(tài)胡琴標(biāo)注數(shù)據(jù)集的建設(shè)與應(yīng)用[J].中央音樂(lè)學(xué)院學(xué)報(bào)，2024（02）：66-83.

[3]倪清樺，魯越，林飛，等.平行音樂(lè)：大模型時(shí)代的人機(jī)混合音樂(lè)創(chuàng)演[J].智能科學(xué)與技術(shù)學(xué)報(bào)，2024（02）：150-163.

[4][英]蘭貝托·科奇奧利，陶倩.構(gòu)建音樂(lè)創(chuàng)作中人工智能技術(shù)運(yùn)用的倫理框架[J].中央音樂(lè)學(xué)院學(xué)報(bào)，2024（01）：44-57.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

新媒介、新范式、新景觀：AI技術(shù)賦能下的音樂(lè)創(chuàng)演樣態(tài)變革

新媒介、新范式、新景觀：AI技術(shù)賦能下的音樂(lè)創(chuàng)演樣態(tài)變革