趙藝璇
在音樂科技領(lǐng)域,越來越多技術(shù)的交叉使交互音樂創(chuàng)作有了更多的可能性。這些可能性既體現(xiàn)在多元化的交互音樂類型上,也體現(xiàn)在創(chuàng)新的設計理念和豐富的藝術(shù)表現(xiàn)力上。托德·溫克勒(Todd Winkler)在《互動音樂作曲:Max 的使用技巧和理念》一書中曾描述交互音樂系統(tǒng)的組成部分為“人為或樂器輸入—計算機聆聽和分析—計算機解釋—計算機創(chuàng)作—聲音的生成和輸出”①Todd Winkler, Composing Interactive Music: Techniques and Ideas Using Max (Cambridge: MIT Press, 2001), pp.6-7.。其中,人為或樂器輸入與創(chuàng)作理念或者人類表演緊密相關(guān),而末尾端的輸出則代表了計算機對輸入的響應結(jié)果。機器聽覺技術(shù)在交互音樂系統(tǒng)中發(fā)揮了人機之間音頻信息轉(zhuǎn)換和分析的功能,對于計算機響應人為輸入的結(jié)果至關(guān)重要。機器聽覺也稱作計算機聽覺,是一個基于音頻信號處理和機器學習對數(shù)字化聲音與音樂的內(nèi)容進行理解和分析的學科②李偉、李碩:《理解數(shù)字聲音——基于一般音頻/環(huán)境聲的計算機聽覺綜述》 ,《復旦學報(自然科學版)》2019年第3 期,第269 ~313 頁。,基于實時機器聽覺的互動策略需要根據(jù)人機聽覺的不同特性進行針對性設計,而這些策略設計也代表和承載了作品創(chuàng)作的核心理念。
在機器聽覺中,音頻描述符可以對音頻特征進行不同維度的描述,包括物理維度描述符、感知維度描述符和認知維度描述符。無論是哪個維度的描述符,其存在的目的都是用于描述提取的音頻特征或在提取特征之后對音頻內(nèi)容進行進一步分析。物理維度的描述符是描述聲音信號特征的基礎,它可以被用于所有關(guān)于聲音物理信號的領(lǐng)域;而感知維度描述符和認知維度描述符則是在物理維度基礎上進一步進行整合和拓展的描述符,對聲音的描述更接近人類對聲音的感知特征。從音頻描述符的用途出發(fā),雖然所有維度的音頻描述符都可以被用于描述聲音源,但是由于交互音樂創(chuàng)作中聲音源的種類較多,不同維度的描述符適用于不同的聲音種類;因此,針對性地使用音頻描述符更有助于對聲音源進行恰當描述,這或?qū)⒂绊懙交硬呗灾械挠成洵h(huán)節(jié)。
物理維度的音頻描述符是3 個維度中數(shù)量最多的,它主要關(guān)注聲音頻譜表面的相關(guān)信息,包括頻率、振幅、頻譜質(zhì)心、粗糙度等聲音細節(jié)參數(shù),這些微觀的細節(jié)參數(shù)更多地代表了聲音音色的構(gòu)成,也是最直觀的可以直接從聲音物理信號中提取到的特征參數(shù)。由于不使用音樂中的樂理常識進行定義,此維度描述符在使用時對無典型節(jié)奏和音高的音樂或聲音更為有效,甚至一些噪音、人聲、環(huán)境聲作為交互聲音源時也同樣可以感測到其特征的微弱變化。物理維度的音頻描述符對聲音源的適用范圍最廣,沒有明確的限制,任何有關(guān)聲音的信號都可作為聲音源進行特征提取,并且由于聲音的構(gòu)成成分非常復雜,對相關(guān)細節(jié)的描述十分多樣。目前許多技術(shù)專家仍在探索和擴展更多的可以被用于交互音樂創(chuàng)作的物理維度音頻描述符。例如:頻譜質(zhì)心(Spectral Centroid)參數(shù),即頻譜一階矩,代表頻譜的重心位置來進行映射;頻譜延展度(Spectral Spread),又稱為頻譜二階中心矩,是頻譜質(zhì)心的方差,它描述了頻譜中心周圍的分布情況,在使用時對聲音源的關(guān)注點產(chǎn)生細微變化;頻譜斜率(Spectral Slope)和頻譜下降(Spectral Decrease)的性質(zhì)相似,都是對頻譜幅度減少量的計算,但是兩者的算法不同,通常認為后者所代表的描述符與人類感知到的聲音現(xiàn)象聯(lián)系更密切。
另一方面,雖然物理維度的音頻描述符可以描述非常豐富的聲音細節(jié),但細節(jié)參數(shù)一般不能表示一種聲音現(xiàn)象,因此在針對帶有音樂性或者情感特征的聲音源時,物理維度的音頻描述符不能夠理解和分析作曲家的創(chuàng)意和構(gòu)思。
相比于物理維度的音頻描述符,感知維度和認知維度的描述符似乎更帶有指向性,兩者都提升了對聲音或音樂的認知和審美。感知維度的描述符試圖模仿人類對聲音的感知,例如響度、噪度、音高等人類可以明顯感知到的聲音特征。當聲音源存在明顯的感知特征或者作曲家希望聽眾明確聽辨出聲音源的感知特征時,感知維度描述符的使用就是恰當?shù)?。例如在筆者的作品Still Life①作品Still Life 創(chuàng)作于2021 年,是為鋼琴和現(xiàn)場電子音樂而作的交互音樂作品。中,其中一個片段存在大量強弱對比且需要強調(diào)重音的部分,筆者在此片段中使用響度這一感知特征控制效果器Flange②Flange:可視化編程語言交互軟件Max 中的鑲邊類效果器模塊。的調(diào)制速率。如圖1所示,當演奏者演奏的響度強時,聽眾可以很明顯地感知到效果器Flange 的鑲邊效果;當響度弱時則不能夠明顯感知到。使用響度特征進行效果映射可以加強“強”與“弱”的對比效果,促使聽眾更關(guān)注此部分的力度變化。如果物理維度提取的特征細節(jié)過于微觀而導致聲音源與反饋方的交互不夠明確,認知維度需要聽眾擁有基本的樂理常識才能夠理解雙方的互動行為;那么感知維度的描述符是作曲家或藝術(shù)家在交互音樂創(chuàng)作中最常用的描述符,它雖然不能處理聲音信號中非常細節(jié)的特征信息,但是可以提升實時機器聽覺對音樂表情的理解,也能為聽眾提供較清晰的互動行為。
圖1 效果器Flange 控制圖示
認知維度和感知維度的音頻描述符之間沒有非常明顯的劃分界限,但認知維度會對聽眾的音樂素養(yǎng)有一定的要求。目前,認知維度的音頻描述符多用于音樂人工智能領(lǐng)域,通常結(jié)合機器學習來模擬人類對聲音的認知。
在交互音樂創(chuàng)作中,認知維度首先在使用方面較為復雜,往往需要通過在系統(tǒng)內(nèi)進行多次計算和訓練,不能夠像其他兩個維度那樣使用一般的通用模塊。它的使用大部分存在于作曲家或藝術(shù)家的專有系統(tǒng)中,對創(chuàng)作者的編程能力有很高的要求。例如瑞典作曲家馬林·邦(Malin B?ng)和英國音頻技術(shù)專家杰米·布洛克(Jamie Bullock)合作的作品Sparkling Box①Sparkling Box 是一首創(chuàng)作于2007 年的為小型合奏組和現(xiàn)場電子音樂而作的交互音樂作品,其中小型合奏組由低音提琴、長號、低音單簧管、鋼琴和大提琴組成。,其交互程序沒有簡單地使用感知維度的響度、音高等描述符,而是在此基礎上添加了音頻特征導數(shù)②音頻特征導數(shù)指音頻特征變量隨時間變化的變化率,此變化率為導函數(shù),其單調(diào)性(遞增或遞減)對應導數(shù)的正負,從而決定音頻特征的變化趨勢。的計算,使機器可以理解漸強/漸弱、音高上升/音高下降等音樂表情。這些特征描述顯示了感知維度到認知維度的提升,也是更符合音樂性質(zhì)的特征參數(shù)。而對于聽眾來說,由于機器聽覺分析的是旋律、節(jié)奏、音樂情感等抽象或含有大量音樂常識的內(nèi)容,因此回應方與聲音源之間的關(guān)系會由于數(shù)據(jù)算法的復雜而導致呈現(xiàn)不夠直接。其次,由于認知維度已經(jīng)擁有復雜的音頻內(nèi)容分析和理解能力,因此系統(tǒng)中的機器回應更為獨立且可以具有自己的個性行為。最后,認知維度的音頻描述符在交互音樂創(chuàng)作中的應用是目前最熱門并待于開發(fā)的研究方向,它平衡了人機交互的雙方,展現(xiàn)了機器創(chuàng)造與人類創(chuàng)造的“思想”碰撞。
除了不同維度音頻描述符的針對性使用之外,一部作品中一般含有大量音樂元素或聲音方面的構(gòu)思,單獨使用一種音頻描述符構(gòu)建系統(tǒng)中的互動行為往往不能夠完整體現(xiàn)創(chuàng)作者的創(chuàng)作理念。因此,多種音頻描述符以及多維度音頻描述符的使用在作品中是非常必要且更有效果的,這種使用方式可以用來在系統(tǒng)中構(gòu)建一個互動行為,也可以構(gòu)建不同的互動行為,還可以從整體上對演奏者的演奏進行樂譜跟蹤,以此來輔助互動行為。
在交互音樂現(xiàn)場,人類演奏家的實時演奏會產(chǎn)生持續(xù)變化的數(shù)據(jù)流信息,這些數(shù)據(jù)在實時機器聽覺感測之后的系統(tǒng)傳輸過程中會存在有關(guān)穩(wěn)定性和靈敏度的問題。如果聲音數(shù)據(jù)的感測和傳輸沒有得到很好的過濾和控制,則會直接導致輸出的回應參數(shù)不夠準確,系統(tǒng)整體也不夠穩(wěn)定。因此,我們可以在系統(tǒng)中使用多個特征參數(shù)共同協(xié)助和構(gòu)建互動行為,這種互相牽制的方式使聲音的感測數(shù)據(jù)不會在傳輸過程中過于靈敏或者過于死板。以意大利作曲家蘭貝托·科切里尼(Lamberto Coccioli)在作品Touch①Touch 創(chuàng)作于2002 年,是一首為鋼琴和現(xiàn)場電子音樂而作的交互音樂作品。中的共振模塊為例。如圖2 所示,以共振效果器的核心控制參數(shù)為中心頻率,由從iana~②iana~:可視化編程語言交互軟件Max 中的模塊,用于分析和提取復雜管弦樂的頻率分量。中提取的演奏者演奏聲音的第一個泛音頻率參數(shù)r freq1 來決定,但由于泛音頻率參數(shù)會在整個鋼琴聲音包絡③聲音包絡指聲音的4 個階段,即ADSR(觸發(fā)、衰減、持續(xù)、釋放)。的所有階段中不斷變化,因此作曲家選用另外一個參數(shù)r ap1 來控制r freq1 的輸入。r ap1 是在感測到演奏者演奏聲音的起音峰值后進行延遲觸發(fā)的控制按鈕,起音峰值在每一個聲音包絡中只顯示一次,當系統(tǒng)感測到一個起音峰值,便會觸發(fā)和執(zhí)行中心頻率的變化,而在其他階段中產(chǎn)生的泛音變化參數(shù)不會影響中心頻率發(fā)生變化。這樣做的目的是使中心頻率以演奏者演奏的每一個音符為單位進行變化,保證了每一次鋼琴演奏觸發(fā)的共振效果在整個聲音包絡內(nèi)的穩(wěn)定性。此外,起音峰值的變化還控制了采樣開啟時的淡入效果和共振效果器的品質(zhì)因數(shù)Q,這兩者同樣也是為保證共振效果器各個參數(shù)可以隨演奏者演奏穩(wěn)定變化而設置的。作曲家需要的共振效果是伴隨整個聲音包絡過程的統(tǒng)一效果,使用起音峰值協(xié)助控制共振效果器的中心頻率、品質(zhì)因數(shù)Q、采樣淡入的變化,對核心控制參數(shù)的映射起到了穩(wěn)定數(shù)據(jù)的作用,也更好地表達了作曲家想要的聲音效果。
圖2 共振效果器控制圖示
從創(chuàng)意設計出發(fā),多個音頻描述符的使用也可以起到提升設計細節(jié)的作用。在使用感測特征控制核心變化時,為使回應結(jié)果更富有創(chuàng)意和表現(xiàn)力,許多作曲家不是將感測到的數(shù)據(jù)提取后直接進行映射,而是通過采用其他與演奏者關(guān)聯(lián)的音頻特征來增添互動過程中的細節(jié)。這些細節(jié)可能會改變回應內(nèi)容的結(jié)構(gòu)和表現(xiàn)方式,甚至為回應內(nèi)容提供更多的不確定性。例如筆者的交互音樂作品Still Life中關(guān)于泛音提取再觸發(fā)的模塊(圖3),在這個模塊中,筆者希望可以從演奏者的演奏中提取到部分泛音頻率參數(shù),然后隨機映射至正弦波采樣并出現(xiàn)在演奏時的背景效果中。隨機效果是由聲音源中的基頻頻率來設置的,這是由于analyzer~①analyzer~:可視化編程語言交互軟件Max 中的模塊,基于FFT 原理,可分析感知層面的音高、響度、亮度等音頻特征參數(shù)。中提取的基頻頻率參數(shù)為相對瞬時的變化參數(shù),而提取的泛音序列是持續(xù)變化的參數(shù),因此基頻頻率的變化既可以進行隨機觸發(fā),也可以關(guān)閉映射效果。具體的觸發(fā)過程首先以基頻的變化與否來控制隨機觸發(fā)的總開關(guān),其次根據(jù)變化次數(shù)對提取到的第1 ~ 7 個泛音頻率參數(shù)進行隨機觸發(fā),最后映射至正弦波采樣。此設計細節(jié)是提取泛音頻率映射至正弦波采樣之間增加的步驟,與演奏者演奏的聲音相聯(lián)系,依舊由演奏者控制。
圖3 背景泛音效果控制圖示
多種音頻描述符的使用可以對聲音源進行定位與分析,最典型的是在樂譜追蹤(Score Following)中的使用。樂譜追蹤通過使用機器聽覺技術(shù),綜合音高、時值等音頻特征參數(shù)分析音樂并自動跟蹤提前預設的樂譜,其研究領(lǐng)域涉及音樂、人工智能、模式識別、信號處理等多個學科,該技術(shù)不屬于交互音樂創(chuàng)作的研究范疇,但其應用可以輔助交互音樂創(chuàng)作,并成為現(xiàn)場電子音樂的組成部分。
在一部真實樂器參與的交互音樂中,傳統(tǒng)樂譜是作曲家表達音樂的重要工具,它建立在以音樂節(jié)拍為單位的時間基礎上。人類演奏家在演奏樂譜時由于自然的音樂表情表達,會使所謂的音樂節(jié)拍產(chǎn)生一定的物理時間偏差,而計算機程序的運作、觸發(fā)和響應均遵循準確的物理時間。因此,如果想要在一首作品的完整表演中實現(xiàn)人類演奏家演奏和計算機響應的基本同步,首先需要在時間方面進行統(tǒng)一規(guī)范,即計算機根據(jù)機器聽覺識別人類演奏并自動對樂譜進行校準。其次,由于人機互動可能存在多種處于不同時間點開啟的互動模塊,在表演過程中需要對其進行手動切換,而切換時可能會導致表演中斷或造成時間錯位;因此對聲音源進行定位之后,在指定的樂譜時間點自動執(zhí)行互動行為對輔助交互音樂創(chuàng)作和表演同樣具有重要意義。
以Antescofo 為 例。Antescofo 是2007 年 由法國工程師阿西亞·孔特(Arshia Cont)與德國作曲家馬可·斯特羅帕(Marco Stroppa)在IRCAM①IRCAM(the Institute for Research and Coordination in Acoustics/Music),1977 年由皮埃爾·布列茲(Pierre Boulez)創(chuàng)立,是世界上最大的致力于音樂創(chuàng)作和科學研究的公共研究中心之一。合作開發(fā)的程序,它最初的開發(fā)目的是用來幫助同步現(xiàn)場電子音樂中的人類演奏家和電子設備,后來通過拓展也可被用于多種復雜的交互音樂場景中。為解決實時交互中人類演奏家的樂譜語言和計算機的編程語言之間存在的表達障礙, Antescofo 為其提供了一套通用表達,它將樂譜與編程語言相結(jié)合,使用統(tǒng)一的語言進行樂譜追蹤和互動執(zhí)行,不僅可以實現(xiàn)一些復雜的互動方案設計,還可以容忍一些人類演奏的錯誤和自然的時間偏差。Antescofo 的樂譜由兩部分組成:事件(event)和動作(action),事件代表傳統(tǒng)樂譜部分,動作代表機器響應,事件由通過實時機器聽覺獲得的音符的音高和時值構(gòu)成,可具體標注為:音符(note)、和弦(chord)、顫音(trill)及復合事件(multi)。圖4 是皮埃爾·布列茲(Pierre Boulez)作品Anthèmes II的一個片段,其中第38 行NOTE 8100 0 表示這個音符音高的MIDI 音分值為8100,時值為0 拍,可判斷為裝飾音;第39 行是計算機識別到第38 行音符后執(zhí)行的響應行為,具體表示為在識別到第38 行音符后立刻開啟和聲生成器②和聲生成器:一種音調(diào)移位器,可以在原有音高的基礎上疊加兩個或多個音調(diào)移位后的音高,例如疊加三度、五度、七度等,由此產(chǎn)生和聲效果。,同時控制輸出音量將其提升至-6dB。計算機追蹤到樂譜第47 行的音符時會執(zhí)行第49 ~84 行之間的一系列復雜的機器回應行為,包括移頻器的開啟、延遲效果的開啟、和聲生成器的關(guān)閉以及伴隨各效果變化的聲音空間化設計等等。Antescofo 的樂譜優(yōu)勢在于可以將所有有關(guān)音符、采樣、效果器、聲學空間參數(shù)等可以被編碼的行為綜合在一個電子文檔中,此電子文檔可以在Max/MSP 中作為一個對象(object)被讀取,然后通過其內(nèi)部的編程語言自動控制與之連接的效果器或音響模塊,使人類演奏家通過演奏自動控制所有互動行為,無需手動操作任何模塊。
圖4 重制版Anthèmes II 片段
雖然聲音源的定位與分析不能為創(chuàng)作服務,但使用統(tǒng)一語言將樂譜和計算機聯(lián)系起來為交互音樂表演現(xiàn)場提供了更智能的互動模式。它不僅可以更好地在現(xiàn)場實時同步人類演奏家演奏和計算機響應,還可以為作曲家的樂譜創(chuàng)作和互動行為創(chuàng)作提供統(tǒng)一的規(guī)范語言。
我們通常被交互音樂中人機交互的新穎表演方式所吸引,無論是真實樂器的增強、新型數(shù)字樂器的發(fā)明,還是傳感器和控制器的設計。近年來,交互音樂在表演形式方面已經(jīng)得到了廣泛發(fā)展,相較于將人機互動置于數(shù)字信號控制層面進行研究,如何使人與機器的互動產(chǎn)生音樂內(nèi)容表達層面的抽象連接,是眾多作曲家和藝術(shù)家在交互音樂創(chuàng)作中重視和探索的另一個方向。
交互音樂系統(tǒng)雖然可以收集和分析人類演奏家演奏的聲音內(nèi)容,但一般情況下的人機互動都以人為主導來進行,機器作為與人交互的另一方很難真正成為與人類同等的伙伴。這是由于交互音樂中的機器一方普遍缺乏基礎的人工智能能力,無法真正理解音樂情感,對于接收到的音樂內(nèi)容缺少創(chuàng)造性反饋。雖然目前在探索機器智能程度的過程中仍然有大量棘手的問題存在,但已有一些研究成果顯現(xiàn)出了此研究方向的潛力和價值,而機器聽覺技術(shù)在整個研究過程中占據(jù)了重要地位。筆者認為利用機器聽覺生成的創(chuàng)造性反饋可以從音樂本質(zhì)上推動作品內(nèi)容的發(fā)展,對作品創(chuàng)作理念的傳遞和表達有著重要意義,是人機音樂內(nèi)容表達關(guān)聯(lián)性的主要體現(xiàn)。下面筆者將從不同方面分別闡述機器創(chuàng)造性反饋在人機音樂內(nèi)容表達關(guān)聯(lián)性方面的作用和影響。
人與人在表演或創(chuàng)作中的互動充分強調(diào)“交流”的重要性。無論是帶有固定樂譜的表演,還是無固定樂譜的即興演奏或創(chuàng)作,人與人之間需要通過傳遞和交換彼此的想法來達到互相理解,共同促進作品內(nèi)容的發(fā)展。這種想法可能是樂譜中的音樂表情,也可能是音樂動機、音樂概念等。無論如何,音樂交流是一種抽象意義上的對話,交互音樂中的人機互動同樣如此。我們通常在人機互動中強調(diào)和放大人對機器的控制和作用,事實上,機器對人的影響也至關(guān)重要,這種影響不能僅僅停留在欣賞或者接受層面,有創(chuàng)造性內(nèi)容的機器反饋可以為人帶來更多音樂本質(zhì)上的思考,激發(fā)人類的音樂表達欲望,更能加深人機交流的層次。
彼得·貝爾斯(Peter Beyls)1988 年在ICMC①ICMC(International Computer Music Conference): 國際計算機音樂會議是每年一次的為計算機音樂研究人員和作曲家舉辦的年度國際會議, 由國際計算機音樂協(xié)會(ICMA)舉辦。會議上提出的 Oscar②Peter Beyls, “Introducing Oscar,”in Proc. Int.Computer Music Conference 1988, pp.219-230.系統(tǒng)是第一個嘗試使用“虛擬音樂家”稱號的交互音樂系統(tǒng)。他在會議上對Oscar 系統(tǒng)的闡述和定位對之后交互音樂系統(tǒng)中人機關(guān)系的研究和發(fā)展有非常關(guān)鍵的作用。彼得設計Oscar 的目標是希望它可以像人類演奏家一樣獨立在表演中發(fā)揮作用,在表演和創(chuàng)作中與人類互動和交換音樂思想,共同創(chuàng)造和表演出最終的音樂作品。Oscar 被稱為現(xiàn)場表演者的伙伴,可以傾聽演奏家的表演,并以連貫的音樂表達作出反應。在具體技術(shù)方面,Oscar 通過使用機器聽覺技術(shù)對音頻和薩克斯鍵位數(shù)據(jù)進行音高追蹤,經(jīng)過一系列的運算之后輸出MIDI 信號進行反饋,其中音高內(nèi)容是主要的互動主題。彼得將人機互動關(guān)系等同于人人互動關(guān)系,把人與人互動時的心理狀態(tài)映射至Oscar 上,對其進行了擬人化描述。他表示Oscar 對當前的音樂狀態(tài)有自己的觀點,主要體現(xiàn)在兩個方面:它當前的自身狀態(tài)和它對人類音樂家的感受方面。圖5 可以展現(xiàn)這種二維關(guān)系,橫向表示的是Oscar 對人類演奏家演奏內(nèi)容的感受程度,這種程度是一種慣性改變,需要一定的時間來識別;縱向表示的是Oscar 的自身狀態(tài),取決于人類演奏家對它的刺激程度。具體表現(xiàn)為,如果人類演奏家長時間保持沉默或長時間演奏相同的無變化的音樂內(nèi)容,那么Oscar 會感到無聊;相反,如果人類演奏家演奏的音樂內(nèi)容持續(xù)變化,則Oscar 會處于持續(xù)或過度被刺激的狀態(tài),此時它會對人類演奏家呈現(xiàn)出復雜且熱烈的回應。
圖5 Oscar 狀態(tài)表現(xiàn)圖
彼得對Oscar“心理狀態(tài)”的描述借鑒了人類在互動過程中的心理狀態(tài),在他的引導下,Oscar 更適合處理抽象事件而并非直觀的數(shù)字信息。人類有著非常神奇和復雜的獨立思考能力,可以通過感知聲音中的復雜結(jié)構(gòu)推斷出其背后的意義。對于機器來說,我們需要賦予它一種推斷機制,使它經(jīng)過底層數(shù)據(jù)的復雜計算之后可以逐漸進化至對高層語義信息的理解。Oscar 對外界刺激實時調(diào)整自身的狀態(tài),同時人類本能地也會因為受到機器回應的刺激而改變自身的狀態(tài)和反應。這種情況下的人機互動不再傾向于人影響機器,而是更加注重互相影響,音樂的發(fā)展也將由人機雙方回應的內(nèi)容來共同推動。無論是固定樂譜還是開放樂譜,人機之間通過同等的互相激勵,音樂中的表情和內(nèi)容都會進一步朝開放和創(chuàng)新的方向發(fā)展,相較于以人為完全中心的交互機制,此類交互音樂系統(tǒng)除了承擔呈現(xiàn)觸發(fā)結(jié)果的作用之外,通過加深機器反饋內(nèi)容的深度,將和人類共同引導音樂內(nèi)容的表達和發(fā)展。
交互音樂中的機器反饋必須是實時的,并且?guī)в胁淮_定性和自發(fā)性的特點,其中實時的程度取決于音頻信息處理的手段和技術(shù),而不確定性和自發(fā)性普遍來源于作曲家或藝術(shù)家的精心設計。在交互音樂范疇里,人機交互中的不確定性程度和智能程度也存在較大的差異。機器的創(chuàng)造性反饋是作品不確定性和自發(fā)性的高級體現(xiàn),它表明機器擁有一定程度的獨立思考能力,對人類表演作出的反饋有可能在人類的預料之外。這種創(chuàng)造性反饋增加了現(xiàn)場表演的趣味性,加深了人機互動在作品內(nèi)容方面的深度,從整體上提升了作品內(nèi)容的藝術(shù)表現(xiàn)力。
以英國作曲家尼克·柯林斯(Nick Collins)的作品為例,F(xiàn)ree Jazz Simulation①Free Jazz Simulation 創(chuàng)作于2005 年,是一首由1 名人類吉他演奏家和4 名計算機演奏家組成的爵士樂合奏。]模擬了人類爵士樂合奏的演奏模式,其中計算機演奏家被稱為“自動代理”(Autonomous Agent),見圖6。整首作品基于多個音頻信號和檢測器組成了一個網(wǎng)絡拓撲結(jié)構(gòu)②拓撲結(jié)構(gòu)是引用拓撲學中研究與大小、形狀無關(guān)的點、線關(guān)系的方法。。在這個完全互聯(lián)的結(jié)構(gòu)中,樂隊成員彼此之間互相監(jiān)聽,任何成員的音頻輸出都有可能觸發(fā)其余成員進行反饋。作品從人類演奏家的主題開始,人類演奏家和4 位自動代理通過互相監(jiān)聽和反饋形成作品的表演,其中自動代理的反饋行為受到頻譜斜率、反應時間和獨立程度等參數(shù)控制。由于這些參數(shù)會在演奏過程中發(fā)生變化,因此網(wǎng)絡拓撲結(jié)構(gòu)也是一個動態(tài)結(jié)構(gòu)。此外,由于作品采用了多位自動代理同時工作,人類演奏家不得不在同一時間適應多位自動代理的反饋結(jié)果。
圖6 Free Jazz Simulation 演奏成員網(wǎng)絡圖
作品藝術(shù)表現(xiàn)力基于人機交互的形式和內(nèi)容,精心的系統(tǒng)設計不僅用來制造現(xiàn)場表演,也是作曲家或藝術(shù)家創(chuàng)作理念的體現(xiàn)。Free Jazz Simulation采用4 位自動代理在現(xiàn)場與人進行互動,除了展現(xiàn)人機交互形式之外,也著重體現(xiàn)出了機機之間的交互。在作品創(chuàng)意中加入計算機演奏的作品還有很多,藝術(shù)家也在積極探索著除了單一人機交互形式之外的復雜互動模式。另一方面,利用機器聽覺生成的機器創(chuàng)造性反饋賦予了作品不可復制的特點,展現(xiàn)了機器與人類演奏家的“思想”碰撞,通過為機器建構(gòu)人工神經(jīng)網(wǎng)絡模型,加深機器對音樂內(nèi)容的理解。無論是從表面上提高作品內(nèi)容的不確定性,還是從實質(zhì)內(nèi)容上增強反饋內(nèi)容的創(chuàng)造性,都有助于提升作品的藝術(shù)表現(xiàn)力和現(xiàn)場表現(xiàn)力。
人類對音樂的詮釋除了對樂譜的基本認識之外,還會受到自身音樂經(jīng)驗或社會經(jīng)驗的影響。在固定樂譜的演奏中,不同的人類演奏家會使用不同的音樂表情來闡述個人對樂譜的理解,而無固定樂譜的即興演奏與創(chuàng)作則更開放,幾乎完全取決于人類音樂家的音樂經(jīng)驗和文化背景,不同的人類音樂家會呈現(xiàn)出完全不同的作品表演和創(chuàng)作。由于機器本身沒有創(chuàng)作和表演基礎,因此依附于訓練它的人類音樂家或者與它一同表演的人類演奏家上。機器的音樂經(jīng)驗同樣完全依靠人類的經(jīng)驗,它通過在人類建立的運行規(guī)則上積累經(jīng)驗而逐漸擁有一定程度的創(chuàng)造“思維”,甚至成為可以獨立思考的個體。對于一個擁有機器創(chuàng)造性反饋的通用系統(tǒng)來說,我們通常會面臨一個難題,那就是機器可能無法擁有足夠的音樂經(jīng)驗數(shù)據(jù),這也是音樂人工智能的評估成為近些年不可忽視的問題的原因。但針對于本文探討的藝術(shù)化創(chuàng)作與表演,筆者認為此問題可能是一把雙刃劍,雖然系統(tǒng)所屬的音樂背景受限,反饋內(nèi)容有可能在風格或概念等方面存在爭議,但這同時也成就了機器獨一無二的反饋機制。帶有不確定性和自發(fā)性特點的機器創(chuàng)造性反饋體現(xiàn)了藝術(shù)家獨有的審美和創(chuàng)作理念,無論是利用機器聽覺中物理和感知維度進行簡單創(chuàng)造,還是利用認知維度通過機器學習進行復雜創(chuàng)造,機器創(chuàng)造性反饋會非常明顯地呈現(xiàn)出創(chuàng)作者的個人色彩。筆者認為一部藝術(shù)作品需要體現(xiàn)獨特性而并非普及性,在有限背景內(nèi)的創(chuàng)造性反饋不一定得到所有人的理解,但可以為創(chuàng)作者本人或其他感興趣者提供創(chuàng)作和表演上的靈感和思路。
機器創(chuàng)造性反饋對基于藝術(shù)化的創(chuàng)作和表演面臨以下兩個方面的挑戰(zhàn):第一,人類的思維構(gòu)造極其復雜,雖然機器產(chǎn)生創(chuàng)造性反饋的機制是對人類大腦結(jié)構(gòu)的模擬,但畢竟不能夠完全等同于人類,因此在運行過程中可能會出現(xiàn)誤差或者不能夠完全準確地檢測到信息。在這一方面我們可以參考史蒂夫·賴希(Steve Reich)的“移相”(phasing)類作品。賴希在此類作品中通常使用兩條相同的音樂旋律,它們開始時是同步的,但在演奏過程中有時會使用輕微偏離而使兩者不完全重合,有時也會再重新回歸同步演奏。賴希的移相類作品展示了一種新的創(chuàng)作途徑,也影響了后來的很多作曲家。我們可以通過賴希得到一些啟示:小范圍地偏離闕值而造成的誤差可能并不是一件壞事,誤差可能會激發(fā)人類的聯(lián)想,刺激表演者和創(chuàng)作者展開新的思路,這與擁有經(jīng)驗豐富的人類之間的溝通是完全不同的,我們必須承認機器誤差可能會存在潛在的“創(chuàng)造力”。第二, 無論是機器創(chuàng)造性反饋中的音樂內(nèi)容受限還是系統(tǒng)運行過程中存在的誤差或不確定因素,對于創(chuàng)作者和現(xiàn)場表演者來說都存在挑戰(zhàn)。首先,在訓練系統(tǒng)或者與人類演奏家進行彩排時,創(chuàng)作者需要不斷地對機器產(chǎn)生的創(chuàng)造性反饋進行思考,較淺層次的創(chuàng)造性反饋對參數(shù)進行手動調(diào)整即可,而較深層次的創(chuàng)造性反饋則需對系統(tǒng)的整體運行機制進行復雜的調(diào)整和完善。其次,機器在產(chǎn)生創(chuàng)造性反饋的同時也要求人類演奏家不斷適應機器演奏中出現(xiàn)的變化,因此在表演時要求人類演奏家有一定的應對能力和預判能力。
機器的創(chuàng)造性反饋反映了系統(tǒng)內(nèi)部結(jié)構(gòu)的運行機制,不同的運行機制產(chǎn)生的反饋結(jié)果不同,這也是長期以來眾多作曲家和研究者不斷提出新的交互音樂系統(tǒng)的原因。雖然對人類抽象思維規(guī)律的探索困難重重,但在將其映射至機器運行機制的過程中我們也漸漸發(fā)現(xiàn),帶有抽象模式思考的系統(tǒng)機制可以為音樂家?guī)砣碌膭?chuàng)作體驗和表演體驗,加深人機之間的“思想交流”,增強人機在音樂內(nèi)容表達的關(guān)聯(lián)性。
基于實時機器聽覺的交互音樂創(chuàng)作離不開人與機器之間的“理解”和“溝通”,當作曲家和藝術(shù)家們構(gòu)造其核心的“互動”行為時,不可避免地需要考慮多種不同因素。如果我們從概念上界定或理解互動行為,需要考量它的美學價值、存在意義和藝術(shù)表現(xiàn)力等;而如果我們從實踐層面考慮,則需要在系統(tǒng)中設計它“互動”的環(huán)節(jié)。構(gòu)造一個互動行為往往需要經(jīng)過多個環(huán)節(jié)才能實現(xiàn),其中每個環(huán)節(jié)之間都是環(huán)環(huán)相扣、互相影響的,因此,“互動”是一個需要多方面考慮才能被有意義呈現(xiàn)出來的行為。
對于創(chuàng)作交互音樂的作曲家或藝術(shù)家來說,創(chuàng)作思維需同時建立在對互動的理解和對科學技術(shù)的運用上,兩者是不可分割的,在不斷拓展和提升創(chuàng)作理念的同時也應積極探索科學技術(shù)的創(chuàng)新和應用,唯有兩個方面的配合才能共同推動交互音樂的發(fā)展。