蔣 偉,張?bào)闼?,劉京宇,錢亞紅,蔣玉暕
(1. 中國(guó)傳媒大學(xué) 現(xiàn)代演藝技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室,北京 100024; 2. 中國(guó)傳媒大學(xué) 視聽技術(shù)與智能控制系統(tǒng)文化和旅游部重點(diǎn)實(shí)驗(yàn)室,北京 100024; 3. 中國(guó)傳媒大學(xué) 信息與通信工程學(xué)院,北京 100024)
音樂和圖像是人們認(rèn)識(shí)感受世界的兩種重要媒介,二者單獨(dú)作用于人時(shí)能讓人產(chǎn)生相應(yīng)的心理感受.不僅如此,音樂和圖像同時(shí)作用于人時(shí)會(huì)相互影響,例如恐怖片之所以這么恐怖離不開詭異配樂的影響,如果配上歡快的音樂就會(huì)大大破壞恐怖的感覺.周海宏[1]以聯(lián)覺為切入點(diǎn),研究了音樂能表現(xiàn)的對(duì)象,得出結(jié)論: 音樂能夠表現(xiàn)視覺對(duì)象,也就是說音樂和視覺圖像之間存在一定的關(guān)聯(lián)關(guān)系.也有很多研究者研究了音樂與圖像最重要的特征之一——顏色之間的關(guān)聯(lián).Palmer等[2]采用主觀評(píng)價(jià)實(shí)驗(yàn)的方法,證明了音樂和顏色之間存在強(qiáng)烈的關(guān)聯(lián)關(guān)系,并認(rèn)為這種關(guān)聯(lián)關(guān)系是以情緒作為中介的.張聰聰[3]同樣認(rèn)為音樂和顏色具有以情緒為中介的關(guān)聯(lián)關(guān)系.已經(jīng)有大量研究表明音樂和圖片之間是有關(guān)聯(lián)的,而音色和紋理分別作為音樂和圖片的兩個(gè)要素,它們之間是否也存在關(guān)聯(lián)關(guān)系呢?
Langlois等[4]對(duì)音樂和紋理之間的關(guān)系進(jìn)行了研究,認(rèn)為音樂和紋理之間存在強(qiáng)烈關(guān)聯(lián),并認(rèn)為音樂和紋理的關(guān)聯(lián)與音樂和顏色的關(guān)聯(lián)不同,不僅與情緒有關(guān),還與其他的因素有關(guān).上述所有關(guān)于音樂和圖片關(guān)聯(lián)的研究都是定性研究,定量研究方面的研究文獻(xiàn)目前還未見報(bào)道.同樣也未見文獻(xiàn)具體研究音樂的音色特征和圖片紋理特征之間的關(guān)系.為了進(jìn)一步研究音色和紋理之間的關(guān)聯(lián)關(guān)系,本文借助主觀評(píng)價(jià)實(shí)驗(yàn)得到音色感知特征以及音色和紋理之間的匹配關(guān)系數(shù)據(jù),然后用皮爾遜相關(guān)系數(shù)來驗(yàn)證音色感知特征和紋理之間是否存在關(guān)聯(lián).如果存在關(guān)聯(lián),把音色感知特征值和紋理特征值以及二者間的匹配關(guān)系輸入邏輯回歸、隨機(jī)森林、多層感知器神經(jīng)網(wǎng)絡(luò)3種算法進(jìn)行建模,來預(yù)測(cè)紋理和音色感知特征之間的匹配關(guān)系.
本文使用5維音色感知特征: 明亮-暗淡、干癟-柔和、尖銳-渾厚、粗糙-純凈、嘶啞-協(xié)和,來描述人對(duì)音色的感知.這5維音色感知特征來自之前的研究成果,文獻(xiàn)[5]詳細(xì)介紹了具體的實(shí)驗(yàn)步驟以及分析過程.為了得到各音色素材的音色感知特征值,本文將進(jìn)行主觀評(píng)價(jià)實(shí)驗(yàn),要求被試對(duì)每個(gè)音色素材的音色感知特征打分.具體實(shí)驗(yàn)內(nèi)容見第2節(jié).
為了篩選主觀評(píng)價(jià)實(shí)驗(yàn)用的紋理圖片并對(duì)紋理和音色的匹配關(guān)系建模,提取了如下的44維紋理特征.1) 灰度共生矩陣(Gray-Level Co-occurrence Matrix, GLCM)[6]: 提取對(duì)比度、同質(zhì)性、相關(guān)性和能量的均值和標(biāo)準(zhǔn)差,共8維.2) 分形維數(shù)(fractal dimension)[7]: 共1維.3) 5階高斯馬爾科夫模型(Gaussian Markov model)紋理特征[8]: 共12維.4) Gabor濾波(Gabor filtering)[9]: Gabor濾波后的均值、慣量和熵,共3維.5) 小波特征(wavelet feature)[10]: 進(jìn)行2維小波變換提取到2層水平近似分量,1層和2層的水平、垂直、對(duì)角近似分量,并對(duì)各分量計(jì)算均值和標(biāo)準(zhǔn)差,然后對(duì)得到的特征向量進(jìn)行歸一化,共14維特征.6) Tamura紋理特征[11]: 粗細(xì)度(coarseness)、對(duì)比度(contrast)、方向度(directionality)、線性度(line-likeness)、規(guī)則度(regularity)和粗糙度(roughness),共6維.
分析音色和紋理的相關(guān)性時(shí)將用到的Tamura紋理特征是Tamura等[11]在1978年提出的1種基于人類對(duì)紋理視覺感知的紋理特征提取方法,主要由以下6個(gè)特征組成.1) Coarseness(粗細(xì)度——粗還是細(xì)): 構(gòu)成紋理圖像的紋理基元的尺寸或者重復(fù)次數(shù).2) Contrast(對(duì)比度——高對(duì)比度還是低對(duì)比度): 圖像中灰度級(jí)的動(dòng)態(tài)范圍及邊緣的銳度.3) Directionality(方向度——有方向還是沒方向): 圖像具不具有明顯方向.4) Line-likeness(線性度——線狀的還是斑點(diǎn)狀的): 紋理基元的形狀是線型的還是斑點(diǎn)型的.5) Regularity(規(guī)則度——規(guī)則還是不規(guī)則): 構(gòu)成紋理的基元是否規(guī)則,基元的位置是否規(guī)則.6) Roughness(粗糙度——粗糙還是平滑): 如果觸摸這個(gè)紋理,觸覺上感覺更粗糙還是更光滑.
為了進(jìn)行主觀評(píng)價(jià)實(shí)驗(yàn),首先需要得到適合進(jìn)行主觀評(píng)價(jià)實(shí)驗(yàn)的紋理圖片.本文使用的紋理圖片由Brodatz紋理庫(kù)[12]中的111張紋理圖片篩選得到.具體的篩選過程主要包括: 1) 去掉亮度過亮或過暗的圖片,降低亮度對(duì)實(shí)驗(yàn)的影響;2) 去掉攜帶明顯語義信息的圖片,如圖1所示;3) 用剩余圖片的44維紋理特征進(jìn)行系統(tǒng)聚類(system clustering)[13]和多維尺度(Multidimensional Scaling, MDS)分析[14].
圖1 攜帶語義信息的圖片的示例Fig.1 Examples of images with semantic information
系統(tǒng)聚類[13]也叫層次聚類,數(shù)據(jù)中每個(gè)樣本都是初始聚類簇,然后一步步合并距離最近的兩個(gè)樣本.本文采用平均距離的方法計(jì)算距離,即
(1)
多維尺度分析[14]將樣本放在1個(gè)相對(duì)低維的l維空間中,并保持任意兩個(gè)樣本在l維空間中的距離與原始距離相同,距離一般采用歐氏距離進(jìn)行計(jì)算.假設(shè)樣本a和b在l維空間中坐標(biāo)為Xa=(Xa1,Xa2,…,Xal)和Xb=(Xb1,Xb2,…,Xbl),則兩點(diǎn)間的歐式距離為
(2)
得到的聚類譜系圖和MDS分布圖分別如圖2,圖3所示,根據(jù)得到的結(jié)果進(jìn)行篩選.篩選時(shí)主要基于聚類分析的結(jié)果,盡量保證篩選的圖片覆蓋所有的類別,并在多維尺度圖上分散分布.
圖2 紋理圖片的聚類譜系圖Fig.2 Clustering pedigree chart of texture images
圖3 MDS的分布圖Fig.3 Distribution diagram of MDS
圖3中實(shí)心的點(diǎn)即為選中的紋理圖片在空間中的分布位置,可以看出選中的圖片基本覆蓋整個(gè)空間,可代表各種類型的紋理圖片.圖4是最終篩選出的18張紋理圖片.
圖4 篩選出的紋理圖片F(xiàn)ig.4 Filtered texture images
篩選得到紋理圖片后,通過主觀評(píng)價(jià)實(shí)驗(yàn)得到音色和紋理的匹配關(guān)系以及各音色素材的音色感知特征值.因此本文的主觀評(píng)價(jià)實(shí)驗(yàn)主要包括兩個(gè)部分: 第1部分是音色感知特征的標(biāo)注;第2部分是音色和紋理的關(guān)聯(lián).
為了排除音高、響度等因素對(duì)音色感知和匹配的影響,實(shí)驗(yàn)采用72種音色素材,每段素材只包含1種樂器的最常用音區(qū)內(nèi)的音階,因此音階變化不會(huì)對(duì)音色特征有太大影響.為保證響度均衡,通過響度平衡實(shí)驗(yàn)對(duì)素材響度進(jìn)行歸一化處理.這些音色素材中包含36種中國(guó)傳統(tǒng)樂器(如二胡、琵琶等)、12種中國(guó)少數(shù)民族樂器(如馬頭琴、葫蘆絲等)以及24種西洋樂器(如鋼琴、小提琴等),基本可代表典型樂器的音色.兩部分實(shí)驗(yàn)的被試是相同的,共32人,其中男生11人,女生21人,年齡在20~30歲之間,都具有一定的聽音經(jīng)驗(yàn).
在第1部分音色感知特征標(biāo)注的實(shí)驗(yàn)中,讓被試對(duì)各音色素材的5維音色感知特征按照9級(jí)尺度進(jìn)行評(píng)價(jià),得到音色素材的5維音色感知特征值.
第2部分音色和紋理關(guān)聯(lián)的實(shí)驗(yàn)要求被試在聽音色素材的同時(shí),在屏幕上展示的18張紋理圖片中,挑選出3張與所播放音頻音色匹配的紋理圖片和3張不匹配的紋理圖片,從而得到該音色對(duì)應(yīng)的匹配和不匹配的紋理圖片.
2.3.1 數(shù)據(jù)處理
為了驗(yàn)證音色和紋理之間是否具有相關(guān)性,本文用每種音色的感知特征值與其匹配(或不匹配)的紋理的特征值進(jìn)行相關(guān)性分析.音色的感知特征值來自于音色感知特征標(biāo)注的主觀評(píng)價(jià)實(shí)驗(yàn),考慮到使用的音色特征是感知特征,因此,使用Tamura紋理特征這一基于心理學(xué)提出的紋理特征來進(jìn)行相關(guān)性分析.
(3)
式中: 上角標(biāo)Y(N)表示匹配(不匹配).同理,與音色素材m不匹配的紋理的6維平均特征值TCm,N,i(i=1,2,…,6)為
(4)
對(duì)主觀評(píng)價(jià)實(shí)驗(yàn)得到的音色感知特征標(biāo)注值運(yùn)用系統(tǒng)范疇法進(jìn)行處理,得到心理尺度的音色感知特征值,文獻(xiàn)[5]詳細(xì)介紹了處理過程.使用心理尺度的音色感知特征值進(jìn)行相關(guān)性分析和建模.
2.3.2 皮爾遜相關(guān)性分析
圖5是紋理特征值對(duì)音色特征值變化的散點(diǎn)圖,橫軸是音色素材m的某個(gè)音色特征,縱軸是音色素材m對(duì)應(yīng)紋理的某個(gè)平均特征.
圖5 紋理特征值對(duì)音色特征值變化的散點(diǎn)圖Fig.5 Scatter diagram of texture eigenvalues changing with timbre eigenvalues
從圖5中可以看出,部分音色特征與紋理特征之間存在比較明顯的關(guān)聯(lián)關(guān)系,并且匹配與不匹配的相關(guān)性是相反的,如與嘶啞-協(xié)和匹配的紋理的粗細(xì)度隨著協(xié)和程度的增大而增大,而與嘶啞-協(xié)和不匹配的紋理粗細(xì)度隨著協(xié)和程度增大而減小.
進(jìn)一步用皮爾遜相關(guān)系數(shù)分析音頻的5維音色特征和對(duì)應(yīng)的匹配(不匹配)的6維紋理平均特征值之間的相關(guān)性,結(jié)果如表1所示.
表1 音色特征與紋理特征的相關(guān)系數(shù)Tab.1 Correlation coefficient between timbre and texture features
(續(xù)表)
從表1可以看出,一些紋理特征與音色特征具有較強(qiáng)的相關(guān)性,如: 粗細(xì)度與干癟-柔和、粗糙-純凈、嘶啞-協(xié)和,對(duì)比度、粗糙度與明亮-暗淡、尖銳-渾厚,相關(guān)系數(shù)的絕對(duì)值最高達(dá)到0.75.粗細(xì)度與明亮-暗淡,方向度與各個(gè)音色特征,線性度與尖銳-渾厚,粗糙度與純凈-粗糙之間也存在著不太明顯的相關(guān)關(guān)系.
整體來說,越柔和、純凈、協(xié)和的聲音匹配的紋理基元的大小越大,越暗淡、渾厚的聲音匹配的紋理的對(duì)比度越小、粗糙度越小.從以上數(shù)據(jù)來看,音色與紋理之間確實(shí)存在較為強(qiáng)烈的關(guān)聯(lián)關(guān)系.
把主觀評(píng)價(jià)實(shí)驗(yàn)得到的數(shù)據(jù)整理成如表2所示形式,即單個(gè)樣本包括某音色素材的音色感知特征值和對(duì)應(yīng)的32名被試選擇為匹配(或不匹配)的紋理圖片的各特征的平均值,計(jì)算方法同式(3),(4).匹配標(biāo)簽是待預(yù)測(cè)值即模型輸出,音色感知特征和紋理特征是模型輸入.因此本文建模用到的數(shù)據(jù)樣本數(shù)為72(條音頻)×2(匹配/不匹配)=144.
表2 數(shù)據(jù)格式Tab.2 Data format
建模前先對(duì)音色感知特征和紋理特征進(jìn)行歸一化,即
(5)
式中:xi是樣本i的特征值;xmin是特征的最小值;xmax是特征的最大值.
使用音色感知特征和Tamura紋理特征輸入邏輯回歸(Logical Regression, LR)[15]、隨機(jī)森林(Random Forest, RF)[16]和多層感知器(Multilayer Perception, MLP)神經(jīng)網(wǎng)絡(luò)[17]算法建立音色和紋理的匹配模型.
建模時(shí)隨機(jī)抽取數(shù)據(jù)集中80%的數(shù)據(jù)作為訓(xùn)練集,剩下20%作為測(cè)試集,用不同的隨機(jī)數(shù)訓(xùn)練并在測(cè)試集上進(jìn)行10次測(cè)試,取10次測(cè)試集評(píng)價(jià)指標(biāo)的平均值進(jìn)行對(duì)比,采用二分類問題常用的評(píng)價(jià)指標(biāo): 精準(zhǔn)率(precision)、召回率(recall)和AUC(Area Under Curve)進(jìn)行評(píng)價(jià).
使用音色感知特征和Tamura紋理特征建立的3種匹配模型的結(jié)果如圖6所示.
又對(duì)訓(xùn)練集數(shù)據(jù)進(jìn)行10折交叉驗(yàn)證.隨機(jī)建模10次并進(jìn)行交叉驗(yàn)證,每個(gè)算法得到10×10個(gè)AUC值,取100個(gè)AUC的平均值作為評(píng)價(jià)指標(biāo),結(jié)果如表3所示.
從圖6可以看出,各個(gè)模型的精準(zhǔn)度都比較理想,邏輯回歸算法的精準(zhǔn)度達(dá)到0.9.表3中3種算法的10折交叉驗(yàn)證的AUC的平均值均在0.9以上.綜合圖6和表3的結(jié)果,邏輯回歸算法的建模結(jié)果略好于隨機(jī)森林和多層感知器神經(jīng)網(wǎng)絡(luò)的.可能是由于紋理和音色感知特征之間的關(guān)系近似于線性關(guān)系,并且本文數(shù)據(jù)量和特征量較少,因此邏輯回歸作為1種更加簡(jiǎn)單的線性算法,更適合于本文的數(shù)據(jù).但不論是哪種算法,模型的精準(zhǔn)度都在0.708以上,說明使用音色感知特征和紋理特征來判斷二者之間是否匹配是可行的.
圖6 3種匹配模型的評(píng)價(jià)結(jié)果Fig.6 Evaluation results of three matching models
表3 10折交叉驗(yàn)證的AUC平均值
Tab.3 Mean AUC of 10 fold cross validation
算法AUC邏輯回歸0.919隨機(jī)森林0.916多層感知器神經(jīng)網(wǎng)絡(luò)0.812
本文研究了音色感知特征和紋理之間的匹配關(guān)系,并建立了二者的匹配模型,主要有以下幾點(diǎn)貢獻(xiàn): 通過皮爾遜相關(guān)系數(shù)證明了紋理與音色的關(guān)系中,粗細(xì)度與干癟-柔和、純凈-粗糙、嘶啞-協(xié)和,對(duì)比度、粗糙度與明亮-暗淡、尖銳-渾厚具有較強(qiáng)的相關(guān)性;機(jī)器學(xué)習(xí)算法預(yù)測(cè)音色感知特征和紋理特征之間的匹配關(guān)系是可行的,其中邏輯回歸算法建立的模型效果最好,精準(zhǔn)率達(dá)到了0.9;本研究是音色和紋理的關(guān)聯(lián)關(guān)系的基礎(chǔ)研究,可以為視覺和聽覺感知關(guān)聯(lián)、音樂可視化、圖像可聽化、音樂與燈光的交互、畫面自動(dòng)配樂、視覺輔助聽音訓(xùn)練等提供理論支持.