黃 瑋, 冉啟斌
(1 南開大學(xué) 漢語言文化學(xué)院, 天津300071; 2 南開大學(xué) 文學(xué)院, 天津300071)
現(xiàn)在所用的動物分類系統(tǒng),大多是以動物形態(tài)或解剖的相似性和差異性的總和為基礎(chǔ)的。 根據(jù)古生物學(xué)、比較胚胎學(xué)、比較解剖學(xué)上的許多證據(jù),基本上能反映動物界的自然類緣關(guān)系[1]。 在分類特征的依據(jù)方面,迄今形態(tài)學(xué)特征尤其是外部形態(tài)仍然是最直觀和常用的依據(jù)。
從動物聲音的角度出發(fā),對動物進(jìn)行分類,有別于傳統(tǒng)的動物分類體系,可以豐富動物分類的依據(jù),讓動物分類體系更加立體化,幫助人類從聽覺角度建立對動物世界的再認(rèn)識,形成全新的認(rèn)知系統(tǒng)。從動物聲學(xué)距離的角度出發(fā)對動物進(jìn)行分類,能夠在一定程度上反映出動物聲音的聲學(xué)特征,進(jìn)而揭示動物聲音的發(fā)展規(guī)律、演變順序等信息,有助于對動物演化過程的研究。
在動物聲音的研究方面,早在1995 年Kurt 等就設(shè)計了一款基于特征提取算法的程序,對海洋哺乳動物的聲音進(jìn)行識別和歸類[2];Yuanfeng Ma 等(2008)使用短時傅里葉變換(STFT)、摩爾模型等方法,從時頻感知的角度對海洋哺乳動物的聲音進(jìn)行分類[3];Che Yong Yeo 等(2011)提出了基于動物聲音模式識別的動物識別和檢測系統(tǒng),該系統(tǒng)使用零交叉率(ZCR)、梅爾頻率倒譜系數(shù)(MFCC)和動態(tài)時間規(guī)整(DTW)聯(lián)合算法,并用狗的聲音做出了檢驗[4];Fernando 等(2017)使用平行識別模型和倍率分析對海洋哺乳動物的聲音進(jìn)行了探測和分類[5],該研究考慮到了每個物種發(fā)出的多種聲音,但研究只涉及墨西哥灣的11 種海洋哺乳動物;Tuomas Oikarinen 等(2018)引入了端到端前饋卷積神經(jīng)網(wǎng)絡(luò)對圈養(yǎng)狨猴的呼叫聲的來源和類型進(jìn)行了分類[6];Na Lin 等(2018)提出了一種對動物聲音信號進(jìn)行分類的新方法,即基于稀疏表示法的時頻域方法,可以對重疊的動物聲音進(jìn)行分類[7]。 綜合來看,前人的研究著重于兩個方面,一是從聲音角度對動物進(jìn)行識別和歸類,主要運用于海洋哺乳動物;二是對動物聲音的類型進(jìn)行探測和歸類,主要使用狗、狨猴等較為單一的物種進(jìn)行檢驗。
DTW 算法已經(jīng)被廣泛地應(yīng)用到基于識別、距離計算、數(shù)據(jù)匹配的各個領(lǐng)域,最具代表性的是應(yīng)用在人類語音識別領(lǐng)域。 呂軍等(2007)較早使用DTW算法對漢語學(xué)習(xí)者的發(fā)音進(jìn)行識別并進(jìn)行評價系統(tǒng)設(shè)計[8];鄒韜(2012)使用DTW 算法對漢語揚州方言的識別進(jìn)行了研究和設(shè)計[9];王國林(2017)使用DTW 算法設(shè)計評價系統(tǒng)對我國中學(xué)生的英語發(fā)音進(jìn)行自動評價[10];Hossein Hamooni 等(2016)通過基于DTW 的分類來對音素序列進(jìn)行識別,進(jìn)而實現(xiàn)對話語的識別[11]。 由此可見,DTW 算法運用于聲音的研究皆有先例可循。
本文將基于DTW 算法,提出對動物物種從聲學(xué)角度進(jìn)行分類,而非對某類動物進(jìn)行識別和歸類,或者對動物的某種聲音進(jìn)行識別。
本研究對175 種動物的聲音進(jìn)行分類,每種動物擬使用3 條聲音,即研究對象為525 條動物聲音。在補充實驗中,又對其中43 種動物的聲音進(jìn)行了分類,每種動物的聲音增加到10 條,總計430 條聲音。
1.2.1 聲音參數(shù)
本研究中使用的聲音均下載自www.animalsounds.org 等8 個國外聲音網(wǎng)站,下載的聲音文件格式有.mp3、.aiff、.wav 等,采樣率有11 025 Hz、22 050 Hz 等,存儲位數(shù)有8 位、16 位、32 位等,有單聲道聲音和雙聲道聲音。 最終,本文使用Praat(Praat:doing phonetics by computer,簡稱Praat)將聲音文件統(tǒng)一為.wav 格式,將聲音采樣率統(tǒng)一為22 050 Hz,將存儲位數(shù)調(diào)整為16 位,將聲道設(shè)置為單聲道,進(jìn)行保存和實驗。
1.2.2 聲音處理
本實驗中用以剪切聲音的軟件是Praat,一款實現(xiàn)跨平臺多功能語音學(xué)實驗的專業(yè)軟件,主要用于對數(shù)字化的聲音信號進(jìn)行分析、標(biāo)注、處理及合成等,同時輸出各類語圖和文字報表。 在實驗中,用Praat 分別將動物的聲音打開,將滿足研究需要的聲音剪切出來并保存。
在剪切中遵循以下標(biāo)準(zhǔn):如果有較為明確的周期,則按一個周期剪切出聲音,例如布谷鳥的叫聲是“布谷布谷”,則剪切出“布谷”;沒有明確周期的,或者周期極短、聲音急促而連續(xù)的,則按1 秒的聲音長度剪切。
1.3.1 動態(tài)時間規(guī)整算法
日本學(xué)者 Itakura 提出的動態(tài)時間規(guī)整(Dynamic Time Warping,DTW)算法是把時間規(guī)整和距離測度計算結(jié)合起來的一種非線性規(guī)整技術(shù),采用動態(tài)規(guī)劃(Dynamic Programming,DP)思想將一個復(fù)雜的全局最優(yōu)化問題轉(zhuǎn)化為許多局部最優(yōu)化問題,一步一步進(jìn)行決策,尋找出一條最佳路徑。DTW 算法早期廣泛應(yīng)用于語音識別領(lǐng)域,尤其適用于對孤立點的匹配和識別,具有計算速度較快,結(jié)論直觀等優(yōu)點。 現(xiàn)在,DTW 算法被廣泛應(yīng)用于語音檢索[13]、漢語聲調(diào)識別[14]、漢語方言語音識別[7]、手寫簽名識別[15]、手勢識別[16]、圖形識別[17]、空中目標(biāo)識別[18]、農(nóng)作物遙感影像識別及歸類[19]、電波識別[20]等領(lǐng)域。
在本實驗中,DTW 算法作為核心工具,主要用于計算各條聲音兩兩之間的聲學(xué)距離(即DTW 距離),這些聲學(xué)距離將用于系統(tǒng)聚類分析。
1.3.2 系統(tǒng)聚類分析
本實驗使用的系統(tǒng)聚類分析和主成分分析工具是SPSS,它是一款著名的數(shù)據(jù)統(tǒng)計與分析軟件,全稱為Statistical Product and Service Solutions(統(tǒng)計產(chǎn)品與服務(wù)解決方案軟件) ,最初軟件全稱為Statistical Package for the Social Sciences(社會科學(xué)統(tǒng)計軟件包),它涵蓋了數(shù)據(jù)管理、統(tǒng)計分析、圖表分析、輸出管理等功能,其中統(tǒng)計分析又包含系統(tǒng)聚類分析和主成分分析等功能。 本實驗使用SPSS 將上述的聲學(xué)距離進(jìn)行系統(tǒng)聚類分析,得出以聲學(xué)距離為基礎(chǔ)的譜系圖,該譜系圖作為以聲學(xué)距離為基礎(chǔ)進(jìn)行動物分類的直觀呈現(xiàn)。
1.3.3 其他實驗工具及腳本
由于DTW 算法屬于一種計算思維,沒有具體的操作工具,本實驗使用了承載DTW 算法的腳本來實現(xiàn)對聲學(xué)距離的計算。 在兩兩計算動物聲音的聲學(xué)距離之前,需要將錄音名稱修改為該動物的名稱,由于逐個修改工作量大,容易出錯,本實驗使用了重命名腳本來實現(xiàn),該腳本可以在幾秒鐘之內(nèi)將文件夾中的成百條錄音以上級文件夾的名稱批量重命名,并將重命名之后的文件匯集到同一個文件夾之中。
使用距離計算腳本計算動物間聲學(xué)距離后,距離文件以文本文檔格式保存,為了使其適用于SPSS的運行方式,本實驗使用了作者自己編寫的制表工具sound2xls-full 將文本文檔轉(zhuǎn)存為Excel 表格。 該制表工具是基于Python 設(shè)計的應(yīng)用軟件,操作簡單、實用高效,極大地簡化了數(shù)據(jù)整理工作,保證了數(shù)據(jù)另存過程的準(zhǔn)確性。
由于客觀條件的限制,要保證有175 種動物,而每種動物的有效聲音只有3 條,聲音數(shù)量較少,對實驗結(jié)果有一定的影響,為了驗證本方法的科學(xué)性和可行性,做了一項補充實驗。 補充實驗中每種動物采用10 條有效聲音。 經(jīng)過篩選,175 個物種中有43種能夠提取出10 條有效聲音。
通過計算和數(shù)據(jù)處理,得到175 種動物的聚類分析譜系圖,如圖1 所示。
圖1 是SPSS 生成的譜系圖,依據(jù)動物之間距離的遠(yuǎn)近進(jìn)行分類。 橫坐標(biāo)表示距離,該距離是將計算出的DTW 距離進(jìn)行標(biāo)準(zhǔn)化轉(zhuǎn)換以后得到的,區(qū)間是0~25(左開右閉區(qū)間,下同)。 當(dāng)從橫坐標(biāo)上取一個點,從該點做一條垂直于橫軸的直線,該線與連接著動物的水平線的交點數(shù)目,就是動物被劃分出的類別數(shù)量。 例如:當(dāng)距離取24 時,有2 個交點,則在這個距離上, 動物被分為兩類, pewee 至chaffinch(指縱軸上由pewee 向下至chaffinch 范圍內(nèi)的所有動物)為一類,dog 至lion 為一類;當(dāng)距離取20 時,有3 個交點,則在這個距離上,動物被劃分為三類,pewee 至macaw 為一類,hamster 至chaffinch為一類,dog 至lion 為一類;當(dāng)距離取13 時,有5 個交點,則在這個距離上,動物被劃分為五類,pewwee至hyena 為一類,alligator 至macaw 為一類,hamster至blackbird 為一類,chaffinch 單獨為一類,dog 至lion 為一類。 另外,單從距離與動物類別的數(shù)量來看,當(dāng)距離為0~1 時,動物被劃分為175 類;距離為1~2 時,劃分為102 類;距離為2 ~3 時,劃分為47類;距離為3~4 時劃,分為25 類;距離為4~5 時,劃分為19 類;距離為5~6 時,劃分為13 類;距離為6~8 時,劃分為9 類;距離為8~9 時,劃分為8 類;距離為9~10 時,劃分為7 類;距離為10 ~11 時,劃分為6 類;距離為11~12 時劃分為14 類;距離為14 ~23時劃分為3 類;距離為23~25 時劃分為2 類。
將圖1 所示的分類結(jié)果與傳統(tǒng)動物分類方法進(jìn)行比較,發(fā)現(xiàn)有許多相吻合之處。 例如, blue jay 和crow 在距離大于1 時,被劃分為一類,它們在傳統(tǒng)的動物分類上都是雀形目鴉科動物;hamster 和mouse 在距離大于1 時,被劃分為一類,它們都是嚙齒目鼠形亞目動物;bobcat 和cheetah 在距離大于1時,被劃分為一類,它們都是食肉目貓科動物;tiger、cougar 和lion 在距離大于2 時,被劃分為一類,它們都是食肉目貓科動物;dog 和coyote 在距離大于3 時,被劃分為一類,它們都是食肉目犬科犬屬動物。
圖1 175 種動物的分類結(jié)果Fig. 1 Classification results of 175 species of animals
同時,更多的是與傳統(tǒng)的動物分類方法相異的地方。 例如:polar bear(屬于哺乳綱)和alligator(屬于爬行綱) 在距離大于1 時,被劃分為一類;hippopotamus(屬于鯨偶蹄目)和camel(屬于偶蹄目)在距離大于1 時,被劃分在一類;elephant(屬于長鼻目)和lemur(屬于靈長目)在距離大于1 時,被劃分在一類。
圖2 顯示的是類別數(shù)量與距離之間的對應(yīng)關(guān)系,以及相應(yīng)的變化趨勢。 可見,距離區(qū)間與類別數(shù)量成負(fù)相關(guān)關(guān)系,距離在0 ~6 區(qū)間時,類別數(shù)量的變化率較大,在6~25 區(qū)間時,變化平緩。 在較小的距離內(nèi),類別數(shù)量產(chǎn)生了較大的變化,說明在動物聲音之間的細(xì)微差異還是比較小。
圖2 175 種動物的類別數(shù)量與距離區(qū)間的關(guān)系Fig. 2 The relationship between the number of categories and the distance interval of 175 species of animals
通過重復(fù)主實驗過程,對動物聲音樣本進(jìn)行計算和數(shù)據(jù)處理之后,得到補充實驗中43 種動物的聚類分析譜系圖。
如圖3 所示,當(dāng)距離為0 ~1 時,動物被劃分為43 類;距離為1 ~2 時,劃分為39 類;距離為2 ~3時,劃分為34 類;距離為3 ~4 時,劃分為25 類;距離為4~5 時,劃分為20 類;距離為5 ~6 時,劃分為17 類;距離為6 ~7 時,劃分為14 類;距離為7 ~8時,劃分為10 類;距離為8~9 時,劃分為8 類;距離為9~10 時,劃分為7 類;距離為10 ~12 時,劃分為6 類,距離為12~13 時,劃分為5 類;距離為13 ~17時,劃分為3 類;距離為17~25 時,劃分為2 類。
從傳統(tǒng)動物分類的角度對圖3 的結(jié)果進(jìn)行了分析,本次補充實驗驗證了本研究所用方法的科學(xué)性。首先,有證據(jù)顯示,在傳統(tǒng)分類中屬于同一科的動物,在研究中隨著聲音數(shù)目的增加,距離更近。 例如:jay 和blue jay 在距離大于5(主實驗為11)時被劃分為同一類,它們都是雀形目鴉科動物;dog 和wolf 在距離大于4(主實驗為9)時被劃分為同一類,它們都是食肉目犬科犬屬動物。 其次,雖然有的動物之間的距離有所拉大,但是還在可以接受的范圍之內(nèi)。 例如:leopard 和jaguar 在距離大于3(主實驗為2)時被劃分為同一類,它們都是食肉目貓科豹屬動物;tiger 和lion 在距離大于3(主實驗為2)時被劃分為同一類,它們都是食肉目貓科豹屬動物;goat 和antelope 在距離大于6(主實驗為3)時被劃分為同一類,它們都是偶蹄目牛科動物。 當(dāng)然,這是以傳統(tǒng)動物分類體系為參照做出的比較,因為是從聲音角度對動物進(jìn)行分類,與傳統(tǒng)分類方法截然不同,但是目前尚無別的辦法。
圖3 43 種動物的分類結(jié)果Fig. 3 Classification results of 175 species of animals
圖4 顯示的是補充實驗中動物類別數(shù)量與距離區(qū)間之間的關(guān)系,與主實驗相比,本圖顯得較為平緩。 在距離較小的區(qū)間內(nèi),類別數(shù)量沒有出現(xiàn)斷崖式的下跌,也反映出聲音內(nèi)部的特征距離比較大,這也可能是由于物種數(shù)量與主實驗相比較少造成的。
圖4 43 種動物的類別數(shù)量與距離區(qū)間的關(guān)系Fig. 4 The relationship between the number of categories and the distance interval of 175 species of animals
統(tǒng)計了鳥類在兩次實驗中的區(qū)分率情況,發(fā)現(xiàn)補充實驗?zāi)軌蚋玫貙ⅧB類與其他動物分開。 在主實驗中,鳥類占總數(shù)的66.28%,當(dāng)只劃分為兩個大類時(即距離大于23),鳥類在第一類中占比為75.52%,在第二類中占比為25%;在補充實驗中,鳥類占總數(shù)的46.51%,只劃分為兩個大類時(即距離大于17),鳥類在第一類中占比為72%,在第二類中占比11.11%。 綜合來看,本研究能夠較好地將鳥類和其他動物區(qū)別開來,尤其是在補充實驗中,第二類里鳥類的占比已經(jīng)非常少了。
本研究使用DTW 算法計算出動物聲音之間的聲學(xué)距離,通過數(shù)據(jù)分析對動物進(jìn)行聚類分析,旨在探索一種新的動物分類維度和方法。 除了主實驗外,還做了補充實驗論證本方法的科學(xué)性。
在主實驗中,當(dāng)距離區(qū)間在較小范圍內(nèi)(0 ~6)時,類別數(shù)量的變化較為劇烈,即當(dāng)距離尺度稍微放大,類別數(shù)量就會大量減少,這說明在動物聲音之間的差別較小,對距離尺度的變化做出的反應(yīng)比較敏感。 在補充實驗中,距離區(qū)間的變化與類別數(shù)量的變化較為平緩,在較小距離區(qū)間也沒有出現(xiàn)類別數(shù)量急劇變化的情況,這說明動物聲音之間的差別比較大,對距離尺度的變化做出的反應(yīng)比較遲鈍。 本文認(rèn)為,在主實驗中,每種動物只有3 條聲音,不能較好地反映該種動物的聲音所具有的區(qū)別于其他動物的特征,所以算法沒有能很好地捕捉到動物聲音體現(xiàn)出的特征,進(jìn)而表現(xiàn)出類別數(shù)量與距離之間較為敏感的對應(yīng);在補充實驗中,每種動物有10 條聲音,聲音數(shù)量的增加,更好地反映出每種動物的聲音特征,使動物之間的區(qū)別更加明顯,距離更大,因此在類別數(shù)量與距離區(qū)間的對應(yīng)上,顯得不那么敏感;另外,本文認(rèn)為與動物種類的數(shù)量有關(guān),主實驗中有175 種動物,補充實驗只有43 種動物,因而在主實驗中,由于基數(shù)較大,當(dāng)在較小的距離區(qū)間內(nèi)時,類別數(shù)量產(chǎn)生了大幅的變化;在補充實驗中,動物數(shù)量較少,類別數(shù)量的變化范圍就會較小。 但是本質(zhì)上還是和動物聲音特征的區(qū)別度有關(guān)。
聲音的物理特征包括音高、音強、音長和音質(zhì)。其中音質(zhì)是聲音的基本屬性,由發(fā)音體、發(fā)音方法和共鳴器決定。 由于哺乳動物和鳥類在共鳴器上存在較大的差別,所以有理由相信在很大程度上,鳥類聲音會與其他動物的聲音有較大差別。 實驗結(jié)果驗證了這一猜想,在主實驗和補充實驗中,鳥類聲音大體上都能與其他動物的聲音區(qū)別開來,并且在補充實驗中這一現(xiàn)象更加明顯。 另外,實驗結(jié)果中對鳥類的劃分與傳統(tǒng)動物分類體系的劃分相差較大,有很多鳥類不是同一科,甚至不是同一目,會在很小的距離內(nèi)被劃分到一起。 相比之下,屬于同一目或同一科的哺乳動物,尤其是貓科和犬科動物,在音質(zhì)上統(tǒng)一性更好,所以被劃分到一起的幾率更大。 這也說明,基于形態(tài)學(xué)方法對動物的劃分,存在聲音維度上的欠缺。
本研究使用的DTW 算法是將動物聲音的頻率(單位:Hz)轉(zhuǎn)化為梅爾刻度(Mel scale,單位:Mel)計算的。 Mel 與Hz 是心理-聲學(xué)相關(guān)的等價單位,它體現(xiàn)的是人耳對聲音的感知,這種感知與聲音的客觀頻率Hz 是非線性對應(yīng)關(guān)系[21]。 在研究中使用梅爾刻度,是立足于從人類聽覺感知的角度對動物進(jìn)行分類。
另外,王士元(1998)曾提出人類學(xué)、遺傳學(xué)和語言學(xué)是一種綜合體,考古、遺傳和語言是了解人類過去歷史的3 個窗口[22],語言的演化能反映人類的發(fā)展。 本文認(rèn)為,從聲學(xué)意義上,動物的聲音蘊含著動物的特征,動物聲音的演化也能反映動物的演化,動物之間聲音的關(guān)系在一定程度上也能揭示動物之間的關(guān)系。 在以后的研究中,應(yīng)該探究距離數(shù)據(jù)所代表的聲音特征,探索其中的聯(lián)系和規(guī)律。
由于傳統(tǒng)的動物分類體系幾乎不考慮動物的聲音,目前沒有與本研究類似的從動物聲音角度對動物進(jìn)行分類的研究結(jié)果可供對比,所以在接下來的研究中應(yīng)該彌補不足,進(jìn)一步驗證研究方法的科學(xué)性,深入挖掘研究的意義。
由于客觀條件的限制,主實驗中涉及175 種動物,每種動物只有3 條聲音,樣本數(shù)量較少。 通過補充實驗發(fā)現(xiàn),通過增加聲音樣本的數(shù)量,會使分類結(jié)果更科學(xué)。 但是,補充實驗中只涉及了43 種動物,動物的物種數(shù)量過少。 在接下來的研究中,應(yīng)該在增加物種數(shù)量的同時,增加每種動物的聲音數(shù)量。另外,對于沒有聲音和聲音較小的物種,比如魚類和小型昆蟲,沒有辦法進(jìn)行分類。
研究中使用的聲音材料下載自不同的網(wǎng)站,聲音質(zhì)量不統(tǒng)一,可能會對研究結(jié)果造成影響。 目前缺少高質(zhì)量、廣博齊全的動物聲音數(shù)據(jù)庫,所以這個問題還沒有辦法很好的解決,只能在篩選聲音的時候更加仔細(xì)。
附錄一動物聲音網(wǎng)站
http:/ /www.animal-sounds.org.
https:/ /www.seaworld.org/animals/sounds.
http:/ /www.findsounds.com/animals.html.
http:/ /www.animalsoundarchive.org.
https:/ /www.naturebits.org.
https:/ /www.freesound.org.
http:/ /www.grsites.com/archive/sounds.
https:/ /www.freesoundeffects.com.