蔣彥廷, 張健鋮
(北京師范大學(xué) a.文學(xué)院 b.信息科學(xué)與技術(shù)學(xué)院,北京 100875)
“中國(guó)風(fēng)”是21世紀(jì)初興起的一種音樂(lè)體式。自2003年由方文山作詞、臺(tái)灣歌手周杰倫演唱的《東風(fēng)破》獲得巨大成功起,華語(yǔ)流行樂(lè)壇刮起了聲勢(shì)浩大的“中國(guó)風(fēng)”。關(guān)于“中國(guó)風(fēng)”概念的界定說(shuō)法頗多,目前的主流觀(guān)點(diǎn)由廣東音樂(lè)人黃曉亮提出,指“三古三新(古詩(shī)文、古文化、古旋律、新唱法、新編曲、新概念)”相結(jié)合的中國(guó)特色樂(lè)種[1]。具體而言,它結(jié)合中國(guó)傳統(tǒng)民間樂(lè)器與現(xiàn)代樂(lè)器,在曲調(diào)上以民族宮調(diào)式為主,最重要的是,其歌詞以傳統(tǒng)詩(shī)詞為辭藻風(fēng)格。
在以往的研究中,研究者們注意到“中國(guó)風(fēng)”歌曲詞匯在多方面的特色。例如,楊杰[2]、張新標(biāo)[3]從詞語(yǔ)選用、修辭技巧、意境營(yíng)造、情感表露等方面,探尋了唐詩(shī)宋詞和現(xiàn)代歌詞的源流關(guān)系。劉芳智[4]3-10等則對(duì)某一“中國(guó)風(fēng)”歌詞作者的作品進(jìn)行了題材分類(lèi)、風(fēng)格評(píng)析,總的來(lái)看,現(xiàn)階段的研究主要是用傳統(tǒng)文學(xué)賞析的辦法,解讀個(gè)別歌曲中的具體字句,尚未運(yùn)用統(tǒng)計(jì)方法展現(xiàn)“中國(guó)風(fēng)”歌詞的宏觀(guān)面貌。而且,研究對(duì)象或是籠統(tǒng)的“中國(guó)風(fēng)”歌曲,或是某位詞作者的歌詞,缺失不同作品之間的比較研究。
在前人的基礎(chǔ)上,我們參考“計(jì)量風(fēng)格學(xué)”中的統(tǒng)計(jì)技術(shù),立足于文本詞匯,對(duì)“中國(guó)風(fēng)”歌詞進(jìn)行全面的計(jì)量分析,比較其與唐宋詩(shī)詞、一般流行歌曲的異同。計(jì)量風(fēng)格學(xué)是以定量的手段,利用文本中可以統(tǒng)計(jì)的語(yǔ)言特征項(xiàng)來(lái)探索文本風(fēng)格的一門(mén)學(xué)科[5],具體包括“余弦相似性”等計(jì)算文本相似度的方法、“信息增益”等挖掘某一類(lèi)別文本特征詞的方法,以及基于監(jiān)督學(xué)習(xí)的文本分類(lèi)算法等。在古詩(shī)詞語(yǔ)料方面,我們以清代蘅塘退士《唐詩(shī)三百首》[6]選本(實(shí)收詩(shī)320首)和朱孝臧《宋詞三百首》[7](第三版選本,實(shí)收詞285首)為唐詩(shī)宋詞的代表;在“中國(guó)風(fēng)”歌曲的語(yǔ)料采集上,我們選取了2003年到2017年2月發(fā)行的來(lái)自62位作者的106首具有古典意味的歌曲歌詞;在一般流行歌曲方面,由于目前還沒(méi)有比較成熟、權(quán)威的中文歌詞語(yǔ)料庫(kù),歌詞語(yǔ)料從網(wǎng)絡(luò)廣泛搜集得到,在排除其中屬于106首“中國(guó)風(fēng)”歌曲的語(yǔ)料后,共得5425首歌的歌詞。
文本預(yù)處理主要包括三項(xiàng)主要操作,一是停用詞(Stop Words)的選取,二是利用分詞系統(tǒng),三是去除標(biāo)點(diǎn)。在計(jì)算文本相似度、選取特征詞任務(wù)中,三項(xiàng)均需進(jìn)行;在文本分類(lèi)任務(wù)中,則只進(jìn)行第二、三項(xiàng)操作。
停用詞指經(jīng)常出現(xiàn)在文本中,卻不承載較多信息量的詞語(yǔ),它們對(duì)文本主題沒(méi)有太多貢獻(xiàn)度,最好的辦法就是在處理文本的過(guò)程中刪除它。我們主要把“有”“無(wú)”“來(lái)”等常用的動(dòng)詞,“上”“下”“中”等方位名詞,“人”“天”等常見(jiàn)的名詞,“和”“及”等連詞,“的”“了”等助詞,“不”等副詞選為歌詞文本、《唐詩(shī)三百首》文本和《宋詞三百首》文本的停用詞。
需說(shuō)明的是,這些詞被停用后,只是不再以詞的身份單獨(dú)出現(xiàn),但仍可以構(gòu)詞語(yǔ)素的身份出現(xiàn),例如“無(wú)情”“佳人”。這樣的合成詞對(duì)于文本內(nèi)容仍具一定意義。
分詞作為中文信息處理基礎(chǔ)工作,是后續(xù)環(huán)節(jié)的前提。一方面,唐宋詩(shī)詞正處于中古漢語(yǔ)到近古漢語(yǔ)的過(guò)渡時(shí)期,漢語(yǔ)主要的詞匯形式逐漸從單音節(jié)過(guò)渡到雙音節(jié)。加之每個(gè)人的語(yǔ)感不同,中古漢語(yǔ)語(yǔ)料庫(kù)常出現(xiàn)人工分詞不一致的現(xiàn)象[8]。這直接影響了建立在人工標(biāo)記基礎(chǔ)上的機(jī)器分詞的準(zhǔn)確率與認(rèn)可度。因此就總體情況來(lái)看,目前還缺乏開(kāi)源且公認(rèn)性能較好的中古漢語(yǔ)分詞系統(tǒng)。
另外,雖然與現(xiàn)代漢語(yǔ)相比,唐詩(shī)宋詞中的單音節(jié)詞較多,一字一詞地切分文本似乎可行。但是,據(jù)胡俊峰、俞士汶[9]等學(xué)者對(duì)語(yǔ)料的觀(guān)察,除多音節(jié)的聯(lián)綿詞、專(zhuān)有名詞外,如“麗人”“寶劍”“悲傷”等偏正、并列結(jié)構(gòu)的多音節(jié)詞已在唐宋詩(shī)詞中大量出現(xiàn)。另外,雖然“白云”“秋風(fēng)”等一般被看作詞組而非凝固的詞,但由于其在古詩(shī)詞中有特定的隱喻象征義,因此也具有詞的性質(zhì)。此外,古詩(shī)詞的許多詞在現(xiàn)代漢語(yǔ)書(shū)面語(yǔ)中也并不鮮見(jiàn)。
最后,由于我們著重分析古詩(shī)詞與現(xiàn)代歌詞在詞匯方面的關(guān)系,在同一任務(wù)下,對(duì)它們使用統(tǒng)一的分詞系統(tǒng)是十分必要的,所以應(yīng)把古詩(shī)詞里處于中間狀態(tài)的組合都暫時(shí)作為詞來(lái)對(duì)待。
基于上述考慮,我們采用中科院計(jì)算所基于多層隱馬爾可夫模型(Hidden Markov Model,HMM)的NLPIR/ICTCLAS2016詞法分析系統(tǒng)(1)來(lái)給各文本分詞。之后,我們?nèi)コ谋局胁槐匾目瞻鬃址?biāo)點(diǎn),對(duì)文本作了清洗。
余弦相似性(Cosine Similarity)是衡量文本相似度的重要方法之一。它基于Salton等人提出的文本向量空間模型(Vector Space Model, VSM)[10]。在VSM模型里,文本可以表示為由各詞語(yǔ)構(gòu)成的特征項(xiàng)集合,每個(gè)特征項(xiàng)都有一定權(quán)重。由此,一個(gè)含有n個(gè)不同詞語(yǔ)的文本可以轉(zhuǎn)化為一個(gè)n維向量d={t1,w1;t2,w2;…… ;ti,wi;……;tn,wn}。其中,ti為文本中的一個(gè)特征(即詞語(yǔ));而ti所對(duì)應(yīng)的權(quán)重wi可以用TF-IDF(Term Frequency-Inverse Document Frequency)方法表示[11]:
wi=tf(ti,d)·idf (ti,d)
=tf(ti,d)·log(N/nt)
tf(ti,d)為詞語(yǔ)ti在特定文本d中出現(xiàn)的頻次;idf(ti,d)為詞語(yǔ)ti的逆文本頻率指數(shù),公式為log(N/nt),N為文本總數(shù),nt是包含詞語(yǔ)ti的文本數(shù)量。
以唐詩(shī)、宋詞中2個(gè)較長(zhǎng)的文本與106首較短的“中國(guó)風(fēng)”歌詞文本并列作為idf值的影響因素,在計(jì)算歌詞與唐詩(shī)、宋詞余弦相似度的具體任務(wù)下有其合理性:古詩(shī)詞文本數(shù)為2,對(duì)idf值影響較??;影響它的關(guān)鍵就是106首歌詞文本。如果一個(gè)詞頻繁出現(xiàn)在許多歌詞文本中,那么它區(qū)別歌詞異質(zhì)性的能力就有所降低,對(duì)于歌詞與古詩(shī)詞之間相似度的貢獻(xiàn)值就應(yīng)降低。而“1唐詩(shī)+1宋詞+106歌詞”的文本分割方式就恰能通過(guò)idf方法實(shí)現(xiàn)這樣的權(quán)重調(diào)節(jié)機(jī)制,從而減少過(guò)于常見(jiàn)的詞語(yǔ)對(duì)文本相似度的干擾。
在計(jì)算出所有詞的idf值后,我們以各詞的tf·idf值作為權(quán)重,將每個(gè)文本向量化??赏ㄟ^(guò)比較向量間的夾角來(lái)反映文本間的距離。向量夾角能較好地處理文本長(zhǎng)度不一致的情況。如果兩個(gè)向量夾角很小,就說(shuō)明它們共現(xiàn)詞較多,用詞趨勢(shì)接近。
我們把《唐詩(shī)三百首》《宋詞三百首》向量化后作為參照,計(jì)算每一個(gè)歌詞向量分別與這兩者的余弦相似度。試驗(yàn)結(jié)果統(tǒng)計(jì)如下表1、2:
表1 “中國(guó)風(fēng)”歌曲與《唐詩(shī)三百首》文本相似度前15位排序表
表2 “中國(guó)風(fēng)”歌曲與《宋詞三百首》文本相似度前15位排序表
綜合上面表1、2及有關(guān)實(shí)驗(yàn)數(shù)據(jù),值得注意的有兩處:
一是表1出現(xiàn)的15首歌曲有7首仍保留在表2;表1的前5首歌曲有4首在表2中仍保持在同樣區(qū)間,說(shuō)明這些“中國(guó)風(fēng)”歌詞在創(chuàng)作中有意或無(wú)意地同時(shí)靠近唐詩(shī)、宋詞的用語(yǔ)。
二是歌詞普遍更接近于《宋詞三百首》。一方面,若計(jì)算余弦相似度的平均值,表1的15首歌詞與唐詩(shī)的平均相似度為0.129,而表2中15首歌詞與宋詞的平均相似度卻達(dá)到0.153;另一方面,若將樣本元素?cái)U(kuò)大到106首“中國(guó)風(fēng)”歌詞,它們與《唐詩(shī)三百首》的平均相似度為0.073,與《宋詞三百首》則達(dá)到0.083;此外,與宋詞相似度超過(guò)與唐詩(shī)相似度的歌詞,在106例中達(dá)78例,占比超過(guò)73%。由于在去除停用詞、分詞環(huán)節(jié)之后,唐詩(shī)、宋詞的文本長(zhǎng)度已較為接近(前者為17213字,后者為19299字),加之余弦相似度能較好地避免較大規(guī)模語(yǔ)料間在長(zhǎng)度上細(xì)微差異的影響,由此可以認(rèn)為,相較于唐詩(shī),中國(guó)風(fēng)歌詞總體更傾向?qū)W習(xí)借鑒《宋詞三百首》中的詞匯。
承續(xù)宋詞的典型,就是《長(zhǎng)安憶》的歌詞。它在表1、2中均位居首位,在有限的篇幅里,將羈旅送別、思鄉(xiāng)懷人、邊塞戰(zhàn)爭(zhēng)等古詩(shī)詞經(jīng)典的類(lèi)型場(chǎng)景描繪得精致細(xì)膩。歌詞與《宋詞三百首》文本的共現(xiàn)單音節(jié)詞41個(gè),雙音節(jié)詞32個(gè),總計(jì)73個(gè),具體如下表3所示:
表3 《長(zhǎng)安憶》與《宋詞三百首》的共現(xiàn)詞
歌詞用典、化用詩(shī)詞之處甚為豐富。其中的片段“落日孤城閉,燕然歸無(wú)計(jì)”“二十三弦急,落花人獨(dú)立”“長(zhǎng)門(mén)又誤佳期,聲清凄”“知音稀,弦斷有誰(shuí)來(lái)聽(tīng)”明顯分別語(yǔ)出范仲淹《漁家傲》、晏幾道《臨江仙》、辛棄疾《摸魚(yú)兒》、岳飛《小重山》等詞作。歌詞里的“子規(guī)”即杜鵑鳥(niǎo)的別名,因其叫聲凄厲,在古詩(shī)詞中常作為借來(lái)抒發(fā)悲苦哀怨之情;“留意”表示“駐留的意愿”,與現(xiàn)代漢語(yǔ)中的同形動(dòng)詞意義不同;除了借鑒實(shí)詞,語(yǔ)氣詞“兮”也帶有明顯的仿古色彩。
該任務(wù)試圖挖掘“中國(guó)風(fēng)”歌曲承續(xù)自唐詩(shī)宋詞,且較能區(qū)別于一般流行歌曲的特色詞匯。具體步驟為,首先檢索出1936個(gè)“中國(guó)風(fēng)”歌詞與《唐詩(shī)三百首》《宋詞三百首》共現(xiàn)的不重復(fù)詞型;其次,從中過(guò)濾掉在5425首一般流行歌曲中分布頻率更高的詞匯,保留1651個(gè)詞型;最后,在“106個(gè)中國(guó)風(fēng)文本/5425個(gè)一般流行歌曲文本”兩個(gè)類(lèi)別中提取包含在這些詞型中的特征詞。
在文本分類(lèi)中,常用的特征選擇方法有互信息(MI)、信息增益(IG)、文檔頻率(DF)和卡方檢驗(yàn)(CHI)等。Yang等[13]比較了4種方法,認(rèn)為卡方檢驗(yàn)(CHI)和信息增益(IG)的效果最佳。單麗莉等[14]指出信息增益的不足之處,在于它考慮了詞語(yǔ)不出現(xiàn)在某類(lèi)文檔中對(duì)類(lèi)別的影響。雖然某個(gè)詞語(yǔ)不出現(xiàn)可能有助于判斷文本類(lèi)別,但實(shí)驗(yàn)證明,這種考慮的干擾性更大。為避免單一方法的片面性,我們采用卡方檢驗(yàn)和改進(jìn)后的信息增益兩種方法選擇特征詞。對(duì)于卡方檢驗(yàn),設(shè)文本總數(shù)為N,某詞語(yǔ)wi和某類(lèi)別Ci之間的關(guān)聯(lián)度可由卡方值χ2體現(xiàn)。首先計(jì)算四個(gè)觀(guān)察值:包含特征詞wi且屬于類(lèi)別Ci的文本數(shù),記為A;包含特征詞wi但不屬于類(lèi)別Ci的文本數(shù),記為B;不含特征詞wi但屬于類(lèi)別Ci的文本數(shù),記為C;不含特征詞wi且不屬于類(lèi)別Ci的文本數(shù),記為D。則:
對(duì)于改進(jìn)后的信息增益方法,某詞語(yǔ)wi對(duì)于文本類(lèi)別的區(qū)分能力可由IG(wi)衡量。有:
其中m為文本類(lèi)別數(shù);p(Ci)為某一類(lèi)別的文本出現(xiàn)的概率;p(wi)是文本數(shù)據(jù)集中出現(xiàn)詞語(yǔ)wi的文本數(shù)除以總文本數(shù)的值;p(Ci/wi)是類(lèi)型Ci中出現(xiàn)詞語(yǔ)wi的文本數(shù)除以出現(xiàn)詞語(yǔ)wi的總文本數(shù)。如上式所示,改進(jìn)后的信息增益方法不考慮詞語(yǔ)在文本中未出現(xiàn)的情況。
分別按照卡方檢驗(yàn)、信息增益值,我們就得到兩份特征詞的降序排序表。其各自前20位特征詞如表4所示。對(duì)兩種方法所得的前300個(gè)特征取并集,就得到一個(gè)含有406個(gè)特征詞的集合U。
由特征值位列前20的詞語(yǔ)可以管窺,盡管兩種特征選取的方法對(duì)詞語(yǔ)的排序有所不同,但都取得了良好效果,能把在“中國(guó)風(fēng)”歌詞與唐詩(shī)宋詞中共現(xiàn),且在“中國(guó)風(fēng)”歌曲中常見(jiàn)、在一般流行歌曲中不常見(jiàn)的詞語(yǔ)挖掘出來(lái),相得益彰。綜合表4及相關(guān)數(shù)據(jù)我們可以看出,“中國(guó)風(fēng)”特征詞在詞類(lèi)、話(huà)題等方面呈現(xiàn)如下特征:
如表4所示的40個(gè)詞中,雙音節(jié)詞達(dá)12個(gè),占比30%。在含406個(gè)特征詞的集合U中,雙音節(jié)詞達(dá)144個(gè),占比約35%。由于這些詞也都出現(xiàn)在《唐詩(shī)三百首》《宋詞三百首》中,因此也可以佐證唐宋時(shí)期漢語(yǔ)詞匯雙音節(jié)化的趨勢(shì)。
如表4所示,在卡方檢驗(yàn)的前20位特征詞中,名詞有18個(gè),占比90%;在信息增益的前20位特征詞中,名詞有15個(gè),占比75%;視野擴(kuò)大到含406個(gè)特征詞的集合U,名詞有263個(gè),占比也超過(guò)64%。具體而言,“中國(guó)風(fēng)”歌詞偏好繼承古詩(shī)詞中以下幾大類(lèi)名詞:
表4 “中國(guó)風(fēng)”歌詞中特征值前20位的詞語(yǔ)表
(1)自然景觀(guān)名詞。其包括兩大類(lèi),一是自然、氣候現(xiàn)象類(lèi),二是動(dòng)植物尤其是花卉類(lèi)。前者如表4中的“風(fēng)月”,以及集合U中的“江”“雪”“煙”“雨”“風(fēng)”“塵”“溪”“山水”“落日”“煙波”“月色”“月華”“殘雪”“風(fēng)露”等。后者如表4中的“苔”“梨花”“芳草”“落花”,以及集合U中的“鶯”“鴻”“鵲”“燕”“鶴”“柳”“?!薄昂伞薄苞p鴣”“柳絮”“飛絮”“芙蓉”“桃花”“寒梅”“幽篁”“芭蕉”等。這些詞作為古典文學(xué)作品中的意象,大都具有清新自然之美。
(2)與時(shí)令、時(shí)間有關(guān)的詞。這一類(lèi)以雙音節(jié)詞居多,如集合U中的“秋”“黃昏”“暮春”“歲歲”“時(shí)節(jié)”“三月”“今朝”“前朝”“當(dāng)年”“今生”“千古”“三生”等。這些詞有的囊括較長(zhǎng)的時(shí)間段乃至一生,以此表達(dá)感情之強(qiáng)烈,起到“作決絕語(yǔ)而妙”的表意效果;有的起到撫今追昔的功能,通過(guò)懷念過(guò)去,拓展歌詞意境的時(shí)間維度,展現(xiàn)情緒之綿長(zhǎng);而時(shí)令詞“秋”“暮春”和“黃昏”有蕭瑟的特征,易引起人的愁緒。
(3)中國(guó)傳統(tǒng)文化物件。如表4中的“筆”“墨”“亭”“錦”“燭”“絲竹”“琵琶”,以及未上表的特征詞“玉”“琴”“硯”“觴”“舫”“弦”“笙”“劍”“紅燭”“羽扇”“燈花”“回廊”“樓閣”“錦屏”“錦瑟”“笙歌”“檀板”等。這些物品有的涉及琴棋書(shū)畫(huà)等技藝,或?qū)俟糯ㄖ揖拥慕M成部分,在現(xiàn)今不常見(jiàn),屬于中國(guó)傳統(tǒng)文化物件,帶有精致、古雅的特色。
例如表4中的“落”“斷”,以及集合U中的動(dòng)詞“離”“泣”“嘆”“送別”“別離”“思量”“相思”“飲恨”“無(wú)眠”“落淚”“遙想”,形容詞“愁”“寒”“孤”“瘦”“悵然”“飄零”“倉(cāng)皇”等。雖然哀傷的主題也常見(jiàn)于如今一般的流行歌曲,但它們對(duì)上述詞語(yǔ)的運(yùn)用不及“中國(guó)風(fēng)”歌曲頻繁。
許多“中國(guó)風(fēng)”的歌詞均離不開(kāi)美人、婚戀話(huà)題,也借鑒了古詩(shī)詞中的許多相關(guān)詞匯。具體而言包括三個(gè)方面,一是關(guān)于美人及其衣飾妝容的稱(chēng)呼,如表4中及其他特征值較高的“眉”“裳”“伊”“妃”“佳人”“良人”“美人”“女子”“紅袖”“紅顏”“霓裳”;二是與女子日常起居有關(guān)的詞;三是形容女子心理、儀態(tài)、動(dòng)作及其與戀人互動(dòng)的詞。二、三類(lèi)與前文所述的名詞、動(dòng)詞、形容詞存在一定交叉,但又含獨(dú)具特色的部分。例如前者的“釵”“簾”“梳”“深閨”“畫(huà)屏”“脂粉”等。后者的“顰”“蹙(眉)”“嫣然”“心事”“脈脈”“回眸”“攜手”“多情”等。
統(tǒng)觀(guān)“中國(guó)風(fēng)”歌詞與唐詩(shī)宋詞共現(xiàn)、且區(qū)別于一般流行歌曲的詞匯,“中國(guó)風(fēng)”歌曲的一大傾向,是以江南閨閣為背景,以婚戀離愁為題材,意境大多溫婉清雅,部分帶有蕭瑟清凄的色彩。它們主要繼承自唐詩(shī)宋詞中善于狀物寫(xiě)情的婉約流派,而對(duì)具有宏闊、豪放風(fēng)格的一類(lèi)詩(shī)詞承續(xù)較少。
文本分類(lèi)(text clustering)是通過(guò)比較一組文本的相似性,將比較相似的文本歸為同一組、差異較大的文本歸為不同組的過(guò)程。已知在第二節(jié)得到了各“中國(guó)風(fēng)”歌詞與唐詩(shī)宋詞的相似性,我們選取了與唐詩(shī)、宋詞相似度之和最高的前100首歌曲,以及通過(guò)隨機(jī)數(shù)抽樣的100首一般流行歌曲作為分類(lèi)對(duì)象。
分類(lèi)的方法為K近鄰(K-nearest-neighbor,KNN)算法。其基本原理是,給定一個(gè)已經(jīng)具有分類(lèi)標(biāo)記的訓(xùn)練數(shù)據(jù)集并向量化,對(duì)于新的輸入實(shí)例,在向量空間中計(jì)算出與該實(shí)例距離最小的K個(gè)實(shí)例。若這K個(gè)實(shí)例多數(shù)屬于某類(lèi)別,就應(yīng)把該實(shí)例歸入這個(gè)類(lèi)中[15]38-40。
我們令K值為8,選取兩項(xiàng)分類(lèi)指標(biāo):一是利用上一節(jié)得到的含406個(gè)特征詞的集合U,計(jì)算歌詞里出現(xiàn)在集合U中的詞數(shù),占歌詞總詞數(shù)的比例;二是每個(gè)文本的助詞、連詞、介詞、語(yǔ)氣詞等虛詞的比例。為使對(duì)分類(lèi)效果的評(píng)價(jià)更加準(zhǔn)確,避免數(shù)據(jù)分布不均,進(jìn)行五折交叉驗(yàn)證(5-fold cross validation),即將200首歌曲分類(lèi)對(duì)象均分為5份,輪流將其中4份作為訓(xùn)練集,剩下的1份(40首)作為測(cè)試集,分別記錄5次實(shí)驗(yàn)的精確率(precision)、召回率(recall)、F值(2)。歷次實(shí)驗(yàn)效果及平均效果如圖1所示:
根據(jù)圖3,首先觀(guān)察5次實(shí)驗(yàn)的平均性能。F平均值達(dá)到了92.49%,說(shuō)明憑借虛詞和集合U中的406個(gè)詞(以下簡(jiǎn)稱(chēng)“古典詞”)的出現(xiàn)頻率2項(xiàng)指標(biāo),能夠大體上區(qū)分“中國(guó)風(fēng)”與“非中國(guó)風(fēng)”類(lèi)別的歌詞。如前所述,“中國(guó)風(fēng)”歌詞與唐詩(shī)宋詞的詞匯同質(zhì)性頗為顯著。而古代文學(xué)家、評(píng)論家很早就表達(dá)了對(duì)古詩(shī)詞中使用虛詞(字)的審慎態(tài)度。唐代詩(shī)人盧延讓在《苦吟》中說(shuō)詩(shī)“不同文賦易,為著者之乎”,即作詩(shī)不像文賦那樣可以相對(duì)自由地使用“者之乎”等意義較虛的字;明代謝榛也在《四溟詩(shī)話(huà)》卷一中引李西涯語(yǔ):“詩(shī)用實(shí)字易,用虛字難……用之不善,則柔弱緩散,不復(fù)可振?!盵16]9傳統(tǒng)詩(shī)詞受到格律體式的限制,對(duì)虛詞的使用較為拘謹(jǐn),“中國(guó)風(fēng)”歌曲要接近傳統(tǒng)語(yǔ)體風(fēng)格,亦需把虛詞維持在較低的比例。然而自新文化運(yùn)動(dòng)起,以胡適《嘗試集》為代表的新詩(shī),在突破舊有詩(shī)詞體式規(guī)則的同時(shí),也頻繁讓虛詞入詩(shī),極大地改變了其原有詞類(lèi)構(gòu)成[17]。以“古典詞”為代表的詞匯,也是“中國(guó)風(fēng)”富有古詩(shī)詞韻味、在紛繁的現(xiàn)代華語(yǔ)樂(lè)壇上獨(dú)樹(shù)一幟的重要計(jì)量特征。
另外也需看到,個(gè)別驗(yàn)證的精確率、召回率不高。除了語(yǔ)料相對(duì)較少、數(shù)據(jù)較為稀疏的因素,更主要的原因,第一,“中國(guó)風(fēng)”在追求仿古意境的同時(shí),為避免晦澀不易為大眾接受,也不排斥文白夾雜的語(yǔ)句。即使是前文所列的與唐詩(shī)、宋詞相似度較高的《花滿(mǎn)樓》歌詞,其中也有“樓滿(mǎn)花香君知否”與“曾經(jīng)牽著我的手”這樣文言白話(huà)異質(zhì)語(yǔ)體共存的現(xiàn)象。
第二,誠(chéng)然此類(lèi)歌曲總體上多有借鑒古詩(shī)詞中的典型意象和描摹情態(tài)的謂語(yǔ),但具體到不同作者、不同歌詞,仿古擬古的程度也有所差異。例如許嵩在詞作中使用的傳統(tǒng)意象一般就比詞作者后弦的更加密集?!爸袊?guó)風(fēng)”歌詞作者的典型代表方文山認(rèn)為,只要詞曲具備古典背景元素的用語(yǔ)及其他某些特征,“不論加入元素的多寡或比重為何,均可視同為所謂的‘中國(guó)風(fēng)’歌曲”[18]3-13。其論述是否完全合理固然有待商榷,但該觀(guān)點(diǎn)也從一個(gè)側(cè)面指出“中國(guó)風(fēng)”并非千篇一律。
第三,在20世紀(jì)后半葉,樂(lè)曲層面上的“中國(guó)風(fēng)”概念尚未被明確提出,但一些流行歌曲的歌詞卻已帶有鮮明的傳統(tǒng)詩(shī)詞色彩。例如本分類(lèi)實(shí)驗(yàn)中的歌詞《梨渦淺笑》。它由香港填詞家黎彼得于1976年創(chuàng)作,古典詞占比高達(dá)24.03%,虛詞占比僅為7.69%,與大部分“中國(guó)風(fēng)”歌詞一樣具有較高古典詞比例和較低虛詞比例的表征,在分類(lèi)測(cè)試中就被預(yù)測(cè)為“中國(guó)風(fēng)”類(lèi)別。相似的歌曲還包括瓊瑤于1975年作詞的《在水一方》、陳小奇1993年作詞的《濤聲依舊》等??v然幾乎沒(méi)有人認(rèn)為這些創(chuàng)作時(shí)間較早的作品亦屬“中國(guó)風(fēng)”范疇,但它們?cè)诟柙~層面的確已具備如今“中國(guó)風(fēng)”歌曲的某些突出特點(diǎn)。一些相關(guān)研究者曾注意到這種矛盾,提出通過(guò)添加時(shí)間、外來(lái)文化沖擊的背景等限制性條件,以更新“中國(guó)風(fēng)”的定義,縮小此概念的外延[18]6-7。這些限制性條件誠(chéng)為一家之言,然已不再是本文的討論范疇,還有待今后學(xué)界對(duì)其合理性、可行性的進(jìn)一步探究。
本文從詞匯角度,運(yùn)用計(jì)量風(fēng)格學(xué)的統(tǒng)計(jì)方法,探索了“中國(guó)風(fēng)”歌曲對(duì)《唐詩(shī)三百首》《宋詞三百首》的承續(xù)情況,以及它們區(qū)別于一般流行歌詞的顯著特征。通過(guò)余弦相似度,得到與《唐詩(shī)三百首》《宋詞三百首》相近的歌詞文本,得出中國(guó)風(fēng)歌詞更接近宋詞用語(yǔ)的結(jié)論;并基于古今文本詞匯的共現(xiàn)與進(jìn)一步的特征選擇,梳理“中國(guó)風(fēng)”文本承續(xù)自古詩(shī)詞的重要詞類(lèi)、話(huà)題,總結(jié)此類(lèi)歌詞的風(fēng)格偏好;通過(guò)K-最近鄰分類(lèi)實(shí)驗(yàn),發(fā)現(xiàn)較低的虛詞比率與較高的古典詞比率兩項(xiàng)指標(biāo)能,大體上使“中國(guó)風(fēng)”歌曲從浩如煙海的現(xiàn)代華語(yǔ)樂(lè)曲中相對(duì)獨(dú)立出來(lái)。統(tǒng)計(jì)方法能使原本不引人注目、捉摸不定的文本風(fēng)格得以突顯,在傳統(tǒng)文本分析的基礎(chǔ)上獲得了實(shí)證數(shù)據(jù)的有力支撐,從而能更全面地反映出“中國(guó)風(fēng)”歌曲詞匯的面貌,討論它們與古詩(shī)詞、一般性的現(xiàn)代流行歌曲之間的關(guān)系,為今后相關(guān)文藝創(chuàng)作提供了一定的實(shí)證支持。
不過(guò),《唐詩(shī)三百首》《宋詞三百首》作為中國(guó)古典文學(xué)的精華,仍不能囊括古代文學(xué)的總體面貌。“中國(guó)風(fēng)”歌曲對(duì)其他作品的承續(xù)狀況尚未得呈現(xiàn)。另外,文本之間可能存在的少數(shù)同形異義詞還有待仔細(xì)甄別。最后,“中國(guó)風(fēng)”與早期(20世紀(jì)后半葉)一些具有鮮明傳統(tǒng)詩(shī)詞色彩的流行歌曲之間的異同還不及充分探索。這些問(wèn)題有待在將來(lái)作更深入的研究與討論,從而使“中國(guó)風(fēng)”歌曲的面貌與定位更全面、清晰地揭示出來(lái)。
注釋?zhuān)?/p>
(1)ICTCLAS/NLPIR詞法分析系統(tǒng)參見(jiàn):http://ictclas.nlpir.org/。
(2)精確率、召回率、F值是用于分類(lèi)效果的三個(gè)指標(biāo)。在二分類(lèi)問(wèn)題中,常以關(guān)注的類(lèi)為正類(lèi);其余的為負(fù)類(lèi)。
精確率(P) = 將正類(lèi)預(yù)測(cè)為正類(lèi)的文檔數(shù) / 所有預(yù)測(cè)為正類(lèi)的文檔數(shù)。
召回率(R) = 將正類(lèi)預(yù)測(cè)為正類(lèi)的文檔數(shù) / 正類(lèi)文檔的真實(shí)總數(shù)。
F值是精確率和召回率的調(diào)和均值。有:2/F=1/P+1/R