亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于統(tǒng)計分析的“中國風”歌曲詞匯研究

2018-09-26 10:43:34蔣彥廷張健鋮

成都理工大學學報(社會科學版) 2018年5期

蔣彥廷，張健鋮

(北京師范大學 a.文學院 b.信息科學與技術(shù)學院，北京 100875)

一、引言

“中國風”是21世紀初興起的一種音樂體式。自2003年由方文山作詞、臺灣歌手周杰倫演唱的《東風破》獲得巨大成功起，華語流行樂壇刮起了聲勢浩大的“中國風”。關(guān)于“中國風”概念的界定說法頗多，目前的主流觀點由廣東音樂人黃曉亮提出，指“三古三新(古詩文、古文化、古旋律、新唱法、新編曲、新概念)”相結(jié)合的中國特色樂種[1]。具體而言，它結(jié)合中國傳統(tǒng)民間樂器與現(xiàn)代樂器，在曲調(diào)上以民族宮調(diào)式為主，最重要的是，其歌詞以傳統(tǒng)詩詞為辭藻風格。

在以往的研究中，研究者們注意到“中國風”歌曲詞匯在多方面的特色。例如，楊杰[2]、張新標[3]從詞語選用、修辭技巧、意境營造、情感表露等方面，探尋了唐詩宋詞和現(xiàn)代歌詞的源流關(guān)系。劉芳智[4]3-10等則對某一“中國風”歌詞作者的作品進行了題材分類、風格評析，總的來看，現(xiàn)階段的研究主要是用傳統(tǒng)文學賞析的辦法，解讀個別歌曲中的具體字句，尚未運用統(tǒng)計方法展現(xiàn)“中國風”歌詞的宏觀面貌。而且，研究對象或是籠統(tǒng)的“中國風”歌曲，或是某位詞作者的歌詞，缺失不同作品之間的比較研究。

在前人的基礎(chǔ)上，我們參考“計量風格學”中的統(tǒng)計技術(shù)，立足于文本詞匯，對“中國風”歌詞進行全面的計量分析，比較其與唐宋詩詞、一般流行歌曲的異同。計量風格學是以定量的手段，利用文本中可以統(tǒng)計的語言特征項來探索文本風格的一門學科[5]，具體包括“余弦相似性”等計算文本相似度的方法、“信息增益”等挖掘某一類別文本特征詞的方法，以及基于監(jiān)督學習的文本分類算法等。在古詩詞語料方面，我們以清代蘅塘退士《唐詩三百首》[6]選本(實收詩320首)和朱孝臧《宋詞三百首》[7](第三版選本，實收詞285首)為唐詩宋詞的代表；在“中國風”歌曲的語料采集上，我們選取了2003年到2017年2月發(fā)行的來自62位作者的106首具有古典意味的歌曲歌詞；在一般流行歌曲方面，由于目前還沒有比較成熟、權(quán)威的中文歌詞語料庫，歌詞語料從網(wǎng)絡(luò)廣泛搜集得到，在排除其中屬于106首“中國風”歌曲的語料后，共得5425首歌的歌詞。

二、文本預(yù)處理

文本預(yù)處理主要包括三項主要操作，一是停用詞(Stop Words)的選取，二是利用分詞系統(tǒng)，三是去除標點。在計算文本相似度、選取特征詞任務(wù)中，三項均需進行；在文本分類任務(wù)中，則只進行第二、三項操作。

(一)停用詞的選取

停用詞指經(jīng)常出現(xiàn)在文本中，卻不承載較多信息量的詞語，它們對文本主題沒有太多貢獻度，最好的辦法就是在處理文本的過程中刪除它。我們主要把“有”“無”“來”等常用的動詞，“上”“下”“中”等方位名詞，“人”“天”等常見的名詞，“和”“及”等連詞，“的”“了”等助詞，“不”等副詞選為歌詞文本、《唐詩三百首》文本和《宋詞三百首》文本的停用詞。

需說明的是，這些詞被停用后，只是不再以詞的身份單獨出現(xiàn)，但仍可以構(gòu)詞語素的身份出現(xiàn)，例如“無情”“佳人”。這樣的合成詞對于文本內(nèi)容仍具一定意義。

(二)利用NLPIR / ICTCLAS系統(tǒng)分詞并去除標點

分詞作為中文信息處理基礎(chǔ)工作，是后續(xù)環(huán)節(jié)的前提。一方面，唐宋詩詞正處于中古漢語到近古漢語的過渡時期，漢語主要的詞匯形式逐漸從單音節(jié)過渡到雙音節(jié)。加之每個人的語感不同，中古漢語語料庫常出現(xiàn)人工分詞不一致的現(xiàn)象[8]。這直接影響了建立在人工標記基礎(chǔ)上的機器分詞的準確率與認可度。因此就總體情況來看，目前還缺乏開源且公認性能較好的中古漢語分詞系統(tǒng)。

另外，雖然與現(xiàn)代漢語相比，唐詩宋詞中的單音節(jié)詞較多，一字一詞地切分文本似乎可行。但是，據(jù)胡俊峰、俞士汶[9]等學者對語料的觀察，除多音節(jié)的聯(lián)綿詞、專有名詞外，如“麗人”“寶劍”“悲傷”等偏正、并列結(jié)構(gòu)的多音節(jié)詞已在唐宋詩詞中大量出現(xiàn)。另外，雖然“白云”“秋風”等一般被看作詞組而非凝固的詞，但由于其在古詩詞中有特定的隱喻象征義，因此也具有詞的性質(zhì)。此外，古詩詞的許多詞在現(xiàn)代漢語書面語中也并不鮮見。

最后，由于我們著重分析古詩詞與現(xiàn)代歌詞在詞匯方面的關(guān)系，在同一任務(wù)下，對它們使用統(tǒng)一的分詞系統(tǒng)是十分必要的，所以應(yīng)把古詩詞里處于中間狀態(tài)的組合都暫時作為詞來對待。

基于上述考慮，我們采用中科院計算所基于多層隱馬爾可夫模型(Hidden Markov Model，HMM)的NLPIR/ICTCLAS2016詞法分析系統(tǒng)(1)來給各文本分詞。之后，我們?nèi)コ谋局胁槐匾目瞻鬃址?、標點，對文本作了清洗。

三、“中國風”歌詞與唐詩宋詞相似度的計算分析

(一)余弦相似性方法

余弦相似性(Cosine Similarity)是衡量文本相似度的重要方法之一。它基于Salton等人提出的文本向量空間模型(Vector Space Model, VSM)[10]。在VSM模型里，文本可以表示為由各詞語構(gòu)成的特征項集合，每個特征項都有一定權(quán)重。由此，一個含有n個不同詞語的文本可以轉(zhuǎn)化為一個n維向量d={t1,w1;t2,w2;…… ;ti,wi;……;tn,wn}。其中，ti為文本中的一個特征(即詞語)；而ti所對應(yīng)的權(quán)重wi可以用TF-IDF(Term Frequency-Inverse Document Frequency)方法表示[11]：

wi=tf(ti,d)·idf (ti,d)

=tf(ti,d)·log(N/nt)

tf(ti,d)為詞語ti在特定文本d中出現(xiàn)的頻次；idf(ti,d)為詞語ti的逆文本頻率指數(shù)，公式為log(N/nt)，N為文本總數(shù)，nt是包含詞語ti的文本數(shù)量。

以唐詩、宋詞中2個較長的文本與106首較短的“中國風”歌詞文本并列作為idf值的影響因素，在計算歌詞與唐詩、宋詞余弦相似度的具體任務(wù)下有其合理性：古詩詞文本數(shù)為2，對idf值影響較??；影響它的關(guān)鍵就是106首歌詞文本。如果一個詞頻繁出現(xiàn)在許多歌詞文本中，那么它區(qū)別歌詞異質(zhì)性的能力就有所降低，對于歌詞與古詩詞之間相似度的貢獻值就應(yīng)降低。而“1唐詩+1宋詞+106歌詞”的文本分割方式就恰能通過idf方法實現(xiàn)這樣的權(quán)重調(diào)節(jié)機制，從而減少過于常見的詞語對文本相似度的干擾。

在計算出所有詞的idf值后，我們以各詞的tf·idf值作為權(quán)重，將每個文本向量化?？赏ㄟ^比較向量間的夾角來反映文本間的距離。向量夾角能較好地處理文本長度不一致的情況。如果兩個向量夾角很小，就說明它們共現(xiàn)詞較多，用詞趨勢接近。

(二)相似度計算結(jié)果與實例分析

我們把《唐詩三百首》《宋詞三百首》向量化后作為參照，計算每一個歌詞向量分別與這兩者的余弦相似度。試驗結(jié)果統(tǒng)計如下表1、2：

表1 “中國風”歌曲與《唐詩三百首》文本相似度前15位排序表

表2 “中國風”歌曲與《宋詞三百首》文本相似度前15位排序表

綜合上面表1、2及有關(guān)實驗數(shù)據(jù)，值得注意的有兩處：

一是表1出現(xiàn)的15首歌曲有7首仍保留在表2；表1的前5首歌曲有4首在表2中仍保持在同樣區(qū)間，說明這些“中國風”歌詞在創(chuàng)作中有意或無意地同時靠近唐詩、宋詞的用語。

二是歌詞普遍更接近于《宋詞三百首》。一方面，若計算余弦相似度的平均值，表1的15首歌詞與唐詩的平均相似度為0.129，而表2中15首歌詞與宋詞的平均相似度卻達到0.153；另一方面，若將樣本元素擴大到106首“中國風”歌詞，它們與《唐詩三百首》的平均相似度為0.073，與《宋詞三百首》則達到0.083；此外，與宋詞相似度超過與唐詩相似度的歌詞，在106例中達78例，占比超過73%。由于在去除停用詞、分詞環(huán)節(jié)之后，唐詩、宋詞的文本長度已較為接近(前者為17213字，后者為19299字)，加之余弦相似度能較好地避免較大規(guī)模語料間在長度上細微差異的影響，由此可以認為，相較于唐詩，中國風歌詞總體更傾向?qū)W習借鑒《宋詞三百首》中的詞匯。

承續(xù)宋詞的典型，就是《長安憶》的歌詞。它在表1、2中均位居首位，在有限的篇幅里，將羈旅送別、思鄉(xiāng)懷人、邊塞戰(zhàn)爭等古詩詞經(jīng)典的類型場景描繪得精致細膩。歌詞與《宋詞三百首》文本的共現(xiàn)單音節(jié)詞41個，雙音節(jié)詞32個，總計73個，具體如下表3所示：

表3 《長安憶》與《宋詞三百首》的共現(xiàn)詞

歌詞用典、化用詩詞之處甚為豐富。其中的片段“落日孤城閉，燕然歸無計”“二十三弦急，落花人獨立”“長門又誤佳期，聲清凄”“知音稀，弦斷有誰來聽”明顯分別語出范仲淹《漁家傲》、晏幾道《臨江仙》、辛棄疾《摸魚兒》、岳飛《小重山》等詞作。歌詞里的“子規(guī)”即杜鵑鳥的別名，因其叫聲凄厲，在古詩詞中常作為借來抒發(fā)悲苦哀怨之情；“留意”表示“駐留的意愿”，與現(xiàn)代漢語中的同形動詞意義不同；除了借鑒實詞，語氣詞“兮”也帶有明顯的仿古色彩。

四、“中國風”歌曲借鑒自唐詩宋詞的特征詞匯提取

該任務(wù)試圖挖掘“中國風”歌曲承續(xù)自唐詩宋詞，且較能區(qū)別于一般流行歌曲的特色詞匯。具體步驟為，首先檢索出1936個“中國風”歌詞與《唐詩三百首》《宋詞三百首》共現(xiàn)的不重復詞型；其次，從中過濾掉在5425首一般流行歌曲中分布頻率更高的詞匯，保留1651個詞型；最后，在“106個中國風文本/5425個一般流行歌曲文本”兩個類別中提取包含在這些詞型中的特征詞。

在文本分類中,常用的特征選擇方法有互信息(MI)、信息增益(IG)、文檔頻率(DF)和卡方檢驗(CHI)等。Yang等[13]比較了4種方法，認為卡方檢驗(CHI)和信息增益(IG)的效果最佳。單麗莉等[14]指出信息增益的不足之處，在于它考慮了詞語不出現(xiàn)在某類文檔中對類別的影響。雖然某個詞語不出現(xiàn)可能有助于判斷文本類別，但實驗證明，這種考慮的干擾性更大。為避免單一方法的片面性，我們采用卡方檢驗和改進后的信息增益兩種方法選擇特征詞。對于卡方檢驗，設(shè)文本總數(shù)為N，某詞語wi和某類別Ci之間的關(guān)聯(lián)度可由卡方值χ2體現(xiàn)。首先計算四個觀察值：包含特征詞wi且屬于類別Ci的文本數(shù)，記為A;包含特征詞wi但不屬于類別Ci的文本數(shù)，記為B；不含特征詞wi但屬于類別Ci的文本數(shù)，記為C；不含特征詞wi且不屬于類別Ci的文本數(shù)，記為D。則：

對于改進后的信息增益方法，某詞語wi對于文本類別的區(qū)分能力可由IG(wi)衡量。有：

其中m為文本類別數(shù)；p(Ci)為某一類別的文本出現(xiàn)的概率；p(wi)是文本數(shù)據(jù)集中出現(xiàn)詞語wi的文本數(shù)除以總文本數(shù)的值；p(Ci/wi)是類型Ci中出現(xiàn)詞語wi的文本數(shù)除以出現(xiàn)詞語wi的總文本數(shù)。如上式所示，改進后的信息增益方法不考慮詞語在文本中未出現(xiàn)的情況。

分別按照卡方檢驗、信息增益值，我們就得到兩份特征詞的降序排序表。其各自前20位特征詞如表4所示。對兩種方法所得的前300個特征取并集，就得到一個含有406個特征詞的集合U。

由特征值位列前20的詞語可以管窺，盡管兩種特征選取的方法對詞語的排序有所不同，但都取得了良好效果，能把在“中國風”歌詞與唐詩宋詞中共現(xiàn)，且在“中國風”歌曲中常見、在一般流行歌曲中不常見的詞語挖掘出來，相得益彰。綜合表4及相關(guān)數(shù)據(jù)我們可以看出，“中國風”特征詞在詞類、話題等方面呈現(xiàn)如下特征：

(一)雙音節(jié)詞占比較為可觀

如表4所示的40個詞中，雙音節(jié)詞達12個，占比30%。在含406個特征詞的集合U中，雙音節(jié)詞達144個，占比約35%。由于這些詞也都出現(xiàn)在《唐詩三百首》《宋詞三百首》中，因此也可以佐證唐宋時期漢語詞匯雙音節(jié)化的趨勢。

(二)名詞是特征詞中占比最高的詞類

如表4所示，在卡方檢驗的前20位特征詞中，名詞有18個，占比90%；在信息增益的前20位特征詞中，名詞有15個，占比75%；視野擴大到含406個特征詞的集合U，名詞有263個，占比也超過64%。具體而言，“中國風”歌詞偏好繼承古詩詞中以下幾大類名詞：

表4 “中國風”歌詞中特征值前20位的詞語表

(1)自然景觀名詞。其包括兩大類，一是自然、氣候現(xiàn)象類，二是動植物尤其是花卉類。前者如表4中的“風月”，以及集合U中的“江”“雪”“煙”“雨”“風”“塵”“溪”“山水”“落日”“煙波”“月色”“月華”“殘雪”“風露”等。后者如表4中的“苔”“梨花”“芳草”“落花”，以及集合U中的“鶯”“鴻”“鵲”“燕”“鶴”“柳”“?！薄昂伞薄苞p鴣”“柳絮”“飛絮”“芙蓉”“桃花”“寒梅”“幽篁”“芭蕉”等。這些詞作為古典文學作品中的意象，大都具有清新自然之美。

(2)與時令、時間有關(guān)的詞。這一類以雙音節(jié)詞居多，如集合U中的“秋”“黃昏”“暮春”“歲歲”“時節(jié)”“三月”“今朝”“前朝”“當年”“今生”“千古”“三生”等。這些詞有的囊括較長的時間段乃至一生，以此表達感情之強烈，起到“作決絕語而妙”的表意效果；有的起到撫今追昔的功能，通過懷念過去，拓展歌詞意境的時間維度，展現(xiàn)情緒之綿長；而時令詞“秋”“暮春”和“黃昏”有蕭瑟的特征，易引起人的愁緒。

(3)中國傳統(tǒng)文化物件。如表4中的“筆”“墨”“亭”“錦”“燭”“絲竹”“琵琶”，以及未上表的特征詞“玉”“琴”“硯”“觴”“舫”“弦”“笙”“劍”“紅燭”“羽扇”“燈花”“回廊”“樓閣”“錦屏”“錦瑟”“笙歌”“檀板”等。這些物品有的涉及琴棋書畫等技藝，或?qū)俟糯ㄖ揖拥慕M成部分，在現(xiàn)今不常見，屬于中國傳統(tǒng)文化物件，帶有精致、古雅的特色。

(三)表現(xiàn)與形容離別羈旅等哀傷的情感和事件，是動詞形容詞語義的重要側(cè)重點

例如表4中的“落”“斷”，以及集合U中的動詞“離”“泣”“嘆”“送別”“別離”“思量”“相思”“飲恨”“無眠”“落淚”“遙想”，形容詞“愁”“寒”“孤”“瘦”“悵然”“飄零”“倉皇”等。雖然哀傷的主題也常見于如今一般的流行歌曲，但它們對上述詞語的運用不及“中國風”歌曲頻繁。

(四)與美人、婚戀話題有關(guān)的詞成為特征詞的重要組成部分

許多“中國風”的歌詞均離不開美人、婚戀話題，也借鑒了古詩詞中的許多相關(guān)詞匯。具體而言包括三個方面，一是關(guān)于美人及其衣飾妝容的稱呼，如表4中及其他特征值較高的“眉”“裳”“伊”“妃”“佳人”“良人”“美人”“女子”“紅袖”“紅顏”“霓裳”；二是與女子日常起居有關(guān)的詞；三是形容女子心理、儀態(tài)、動作及其與戀人互動的詞。二、三類與前文所述的名詞、動詞、形容詞存在一定交叉，但又含獨具特色的部分。例如前者的“釵”“簾”“梳”“深閨”“畫屏”“脂粉”等。后者的“顰”“蹙(眉)”“嫣然”“心事”“脈脈”“回眸”“攜手”“多情”等。

統(tǒng)觀“中國風”歌詞與唐詩宋詞共現(xiàn)、且區(qū)別于一般流行歌曲的詞匯，“中國風”歌曲的一大傾向，是以江南閨閣為背景，以婚戀離愁為題材，意境大多溫婉清雅，部分帶有蕭瑟清凄的色彩。它們主要繼承自唐詩宋詞中善于狀物寫情的婉約流派，而對具有宏闊、豪放風格的一類詩詞承續(xù)較少。

五、“中國風”歌詞與一般流行歌詞的分類分析

文本分類(text clustering)是通過比較一組文本的相似性，將比較相似的文本歸為同一組、差異較大的文本歸為不同組的過程。已知在第二節(jié)得到了各“中國風”歌詞與唐詩宋詞的相似性，我們選取了與唐詩、宋詞相似度之和最高的前100首歌曲，以及通過隨機數(shù)抽樣的100首一般流行歌曲作為分類對象。

分類的方法為K近鄰(K-nearest-neighbor，KNN)算法。其基本原理是，給定一個已經(jīng)具有分類標記的訓練數(shù)據(jù)集并向量化，對于新的輸入實例，在向量空間中計算出與該實例距離最小的K個實例。若這K個實例多數(shù)屬于某類別，就應(yīng)把該實例歸入這個類中[15]38-40。

我們令K值為8，選取兩項分類指標：一是利用上一節(jié)得到的含406個特征詞的集合U，計算歌詞里出現(xiàn)在集合U中的詞數(shù)，占歌詞總詞數(shù)的比例；二是每個文本的助詞、連詞、介詞、語氣詞等虛詞的比例。為使對分類效果的評價更加準確，避免數(shù)據(jù)分布不均，進行五折交叉驗證(5-fold cross validation)，即將200首歌曲分類對象均分為5份，輪流將其中4份作為訓練集，剩下的1份(40首)作為測試集，分別記錄5次實驗的精確率(precision)、召回率(recall)、F值(2)。歷次實驗效果及平均效果如圖1所示：

根據(jù)圖3，首先觀察5次實驗的平均性能。F平均值達到了92.49%，說明憑借虛詞和集合U中的406個詞(以下簡稱“古典詞”)的出現(xiàn)頻率2項指標，能夠大體上區(qū)分“中國風”與“非中國風”類別的歌詞。如前所述，“中國風”歌詞與唐詩宋詞的詞匯同質(zhì)性頗為顯著。而古代文學家、評論家很早就表達了對古詩詞中使用虛詞(字)的審慎態(tài)度。唐代詩人盧延讓在《苦吟》中說詩“不同文賦易，為著者之乎”，即作詩不像文賦那樣可以相對自由地使用“者之乎”等意義較虛的字；明代謝榛也在《四溟詩話》卷一中引李西涯語：“詩用實字易，用虛字難……用之不善，則柔弱緩散，不復可振?！盵16]9傳統(tǒng)詩詞受到格律體式的限制，對虛詞的使用較為拘謹，“中國風”歌曲要接近傳統(tǒng)語體風格，亦需把虛詞維持在較低的比例。然而自新文化運動起，以胡適《嘗試集》為代表的新詩，在突破舊有詩詞體式規(guī)則的同時，也頻繁讓虛詞入詩，極大地改變了其原有詞類構(gòu)成[17]。以“古典詞”為代表的詞匯，也是“中國風”富有古詩詞韻味、在紛繁的現(xiàn)代華語樂壇上獨樹一幟的重要計量特征。

另外也需看到，個別驗證的精確率、召回率不高。除了語料相對較少、數(shù)據(jù)較為稀疏的因素，更主要的原因，第一，“中國風”在追求仿古意境的同時，為避免晦澀不易為大眾接受，也不排斥文白夾雜的語句。即使是前文所列的與唐詩、宋詞相似度較高的《花滿樓》歌詞，其中也有“樓滿花香君知否”與“曾經(jīng)牽著我的手”這樣文言白話異質(zhì)語體共存的現(xiàn)象。

第二，誠然此類歌曲總體上多有借鑒古詩詞中的典型意象和描摹情態(tài)的謂語，但具體到不同作者、不同歌詞，仿古擬古的程度也有所差異。例如許嵩在詞作中使用的傳統(tǒng)意象一般就比詞作者后弦的更加密集?！爸袊L”歌詞作者的典型代表方文山認為，只要詞曲具備古典背景元素的用語及其他某些特征，“不論加入元素的多寡或比重為何，均可視同為所謂的‘中國風’歌曲”[18]3-13。其論述是否完全合理固然有待商榷，但該觀點也從一個側(cè)面指出“中國風”并非千篇一律。

第三，在20世紀后半葉，樂曲層面上的“中國風”概念尚未被明確提出，但一些流行歌曲的歌詞卻已帶有鮮明的傳統(tǒng)詩詞色彩。例如本分類實驗中的歌詞《梨渦淺笑》。它由香港填詞家黎彼得于1976年創(chuàng)作，古典詞占比高達24.03%，虛詞占比僅為7.69%，與大部分“中國風”歌詞一樣具有較高古典詞比例和較低虛詞比例的表征，在分類測試中就被預(yù)測為“中國風”類別。相似的歌曲還包括瓊瑤于1975年作詞的《在水一方》、陳小奇1993年作詞的《濤聲依舊》等?？v然幾乎沒有人認為這些創(chuàng)作時間較早的作品亦屬“中國風”范疇，但它們在歌詞層面的確已具備如今“中國風”歌曲的某些突出特點。一些相關(guān)研究者曾注意到這種矛盾，提出通過添加時間、外來文化沖擊的背景等限制性條件，以更新“中國風”的定義，縮小此概念的外延[18]6-7。這些限制性條件誠為一家之言，然已不再是本文的討論范疇，還有待今后學界對其合理性、可行性的進一步探究。

六、結(jié)語

本文從詞匯角度，運用計量風格學的統(tǒng)計方法，探索了“中國風”歌曲對《唐詩三百首》《宋詞三百首》的承續(xù)情況，以及它們區(qū)別于一般流行歌詞的顯著特征。通過余弦相似度，得到與《唐詩三百首》《宋詞三百首》相近的歌詞文本，得出中國風歌詞更接近宋詞用語的結(jié)論；并基于古今文本詞匯的共現(xiàn)與進一步的特征選擇，梳理“中國風”文本承續(xù)自古詩詞的重要詞類、話題，總結(jié)此類歌詞的風格偏好；通過K-最近鄰分類實驗，發(fā)現(xiàn)較低的虛詞比率與較高的古典詞比率兩項指標能，大體上使“中國風”歌曲從浩如煙海的現(xiàn)代華語樂曲中相對獨立出來。統(tǒng)計方法能使原本不引人注目、捉摸不定的文本風格得以突顯，在傳統(tǒng)文本分析的基礎(chǔ)上獲得了實證數(shù)據(jù)的有力支撐，從而能更全面地反映出“中國風”歌曲詞匯的面貌，討論它們與古詩詞、一般性的現(xiàn)代流行歌曲之間的關(guān)系，為今后相關(guān)文藝創(chuàng)作提供了一定的實證支持。

不過，《唐詩三百首》《宋詞三百首》作為中國古典文學的精華，仍不能囊括古代文學的總體面貌。“中國風”歌曲對其他作品的承續(xù)狀況尚未得呈現(xiàn)。另外，文本之間可能存在的少數(shù)同形異義詞還有待仔細甄別。最后，“中國風”與早期(20世紀后半葉)一些具有鮮明傳統(tǒng)詩詞色彩的流行歌曲之間的異同還不及充分探索。這些問題有待在將來作更深入的研究與討論，從而使“中國風”歌曲的面貌與定位更全面、清晰地揭示出來。

注釋：

(1)ICTCLAS/NLPIR詞法分析系統(tǒng)參見：http://ictclas.nlpir.org/。

(2)精確率、召回率、F值是用于分類效果的三個指標。在二分類問題中，常以關(guān)注的類為正類；其余的為負類。

精確率(P) = 將正類預(yù)測為正類的文檔數(shù) / 所有預(yù)測為正類的文檔數(shù)。

召回率(R) = 將正類預(yù)測為正類的文檔數(shù) / 正類文檔的真實總數(shù)。

F值是精確率和召回率的調(diào)和均值。有：2/F=1/P+1/R