張 云
信息技術的發(fā)展推動了古典文學研究的進程,主要表現在數據采集、數據檢索等方面,如《文淵閣四庫全書電子版》《四部叢刊電子版》《中國基本古籍庫》等都是古籍數據化的成果。隨著大數據、云計算、圖像檢索技術的發(fā)展,2005年李鐸就提出人文學科要進入“數據分析”[1]時代。古典文學是古代文人的精神產品,具有復雜性、多樣性的特征,形象化、概括性強,在應用數據分析法時會出現應用誤差。而數據分析法在古典文學中的應用現狀如何,針對古典文學自身屬性特征怎樣應對出現的應用誤差,是古典文學研究者值得思考的問題。
數據分析法是對數據特征、數量關系和數量變化進行分析與研究的一種方法,最初應用于社會科學研究。其后,人文科學尤其是經濟史研究中數據分析法的引入,使該研究法迅速興起、綻放光彩。因為更容易找到量化研究的對象,隨之而來的計量語言學逐漸衍生,為文學的數據分析研究奠定了基礎。在這樣一個引入和發(fā)展的過程中,社會科學研究所使用的微積分、方程解析等方法并未引入文學研究領域,文學研究中的數據分析尚停留在基礎統(tǒng)計階段,雖有建模研究的嘗試,但是在古典文學數據關聯(lián)性的深度挖掘與分析方面仍有欠缺。
基礎數據統(tǒng)計分析是古典文學研究中比較常見的應用方法。袁行霈在《中國詩歌藝術研究》中廣泛應用了這種方法:“在李賀現存的240多首詩中,共用了2494個不同的字。其中:‘冷’字19次,‘凝’字16次,‘啼’字29次?!薄啊痘ㄩg集》里出現的頻率和用法:‘冷’字42次,‘凝’字26次,‘啼’字35次。”通過數據分析,得出如下結論:從以上例句可以看出,花間詞人在詞語的選擇和運用上是多么接近長吉[2]。此外,楊公驥在《中國文學》一書中統(tǒng)計《詩經》的章節(jié)用字量為2950個左右,其中動詞達300個以上,比例超過十分之一,以此推斷出這些動詞的運用對中國古代文學豐富表現力的影響。劉尊明在詞學研究中也多用數據統(tǒng)計分析,就柳永詞用調研究而言,其通過統(tǒng)計分析柳永詞“孤調”的數量和占比,得出“柳永大膽用調、積極創(chuàng)調等方面的創(chuàng)作成就”。袁行霈、楊公冀、劉尊明通過古典文學字詞,用調頻率的統(tǒng)計發(fā)現問題、分析問題,這種方法是數據分析法在文學研究中最常見的一種應用方式,在當下文學研究和論文寫作中也有廣泛應用。
除了基本的數據統(tǒng)計分析之外,劉石在《大數據技術與古代文學經典文本分析研究》中提到要利用計算機、統(tǒng)計學的技術手段,發(fā)掘文本組織的特征及相互關系,利用定量統(tǒng)計、分析的方法,選擇先秦至明清時段古代文學經典文本進行相似性、關聯(lián)性、規(guī)律性研究,有望解決古典文學研究領域長期存在的疑而難決的“作品歸屬、作品辨?zhèn)巍愇谋嫖?、修辭特色、風格生成、題材變遷、因革影響等方面的問題”[3]。
此外,一些學者也從數據建模角度進行了積極有益的嘗試。王兆鵬在《宋詞排行榜》中選取了“選本、互聯(lián)網頁、評點、研究論文和唱和”[4]五個指標并進行了一級權重劃分,在此基礎上對不同時代的詞選影響力進行了二級權重劃分,最終形成了系統(tǒng)的數據分析研究模型。以此為基礎,推導得出宋詞排行榜。此外,王兆鵬也運用文獻計量的方式,在唐詩排行榜方面做了同樣的嘗試。在文獻計量學中,存在主觀賦權和客觀賦權兩種評判方式。為統(tǒng)計唐詩在后代傳播、接收過程中的關注度,結合文學研究的特點,王兆鵬從四個維度對數據進行了加權處理,通過主觀賦權的評判法計算出唐詩排名。王兆鵬選取的四個維度分別是“歷代選本入選唐詩的數據、歷代評點唐詩的數據、20世紀研究唐詩的論文數據、文學史著作選介唐詩的數據”[5]。通過四個維度的數據加權與計量排名,王兆鵬給出了唐詩中七律、五律、七絕、五絕的排行榜答案:崔顥的《黃鶴樓》為七律之首,杜甫的《登岳陽樓》為五律之首,王維的《送元二使安西》為七絕之首,王之渙的《登鸛雀樓》為五絕之首。
這種研究方法無疑是對基礎統(tǒng)計分析的一次升華,也是對數據分析法的一次有益嘗試。
隨著古典文學研究領域專家學者與計算機或統(tǒng)計學領域專家學者的深入研究,尤其是隨著知識圖譜在古典文學領域的應用,各類古詩詞數據平臺逐漸豐富、成熟。自“《全唐詩》檢索系統(tǒng)”“《全宋詩》分析系統(tǒng)”的建設伊始,近些年涌現出一批諸如唐詩別苑、Know-Poetry、搜韻、唐宋文學編年地圖等詩詞知識圖譜平臺,為古詩詞領域碎片化知識的關聯(lián)整合、詩詞信息的檢索提供了更加便捷的路徑。其中,“唐詩別苑”由北師大研發(fā),可以通過關鍵字對詩作、詩人、地理、風格、題材、意象等信息進行檢索呈現;搜韻網則收錄約90萬首古今詩詞作品,可以通過關鍵詞、字詞位置、作者、朝代、體裁、韻部等字段檢索;兩者都為更精準地獲取數據提供了便捷高效的指引。
但無論是頻率統(tǒng)計還是數據建模,都只是側重數量方面的研究,數據關聯(lián)度的挖掘仍存在一些不足。1998年《哈佛商業(yè)評論》刊載的“啤酒與尿布”案例可謂是數據關聯(lián)研究方面的典型。沃爾瑪員工發(fā)現“啤酒”與“尿布”經常出現在同一購物籃,而且這種關聯(lián)往往出現在年輕的父親身上。于是,沃爾瑪調整策略,將“啤酒”與“尿布”同置,極大地提升了銷量①根據《哈佛商業(yè)評論》原文進行簡化改寫,保留原文事件和觀點,簡化細節(jié),以此說明。。類似這種關聯(lián),給文學研究提供了一個新的視角:是否有一些貌似不相關的內容背后有某種關聯(lián)因素可供文學研究挖掘。而大數據技術的發(fā)展為關聯(lián)度的研究提供了更廣泛的可能。鄭永曉在《加快“數字化”向“數據化”轉變——“大數據”“云計算”理論與古典文學研究》中闡述了大數據關聯(lián)研究的價值:“基于大數據的思維特別注重事物間的關系,在分析文學與外部因素關系時,有可能發(fā)現其他此前我們從未注意的現象與文學的關系……”[6]但是,目前就文學研究中大數據價值挖掘與應用的案例和實踐研究成果僅僅是揭開了冰山的一角,未來仍有廣闊的研究空間有待后來者進一步研究和發(fā)掘。
總體來看,古典文學研究領域的數字化進程目前仍停留在古籍數字化、數字檢索化和數據平臺搭建的階段。利用數據平臺分析古典文學遇到的風格生成、文體特色、題材變遷等文學問題因無前車之鑒,因此任重而道遠。
數據分析研究通常比平常的對比分析研究、鑒賞評論所得出的結果更穩(wěn)定。因為數據分析法的研究對象是固定的數據量,而且隨著基數的增加,結果的穩(wěn)定性會更高。但是,數據選取、數據處理、數據分析、應用范圍的差異很可能出現截然相反的研究結果。
數據是數據分析法賴以生存的基礎。如果沒有準確、恰當的數據,準確的研究結論就無從談起。陳尚君統(tǒng)計《全唐詩》共收詩49403首,輯?!度圃娧a編》收逸詩6327首,唐詩總計55730首,殘句3060條,涉及唐代詩人3700位左右。但尚永亮在《數據庫、計量分析與古代文學研究的現代化進程》中,對《全唐詩》《全唐詩補編》《全唐詩逸》《中國文學家大辭典·唐五代卷》等相關文獻數據做了重新統(tǒng)計,得出現存唐詩50454首,作者3228人的結論[7]。
二者的差異與基礎數據統(tǒng)計材料的選取有直接關系??梢姡瑪祿碓春瓦x取對數據分析結果的準確性會產生較大的影響。除此之外,能否選取恰當的樣本數據也是影響研究結果的一個重要因素。曹操的詩歌在明代以前并不算出名,然而隨著明代古詩地位被重新確定,文論家、讀者、商業(yè)刊印者等目標受眾或褒或貶、或抑或揚的評判都對曹操詩歌作品的文學地位產生了相應的影響。
類似隨時代變遷而詩文地位不同的情況也發(fā)生在陶淵明、杜甫身上?!端螘贰稌x書》《南史》等史傳中都把陶淵明放入《隱逸傳》之中,很少提及其文學成就;鐘嶸在《詩品》之中只將陶淵明的作品列入“中品”;劉勰在《文心雕龍》之中也未提及陶淵明,因此這個歷史時期陶淵明都不是以詩文而聞名。至梁代,昭明太子蕭統(tǒng)對陶淵明有了較高評價,并且親自為其作傳;此后歷經唐、五代,至北宋年間,陶淵明的詩歌地位才得以上升。蘇軾創(chuàng)作《和陶詩》共135首,對陶淵明詩歌逐一和作,對陶淵明詩歌地位的提升有重要作用。
在這個過程中,政治、歷史、文學風尚等諸多因素的博弈產生了所謂的“名家”“名作”。如今做計量研究,如何剝離過往諸多因素的影響,在不同的代表性選本中抽取恰當的樣本作為數據基礎是一個不小的考驗。因此,能否對選擇樣本的影響因素進行充分的研究,理清最能夠代表樣本的目標選本,將直接影響到數據分析結果的可信度。
數據清洗和分類處理是數據分析的前提,清洗和分類的科學性也將影響數據分析結果的信度與效度。所謂數據清洗,就是根據數據統(tǒng)計分析的標準,對前期獲取的大量文獻數據進行有效性檢測和樹立,篩選并提出冗余和無效信息的處理過程。因此,數據清洗工作的完善程度也將直接影響數據分析結果的精度與質量。
除此之外,李炳海在《中國古代文學的定量、定性和定位研究》中強調:“以類別劃分為基礎的定量分析是發(fā)現問題的開始。……以類別劃分為基礎的定量研究,可以使問題由模糊變得明朗……分類方式的確定在很大程度上制約定量研究的成敗,這里歸根結底是一個視角問題,是學術眼光和思維方式在發(fā)揮作用。”[8]由此可見,數據分類處理是否得當也可能造成研究結果的誤差出現。
20世紀80年代中后期,美籍華裔陳炳藻從數理統(tǒng)計的觀點出發(fā),對《紅樓夢》的用字規(guī)律做了統(tǒng)計分析。通過《紅樓夢》前80回與后40回用字相關度的分析,得出了這樣的研究結論:《紅樓夢》前后120回內容均由曹雪芹所作。但此后深圳大學的錢學烈和復旦大學的李賢平利用同類方法再次統(tǒng)計分析,得出的結論卻是:前80回與后40回的作者并非同一人。這兩項研究結果可謂大相徑庭。兩者同樣是對具體字詞使用頻率進行的統(tǒng)計分析,之所以結論不同,是因二者所采用的統(tǒng)計分析方法不同。因此,降低數據分析法研究誤差的方法之一就是慎重地選擇數據分析的方法。
韋勒克、沃倫在文學研究中進行了“內部研究”與“外部研究”的劃分。從文學的內部研究角度來看,計量方法的適用范圍并不十分廣闊,主要集中在意象分析和語言風格分析方面。袁行霈的《中國詩歌藝術研究》在對溫庭筠詞作藝術的研究中就對溫詞的意象進行了統(tǒng)計分析:“溫詞里寫‘眉’十二次,有以山喻‘眉’者,如‘眉黛遠山綠’;寫‘鬢’八次,如‘鬢云殘’‘鬢如蟬’;寫‘釵’六次,寫‘鈿’六次,寫‘屏’七次,‘玉釵’‘玉鉤’‘玉爐’共有十九次之多。”通過這些意象的統(tǒng)計對溫詞中著力描述婦女生活的特性進行了分析和印證[9]。
在語言風格方面,前者已有提及,袁行霈在《中國詩歌藝術研究》中將李賀詩詞與《花間集》的語言風格進行了統(tǒng)計數據對比分析,通過“冷”“凝”“咽”“啼”“垂”“寒”“幽”“死”“淚”“老”十個用詞風格進行數據對比,分析了二者之間的關聯(lián)。以上二者是計量方法研究范圍的一個典型例證,超越此范圍的研究應用仍存在一些困難,需要做進一步的驗證。因此,超范圍的使用可能會帶來研究成果的誤差。
此外,由于文學獨特的審美特性,也不能僅憑統(tǒng)計分析結果就想逼近審美判斷。劉石、孫茂松在《大數據時代的古典文學研究》中也提道:“文學性問題的提出和分析處理不可能完全交給機器,也就不可能完全交給技術專家。相反,從問題的設置到語料的選取再到分析結果的解讀、意義的闡釋、體系的構建等,都將由古代文學和文獻學相關領域高水平的專家學者完成?!保?0]研究結果的誤差一方面體現了文學研究“橫看成嶺側成峰”的現象,另一方面也讓研究者重新審視其現狀與意義。雖然從理論上看,每一次數據分析都可能存在誤差,但是對誤差產生原因的深入理解和判斷、對新方法的引入與應用都有可能幫助他們在數據分析研究中最大限度地接近真相、還原真相。