陳 瑜
(河南中醫(yī)學院 ,鄭州450008)
以人工智能為支撐的數(shù)字信息技術(shù)給文獻學和古籍整理帶來了劃時代的影響,中文古籍數(shù)字化歷經(jīng)30余年的發(fā)展,已完成由單一書目數(shù)據(jù)向圖文數(shù)據(jù)、由檢索工具向知識工具的轉(zhuǎn)變。在古籍數(shù)據(jù)量、數(shù)字化技術(shù)和理論研究方面均取得一定成績,為傳統(tǒng)古籍整理拓展了新的領(lǐng)域。隨著研究進程的深入,其負面影響也日益凸顯:技術(shù)引領(lǐng)學術(shù)是古籍數(shù)字化時代學術(shù)研究的最大弊端[1]、知識遮蔽即為其一。數(shù)字化使文獻信息利用者面對海量文獻信息茫然無措,甚至“喪失自己的自主性,喪失反思和批判的能力成為信息爆炸的奴隸,被信息洪流所異化”[2]。
當代學者呂乃基借用海德格爾技術(shù)哲學中關(guān)于“遮蔽”與“去蔽”的重要概念,提出知識因未被選擇而遮蔽,也因被選擇而遮蔽。相對而言,后者尤為復(fù)雜?!凹夹g(shù)在對一部分知識進行篩選和固化時,使另一部分知識淡化、邊緣化,或者說被遮蔽”,“在一部分知識被選擇、集成之時,另一部分知識即被舍棄,乃至被遺忘?!盵3]知識遮蔽是古籍文獻數(shù)字化利用過程中的共有現(xiàn)象,涉及數(shù)字化過程中技術(shù)和應(yīng)用、理論和實踐等多領(lǐng)域,具有跨學科性質(zhì),其實質(zhì)是技術(shù)和學術(shù)的關(guān)系:“坐擁書城”導(dǎo)致思維惰性和視野狹窄,面對海量信息無所適從,不能執(zhí)簡馭繁。古籍數(shù)字化要從海量的古籍中選擇處理對象,在這個過程中,一部分古籍被數(shù)字化,另一部分則因未被選擇而被舍棄。其結(jié)果就是那些未被收入數(shù)據(jù)庫的古籍成為被遺忘的文獻,永遠無法被檢索,影響數(shù)據(jù)收集的完整,進而影響研究結(jié)論的準確性。
中文古籍數(shù)字化已取得了許多實質(zhì)性的進展,主要表現(xiàn)在以下方面:古籍數(shù)字化概念已經(jīng)形成;標準程式和體系結(jié)構(gòu)的確立;數(shù)據(jù)庫檢索系統(tǒng)、輔助性研究支持系統(tǒng)的完善;書目數(shù)據(jù)庫的標準和規(guī)范已基本確定;技術(shù)研究更多地轉(zhuǎn)向古籍數(shù)字化的高級功能,如數(shù)據(jù)挖掘、知識發(fā)現(xiàn)等。我國古籍數(shù)字化工程雖然起步比歐美國家晚,但是發(fā)展至今,無論在規(guī)模和水平上都已遠遠超過海外。但知識遮蔽的現(xiàn)象從肇始階段即已存在,究其成因,主要有以下幾方面:
研究手段的更新與新資料的出現(xiàn)往往是學術(shù)研究有較大突破的重要條件,正如陳寅恪先生所說:“一時代之學術(shù),必有其新材料與新問題?!保ā蛾愒炊鼗徒儆噤洝敌颉罚┕偶當?shù)字資源的深度開發(fā)是古籍數(shù)字化工作走向深入和取得實質(zhì)性進展的具體表征,如果我們能將人工智能的檢索手段與人腦的長處和優(yōu)勢結(jié)合起來,將會給古籍整理和古典文獻學的研究注入新的血液,但是,盡管中文古籍數(shù)字化工程浩瀚宏大,相對整個古籍資源而言,卻永遠做不到不遺不漏。真正具有學術(shù)價值、文物價值和藝術(shù)價值的古籍不能得以展現(xiàn),數(shù)字化古籍只能以易于獲得的版本為底本,而不能根據(jù)版本的優(yōu)劣作選擇,而那些并未納入數(shù)字化范圍的典籍,包括孤本、抄本、珍本往往更具有學術(shù)價值,這在很大程度上影響學術(shù)研究的質(zhì)量。如果只將視線局限于數(shù)字化產(chǎn)品,則勢必造成相關(guān)知識的人為遮蔽。
目前古籍信息都是文本型數(shù)據(jù),具有模糊性、不確定性和非線性等特征,數(shù)據(jù)庫關(guān)鍵詞檢索主要還是詞形匹配而非詞義匹配,滿足的是在一個海量信息集合中快速定位信息的需求,但精準度不高;同時,在漢字關(guān)聯(lián)技術(shù)上存在技術(shù)疏誤,容易引起大量不準確匹配,產(chǎn)生誤檢。
最常見的情況是建庫時導(dǎo)入數(shù)據(jù)錯誤,以《全唐文》《國學寶典》《漢籍全文檢索系統(tǒng)》和迪志版《四庫全書》為例,均不同程度存在數(shù)據(jù)錯誤問題,閱讀時會引起歧義,給研究者帶來誤導(dǎo)。在檢索功能方面,由于設(shè)計者在古文字或古文獻知識方面存在的局限,數(shù)據(jù)庫采用的漢字關(guān)聯(lián)技術(shù),即異體字、繁簡字的匹配等,在數(shù)據(jù)庫設(shè)計中就出現(xiàn)錯誤。許多數(shù)據(jù)庫采用單字關(guān)聯(lián)技術(shù),即某一字與另一字相匹配的方法來進行關(guān)聯(lián),以便檢索。產(chǎn)生這種關(guān)聯(lián)技術(shù)大概基于以下考慮,在古代文獻中確實存在異體字現(xiàn)象,即字型不同,但含義、讀音則完全相同。然而,在古代文獻中僅僅采用單字關(guān)聯(lián)是十分危險的,因為在某些典籍中可以單字關(guān)聯(lián)匹配的字,在另一些典籍中就完全不可以。迪志版《四庫》將“喜”與“僖”、“非”與“誹”、“藏”與“臧”、“紹”與“侶”、“余”與“邪”等相關(guān)聯(lián),顯然有值得商榷之處,許多是不準確的關(guān)聯(lián)。
過分依賴數(shù)字資源的檢索功能,古籍閱讀能力弱化,斷章取義,不參考各類箋注和語境,導(dǎo)致知識點的提取及學術(shù)結(jié)論出現(xiàn)偏差;數(shù)字化古籍通過預(yù)設(shè)條件只能檢索到與關(guān)鍵詞匹配的相關(guān)資料,而不能檢索到與主題相關(guān)的隱性信息。如果在資料采集、推理求證以及檢索觀念和方法的演進方面存在缺失,則知識遮蔽在所難免,從而影響學科整體發(fā)展水平。
人文學科是富含文化底蘊的學科,需要長期的學術(shù)積淀,任何時候數(shù)字化古籍均不能代替古籍本身。紙質(zhì)古籍無論是裝幀形式還是具體內(nèi)容,其直觀性都和數(shù)字化圖書不同,古籍原典的字里行間以及箋注體味著古人的微言大義,創(chuàng)建古籍數(shù)據(jù)庫時,如果數(shù)據(jù)導(dǎo)入錯誤,則常引起歧義,給研究者帶來誤導(dǎo),只有求諸原典才能解決問題[4]。古籍更蘊含著豐富的人文知識和文化信息,關(guān)于版本信息、成書、內(nèi)容層次、結(jié)構(gòu)劃分、傳布等書籍特征也往往不被數(shù)據(jù)庫顯示和表達。同時,典籍中蘊含的大量以前未知的、潛在的內(nèi)隱知識,這個過程也應(yīng)該建立在通讀原典而不應(yīng)僅僅依靠數(shù)據(jù)庫的標引功能。這是因為學術(shù)研究中問題意識非常重要[5]。而自覺的問題意識表現(xiàn)在“善于從大量原始文獻中發(fā)現(xiàn)問題和解決問題,尤能從無疑處質(zhì)疑,廓清許多積非成‘是’之點?!盵6]
與傳統(tǒng)治學相比較,數(shù)字化時代學者的思維方式和研究方法都發(fā)生了很大的變化。傳統(tǒng)時代,學術(shù)問題大都從閱讀中得來,解決問題還要回到閱讀中去。數(shù)字化時代則往往主題先行,即先有題目再去論證。這種本末倒置的做法所產(chǎn)生的不良后果使偽命題及偽學術(shù)層出不窮?!斑^于依賴檢索系統(tǒng)會逐漸滋長我們的惰性??茖W本身就是一把雙刃劍,人體感官在享受數(shù)字化優(yōu)裕的同時也逐漸退化,數(shù)字檢索在方便之余也逐漸吞噬我們的思維?!盵7]
現(xiàn)代化科技手段的介入,給傳統(tǒng)的治學方法帶來了深刻的影響,極大地提高了古籍整理研究的效率,但信息的檢索無法取代人的主觀能動性,數(shù)字化產(chǎn)品充斥社會,習慣與數(shù)字化產(chǎn)品打交道,使得研究者過于依賴信息工具,過于依賴檢索系統(tǒng)會逐漸滋長我們的惰性,數(shù)字檢索在方便之余也逐漸僵化我們的思維。這種思維惰性不僅屏蔽了具體知識,更屏蔽了獲取知識的認知途徑。計算機雖然在一定程度上能夠模擬人的思考,甚至在某些方面更具優(yōu)勢,但它不具備人類最本質(zhì)的創(chuàng)造性思維。廓清是非、置疑解惑決非依賴電腦檢索系統(tǒng)所能解決。以文字??睘槔?,除了比較異同之外,判斷是非更為重要,這種決斷能力依靠深厚的學術(shù)涵養(yǎng)和積累,絕非計算機設(shè)計程序所具備。
海量的數(shù)字化文獻為窮盡式的研究提供了基本條件,但另一方面又導(dǎo)致學術(shù)異化和知識遮蔽,阻礙了學術(shù)前進,具體表現(xiàn)在:其一,研究周期縮短。古典文獻學是需要長期積淀的學科,古籍數(shù)字化使各種資料的占有變得便捷易得,研究成本降低,周期縮短,抄襲和拼湊現(xiàn)象加劇,助長了社會浮躁和學術(shù)不端之風,學術(shù)成果在呈快餐式膨脹,學術(shù)水準卻鮮有提升,研究者被海量信息淹沒,進退無據(jù),無所適從。長期使用網(wǎng)絡(luò)和各種古籍庫的研究方式,使研究者逐漸養(yǎng)成依賴,離開網(wǎng)絡(luò)就無法工作。同時,海量信息讓人無所適從。若能執(zhí)簡馭繁,恰當?shù)靥幚硇畔?,則利大于弊;若不能排除無用信息的干擾,如同“一部十七史,從何說起”(薛應(yīng)旃《宋元資治通鑒》),則弊大于利。其二,學術(shù)成果經(jīng)不起檢驗。當學術(shù)被技術(shù)主宰時,技術(shù)偽裝學問就在所難免,過于依靠數(shù)據(jù)庫檢索功能,通過預(yù)設(shè)條件只能檢索到與關(guān)鍵詞匹配的相關(guān)資料,而不能檢索到與主題相關(guān)的隱性信息,加之部分劣質(zhì)的數(shù)字化產(chǎn)品在一定程度上誤導(dǎo)著研究者,特別是無價值的垃圾信息的泛濫,導(dǎo)致人們陷入信息過度、信息麻痹的困境。同時,很多有價值的信息可能被忽略。思維定勢和材料堆砌、著作的個性缺失和思想貧乏以及種種相關(guān)現(xiàn)象充斥學界。
中文古籍數(shù)字化對現(xiàn)代知識體系的形成及人文科學的深入發(fā)展具有深遠的影響。然而在利用數(shù)字化古籍時,至少經(jīng)過了雙重過濾:第一,數(shù)字化工程無法將所有的古籍全部數(shù)字化,更遑論珍本、散落民間之抄本等。換言之,很多有價值的文獻資料內(nèi)容因未被選擇數(shù)字化而被遮蔽。其次,檢索過程是第二次過濾,因為點對點的檢索無法完成多元或關(guān)聯(lián)檢索。對于這些經(jīng)過電腦整理的文獻資料,甚至是電腦分析后得出的結(jié)論,選擇什么,不選擇什么,對哪些更要進行質(zhì)疑辨?zhèn)蔚?,這里面起決定作用的還是研究者個性化、人文化的東西。
典籍文本深蘊歷史信息,而歷史信息是多維度的:即它的原初形態(tài),它作為公共審視和評價對象的原初形態(tài),它因為歲月歷程中不斷增減信息而形成的歷史性形態(tài)以及它因為審視者無窮的個性化、心智性因素加入審視過程而出現(xiàn)的復(fù)雜“偏光”[8]。這其實體現(xiàn)的是人工智能與人腦心智的辨證關(guān)系問題?!案簟?,是指因隔膜、隔閡形成差距,“不隔”,即融通無礙。只有有效去除心智之隔,方可使個體在利用數(shù)字化過程中避免出現(xiàn)思維迷失和惰性現(xiàn)象,提高學科發(fā)展水平,做到技術(shù)與學術(shù)互補。
數(shù)據(jù)化文獻時代主要以數(shù)據(jù)化文獻作為傳播手段,研究者擺脫原始研究方式,自覺利用數(shù)據(jù)化文獻,將計算機作為重要工具來使用,依靠強大的計算機功能來進行學術(shù)研究,包括保存、表現(xiàn)文獻手段的數(shù)據(jù)化,傳播文獻途徑的間接化,達到一定程度的文獻數(shù)據(jù)量等。當前,計算機處理信息的最大便利之一,就是能夠?qū)蘖啃畔⑦M行窮盡式分析。數(shù)字化文獻資源這個公共學術(shù)平臺已經(jīng)初步形成,在此種趨勢之下,是否意味人文科學的各個研究層次均會被計算機所取代?人的心智做為研究工作的靈魂何以安身立命?既能夠掌握古往今來大量史料,又能體現(xiàn)研究者深切人文理念,從中爬梳剔抉、披沙揀金,電腦在古籍數(shù)字化應(yīng)用方面的前景幾乎是無可限量的,人機之間的“權(quán)界”劃分在何處?電腦作為研究手段,其效能到底有沒有邊界[9]?只有正視以上命題的存在,方可避免在古籍數(shù)字化文獻的應(yīng)用中陷入迷茫之境。
古籍數(shù)字化究竟對學術(shù)研究有何推動作用?這種作用是僅僅停留在工具層面還是能夠滲透到文獻學和歷史學研究內(nèi)部?它是在較淺層面上促使學科發(fā)生某些表層性變化,還是在較深層面上對傳統(tǒng)學科予以根本性的改造?這是當代每一名文史研究工作者不能回避的問題[10]。在低價值密度數(shù)據(jù)充斥信息系統(tǒng)的情況下,大多數(shù)研究者仍然能夠從“噪音”中發(fā)現(xiàn)新的價值,隨著古典文獻全面數(shù)字化的到來,利用文本挖掘發(fā)現(xiàn)相關(guān)數(shù)據(jù)庫新的價值也成為可能。
數(shù)字化技術(shù)推動了學術(shù)進程,但有可能成為異化人和束縛人的工具,面對不完整的、負價值的信息,往往導(dǎo)致人們喪失反思和批判的能力,回避或漠視古籍數(shù)字化對文史研究的深刻影響,將不可避免地導(dǎo)致研究水準的落后,這種落后不僅源于研究手段的不能與時俱進,更因為古籍數(shù)字化對文史研究這一傳統(tǒng)學科的深層介入,使得學科的發(fā)展呈現(xiàn)出此前不具有的若干新特點,不能適應(yīng)這種變化的學術(shù)研究必然落后于時代的要求。這一命題既是理論問題,也是應(yīng)用問題;既是技術(shù)問題,也是哲學問題,有著深邃的理論況味。
[1]吳夏平.誰在左右學術(shù)——論古籍數(shù)字化與現(xiàn)代學術(shù)進程[J].山西師大學報(社會科學版),2010,(3):100-103.
[2]孫偉平.論信息時代人的新異化[J].哲學研究,2010,(7):113-119.
[3]呂乃基.技術(shù)“遮蔽”了什么?[J].哲學研究,2010,(7):89-94.
[4]吳夏平.唐代中央文館制度與文學研究[M].濟南:齊魯書社,2007.16.
[5]方 敏.數(shù)字化古籍利用策略研究[J].高校圖書情報論壇,2012,(2):1-3.
[6]李 浩.唐代三大地域文學士族研究[M].北京:中華書局,2002.3.
[7]吳夏平.唐代制度與文學研究述論稿[M].濟南:齊魯書社,2008.196.
[8][9]李 鐸,王 毅.關(guān)于古代文獻信息化工程與古典文學研究之間互動關(guān)系的對話[J].文學遺產(chǎn),2005,(1):126-137.
[10]鄭永曉.古籍數(shù)字化對學術(shù)的影響及其發(fā)展方向[J].社會科學管理與評論,2006.81-88.