張麗娟 張富
摘 要:少林文化大數(shù)據(jù)主要包括文化原生數(shù)據(jù)和文化衍生數(shù)據(jù)。利用相關(guān)關(guān)鍵技術(shù),將文化原生數(shù)據(jù)轉(zhuǎn)換為文化衍生數(shù)據(jù)是弘揚(yáng)少林文化、挖掘少林文化人文內(nèi)涵的必要支撐,是少林文化大數(shù)據(jù)平臺(tái)實(shí)現(xiàn)技術(shù)經(jīng)度和文化緯度交織融合的重要紐帶。文章在詳細(xì)剖析少林文化大數(shù)據(jù)的多維度多屬性特征基礎(chǔ)上,對(duì)自然語(yǔ)言處理、全文檢索、可視化引擎相關(guān)關(guān)鍵技術(shù)問(wèn)題進(jìn)行了探討,創(chuàng)新了具有少林文化屬性的相關(guān)技術(shù)應(yīng)用,以期為相關(guān)研究提供借鑒。
關(guān)鍵詞:少林文化;文化大數(shù)據(jù);數(shù)字人文;人文GIS
分類號(hào):G270
Research on Key Technologies of Shaolin Culture Big Data Platform
Zhang Lijuan1 ,Zhang Fu2
( 1.School of Electrical Engineering and Automation of Luoyang Institute of Science and Technology, Luoyang, Henan 471023; 2.School of Surveying, Mapping and Geographic Information of North China University of Water Resources and Electric Power, Zhengzhou, Henan 450046 )
Abstract: Shaolin culture big data mainly includes cultural native data and cultural derived data. Using related key technologies to convert cultural native data into cultural derived data is the necessary support for promoting Shaolin culture and mining the humanistic connotation of Shaolin culture, and it is also an important link for the Shaolin culture big data platform to realize the interweaving and integration of technical longitude and cultural latitude. Based on the detailed analysis of the multi-dimensional and multi-attribute characteristics of Shaolin cultural big data, this paper discusses the key technical issues related to natural language processing, full-text retrieval and visualization engine, and innovates the application of relevant technologies with Shaolin cultural attribute, in order to provide reference for relevant research.
Keywords: Shaolin culture; Cultural Big-Data; Digital Humanities; Humanistic GIS
少林文化孕育千年、底蘊(yùn)深厚,是中國(guó)優(yōu)秀傳統(tǒng)文化的典型代表。2020年10月,中國(guó)嵩山少林寺召開(kāi)了“檔案與少林文化大數(shù)據(jù)”論壇,開(kāi)始以少林檔案工作為先導(dǎo),探索少林文化大數(shù)據(jù)的發(fā)展路徑,并于次年通過(guò)了《少林文化大數(shù)據(jù)平臺(tái)建設(shè)方案》。
隨著平臺(tái)建設(shè)的持續(xù)推進(jìn),少林文化大數(shù)據(jù)已由單一少林檔案資源,拓展延伸至更為多樣、海量、分散、動(dòng)態(tài)的更具廣泛意義的數(shù)據(jù)資產(chǎn),少林文化大數(shù)據(jù)平臺(tái)將全面打造新時(shí)代少林文化發(fā)展的生產(chǎn)要素,夯實(shí)延續(xù)少林千年輝煌的基石。本文在少林文化大數(shù)據(jù)特性基礎(chǔ)上,分析少林文化大數(shù)據(jù)平臺(tái)技術(shù)框架及關(guān)鍵技術(shù)問(wèn)題,以期為包含檔案在內(nèi)的文化大數(shù)據(jù)建設(shè)與領(lǐng)域應(yīng)用提供參考。
1 少林文化大數(shù)據(jù)的數(shù)據(jù)來(lái)源和分類
1.1 數(shù)據(jù)來(lái)源
少林寺藏檔案資源主要包括:文書(shū)檔案4萬(wàn)余件,藏經(jīng)閣圖書(shū)5萬(wàn)余種、30萬(wàn)余冊(cè)。包含北齊至明清時(shí)期拓片近萬(wàn)件,古籍3萬(wàn)多冊(cè),其中善本近6千種2萬(wàn)余冊(cè)?,F(xiàn)代圖書(shū)約4萬(wàn)種,大藏經(jīng)20多種,武術(shù)典籍10多種,禪醫(yī)藥典籍3萬(wàn)余卷。電子檔案資料數(shù)萬(wàn)件,內(nèi)容超過(guò)100T容量。據(jù)不完全統(tǒng)計(jì),尚未收集整理的資料保守估計(jì)還有上百萬(wàn)件,其中,實(shí)物檔案碑刻塔銘247種,各類塑像、壁畫(huà)、鐘鼓、石獅、匾額等關(guān)鍵附屬物約1200項(xiàng)。
少林寺歷史上飽經(jīng)戰(zhàn)亂,諸多歷史資料留散民間,許多歷史資料至今仍然留存在海外,因此,國(guó)內(nèi)外資料庫(kù)有關(guān)少林歷史的資料也是少林文化數(shù)據(jù)的主要來(lái)源之一。目前,僅對(duì)國(guó)內(nèi)資源庫(kù)進(jìn)行篩選,初步統(tǒng)計(jì)出大約10萬(wàn)冊(cè)/卷/個(gè)/通。
伴隨少林文化大數(shù)據(jù)平臺(tái)的日漸完善,其數(shù)據(jù)來(lái)源也從以寺藏檔案資源為主擴(kuò)展為泛檔案化的信息資源聚合,初步測(cè)算,平臺(tái)一期建成后預(yù)計(jì)數(shù)據(jù)量將達(dá)1.4PB,之后年自產(chǎn)數(shù)據(jù)量將達(dá)到0.8PB-1PB/年。
1.2 數(shù)據(jù)分類
少林文化大數(shù)據(jù)依據(jù)其產(chǎn)生方式不同可分為:少林文化原生數(shù)據(jù)和少林文化衍生數(shù)據(jù)。其中,少林文化原生數(shù)據(jù)是在少林寺歷史發(fā)展與實(shí)踐中,以自然的方式直接或間接產(chǎn)生的基礎(chǔ)原始數(shù)據(jù),是少林文化大數(shù)據(jù)整合管理、開(kāi)放共享、價(jià)值挖掘、知識(shí)發(fā)現(xiàn)的必要支撐。按照其承載的信息屬性不同,又可分為:少林文化內(nèi)容數(shù)據(jù)和少林文化行為數(shù)據(jù)。少林文化衍生數(shù)據(jù)是在少林文化原生數(shù)據(jù)的基礎(chǔ)上,依托大數(shù)據(jù)處理技術(shù)對(duì)原始數(shù)據(jù)的屬性、結(jié)構(gòu)、功能、關(guān)聯(lián)性等進(jìn)行分析和加工所催生的新的、具有一定認(rèn)知理解的其他文化數(shù)據(jù)類型,是推動(dòng)文化大數(shù)據(jù)開(kāi)發(fā)利用與技術(shù)發(fā)展的內(nèi)在動(dòng)力。按照其呈現(xiàn)場(chǎng)景不同,又可分為:少林文化時(shí)空數(shù)據(jù)和少林文化知識(shí)數(shù)據(jù)(如表1所示)。
2 少林文化數(shù)據(jù)的“多維度多屬性”特征
在梳理少林文化數(shù)據(jù)資源的過(guò)程中,筆者發(fā)現(xiàn)越久遠(yuǎn)的歷史資料越具有獨(dú)特的文化屬性,而這些數(shù)據(jù)往往又在專業(yè)和時(shí)間維度上具有明顯的不連續(xù)性。如果把“時(shí)間、專業(yè)、類別”劃分為三空間維度,任何一種數(shù)據(jù)資源至少同時(shí)具有三個(gè)維度的多屬性特征(如圖1所示)。
比如:“三教九流石碑”碑刻時(shí)間是嘉靖四十四年(1565年),但在文化時(shí)間維度上可追溯到一百多年前的明朝成化皇帝;專業(yè)維度上又具有宗教、哲學(xué)和藝術(shù)等屬性;在少林文化類別維度上又屬于禪和藝等。
少林文化數(shù)據(jù)從單一維度很難完整地詮釋少林文化內(nèi)涵。首先,在時(shí)間維度上,分散的各專業(yè)資料不僅連續(xù)性、完整性不夠,而且數(shù)據(jù)產(chǎn)生的“時(shí)間點(diǎn)”與其代表文化主題的時(shí)間跨度無(wú)法依據(jù)時(shí)間屬性直接關(guān)聯(lián)對(duì)應(yīng)。這種時(shí)間維度特點(diǎn),還直接導(dǎo)致數(shù)據(jù)以多種語(yǔ)言形式存在。其次,在專業(yè)維度上,少林文化涉及宗教、武術(shù)、建筑、書(shū)畫(huà)藝術(shù)、醫(yī)學(xué)、歷史和外交等多個(gè)領(lǐng)域,而且同一文化主題涉及的領(lǐng)域之間又交叉融合,數(shù)據(jù)的專業(yè)歸屬相對(duì)比較模糊。再次,在少林文化類別維度上,“禪、武、醫(yī)、藝”并非孤立存在,其深層的思想邏輯、文化內(nèi)涵相輔相成,密不可分,數(shù)據(jù)與這種表象分類存在“多對(duì)多”的關(guān)聯(lián)關(guān)系。
因此,少林文化數(shù)據(jù)這種多維度多屬性特征,決定了從數(shù)據(jù)采集到價(jià)值挖掘,都需要依賴多種專業(yè)的高度融合,甚至還需要從時(shí)間、地點(diǎn)、人物、事件、事物、現(xiàn)象、場(chǎng)景中尋求碎片數(shù)據(jù)之間的隱含關(guān)聯(lián)性,以此相互印證、彼此粘連。這種典型的文化數(shù)據(jù)特征對(duì)大數(shù)據(jù)技術(shù)再一次提出了新的挑戰(zhàn)。
3 少林文化大數(shù)據(jù)平臺(tái)技術(shù)框架
少林文化大數(shù)據(jù)平臺(tái)是大數(shù)據(jù)技術(shù)經(jīng)度和少林文化緯度相互交織的表現(xiàn),試圖確保在不同應(yīng)用場(chǎng)景之間,呈現(xiàn)出一個(gè)覆蓋全要素、全過(guò)程、全周期的“經(jīng)緯圖”。在具有普適性大數(shù)據(jù)平臺(tái)基本功能的同時(shí),需顧及少林文化數(shù)據(jù)特征,并滿足少林?jǐn)?shù)據(jù)資產(chǎn)開(kāi)發(fā)與利用、禪宗文化傳承與傳播、少林知識(shí)研究與發(fā)展、少林寺務(wù)管理與決策的四大需求。平臺(tái)的核心層為數(shù)據(jù)層、邏輯層、應(yīng)用層,每層設(shè)計(jì)思想如表2所示。
4 少林文化大數(shù)據(jù)平臺(tái)關(guān)鍵技術(shù)
在少林文化大數(shù)據(jù)平臺(tái)建設(shè)過(guò)程中,不僅需要借用大數(shù)據(jù)相關(guān)技術(shù),還需要充分顧及少林文化數(shù)據(jù)的獨(dú)特性。本文主要從文化大數(shù)據(jù)語(yǔ)義解析、數(shù)據(jù)檢索查詢和文化時(shí)空化呈現(xiàn)三個(gè)方面,對(duì)涉及的自然語(yǔ)言處理(Natural Language Processing,NLP)、全文檢索引擎、文化時(shí)空可視化技術(shù)進(jìn)行闡述。
4.1 自然語(yǔ)言處理技術(shù)
自然語(yǔ)言處理(NLP)是對(duì)自然語(yǔ)言信息進(jìn)行處理的技術(shù)[1-2],主要實(shí)現(xiàn)人機(jī)間自然語(yǔ)言交流[3],包含自然語(yǔ)言理解和自然語(yǔ)言生成兩個(gè)層面[4-5],二者互為逆過(guò)程。[6]
通常情況下,NLP分為五個(gè)步驟:①獲取自然語(yǔ)言語(yǔ)料數(shù)據(jù)。②數(shù)據(jù)預(yù)處理。主要進(jìn)行數(shù)據(jù)清洗、謂語(yǔ)分詞、詞性標(biāo)注等工作。③語(yǔ)言規(guī)則性表達(dá)。一種是基于傳統(tǒng)的自然語(yǔ)言處理建模,對(duì)語(yǔ)料數(shù)據(jù)結(jié)構(gòu)化拆解與表達(dá)。另一種是基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)建模。④模型訓(xùn)練,可根據(jù)語(yǔ)料語(yǔ)種、語(yǔ)法特征、禁止約束規(guī)則等選擇樣本進(jìn)行模型訓(xùn)練。⑤結(jié)果評(píng)價(jià)。常用的評(píng)測(cè)指標(biāo)有準(zhǔn)確率、召回率、綜合評(píng)價(jià)指標(biāo)等。
少林文化數(shù)據(jù)歷史跨度大,數(shù)據(jù)資料存在文字多樣(古文字、繁體、梵語(yǔ)等)、標(biāo)點(diǎn)缺失(碑刻、古籍尤其突出)兩大問(wèn)題。因此,無(wú)法直接使用NLP進(jìn)行語(yǔ)義解析,而需要在上述第②、③步驟進(jìn)行優(yōu)化補(bǔ)充。
針對(duì)文字多樣問(wèn)題,平臺(tái)采用多字庫(kù)自增量動(dòng)態(tài)補(bǔ)充技術(shù),統(tǒng)一轉(zhuǎn)為現(xiàn)代字詞庫(kù),并由現(xiàn)代字詞庫(kù)映射到現(xiàn)代語(yǔ)義庫(kù)。初始狀態(tài)下,錄入各種詞典常用字(詞)數(shù)據(jù)作為多字庫(kù)基礎(chǔ)數(shù)據(jù)。后期根據(jù)語(yǔ)言模型,進(jìn)行反復(fù)訓(xùn)練,以此增補(bǔ)維護(hù)多字庫(kù)和現(xiàn)代語(yǔ)義庫(kù)。
針對(duì)標(biāo)點(diǎn)缺失問(wèn)題,主要基于現(xiàn)代研究成果,結(jié)合自學(xué)習(xí)算法進(jìn)行處理。事實(shí)上,標(biāo)點(diǎn)缺失與文字多樣問(wèn)題密不可分,二者需要相互交叉處理,初始狀態(tài)需采用人工干預(yù)方式進(jìn)行。
4.2 全文檢索技術(shù)
全文檢索技術(shù)是基于檢索資料的內(nèi)容而非僅基于外表特征的一種檢索技術(shù)。少林文化衍生數(shù)據(jù)主要是加工處理后的數(shù)據(jù),通常存儲(chǔ)在數(shù)據(jù)庫(kù)中,其檢索方式可以采用數(shù)據(jù)庫(kù)檢索方式。對(duì)少林文化原生數(shù)據(jù)實(shí)現(xiàn)全文檢索是本文討論的重點(diǎn),經(jīng)研究發(fā)現(xiàn),少林文化原生數(shù)據(jù)最終都可以轉(zhuǎn)換為文本和圖片兩種表達(dá)形式(轉(zhuǎn)換路徑如表3所示)。
(1)基于文本數(shù)據(jù)檢索
針對(duì)文本類數(shù)據(jù),全文檢索的實(shí)現(xiàn)過(guò)程可描述為:使用索引程序檢索文本資料中的每一個(gè)詞,對(duì)每一個(gè)詞建立一個(gè)索引(指明該詞在文中出現(xiàn)的次數(shù)和位置),當(dāng)用戶查詢時(shí),檢索程序就根據(jù)事先建立的索引進(jìn)行查找,并將查找結(jié)果及其關(guān)聯(lián)的源資料內(nèi)容一并反饋給用戶。因此,基于文本的全文檢索技術(shù)包括兩大核心內(nèi)容:索引處理和查詢處理。[7-8]
建立索引的目的是減少后續(xù)查詢的平均耗時(shí),但需要增加時(shí)間復(fù)雜度和空間復(fù)雜度。索引建立后,基于索引模型保存索引庫(kù),索引模型通常分為正排索引和倒排索引兩類。如今,建立索引的算法模型已經(jīng)比較成熟,本文不再贅述。
查詢處理是在索引建立之后完成。實(shí)際上針對(duì)大數(shù)據(jù)海量數(shù)據(jù)而言,傳統(tǒng)的檢索很難快速?gòu)臄?shù)據(jù)集中查找到所需要的信息[9],目前較為常用的是模糊匹配查詢技術(shù),如:動(dòng)態(tài)規(guī)劃字符串匹配[10]、自動(dòng)機(jī)模糊匹配。[11]
值得說(shuō)明的是:少林文化大數(shù)據(jù)平臺(tái)針對(duì)文本全文檢索時(shí),顧及文字多樣性問(wèn)題,需從原始文本庫(kù)和現(xiàn)代語(yǔ)義庫(kù)中同時(shí)檢索,以彌補(bǔ)傳統(tǒng)文本全文檢索的不足。
(2)基于圖片數(shù)據(jù)檢索
少林文化大數(shù)據(jù)平臺(tái)提供文化圖形元素基因的檢索功能,因此,針對(duì)圖片數(shù)據(jù)實(shí)現(xiàn)檢索時(shí),需要采用兩種技術(shù):基于內(nèi)容描述的圖片檢索和基于樣本的圖片匹配檢索。其中,前者是一種基于文本(語(yǔ)義)特征(如關(guān)鍵字、注釋等)的圖像檢索方法,可以理解為文本信息檢索技術(shù)在圖像檢索中應(yīng)用擴(kuò)展。[12]后者是一種基于視覺(jué)特征(如顏色、布局、紋理、形狀和結(jié)構(gòu)等)的圖像檢索方法,也常稱為基于內(nèi)容的圖像檢索技術(shù)。[13]
4.3 可視化引擎
可視化技術(shù)主要將可見(jiàn)、不可見(jiàn)或抽象的事物,采用符號(hào)、圖形、圖像、視頻等多種可視形式清晰直觀地呈現(xiàn)技術(shù)。從來(lái)源類型上可分為數(shù)據(jù)呈現(xiàn)和信息呈現(xiàn)兩種,前者主要針對(duì)數(shù)據(jù)本身進(jìn)行可視呈現(xiàn),而后者主要針對(duì)數(shù)據(jù)所承載的信息進(jìn)行可視呈現(xiàn),包括常用的空間信息可視化、地理空間信息可視化、時(shí)空信息可視化、地理時(shí)空信息可視化等。
從呈現(xiàn)形式上,可視化技術(shù)涵蓋包括:地理地圖可視化、文本可視化、多維數(shù)據(jù)可視化、動(dòng)態(tài)時(shí)序可視化、網(wǎng)絡(luò)圖可視化和時(shí)空數(shù)據(jù)可視化。
如上所述,少林文化數(shù)據(jù)存在明顯的多維度多屬性特征,少林文化主線很難從某個(gè)單一維度進(jìn)行可視化呈現(xiàn),因此,少林文化大數(shù)據(jù)平臺(tái)面向不同文化主線的描述形式,采用不同的可視形式。本文把少林文化主線的描述形式歸納為五種(如表4所示)。
5 結(jié) 語(yǔ)
少林文化集禪修、功夫、禪醫(yī)等多種文化元素于一身,具有跨宗教、跨種族、跨國(guó)界、跨文化的特色,使得少林文化大數(shù)據(jù)在數(shù)據(jù)來(lái)源、結(jié)構(gòu)特點(diǎn)等方面也有獨(dú)特的技術(shù)需求。少林文化大數(shù)據(jù)平臺(tái)作為少林文化價(jià)值的挖掘研究、作為傳播弘揚(yáng)少林文化內(nèi)涵的重要載體,在融合大數(shù)據(jù)通用技術(shù)基礎(chǔ)上,創(chuàng)新了具有少林文化屬性的相關(guān)技術(shù),對(duì)同類型屬性的文化大數(shù)據(jù)研究具有借鑒意義。
*本文系國(guó)家社科基金一般項(xiàng)目“國(guó)家大數(shù)據(jù)戰(zhàn)略背景下檔案數(shù)據(jù)治理體系構(gòu)建研究”(項(xiàng)目編號(hào):19BTQ097)階段性研究成果。
注釋與參考文獻(xiàn)
[1]劉小安,賈杉杉,彭濤.卷積神經(jīng)網(wǎng)絡(luò)在自然語(yǔ)言處理中的應(yīng)用研究綜述[C]//.中國(guó)計(jì)算機(jī)用戶協(xié)會(huì)網(wǎng)絡(luò)應(yīng)用分會(huì)2017年第二十一屆網(wǎng)絡(luò)新技術(shù)與應(yīng)用年會(huì)論文集.《計(jì)算機(jī)科學(xué)》編輯部(Editorial Board of Computer Science),2017:31-34,49.
[2][4]趙京勝,宋夢(mèng)雪,高祥.自然語(yǔ)言處理發(fā)展及應(yīng)用綜述[J].信息技術(shù)與信息化,2019(7):142-145.
[3]羅梟.基于深度學(xué)習(xí)的自然語(yǔ)言處理研究綜述[J].智能計(jì)算機(jī)與應(yīng)用,2020(4):133-137.
[5]李宜哲,王帥丁.自然語(yǔ)言處理的發(fā)展及應(yīng)用前景綜述[J].IT經(jīng)理世界,2020(5):210-211.
[6]Allen, J.自然語(yǔ)言理解 第2版[M].劉群,張華平,駱衛(wèi)華,等譯.北京:電子工業(yè)出版社,2005:3-9.
[7]孫芳媛.基于倒排索引和字典樹(shù)的站內(nèi)搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D].哈爾濱:哈爾濱工業(yè)大學(xué),2016:5-6.
[8]楊文清,黃宜華,張福炎.中文Web文檔庫(kù)全文檢索技術(shù)研究與實(shí)現(xiàn)[J].中文信息學(xué)報(bào),1999(4):50-57.
[9]王靜帆,鄔曉鈞,夏云慶等.中文信息檢索系統(tǒng)的模糊匹配算法研究和實(shí)現(xiàn)[J].中文信息學(xué)報(bào),2007(6):59-64.
[10]Ukkonen E. Algorithms for approximate string matching[J].Information and control,1985(1):100-118.
[11]Ukkonen E. Finding approximate patterns in strings[J]. Journal of Algorithms,1985(1):132-137.
[12]錢紀(jì)初.基于內(nèi)容的圖片檢索研究[D].杭州:浙江工業(yè)大學(xué),2007:2.
[13]杭燕,楊育彬,陳兆乾.基于內(nèi)容的圖像檢索綜述[J].計(jì)算機(jī)應(yīng)用研究,2002(9):9-13,29.