宋雪雁 張祥青 張偉民
(吉林大學(xué)商學(xué)與管理學(xué)院,吉林 長(zhǎng)春 130012)
水書習(xí)俗涉及水族文化信仰、各類民間知識(shí)等內(nèi)容,融合了天文、地理、歷史、文學(xué)、哲學(xué)、宗教、倫理道德等多學(xué)科、多元化的知識(shí),具有重要的研究?jī)r(jià)值。2002年經(jīng)貴州省檔案館提名申報(bào),水書入選《中國檔案文獻(xiàn)遺產(chǎn)名錄》。2006年,國務(wù)院批準(zhǔn)“水書習(xí)俗”為“首批國家非物質(zhì)文化遺產(chǎn)”,“水書習(xí)俗”主要是指水族社會(huì)中水書先生運(yùn)用水書文獻(xiàn)為水族人民擇吉避兇(包括婚嫁、喪葬、起造、農(nóng)事、出行等)的民俗活動(dòng)[1]。基于對(duì)水書習(xí)俗相關(guān)研究梳理,發(fā)現(xiàn)水書習(xí)俗非物質(zhì)文化遺產(chǎn)內(nèi)容涉及水書文獻(xiàn)、水書先生、水族人民及其生活等內(nèi)容。國家重視水書習(xí)俗非物質(zhì)文化遺產(chǎn)資源的傳承與開發(fā),然而,由于水書先生面臨年齡較高、數(shù)量較少的狀態(tài),水書習(xí)俗非遺資源傳承與開發(fā)利用面臨困境與挑戰(zhàn)。為了傳承與開發(fā)水書習(xí)俗非遺資源,需要探索可行的知識(shí)化開發(fā)途徑,助力水書習(xí)俗非遺資源傳承與發(fā)展。
通過對(duì)相關(guān)文獻(xiàn)的檢索與梳理,本研究擬從水書習(xí)俗、知識(shí)抽取、基于知識(shí)元的知識(shí)組織3個(gè)方面對(duì)現(xiàn)有研究展開分析。
1.1.1 水書概念與特征
水書具有實(shí)用的操作性,廣泛運(yùn)用于民間婚喪嫁娶、生產(chǎn)生活趨吉避兇等諸多方面,對(duì)水族社會(huì)影響深遠(yuǎn)[2]。水書反映了水族宗教信仰、天文歷法、哲學(xué)思想、文字起源、文學(xué)藝術(shù)、布陣攻守諸多方面的內(nèi)容,是水族的百科全書,水族的“易經(jīng)”,既是解讀水族社會(huì)歷史文化的重要典籍,也是進(jìn)行宗教學(xué)、歷史學(xué)、民族學(xué)、民俗學(xué)、語言文學(xué)等多學(xué)科研究的重要資料,水書是中華民族的寶貴文化遺產(chǎn),具有極高的文物價(jià)值、文獻(xiàn)價(jià)值、史料價(jià)值[3]?!八畷钡母拍钪饕?個(gè)方面:在表征上是指水族的古文字系統(tǒng)和書范體系;在內(nèi)涵上是指用水族古文字書寫、編著的水族民間信仰文化和傳統(tǒng)知識(shí)的成文典籍;在外延上指與其具體應(yīng)用相關(guān)聯(lián)的民俗事項(xiàng)以及保留在水書先生頭腦中無文字記述的口傳知識(shí)與經(jīng)驗(yàn)[4]。從學(xué)者對(duì)水書的概念界定與特征描述中,可以發(fā)現(xiàn)水書在水族社會(huì)生活中占據(jù)重要的地位,是研究水族歷史、社會(huì)生活重要的載體,具有重要的歷史文化價(jià)值和文獻(xiàn)價(jià)值。
1.1.2 水書習(xí)俗傳承
現(xiàn)有學(xué)者關(guān)于水書習(xí)俗傳承研究涵蓋的內(nèi)容主要包括水書傳承人、水書傳承困境、水書傳承影響因素等方面。歐陽大霖[1]從水書先生群體狀態(tài)對(duì)水書習(xí)俗傳承危機(jī)進(jìn)行了分析,指出水書先生是水書習(xí)俗傳承的橋梁,在水書傳承中發(fā)揮重要的作用,由于當(dāng)前水書先生群體存在數(shù)量偏少、年齡偏大、文化程度偏低等問題,使水書習(xí)俗的傳承面臨嚴(yán)峻的危機(jī)。戴建國等[5]指出,在水書傳承中,主要方式為水書先生口傳心授,絕大部分普通水族人不識(shí)水字和水書,水書先生主導(dǎo)著水書的傳承和發(fā)展,而有些水書先生有自身相對(duì)狹隘的利益取向,強(qiáng)化了水書神秘性,使得水書只能為少數(shù)人掌握和運(yùn)用,因此阻礙了水書習(xí)俗的傳承。瞿智琳等[6]指出,水書的傳承方式、水書的學(xué)習(xí)過程等方面影響水書傳承和發(fā)展,其中,水書的傳承方式為家族傳承、擇徒傳承,這種傳承方式限制了水書學(xué)習(xí)群體,水書學(xué)習(xí)包括舉行拜師儀式、學(xué)習(xí)基礎(chǔ)知識(shí)等事項(xiàng),過程漫長(zhǎng)且艱辛。從以上學(xué)者對(duì)水書習(xí)俗傳承的研究可以發(fā)現(xiàn),水書先生在水書習(xí)俗傳承中起著主導(dǎo)作用,并且水書先生群體是年齡偏大以及數(shù)量較少的,只靠口耳相傳的方式限制了水書習(xí)俗的傳承。從學(xué)者的研究可以得出,應(yīng)探索以數(shù)字化的方式對(duì)水書習(xí)俗進(jìn)行知識(shí)化開發(fā),以此助力水書習(xí)俗非遺資源的傳承。
1.1.3 水書習(xí)俗資源的開發(fā)與利用
在水書習(xí)俗資源的開發(fā)與利用方面,王觀玉等[7]認(rèn)為,對(duì)水書習(xí)俗開發(fā)與利用的途徑包括對(duì)水書文獻(xiàn)進(jìn)行研究與翻譯,并對(duì)其進(jìn)行數(shù)字化處理、傳承水書習(xí)俗活動(dòng)以及開發(fā)水書文化產(chǎn)品,與旅游文化產(chǎn)品相結(jié)合,開發(fā)的產(chǎn)品如“牛角水書”“馬尾繡水書”等。黃天嬌等[8]指出,需要在文化傳承視域下建設(shè)水書古籍檔案數(shù)據(jù)庫,分析當(dāng)下古籍檔案數(shù)據(jù)庫存在水書古籍檔案資源分布零散、數(shù)據(jù)庫建設(shè)標(biāo)準(zhǔn)缺少規(guī)范化、古籍?dāng)?shù)字化缺乏專業(yè)人才等問題,從整合資源、規(guī)范格式、培養(yǎng)人才等方面對(duì)建設(shè)數(shù)據(jù)庫提出了建議。水書習(xí)俗資源的開發(fā)和利用目前主要集中于水書數(shù)字化處理、建立數(shù)據(jù)庫等方面的探討,鮮少涉及對(duì)水書習(xí)俗資源內(nèi)容的深層次開發(fā)。
深度學(xué)習(xí)技術(shù)可以實(shí)現(xiàn)細(xì)粒度的知識(shí)元抽取[9]。本研究通過梳理相關(guān)文獻(xiàn),發(fā)現(xiàn)國內(nèi)外學(xué)者運(yùn)用深度學(xué)習(xí)技術(shù)對(duì)知識(shí)進(jìn)行抽取的研究領(lǐng)域涉及軍事領(lǐng)域、醫(yī)療領(lǐng)域、非遺領(lǐng)域以及重大突發(fā)事件領(lǐng)域等,涉及的層次深入到文本的細(xì)粒度知識(shí)元抽取。Liao F等[10]提出了基于BiLSTM-CRF的軍用命名實(shí)體識(shí)別方法,應(yīng)用Attention結(jié)合BiLSTM的模型識(shí)別實(shí)體之間的語義關(guān)系,構(gòu)建了層次清晰、結(jié)構(gòu)靈活、可視化程度高的軍事知識(shí)體系。李培林[11]將BiLSTM-CRF模型運(yùn)用到電子病歷命名實(shí)體中,將Attention組合BiLSTM-CRF的模型運(yùn)用到電子病歷醫(yī)療關(guān)系抽取中,實(shí)現(xiàn)了患者診斷與癥狀、用藥情況及治療方式之間潛在聯(lián)系與隱性知識(shí)的挖掘。曾剛等[12]利用深度學(xué)習(xí)技術(shù)對(duì)萬里茶道數(shù)字資源進(jìn)行知識(shí)元抽取與知識(shí)元關(guān)系的分類研究,實(shí)現(xiàn)了對(duì)細(xì)粒度、多維關(guān)聯(lián)知識(shí)的揭示與展示。江川等[13]基于BERT模型對(duì)突發(fā)公共衛(wèi)生重大事件傳染病事件實(shí)體知識(shí)自動(dòng)抽取進(jìn)行了研究,對(duì)相關(guān)部門及時(shí)、可靠、有效地做決策具有借鑒意義?;诩扔醒芯靠梢园l(fā)現(xiàn),深度學(xué)習(xí)技術(shù)可以實(shí)現(xiàn)知識(shí)的有效抽取,能實(shí)現(xiàn)細(xì)粒度的知識(shí)元抽取,適用的研究領(lǐng)域?qū)挿骸?/p>
1.3.1 知識(shí)元概念與特征
基于對(duì)知識(shí)元相關(guān)文獻(xiàn)的梳理,發(fā)現(xiàn)目前對(duì)知識(shí)元概念的界定有兩種含義。張靜等[14]指出,知識(shí)元是獨(dú)立的、表征知識(shí)的不可再分割的一個(gè)元素,可以是一個(gè)公式、一個(gè)圖片、一個(gè)章節(jié)、一個(gè)概念、一段程序等。溫有奎等[15]指出,知識(shí)元結(jié)構(gòu)化特征可以表示為(SPO)三元組形式。本研究在梳理既有研究基礎(chǔ)上,認(rèn)為知識(shí)元是描述知識(shí)的最小單位,其可以用三元組形式結(jié)構(gòu)化表示。比如,《泐金·紀(jì)日卷》這本書是文獻(xiàn)知識(shí)元,〈《泐金·紀(jì)日卷》,是,水書文獻(xiàn)〉是三元組結(jié)構(gòu)化描述形式下的文獻(xiàn)知識(shí)元。在知識(shí)元特征的研究方面,孫成江等[16]認(rèn)為,知識(shí)元具有獨(dú)立性、唯一性、完整性、拓?fù)湫浴㈡溄有?、可組合性、可認(rèn)知性、可導(dǎo)航性等諸多特點(diǎn),文庭孝等[17]認(rèn)為,可以對(duì)知識(shí)元進(jìn)行自由切分與存取、自由組織與檢索,進(jìn)而實(shí)現(xiàn)對(duì)知識(shí)本身的自由組合與創(chuàng)造。
1.3.2 知識(shí)元描述
畢崇武等[18]借鑒元數(shù)據(jù)對(duì)信息資源的描述方法,提出知識(shí)元實(shí)體對(duì)象結(jié)構(gòu)的描述框架,該框架從知識(shí)標(biāo)識(shí)、知識(shí)描述、知識(shí)關(guān)系3個(gè)層面構(gòu)建知識(shí)元的實(shí)體對(duì)象結(jié)構(gòu),標(biāo)識(shí)組揭示知識(shí)元的內(nèi)在知識(shí)內(nèi)容、知識(shí)特征和屬性;關(guān)系組揭示知識(shí)元與其他知識(shí)元間的關(guān)聯(lián)關(guān)系,以及知識(shí)元與實(shí)體資源間的關(guān)系,將知識(shí)元?jiǎng)澐譃榉椒ㄐ汀⒏拍钚?、事?shí)型和數(shù)值型。索傳軍等[19]認(rèn)為,平面顯性N(通常N≥2,N為正整數(shù))元組是知識(shí)的主要表達(dá)方式,知識(shí)元的描述元素逐漸增加,描述模型日趨完備和全面。在知識(shí)元三元組描述模型中,高國偉等[20]描述為〈概念,關(guān)系,問題〉。在知識(shí)元四元組描述模型中,溫有奎等[21]描述為〈名稱,屬性,操作,導(dǎo)航〉,姜永常[22]描述為〈名稱,屬性,操作,鏈接〉。在知識(shí)元五元組描述模型中,劉淼等[23]描述為〈編號(hào),名稱,來源,類型,特征詞內(nèi)容〉。在知識(shí)元六元組描述模型中,姜永常[24]描述為〈對(duì)象名稱,對(duì)象起因,對(duì)象內(nèi)容,對(duì)象過程,對(duì)象結(jié)論,對(duì)象引文〉。
1.3.3 基于知識(shí)元的圖像資源和非物質(zhì)文化遺產(chǎn)資源知識(shí)組織
在基于知識(shí)元的圖像資源和文化遺產(chǎn)資源知識(shí)組織方面,趙雪芹等[25]構(gòu)建了一種數(shù)字人文圖像知識(shí)元本體模型,運(yùn)用Protégé實(shí)現(xiàn)了圖像知識(shí)元本體的可視化構(gòu)建,并以萬里茶道圖像資源為例進(jìn)行了數(shù)字人文圖像語義關(guān)聯(lián)展示,促進(jìn)了數(shù)字人文圖像資源的知識(shí)組織、語義關(guān)聯(lián)及知識(shí)服務(wù)。曾剛等[12]構(gòu)建了知識(shí)元語義描述模型,在此模型基礎(chǔ)上,利用深度學(xué)習(xí)技術(shù)進(jìn)行了萬里茶道知識(shí)抽取與知識(shí)組織,實(shí)現(xiàn)了萬里茶道歷史人文資源的細(xì)粒度、多維關(guān)聯(lián)知識(shí)的揭示與展示,促進(jìn)了萬里茶道數(shù)字資源的高效率開發(fā)與利用。董坤[26]構(gòu)建了非遺知識(shí)元描述模型,基于該模型對(duì)非遺多元知識(shí)及其知識(shí)之間語義關(guān)系進(jìn)行了抽取,實(shí)現(xiàn)了非遺知識(shí)的細(xì)粒度、多維關(guān)聯(lián)組織與聚合。
基于對(duì)既有研究的梳理可以發(fā)現(xiàn),水書習(xí)俗非遺資源是研究水族人民生活的重要資料。水書習(xí)俗傳承方式主要靠水書先生擇徒傳承,水書先生年齡普遍偏高并且數(shù)量較少,這造成了水書傳承的困境以及水書習(xí)俗難以高效開發(fā)和利用的問題。從細(xì)粒度知識(shí)元層面開發(fā)水書習(xí)俗非遺資源,將有助于其傳承與開發(fā)、利用。深度學(xué)習(xí)技術(shù)可以實(shí)現(xiàn)命名實(shí)體識(shí)別和關(guān)系抽取,可以從最小粒度知識(shí)元層面挖掘水書習(xí)俗內(nèi)容以及建立知識(shí)元之間的關(guān)聯(lián),因此本研究擬利用深度學(xué)習(xí)技術(shù)抽取水書習(xí)俗非遺資源知識(shí)元,建立知識(shí)元之間的關(guān)聯(lián)來實(shí)現(xiàn)水書習(xí)俗非遺資源的深層次開發(fā)與利用。
水書習(xí)俗非遺資源知識(shí)元既需要考慮知識(shí)元內(nèi)部結(jié)構(gòu)化知識(shí)的揭示和描述,也需要考慮知識(shí)元間多元關(guān)聯(lián)關(guān)系,充分挖掘水書習(xí)俗資源知識(shí)元的內(nèi)部屬性關(guān)系與外部多元關(guān)聯(lián)關(guān)系。文本借鑒董坤[26]的研究,將水書習(xí)俗非遺知識(shí)元語義模型定義為:KE=
基于以上模型對(duì)水書習(xí)俗非遺資源機(jī)構(gòu)/組織知識(shí)元“貴州省水家學(xué)會(huì)”這一實(shí)例進(jìn)行解析,如表1所示。
表1 機(jī)構(gòu)/組織知識(shí)元語義描述模型實(shí)例
本研究借鑒了曾剛等[12]、董坤[26]關(guān)于非遺領(lǐng)域知識(shí)元抽取的相關(guān)研究,以及本體概念模型“人”“事”“地”“時(shí)”“物”基本要素,結(jié)合對(duì)水書習(xí)俗非遺資源的分析,將水書習(xí)俗非遺資源的知識(shí)元定義為人物知識(shí)元、文獻(xiàn)知識(shí)元、時(shí)間知識(shí)元、空間知識(shí)元、機(jī)構(gòu)/組織知識(shí)元、實(shí)物知識(shí)元、事件/活動(dòng)/行為知識(shí)元、歷法知識(shí)元、項(xiàng)目知識(shí)元9種不同的類型。
人物知識(shí)元:包括解讀與翻譯水書的水書先生,出版、編著相關(guān)水書文獻(xiàn)的作者等;
文獻(xiàn)知識(shí)元:包括水書非遺資源相關(guān)內(nèi)容呈現(xiàn)的各類文獻(xiàn)形式;
時(shí)間知識(shí)元:包括水書相關(guān)出版時(shí)間,水書文化起源時(shí)間,以及水族一些事件活動(dòng)的發(fā)生時(shí)間等;
空間知識(shí)元:包括水書保存的地點(diǎn)位置,水書習(xí)俗起源的地點(diǎn),水族人民聚集的地點(diǎn)等;
機(jī)構(gòu)/組織知識(shí)元:包括水書資源保管機(jī)構(gòu),水家協(xié)會(huì),以及大力支持與保護(hù)水書習(xí)俗非遺資源發(fā)展的相關(guān)機(jī)構(gòu)/組織等;
實(shí)物知識(shí)元:包括水族民俗事項(xiàng)、活動(dòng)等用到的器具等;
事件/活動(dòng)/行為知識(shí)元:包括水族人民生活中發(fā)生的各種民俗事件/活動(dòng)/行為等;
歷法知識(shí)元:包括水書記載的天干、地支、二十八星宿、六十元甲子等相關(guān)的歷法知識(shí)等;
項(xiàng)目知識(shí)元:包括與水書習(xí)俗非遺資源相關(guān)的項(xiàng)目,例如,非遺項(xiàng)目水族端節(jié)、水書馬尾繡等。
上述9種水書習(xí)俗非遺資源知識(shí)元之間存在語義關(guān)系,比如,人物知識(shí)元與文獻(xiàn)知識(shí)元存在翻譯、出版等關(guān)系,人物知識(shí)元與歷法知識(shí)元存在依據(jù)、解讀等語義關(guān)系,文獻(xiàn)知識(shí)元與時(shí)間知識(shí)元存在出版時(shí)間等語義關(guān)系……,根據(jù)知識(shí)元類型與其語義關(guān)系組織水書習(xí)俗資源知識(shí)元語義網(wǎng)絡(luò),可以構(gòu)建較為系統(tǒng)的水書習(xí)俗知識(shí)組織體系,實(shí)現(xiàn)水書習(xí)俗知識(shí)元多維關(guān)系的關(guān)聯(lián)與展示。依據(jù)上述分析,本研究繪制了水書習(xí)俗非遺資源知識(shí)元類型與關(guān)系示例圖,如圖1所示。
圖1 水書習(xí)俗非遺資源知識(shí)元類型與關(guān)系示例
根據(jù)圖1可以得到,水書文獻(xiàn)《水書·九星卷》《泐金·紀(jì)日卷》包含了十大天干(甲、已、丙、丁等),十二地支(子、丑、寅、卯等)以及28星宿(東方青龍七宿:角木蛟等,北方玄武七宿:斗木獬等,西方白虎七宿:奎木狼等,南方朱雀七宿:井木犴等)等歷法知識(shí)。水書先生根據(jù)水書記載以及自身頭腦中存儲(chǔ)的歷法知識(shí)推算水族端節(jié)舉行的日期,端節(jié)是水族盛大的節(jié)日,其舉行日期為農(nóng)歷8月的第一個(gè)“亥”日開始至10月的亥日結(jié)束,歷時(shí)49天,在端節(jié)這一天需要舉行祭祀活動(dòng),祭祀時(shí)需要用到鼓,鼓面的圖案需要依據(jù)水書歷法繪制?!躲罱稹ぜo(jì)日卷》2007年出版,由貴州省檔案局、荔波縣人民政府編制,并且存放于荔波縣檔案館,荔波縣檔案館的地址位于貴州省黔南州荔波縣?!端畷ぞ判蔷怼?015年8月出版,責(zé)任者為貴州省民族古籍整理辦公室。
基于知識(shí)元類型與其語義關(guān)系可以構(gòu)建水書習(xí)俗非遺資源知識(shí)元語義網(wǎng)絡(luò),實(shí)現(xiàn)了細(xì)粒度知識(shí)元層面的水書習(xí)俗資源知識(shí)組織,形成序化的水書習(xí)俗知識(shí)結(jié)構(gòu)網(wǎng)絡(luò),推動(dòng)水書習(xí)俗非遺資源的開發(fā)和傳承,促進(jìn)其理解與利用。
本研究基于實(shí)體識(shí)別與關(guān)系抽取對(duì)水書習(xí)俗知識(shí)元組織進(jìn)行研究,運(yùn)用深度學(xué)習(xí)技術(shù)進(jìn)行水書習(xí)俗文本資源語料實(shí)體識(shí)別與關(guān)系抽取。實(shí)體識(shí)別是對(duì)水書習(xí)俗資源知識(shí)元術(shù)語的抽取,實(shí)體關(guān)系抽取是對(duì)知識(shí)元術(shù)語之間語義關(guān)聯(lián)的抽取。核心思想在于從最細(xì)粒度的知識(shí)元著手,挖掘知識(shí)元知識(shí)項(xiàng)及知識(shí)元之間具體的語義關(guān)聯(lián)關(guān)系,最后鏈接知識(shí)元形成水書習(xí)俗非遺資源知識(shí)網(wǎng)絡(luò)與組織體系。該方法主要包括構(gòu)建水書習(xí)俗資源的文本語料庫、實(shí)體識(shí)別、實(shí)體與實(shí)體關(guān)系抽取、實(shí)體屬性抽取、知識(shí)元關(guān)聯(lián)和知識(shí)元表征。本研究構(gòu)建的水書習(xí)俗非遺資源知識(shí)元組織框架如圖2所示。
圖2 基于實(shí)體識(shí)別與關(guān)系抽取的水書習(xí)俗非遺資源知識(shí)元組織框架
本研究將獲取的水書習(xí)俗非遺資源劃分為水書文獻(xiàn)、水書先生口述檔案、報(bào)紙、會(huì)議文獻(xiàn)、期刊文獻(xiàn)、網(wǎng)頁文獻(xiàn)等類型,采用基于規(guī)則的知識(shí)元屬性抽取方法[27]進(jìn)行水書習(xí)俗非遺資源的知識(shí)元抽取。
3.2.1 水書習(xí)俗非遺資源數(shù)據(jù)處理
本文運(yùn)用正則表達(dá)將水書習(xí)俗非遺資源各類型文獻(xiàn)由篇章級(jí)整理為句子級(jí),每個(gè)類型下選取代表性的文本,對(duì)包含人物、文獻(xiàn)、時(shí)間、機(jī)構(gòu)/組織、空間、事件/活動(dòng)/行為、項(xiàng)目、實(shí)物、歷法知識(shí)元的句子進(jìn)行實(shí)體以及實(shí)體關(guān)系標(biāo)注。因?yàn)橄嗤奈淖挚赡芨鶕?jù)語境的不同代表不同的含義,比如“水書”在不同語境下代表“項(xiàng)目”“文獻(xiàn)”不同實(shí)體含義,“水族馬尾繡”在不同語境下可能代表“項(xiàng)目”“實(shí)物”不同實(shí)體含義,而領(lǐng)域字典對(duì)其的方式可能會(huì)出現(xiàn)語義表達(dá)的錯(cuò)誤,并且水書習(xí)俗非遺領(lǐng)域目前沒有比較全面與權(quán)威的可供直接使用的字典,因此運(yùn)用領(lǐng)域字典的方式實(shí)現(xiàn)實(shí)體的自動(dòng)對(duì)齊與標(biāo)注的方式不太適用于本研究,所以本研究運(yùn)用人工標(biāo)注對(duì)領(lǐng)域文檔進(jìn)行標(biāo)注,選擇水書習(xí)俗非遺資源中涵蓋實(shí)體與實(shí)體關(guān)系較為全面的代表性文檔進(jìn)行標(biāo)注,以期獲得較為全面、科學(xué)的人工標(biāo)注數(shù)據(jù)集來進(jìn)行模型的訓(xùn)練與預(yù)測(cè)。由于領(lǐng)域文檔集數(shù)量較大,并且并非所有文本數(shù)據(jù)都涉及人物、時(shí)間、空間、機(jī)構(gòu)/組織、事件/活動(dòng)/行為等知識(shí)元,這會(huì)影響文本實(shí)體識(shí)別與關(guān)系抽取預(yù)測(cè)的結(jié)果。因此,本研究分別對(duì)各類型文獻(xiàn)中含有人物、時(shí)間、空間等知識(shí)元的關(guān)鍵句進(jìn)行部分標(biāo)注,并利用文本分類方法Bert Textcnn訓(xùn)練了一個(gè)魯棒性良好的關(guān)鍵句抽取模型,依次對(duì)每篇文檔進(jìn)行關(guān)鍵句和非關(guān)鍵句的預(yù)測(cè)與識(shí)別,最終將預(yù)測(cè)與識(shí)別出的關(guān)鍵句一一放入預(yù)先訓(xùn)練好的實(shí)體識(shí)別和關(guān)系抽取的模型,可以實(shí)現(xiàn)對(duì)水書習(xí)俗非遺資源的實(shí)體識(shí)別和關(guān)系抽取。
3.2.2 水書習(xí)俗非遺資源知識(shí)元抽取實(shí)驗(yàn)
1)數(shù)據(jù)標(biāo)注。本研究數(shù)據(jù)標(biāo)注采用人工標(biāo)注方式,標(biāo)注的實(shí)體與實(shí)體關(guān)系示例如圖3所示。
圖3 實(shí)體與實(shí)體關(guān)系標(biāo)注示例
2)實(shí)體識(shí)別模型訓(xùn)練。本研究應(yīng)用Bert-Bilstm-Crf方法進(jìn)行水書習(xí)俗非遺資源的實(shí)體識(shí)別,將標(biāo)注的數(shù)據(jù)80%用于訓(xùn)練,剩余20%進(jìn)行預(yù)測(cè),獲得的實(shí)體預(yù)測(cè)模型結(jié)果如表2所示,從表2中可以看出,人物、文獻(xiàn)、時(shí)間、空間等實(shí)體識(shí)別的區(qū)間準(zhǔn)確率達(dá)到81.63%,區(qū)間召回率達(dá)到83.07%,區(qū)間F1值達(dá)到82.24%,經(jīng)過實(shí)驗(yàn)反復(fù)訓(xùn)練,獲得了一個(gè)魯棒性良好的實(shí)體預(yù)測(cè)模型,可以實(shí)現(xiàn)對(duì)水書習(xí)俗非遺資源語料的實(shí)體識(shí)別預(yù)測(cè)。
表2 水書習(xí)俗非遺資源領(lǐng)域?qū)嶓w識(shí)別預(yù)測(cè)模型參數(shù)結(jié)果 %
3)關(guān)系抽取模型訓(xùn)練。本研究應(yīng)用Bert-Att-Bilstm模型對(duì)水書習(xí)俗非遺資源領(lǐng)域已標(biāo)注數(shù)據(jù)進(jìn)行實(shí)體關(guān)系的訓(xùn)練與預(yù)測(cè),將隨機(jī)抽取80%的數(shù)據(jù)集進(jìn)行訓(xùn)練,20%數(shù)據(jù)進(jìn)行測(cè)試,測(cè)試的數(shù)據(jù)集是從未參加過訓(xùn)練的數(shù)據(jù),提升測(cè)試模型的泛化能力,獲得的關(guān)系抽取預(yù)測(cè)結(jié)果如表3所示,將實(shí)體與實(shí)體的關(guān)系設(shè)定為祭祀對(duì)象/紀(jì)念對(duì)象、推算、聚居于/生活于/起源于、學(xué)習(xí)/翻譯/解讀/應(yīng)用等14種類型,每種關(guān)系對(duì)應(yīng)的主題類別、客體類別、準(zhǔn)確率、召回率、F1值如表3所示,由數(shù)據(jù)結(jié)果可以得出,本研究訓(xùn)練的預(yù)測(cè)模型可以較好地實(shí)現(xiàn)水書習(xí)俗非遺資源人物、時(shí)間、空間、文獻(xiàn)等實(shí)體之間關(guān)系抽取。
表3 水書習(xí)俗非遺資源領(lǐng)域?qū)嶓w關(guān)系識(shí)別預(yù)測(cè)模型參數(shù)結(jié)果 %
4)模型預(yù)測(cè)結(jié)果。對(duì)領(lǐng)域集文檔選擇具有代表性的文檔人工標(biāo)注特征句,以含有人物、文獻(xiàn)、時(shí)間、空間、機(jī)構(gòu)/組織、實(shí)物、歷法實(shí)體特征詞來標(biāo)注特征句,運(yùn)用Bert Textcnn方法對(duì)人工標(biāo)注的文檔集進(jìn)行特征句與非特征句分類的訓(xùn)練與預(yù)測(cè),預(yù)測(cè)模型特征句識(shí)別的效果準(zhǔn)確率達(dá)到了93%,模型魯棒性較優(yōu)。將剩余文檔集每篇文檔一一放入訓(xùn)練好的模型中,共抽取出8 321條數(shù)據(jù)。將識(shí)別出的知識(shí)元特征句放入預(yù)先訓(xùn)練好的實(shí)體識(shí)別和關(guān)系抽取模型中,經(jīng)過人工檢查與校對(duì),共整理出水書習(xí)俗非遺資源人物(水書先生、陸鐸公等)、行為/事件/活動(dòng)(拜師儀式、祭拜陸鐸公、占卜算命等)、文獻(xiàn)(《二十八卷》《營造卷》等)、空間(貴州省荔波縣等)、機(jī)構(gòu)/組織(荔波縣檔案史志館等)、歷法(一元甲子、七元甲子、水歷、天干地支等)、時(shí)間(殷商時(shí)期、秦漢時(shí)期等)、實(shí)物(鼓、鑼、馬尾繡等)、項(xiàng)目(水書、水書習(xí)俗、水族馬尾繡、水族卯節(jié)等)456個(gè)核心實(shí)體。
水書習(xí)俗非遺資源的知識(shí)組織包括內(nèi)部知識(shí)單元聚合與外部知識(shí)單元聚合,在上述知識(shí)元抽取基礎(chǔ)上,可以基于知識(shí)元鏈接構(gòu)建水書習(xí)俗非遺資源知識(shí)元語義組織網(wǎng)絡(luò),本研究以水書習(xí)俗非遺資源相關(guān)文獻(xiàn)知識(shí)元、機(jī)構(gòu)知識(shí)元、歷法知識(shí)元為例,構(gòu)建的知識(shí)元語義組織網(wǎng)絡(luò)如圖4所示。
圖4 基于知識(shí)元鏈接的水書習(xí)俗非遺資源知識(shí)元組織網(wǎng)絡(luò)
從圖4可以看出,《泐金·紀(jì)日卷》《水書常用字典》是文獻(xiàn)知識(shí)元,十天干是歷法知識(shí)元,荔波縣檔案史志館是機(jī)構(gòu)知識(shí)元。知識(shí)元的內(nèi)部聚合指的是知識(shí)元術(shù)語與知識(shí)項(xiàng)的關(guān)聯(lián),知識(shí)項(xiàng)是知識(shí)元自身屬性也就是實(shí)體屬性,例如在《泐金·紀(jì)日卷》中,其自身屬性是貴州人民出版社出版,2007年10月出版,內(nèi)容包括七元甲子,貴州省檔案局(館)、荔波縣人民政府編著等。知識(shí)元的外部聚合指的是知識(shí)元與知識(shí)元的關(guān)聯(lián),如圖所示,《泐金·紀(jì)日卷》《水書常用字典》之間是關(guān)聯(lián)關(guān)系,其都包含十天干歷法知識(shí)元,并且《泐金·紀(jì)日卷》保管的機(jī)構(gòu)是荔波縣檔案館。
依據(jù)知識(shí)元之間邏輯依存關(guān)系可以構(gòu)建水書習(xí)俗非遺資源知識(shí)鏈,知識(shí)鏈的邏輯組合形成了水書習(xí)俗非遺資源知識(shí)元語義網(wǎng)絡(luò),從而實(shí)現(xiàn)由水書習(xí)俗非遺資源知識(shí)元到知識(shí)網(wǎng)絡(luò)的有效遞進(jìn)。基于知識(shí)元聚合組織水書習(xí)俗非遺資源實(shí)現(xiàn)了復(fù)雜語義的表達(dá),助力了水書非遺資源的知識(shí)化開發(fā)與利用。
知識(shí)元具有自由組合的特點(diǎn),即知識(shí)元通過自由的鏈接實(shí)現(xiàn)知識(shí)的重組,帶來知識(shí)的創(chuàng)造與增值,本部分研究以抽取的《泐金·紀(jì)日卷》歷法知識(shí)元為例,對(duì)知識(shí)元重組與可視化進(jìn)行探究。
圖5 第一元甲子立法知識(shí)元
圖6 宜出行活動(dòng)歷法知識(shí)元(第一元甲子)
對(duì)于水族人而言,可能在同一天會(huì)進(jìn)行兩種或者兩種以上的活動(dòng)/行為,比如以修造魚塘和修糧倉為例,忌諱進(jìn)行這兩種活動(dòng)的宿日有甲子虛日鼠、庚申虛日鼠、壬子虛日鼠、戊申虛日鼠、丙子虛日鼠、庚子虛日鼠、丙申虛日鼠等,這些宿日分別屬于《泐金·紀(jì)日卷》的第一元甲子、第二元甲子、第三元甲子、第四元甲子、第五元甲子、第六元甲子,如圖7所示。
圖7 忌修造魚塘糧倉歷法知識(shí)元
通過對(duì)歷法知識(shí)元重組,可以發(fā)現(xiàn)不同鏈接關(guān)系重組知識(shí)元,會(huì)得到不同的結(jié)果,例如,依據(jù)《泐金·紀(jì)日卷》七元甲子組織,依據(jù)活動(dòng)分類組織。
依據(jù)活動(dòng)分類去重組宿日知識(shí)元時(shí),可能會(huì)得到交叉重復(fù)的結(jié)果,宿日既適宜出行,也適宜嫁娶,有可能宿日適宜出行,忌諱做其他的活動(dòng)。除此之外,根據(jù)宿日的屬性(吉/兇/吉兇)組織宿日知識(shí)元,也會(huì)得到不同的結(jié)果,依據(jù)《泐金·紀(jì)日卷》,屬性吉的宿日共75個(gè),屬性兇的宿日共62個(gè),屬性有吉有兇的共283個(gè),而以上屬性吉、屬性兇以及屬性吉兇的宿日分布在不同的甲子中,比如在一元甲子中,屬性吉的宿日有12個(gè),屬性兇的宿日有9個(gè),屬性有吉有兇的宿日39個(gè);在二元甲子中,屬性吉的宿日有9個(gè),屬性兇的宿日有11個(gè),屬性有吉有兇的宿日有40個(gè);在七元甲子中,屬性吉的宿日有10個(gè),屬性兇的宿日有7個(gè),屬性有吉有兇的宿日有43個(gè)。因此,一元甲子至七元甲子下的屬性吉的宿日可以重組為一個(gè)單元,一元甲子至七元甲子下的屬性兇的宿日可以重組為一個(gè)單元,一元甲子至七元甲子下屬性有吉有兇的宿日可以重組為一個(gè)單元。
知識(shí)元庫構(gòu)建是面向知識(shí)構(gòu)建的[28],知識(shí)元庫可以存儲(chǔ)抽取的水書習(xí)俗非遺資源知識(shí)元及其語義關(guān)聯(lián),形成知識(shí)內(nèi)容之間的內(nèi)在協(xié)同關(guān)聯(lián)[29],可以實(shí)現(xiàn)水書習(xí)俗非遺資源知識(shí)元的長(zhǎng)久存儲(chǔ)、有效管理,為利用者提供高質(zhì)量的知識(shí)檢索服務(wù),促進(jìn)水書習(xí)俗非遺資源的深度利用?;谝陨涎芯?,本文構(gòu)建水書習(xí)俗非遺資源知識(shí)元庫示例,如圖8所示。
圖8 水書習(xí)俗非遺資源知識(shí)元庫示例
根據(jù)圖8可知,在關(guān)聯(lián)事件/活動(dòng)/行為知識(shí)元下,祭祀神族、婚喪等是水族人民依靠水書的指導(dǎo)進(jìn)行的各類民俗活動(dòng),水族水書先生依據(jù)水書利用竹子、石頭等實(shí)物進(jìn)行卜卦,以此推算各類活動(dòng)吉兇時(shí)間,拜師儀式是一些水族人向水書先生拜師學(xué)習(xí)水書的儀式。在關(guān)聯(lián)項(xiàng)目知識(shí)元下,水書是中國檔案文獻(xiàn)遺產(chǎn),水族端節(jié)、水族馬尾繡是國家級(jí)非物質(zhì)文化遺產(chǎn),水族卯節(jié)是省級(jí)非物質(zhì)文化遺產(chǎn)。在關(guān)聯(lián)人物知識(shí)元下,陸鐸公是水族水書的創(chuàng)始人,潘老平、歐金海是水書習(xí)俗非遺項(xiàng)目的相關(guān)傳承人,潘朝霖、蒙耀遠(yuǎn)是現(xiàn)代研究水書的知名學(xué)者。在關(guān)聯(lián)實(shí)物知識(shí)元之下,豪灘酒、九阡酒等是水族當(dāng)?shù)丶漓?、招待客人的必備食物,鼓、嗩吶是水族人民在?jié)日里慶祝、祭祀等活動(dòng)中用到的重要器具,牛角、錢幣等是水書重要的載體。在關(guān)聯(lián)的文獻(xiàn)知識(shí)元下,《百越留源史》是關(guān)于水族人民起源的文獻(xiàn),《水書常用字典》收錄了水族常用的水字,《喪葬卷》《超度卷》《祭祖卷》是關(guān)于對(duì)已逝水族人的出喪以及對(duì)祭奠祖先活動(dòng)的相關(guān)文獻(xiàn),《營造卷》《金堂卷》主要關(guān)于水族入新房選擇吉時(shí)的文獻(xiàn),《婚嫁卷》是關(guān)于水族婚姻嫁娶活動(dòng)指導(dǎo)的文獻(xiàn),其他《日歷卷》《七元宿卷》等是關(guān)于水族歷法的相關(guān)文獻(xiàn)。在關(guān)聯(lián)的空間知識(shí)元下,貴州省三都縣、荔波縣、獨(dú)山縣是水族人民聚居的地區(qū),貴州省黔南布依族苗族自治州是水書習(xí)俗申報(bào)的地區(qū)。在關(guān)聯(lián)的機(jī)構(gòu)/組織知識(shí)元下,國家檔案局、中央檔案館首批“水書文獻(xiàn)”為“中國檔案文獻(xiàn)遺產(chǎn)名錄”,荔波縣檔案史志館保管了很多珍貴的水書文獻(xiàn),貴州省水家學(xué)會(huì)是以水族及水族地區(qū)為研究對(duì)象的學(xué)術(shù)機(jī)構(gòu)。關(guān)聯(lián)時(shí)間知識(shí)元下,傳說水族是殷商之后逐步繁衍而形成的單一民族[30],唐宋時(shí)期,水族散居于龍江流域黔桂兩省區(qū)毗鄰地帶,農(nóng)歷十月初至十一月中旬是水族舉行端節(jié)的時(shí)間,農(nóng)歷五月六月的卯日是水族人民舉行卯節(jié)的時(shí)間。在關(guān)聯(lián)的歷法知識(shí)元下,十天干、十二地支、二十八星宿之間的不同組合形成水書歷法的七元甲子,九宮八卦是古代中國天文學(xué)家將天宮以井字劃分乾宮、坎宮、兌宮等9個(gè)部分。
水書習(xí)俗非遺資源知識(shí)元庫可以展示分類后的具體知識(shí)元實(shí)例,便于發(fā)現(xiàn)知識(shí)元之間的邏輯關(guān)聯(lián),在知識(shí)元主題領(lǐng)域劃分清晰的前提下,利用者可以高效獲取和利用水書習(xí)俗相關(guān)知識(shí),并發(fā)現(xiàn)新的知識(shí)。構(gòu)建知識(shí)元庫可以實(shí)現(xiàn)水書習(xí)俗非遺資源的結(jié)構(gòu)化、有序化和語義關(guān)聯(lián),為利用者提供更為有效的知識(shí)服務(wù),促進(jìn)水書非遺資源的知識(shí)化傳承與利用。
本文基于實(shí)體識(shí)別與關(guān)系抽取對(duì)水書習(xí)俗非遺資源知識(shí)元組織進(jìn)行了研究,在知識(shí)元及其關(guān)系抽取的基礎(chǔ)上,進(jìn)行了知識(shí)元重組與可視化,并構(gòu)建了水書習(xí)俗非遺資源知識(shí)元庫示例。未來將繼續(xù)豐富水書習(xí)俗非遺相關(guān)資源知識(shí)組織網(wǎng)絡(luò),并建立水書習(xí)俗非遺資源知識(shí)元庫以不斷深化研究,助力水書習(xí)俗非遺資源數(shù)字化、知識(shí)化開發(fā)與傳承。