亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        非物質文化遺產(chǎn)的知識圖譜構建*

        2021-10-19 10:25:14范青史中超談國新
        圖書館論壇 2021年10期
        關鍵詞:三元組知識庫結構化

        范青,史中超,談國新

        人工智能及大數(shù)據(jù)的快速發(fā)展為非物質文化遺產(chǎn)(以下簡稱“非遺”)的傳承與保護提供了平臺,而如何在繁雜的數(shù)據(jù)中進行搜索,以可視化方式呈現(xiàn)非遺之間關聯(lián)關系是研究的熱點。知識圖譜是非遺可視化的主要應用工具,相關技術為互聯(lián)網(wǎng)時代的知識組織和知識關系顯示提供支撐[1]。傳統(tǒng)的知識圖譜在非遺領域的應用存在不足,主要表現(xiàn)為信息碎片化嚴重、知識耦合度不高、知識關聯(lián)性不強,限制了可視化的呈現(xiàn)效果。本文以RDF三元組為描述框架,闡釋區(qū)域非遺知識結構及數(shù)據(jù)關聯(lián),為碎片化的區(qū)域非遺數(shù)據(jù)資源統(tǒng)一建模和存儲,實現(xiàn)可視化表達;并以區(qū)域非遺項目為例,對非遺知識進行識別、抽取、表示等,構建可視化知識平臺。

        1 文獻綜述

        知識圖譜是以圖形方式呈現(xiàn)知識之間關聯(lián)關系的技術[2]。2012年,谷歌首次提出知識圖譜技術,通過搜索詞條向用戶展示相關詞條或關鍵字的相互關系,以便于快速發(fā)現(xiàn)信息和知識[3]。目前成熟的知識圖譜應用有Freebase[4]、Wikidata[5]等。知識圖譜在非遺領域的應用較廣泛,以圍繞本體和語義關系構建的應用為主。美國國家網(wǎng)絡化文化遺產(chǎn)倡導組織專門從事非物質文化的數(shù)字建構,如語義信息架構、語義關系、關鍵字索引呈現(xiàn)、文化內容數(shù)字化重構[6]。歐洲數(shù)字博物館較早采用語義網(wǎng)技術,通過分散、異構數(shù)字文化資源間的語義關聯(lián),將不同機構、不同元數(shù)據(jù)標準的信息資源進行統(tǒng)一,從知識表示、資源描述、本體構建和數(shù)據(jù)關系等方面實現(xiàn)非遺資源多維度可視化呈現(xiàn),成為歐洲重要的文化資源平臺[7]。Vincenzo等設計戲劇文化本體模型,包含戲劇實體、數(shù)據(jù)結構、描述框架等,并利用該模型構建具有人物情感及意圖的可視化圖譜[8]。Carriero等提出利用知識圖譜RDF技術將意大利非遺資源進行編碼分類,最終以SPARQL語言查詢和檢索各項非遺之間的關聯(lián)關系[9]。這一系列應用開啟了非遺資源數(shù)字化傳播的新時代。

        針對不同非遺文化分類及呈現(xiàn)形式,國內一般聚焦非遺數(shù)字化和語義關系研究。孫傳明運用知識表示、知識工程等技術,構建民俗舞蹈知識框架模型,為民俗舞蹈數(shù)字化保護提供借鑒[10]。上海圖書館推出的家譜知識庫、古籍循證平臺、名人手稿知識庫等數(shù)字非遺項目,以關聯(lián)數(shù)據(jù)技術和本體建構作為核心技術,實現(xiàn)知識可視化[11]。

        梳理知識圖譜應用現(xiàn)狀,發(fā)現(xiàn)基于關聯(lián)數(shù)據(jù)的資源整合集中應用在網(wǎng)絡信息資源、數(shù)字圖書館等領域,呈現(xiàn)出從理論研究轉向應用研究的趨勢,出現(xiàn)了大量實踐項目[12]。非遺知識庫的建立是為了通過語義檢索,可視化呈現(xiàn)非遺資源之間關聯(lián)關系[13]。目前非遺數(shù)字化的建構應用豐富,主要表現(xiàn)在本體、語義關系、數(shù)據(jù)關聯(lián)、資源聚合等方面。

        綜合國內外研究,利用語義關系建立關聯(lián)數(shù)據(jù),使其成為本體構建的一部分,是知識圖譜研究的熱點。國內基于知識圖譜的研究集中在數(shù)字人文語義網(wǎng)、數(shù)據(jù)關聯(lián)構建等方面,有關非遺知識圖譜構建、搜索及可視化表達的研究不多,缺乏對非遺領域知識服務的深層理解和應用。知識圖譜構建是非遺數(shù)字資源可視化呈現(xiàn)的重要組成部分,不僅涉及語義知識分析、表述框架設計、知識表示方法,還包括人物關系呈現(xiàn)、知識推理等復雜環(huán)節(jié)。本文針對以上局限,以非遺知識圖譜構建為創(chuàng)新點,探索區(qū)域非遺數(shù)字資源可視化應用研究。

        2 非遺知識圖譜模型構建

        目前我國非遺數(shù)字化資源保護取得一系列進展,也面臨以下問題:一方面資源入庫信息零散,關聯(lián)少;另一方面非遺資源庫缺少統(tǒng)一建設,未實現(xiàn)跨平臺、跨系統(tǒng)應用,難以實現(xiàn)多源異構數(shù)據(jù)的高效檢索和可視化呈現(xiàn)。知識圖譜技術為解決此問題提供契機,基于知識圖譜的知識構建與檢索可以實現(xiàn)異構非遺數(shù)據(jù)的共享、語義檢索、自動問答與可視化呈現(xiàn)等智能應用。本文從非遺信息內容、類型、呈現(xiàn)形式等方面著手,遵循從知識建構、知識存儲、知識管理到知識應用(語義搜索)的邏輯,構建以區(qū)域分布為特征的非遺知識庫,以解決非遺數(shù)字化資源耦合度不高、關聯(lián)性不強、低響應高延時等問題,構建框架見圖1。在語義搜索方面,以RDF為描述框架,對非遺資源實體、屬性進行描述,揭示非遺語義關系,形成非遺數(shù)據(jù)關聯(lián),便于網(wǎng)絡檢索和數(shù)字化傳播。

        圖1 非遺知識圖譜模型構建流程

        2.1 知識建構

        知識建構研究可以追溯到人工智能早期由Quillian[14]和Collins等[15]提出關于網(wǎng)絡知識建構的方法。知識建構實際是知識圖譜表示,是指選擇一種合適的語言對圖譜進行建模,描述實體間的語義關系,以便于網(wǎng)絡計算機識別及計算。從知識提取的角度來講,知識建構包括實體識別、知識表示和知識抽取。

        2.1.1 實體識別

        實體識別是從非遺文本數(shù)據(jù)源獲取知識的重要組成部分,命名實體是一個詞或一個短語,可以在具有相同或相似的屬性中標識一個事物[16]。命名實體識別(NER)是相同或相似事物集合的過程,有深度學習和機器學習兩種方法。在非遺知識圖譜建構中,本文采取基于深度學習的NER方法,即將非遺的相關文本轉換為自然語言處理的文本序列標注內容,以方便從中提取語義信息。深度學習中常用的架構是LSTM-CRF模型,其主體結構是長短時記憶網(wǎng)絡與條件隨機場(CRF),架構見圖2,由嵌入層、雙向LSTM層和CRF層組成。在嵌入層中,對網(wǎng)絡信息進行數(shù)據(jù)預處理(即one-hot編碼),將其轉化為向量輸入嵌入層,再經(jīng)過嵌入層處理得到相應信息的嵌入向量。在雙向LSTM層,有正負向量層(對應li和ri層)和信息加工ci層,li和ri層分別計算輸入對應的向量信息,ci層整合li和ri的信息并進行解碼輸出。在CRF層對輸入信息進行序列標注。

        圖2 LSTM-CRF結構圖

        2.1.2 知識表示

        知識表示是對現(xiàn)實世界的一種抽象表達。一個知識表示載體應具有較強的表達能力,使計算機執(zhí)行求解過程精確且高效。在計算機中,知識表示通常由符號和數(shù)值組成,以關聯(lián)圖表示實體間關系,而標量、概率等數(shù)值有助于刻畫知識更深層次的細節(jié)。在知識圖譜中,語義網(wǎng)絡、RDF三元組、實體關系圖均是知識表現(xiàn)的形式。圖模型是知識圖譜的邏輯表達方式,是人們最容易理解的一種知識表示,其基本思路是用圖中的點與邊代表數(shù)值化向量。在知識圖譜中,每一個事實都用一個三元組來表達,即頭實體(head entity),關系(relation),尾實體(tail entity),可將其定義為一個三元組(h,r,t),其中h和r分別表示頭實體和關系的向量,根據(jù)TransE模型假設,當h+r≈t,事實(h,r,t)成立,反之則不成立?;谶@一思路可以推導出TransE模型損失函數(shù),該函數(shù)用實體和關系的分布式向量表示。在函數(shù)中,對于每一個事實,三元組(h,r,t)表示頭實體、關系及尾實體對應的分布式向量,它們之間關系成立的程度可以通過平移關系來表達,其函數(shù)表達式如下:

        其中,l1/l2表示l1正則或l2正則。在知識圖譜中,對應的是實體與實體間存在的關系。例如,“撒葉兒嗬傳承人是黃在秀”和“皮影戲傳承人是林世敏”,三元組分別為(撒葉兒嗬,傳承人是,黃在秀)(皮影戲,傳承人是,林世敏)。頭實體“撒葉兒嗬”和“皮影戲”的向量加上關系“傳承人是”,可能接近尾實體“黃在秀”和“林世敏”,其知識表示的模型見圖3。

        圖3 非遺的TransE模型表示

        在實際中,函數(shù)值越小,對正例三元組集合越有利,而對負例三元組,函數(shù)值則需盡可能大。因此,為使非遺知識的區(qū)分度更加明顯,將Hing Loss目標函數(shù)引入TransE模型,其中r是間隔參數(shù),s是正例集合(知識庫已存在三元組),s'是負例集合(知識庫不存在三元組),使得其正負值盡可能分開:

        在非遺知識圖譜知識表示的過程之中,TransE模型通過向量的運算,能實現(xiàn)語義特征的高效獲取以及運算,從而最終實現(xiàn)知識挖掘。筆者采用TransE模型以提高計算效率,將知識內容快速映射到向量圖中,其相應的算法如下:

        2.1.3 知識抽取

        非遺數(shù)據(jù)主要有非結構化、結構化、半結構化等類型(見圖4)。結構化數(shù)據(jù)本身就已存在數(shù)據(jù)庫中,其知識組織計算機能夠識別,抽取簡單,只需將關系數(shù)據(jù)中的知識直接映射或轉換映射為RDF數(shù)據(jù)。半結構化數(shù)據(jù)是從Web信息中抽取的網(wǎng)頁內容,這類數(shù)據(jù)不符合關系數(shù)據(jù)庫的存儲規(guī)則,但有標簽及語義元素標記。非遺互聯(lián)網(wǎng)數(shù)據(jù)豐富,半結構化信息抽取也是非遺知識獲取的重要來源。非結構化抽取是從自由文本中提取知識,包括實體、關系及事件3個模塊,抽取過程主要基于已有的標注規(guī)則和知識庫,在3種數(shù)據(jù)來源中難度最大:在數(shù)據(jù)收集、文本處理、實體抽取、關系抽取等環(huán)節(jié)都可能存在噪聲和誤差,嚴重影響知識獲取的精度;由于來源多種多樣且結構復雜,數(shù)據(jù)處理變得尤為困難。在處理非結構化數(shù)據(jù)時采用API接口技術,允許用戶根據(jù)規(guī)則抽取文本信息實體與關系,以確保非遺知識圖譜構建的準確性。實體抽取目的是從非遺文本中抽取實體信息,如項目名稱、傳承人、區(qū)域、時間、遺產(chǎn)類別。

        圖4 知識抽取示意圖

        實體抽取,一般先從文本中識別和定位實體開始,然后再將實體劃歸到預定義的類別中。例如,對于自由文本“湖北省政府于2020年公布第六批荊楚非物質文化遺產(chǎn)目錄”,根據(jù)規(guī)則抽取的實體分別為“湖北省政府”“2020年”“荊楚非物質文化遺產(chǎn)”。

        關系抽取,這是指抽取兩個實體間的語義關系。在非結構化數(shù)據(jù)中,關系抽取與實體抽取密切聯(lián)系。在關系抽取中,先行找到三元組實體主體或客體,然后用句子信息填充三元組的其他部分,填充內容即是實體間關系。關系抽取是非結構化數(shù)據(jù)知識抽取的關鍵,目前基于關系抽取的方法有模板關系抽取、監(jiān)督學習關系抽取等。針對非遺數(shù)據(jù),監(jiān)督學習抽取方法更為合適?;诒O(jiān)督學習的關系抽取是從知識庫中找出具有實體與屬性的句子,構成訓練集,通過訓練集形成分類器,面向大量分類標注數(shù)據(jù)樣本,對輸入信息進行加工,以建立關系分類。基于監(jiān)督學習的關系抽取重點是訓練語料,包括語料獲取和分類器語料優(yōu)化兩個步驟。早期的知識抽取方法包括基于規(guī)則的關系抽取、詞典驅動的關系抽取、本體的關系抽取[17],這些方法描述語句不強,正確率低。為提高其準確率,在關系抽取中設定關系關鍵詞。例如,在非遺領域中,“遺產(chǎn)地區(qū)”關系可以為“位于”“坐落”等;“遺產(chǎn)發(fā)源時間”的關鍵詞可能是“起源”“建立”“設立”等。因此,在知識庫中關系名稱是單一的,但在網(wǎng)絡資源中對應的關系語言表達是多樣的。如果在關系抽取中直接匹配,會降低關系抽取的精度,而引入關系關鍵詞可以很好解決這一問題。分類器語料優(yōu)化與人工標注不同,人工標注往往會導致遺漏或錯誤,且只能用于簡單的知識圖譜關系抽取,分類器語料優(yōu)化是將非遺文本已標注語料設為正例,將未標注語料設置負例,按此算法反復迭代,最終完成文本分類。在分類器模型中,條件概率是關系抽取的關鍵,其公式見下:

        在式中,x是上下文,y是關鍵詞標簽,Z(x)是歸一化因子,λi是方程權重,fi(x,y)是特征方程。在關系抽取中,當x與y滿足條件時為1,不滿足時為0。

        事件抽取,主要是指從自然文本中抽取用戶所關注的事件信息,并以結構化的形式呈現(xiàn)出來。事件抽取包括元事件抽取和主題事件抽取。元事件是指一個動作的發(fā)生或狀態(tài)的變化,涉及時間、地點、參與者等。主題事件是指某類核心事件以及與其相關的活動。例如,針對某個非遺項目,可以從非遺文本庫中得到其非遺名稱、傳承人、區(qū)域、遺產(chǎn)類別等信息。事件抽取能夠從非結構化文本數(shù)據(jù)中匯集相關信息,實現(xiàn)對實體的完整描述。表1為事件抽取實例。

        表1 事件抽取實例

        2.2 知識存儲

        非遺資源包含大量數(shù)據(jù),其具有關聯(lián)性和靈活性,如何將這些數(shù)據(jù)有效表示和存儲是知識圖譜應用的關鍵。以傳統(tǒng)文件或關系數(shù)據(jù)庫存儲的知識圖譜越來越難以應用在非遺的知識管理中?;谛滦椭R圖譜的圖數(shù)據(jù)庫框架、數(shù)據(jù)模型及管理模型的設計和選型是大規(guī)模數(shù)據(jù)存儲的關鍵。

        2.2.1 存儲架構

        在圖數(shù)據(jù)庫存儲中,非遺數(shù)據(jù)龐大,必須構建一個能對數(shù)據(jù)進行高效訪問的圖數(shù)據(jù)庫框架,以提高知識圖譜存儲效率。圖數(shù)據(jù)庫存儲與傳統(tǒng)的數(shù)據(jù)庫存儲存在很大區(qū)別。傳統(tǒng)數(shù)據(jù)庫存儲時需考慮數(shù)據(jù)的動態(tài)讀寫操作等;而知識圖譜的存儲方式以三元組為單元,三元組信息以主、謂、賓的形式存在,其數(shù)據(jù)組織具有碎片化和靈活性。因此,知識圖譜的數(shù)據(jù)存儲必然具有高度靈活性和碎片化。知識圖譜存儲涉及到圖的節(jié)點、關系和屬性等數(shù)據(jù),要想對存儲的數(shù)據(jù)進行高效訪問,需考慮建立一個存儲代價小、訪問數(shù)據(jù)快的存儲框架。當數(shù)據(jù)規(guī)模龐大時,可采用分布式存儲以提高存儲系統(tǒng)的可擴展性。在分布式存儲中,各RDF數(shù)據(jù)節(jié)點分散存儲,相對獨立。因而,非遺知識圖譜有兩種存儲方式:屬性存儲和圖數(shù)據(jù)存儲。在分布式環(huán)境中,基于知識圖譜的數(shù)據(jù)結構,用屬性存儲方式管理數(shù)據(jù)之間的關系,減少自連接操作次數(shù),執(zhí)行效率高。而在圖數(shù)據(jù)存儲中,將RDF數(shù)據(jù)存儲到一個3列結構表中,對應三元組的主體、謂詞和客體3種數(shù)據(jù)。當用戶提出查詢請求時,系統(tǒng)會在三元組表中進行多次自連接以得到用戶搜索結果。高效的知識圖譜存儲架構包含數(shù)據(jù)層和模型層,如圖5所示。

        數(shù)據(jù)層定義存儲的物理結構,是圖數(shù)據(jù)庫的最底層,決定圖數(shù)據(jù)庫存儲管理的方式,包括存儲管理及數(shù)據(jù)操作。存儲管理涉及原生態(tài)的數(shù)據(jù)及關系數(shù)據(jù)。在數(shù)據(jù)操作中,數(shù)據(jù)預處理環(huán)節(jié)剔除無效數(shù)據(jù),以確保圖數(shù)據(jù)的精確性;此外,還包括數(shù)據(jù)導入、導出和數(shù)據(jù)修改。常用的數(shù)據(jù)層有兩種模型,分別為RDF(圖)模型和屬性圖模型。模型層主要功能是邏輯建模,提供圖數(shù)據(jù)庫的連接、編碼及接口擴展等服務,同時對外部的存儲訪問提供并行數(shù)據(jù)操作。

        圖5 圖數(shù)據(jù)存儲框架

        圖6 宜昌地區(qū)非遺知識圖譜RDF圖模型

        2.2.2 數(shù)據(jù)存儲模型

        數(shù)據(jù)模型定義圖數(shù)據(jù)庫的上層邏輯結構,其結構操作決定圖數(shù)據(jù)庫存儲、查詢的方法和效率。知識圖譜數(shù)據(jù)本質是圖數(shù)據(jù),傳統(tǒng)圖數(shù)據(jù)以二元組表示,其圖結構為G=(V,E),V表示節(jié)點集,E為邊集[18]?;谥R圖譜的數(shù)據(jù)模型源于圖結構表示方法,用頂點表示實體,邊表示實體間關系[19]。在知識圖譜中,以分塊方式來存儲不同實體類型,運用特征聚類方法處理未定義實體,將其歸入相近的語義類型。圖數(shù)據(jù)庫存儲過程遵循統(tǒng)一語義關系以及集中存儲原則,即底層使用相同存儲結構處理不同類型數(shù)據(jù),在語義搜索上兼容不同的數(shù)據(jù)庫查詢語言。知識圖譜的圖數(shù)據(jù)模型主要有RDF圖模型和屬性圖模型。

        (1)RDF圖模型。RDF是W3C制定的在語義萬維網(wǎng)上計算機可以理解的標準數(shù)據(jù)模型[20]。在三元組中,節(jié)點和邊都帶有標簽,展現(xiàn)知識圖譜的語義關聯(lián)。RDF圖模型定義為:設U、B、L分別為有限集合的統(tǒng)一資源標識符(URI)、空結點及字面量,每個RDF三元組(S,P,O)∈(U∩B)×U×(U∪B∪L)是一個陳述句,其中S是主語,P是謂語,O是賓語,則(S,P,O)表示資源S的屬性P取值為O。圖6展示湖北宜昌非遺知識圖譜三元組數(shù)據(jù)的圖形式,包括長陽山歌、地花鼓、撒葉兒嗬等非遺資源。在該RDF圖模型中,橢圓表示實體,矩形表示屬性值,有向邊表示一個三元組的謂詞,如三元組(長陽山歌,遺產(chǎn)類別,傳統(tǒng)音樂)表示長陽山歌的遺產(chǎn)類別是傳統(tǒng)音樂。長陽山歌申報地區(qū)是長陽土家族自治縣,但不知道具體申報地區(qū)的信息。實際上,RDF圖模型表示的邊屬性并不清晰,因此需要利用RDF中“具體化”技術[21],即引入額外點來表示整個三元組,將原邊屬性以新的三元組表示。如圖7所示,本文引入Dec_area代表(長陽山歌,申報地區(qū),長陽土家族自治縣),使用三元組的3個 元 素rdf:subject、rdf:predicate和rdf:object對應代表主語、謂語和賓語。這樣就形成了一個新的三元組,其集合形式為:

        G=((Dec_area,rdf:subject,長陽山歌),

        (Dec_area,rdf:predicate,申報地區(qū)),

        (Dec_area,rdf:object,長陽土家族自治縣)).

        圖7 RDF圖邊屬性表示

        部分RDF/XML代碼如下:

        <rdf:RDF

        xmlns:rdf="http://www.w3.org/1999/02/22-rdfsyntax-ns#">

        <xmlns:inc="http://hbinc.com/foaf/inc/11#">

        <xmlns:inc="http://hbinc.com/foaf/inc/21#">

        <rdf:Description

        rdf:about="http://hbinc.com/foaf/inc/11/ChangyangFolkSong">

        <inc:people>W(wǎng)ang Aimin</inc:people>

        <inc:alias>Xialibaren</inc:alias>

        <inc:sort>Traditional Music</inc:sort>

        <inc:region>Changyang</inc:region>

        </rdf:Description>

        <rdf:Description

        rdf:about="http://hbinc.com/foaf/inc/21/Changyang">

        <inc:city>Yichang</inc:city>

        <inc:area>"3,430"</inc:area>

        </rdf:Description>

        </rdf:RDF>

        RDF圖模型是特殊的有向標簽圖,本文利用這些標簽圖將所有資源連接起來,形成一個大規(guī)模的非遺知識圖譜。在標簽圖中,一個三元組的謂語也可以是另一個三元組的主語或賓語,映射在這個數(shù)據(jù)標簽圖中。邊的屬性也可以做頂點,這是RDF圖表現(xiàn)靈活之處。

        (2)屬性圖模型。屬性圖是知識圖譜另一種常用數(shù)據(jù)模型,定義為:G=(V,E,ρ,λ,σ)。其中,V表示頂點,E表示邊,且V∩E=φ;函數(shù)ρ:E→(V×V)是將邊映射到對應頂點,如ρ(E)=(V1,V2)表示頂點V1到V2存在邊E;Lab為標簽,函數(shù)λ=(V∪E)→Lab表示頂點或邊對標簽的映射,如e∈E(或v∈V)且λ(e)=l(或λ(v)=l),則邊e(或頂點v)的標簽是l;設屬性為pro,值為Val,函數(shù)σ=(E∪V)×pro→Val表示邊或頂點具有關系屬性,如e∈E(或v∈V)、ρ∈pro且σ(e,ρ)=Val(或σ(v,ρ)=Val),則邊e(或頂點v)的屬性pro是Val。與RDF相比,屬性圖對于節(jié)點屬性和邊屬性具有內在的支持。由工業(yè)界和圖數(shù)據(jù)管理領域學術界成員共同組成的關聯(lián)數(shù)據(jù)基準委員會(Linked Data Benchmark Council,LDBC)正以屬性圖為基礎對圖數(shù)據(jù)模型開展標準化工作[22],因此屬性圖在圖數(shù)據(jù)庫領域應用廣泛。

        圖8 非遺屬性圖

        圖8是宜昌地區(qū)部分非遺資源對應的屬性圖,從圖中可清晰看出每個頂點和邊都有一個ID(頂點:v1-v5,邊:e1-e4),且這些邊和頂點都有對應的類型標簽。在該屬性圖中,每個頂點和邊均有屬性,每一項屬性有賦值(如頂點v1:長陽山歌有3個屬性,賦值分別是:別名=“下俚巴人”,傳承人=王愛民,遺產(chǎn)類別=傳統(tǒng)音樂;邊e1:申報地區(qū)有一個屬性,為“特征=少數(shù)民族”)。因此,在沒有改變圖的整體結構下,屬性圖能更加清晰地表達非遺信息。

        非遺屬性圖的集合形式如下:

        函數(shù)ρ表示邊與頂點的關聯(lián),函數(shù)λ是頂點或邊的標簽,

        函數(shù)σ是基點或邊的關聯(lián)屬性,

        2.2.3 非遺知識圖譜存儲管理

        非遺知識圖譜數(shù)據(jù)相對傳統(tǒng)關系數(shù)據(jù)更具關聯(lián)性和鮮活性。在線查詢、離線分析、智能推薦、智能問答及高響應低延時是大規(guī)模知識圖譜存儲管理應用的新要求。因此,高效的知識圖譜存儲管理應做到以下兩點:其一是能高效處理隨機訪問數(shù)據(jù),圖存儲管理性能的好壞取決于隨機訪問數(shù)據(jù)的快慢,包括在線查詢任務和離線分析任務;其二是避免圖結構索引,索引通常會消耗大量時間和空間,對超線性、復雜度高、規(guī)模大的圖數(shù)據(jù)來說,獲取圖結構化信息是不可行的,但基于高效存儲及零索引(Index-free)的圖處理不僅可行而且高效[23]。在非遺數(shù)據(jù)存儲管理中,原生態(tài)管理系統(tǒng)Neo4j的最大特性是無索引鄰接,即圖數(shù)據(jù)的每個頂點、邊、標簽和屬性都被分別存儲在不同文件中,每個頂點都指向鄰接頂點,這種高效的圖遍歷能節(jié)省大量查找時間。Neo4j圖數(shù)據(jù)管理系統(tǒng)分為3層,分別為數(shù)據(jù)層、圖模型層和圖應用層。其中,數(shù)據(jù)層使用物理存儲模型,由底向上管理數(shù)據(jù)訪問接口,負責圖數(shù)據(jù)的物理訪問和存儲;圖模型層提供圖的節(jié)點、邊及標簽等操作接口,用于直觀操作圖數(shù)據(jù);圖應用層提供用戶查詢、關鍵詞搜索等功能。

        2.3 語義搜索

        智能搜索已成為互聯(lián)網(wǎng)時代重要的信息服務。語義搜索需處理顆粒度更精細的文本數(shù)據(jù)。原有的搜索對非結構化數(shù)據(jù)不再適用,現(xiàn)有的搜索算法也不能直接面向實體與關系的知識圖譜。在非遺數(shù)字化領域,語義搜索同樣具有重要的價值。如何從多源異構的數(shù)據(jù)中,根據(jù)用戶個性化信息需求,建立基于語義關系的非遺知識搜索,實現(xiàn)知識圖譜的個性化查詢是研究重點。在語義搜索與優(yōu)化方面,也需重點研究查詢系統(tǒng)的設計、結果優(yōu)化及展示等。語義搜索的核心思想在于呈現(xiàn)用戶信息多樣化需求,搜索設計應支持復雜信息需求,以精確的方式匹配用戶查詢,并對搜索結果進行排序。一般語義搜索方法有3種,分別是關鍵詞語義搜索、基于分面的語義搜索和基于表示學習的語義搜索。在非遺知識圖譜構建中,采用關鍵詞語義搜索,利用RDF圖模型,將關鍵詞轉換為結構化搜索。其步驟如下:首先,根據(jù)用戶輸入的關鍵詞對知識庫的三元組進行預處理,根據(jù)預處理映射關鍵詞索引,并在知識庫中建立與關鍵詞相關聯(lián)的邊和頂點;然后,在RDF三元組的知識庫中生成與關鍵詞搜索匹配的查詢子圖,并將子圖中的實體、關系替換成常量、變量和謂詞,生成結構化查詢;最后,通過查詢語言對RDF三元組知識庫查詢結果進行排序。在關鍵詞語義搜索中,圖的頂點距離用來衡量點的相關度,關鍵詞匹配得分是語義搜索過程中所返回的結果與關鍵詞的相符程度。非遺知識圖譜包含大量實體與關系,結構復雜,表達式多樣,而關鍵詞語義搜索使用戶無須指定精確的關鍵詞就能查到相關知識,其優(yōu)點是不需要建立大規(guī)模索引,所占存儲空間小。

        3 區(qū)域非遺知識圖譜的應用

        3.1 非遺知識庫展示平臺

        非遺知識圖譜需要多源渠道形成非遺數(shù)據(jù)知識庫,以知識抽取和融合技術進行構建[24]。其中,RDF技術將非遺數(shù)據(jù)轉換到圖數(shù)據(jù)庫中,提供鏈接、共享及查詢等操作。

        (1)數(shù)據(jù)獲取。對非遺信息的組織,文本和圖片資源收集是數(shù)據(jù)獲取的第一步。非遺種類繁多,有傳統(tǒng)舞蹈、傳統(tǒng)音樂、曲藝、民間文學、手工美術等。本文以地區(qū)非物質文化遺產(chǎn)及中國非物質文化遺產(chǎn)數(shù)字博物館資源為基礎,收集地區(qū)非遺基本信息,構建區(qū)域非遺知識圖譜知識庫。信息獲取來源:一是湖北非遺申報數(shù)據(jù),二是通過python技術提取網(wǎng)絡數(shù)據(jù),然后對數(shù)據(jù)進行預處理,剔除無效數(shù)據(jù)。

        (2)知識抽取。獲取非遺數(shù)據(jù)后,需對現(xiàn)有數(shù)據(jù)的知識和關系進行抽取,以構建非遺知識庫。知識抽取方法很多,有結構化、半結構化和非結構文本抽取。本研究對非遺領域的文本數(shù)據(jù)采用非結構化抽取,對網(wǎng)頁和數(shù)據(jù)庫數(shù)據(jù)采用結構化和半結構化抽取。

        (3)知識存儲。對獲取的非遺知識進行加工后,本文按知識圖譜的存儲規(guī)則將其轉換成RDF三元組存入知識庫。在存儲過程中,采用分布式存儲技術和分塊管理來保證非遺知識圖譜的使用效率。

        3.2 用戶語義搜索

        與互聯(lián)網(wǎng)中的檢索不同,非遺知識圖譜是處理粒度更細的語義數(shù)據(jù),原有算法很難應用到非結構化的實體和關聯(lián)數(shù)據(jù)中。知識圖譜查詢與檢索是通過語義模型建構來實現(xiàn)的,包括語言學模型和概念建模。其中,語言學模型主要涉及詞語關系建模、分類及同義詞庫,而概念模型主要是對語法元素(如主、謂、賓等)進行映射。同時,語義建模的解析過程必須是可以計算。在龐大的非遺知識庫中,語義搜索采用形式化結構,如在知識圖譜的關系庫中,采用RDF和OWL模型,RDF數(shù)據(jù)與非遺文檔形成了關聯(lián)。

        知識圖譜數(shù)據(jù)模型為RDF,它是W3C推薦的用來描述網(wǎng)絡資源、表示語義知識的重要標準。而SPARQL則是面向RDF圖模型的結構化查詢語言,目前已被W3C列為訪問RDF的標準查詢語言和協(xié)議。SPARQL查詢的核心類似三元組模式,不同的是,SPARQL語句中主、謂、賓語均是變量。為更好顯示區(qū)域非遺知識圖譜的應用,下面以查詢宜昌地區(qū)傳統(tǒng)舞蹈非遺項目的SPARQL語句為例,系統(tǒng)探究其查詢效果。有關代碼如下(結果見圖9):

        PREFIX inc:<http://hbinc.com/foaf/inc/1/>

        SELECT?item?content

        FROM <inc.rdf>

        WHERE{

        ?area inc:city?city.

        ?item inc:area?area.

        ?item inc:type?ty.

        Filter regex(?city,"^YiChang")

        Filter regex(?ty,"^dance")

        }

        圖9 查詢結果

        3.3 應用效果呈現(xiàn)

        節(jié)點是知識圖譜關聯(lián)關系呈現(xiàn)的關鍵,在區(qū)域非遺知識圖譜中節(jié)點數(shù)據(jù)有幾十萬條,這些數(shù)據(jù)以RDF形式存儲。下面同樣以宜昌為例,敘述非遺知識圖譜的可視化呈現(xiàn)效果。如圖10所示,湖北宜昌地區(qū)的非遺項目非常豐富,但需要注意的是,在非遺知識圖譜中關系均為有向圖,每一個節(jié)點都有各自的屬性。

        圖10 宜昌地區(qū)非遺知識圖譜

        本文所構建的非遺知識圖譜以區(qū)域形式進行可視化表達,通過城市或地名檢索呈現(xiàn)非遺之間的關系。在相關專家和非遺保護組織的支持下,非遺知識圖譜知識庫將更加豐富和龐大。通過知識庫構建的標準化及共享,非遺領域的可視化應用更加廣泛,實用性及可操作性更強?;诜沁z知識圖譜的研究,可為數(shù)字人文的應用提供了新思路,對我國非遺的可視化具有可供借鑒的價值。

        4 結語

        在大數(shù)據(jù)時代,知識圖譜的發(fā)展為非遺資源可視化研究提供新的方向。本文對知識圖譜的理論構建、知識建構、知識存儲等進行深入分析,指出知識建構包括實體識別,知識抽取及知識表示等3種過程。在知識的存儲管理中詳細分析數(shù)據(jù)存儲的架構、主要模型及管理方式。此外,本文以非遺知識數(shù)字化保護為契機,通過構建區(qū)域非遺知識庫平臺,運用知識圖譜相關技術展示區(qū)域內不同類型的非遺。雖然本文對知識的理論和應用研究還比較粗淺,但將知識圖譜的相關理論應用于區(qū)域非遺資源的數(shù)字化呈現(xiàn)是本研究的重點,以期為今后非遺數(shù)字化保護提出參考。未來的研究將進一步增加非遺的數(shù)量,以豐富非遺三元組知識庫;同時,在知識抽取的模型設計中,將深入分析比較不同抽取算法的執(zhí)行效率,以提高圖計算能力。

        猜你喜歡
        三元組知識庫結構化
        基于語義增強雙編碼器的方面情感三元組提取
        軟件工程(2024年12期)2024-12-28 00:00:00
        基于帶噪聲數(shù)據(jù)集的強魯棒性隱含三元組質檢算法*
        促進知識結構化的主題式復習初探
        結構化面試方法在研究生復試中的應用
        計算機教育(2020年5期)2020-07-24 08:53:00
        關于余撓三元組的periodic-模
        基于TRIZ與知識庫的創(chuàng)新模型構建及在注塑機設計中的應用
        高速公路信息系統(tǒng)維護知識庫的建立和應用
        基于Drupal發(fā)布學者知識庫關聯(lián)數(shù)據(jù)的研究
        圖書館研究(2015年5期)2015-12-07 04:05:48
        基于圖模型的通用半結構化數(shù)據(jù)檢索
        計算機工程(2015年8期)2015-07-03 12:20:35
        三元組輻射場的建模與仿真
        日韩精品一区二区三区视频| 久久精品无码中文字幕| 91免费播放日韩一区二天天综合福利电影 | 国产乱国产乱老熟300部视频 | 久久久久亚洲AV片无码乐播| 少妇深夜吞精一区二区| 免费av片在线观看网址| 中文人妻无码一区二区三区在线| 亚洲AⅤ无码片一区二区三区| av手机天堂在线观看| 国产小视频在线看不卡| 欧美aaaaaa级午夜福利视频| 亚洲制服无码一区二区三区| 手机免费在线观看日韩av| 精品熟人妻一区二区三区四区不卡| 一本加勒比hezyo无码人妻| 国产v综合v亚洲欧美大天堂 | 日韩国产自拍视频在线观看| 国产丝袜美女| 四虎影视永久在线精品| 国产精品自在在线午夜出白浆| 亚洲不卡在线免费视频| 午夜理论片yy44880影院| 日韩手机在线免费视频| 国产三级av在线播放| 一个人看的视频在线观看| 日本免费一区二区三区| 国产高清国内精品福利99久久| 亚洲乱码av中文一区二区第八页 | 欧美日韩中文亚洲另类春色| 日本久久大片中文字幕| 18禁黄污吃奶免费看网站| 手机看片久久国产免费| 玩弄丝袜美腿超短裙校花| 99久久无码一区人妻| 久久不见久久见免费视频7| 精品国产1区2区3区AV| 精品人妻一区二区三区视频| 无码av天堂一区二区三区| 亚洲an日韩专区在线| 在线视频观看一区二区|