李宏杰,黃 薇,王 奔
(1. 廣西民族大學(xué)人工智能學(xué)院,南寧 530006;2. 廣西民族大學(xué)電子信息學(xué)院,南寧 530006)
知識圖譜從被提出至今,已經(jīng)被各行各業(yè)廣泛關(guān)注和使用[1]。知識圖譜模仿人類推理和解決問題的方式,通過圖表示節(jié)點、邊表示節(jié)點間的關(guān)系來表示知識,從知識圖譜所存儲的知識中獲得解決更復(fù)雜問題的能力[2-3]。作為一種結(jié)構(gòu)化的知識形式[4],知識圖譜是一種語義圖,用于表示知識,在各界都得到了廣泛應(yīng)用。知識圖譜所表示的語義結(jié)構(gòu)化信息特性為許多任務(wù)提供了潛在的解決方案,包括問答、推薦和信息檢索,并且許多研究人員認為有更大的發(fā)展前景。自“大數(shù)據(jù)”一詞出現(xiàn)以來,知識圖已經(jīng)在各個場景和領(lǐng)域得到運用[5]。知識圖譜的應(yīng)用和構(gòu)建是兩個重要的研究方向。構(gòu)造技術(shù)的研究側(cè)重于圖中知識的提取、表示、融合和推理[6],例如從非結(jié)構(gòu)化文本中提取實體和關(guān)系后,將它們正確地連接到知識圖譜,并從這些知識圖譜中推理新的事實。而應(yīng)用研究則側(cè)重于將知識圖譜應(yīng)用于實際系統(tǒng)和特定領(lǐng)域。知識圖譜作為語義網(wǎng)的數(shù)據(jù)支撐,近年來成為了研究與應(yīng)用的熱點問題。知識圖譜將實體表示為節(jié)點,實體與實體間的關(guān)系表示為節(jié)點間的邊,從而形成了一個巨大的知識網(wǎng)絡(luò)[7]。
廣西壯族自治區(qū)擁有秀美的自然風(fēng)光資源,豐富的風(fēng)土人情文化,孕育出燦爛的的非物質(zhì)文化遺產(chǎn)項目文化和優(yōu)秀的非物質(zhì)文化遺產(chǎn)傳承人。廣西擁有著豐富的非物質(zhì)文化遺產(chǎn)資源,是廣西乃至全國的文化瑰寶,但在傳播與宣傳上存在著明顯的不足,傳播形式不夠多元[8],保護措施不夠完善等。
目前,雖然已有結(jié)構(gòu)化的廣西非物質(zhì)文化遺產(chǎn)數(shù)據(jù),但是仍存在著大量的非結(jié)構(gòu)化數(shù)據(jù)未被利用與挖掘。從非結(jié)構(gòu)化數(shù)據(jù)中抽取信息是廣西非物質(zhì)文化遺產(chǎn)知識構(gòu)建的一個巨大挑戰(zhàn)。無論是使用基于規(guī)則或基于語法等傳統(tǒng)的自然語言的方法都無法準確地從非結(jié)構(gòu)化數(shù)據(jù)中抽取知識,因此,本文基于BERT模型對非結(jié)構(gòu)化數(shù)據(jù)進行實體與關(guān)系抽取,從而從非機構(gòu)化數(shù)據(jù)中準確抽取知識[9-10]。
中文文本處理的一大難點在于分詞處理,但在特定領(lǐng)域下的中文分詞,無論是精準模式、全模式、搜索引擎模式下的jieba 分詞模式,非遺數(shù)據(jù)的分詞效果都不理想,見表1。
表1 jieba分詞效果
由于非遺名稱以及非遺數(shù)據(jù)中的一些詞匯并非通用詞匯,在jieba 原始詞典中并沒有關(guān)于非遺領(lǐng)域的詞,導(dǎo)致了使用jieba 分詞后有些實體并沒有被精準地切分出來。分詞的效果會直接影響實體的提取以及最終知識圖譜的構(gòu)建效果。因此簡單的分詞方法已不適用于非遺數(shù)據(jù)文本處理。
詞性標注的方法分為基于規(guī)則的詞性標注方法和基于統(tǒng)計的詞性標注方法,基于統(tǒng)計的詞性標注方法主要有隱馬爾科夫模型(HMM)[11]。該模型可以由隱藏狀態(tài)序列生成觀測序列。利用該模型進行詞性標注,見表2[12]。
表2 jieba詞性標注
由于分詞和詞性標注方法都無法把實體抽取出來,因此,本文使用基于BERT模型的命名實體識別方法對文本中的實體進行抽取。首先,需要把每一個詞轉(zhuǎn)換成詞向量,這樣做是為了把每一個單詞轉(zhuǎn)換成可用于計算機計算的向量。獨熱編碼、Word2Vec 和Glove 都是傳統(tǒng)的詞向量模型,但這些詞向量模型僅僅只是把低維的向量影射到更高維的向量空間中,并沒有很好地表現(xiàn)詞與詞之間的關(guān)聯(lián)。本文使用BERT模型作為詞向量的生成模型,BERT 模型參考上下文信息,相對于其它模型而言可以解決一詞多義的問題。
BiLSTM 模型被廣泛應(yīng)用于自然語言處理任務(wù)中,它的出現(xiàn)代表著LSTM 有更大的改進,更好地解決了卷積神經(jīng)網(wǎng)絡(luò)中梯度消失或梯度爆炸的問題。BiLSTM 層由雙向的LSTM 層組成,即前向和后向的LSTM 層,因此該模型能夠更加精確地獲取上下文信息。基本的LSTM 單元由遺忘門、輸出門、輸入門和記憶單元組成,之間的橫向箭頭被稱為單元狀態(tài),它就像一個傳送帶,可以控制信息傳遞給下一時刻,它保存了每個神經(jīng)元的狀態(tài)。通過門控機制控制信息傳遞的路徑。
BERT-BiLSTM-CRF 模型由詞嵌入層、雙向注意力機制網(wǎng)絡(luò)層和條件隨機場層組成。本文采用BIO 標注形式對非遺數(shù)據(jù)進行數(shù)據(jù)標注,B表示實體詞的開始字符,I 表示實體詞的其余字符,O 表示與實體無關(guān)的字符。先使用BERT 模型預(yù)訓(xùn)練文本字向量,然后通過雙向LSTM 層學(xué)習(xí)上下文特征,輸出層通過softmax 預(yù)測各個標簽的概率,最后通過CRF 模型得到序列標簽,至此就完成命名實體識別任務(wù)。命名實體識別預(yù)測結(jié)果見表3。
表3 命名實體識別預(yù)測結(jié)果
關(guān)系抽取是抽取兩個實體之間的支配關(guān)系,它是關(guān)系詞(如:是、位于、所屬等級等)與其否定詞的集合,否定詞也是兩實體之間的一種支配關(guān)系。在命名實體識別任務(wù)中,識別出句子中廣西非遺項目名和其它實體名,并按照先后順序進行排序。從構(gòu)建好的關(guān)系詞表中抽出關(guān)系R 與詞庫中的關(guān)系詞進行對比,若關(guān)系詞未在詞庫中,則使用詞庫中最相似的詞作為該詞的替換。此時便完成實體間關(guān)系的抽取。
至此就完成了廣西非遺知識圖譜構(gòu)建,知識圖譜構(gòu)建步驟如圖1所示。
圖1 知識圖譜構(gòu)建步驟
圖2為廣西非遺知識圖譜總圖,我們成功從文本信息中抽取了實體間地域、時間、類別、級別等關(guān)系信息,并將數(shù)據(jù)存儲于Neo4j圖數(shù)據(jù)庫中。圖3為廣西非遺知識圖譜中部份數(shù)據(jù)的類別關(guān)系。圖4為廣西非遺知識圖譜位置關(guān)系圖。
圖2 廣西非遺知識圖譜總圖
圖3 廣西非遺知識圖譜類別關(guān)系
圖4 廣西非遺知識圖位置關(guān)系圖
知識圖譜作為一種人工智能的重要部份,越來越被廣泛地運用到各行各業(yè)中。由于廣西非物質(zhì)文化遺產(chǎn)數(shù)據(jù)領(lǐng)域特殊,詞匯和表達與日常用詞存在比較大的差異,在該領(lǐng)域的應(yīng)用研究尚有不足,非遺數(shù)據(jù)間的時空關(guān)聯(lián)性不強。廣西非遺知識圖譜的構(gòu)建為廣西非遺資源保護和傳承提供了新的方向。本文對知識構(gòu)建和知識存儲進行了分析,但對廣西非遺知識圖譜構(gòu)建與應(yīng)用研究還比較淺顯,有待進一步完善。如何把知識圖譜可視化呈現(xiàn)出來,從知識圖譜中挖掘更多的信息,靈活應(yīng)用知識圖譜將是以后研究的重點。