文/劉影
隨著知識(shí)經(jīng)濟(jì)時(shí)代的深入發(fā)展,知識(shí)融合在知識(shí)獲取和展示等方面發(fā)揮出越來越重要的作用。與此同時(shí),領(lǐng)域知識(shí)庫的構(gòu)建對(duì)不同數(shù)據(jù)源中錄入少數(shù)民族數(shù)據(jù)的需求越來越迫切?;诖耍瑸榱烁玫亟鉀Q可能出現(xiàn)的數(shù)據(jù)冗余或沖突等問題,本文設(shè)計(jì)并實(shí)現(xiàn)了面向少數(shù)民族知識(shí)的可視化原型系統(tǒng),以期為海量異構(gòu)少數(shù)民族文化資源融合的深入研究提供助力。首先,本文構(gòu)建了少數(shù)民族文化資源知識(shí)融合模型,并依托Hadoop 平臺(tái)、MapReduce 框架,開發(fā)了融入少數(shù)民族文化的可視化原型系統(tǒng),實(shí)現(xiàn)了少數(shù)民族文化資源爬取、文本資源分詞、詞性標(biāo)注、三元組抽取以及知識(shí)融合等功能。
在知識(shí)融合算法應(yīng)用研究方面,房立芳提出了一種基于關(guān)鍵屬性的知識(shí)融合方法,并將該方法應(yīng)用到數(shù)據(jù)集成處理系統(tǒng)中,有效改善了異構(gòu)數(shù)據(jù)自動(dòng)合并處理的合理性[1];馬永軍等提出一種基于深度學(xué)習(xí)模型的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn)數(shù)據(jù)融合的算法CNNMDA[2];閆昱姝等提出一種基于本體的多源文本知識(shí)融合算法,進(jìn)而得到粒度小、精度高且完備的文本知識(shí),隨后其利用本體概念框架將文本知識(shí)結(jié)構(gòu)化,并將概念框架進(jìn)行融合[3];沈艷霞等人提出了一種多目標(biāo)人工蜂群算法[4];羅安根在融合知識(shí)圖譜的基礎(chǔ)上提出了結(jié)構(gòu)化信息的深層語義匹配的實(shí)體鏈接算法。[5]
為了更好地保護(hù)和傳承少數(shù)民族文化,幫助大眾進(jìn)一步了解少數(shù)民族文化、節(jié)日風(fēng)俗等內(nèi)容,促進(jìn)不同民族間的交流,筆者對(duì)半結(jié)構(gòu)化尤其是非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行抽取和存儲(chǔ),進(jìn)而構(gòu)建了少數(shù)民族文化資源知識(shí)融合模型。
該知識(shí)融合模型由底層數(shù)據(jù)、知識(shí)抽取和知識(shí)融合構(gòu)成。其中,底層數(shù)據(jù)、知識(shí)抽取后將以RDF(資源描述框架)三元組的形式進(jìn)行存儲(chǔ),知識(shí)融合部分主要涉及實(shí)例融合、域集融合、屬性融合、概念融合等內(nèi)容。
信息技術(shù)的發(fā)展,為少數(shù)民族文化的保護(hù)和傳播提供了新的方案,其中,知識(shí)融合和可視化技術(shù)是當(dāng)前應(yīng)用最廣泛的兩種技術(shù)手段。少數(shù)民族文化資源的融合和可視化呈現(xiàn)為少數(shù)民族特色文化資源的建設(shè)及傳播提供了科學(xué)指導(dǎo)。因此,為了促進(jìn)少數(shù)民族文化的進(jìn)一步傳播,筆者通過技術(shù)手段整合了百度百科、搜狗百科等網(wǎng)絡(luò)平臺(tái)中的少數(shù)民族文化資源,并在此基礎(chǔ)上將相關(guān)詞條進(jìn)行可視化處理,構(gòu)建出少數(shù)民族文化資源可視化融合模型。同時(shí),筆者還將整合后的資源融入原型系統(tǒng),以展示詞條與對(duì)應(yīng)實(shí)體間的關(guān)系,為用戶獲取結(jié)構(gòu)化知識(shí)提供便利。
在此期間, 筆者基于Hadoop平臺(tái)、MapReduce框架,利 用Eclipse Mars.2 Release(4.5.2)開發(fā)軟件,構(gòu)建了少數(shù)民族可視化原型系統(tǒng)。在該原型系統(tǒng)中,少數(shù)民族文化資源庫中的數(shù)據(jù)信息一部分來源于重點(diǎn)實(shí)驗(yàn)室的現(xiàn)有資源;另一部分是筆者利用爬蟲工具在互聯(lián)網(wǎng)中獲取的,這部分內(nèi)容可細(xì)分為飲食文化、服飾文化、交通、民俗文化、婚姻家庭等類別。此外,該原型系統(tǒng)界面比較簡潔,菜單欄包含爬蟲、分詞、詞性標(biāo)注、抽取三元組、知識(shí)融合五個(gè)部分。在用戶點(diǎn)擊相應(yīng)按鈕后,系統(tǒng)界面將呈現(xiàn)對(duì)應(yīng)內(nèi)容。主界面左側(cè)為資源庫,中間界面主要用于展示相關(guān)功能的結(jié)果。
為了進(jìn)一步整合網(wǎng)絡(luò)與現(xiàn)實(shí)中的少數(shù)民族文化資源,筆者對(duì)采集到的少數(shù)民族文化資源進(jìn)行預(yù)處理,并以此形成了少數(shù)民族特色語料庫。該語料庫由結(jié)構(gòu)化資源、半結(jié)構(gòu)化資源和非結(jié)構(gòu)化資源構(gòu)成。為了實(shí)現(xiàn)少數(shù)民族知識(shí)的可視化,筆者重點(diǎn)處理了這些資源,進(jìn)而完成了少數(shù)民族知識(shí)可視化原型系統(tǒng)功能的設(shè)計(jì)。該原型系統(tǒng)共有五個(gè)功能模塊,涉及百度百科、搜狗百科、互動(dòng)百科、少數(shù)民族等網(wǎng)絡(luò)平臺(tái)。筆者對(duì)網(wǎng)絡(luò)平臺(tái)爬取數(shù)據(jù)初步預(yù)處理后,對(duì)數(shù)據(jù)分詞進(jìn)行詞性標(biāo)注、命名實(shí)體識(shí)別并抽取三元組,最后將不同來源的三元組數(shù)據(jù)加以融合。
筆者依托于Hadoop 平臺(tái)、MapReduce框架以及互聯(lián)網(wǎng)搭建了原型系統(tǒng)框架結(jié)構(gòu)。該框架結(jié)構(gòu)的底層是從百度百科、搜狗百科等網(wǎng)絡(luò)平臺(tái)爬取的少數(shù)民族文化資源,以及部分少數(shù)民族重點(diǎn)實(shí)驗(yàn)室中的現(xiàn)有數(shù)據(jù);中間層的四個(gè)功能分別是分詞、詞性標(biāo)注、三元組抽取和知識(shí)融合;最上層是用戶層,相關(guān)內(nèi)容可通過用戶訪問接口、模塊化擴(kuò)展等方式呈現(xiàn)給用戶。
少數(shù)民族文化資源廣泛分布于互聯(lián)網(wǎng)中,工作人員可以借助各類搜索引擎來提高信息數(shù)據(jù)采集效率。本次研究的數(shù)據(jù)來源主要是各少數(shù)民族聚居地的人民政府網(wǎng)、百度百科、搜狗百科等網(wǎng)絡(luò)平臺(tái)。在具體操作過程中,筆者通過在百度、谷歌等搜索引擎中輸入少數(shù)民族資源關(guān)鍵詞來搜索所需信息,并將獲取到的少數(shù)民族文化資源列表處理,以形成原始數(shù)據(jù)集;隨后,筆者根據(jù)爬蟲工具爬取到的字段中的標(biāo)題、來源、內(nèi)容、發(fā)布時(shí)間等分類信息,對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理,包括去重、信息規(guī)范化、剔除無效數(shù)據(jù)等,最終形成少數(shù)民族文化資源庫,并為后續(xù)少數(shù)民族文化資源可視化處理奠定基礎(chǔ)。
考慮到從互聯(lián)網(wǎng)中爬取的數(shù)據(jù)大部分為結(jié)構(gòu)化數(shù)據(jù),同時(shí)現(xiàn)實(shí)中收集到的數(shù)據(jù)多為非結(jié)構(gòu)文本數(shù)據(jù),無法直接使用,因此,筆者在進(jìn)行初步預(yù)處理后,利用自定義詞典和分詞工具對(duì)從網(wǎng)絡(luò)平臺(tái)中收集到的少數(shù)民族數(shù)據(jù)進(jìn)行了分詞處理。分詞結(jié)果直接關(guān)系到后續(xù)三元組抽取的準(zhǔn)確度,故筆者利用HMM(隱馬爾可夫模型)對(duì)非結(jié)構(gòu)化文本數(shù)據(jù)進(jìn)行分詞處理,以確保達(dá)到理想的分詞效果。
筆者在HMM分詞的基礎(chǔ)上結(jié)合北大詞性標(biāo)注集對(duì)少數(shù)民族文本資源進(jìn)行詞性標(biāo)注處理,并在保障詞性標(biāo)注準(zhǔn)確性的前提下,為下一階段三元組抽取創(chuàng)造有利條件。
完成上述步驟后,筆者采用無監(jiān)督學(xué)習(xí)的方式,結(jié)合上下文特征信息進(jìn)行命名實(shí)體識(shí)別并提取數(shù)據(jù)關(guān)系。數(shù)據(jù)關(guān)系的建立一般包含兩個(gè)方面:一是描述知識(shí)主題,二是通過三元組關(guān)系1 得到其他內(nèi)容。例如,通過“中國少數(shù)民族人口約1.2 億人”可抽取出如下三元組:中國少數(shù)民族、人口、1.2 億人。而將抽取到的實(shí)體和關(guān)系進(jìn)行連接,便可得到三元組,若將提取到的三元組全部存儲(chǔ)在數(shù)據(jù)庫中,還能進(jìn)一步完善數(shù)據(jù)庫的建設(shè)。
由于來源不同,本次研究中的少數(shù)民族資源難免存在語法、語義上的異構(gòu)。為此,筆者采取一定的融合規(guī)則消除了這些語法、語義上的異構(gòu),并將處理后的資源存儲(chǔ)到實(shí)驗(yàn)室已有領(lǐng)域知識(shí)庫中,以豐富知識(shí)庫資源。與此同時(shí),知識(shí)庫的充裕也能為后續(xù)各項(xiàng)研究提供高質(zhì)量數(shù)據(jù)參考,比如知識(shí)推理、知識(shí)推薦等。如此一來,少數(shù)民族知識(shí)融合平臺(tái)就能清楚直觀地展示少數(shù)民族實(shí)體之間的關(guān)系。少數(shù)民族文化資源知識(shí)融合的意義不僅僅在于更好地傳承少數(shù)民族文化,同時(shí)也在于為少數(shù)民族教學(xué)提供科學(xué)指導(dǎo)。
筆者在充分研讀相關(guān)文獻(xiàn)的基礎(chǔ)上,對(duì)知識(shí)融合有了一定認(rèn)識(shí),并以少數(shù)民族文化資源為研究主題,結(jié)合科技手段構(gòu)建了適合少數(shù)民族文化資源的知識(shí)融合模型,設(shè)計(jì)并實(shí)現(xiàn)少數(shù)民族可視化原型系統(tǒng)。本次研究也從側(cè)面驗(yàn)證了知識(shí)融合技術(shù)在少數(shù)民族資源管理中的積極意義。一方面,知識(shí)融合可視化結(jié)果給予了學(xué)生更為直觀的體驗(yàn);另一方面,外界也可以通過該平臺(tái)進(jìn)一步了解少數(shù)民族的特色文化,使少數(shù)民族文化得到更好的傳承。