黃永,陸偉,程齊凱,鄧勝利(武漢大學(xué)信息管理學(xué)院湖北武漢430072;武漢大學(xué)信息檢索與知識挖掘研究所湖北武漢430072)
?
非物質(zhì)文化遺產(chǎn)知識本體構(gòu)建系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)——以西藏“鍋莊”、“堆諧”為例
黃永,陸偉,程齊凱,鄧勝利
(武漢大學(xué)信息管理學(xué)院湖北武漢430072;武漢大學(xué)信息檢索與知識挖掘研究所湖北武漢430072)
摘要:本文以“鍋莊”、“堆諧”兩種具有代表性的西藏非物質(zhì)文化遺產(chǎn)為例,分析了西藏非物質(zhì)文化遺產(chǎn)知識本體構(gòu)建的重難點(diǎn),對其中的關(guān)鍵問題如領(lǐng)域數(shù)據(jù)集構(gòu)建、領(lǐng)域文本分詞、本體標(biāo)注、本體關(guān)聯(lián)、本體可視化等進(jìn)行了研究,在此基礎(chǔ)上設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)面向文本與多媒體數(shù)據(jù)的非遺知識本體構(gòu)建系統(tǒng),并在此基礎(chǔ)上構(gòu)建了一個(gè)具有一定規(guī)模的非遺知識本體庫。
關(guān)鍵詞:非物質(zhì)文化遺產(chǎn);本體構(gòu)建;本體系統(tǒng)
陸偉(1974-),男,遼寧鞍山人,現(xiàn)為武漢大學(xué)信息管理學(xué)院教授,博士生導(dǎo)師,主要研究方向?yàn)樾畔z索、知識管理、數(shù)據(jù)挖掘等。
根據(jù)聯(lián)合國教科文組織《保護(hù)非物質(zhì)文化遺產(chǎn)公約》中的表述,非物質(zhì)文化遺產(chǎn)(以下簡稱非遺)是“以口頭傳承、表演藝術(shù)、民俗活動和手工技能為代表的人類知識,它們共同構(gòu)成了以民族文化為表現(xiàn)形式的文化空間”,從多種角度詮釋了一個(gè)民族關(guān)于自然和宇宙的傳統(tǒng)知識與樸素哲學(xué)。中華文化積淀深厚,流傳久遠(yuǎn),其所產(chǎn)生的非遺資源表現(xiàn)出總量巨大、門類繁多、體系龐雜等特點(diǎn)。
西藏非物質(zhì)文化遺產(chǎn)資源豐富,但是受限于地理環(huán)境、氣候、文化傳統(tǒng)、保護(hù)手段,這些文化資源正面臨著難以傳承的風(fēng)險(xiǎn)。固化保護(hù)是非物質(zhì)文化遺產(chǎn)保護(hù)的重要手段,在固態(tài)保護(hù)中,利用信息技術(shù)已經(jīng)成為固化保護(hù)的重要發(fā)展趨勢。本文則以西藏非物質(zhì)文化遺產(chǎn)兩種重要的舞蹈“鍋莊”、“堆諧”為例,研究本體技術(shù)在非物質(zhì)文化遺產(chǎn)保護(hù)中的應(yīng)用。
非遺保護(hù)作為一種技術(shù)、流程、標(biāo)準(zhǔn)與制度有機(jī)結(jié)合的工作,在當(dāng)代遺產(chǎn)保護(hù)的大潮中已經(jīng)得到了充分肯定。與此同時(shí),人們普遍地意識到,非遺分類組織作為非遺保護(hù)的重要基礎(chǔ)工作,其有效性直接影響著非遺保護(hù)的效果。缺少準(zhǔn)確科學(xué)的組織分類方法與手段,非遺保護(hù)人員難以科學(xué)認(rèn)識非遺對象,也無法準(zhǔn)確描述非遺對象,保護(hù)策略的制定自然就無從談起。
我國非遺保護(hù)工作從20世紀(jì)末起步以來,取得了較大的成就。在非遺的組織分類方面,“十一五”以來,主題分類、等級分類、地域分類等分類組織方法已經(jīng)形成??傮w看來,上述分類方法都是單線索分類組織思想的產(chǎn)物,單線索的分類組織方案存在效用不足的問題,根源在于它不能很好地描述非遺項(xiàng)目中存在的復(fù)雜關(guān)系,并且非物質(zhì)文化遺產(chǎn)保存格式多樣,例如文本、音頻、視頻,單一組織方式不能對各種類型資源充分集成。因此需要一種新型的組織形式用于描述非遺項(xiàng)目中的復(fù)雜關(guān)系,并且能夠?qū)Χ喾N類型的資源進(jìn)行整合。
本體是共享概念模型的形式化規(guī)范說明[1],能夠在語義和知識層次上描述信息,自被提出以來就引起了國內(nèi)外眾多科研人員的關(guān)注,并在許多領(lǐng)域得到了廣泛的應(yīng)用,如知識工程、數(shù)字圖書館、信息檢索、異構(gòu)信息的處理和語義網(wǎng)等。使用本體能夠很好地對非遺項(xiàng)目的內(nèi)在復(fù)雜關(guān)系進(jìn)行描述,對非遺資源進(jìn)行有效整合及組織,從而能夠?qū)Ψ俏镔|(zhì)文化的保護(hù)有促進(jìn)作用。
本文以“鍋莊”、“堆諧”兩種具有代表性的西藏非物質(zhì)文化遺產(chǎn)為例,分析了西藏非遺知識本體構(gòu)建的重難點(diǎn),對其中的關(guān)鍵問題,如領(lǐng)域數(shù)據(jù)集構(gòu)建、領(lǐng)域文本分詞、本體標(biāo)注、本體關(guān)聯(lián)、本體可視化等進(jìn)行了研究,在此基礎(chǔ)上設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)面向文本與多媒體數(shù)據(jù)的非遺知識本體構(gòu)建系統(tǒng)。本文還建構(gòu)了一個(gè)具有一定規(guī)模的非遺知識本體庫。
本文在第二部分對本體及非物質(zhì)文化遺產(chǎn)保護(hù)相關(guān)研究進(jìn)行闡述;第三部分詳細(xì)描述本體構(gòu)建系統(tǒng)的框架;具體的技術(shù)細(xì)節(jié)將在第四部分闡述;第五分部對本體構(gòu)建過程進(jìn)行描述;最后對本文進(jìn)行總結(jié),并給出下一步工作。
截至目前,非遺本體構(gòu)建方面尚沒有出現(xiàn)研究成果。與該主題相關(guān)的研究存在于本體研究、文化遺產(chǎn)本體研究兩個(gè)方面。
(一)本體研究
流行的定義,將本體定義為“給出構(gòu)成相關(guān)領(lǐng)域詞匯的基本術(shù)語和關(guān)系,以及利用這些術(shù)語和關(guān)系構(gòu)成的規(guī)定這些詞匯外延的規(guī)則的定義”[2]。Studer等給出了本體的另一個(gè)定義,認(rèn)為“本體是共享概念模型的明確的形式化規(guī)范說明”。本體的核心是共享概念模型,包括共享概念、共享動詞、共享名詞等[3]。就本體的構(gòu)造而言,盡管各個(gè)本體設(shè)計(jì)有所不同,但一般可以將本體的內(nèi)在要素歸結(jié)為個(gè)體(實(shí)例)、類(概念)以及附加在實(shí)例和概念之上的約束、規(guī)則、公理。由于本體在人工智能(AI)、信息架構(gòu)(IA)等領(lǐng)域的巨大前景,本體得到了廣泛的研究。主要的本體研究課題包括概念和分類體系、本體描述語言、本體工程、本體推理,本體在信息共享、信息檢索等領(lǐng)域的應(yīng)用,基于本體的數(shù)據(jù)集成、語義網(wǎng)等。另外,也出現(xiàn)了一些非常有影響力的本體構(gòu)建實(shí)例,如詞匯本體Word-net[4],電子商務(wù)應(yīng)用本體CContology,植物本體PlantOntology[5]。此外本體構(gòu)建工具protégé[6]常用于本體構(gòu)建中。
(二)文化遺產(chǎn)本體研究
文化遺產(chǎn)研究領(lǐng)域,本體方案有CIDOC CRM[7]、CDWA、AAT、TGN此外,基于已有的或者自行設(shè)計(jì)的本體,特別是圍繞CIDOC CRM本體框架,出現(xiàn)了大量的研究成果。本體構(gòu)建方面:文獻(xiàn)[8]對CIDOC CRM本體框架做了細(xì)致的介紹,文化遺產(chǎn)的發(fā)布和展示方面,文獻(xiàn)[9](P851-856)介紹了利用語義網(wǎng)絡(luò)的文化遺產(chǎn)出版展示方法,文獻(xiàn)[10](P757-758)論述了文化遺產(chǎn)的展示方案,列舉了如分布地圖網(wǎng)絡(luò)關(guān)系圖等多種展示和利用方法;文化遺產(chǎn)的開發(fā)利用方面:文獻(xiàn)[11](P75-79)介紹了一種以本體推理和聚類技術(shù)為基礎(chǔ)的文化遺產(chǎn)自動描述和價(jià)值發(fā)現(xiàn)方法,該方法包括輸入、分析、智能推理發(fā)現(xiàn)、可視化四個(gè)步驟。國內(nèi)對于文化遺產(chǎn)本體的研究也出現(xiàn)了一些成果,包括CIDOC CRM的應(yīng)用,傳統(tǒng)節(jié)日的本體建構(gòu)、基于地理本體的文物信息模型構(gòu)建等[12][13]。但總的來說,相比國外,國內(nèi)的研究還處在起步階段,多是對已有本體的應(yīng)用,缺乏原創(chuàng)的成果。
(三)西藏非物質(zhì)文化遺產(chǎn)保護(hù)
西藏自治區(qū)是我國非物質(zhì)文化遺產(chǎn)大區(qū),非物質(zhì)文化遺產(chǎn)基礎(chǔ)深厚、特色鮮明。非遺保護(hù)工程2005啟動,2011年西藏非物質(zhì)文化遺產(chǎn)保護(hù)中心成立,這是西藏非物質(zhì)文化遺產(chǎn)保護(hù)的一個(gè)重要里程碑。文獻(xiàn)[14]探討了新媒體語境下西藏非物質(zhì)文化遺產(chǎn)傳承與保護(hù)的數(shù)字化技術(shù)。文獻(xiàn)[15]對西藏非物質(zhì)文化遺產(chǎn)的分類與保護(hù)進(jìn)行了研究。
本體既能對非物質(zhì)文化遺產(chǎn)內(nèi)部錯綜復(fù)雜的關(guān)系進(jìn)行很好的描述,又能夠進(jìn)行資源整合。目前沒有面向非物質(zhì)文化遺產(chǎn)保護(hù)的非遺知識本體構(gòu)建系統(tǒng),本文以西藏兩種舞蹈“鍋莊”“堆諧”為例,論述面向非物質(zhì)文化遺產(chǎn)保護(hù)的知識本體構(gòu)建系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)方案。在下一部分將詳細(xì)論述系統(tǒng)的整體框架以及系統(tǒng)實(shí)現(xiàn)中的難點(diǎn)。
本體是一種對領(lǐng)域中的概念及關(guān)系的一種規(guī)范說明,不同的本體構(gòu)建方法就有不同的系統(tǒng)結(jié)構(gòu)。本文將本體的構(gòu)建定義為概念及概念關(guān)系的發(fā)現(xiàn),并不涉及本體中公理的構(gòu)建等工作,因此,(概念實(shí)例,關(guān)系,概念實(shí)例)三元組的發(fā)現(xiàn)成為了本文本體構(gòu)建的核心。在本文中使用概念表示本體中的實(shí)體類別,例如“鍋莊”是一類舞蹈的名稱即是概念,使用概念實(shí)例表示具體的實(shí)體,例如鍋莊舞蹈中的“醉酒鍋莊”,使用屬性表示概念之間的關(guān)系,例如“鍋莊”的一種別稱是“歌莊”,也即是概念實(shí)例“鍋莊”有一種屬性為“別稱”,屬性值對應(yīng)于另外一種概念實(shí)例“歌莊”,也即是三元組(鍋莊,別稱,歌莊)。通過對數(shù)據(jù)集中所有三元組也即是概念及概念關(guān)系挖掘之后,領(lǐng)域本體的構(gòu)建也就基本完成。
圖1:本體構(gòu)建系統(tǒng)框架圖
根據(jù)上述思路,本體構(gòu)建系統(tǒng)(如圖1所示)主要有三個(gè)模塊構(gòu)成,分別是領(lǐng)域數(shù)據(jù)集構(gòu)建、本體構(gòu)建、本體可視化及檢索。
領(lǐng)域數(shù)據(jù)集構(gòu)建模塊主要完成領(lǐng)域數(shù)據(jù)的收集、處理、加工、存儲工作,解決本體構(gòu)建的數(shù)據(jù)問題;領(lǐng)域數(shù)據(jù)集構(gòu)建一支是領(lǐng)域問題的首先需要面對的問題,主要難點(diǎn)在于:領(lǐng)域數(shù)據(jù)相較于一般問題不同,其主要特點(diǎn)就是數(shù)量少、收集困難等,這都阻礙了領(lǐng)域數(shù)據(jù)收集工作的進(jìn)行;其次,領(lǐng)域知識識別困難,在領(lǐng)域本體構(gòu)建過程中最重要的就是概念識別,如果無法正確的識別領(lǐng)域中的概念,概念的關(guān)系也就無從談起。因此,本體構(gòu)建中領(lǐng)域數(shù)據(jù)集構(gòu)建難點(diǎn)主要包括數(shù)據(jù)收集以及領(lǐng)域概念識別。
本體構(gòu)建模塊主要分為本體定義,即定義領(lǐng)域本體的概念和屬性,基于文本的本體標(biāo)注,多媒體本體關(guān)聯(lián)三個(gè)模塊解決本體構(gòu)建問題;本體定義主要包括概念定義以及屬性定義,對領(lǐng)域中可能涉及的概念及其屬性進(jìn)行定義?;诒疚牡谋倔w標(biāo)注在本體定義的基礎(chǔ)上從文本中標(biāo)注出概念實(shí)例以及使用屬性標(biāo)注實(shí)例之間的關(guān)系,并且通過學(xué)習(xí)對可能存在的三元組進(jìn)行提示;本體關(guān)聯(lián)是將媒體數(shù)據(jù)如視頻、音頻等中的關(guān)鍵幀、片段關(guān)聯(lián)到已經(jīng)構(gòu)建的本體概念實(shí)例中去。在本模塊主要的難點(diǎn)就是本體標(biāo)注以及本體關(guān)聯(lián)。
可視化及檢索模塊則是對構(gòu)建本體進(jìn)行可視化以及檢索,解決本體展示問題。本系統(tǒng)采用樹形結(jié)構(gòu)對構(gòu)建的本體進(jìn)行展示,并且集成本體檢索功能,對本體的具體信息進(jìn)行展示,包括屬性、屬性值,文本信息、多媒體數(shù)據(jù)信息等。
這里主要對本文系統(tǒng)的框架及三個(gè)主要模塊進(jìn)行了闡述,針對每個(gè)模塊的難點(diǎn)以及解決方法將在之后進(jìn)行詳細(xì)論述。
(一)領(lǐng)域數(shù)據(jù)集的難點(diǎn)
領(lǐng)域數(shù)據(jù)集構(gòu)建模塊是本體構(gòu)建系統(tǒng)的基礎(chǔ)模塊,其主要負(fù)責(zé)為本體系統(tǒng)其他模塊提供準(zhǔn)確的數(shù)據(jù),主要包括數(shù)據(jù)收集、數(shù)據(jù)處理、數(shù)據(jù)存儲等步驟,對應(yīng)于不同的步驟分別對應(yīng)以下難點(diǎn):
1、領(lǐng)域數(shù)據(jù)收集
領(lǐng)域數(shù)據(jù)尤其是特定領(lǐng)域?qū)ο蟮念I(lǐng)域數(shù)據(jù),數(shù)據(jù)量一般較小。數(shù)據(jù)源一般分為兩種:一種是網(wǎng)絡(luò),另外一種現(xiàn)有文獻(xiàn)書籍?,F(xiàn)有文獻(xiàn)書籍中對于非物質(zhì)文化遺產(chǎn)項(xiàng)目一般都是從文化、藝術(shù)等層次進(jìn)行描述,而對于具體特定的對象描述較少,并且一本書籍?dāng)?shù)不超過10萬字,其中描述特定領(lǐng)域?qū)ο蟮奈淖指?,因此從現(xiàn)有書籍中獲取領(lǐng)域數(shù)據(jù)是不現(xiàn)實(shí)的。豐富的領(lǐng)域數(shù)據(jù)是本體構(gòu)建的關(guān)鍵,所以,本文針對當(dāng)前數(shù)據(jù)問題,提出了一種基于查詢擴(kuò)展的領(lǐng)域數(shù)據(jù)集構(gòu)建方法,該方法根據(jù)種子關(guān)鍵詞從網(wǎng)絡(luò)中獲取數(shù)據(jù),能夠極大地豐富領(lǐng)域數(shù)據(jù)。
2、領(lǐng)域概念識別
領(lǐng)域概念是區(qū)別于其他領(lǐng)域的“專有名詞”,例如本文中的“鍋莊”、“堆諧”,對于領(lǐng)域知識不了解的人無法確認(rèn)這個(gè)詞匯的意義,甚至可能認(rèn)為這不是一個(gè)詞匯。可以說,領(lǐng)域概念的正確識別是數(shù)據(jù)處理中另一個(gè)重要問題,在本體構(gòu)建系統(tǒng)中,概念識別問題本質(zhì)上是一種領(lǐng)域分詞問題,也即是對上述所述的領(lǐng)域詞匯進(jìn)行正確分詞。本文則是通過對一般分詞的改進(jìn)使之適用于領(lǐng)域分詞問題。
(二)基于bootstrapping的領(lǐng)域數(shù)據(jù)收集
領(lǐng)域本體構(gòu)建都是數(shù)據(jù)驅(qū)動的,領(lǐng)域語料庫的大小將決定了本體的構(gòu)建效果,但是領(lǐng)域本體構(gòu)建的領(lǐng)域特性限制了數(shù)據(jù)資料可獲得性,于是本文提出了一種基于bootstrapping的領(lǐng)域本體構(gòu)建方法。
該方法主要動作就是完成從搜索引擎中獲取更多的關(guān)于該領(lǐng)域的資料。例如在搜索引擎中搜索“鍋莊”一詞,一次返回700條,但是這些數(shù)據(jù)顯然不能滿足本文的要求和目標(biāo),所以本文需要在搜索引擎中挖掘出更多的語料,本文的方法就是通過查詢擴(kuò)展進(jìn)而實(shí)現(xiàn),但是區(qū)別于一般的查詢擴(kuò)展算法,一般的查詢擴(kuò)展是為了完成搜索引擎獲取更多與查詢query更相關(guān)的文檔提高查準(zhǔn)率,本文是從相反的角度來從搜索引擎獲得更多文檔來提高查全率。
圖2:基于bootstrapping的領(lǐng)域語料構(gòu)建
基于bootstrapping方法的領(lǐng)域語料庫構(gòu)建是一種結(jié)合查詢擴(kuò)展技術(shù)從搜索引擎中不斷迭代出搜索結(jié)果的過程。其中主要步驟為查詢擴(kuò)展和迭代過程。通過bootstrapping的方法中的擴(kuò)展出來的查詢詞是與原主題相關(guān)的,所以能夠用于構(gòu)建領(lǐng)域語料庫。
通過這種方法構(gòu)建語料庫的原因主要是因?yàn)樵谒阉饕嬷斜疚慕o出一個(gè)關(guān)鍵詞,搜索引擎只能返回給本文優(yōu)先的條目數(shù),本文采用這種方法主要目的就是從搜索引擎中挖掘出更多的主題相關(guān)的語料,用于構(gòu)建數(shù)據(jù)庫。
經(jīng)過實(shí)驗(yàn),本文的結(jié)果如下:
表1:語料庫構(gòu)建結(jié)果
通過多次的擴(kuò)展查詢,可以獲得更多的結(jié)果,本文只進(jìn)行一層擴(kuò)展,獲得了37584條數(shù)據(jù),數(shù)據(jù)總體大小超過500M,能夠滿足本體構(gòu)建的基本需求。
(三)領(lǐng)域分詞方法
領(lǐng)域分詞問題一直是領(lǐng)域數(shù)據(jù)集處理的重點(diǎn)和難點(diǎn),一般領(lǐng)域分詞方法都是在一般分詞工具的基礎(chǔ)上加入領(lǐng)域詞表,通過領(lǐng)域詞表對分詞效果進(jìn)行改進(jìn)。本文也是使用領(lǐng)域詞表改進(jìn)分詞效果,因此領(lǐng)域詞表的構(gòu)建也就成為領(lǐng)域分詞的關(guān)鍵。
本文認(rèn)為對于一個(gè)領(lǐng)域,其領(lǐng)域特有詞匯會在已有的學(xué)術(shù)文獻(xiàn)的關(guān)鍵詞中出現(xiàn),因此,本文使用“鍋莊”、“堆諧”、“藏族舞蹈”等詞匯在學(xué)術(shù)論文庫中進(jìn)行搜索,將搜索結(jié)果中論文的關(guān)鍵詞作為領(lǐng)域詞加入到領(lǐng)域分詞工具的詞表中。本文使用中科院分詞器NLPIR[16][17]對數(shù)據(jù)進(jìn)行分詞。
(一)本體定義
本體定義是領(lǐng)域本體框架的定義,主要包括概念和屬性兩種,本文以鍋莊和堆諧為例進(jìn)行本體構(gòu)建,因此,本文的概念只包括兩種舞蹈“鍋莊”、“堆諧”,其余實(shí)體作為兩種舞蹈的屬性實(shí)例。
圖3:本體定義包括概念定義及屬性定義
如圖3所示,本體定義包括概念定義以及屬性定義兩個(gè)模塊,分別對本文所涉及的概念以及屬性進(jìn)行定義。本文的本體構(gòu)建對象是“鍋莊”、“堆諧”兩種舞蹈,本文本體定義的主要框架如圖4所示。主要包括基本屬性以及總體屬性,基本屬性包括動作、地域、場景、服飾、功用、流程,總體屬性包括別名、簡介、子類、傳承人、出現(xiàn)時(shí)間等以及多媒體屬性。其中一些屬性例如地域、多媒體屬性是可以關(guān)聯(lián)到現(xiàn)有的地域本體以及多媒體本體當(dāng)中。
圖4:本文本體定義框架
上述的本體定義框架是對本體構(gòu)建的基本要求,在本體標(biāo)注過程中可以根據(jù)具體的情況使用屬性定義對屬性進(jìn)行修改和擴(kuò)充。
(二)基于文本的本體標(biāo)注
本體標(biāo)注是在所收集的領(lǐng)域數(shù)據(jù)之上根據(jù)本體定義標(biāo)注出三元組的過程。該過程本系統(tǒng)主要包括人工標(biāo)注、潛在關(guān)系推薦兩個(gè)模塊。首先將領(lǐng)域數(shù)據(jù)使用領(lǐng)域分詞進(jìn)行分詞,將每一個(gè)詞作為標(biāo)注的對象,在系統(tǒng)中點(diǎn)擊標(biāo)注對象彈出菜單,對概念實(shí)例和關(guān)系進(jìn)行標(biāo)注。該步驟一般是由人工完成,對已經(jīng)標(biāo)注的概念實(shí)例及關(guān)系,會在所有的文檔中進(jìn)行顯示和關(guān)聯(lián)。
圖5:標(biāo)注頁面
在本體的文本標(biāo)注過程中采取了一種輔助人工標(biāo)注的方法,該方法是一種基于種子的模式提取方法。模式是指用于提取概念以及概念關(guān)系的模板。例如:
“鍋莊分為了大鍋莊和小鍋莊等”
上面的一句中說明了鍋莊的一種上下位的關(guān)系,它的模板是:
< C >分為< C1 >和< C2 >等
其中C表示了概念替代概念的符號,該模式下就說明了概念C是由概念C1和概念C2的父類,也就找出了三種概念C、C1、C2,C是C1和C2的上位概念。上面描述的是一般的模式識別的方法,它有自己的優(yōu)點(diǎn)如準(zhǔn)確率高,簡單等,但是模板的制定通常需要人為參與,導(dǎo)致了這種模式識別方法雖然準(zhǔn)確率高但是不能大規(guī)模展開,并且人為的制定模式耗時(shí)耗力。
圖6:基于種子的模板自動提取
所以本文使用一種基于種子的模式提取方法,該方法是一種無監(jiān)督方法(如圖6所示),它主要在數(shù)據(jù)庫中搜索已經(jīng)有的種子模板,并提取相對應(yīng)的模板中的概念,并使用這種概念實(shí)例去搜索語料庫中的所有句子,從每個(gè)句子中提取出來各自的模板,最終采用投票機(jī)制,選取出能夠代表這種關(guān)系的模板。然后不斷地迭代,選出所有的模板。
根據(jù)該方法提取出關(guān)于上下位關(guān)系以及包含關(guān)系的模板庫,用于進(jìn)行概念提取和概念關(guān)系識別,從而輔助人進(jìn)行文本的實(shí)例標(biāo)注。
(三)多媒體關(guān)聯(lián)
非物質(zhì)文化遺產(chǎn)項(xiàng)目最常用的保存方式是多媒體格式,如視頻、音頻、圖片等,如何將這些多媒體關(guān)聯(lián)到本文所構(gòu)建的本體是本模塊的關(guān)鍵問題。因此本系統(tǒng)在文本標(biāo)注的本體之上進(jìn)行多媒體關(guān)聯(lián)。
在本系統(tǒng)中主要對視頻數(shù)據(jù)進(jìn)行本體關(guān)聯(lián),包括視頻關(guān)鍵幀和視頻片段。如圖7所示,視頻通過暫停繼續(xù)來進(jìn)行截取關(guān)鍵幀,并且標(biāo)注者能夠與前面定義的本體以及實(shí)例相關(guān)聯(lián)。通過獲取視頻的開始時(shí)間和結(jié)束時(shí)間完成視頻片段的標(biāo)注。
在本系統(tǒng)中使用是進(jìn)行FFMPEG[18]完成視頻的關(guān)鍵幀的提取工作。
圖7:視頻標(biāo)注系統(tǒng)界面
(四)可視化及檢索
在本系統(tǒng)中使用樹形結(jié)構(gòu)對構(gòu)建的本體進(jìn)行可視化(如圖8),以鍋莊、堆諧兩個(gè)舞蹈種類為根節(jié)點(diǎn),然后對概念實(shí)例進(jìn)行展示,對于每一個(gè)舞蹈概念,如果標(biāo)注其屬性則對舞蹈的屬性進(jìn)行展示。點(diǎn)擊某一個(gè)具體的舞蹈實(shí)例,可以查看其具體信息,包括文本、圖片、視頻(如圖8)。
圖8:本體可視化樹及具體信息展示
本系統(tǒng)通過文本標(biāo)注及多媒體關(guān)聯(lián)方法構(gòu)建了超過具有1萬多個(gè)實(shí)例及關(guān)系,2000多幅圖片,500多段視頻。通過樹形結(jié)構(gòu),在使用樹形結(jié)構(gòu)進(jìn)行表示時(shí),使用異步加載技術(shù)進(jìn)行數(shù)據(jù)的請求和展示,而加速可視化的速度。
由于本體中的概念實(shí)例數(shù)量超過了人瀏覽能力,本文引入了檢索技術(shù)對本體中的概念、屬性進(jìn)行索引和檢索。在本系統(tǒng)中本體檢索使用Lu?cene[19]檢索,首先對本體中各個(gè)域進(jìn)行索引,對于檢索到的結(jié)果按照概念實(shí)例進(jìn)行排列,分別列出概念的屬性及屬性關(guān)系,關(guān)聯(lián)的關(guān)鍵幀、視頻片段,視頻片段可以通過點(diǎn)擊播放。
本文提出了一種面向非物質(zhì)文化遺產(chǎn)保護(hù)的非遺知識本體構(gòu)建系統(tǒng),首先給出了本文系統(tǒng)的總體架構(gòu),并且分別對系統(tǒng)中的三個(gè)模塊的難點(diǎn)及解決方法進(jìn)行了詳細(xì)的敘述,分別解決了領(lǐng)域數(shù)據(jù)收集、領(lǐng)域分詞、文本標(biāo)注、多媒體關(guān)聯(lián)等問題。在構(gòu)建的本體基礎(chǔ)上使用樹形工具對本體進(jìn)行可視化,并且集成了本體檢索功能。本文使用本體構(gòu)建系統(tǒng)以鍋莊、堆諧兩種西藏舞蹈為例,構(gòu)建了實(shí)體數(shù)量超過1萬條的本體,證明了本體系統(tǒng)的可用性以及其在非遺保護(hù)方面的有效性。
[參考文獻(xiàn)]
[1]Studer R,Benjamins V R,F(xiàn)ensel D.Knowledge engineer?ing:principles and methods[J].Data Knowl Eng 25(1-2),Data & Knowledge Engineering,1998(25).
[2]鄧志鴻,唐世渭,張銘,等.Ontology研究綜述[J].北京大學(xué)學(xué)報(bào)(自然科學(xué)版),2002(5).
[3]Borst W N.Construction of engineering ontologies for knowl?edge sharing and reuse[M].Universiteit Twente,1997.
[4]Fellbaum C.WordNet[M].Blackwell Publishing Ltd,1998.
[5]Plant Ontology Consortium web site at http://www.plantontol?ogy.org.
[6]protégé開源軟件網(wǎng)站,http://protege.stanford.edu/.
[7]The CIDOC CRM http://www.cidoc-crm.org.
[8]Surhone L M,Tennoe M T,Henssonow S F.CIDOC Concep?tual Reference Model[J].Archive2 Official,2010,40(5).
[9]Hyv?nen E,M?kel? E,Kauppinen T,et al.CultureSampo:A National Publication System of Cultural Heritage on the Se?mantic Web 2.0.[M]// The Semantic Web:Research and Appli?cations.Springer Berlin Heidelberg,2009.
[10]Hyv?nen E.Semantic Portals for Cultural Heritage[M]// Handbook on Ontologies.Springer Berlin Heidelberg,2009.
[11]Collao Jr A,Díaz-Kommonen L,Kaipainen M,et al.Soft ontologies and similarity cluster tools to facilitate exploration and discovery of cultural heritage resources[C]//Database and Expert Systems Applications,2003.Proceedings.14th Interna?tional Workshop on.IEEE,2003.
[12]劉宏哲,鮑泓,余杰華.基于CIDOC CRM的虛擬博物館語義網(wǎng)絡(luò)架構(gòu)[J].計(jì)算機(jī)應(yīng)用研究,2006(4).
[13]肖婷.應(yīng)用CDWA標(biāo)準(zhǔn)描述數(shù)字宋畫作品的探索[J].圖書情報(bào)工作,2011(9).
[14]常凌翀.新媒體語境下西藏非物質(zhì)文化遺產(chǎn)的數(shù)字化保護(hù)與傳承探究[J].西南民族大學(xué)學(xué)報(bào)(人文社會科學(xué)版),2011(11).
[15]馬寧.論西藏非物質(zhì)文化遺產(chǎn)的分類和傳承保護(hù)[J].西藏民族學(xué)院學(xué)報(bào)(哲學(xué)社會科學(xué)版),2008(1).
[16]NLPIR漢語分詞系統(tǒng)2013版。http://ictclas.nlpir.org/.
[17]劉群,張華平,俞鴻魁,程學(xué)旗.基于層疊隱馬模型的漢語詞法分析[J].計(jì)算機(jī)研究與發(fā)展,2004(8).
[18]FFmpeg is a complete,cross-platform solution to record,convert and stream audio and video.http://www.ffmpeg.org/.
[19]Lucene,The Apache Software Foundation http://lucene.apache.org.
[責(zé)任編輯王聰華]
[校對梁成秀]
基金項(xiàng)目:本文系西藏民族大學(xué)協(xié)同創(chuàng)新中心重點(diǎn)研究項(xiàng)目“西藏文化產(chǎn)業(yè)發(fā)展公共信息服務(wù)平臺研究”(項(xiàng)目號:XT15037);國家科技支撐計(jì)劃項(xiàng)目“虛擬旅游與文化資源協(xié)同系統(tǒng)研發(fā)與應(yīng)用”(項(xiàng)目號:2012BAH33F00)的階段性研究成果。
作者簡介:黃永(1991-),男,山東菏澤人,現(xiàn)為武漢大學(xué)信息管理學(xué)院在讀博士研究生,主要研究方向?yàn)樾畔z索、數(shù)據(jù)挖掘。
收稿日期:2015-12-16
中圖分類號:G122
文獻(xiàn)標(biāo)識碼:A
文章編號:1003-8388(2016)01-0020-07