亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向文本的本體自動(dòng)構(gòu)建研究綜述

        2019-05-23 01:36:44王向前桂冬冬李慧宗
        圖書(shū)館理論與實(shí)踐 2019年4期
        關(guān)鍵詞:數(shù)據(jù)源術(shù)語(yǔ)語(yǔ)言學(xué)

        王向前,桂冬冬,李慧宗

        (1.安徽理工大學(xué)經(jīng)濟(jì)與管理學(xué)院;2.復(fù)旦大學(xué)管理科學(xué)與工程博士后流動(dòng)站)

        1 引言

        目前,本體已越來(lái)越被人們所重視,特別是在知識(shí)工程、信息檢索與獲取、知識(shí)表示等領(lǐng)域。最早提出的本體的概念屬于哲學(xué)領(lǐng)域,[1]后來(lái)越來(lái)越多的學(xué)者開(kāi)始對(duì)本體進(jìn)行研究,現(xiàn)在被廣泛認(rèn)可的本體的定義是Studer提出的“本體是對(duì)共享概念模型的一種明確的、形式化的、規(guī)范的說(shuō)明”。[2]

        本體構(gòu)建就是構(gòu)建本體的過(guò)程,目前采用較多的兩個(gè)方法一種是依靠領(lǐng)域?qū)<疫M(jìn)行手工構(gòu)建,另一種是由人工參與機(jī)器輔助實(shí)現(xiàn)的半自動(dòng)構(gòu)建。手工構(gòu)建的本體,其知識(shí)及關(guān)系完全由領(lǐng)域?qū)<掖_定,目前,最大、最完整的本體是大型知識(shí)庫(kù)系統(tǒng)CYC,該本體含有約50,000個(gè)概念,概念間的約束和關(guān)系高達(dá)4,000,000以上。[3]盡管通過(guò)手工構(gòu)建的本體內(nèi)容控制嚴(yán)格、質(zhì)量較高,但傳統(tǒng)手工構(gòu)建的方法缺乏靈活性、構(gòu)建成本高、效率低下。目前,不同領(lǐng)域的專(zhuān)家對(duì)一些概念的認(rèn)知仍未統(tǒng)一,一定程度上影響本體的擴(kuò)展性。使用人工參與機(jī)器輔助的半自動(dòng)方法構(gòu)建本體,可以更全面、更快速地提取本體概念知識(shí)及其關(guān)系。田偉等[4]利用實(shí)例和屬性集構(gòu)造概念格發(fā)現(xiàn)了隱含的概念及其之間的關(guān)系,并通過(guò)映射得到本體主干;他們利用Java的一個(gè)API——Jena及OWL本體語(yǔ)言對(duì)本體原型進(jìn)行編碼,最終完成本體的構(gòu)建。半自動(dòng)構(gòu)建方式雖然可以通過(guò)機(jī)器輔助來(lái)減少工作量,但是在概念提取及其關(guān)系的提取上仍舊依賴(lài)于人工,所構(gòu)建的本體具有主觀性和局限性。

        可見(jiàn),以上兩種構(gòu)建方式仍然存在缺點(diǎn)和不足,因此,越來(lái)越多的學(xué)者開(kāi)始研究通過(guò)何種方法可以更好地實(shí)現(xiàn)本體的自動(dòng)構(gòu)建。[5]本體的自動(dòng)構(gòu)建就是由機(jī)器通過(guò)學(xué)習(xí)、自然語(yǔ)言處理技術(shù)及人工智能等方法,自動(dòng)地從大量自由文本、機(jī)器可以識(shí)別的詞典、敘詞表、數(shù)據(jù)庫(kù)等數(shù)據(jù)源中獲取概念及概念間關(guān)系,從而完成本體的構(gòu)建。此方法不僅可以從已有的數(shù)據(jù)源中發(fā)現(xiàn)知識(shí),還可以挖掘出更多的潛在知識(shí)。Microsoft公司的商業(yè)產(chǎn)品MindNet就是基于自動(dòng)構(gòu)建方式構(gòu)建的,其知識(shí)來(lái)源于詞典和百科全書(shū)。[6]但在國(guó)內(nèi),由于中文語(yǔ)言的復(fù)雜性,在面向文本的本體自動(dòng)構(gòu)建方面一般都是只提出一些指導(dǎo)性的方針,具體的實(shí)現(xiàn)方法很少。因此,本文針對(duì)本體自動(dòng)構(gòu)建過(guò)程中的相關(guān)技術(shù)和方法進(jìn)行綜述,旨在為研究出具體的面向文本的本體自動(dòng)構(gòu)建方法提供思路。

        2 文獻(xiàn)綜述

        解崢等對(duì)1999-2010年的本體自動(dòng)構(gòu)建方法進(jìn)行了綜述,主要分為以下幾類(lèi)方法:① 從局部到全體的方法;② 中間擴(kuò)展法;③ 直接抽取文檔構(gòu)建本體。作者對(duì)這些本體自動(dòng)構(gòu)建方法中普遍存在的問(wèn)題進(jìn)行了總結(jié):① 大多數(shù)方法還需要由領(lǐng)域?qū)<覅f(xié)助完成初始本體的構(gòu)建以及領(lǐng)域間關(guān)系的擴(kuò)展,沒(méi)有真正實(shí)現(xiàn)“自動(dòng)”;② 對(duì)本體自動(dòng)構(gòu)建方法的研究大多只是理論過(guò)程的討論和簡(jiǎn)單的驗(yàn)證,沒(méi)有具體、系統(tǒng)的方法;③ 大多數(shù)處理語(yǔ)義間概念關(guān)系的方法都要借助原有的語(yǔ)言分析軟件,新的語(yǔ)言分析軟件較少;④ 部分方法得以實(shí)現(xiàn)的前提是必須有一些可用的本體資源,但在實(shí)際情況中,這一條件很難被滿(mǎn)足。[7]劉萍等基于語(yǔ)言學(xué)和統(tǒng)計(jì)的方法對(duì)本體自動(dòng)構(gòu)建中的概念抽取和概念關(guān)系識(shí)別進(jìn)行綜述分析,并對(duì)本體自動(dòng)構(gòu)建方面需加以改善的地方進(jìn)行了總結(jié):① 增強(qiáng)對(duì)抽取概念的語(yǔ)義理解;② 多類(lèi)型數(shù)據(jù)源的結(jié)合;③ 本體的自動(dòng)進(jìn)化(本體自身進(jìn)化和本體的對(duì)外進(jìn)化)。[8]Gomez-Pere等研究了從文本中進(jìn)行本體構(gòu)建的36個(gè)方法,對(duì)不同數(shù)據(jù)源進(jìn)行了分析:① 缺乏一個(gè)通用的、具體的從文本中進(jìn)行本體構(gòu)建的方法體系;② 大多數(shù)從文本中進(jìn)行本體構(gòu)建的過(guò)程主要基于自然語(yǔ)言分析技術(shù),具體的構(gòu)建過(guò)程由作為數(shù)據(jù)源的語(yǔ)料庫(kù)決定;③ 幾乎沒(méi)有完全自動(dòng)化的面向文本的本體構(gòu)建系統(tǒng),多數(shù)方法在本體概念提取及概念間關(guān)系提取階段都需要人工參與。[9]Ying Ding等通過(guò)12個(gè)研究項(xiàng)目對(duì)從文本中進(jìn)行本體構(gòu)建的方法進(jìn)行綜述分析,得出以下結(jié)論。① 一些以半結(jié)構(gòu)化的數(shù)據(jù)為數(shù)據(jù)源的本體構(gòu)建過(guò)程,需要事先由領(lǐng)域?qū)<姨峁┓N子概念集合,利用這些種子概念收集數(shù)據(jù)資源或者完成目標(biāo)本體的基本框架的構(gòu)建,但以非結(jié)構(gòu)化文本作為數(shù)據(jù)源的本體構(gòu)建的方法還不能應(yīng)用于實(shí)踐;②已經(jīng)出現(xiàn)了一些比較成熟的詞性標(biāo)注、詞義消歧、模式匹配等本體構(gòu)建過(guò)程中的概念抽取技術(shù);③ 中文復(fù)雜的語(yǔ)法結(jié)構(gòu)使得概念間關(guān)系的抽取變得更加復(fù)雜,解決難度也更大。有學(xué)者指出,采用自動(dòng)、半自動(dòng)化的本體構(gòu)建技術(shù)是未來(lái)面向文本的本體構(gòu)建的主要研究方向。[10-11]任飛亮等從以文本作為數(shù)據(jù)源的本體構(gòu)建過(guò)程中的術(shù)語(yǔ)抽取、概念抽取、概念間關(guān)系抽取角度出發(fā),對(duì)這三個(gè)方面的技術(shù)進(jìn)行了綜述,對(duì)本體構(gòu)建中的本體形成、本體評(píng)價(jià)的方法進(jìn)行了綜述,同時(shí)還介紹了一些目前比較常見(jiàn)的本體構(gòu)建系統(tǒng)。作者發(fā)現(xiàn):① 在本體構(gòu)建過(guò)程中,人工的概念獲取方式已經(jīng)無(wú)法應(yīng)用于大規(guī)模的文本;② 對(duì)于概念有時(shí)會(huì)存在歧義這一問(wèn)題,在目前的本體構(gòu)建研究中還未得到足夠的重視;③ 利用人工構(gòu)建方式和半自動(dòng)構(gòu)建方式所得到的本體的移植性較差。作者認(rèn)為,在未來(lái)幾年利用自然語(yǔ)言處理和機(jī)器學(xué)習(xí)等技術(shù)來(lái)進(jìn)行本體構(gòu)建是未來(lái)以文本作為數(shù)據(jù)源的本體構(gòu)建研究的重點(diǎn)研究方向。[12]

        綜上,可以得出以下結(jié)論:① 如何實(shí)現(xiàn)概念的自動(dòng)抽取及其關(guān)系的自動(dòng)提取是本體自動(dòng)構(gòu)建的核心;② 從大量的文本數(shù)據(jù)中構(gòu)建本體是未來(lái)的研究熱點(diǎn);③ 未來(lái)在研究本體自動(dòng)構(gòu)建方面,應(yīng)主要研究如何實(shí)現(xiàn)真正的“自動(dòng)”,或者僅需少量的人工參與。

        3 本體自動(dòng)構(gòu)建關(guān)鍵技術(shù)

        當(dāng)下,信息網(wǎng)絡(luò)迅速發(fā)展,數(shù)據(jù)呈爆炸式增長(zhǎng),大量數(shù)據(jù)以非結(jié)構(gòu)化的形式存在,并且其增長(zhǎng)的速度遠(yuǎn)高于結(jié)構(gòu)化數(shù)據(jù)的增長(zhǎng)速度,通過(guò)分析非結(jié)構(gòu)化數(shù)據(jù)可以發(fā)現(xiàn)之前很難或無(wú)法確定的重要相互關(guān)系。在非結(jié)構(gòu)化數(shù)據(jù)中,存在著大量的數(shù)據(jù)純文本,這種純文本獲取便捷并且內(nèi)容豐富,因此越來(lái)越多的研究者開(kāi)始關(guān)注如何從文本中進(jìn)行本體的自動(dòng)構(gòu)建。面向文本的本體自動(dòng)構(gòu)建就是以文本作為數(shù)據(jù)輸入,即從文本中挖掘本體知識(shí)。也有部分學(xué)者以本體為基礎(chǔ),研究如何將已有的多個(gè)本體進(jìn)行合并或者通過(guò)不斷擴(kuò)展新的概念和新的關(guān)系來(lái)形成目標(biāo)本體。[13-15]而使用后一種方法的前提條件是要有一些可用的本體資源,但是在實(shí)際操作中,這個(gè)條件基本很難被滿(mǎn)足。面向文本的本體自動(dòng)構(gòu)建流程通常涉及文本預(yù)處理、術(shù)語(yǔ)自動(dòng)抽取、關(guān)系自動(dòng)抽?。▽哟侮P(guān)系和非層次關(guān)系)等關(guān)鍵技術(shù)(見(jiàn)下圖),本節(jié)主要對(duì)從文本數(shù)據(jù)中自動(dòng)構(gòu)建本體的各個(gè)步驟的相關(guān)技術(shù)進(jìn)行介紹。

        圖 面向文本的本體自動(dòng)構(gòu)建技術(shù)線路

        3.1 文本預(yù)處理

        為了使構(gòu)建的本體更加全面,我們需要獲取大量的文本數(shù)據(jù),而從Web中獲取的文本數(shù)據(jù)都是沒(méi)有經(jīng)過(guò)任何處理的非結(jié)構(gòu)化數(shù)據(jù),其中包含大量的冗余數(shù)據(jù)。因此,為了獲取領(lǐng)域概念,需要通過(guò)一些自然語(yǔ)言處理技術(shù)對(duì)文本進(jìn)行噪音數(shù)據(jù)清洗、標(biāo)記化、分詞、詞性標(biāo)注等,為概念自動(dòng)提取做準(zhǔn)備。段煉[16]利用Java語(yǔ)言的JNI技術(shù),將中國(guó)科學(xué)院分詞器ICTCLAS集成到自然語(yǔ)言處理開(kāi)源軟件GATE中,對(duì)文本數(shù)據(jù)進(jìn)行分詞、詞性標(biāo)注、位置標(biāo)注等。馮曉宜[17]在進(jìn)行文本預(yù)處理時(shí),通過(guò)盤(pán)古分詞對(duì)文本進(jìn)行分詞,并綜合哈爾濱工業(yè)大學(xué)停用詞表對(duì)分詞過(guò)后的文本進(jìn)行停用詞的過(guò)濾。由于文本預(yù)處理大多都包含在概念抽取的任務(wù)中,所以在這里不進(jìn)行著重介紹。

        3.2 術(shù)語(yǔ)自動(dòng)抽取

        在本體構(gòu)建過(guò)程中,概念抽取是一項(xiàng)必不可少的任務(wù),無(wú)論是關(guān)系的獲取還是實(shí)例的獲取都離不開(kāi)本體概念的自動(dòng)抽取。但是,并不是所有的本體構(gòu)建方法都會(huì)明確地進(jìn)行概念的提取,一些特定專(zhuān)業(yè)領(lǐng)域會(huì)將術(shù)語(yǔ)直接看作概念,[18-19]也有一些研究者通過(guò)對(duì)所提取到的術(shù)語(yǔ)進(jìn)行過(guò)濾然后選擇一些重要的術(shù)語(yǔ)作為概念。[20]國(guó)外關(guān)于術(shù)語(yǔ)自動(dòng)提取的研究相對(duì)較早,國(guó)內(nèi)則是近十年才開(kāi)始大量研究的,其中大多數(shù)都結(jié)合了中文的語(yǔ)言特點(diǎn),目前比較常用的方法有三種:基于語(yǔ)言學(xué)規(guī)則、基于統(tǒng)計(jì)以及兩者相混合的方法。

        (1)基于語(yǔ)言學(xué)規(guī)則的方法?;谡Z(yǔ)言學(xué)知識(shí)的方法主要是根據(jù)術(shù)語(yǔ)的模式、特征、語(yǔ)義信息等從語(yǔ)料庫(kù)中進(jìn)行術(shù)語(yǔ)的抽?。ㄒ?jiàn)表1)。段國(guó)成提出,將普通詞典和種子擴(kuò)展法相結(jié)合來(lái)進(jìn)行單詞術(shù)語(yǔ)的自動(dòng)識(shí)別,實(shí)驗(yàn)結(jié)果表明該方法是有效的,但是召回率較低。[21]Sui Z等通過(guò)早期的語(yǔ)法過(guò)濾器進(jìn)行術(shù)語(yǔ)的自動(dòng)提取,該過(guò)濾器的語(yǔ)法規(guī)則比較寬松,可以匹配更多語(yǔ)言結(jié)構(gòu)的術(shù)語(yǔ)。[22]雖然這種方法可以提高術(shù)語(yǔ)抽取的召回率,但卻降低了準(zhǔn)確率。LRJones等基于詞語(yǔ)的語(yǔ)言學(xué)原理,利用語(yǔ)法結(jié)構(gòu)識(shí)別的方法來(lái)識(shí)別術(shù)語(yǔ),進(jìn)而完成術(shù)語(yǔ)的自動(dòng)提取。[23]B Daille等通過(guò)事先構(gòu)造語(yǔ)模板來(lái)進(jìn)行術(shù)語(yǔ)的自動(dòng)抽取。[24]表1比較了以上幾種基于語(yǔ)言學(xué)規(guī)則的方法。利用語(yǔ)言學(xué)規(guī)則進(jìn)行術(shù)語(yǔ)的自動(dòng)提取的結(jié)果準(zhǔn)確度較高,而且處理過(guò)程簡(jiǎn)單并且能夠提取低頻術(shù)語(yǔ)。但由于語(yǔ)言學(xué)規(guī)則本身難以掌握,尤其對(duì)于開(kāi)放性語(yǔ)料,故語(yǔ)言學(xué)的規(guī)則難以準(zhǔn)確應(yīng)用。

        表1 基于語(yǔ)言學(xué)規(guī)則方法的比較

        (2)基于統(tǒng)計(jì)的方法?;诮y(tǒng)計(jì)的方法就是通過(guò)對(duì)比領(lǐng)域相關(guān)術(shù)語(yǔ)與普通詞匯的統(tǒng)計(jì)特征來(lái)進(jìn)行術(shù)語(yǔ)的自動(dòng)提取。Justeson等統(tǒng)計(jì)了計(jì)算詞在語(yǔ)料庫(kù)出現(xiàn)的頻率,通過(guò)詞性過(guò)濾器篩來(lái)選擇候選術(shù)語(yǔ)。[25]Benabdallah等在準(zhǔn)備好語(yǔ)料庫(kù)后,用重復(fù)分段法提取所有不同的術(shù)語(yǔ),并用“加權(quán)過(guò)濾器”(TF-IDF)去除一些不被認(rèn)為是領(lǐng)域術(shù)語(yǔ)的詞。[26]Pantel等通過(guò)結(jié)合互信息和對(duì)數(shù)似然兩個(gè)參數(shù)來(lái)進(jìn)行術(shù)語(yǔ)提取,采用互信息的方法來(lái)度量文本中兩個(gè)相鄰詞之間的相互依賴(lài)程度,并計(jì)算出這兩個(gè)相鄰的詞能夠組成術(shù)語(yǔ)的可能性,從而完成術(shù)語(yǔ)的自動(dòng)提取。[27]王強(qiáng)軍提出基于連續(xù)指數(shù)的術(shù)語(yǔ)抽取,同時(shí)結(jié)合TF-IDF以及依據(jù)領(lǐng)域相關(guān)性考察候選術(shù)語(yǔ)的術(shù)語(yǔ)度方法來(lái)進(jìn)行術(shù)語(yǔ)的自動(dòng)提取。[28]表2比較了以上幾種基于統(tǒng)計(jì)的方法。基于統(tǒng)計(jì)方法來(lái)自動(dòng)提取術(shù)語(yǔ)可以有效識(shí)別域術(shù)語(yǔ),并且此方法不需要語(yǔ)法和語(yǔ)義上的信息,不限于特定的專(zhuān)業(yè)領(lǐng)域,具有良好的可移植性,但基于統(tǒng)計(jì)的方法必須對(duì)整個(gè)語(yǔ)料庫(kù)進(jìn)行計(jì)算,計(jì)算量大,且在處理低頻項(xiàng)時(shí)效果不佳。

        表2 基于統(tǒng)計(jì)方法的比較

        (3)語(yǔ)言學(xué)規(guī)則與統(tǒng)計(jì)相結(jié)合的方法。基于語(yǔ)言學(xué)規(guī)則和基于統(tǒng)計(jì)的方法都存在一定的缺陷,因此大量研究者將兩種方法相結(jié)合,綜合兩種方法的優(yōu)勢(shì)來(lái)進(jìn)行術(shù)語(yǔ)的自動(dòng)抽取。Missikof等憑借淺層解析技術(shù)從文本中提取出候選術(shù)語(yǔ),利用統(tǒng)計(jì)的方法來(lái)對(duì)所提取的候選術(shù)語(yǔ)進(jìn)行過(guò)濾,通過(guò)對(duì)比能夠成為術(shù)語(yǔ)的相關(guān)指標(biāo)來(lái)確定術(shù)語(yǔ),完成本體的術(shù)語(yǔ)提取。[29]C Enguehard等計(jì)算各個(gè)詞語(yǔ)在文本中出現(xiàn)的頻率,抽取頻率較高的簡(jiǎn)單術(shù)語(yǔ)并將其與語(yǔ)言啟發(fā)式結(jié)合起來(lái),抽取其他的術(shù)語(yǔ)候選詞。[30]Yang等提出一種新的基于自舉的術(shù)語(yǔ)自動(dòng)獲取算法,根據(jù)互信息和信息熵的組合條件提取復(fù)合詞并引入語(yǔ)義因子來(lái)避免遺漏頻域術(shù)語(yǔ)或與其他領(lǐng)域術(shù)語(yǔ)語(yǔ)義相似的術(shù)語(yǔ)。[31]張華楠等根據(jù)中文文本結(jié)構(gòu)的特點(diǎn),利用規(guī)則學(xué)習(xí)來(lái)獲取候選術(shù)語(yǔ),結(jié)合改進(jìn)后的DR&DC、TF-IDF和NC-Value三種策略對(duì)候選術(shù)語(yǔ)進(jìn)行篩選從而獲得最終的術(shù)語(yǔ)。[32]劉豹等提出使用條件隨機(jī)場(chǎng)模型標(biāo)記和識(shí)別文本,再基于語(yǔ)言學(xué)規(guī)則對(duì)識(shí)別的結(jié)果進(jìn)行過(guò)濾,從而完成術(shù)語(yǔ)的自動(dòng)提取。[33]表3比較了以上幾種語(yǔ)言學(xué)規(guī)則與統(tǒng)計(jì)相結(jié)合的方法。

        表3 基于語(yǔ)言學(xué)規(guī)則和統(tǒng)計(jì)相結(jié)合方法的比較

        3.3 關(guān)系自動(dòng)抽取

        本體自動(dòng)構(gòu)建中的另一個(gè)關(guān)鍵任務(wù)是概念間關(guān)系自動(dòng)抽取,概念間的關(guān)系決定著本體的最終結(jié)構(gòu),概念間關(guān)系的具體程度直接影響所構(gòu)建本體的最終質(zhì)量,本體概念間的關(guān)系主要分為層次關(guān)系和非層次關(guān)系。對(duì)于概念間層次關(guān)系的自動(dòng)提取,Mari-Sanna Paukkeri等[34]通過(guò)特征抽取與層次聚相結(jié)合類(lèi)的方法,對(duì)數(shù)據(jù)源中概念間的層次關(guān)系進(jìn)行自動(dòng)獲取。Shih C W等利用crystallizing方法進(jìn)行迭代聚類(lèi),并采用置信度和TF-IDF算法來(lái)度量?jī)蓚€(gè)概念間的緊密度,從而提取概念間的層次關(guān)系。[35]溫春等采用層次聚類(lèi)和FCA聚類(lèi)相結(jié)合的方法來(lái)完成概念間層次關(guān)系的自動(dòng)提取。[36]湯青等基于“是一個(gè)”模式,通過(guò)將句法分析和規(guī)則匹配結(jié)合的方法來(lái)進(jìn)行概念間上下位關(guān)系的自動(dòng)抽取。[37]

        概念間的非層次關(guān)系是指層次關(guān)系以外的關(guān)系,相對(duì)于概念間的層次關(guān)系,非層次關(guān)系的類(lèi)別更難以確定并且更具有隱蔽性,因而概念間的非層次關(guān)系的提取要比層次關(guān)系的提取更為困難和復(fù)雜。Maedche等首次研究了如何在文本中對(duì)非層次關(guān)系進(jìn)行自動(dòng)提取的問(wèn)題,提出利用淺文本處理技術(shù)進(jìn)行非層次關(guān)系挖掘,基于關(guān)聯(lián)規(guī)則提取關(guān)系并確定其抽象層次。[38]David Sanchez等通過(guò)形式概念分析(FCA)和自然語(yǔ)言處理(NLP)的方法對(duì)文本中概念間的非層次關(guān)系進(jìn)行自動(dòng)提取。[39]王紅等結(jié)合關(guān)聯(lián)規(guī)則和自然語(yǔ)言處理技術(shù),提出了一種基于NNV關(guān)聯(lián)規(guī)則的非層次關(guān)系的自動(dòng)提取方法。[40]李林等通過(guò)模式匹配(詞匯—句法)和關(guān)聯(lián)規(guī)則相結(jié)合的方法進(jìn)行非層次關(guān)系的抽取。[41]非層次關(guān)系具有多樣性和復(fù)雜性的特點(diǎn),國(guó)內(nèi)外關(guān)于非層次關(guān)系自動(dòng)提取方面的研究相對(duì)較少,尤其是從中文文本中進(jìn)行非層次關(guān)系的自動(dòng)獲取的研究就更少了。非層次關(guān)系使本體中知識(shí)表達(dá)的復(fù)雜性和完備性成倍增長(zhǎng),所以研究如何從中文文本中進(jìn)行非層次關(guān)系的自動(dòng)獲取將是未來(lái)本體研究的重中之重。

        4 問(wèn)題與展望

        通過(guò)上述分析可以看出,如何進(jìn)行本體的自動(dòng)構(gòu)建已成為目前本體研究的主流方向和熱點(diǎn)課題,研究者們對(duì)于面向文本的本體自動(dòng)構(gòu)建過(guò)程中各個(gè)任務(wù)的相關(guān)技術(shù)也進(jìn)行了較為深入的研究,但仍存在一些問(wèn)題。

        (1)對(duì)于本體術(shù)語(yǔ)的自動(dòng)提取。① 術(shù)語(yǔ)的提取精度取決于對(duì)文本進(jìn)行分詞和語(yǔ)義標(biāo)注的準(zhǔn)確度。在分詞過(guò)程中,可能會(huì)由于領(lǐng)域?qū)I(yè)詞匯量的缺乏導(dǎo)致領(lǐng)域術(shù)語(yǔ)被錯(cuò)誤地分成多個(gè)單詞或者是單詞片段,進(jìn)而影響對(duì)術(shù)語(yǔ)的提取。② 目前,大多數(shù)術(shù)語(yǔ)自動(dòng)抽取的方法都是使用準(zhǔn)確率、召回率和F值等統(tǒng)計(jì)學(xué)指標(biāo)衡量術(shù)語(yǔ)提取精度,而對(duì)于提取到的術(shù)語(yǔ)的語(yǔ)義上的考量(如是否存在歧義、近義詞等)還相對(duì)缺乏。③ 一些術(shù)語(yǔ)自動(dòng)提取的方法在不同領(lǐng)域有不同的適用性,換句話說(shuō),某個(gè)術(shù)語(yǔ)自動(dòng)提取方法在某個(gè)領(lǐng)域的語(yǔ)料中表現(xiàn)出很好的效果,但并不代表其在其他領(lǐng)域的表現(xiàn)依舊良好。

        (2)對(duì)于關(guān)系的自動(dòng)提取,由于概念間非層次關(guān)系的復(fù)雜性導(dǎo)致其提取難度較大,并且已有的非層次間關(guān)系自動(dòng)提取的方法只能判斷出兩個(gè)概念之間是否存在關(guān)系、無(wú)法判斷出兩個(gè)概念之間存在的關(guān)系到底為哪種關(guān)系,即所得到的非層次關(guān)系都為“匿名”關(guān)系。通過(guò)對(duì)概念間非層次關(guān)系進(jìn)行系統(tǒng)研究,可以使構(gòu)建的本體更加全面,且能夠?yàn)閷?shí)際應(yīng)用提供幫助。

        在未來(lái)的研究中,還需對(duì)以下幾個(gè)方面進(jìn)行深入研究。① 近幾年,針對(duì)面向文本的本體自動(dòng)(半自動(dòng))構(gòu)建,一些研究者提出本體學(xué)習(xí)的概念,但由于中文文本具有較大的靈活性且中文的表達(dá)結(jié)構(gòu)相對(duì)于英文而言更為復(fù)雜,面向中文文本的本體學(xué)習(xí)有待更深入地研究。② 目前,對(duì)于本體構(gòu)建過(guò)程中的概念自動(dòng)提取及其關(guān)系的自動(dòng)提取的研究成果較為豐富,但在銜接這些步驟來(lái)完成整體的本體構(gòu)建時(shí)還需要人工來(lái)參與銜接。另外,在利用本體編輯器構(gòu)建本體時(shí),仍需要人工進(jìn)行概念及其關(guān)系的添加??梢?jiàn),構(gòu)建一個(gè)本體自動(dòng)構(gòu)建系統(tǒng)是解決這個(gè)問(wèn)題的有效途徑。③ 構(gòu)建本體的目的在于實(shí)現(xiàn)知識(shí)系統(tǒng)的自動(dòng)推理,如何有效地將本體自動(dòng)構(gòu)建技術(shù)和自動(dòng)推理技術(shù)結(jié)合起來(lái),從而開(kāi)發(fā)人工智能系統(tǒng)并將其運(yùn)用到實(shí)際應(yīng)用中也是一個(gè)值得研究的問(wèn)題。④ 本體中的概念不是一成不變的,隨著文本知識(shí)的不斷擴(kuò)充,領(lǐng)域概念也會(huì)不斷更新,如何實(shí)現(xiàn)本體自動(dòng)更新為本體的自動(dòng)構(gòu)建帶來(lái)了更大的挑戰(zhàn)。

        猜你喜歡
        數(shù)據(jù)源術(shù)語(yǔ)語(yǔ)言學(xué)
        Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
        基于不同網(wǎng)絡(luò)數(shù)據(jù)源的期刊評(píng)價(jià)研究
        認(rèn)知語(yǔ)言學(xué)與對(duì)外漢語(yǔ)教學(xué)
        基于真值發(fā)現(xiàn)的沖突數(shù)據(jù)源質(zhì)量評(píng)價(jià)算法
        分布式異構(gòu)數(shù)據(jù)源標(biāo)準(zhǔn)化查詢(xún)?cè)O(shè)計(jì)與實(shí)現(xiàn)
        有感于幾個(gè)術(shù)語(yǔ)的定名與應(yīng)用
        從術(shù)語(yǔ)學(xué)基本模型的演變看術(shù)語(yǔ)學(xué)的發(fā)展趨勢(shì)
        語(yǔ)言學(xué)與修辭學(xué):關(guān)聯(lián)與互動(dòng)
        語(yǔ)料庫(kù)語(yǔ)言學(xué)未來(lái)發(fā)展趨勢(shì)
        基于認(rèn)知語(yǔ)言學(xué)的“認(rèn)知修辭學(xué)”——從認(rèn)知語(yǔ)言學(xué)與修辭學(xué)的兼容、互補(bǔ)看認(rèn)知修辭學(xué)的可行性
        麻豆精品在线视频观看| 亚洲AV无码一区二区三区人| 亚洲精品aⅴ无码精品丝袜足| 美女被搞在线观看一区二区三区 | 亚洲性爱区免费视频一区| 91色综合久久熟女系列| 天堂av一区一区一区| 精品女同一区二区三区免费战| 麻豆精品国产精华液好用吗| 5级做人爱c视版免费视频| 曰本亚洲欧洲色a在线| 丝袜美足在线视频国产在线看| 天天综合天天爱天天做| 亚洲av麻豆aⅴ无码电影| 亚洲AV无码国产永久播放蜜芽| 加勒比特在线视频播放| 色翁荡熄又大又硬又粗又动态图| 久热这里只有精品视频6| 国产AV国片精品有毛| 人妻乱交手机在线播放| 亚洲国产成人精品无码区在线播放 | 一区二区三区视频在线观看| 人人爽久久涩噜噜噜丁香| 开心婷婷五月激情综合社区| 伊人狠狠色j香婷婷综合| 亚洲av午夜福利精品一区不卡| 亚洲av无码av在线播放| 国自产偷精品不卡在线| 亚洲国产精品国自产拍av在线| 45岁妇女草逼视频播放| 丰满人妻被黑人猛烈进入| 久久国产精品视频影院| 情头一男一女高冷男女| 欲求不満の人妻松下纱荣子| 中文无码久久精品| 亚洲乱码一区二区三区成人小说 | 亚洲av无码日韩av无码网站冲| 国产自偷亚洲精品页65页| 40分钟永久免费又黄又粗| 亚洲精品国产成人久久av| 日日婷婷夜日日天干|