亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)字圖書館本體的構(gòu)建方法研究與應(yīng)用

        2016-04-12 00:00:00尤勝
        現(xiàn)代電子技術(shù) 2016年17期

        摘 要: 設(shè)計(jì)并實(shí)現(xiàn)了中文領(lǐng)域術(shù)語抽取系統(tǒng),提出了基于前后綴的中文領(lǐng)域術(shù)語抽取算法,該算法獨(dú)立于具體的領(lǐng)域,并且對(duì)包含常用前后綴的領(lǐng)域術(shù)語具有較好的抽取效果;通過對(duì)領(lǐng)域本體構(gòu)建中關(guān)鍵技術(shù)的研究,提出了適用于不同領(lǐng)域的領(lǐng)域本體半自動(dòng)構(gòu)建方法;最后,數(shù)字圖書館氣候變化領(lǐng)域本體的成功構(gòu)建驗(yàn)證了基于多源數(shù)據(jù)的領(lǐng)域本體半自動(dòng)構(gòu)建方法的有效性,并且該方法可以很方便地移植到其他領(lǐng)域。

        關(guān)鍵詞: 本體; 本體構(gòu)建; 術(shù)語抽取; 關(guān)系抽取

        中圖分類號(hào): TN911?34; TM417 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2016)17?0112?04

        0 引 言

        本體是網(wǎng)絡(luò)信息組織和檢索的理想選擇,信息組織以便于信息檢索和利用為目的,本體的引入能夠促進(jìn)信息組織向知識(shí)組織轉(zhuǎn)變,由于本體能夠提供領(lǐng)域知識(shí)的共享和重用,以這樣的方式進(jìn)行信息組織,能夠更好地為人們提供信息檢索和利用服務(wù)。語義Web的發(fā)展迫切需要簡單快捷的本體構(gòu)建方法。國內(nèi)外對(duì)本體理論及其技術(shù)進(jìn)行了一系列研究,提出了多種本體構(gòu)建方法,產(chǎn)生了多種本體構(gòu)建工具和描述語言。雖然本體構(gòu)建工具已經(jīng)相當(dāng)成熟,但它支持的仍然是手工構(gòu)建本體的方法,手工構(gòu)建本體耗費(fèi)大量的時(shí)間、人力和物力,難以適應(yīng)時(shí)代發(fā)展的要求。因此,通過機(jī)器學(xué)習(xí)的辦法讓計(jì)算機(jī)參與到本體構(gòu)建的過程中來,以縮短本體構(gòu)建的周期,減少人員投入,成為語義Web的一個(gè)重大課題。

        1 系統(tǒng)介紹

        目前以本體為核心的語義Web技術(shù)正在為解決異構(gòu)系統(tǒng)之間的互操作問題提供一種解決思想。本體的實(shí)質(zhì)就是實(shí)現(xiàn)領(lǐng)域知識(shí)的共享和重用,形式化和標(biāo)準(zhǔn)化的領(lǐng)域本體為信息系統(tǒng)之間的互操作提供了良好的工具,因此,將本體技術(shù)引入到數(shù)字圖書館,可以解決分布式網(wǎng)絡(luò)環(huán)境下的互操作問題。本體在數(shù)字圖書館中具有很大的應(yīng)用空間。例如:可以創(chuàng)建跨系統(tǒng)、跨平臺(tái)之間的通信中介;可以提供元數(shù)據(jù)的映射方案;可以提高計(jì)算機(jī)支持的協(xié)同工作的能力;可以提高分布式環(huán)境下查詢請(qǐng)求的自動(dòng)分發(fā)能力和語義理解能力;可用于數(shù)字圖書館的數(shù)據(jù)挖掘等多個(gè)方面。

        2 本體半自動(dòng)構(gòu)建方法

        將機(jī)器學(xué)習(xí)技術(shù)應(yīng)用到領(lǐng)域術(shù)語抽取及概念關(guān)系抽取中,提出了基于多源數(shù)據(jù)的領(lǐng)域本體半自動(dòng)構(gòu)建方法,具體流程如圖1所示。

        多源數(shù)據(jù)是指構(gòu)建領(lǐng)域本體所使用的源數(shù)據(jù),包括txt文本、敘詞表、HTML文本,既有非結(jié)構(gòu)化的數(shù)據(jù),也有半結(jié)構(gòu)化數(shù)據(jù),而不僅僅限于某一種數(shù)據(jù)來源。

        文中長度為1的領(lǐng)域詞稱為基本術(shù)語,復(fù)合術(shù)語也即詞組型術(shù)語,其長度大于1,通過分析領(lǐng)域術(shù)語,復(fù)合術(shù)語通常包括一個(gè)前綴或一個(gè)后綴。因此,領(lǐng)域術(shù)語通??梢员硎緸橐韵聨追N形式:

        3 術(shù)語關(guān)系獲取

        3.1 術(shù)語解釋抽取模塊

        術(shù)語解釋抽取模塊主要用來抽取術(shù)語的詞條解釋,以及該術(shù)語在百科中的相關(guān)詞條,以此獲得需要從中抽取術(shù)語關(guān)系的所有術(shù)語的概念解釋。整個(gè)術(shù)語解釋抽取流程可描述為:

        (1) 初始化候選詞表,初始候選詞表是氣候變化領(lǐng)域種子術(shù)語。

        (2) 從候選詞表中選擇一個(gè)候選詞,下載其對(duì)應(yīng)的百科網(wǎng)頁,并保存到Access數(shù)據(jù)庫。

        (3) 利用SVM分類器判斷當(dāng)前網(wǎng)頁是否是氣候變化領(lǐng)域詞匯,如果是,則抽取當(dāng)前候選詞對(duì)應(yīng)的百科名片數(shù)據(jù),并保存到Access數(shù)據(jù)庫;否則,不做任何操作。

        (4) 抽取當(dāng)前詞匯百科名片中的鏈接詞匯,并加入到候選詞表;同時(shí)抽取該詞匯在百科網(wǎng)頁中的相關(guān)詞匯,加入到候選詞表,同時(shí)保證候選詞表中的候選詞不重復(fù)。

        (5) 重復(fù)步驟(2)~步驟(4),直到候選詞表為空。

        術(shù)語解釋抽取模塊抽取的術(shù)語解釋保存在Access數(shù)據(jù)庫中。

        3.2 抽取模板學(xué)習(xí)模塊

        抽取模板學(xué)習(xí)模塊主要分析術(shù)語的百科名片解釋,通過機(jī)器學(xué)習(xí)訓(xùn)練關(guān)系抽取模板。該模塊的流程框圖包含三大步驟:

        抽取候選標(biāo)記詞:在本文中,標(biāo)記詞是在百科名片解釋中出現(xiàn)次數(shù)較多,并且比較抽象的詞;

        人工篩選標(biāo)記詞:候選標(biāo)記詞集中并不是所有的詞都被最終選作標(biāo)記詞,通過分析百科名片解釋的語言表達(dá)特點(diǎn),結(jié)合候選標(biāo)記詞在候選標(biāo)記詞集中的頻率信息,對(duì)候選標(biāo)記詞集進(jìn)行了人工篩選;

        生成關(guān)系抽取模板:對(duì)術(shù)語百科名片解釋進(jìn)行分詞,分詞時(shí)只保留術(shù)語本身、標(biāo)記詞和標(biāo)點(diǎn)符號(hào),其他詞用其詞性代替。

        3.3 本體關(guān)系抽取模塊

        本體關(guān)系抽取模塊使用關(guān)系抽取模板抽取本體中的上下位關(guān)系,實(shí)驗(yàn)結(jié)果如表1所示。

        通過實(shí)驗(yàn)結(jié)果可以看出:基于百科的術(shù)語間關(guān)系抽取的方法的召回率比較低,準(zhǔn)確率相對(duì)較高。經(jīng)分析可知影響召回率的因素如下:術(shù)語的百科名片中不含上位概念;關(guān)系抽取模板覆蓋不夠充分,基于百科的術(shù)語關(guān)系抽取本質(zhì)上是術(shù)語基于模板的關(guān)系抽取方法,模板集的完備性會(huì)對(duì)關(guān)系抽取效果產(chǎn)生很大的影響。

        分析可知影響準(zhǔn)確率的因素如下:分詞程序切分不準(zhǔn)確。分詞結(jié)果的不準(zhǔn)確使得模板無法正確匹配術(shù)語的上位概念,從而影響了關(guān)系抽取的準(zhǔn)確率;模板錯(cuò)誤匹配;術(shù)語百科名片信息本身的問題。一些術(shù)語的百科解釋中并不會(huì)包含術(shù)語的上位概念,這樣從術(shù)語的百科名片解釋中當(dāng)然無法抽取其上位概念。

        4 應(yīng)用案例

        4.1 數(shù)字圖書館氣候變化領(lǐng)域本體構(gòu)建

        為實(shí)現(xiàn)對(duì)已獲取氣候變化領(lǐng)域新聞的分類,方便用戶分類查找,同時(shí)完成對(duì)信息進(jìn)行語義標(biāo)注,本文利用基于多源數(shù)據(jù)的領(lǐng)域本體半自動(dòng)構(gòu)建方法進(jìn)行構(gòu)建,構(gòu)建的氣候變化領(lǐng)域本體具有樹狀結(jié)構(gòu),最大深度是5層,與其他本體不同的是,該本體中只有上下位關(guān)系,這些關(guān)系是由人工確定的。

        (1) 期刊文獻(xiàn)關(guān)鍵詞

        通過氣候變化領(lǐng)域?qū)<彝扑],獲得了氣候變化領(lǐng)域的445篇核心期刊文獻(xiàn)。通過對(duì)這些文獻(xiàn)的來源期刊進(jìn)行分析,可以初步勾畫出氣候變化所涉及到的學(xué)科領(lǐng)域。對(duì)這445篇文獻(xiàn)的關(guān)鍵詞進(jìn)行搜集整理,并與第一輪中得到的關(guān)鍵詞對(duì)比,經(jīng)過去重復(fù)及刪除不相關(guān)詞語之后,將整理得到的關(guān)鍵詞添加到詞匯集中。

        (2) 開放網(wǎng)絡(luò)信息

        氣候變化領(lǐng)域相關(guān)新聞中包含了大量的氣候變化領(lǐng)域術(shù)語。鑒于新聞的實(shí)時(shí)性,其在一定程度上反映了當(dāng)前的熱點(diǎn)問題,利用本文提出的基于前后綴的領(lǐng)域術(shù)語抽取技術(shù),通過分析和處理大量的氣候變化領(lǐng)域新聞,抽取出該領(lǐng)域的術(shù)語,經(jīng)過去重復(fù)后將抽取出的術(shù)語添加到詞匯集中,對(duì)詞匯集進(jìn)行擴(kuò)充。

        基于前后綴的中文領(lǐng)域術(shù)語抽取算法,首先分析種子術(shù)語的常用前后綴;其次對(duì)實(shí)驗(yàn)語料分詞,統(tǒng)計(jì)與常用前后綴相鄰的詞的頻次信息,根據(jù)頻次信息計(jì)算前后綴與相鄰詞是否構(gòu)成候選術(shù)語;然后再根據(jù)詞語在語料中出現(xiàn)的頻率擴(kuò)充初始候選術(shù)語集;最后通過詞語共現(xiàn)分析過濾候選術(shù)語,得到最終的領(lǐng)域術(shù)語集。術(shù)語抽取系統(tǒng)的界面如圖3所示。

        圖3中展示了基于前后綴的中文領(lǐng)域術(shù)語抽取系統(tǒng)界面,界面上方是系統(tǒng)工具欄和設(shè)置算法中閾值的設(shè)置區(qū)域,算法需要使用的閾值一共有三個(gè),判斷出現(xiàn)在某一前綴詞后面的詞是否與該前綴構(gòu)成候選術(shù)語的閾值,判斷出現(xiàn)在某一后綴詞前面的詞是否與該后綴詞構(gòu)成候選術(shù)語的閾值,判斷某一候選術(shù)語是否是氣候變化領(lǐng)域術(shù)語的閾值。左側(cè)用來顯示抽取出的領(lǐng)域術(shù)語以及有關(guān)該術(shù)語的一個(gè)值,該值是每一個(gè)候選術(shù)語在算法中計(jì)算出的判定該候選術(shù)語是否是氣候變化領(lǐng)域術(shù)語的指標(biāo),為了便于人們觀看,已經(jīng)對(duì)該值進(jìn)行降序排列展示。

        4.2 本體的初始化

        本體的初始化即構(gòu)建初始化的領(lǐng)域本體,使得能夠通過對(duì)初始化的本體進(jìn)行精煉和校正得到最終的領(lǐng)域本體。在氣候變化領(lǐng)域本體的構(gòu)建過程中,項(xiàng)目開發(fā)組針對(duì)氣候變化本體的層次構(gòu)建問題組織了相關(guān)專家進(jìn)行研討,綜合專家意見將氣候變化領(lǐng)域進(jìn)行結(jié)構(gòu)分類,如圖4所示。

        在完成對(duì)領(lǐng)域術(shù)語的分析整理和本體框架的初步建立后,開始進(jìn)行術(shù)語與知識(shí)節(jié)點(diǎn)之間關(guān)系的確定,采取的主要方法是根據(jù)專家領(lǐng)域知識(shí),把術(shù)語掛接到所建立的氣候變化領(lǐng)域知識(shí)樹的葉節(jié)點(diǎn)之下。對(duì)構(gòu)建的氣候變化領(lǐng)域本體知識(shí)樹進(jìn)行掛接,采用由根到葉的分類方法。

        4.3 本體的精煉與確認(rèn)

        領(lǐng)域?qū)<沂褂帽疚闹虚_發(fā)的本體編輯器,可以很方便地完成本體的校正。系統(tǒng)啟動(dòng)時(shí),就會(huì)將已有的本體知識(shí)樹和待掛接的候選術(shù)語載入到系統(tǒng)中,同時(shí)候選術(shù)語解釋區(qū)域能夠?yàn)楸倔w編輯器的使用者提供一定的幫助。氣候變化領(lǐng)域本體的成功構(gòu)建驗(yàn)證了基于多源數(shù)據(jù)的領(lǐng)域本體半自動(dòng)構(gòu)建方法的有效性。最終構(gòu)建的氣候變化領(lǐng)域本體具有樹狀層次結(jié)構(gòu),最大深度為5層,共包括233個(gè)分類節(jié)點(diǎn)和932個(gè)領(lǐng)域術(shù)語。氣候變化領(lǐng)域本體已經(jīng)應(yīng)用到“應(yīng)對(duì)氣候變化科技成果集成與服務(wù)平臺(tái)建設(shè)”中,用于新聞定制和新聞閱讀器。

        隨著全球性氣候變化問題的日益嚴(yán)重,將會(huì)有更多的人、數(shù)據(jù)庫和信息系統(tǒng)涉及本領(lǐng)域的電子圖書館知識(shí)管理系統(tǒng)。領(lǐng)域本體的核心價(jià)值是知識(shí)共享,為該領(lǐng)域提供一個(gè)統(tǒng)一框架或規(guī)范模型,減少概念和術(shù)語上的歧義,使來自不同背景、持不同觀點(diǎn)和目的的人員之間的交互和理解成為可能,在人和其他Agent之間對(duì)信息結(jié)構(gòu)達(dá)成共同認(rèn)識(shí),方便人機(jī)對(duì)話和信息系統(tǒng)之間的互操作。

        5 結(jié) 論

        本文探討了領(lǐng)域本體的構(gòu)建方法,提出了基于前后綴的中文領(lǐng)域術(shù)語抽取算法,在抽取包含前后綴的領(lǐng)域術(shù)語方面具有良好的抽取效果,并且基于該算法實(shí)現(xiàn)了一個(gè)中文領(lǐng)域術(shù)語抽取系統(tǒng)。同時(shí),提出的基于百科的術(shù)語關(guān)系獲取方法,充分利用了術(shù)語的百科名片解釋,能夠有效地抽取出術(shù)語間的關(guān)系,實(shí)現(xiàn)了上下位關(guān)系的抽取。然后,通過使用基于多源數(shù)據(jù)的領(lǐng)域本體半自動(dòng)構(gòu)建方法,使計(jì)算機(jī)參與到本體構(gòu)建的過程中來,提高了本體開發(fā)的效率。

        參考文獻(xiàn)

        [1] 古小東,夏斌.我國推行合同能源管理的問題與對(duì)策研究[J].企業(yè)經(jīng)濟(jì),2013(3):149?152.

        [2] 李恒杰,李軍權(quán),李明.領(lǐng)域本體建模方法研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2008,29(2):381?384.

        [3] CIMIANO P, LKER J V O. Text2Onto [C]// Proceedings of 2005 10th International Conference on Applications of Natural Language to Information Systems. Alicante: IEEE, 2005: 227?238.

        [4] 胡金強(qiáng),冀亞林,孟妍,等.基于Protege的裝備保障知識(shí)本體構(gòu)建方法[J].現(xiàn)代電子技術(shù),2010,33(6):207?210.

        [5] NAVIGLI R, VELARDI P. Learning domain ontologies from document warehouses and dedicated web sites [J]. Computational linguistics, 2004, 30(2): 151?179.

        [6] 季培培,鄢小燕,岑詠華.面向領(lǐng)域中文文本信息處理的術(shù)語識(shí)別與抽取研究綜述[J].圖書情報(bào)工作,2010,54(16):124?129.

        [7] 周浪,張亮,馮沖,等.基于詞頻分布變化統(tǒng)計(jì)的術(shù)語抽取方法[J].計(jì)算機(jī)科學(xué),2009,36(5):177?180.

        [8] 賈秀玲,文敦偉.一種本體學(xué)習(xí)中分類關(guān)系提取方法的研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2007(10):31?33.

        [9] 袁小艷,唐青松,賀建英.高校知識(shí)本體的構(gòu)建及應(yīng)用研究[J].現(xiàn)代電子技術(shù),2014,37(16):58?61.

        日本av一级片免费看| 女同中的p是什么意思| 久久精品国产亚洲av热一区| 国产一区a| 亚洲二区三区在线播放| 中文字幕色偷偷人妻久久一区| 亚洲男人天堂黄色av| 日夜啪啪一区二区三区| 视频福利一区| 成人短篇在线视频夫妻刺激自拍 | 色偷偷偷在线视频播放| 亚洲一线二线三线写真| 中文在线天堂网www| 精品久久久无码不卡| 日韩精品一区二区三区av| 成人影院在线视频免费观看| 少妇被猛男粗大的猛进出| 熟女俱乐部五十路二区av| 无码人妻少妇久久中文字幕| 亚洲激情一区二区三区不卡| 成人免费播放视频777777| 成熟丰满熟妇高潮xxxxx视频| 国产精品白浆一区二小说| 日本熟妇中文字幕三级| 久久本道久久综合伊人| 国产va免费精品高清在线观看| 亚洲一区日韩无码| 在线看亚洲十八禁网站| 麻豆视频在线观看免费在线观看| 国产黄色三级一区二区三区四区| 精品久久久久久无码人妻蜜桃| 亚洲一区欧美二区| 久久久国产精品五月天伊人| 美女脱了内裤洗澡视频| 国产亚洲一本大道中文在线| 黄色毛片视频免费| 国产盗摄一区二区三区av| 国产成人午夜福利在线观看| 男女啪啪无遮挡免费网站| 高清无码精品一区二区三区| 中文字幕人妻被公喝醉在线|