摘 要: 設計并實現了中文領域術語抽取系統(tǒng),提出了基于前后綴的中文領域術語抽取算法,該算法獨立于具體的領域,并且對包含常用前后綴的領域術語具有較好的抽取效果;通過對領域本體構建中關鍵技術的研究,提出了適用于不同領域的領域本體半自動構建方法;最后,數字圖書館氣候變化領域本體的成功構建驗證了基于多源數據的領域本體半自動構建方法的有效性,并且該方法可以很方便地移植到其他領域。
關鍵詞: 本體; 本體構建; 術語抽??; 關系抽取
中圖分類號: TN911?34; TM417 文獻標識碼: A 文章編號: 1004?373X(2016)17?0112?04
0 引 言
本體是網絡信息組織和檢索的理想選擇,信息組織以便于信息檢索和利用為目的,本體的引入能夠促進信息組織向知識組織轉變,由于本體能夠提供領域知識的共享和重用,以這樣的方式進行信息組織,能夠更好地為人們提供信息檢索和利用服務。語義Web的發(fā)展迫切需要簡單快捷的本體構建方法。國內外對本體理論及其技術進行了一系列研究,提出了多種本體構建方法,產生了多種本體構建工具和描述語言。雖然本體構建工具已經相當成熟,但它支持的仍然是手工構建本體的方法,手工構建本體耗費大量的時間、人力和物力,難以適應時代發(fā)展的要求。因此,通過機器學習的辦法讓計算機參與到本體構建的過程中來,以縮短本體構建的周期,減少人員投入,成為語義Web的一個重大課題。
1 系統(tǒng)介紹
目前以本體為核心的語義Web技術正在為解決異構系統(tǒng)之間的互操作問題提供一種解決思想。本體的實質就是實現領域知識的共享和重用,形式化和標準化的領域本體為信息系統(tǒng)之間的互操作提供了良好的工具,因此,將本體技術引入到數字圖書館,可以解決分布式網絡環(huán)境下的互操作問題。本體在數字圖書館中具有很大的應用空間。例如:可以創(chuàng)建跨系統(tǒng)、跨平臺之間的通信中介;可以提供元數據的映射方案;可以提高計算機支持的協同工作的能力;可以提高分布式環(huán)境下查詢請求的自動分發(fā)能力和語義理解能力;可用于數字圖書館的數據挖掘等多個方面。
2 本體半自動構建方法
將機器學習技術應用到領域術語抽取及概念關系抽取中,提出了基于多源數據的領域本體半自動構建方法,具體流程如圖1所示。
多源數據是指構建領域本體所使用的源數據,包括txt文本、敘詞表、HTML文本,既有非結構化的數據,也有半結構化數據,而不僅僅限于某一種數據來源。
文中長度為1的領域詞稱為基本術語,復合術語也即詞組型術語,其長度大于1,通過分析領域術語,復合術語通常包括一個前綴或一個后綴。因此,領域術語通常可以表示為以下幾種形式:
3 術語關系獲取
3.1 術語解釋抽取模塊
術語解釋抽取模塊主要用來抽取術語的詞條解釋,以及該術語在百科中的相關詞條,以此獲得需要從中抽取術語關系的所有術語的概念解釋。整個術語解釋抽取流程可描述為:
(1) 初始化候選詞表,初始候選詞表是氣候變化領域種子術語。
(2) 從候選詞表中選擇一個候選詞,下載其對應的百科網頁,并保存到Access數據庫。
(3) 利用SVM分類器判斷當前網頁是否是氣候變化領域詞匯,如果是,則抽取當前候選詞對應的百科名片數據,并保存到Access數據庫;否則,不做任何操作。
(4) 抽取當前詞匯百科名片中的鏈接詞匯,并加入到候選詞表;同時抽取該詞匯在百科網頁中的相關詞匯,加入到候選詞表,同時保證候選詞表中的候選詞不重復。
(5) 重復步驟(2)~步驟(4),直到候選詞表為空。
術語解釋抽取模塊抽取的術語解釋保存在Access數據庫中。
3.2 抽取模板學習模塊
抽取模板學習模塊主要分析術語的百科名片解釋,通過機器學習訓練關系抽取模板。該模塊的流程框圖包含三大步驟:
抽取候選標記詞:在本文中,標記詞是在百科名片解釋中出現次數較多,并且比較抽象的詞;
人工篩選標記詞:候選標記詞集中并不是所有的詞都被最終選作標記詞,通過分析百科名片解釋的語言表達特點,結合候選標記詞在候選標記詞集中的頻率信息,對候選標記詞集進行了人工篩選;
生成關系抽取模板:對術語百科名片解釋進行分詞,分詞時只保留術語本身、標記詞和標點符號,其他詞用其詞性代替。
3.3 本體關系抽取模塊
本體關系抽取模塊使用關系抽取模板抽取本體中的上下位關系,實驗結果如表1所示。
通過實驗結果可以看出:基于百科的術語間關系抽取的方法的召回率比較低,準確率相對較高。經分析可知影響召回率的因素如下:術語的百科名片中不含上位概念;關系抽取模板覆蓋不夠充分,基于百科的術語關系抽取本質上是術語基于模板的關系抽取方法,模板集的完備性會對關系抽取效果產生很大的影響。
分析可知影響準確率的因素如下:分詞程序切分不準確。分詞結果的不準確使得模板無法正確匹配術語的上位概念,從而影響了關系抽取的準確率;模板錯誤匹配;術語百科名片信息本身的問題。一些術語的百科解釋中并不會包含術語的上位概念,這樣從術語的百科名片解釋中當然無法抽取其上位概念。
4 應用案例
4.1 數字圖書館氣候變化領域本體構建
為實現對已獲取氣候變化領域新聞的分類,方便用戶分類查找,同時完成對信息進行語義標注,本文利用基于多源數據的領域本體半自動構建方法進行構建,構建的氣候變化領域本體具有樹狀結構,最大深度是5層,與其他本體不同的是,該本體中只有上下位關系,這些關系是由人工確定的。
(1) 期刊文獻關鍵詞
通過氣候變化領域專家推薦,獲得了氣候變化領域的445篇核心期刊文獻。通過對這些文獻的來源期刊進行分析,可以初步勾畫出氣候變化所涉及到的學科領域。對這445篇文獻的關鍵詞進行搜集整理,并與第一輪中得到的關鍵詞對比,經過去重復及刪除不相關詞語之后,將整理得到的關鍵詞添加到詞匯集中。
(2) 開放網絡信息
氣候變化領域相關新聞中包含了大量的氣候變化領域術語。鑒于新聞的實時性,其在一定程度上反映了當前的熱點問題,利用本文提出的基于前后綴的領域術語抽取技術,通過分析和處理大量的氣候變化領域新聞,抽取出該領域的術語,經過去重復后將抽取出的術語添加到詞匯集中,對詞匯集進行擴充。
基于前后綴的中文領域術語抽取算法,首先分析種子術語的常用前后綴;其次對實驗語料分詞,統(tǒng)計與常用前后綴相鄰的詞的頻次信息,根據頻次信息計算前后綴與相鄰詞是否構成候選術語;然后再根據詞語在語料中出現的頻率擴充初始候選術語集;最后通過詞語共現分析過濾候選術語,得到最終的領域術語集。術語抽取系統(tǒng)的界面如圖3所示。
圖3中展示了基于前后綴的中文領域術語抽取系統(tǒng)界面,界面上方是系統(tǒng)工具欄和設置算法中閾值的設置區(qū)域,算法需要使用的閾值一共有三個,判斷出現在某一前綴詞后面的詞是否與該前綴構成候選術語的閾值,判斷出現在某一后綴詞前面的詞是否與該后綴詞構成候選術語的閾值,判斷某一候選術語是否是氣候變化領域術語的閾值。左側用來顯示抽取出的領域術語以及有關該術語的一個值,該值是每一個候選術語在算法中計算出的判定該候選術語是否是氣候變化領域術語的指標,為了便于人們觀看,已經對該值進行降序排列展示。
4.2 本體的初始化
本體的初始化即構建初始化的領域本體,使得能夠通過對初始化的本體進行精煉和校正得到最終的領域本體。在氣候變化領域本體的構建過程中,項目開發(fā)組針對氣候變化本體的層次構建問題組織了相關專家進行研討,綜合專家意見將氣候變化領域進行結構分類,如圖4所示。
在完成對領域術語的分析整理和本體框架的初步建立后,開始進行術語與知識節(jié)點之間關系的確定,采取的主要方法是根據專家領域知識,把術語掛接到所建立的氣候變化領域知識樹的葉節(jié)點之下。對構建的氣候變化領域本體知識樹進行掛接,采用由根到葉的分類方法。
4.3 本體的精煉與確認
領域專家使用本文中開發(fā)的本體編輯器,可以很方便地完成本體的校正。系統(tǒng)啟動時,就會將已有的本體知識樹和待掛接的候選術語載入到系統(tǒng)中,同時候選術語解釋區(qū)域能夠為本體編輯器的使用者提供一定的幫助。氣候變化領域本體的成功構建驗證了基于多源數據的領域本體半自動構建方法的有效性。最終構建的氣候變化領域本體具有樹狀層次結構,最大深度為5層,共包括233個分類節(jié)點和932個領域術語。氣候變化領域本體已經應用到“應對氣候變化科技成果集成與服務平臺建設”中,用于新聞定制和新聞閱讀器。
隨著全球性氣候變化問題的日益嚴重,將會有更多的人、數據庫和信息系統(tǒng)涉及本領域的電子圖書館知識管理系統(tǒng)。領域本體的核心價值是知識共享,為該領域提供一個統(tǒng)一框架或規(guī)范模型,減少概念和術語上的歧義,使來自不同背景、持不同觀點和目的的人員之間的交互和理解成為可能,在人和其他Agent之間對信息結構達成共同認識,方便人機對話和信息系統(tǒng)之間的互操作。
5 結 論
本文探討了領域本體的構建方法,提出了基于前后綴的中文領域術語抽取算法,在抽取包含前后綴的領域術語方面具有良好的抽取效果,并且基于該算法實現了一個中文領域術語抽取系統(tǒng)。同時,提出的基于百科的術語關系獲取方法,充分利用了術語的百科名片解釋,能夠有效地抽取出術語間的關系,實現了上下位關系的抽取。然后,通過使用基于多源數據的領域本體半自動構建方法,使計算機參與到本體構建的過程中來,提高了本體開發(fā)的效率。
參考文獻
[1] 古小東,夏斌.我國推行合同能源管理的問題與對策研究[J].企業(yè)經濟,2013(3):149?152.
[2] 李恒杰,李軍權,李明.領域本體建模方法研究[J].計算機工程與設計,2008,29(2):381?384.
[3] CIMIANO P, LKER J V O. Text2Onto [C]// Proceedings of 2005 10th International Conference on Applications of Natural Language to Information Systems. Alicante: IEEE, 2005: 227?238.
[4] 胡金強,冀亞林,孟妍,等.基于Protege的裝備保障知識本體構建方法[J].現代電子技術,2010,33(6):207?210.
[5] NAVIGLI R, VELARDI P. Learning domain ontologies from document warehouses and dedicated web sites [J]. Computational linguistics, 2004, 30(2): 151?179.
[6] 季培培,鄢小燕,岑詠華.面向領域中文文本信息處理的術語識別與抽取研究綜述[J].圖書情報工作,2010,54(16):124?129.
[7] 周浪,張亮,馮沖,等.基于詞頻分布變化統(tǒng)計的術語抽取方法[J].計算機科學,2009,36(5):177?180.
[8] 賈秀玲,文敦偉.一種本體學習中分類關系提取方法的研究[J].計算機技術與發(fā)展,2007(10):31?33.
[9] 袁小艷,唐青松,賀建英.高校知識本體的構建及應用研究[J].現代電子技術,2014,37(16):58?61.