韋韜,王金華
(1.北京賽迪翻譯技術有限公司,北京 100048;2.中國電子科技集團公司第三十二研究所,上海 201808)
每時每刻信息的海量增長,為人們學習知識帶來便利,但是為人們進行索取、識別、學習知識帶來提取和甄別困難[1]。對海量隱性知識進行自動關聯(lián)、快速進行機器思考,而把這些海量知識有機組織起來的核心就是“神經網絡”[2]。
為構建滿足以上業(yè)務需求的“神經網絡”,知識圖譜的構建是一個解決方案。知識圖譜包括目標融合與識別知識圖譜、全維度關聯(lián)分析知識圖譜等[3-4]。這些知識圖譜其實是由圖上的實體和語義描述、實體間的關聯(lián)關系和語義描述等要素所組成的,要從海量互聯(lián)網信息、衛(wèi)星遙感數(shù)據(jù)中發(fā)現(xiàn)實體,就已經是個巨大的難題[5],而發(fā)現(xiàn)實體間的關聯(lián)關系,并將這些海量的實體關聯(lián)關系進行記錄、存儲,乃至對這些知識圖譜進行全語義空間的快速檢索,并不是現(xiàn)有信息系統(tǒng)能夠勝任的。
由于人們所掌握的提取知識已經難以覆蓋現(xiàn)有海量信息,因此如何在信息系統(tǒng)中,為全維度的信息構建一個相互關聯(lián)、智能搜索、快速定位、易于維護的網絡化數(shù)據(jù)模型,并在該模型上進行知識決策,成為一個關鍵的問題。本文從自動化、持續(xù)化的知識圖譜構建機制進行研究,分析了多源、異構知識圖譜建模、融合、管理等現(xiàn)實需求,應用非分類提取技術,提出了知識圖譜的自動化構建實踐路徑和模型。
互聯(lián)網大力發(fā)展的這些年是一個數(shù)據(jù)爆炸的時代,數(shù)據(jù)量每年保持著50%左右的增長速度,為了處理這些海量的數(shù)據(jù),挖掘這些數(shù)據(jù)的潛在意義,提高數(shù)據(jù)檢索質量和效率,全球各大研究機構和搜索引擎公司都絞盡腦汁。隨著Linking Open Data 等項目的全面展開,語義Web數(shù)據(jù)源的數(shù)量激增,大量資源描述框架(Resource Description Framework,RDF)數(shù)據(jù)被發(fā)布?;ヂ?lián)網正從僅包含網頁和網頁之間超鏈接的文檔萬維網(Document Web)轉變成包含描述各種實體和實體之間豐富關系的數(shù)據(jù)萬維網(Data Web)。在這個背景下,Google、百度和搜狗等搜索引擎公司紛紛以此為基礎構建知識圖譜,即Knowledge Graph、百度知心和搜狗知立方等,來改進搜索質量,從而拉開了語義搜索的序幕。同時,面對海量、復雜、異構的網絡信息,我們需要具備能夠對其進行快速分析挖掘與關聯(lián)的能力,也就是能夠快速挖掘分析出對象實體,并將實體關聯(lián)到龐大的知識圖譜中的能力。同時,數(shù)據(jù)處理環(huán)境也要在數(shù)據(jù)處理量、反饋時效等方面具備很強的能力。想要擁有這些能力,如何構建一張完整、高質量的知識圖譜,是不得不考慮的關鍵問題。
世界各個國家和地區(qū)均已開展系統(tǒng)構建或技術研發(fā),為大數(shù)據(jù)的有效收集、融合、管理和分析提供支持,并從中獲得有價值的信息。例如,Palantir公司通過其完善的數(shù)據(jù)庫和強大的數(shù)據(jù)關聯(lián)分析技術,從技術上開展了以下重點工作:1)構建大規(guī)模數(shù)據(jù)庫的體系結構;2)探索以現(xiàn)有資源填充數(shù)據(jù)庫的新方法,并創(chuàng)造新的來源,以及創(chuàng)造新的挖掘、融合和提煉算法;3)為了分析和關聯(lián)數(shù)據(jù)庫信息,采用知識圖譜的新模型,從而獲得可操作的技術。
相比之下,我國對知識圖譜構建技術的利用和研究還需深入。面對涉及到各個領域的、海量紛繁復雜的數(shù)據(jù),我們急需一種方法對其進行清洗處理,使其變成有高利用價值的知識圖譜。知識圖譜的構建步驟一般是數(shù)據(jù)抽取、中文分詞、實體識別、關系識別。而關系識別是目前是最難以解決的問題,其主要工作是:實體共現(xiàn)、關系標注,而現(xiàn)有方法無法做到關系標注的持續(xù)改進,或者只能強烈依賴外部知識輸入和人工干預。
本研究探索解決的問題有:
(1)通過收集信息,實現(xiàn)自動/半自動化構建知識圖譜的技術,其中涉及的主要技術包括:文本分詞、詞性標注、術語分析、命名實體識別、語法分析、語義分析、實體關系提取;
(2)滿足對來源多、流量大、高密集度數(shù)據(jù)進行可靠記錄、高效分析的要求;
(3)快速挖掘分析出研究對象實體,并將實體關聯(lián)到龐大的知識圖譜中;
(4)對海量、復雜、異構的網絡信息進行快速分析挖掘與關聯(lián),實現(xiàn)知識圖譜的半自動化構建;
(5)集成、整合現(xiàn)有信息系統(tǒng)中所有結構良好的數(shù)據(jù)資源,對信息系統(tǒng)運行過程中產生的信息資源進行實時整合,并對接外部信息資源,從而實現(xiàn)知識圖譜信息的完整性、準確性、時效性。
本文第2章對知識圖譜構建技術進行了系統(tǒng)架構設計,第3章闡述了知識圖譜構建的關鍵技術,第4章進行了總結并提出建議。
本文設計的知識圖譜構建框架包含的技術包括數(shù)據(jù)采集、命名實體識別、語法語義分析、實體關系提取四大模塊,其中最核心的技術是命名實體識別和實體關系提取,如圖1所示。
圖1 系統(tǒng)架構
2.1.1 數(shù)據(jù)采集
我們是通過采用數(shù)據(jù)爬蟲系統(tǒng)來實現(xiàn)初始數(shù)據(jù)積累的,和一般性的以廣度為目標的數(shù)據(jù)爬蟲系統(tǒng)相比,我們進行了改進優(yōu)化,使其成為可以圍繞某一特定目標進行針對性的爬取的、面向網絡信息大數(shù)據(jù)的爬蟲系統(tǒng)。對爬取到的數(shù)據(jù)進行清洗和簡單的預處理之后,就把數(shù)據(jù)輸出到命名實體識別模塊。
2.1.2 命名實體識別
我們通過命名實體識別模塊來實現(xiàn)對文本信息中主要實體對象的識別,其主要功能包括:分詞模塊、詞性標注模塊、術語分析模塊。
其中分詞和詞性標注可以放在一起進行,在分詞的時候就標注好詞性。基本的分詞和詞性標注操作依賴于分詞規(guī)則庫以及詞典與詞性的一個關系庫。然而事實上,這對歧義詞和新詞的識別率較低。尤其是在中文分詞中,一詞多義、歧義以及各種網絡名詞的出現(xiàn),使我們需要不斷地擴充分詞庫。為了應對詞典統(tǒng)計分詞的不足,我們采用了基于CRF機器學習算法的分詞技術,并且不僅考慮了詞語出現(xiàn)的頻率信息,同時還增加了對上下文語境的考慮,這使得模塊對歧義詞和新詞有較好的學習能力。我們結合不斷擴充的分詞庫,采用比較成熟的分詞技術,通過分詞庫和詞性庫就可以完成分詞和詞性標注,不僅更加準確,并且效率很高,當遇到歧義詞、新詞,分詞庫和詞性庫不能解決的時候,再結合CRF完成工作,兼以擴充我們的分詞庫和詞性庫。在分詞和詞性標注后,將術語輸出到術語分析模塊。
術語分析通常是指從術語詞典中提取出術語到術語庫。我們需要根據(jù)不同的領域劃分并維護這個術語庫。術語分析后將信息輸出到語法語義分析模塊。
2.1.3 語法語義分析模塊
結合本體集成,提取出語法庫和本體庫。結合語法、語義規(guī)范以及語法、語義的學習算法,生成信息提取的一個規(guī)則庫。依賴這個過程生成的語法庫、本體庫以及信息提取規(guī)則庫,通過語法、語義分析,提取出本體間的關系,再通過本體構建工具生成語義元數(shù)據(jù)模型,然后將模型輸出到實體關系提取模塊。
2.1.4 實體關系提取
實體關系提取包括分類關系提取、非分類關系提取。其中已經有分類體系的關系提取不存在太大技術障礙,難點就是非分類關系提取。非分類關系提取可分為兩個不同的問題:1)發(fā)現(xiàn)一對概念間存在的關系;2)根據(jù)語義標記這種關系。本研究采用兩種方法來提取非分類關系。本文認為實體關系的抽取比單純的實體抽取難度更高,準確性、成熟度更低,因此將在第3章對實體關系提取功能進行詳細、深化的技術設計與探討。
從大規(guī)模文本集合中自動提取語義元數(shù)據(jù)是構建知識圖譜和知識庫的核心步驟,圖2以流程的方式將如何從文本數(shù)據(jù)中對知識圖譜元素進行抽取識別所需要采用的方法、領域資源、所采用的技術按先后次序依次列出,而這也正是進行語義分析的基礎。
如圖2所示,本系統(tǒng)的流程包括文本信息采集、數(shù)據(jù)清洗和過濾、命名實體識別、分詞、詞性標注、術語分析、語法分析、語義分析、語義關系識別和提取等步驟。其中,命名實體識別是通過機器學習和傳統(tǒng)詞典相集成的方法實現(xiàn)的;術語分析是通過術語的提取和術語詞典集成的方式實現(xiàn)的;語法分析與語義分析是通過本體學習與本體集成的方式實現(xiàn)的;語義關系識別和提取是通過語義關系學習與聲明規(guī)范相結合來實現(xiàn)的。
圖2 知識圖譜元素抽取識別流程
知識圖譜的人工構建被視為一種耗時、耗力、枯燥、易錯的任務,再者由于缺乏對現(xiàn)有知識圖譜進行集成或重復使用的標準,以及缺乏完全自動化的知識獲取方法,知識圖譜甚至本體的構建進一步受到阻礙。
因此,本研究將精力集中在知識圖譜的自動構建技術上。使用機器學習和文本挖掘方法,從領域文本中獲取知識圖譜和本體要素,已逐漸成為一種有利于本體工程的方法。在此背景下,本體學習被認為能幫助知識工程師以及終端用戶進行本體構建,其集成了多個領域,如本體工程、機器學習和自然語言學習領域的技術。這些技術被用于三個主要階段,即實體識別、分類關系提取、非分類關系提取。這三個階段能幫助構建本體或豐富現(xiàn)存本體,而本體學習是構建知識圖譜的支撐。
本體學習中涉及到提取非分類關系的方法,被視為是一個困難而又容易被忽視的問題。非分類關系包括兩方面:一是概念間關系的發(fā)現(xiàn);二是基于語義的關系標記。解決這種賦予關系標記的問題也是十分不易的,因為同一類通用的概念實例通常存在多種關系,而且即使語義是清晰的,在幾個相似的標記中選取符合上下文的標記也是十分困難的。
大多數(shù)對于從文本源中進行非分類關系提取的研究要結合不同層次的統(tǒng)計和語言分析技術。在此背景下,關聯(lián)法則被用來從文本中獲取語義(非預先定義的)關系,如可以通過使用關聯(lián)法則發(fā)現(xiàn)一對詞語共同出現(xiàn)的概率,來判斷這對詞語合適的關系。雖然通過這類方法可以發(fā)現(xiàn)語義關系,但是并沒有解決標記的問題。
其他研究者采用正規(guī)表達式來獲取語義關系。這類方法需要完全地檢測文本,而語義關系的識別則是根據(jù)文本中一系列詞語是否匹配預定義的模式來決定的。許多算法和此類方法相關,被應用于尋找上下位關系。然而這些算法需要預先生成符合關系模式的規(guī)則,這樣就需要終端用戶具有大量的領域知識。相關的研究以同樣的方式,通過使用外部語義詞典,如WordNet,根據(jù)預先定義的少量語義結構自動分配語義關系。同樣地,這種方式也并不能提取更多的語義關系。
由于上述方法的缺陷,越來越多的研究者注重于使用自然語言處理技術,從領域文本集中提取語法結構,以幫助語義關系的提取。比如有研究通過選擇和一對概念頻繁出現(xiàn)在一起的動詞作為語義關系的標記。在此研究中,概念之間的關聯(lián)是由一對概念基于動詞的條件概率來衡量的。RelExt系統(tǒng)根據(jù)術語在領域文本中被觀察的頻率,使用基于相關度的統(tǒng)計測量來過濾術語,然后根據(jù)動詞和名詞概念共同出現(xiàn)的測量值,選取排序高者作為關系。然而有研究表明,與一對概念共同出現(xiàn)的動詞,往往并不一定能成為該對概念之間的關系動詞。
綜上所述,現(xiàn)有的非分類關系的提取方法還不完善,即只能提取一小部分語義關系,而且為了提高關系提取的正確率,特別需要領域知識的輸入。與現(xiàn)存方法相比較,本研究采用了兩種關鍵技術實現(xiàn)非分類關系提取。
本研究提出基于關聯(lián)法則和語義關系的方法,來測量一對概念和動詞的相關性的強度(此強度是由所提取的關聯(lián)規(guī)則的confidence 來定義的),作為已確認存在語義關系的概念對的候選標記。同時本研究還提出,在領域文本集中,通過概念間的依存和句法結構分析,可以發(fā)現(xiàn)概念之間的語義關系,而概念之間的語義關系通常又是由動詞來表達與連接的。該方法的流程如圖3所示。其中,通過句法分析選擇概念候選集后,由關聯(lián)法則對其進行挖掘,確認合適的關系集,最后通過領域專家的反饋,提供最合適的知識圖譜關系集合。該方法不僅可以用于自動發(fā)現(xiàn)概念間的關系,也可為這些關系賦予合適的標記,極大減輕了知識工程師在知識圖譜和領域本體構建時的負擔。
采用基于規(guī)則和機器學習相結合的混合方法從領域文本中提取非分類關系的流程如圖4所示。
圖3 基于關聯(lián)法則和語義關系的非分類關系提取流程
圖4 基于規(guī)則和機器學習的非分類關系提取流程
提取流程具體為:
(1)對領域文本進行人工的規(guī)則學習,形成規(guī)則庫;
(2)使用所學習的規(guī)則對其他語料文本進行匹配,形成語料句式庫;
(3)利用語料句式庫,對訓練語料進行人工標注,然后用CRF機器學習算法進行訓練,生成訓練模型;
(4)使用測試語料和訓練模型,進行測試和人工驗證,根據(jù)測試結果,對訓練語料進行補充和調整,重新訓練,直到訓練模型的準確率和召回率達到一定的水平;
(5)利用調整過的訓練模型,結合規(guī)則匹配結果,從實際語料中提取非分類實體關系。
以上流程有效提高了從術語集合中獲取非分類關系的效果,受到人工幫助的CRF算法還可以提取更多的術語,有效地補充現(xiàn)有的術語集合。
本文圍繞多源、異構知識圖譜,提出了建模、融合、管理、分析等現(xiàn)實需求;特別是針對人工構建知識圖譜存在的問題,探討了知識圖譜的自動化構建技術,明確了實體關系提取中的非分類提取技術是關鍵技術。
本文研究探討的技術,可用于網絡中心、數(shù)據(jù)中心等平臺,在相關業(yè)務中接入了偵察、預警、探測等多源情報后,可以實現(xiàn)知識圖譜的自動化構建,并通過知識圖譜實現(xiàn)關聯(lián)印證、綜合處理等功能,最終形成情況態(tài)勢圖。
由于數(shù)據(jù)往往具有保密性,本文強烈建議提升知識圖譜在系統(tǒng)運行狀態(tài)進行自動化、持續(xù)化構建的能力,從而使得數(shù)據(jù)即使在沒有知識庫基礎的環(huán)境下,也能成長為完整、可用、與時俱進的知識圖譜體系,從而更好地為各種業(yè)務提供知識支撐。