亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        知識圖譜研究綜述①

        2019-07-23 02:07:12黃恒琪席運江
        計算機系統(tǒng)應(yīng)用 2019年6期
        關(guān)鍵詞:數(shù)據(jù)源本體圖譜

        黃恒琪,于 娟,廖 曉,席運江

        1(福州大學(xué) 經(jīng)濟與管理學(xué)院,福州 350108)

        2(廣東金融學(xué)院 互聯(lián)網(wǎng)金融與信息工程學(xué)院,廣州 510521)

        3(華南理工大學(xué) 工商管理學(xué)院,廣州 510641)

        1 引言

        知識圖譜(knowledge graph)是以圖的形式表現(xiàn)客觀世界中的實體(概念、人、事物)及其之間關(guān)系的知識庫.2012年,谷歌提出了知識圖譜的概念.自此,知識圖譜得到了廣泛關(guān)注和應(yīng)用研究,現(xiàn)已發(fā)展成為語義搜索、智能問答、決策支持等智能服務(wù)的基礎(chǔ)技術(shù)之一.但是,目前知識圖譜的概念界定還不清晰,常與本體(ontology)技術(shù)一起提及,二者之間的關(guān)系尚未得到明確.另一方面,本體的研究起始時間更早,已積累了較多的研究成果和應(yīng)用經(jīng)驗.如能確定知識圖譜與本體的相關(guān)關(guān)系,就可將已有的本體研究成果作為知識圖譜研究的基礎(chǔ),促進(jìn)知識圖譜更快發(fā)展.

        為此,在廣泛查閱知識圖譜和本體的國內(nèi)外相關(guān)研究成果的基礎(chǔ)之上,本文定義了知識圖譜與本體之間的關(guān)系,羅列已開發(fā)的知識圖譜/本體,分析其構(gòu)建、存儲及檢索方法與技術(shù).本文主要內(nèi)容:第2 節(jié)給出知識圖譜的定義,辨析其與本體、知識地圖、科學(xué)知識圖譜等相關(guān)概念的區(qū)別,研究知識圖譜的構(gòu)成,并羅列分析國內(nèi)外的通用知識圖譜與行業(yè)知識圖譜.第3 節(jié)說明知識圖譜在語義搜索、智能問答和個性化推薦方面的應(yīng)用;第4 節(jié)解釋知識圖譜的兩種構(gòu)建方法:自頂向下法和自底向上法;第5 節(jié)分析知識圖譜的存儲與檢索方法:關(guān)系型數(shù)據(jù)庫、圖數(shù)據(jù)庫與混合方法;最后指出未來研究方向.

        2 知識圖譜定義

        知識圖譜是以圖的形式表現(xiàn)客觀世界中的實體(概念)及其之間關(guān)系的知識庫.知識圖譜的研究起源于語義Web.在2000年的XML 大會上,Tim Berners Lee 提出了語義Web 的理念,目標(biāo)是為Web 網(wǎng)頁添加語義,支持機器自動處理,以提供諸如信息代理、搜索代理、信息過濾等語義服務(wù).此后,互聯(lián)網(wǎng)逐步從僅包含網(wǎng)頁與網(wǎng)頁之間超鏈接的文檔萬維網(wǎng)轉(zhuǎn)變?yōu)榘罅棵枋龈鞣N實體和實體之間豐富關(guān)系的數(shù)據(jù)萬維網(wǎng).基于關(guān)鍵詞的傳統(tǒng)搜索引擎技術(shù)也逐漸開始添加語義搜索功能.2005年,美國Metaweb 公司成立,致力于開發(fā)用于Web 語義服務(wù)的開放共享的世界知識庫.Metaweb 基于諸如維基百科、美國證券交易委員會等的公開數(shù)據(jù)集,提取現(xiàn)實世界中的實體(人或事物)及其之間的關(guān)系,然后以圖結(jié)構(gòu)存儲在計算機中.2010年谷歌收購了Metaweb,獲得其語義搜索技術(shù),并于2012年提出知識圖譜的概念.

        2.1 知識圖譜相關(guān)概念

        本體(ontology)是共享概念模型的顯式說明[1],描述概念與概念間的關(guān)系;是語義Web 的關(guān)鍵技術(shù),用于為Web 網(wǎng)頁添加語義.語義Web 理念中的本體與知識圖譜,二者密切相關(guān).本體描述概念及概念間的關(guān)系,是大多數(shù)知識圖譜的模式層,是知識圖譜的概念模型和邏輯基礎(chǔ).知識圖譜與本體的相同之處在于:二者都通過定義元數(shù)據(jù)以支持語義服務(wù).不同之處在于:知識圖譜更靈活,支持通過添加自定義的標(biāo)簽劃分事物的類別.本體側(cè)重概念模型的說明,能對知識表示進(jìn)行概括性、抽象性的描述,強調(diào)的是概念以及概念之間的關(guān)系.大部分本體不包含過多的實例,本體實例的填充通常是在本體構(gòu)建完成以后進(jìn)行的.知識圖譜更側(cè)重描述實體關(guān)系,在實體層面對本體進(jìn)行大量的豐富與擴充.可以認(rèn)為,本體是知識圖譜的抽象表達(dá),描述知識圖譜的上層模式;知識圖譜是本體的實例化,是基于本體的知識庫.

        知識圖譜采用三元組描述事實,所使用的描述語言大多是已研發(fā)的本體語言,如RDFS[2]、OWL[3]等.知識圖譜也可以通過RDFS 或OWL 定義規(guī)則用于知識推理.知識圖譜的關(guān)鍵技術(shù)也與本體很相似,涉及:(1)知識圖譜構(gòu)建階段的實體抽取、關(guān)系抽取、語義解析等機器學(xué)習(xí)和自然語言處理方法和算法,(2)用于知識圖譜存儲的知識表示、圖數(shù)據(jù)庫和知識融合等方法和技術(shù),(3)知識圖譜應(yīng)用階段的數(shù)據(jù)集成、知識推理等.

        除了本體之外,與知識圖譜相關(guān)的概念還有知識地圖和科學(xué)知識圖譜.知識地圖(knowledge map)將特定組織內(nèi)的知識索引通過“地圖”的形式串聯(lián)在一起,揭示相關(guān)知識資源的類型、特征以及相互關(guān)系[4,5].知識地圖的主要功能在于實現(xiàn)知識的快速檢索、共享和再重用,充分有效地利用知識資源[6].知識地圖是關(guān)于知識的來源的知識[7].知識并非存儲在知識地圖中,而是存儲在知識地圖所指向的知識源中.知識地圖指向的知識源包含數(shù)據(jù)庫、文件以及擁有豐富隱性知識的專家或員工.有的企業(yè)應(yīng)用知識地圖來揭示知識的結(jié)構(gòu),實現(xiàn)對知識及其相關(guān)知識的檢索.另外,知識地圖在文獻(xiàn)學(xué)中也有應(yīng)用,即科學(xué)知識圖譜.

        科學(xué)知識圖譜(mapping knowledge domain)是用來顯示知識演化進(jìn)程和知識結(jié)構(gòu)的圖形化與序列化的知識譜系[8].1955年,加菲爾德提出可以將引文索引應(yīng)用于檢索文獻(xiàn)的思想[9].1965年,普賴斯等人[10]指出,引證網(wǎng)絡(luò)類似于當(dāng)代科學(xué)發(fā)展的“地形圖”,并提出使用引文網(wǎng)絡(luò)來研究當(dāng)代科學(xué)發(fā)展脈絡(luò)的方法.從此,分析引文網(wǎng)絡(luò)成為一種研究科學(xué)發(fā)展脈絡(luò)的常用方法.2005年,劉則淵等[11]引入了“科學(xué)知識圖譜”的概念.科學(xué)知識圖譜結(jié)合應(yīng)用計量學(xué)引文分析和共現(xiàn)分析、圖形學(xué)、可視化技術(shù)、信息科學(xué)等學(xué)科的理論與方法[12],圖形化的展示各領(lǐng)域的學(xué)科結(jié)構(gòu)、各學(xué)科的研究內(nèi)容、學(xué)科間的關(guān)系、識別和分析學(xué)科的發(fā)展新趨勢以及預(yù)測前沿等.

        表1比較分析了知識圖譜、本體、知識地圖以及科學(xué)知識圖譜的異同.

        表1 知識圖譜相關(guān)概念表

        2.2 知識圖譜的構(gòu)成

        知識圖譜由數(shù)據(jù)層(data layer)和模式層(schema layer)兩部分構(gòu)成[13].

        模式層是知識圖譜的概念模型和邏輯基礎(chǔ),對數(shù)據(jù)層進(jìn)行規(guī)范約束.多采用本體作為知識圖譜的模式層,借助本體定義的規(guī)則和公理約束知識圖譜的數(shù)據(jù)層.也可將知識圖譜視為實例化了的本體,知識圖譜的數(shù)據(jù)層是本體的實例.如果不需支持推理,則知識圖譜(大多是自底向上構(gòu)建的)可以只有數(shù)據(jù)層而沒有模式層.在知識圖譜的模式層,節(jié)點表示本體概念,邊表示概念間的關(guān)系.

        在數(shù)據(jù)層,事實以“實體-關(guān)系-實體”或“實體-屬性-屬性值”的三元組存儲,形成一個圖狀知識庫.其中,實體是知識圖譜的基本元素,指具體的人名、組織機構(gòu)名、地名、日期、時間等.關(guān)系是兩個實體之間的語義關(guān)系,是模式層所定義關(guān)系的實例.屬性是對實體的說明,是實體與屬性值之間的映射關(guān)系.屬性可視為實體與屬性值之間的hasValue 關(guān)系,從而也轉(zhuǎn)化為以“實體-關(guān)系-實體”的三元組存儲.在知識圖譜的數(shù)據(jù)層,節(jié)點表示實體,邊表示實體間關(guān)系或?qū)嶓w的屬性.

        2.3 知識圖譜的分類

        從構(gòu)建過程是否依賴自動抽取技術(shù)來看,知識圖譜大致可分為兩類.一類是早期的本體,如WordNet[14]、CYC[15]、HowNet[16]等.這類知識圖譜大多由專業(yè)人士手工構(gòu)建,規(guī)模較小;但其知識質(zhì)量高,能夠確保準(zhǔn)確性與完整性.另一類是從開放的互聯(lián)網(wǎng)信息中自動抽取實體與關(guān)系構(gòu)建的,如YAGO[17]、DBPedia[18]等.這類知識圖譜規(guī)模大;但因其數(shù)據(jù)源的復(fù)雜多樣及自動抽取算法的不完全準(zhǔn)確,可能會有大量不完整信息、噪聲等.近年來,隨著知識圖譜成為學(xué)界及商界的熱點,國內(nèi)也重視知識圖譜的研究發(fā)展,中文的知識圖譜紛紛涌現(xiàn),如CN-DBpedia[19]、zhishi.me[20]等.

        從覆蓋范圍來看,本體可分為通用本體(generic ontology)與領(lǐng)域本體(domain ontology);同樣的,知識圖譜也可分為通用知識圖譜與行業(yè)知識圖譜兩類[21].通用知識圖譜(generic knowledge graph)描述全面的常識性的知識,主要應(yīng)用于語義搜索,對知識的準(zhǔn)確度要求不高,如百科類的DBpedia、zhishi.me 和語言學(xué)類的WordNet、大詞林等.通用知識圖譜強調(diào)知識的廣度,大多采用自底向上的方式構(gòu)建,側(cè)重實體層的擴充,因此也導(dǎo)致其大部分較難構(gòu)建規(guī)范的本體層[21].行業(yè)知識圖譜(domain knowledge graph)面向特定領(lǐng)域,能夠進(jìn)行知識推理,實現(xiàn)輔助分析及決策支持等功能,如GeoNames[22]、中醫(yī)醫(yī)案知識圖譜等.行業(yè)知識圖譜對專業(yè)性與準(zhǔn)確度的要求高,這也要求其必須有嚴(yán)格的本體層模式,通常采用自底向上與自頂向下結(jié)合的方式進(jìn)行構(gòu)建.通用知識圖譜可作為行業(yè)知識圖譜的構(gòu)建基礎(chǔ),行業(yè)知識圖譜也可在構(gòu)建完成后補充融合至通用知識圖譜中.一般來說,通用知識圖譜的使用率更高,是現(xiàn)有知識圖譜的基礎(chǔ);而行業(yè)知識圖譜則推進(jìn)了知識圖譜技術(shù)融入生活,服務(wù)于民.表2總結(jié)了部分典型中文通用知識圖譜與中文通用本體;表3總結(jié)了部分典型外文通用知識圖譜與通用本體;表4總結(jié)了部分典型中文行業(yè)知識圖譜與中文領(lǐng)域本體;表5總結(jié)了部分典型外文行業(yè)知識圖譜與外文領(lǐng)域本體.

        表2 部分典型中文通用知識圖譜/中文通用本體一覽表

        表3 部分典型外文通用知識圖譜/通用本體一覽表

        Google KnowledgeVault 谷歌 2012 5 億 180 億 Wikipedia、Freebase 大規(guī)模 語義搜索多語詞義消歧、計算語義相關(guān)性[45]Microsft Concept BabelNet[44] 羅馬大學(xué)計算機科學(xué)語言計算實驗室 606+萬 19 億 Wikipedia、WordNet多語言詞典知識庫,覆蓋50 多種語言,1400 萬個同義詞集合和7.46 億個詞義Graph[46] 微軟 2016 1255 萬 8760 萬 Web 網(wǎng)頁 以概念層次體系為中心的知識圖譜

        表4 部分典型中文行業(yè)知識圖譜/中文領(lǐng)域本體一覽表

        表5 部分典型外文行業(yè)知識圖譜/外文領(lǐng)域本體一覽表

        3 知識圖譜的應(yīng)用

        知識圖譜提供了一種更好的組織、管理和理解互聯(lián)網(wǎng)信息的能力,可用于語義搜索、智能問答、個性化推薦等,在社交和電子商務(wù)等領(lǐng)域中實現(xiàn)價值.基于知識圖譜的應(yīng)用是信息領(lǐng)域當(dāng)前的研究熱點,也是促進(jìn)人工智能發(fā)展的基礎(chǔ)技術(shù)之一.

        3.1 語義搜索

        知識圖譜是語義搜索的大腦[55].傳統(tǒng)搜索引擎基于用戶輸入的關(guān)鍵詞檢索后臺數(shù)據(jù)庫中的Web 網(wǎng)頁,將包含搜索關(guān)鍵詞的網(wǎng)頁的鏈接反饋給用戶.語義搜索(也稱為語義檢索)則首先將用戶輸入的關(guān)鍵詞映射至知識圖譜中的一個或一組實體或概念,然后根據(jù)知識圖譜中的概念層次結(jié)構(gòu)進(jìn)行解析和推理,向用戶返回豐富的相關(guān)知識.谷歌提出語義搜索后,國內(nèi)百度的“知心”與搜狗的“知立方”也致力于利用知識圖譜技術(shù)提升用戶的搜索體驗.

        基于知識圖譜的語義搜索能夠?qū)崿F(xiàn)[56]:(1)以知識卡片的形式提供結(jié)構(gòu)化的搜索結(jié)果.例如,當(dāng)用戶搜索清華大學(xué)時,知識卡片呈現(xiàn)出的內(nèi)容,包括有學(xué)校的地址、郵編、簡介、創(chuàng)辦年份等相關(guān)信息.(2)理解用戶用自然語言描述的問題,并且給出相應(yīng)的答案,即簡單的智能問答.例如,當(dāng)用戶在搜索中以提問的方式輸入“世界上最大的湖泊是?”,反饋的頁面能夠精確地給出里海相關(guān)的信息.(3)通過已有知識圖譜中實體的關(guān)聯(lián),擴展用戶搜索結(jié)果,發(fā)現(xiàn)更多內(nèi)容,反饋豐富的關(guān)聯(lián)結(jié)果.例如,當(dāng)用戶搜索達(dá)芬奇時,除了達(dá)芬奇的個人簡介之外,語義搜索還能返回他的相關(guān)畫作:《最后的晚餐》、《蒙娜麗莎》及其相關(guān)人物等信息.

        3.2 智能問答

        智能問答指用戶以自然語言提問的形式提出信息查詢需求,系統(tǒng)依據(jù)對問題的分析,從各種數(shù)據(jù)資源中自動找出準(zhǔn)確的答案.問答系統(tǒng)是一種信息檢索的高級模式,能提升效率、降低人工參與成本.問答系統(tǒng)將知識圖譜看做一個大型知識庫,首先對用戶使用自然語言提出的問題進(jìn)行語義分析和語法分析,進(jìn)而將其轉(zhuǎn)化成對知識圖譜的查詢,最后在知識圖譜中查詢答案.

        百度知識圖譜將智能問答具體劃分為5 類[57]:(1)實體檢索:問題是圍繞著一個實體的屬性方面展開的,如“魔獸世界的上映時間?”(2)知識推理:問題需要通過一定的推理分析,如針對“zippo 可否帶上飛機?”這個問題,需要先推理得出zippo 是一種打火機,再針對打火機能否上飛機這個問題進(jìn)行回答.(3)開放領(lǐng)域問答:問題沒有固定的標(biāo)準(zhǔn)答案,如“形容不會說話的成語”,“與美人魚相關(guān)的電影”等.(4)語義解析:首先需要理解問題的語義,即按照語法規(guī)則解析問題,最后轉(zhuǎn)化成數(shù)據(jù)庫對應(yīng)的查詢,如針對“魔獸啥時候出?什么時候能看魔獸?”這樣的問題可通過語義解析將其轉(zhuǎn)化為“魔獸世界的上映時間?”這一簡單查詢.(5)End-toend 在線問答,通過某些已知條件來查詢實體,如“知識即美德是誰提出來的?鞠躬盡瘁死而后已說的是誰?”.

        除百度外,目前還有許多問答平臺引入了知識圖譜技術(shù),如華盛頓大學(xué)的Paralex 系統(tǒng)[58]、亞馬遜的自然語言助手Evi[59]、蘋果智能語音助手Siri[60]和出門問問[61]手機應(yīng)用等.

        3.3 個性化推薦

        個性化推薦是指基于用戶畫像,不同的用戶會看到不同的推薦結(jié)果,有著重要的商業(yè)價值.電子商務(wù)網(wǎng)站是運用個性化推薦最典型的應(yīng)用,能通過行業(yè)知識圖譜的豐富知識幫助實現(xiàn)精準(zhǔn)營銷與推薦.如:基于商品間的關(guān)聯(lián)信息以及從網(wǎng)頁抽取的相關(guān)信息,構(gòu)建知識圖譜,當(dāng)用戶輸入關(guān)鍵詞查看商品時,基于知識圖譜向用戶推薦可能需要的相關(guān)知識,包括商品結(jié)果、使用建議、搭配等,通過“你還可能感興趣的有”、“猜您喜歡”或者是“其他人還在搜”進(jìn)行相關(guān)的個性化推薦.

        4 知識圖譜的構(gòu)建

        4.1 構(gòu)建方法

        知識圖譜的構(gòu)建方法有三種:自底向上、自頂向下和二者混合的方法.

        4.1.1 自底向上法

        自底向上的構(gòu)建方法,從開放鏈接的數(shù)據(jù)源中提取實體、屬性和關(guān)系,加入到知識圖譜的數(shù)據(jù)層;然后將這些知識要素進(jìn)行歸納組織,逐步往上抽象為概念,最后形成模式層.自底向上法的流程如圖1所示.

        圖1中的知識抽取,類似于本體學(xué)習(xí),采用機器學(xué)習(xí)技術(shù)自動或半自動地從一些開放的多源數(shù)據(jù)中提取知識圖譜的實體、關(guān)系、屬性等要素.知識抽取包含實體抽取、關(guān)系抽取和屬性抽取.實體抽取自動發(fā)現(xiàn)具體的人名、組織機構(gòu)名、地名、日期、時間等實體,也稱為命名實體學(xué)習(xí)或命名實體識別.實體抽取的準(zhǔn)確率和召回率將直接影響到知識圖譜的質(zhì)量.關(guān)系抽取是指利用語言學(xué)、統(tǒng)計學(xué)、信息科學(xué)等學(xué)科的方法技術(shù),從文本中發(fā)現(xiàn)實體間的語義關(guān)系.屬性抽取是針對實體而言的,實體屬性的抽取問題可轉(zhuǎn)化為關(guān)系抽取問題.

        知識融合,類似于本體集成.由于知識圖譜在進(jìn)行知識抽取工作時所使用的數(shù)據(jù)源是多樣化的,因此可能產(chǎn)生知識重復(fù)、知識間關(guān)系不明確等問題.知識融合可消除實體、關(guān)系、屬性等指稱項與事實對象之間的歧義,使不同來源的知識能夠得到規(guī)范化整合.知識融合分為:(1)實體對齊:可用于判斷相同或不同數(shù)據(jù)集中的多個實體是否指向客觀世界同一實體,解決一個實體對應(yīng)多個名稱的問題.(2)屬性值填充:針對同一屬性出現(xiàn)不同值的情況,根據(jù)數(shù)據(jù)源的數(shù)量和可靠度進(jìn)行決策,給出較為準(zhǔn)確的屬性值.

        圖1 自底向上的知識圖譜構(gòu)建流程

        知識加工:是對已構(gòu)建好的數(shù)據(jù)層進(jìn)行概念抽象,即構(gòu)建知識圖譜的模式層.知識加工包括本體構(gòu)建和質(zhì)量評估.基于本體形成的知識庫不僅層次結(jié)構(gòu)較強,并且冗余程度較小.由于技術(shù)的限制,得到的知識元素可能存在錯誤,因此在將知識加入知識庫以前,需要有一個評估過程.通過對已有知識的可信度進(jìn)行量化,保留置信度高的知識來確保知識庫的準(zhǔn)確性.

        4.1.2 自底向上法

        自頂向下的知識圖譜構(gòu)建方法如圖2所示.方法的具體步驟為:

        (1)本體構(gòu)建,構(gòu)建知識圖譜的模式層.從最頂層的概念開始構(gòu)建頂層本體,然后細(xì)化概念和關(guān)系,形成結(jié)構(gòu)良好的概念層次樹.需要利用一些數(shù)據(jù)源提取本體,即本體學(xué)習(xí)[62].

        圖2 自頂向下的知識圖譜構(gòu)建流程

        (2)實體學(xué)習(xí),將知識抽取得到的實體匹配填充到所構(gòu)建的模式層本體中.

        此外,還可結(jié)合自頂向下和自底向上兩種方法來構(gòu)建知識圖譜.首先,在知識抽取的基礎(chǔ)上歸納構(gòu)建模式層,之后可對新到的知識和數(shù)據(jù)進(jìn)行歸納總結(jié),從而迭代更新模式層,并基于更新后的模式層進(jìn)行新一輪的實體填充.如百度知識圖譜,就是利用內(nèi)外部以及用戶數(shù)據(jù)采用混合方法構(gòu)建所得[58].

        上述三種知識圖譜構(gòu)建方法,自頂向下法較好體現(xiàn)概念間層次,但人工依賴性強、模式層更新受限,僅適用于數(shù)據(jù)量小的知識圖譜構(gòu)建;自底向上法更新快、支持大數(shù)據(jù)量的知識圖譜構(gòu)建,但知識噪音大、準(zhǔn)確性不高;混合方法靈活性強,但模式層構(gòu)建難度大.

        4.2 數(shù)據(jù)源

        構(gòu)建知識圖譜的數(shù)據(jù)源主要有:百科類半結(jié)構(gòu)化的網(wǎng)頁、結(jié)構(gòu)化程度較低的普通網(wǎng)頁、語料庫、已構(gòu)建好的知識庫等.所用的數(shù)據(jù)源影響知識圖譜的質(zhì)量,也影響構(gòu)建過程.

        4.2.1 百科網(wǎng)站

        百科網(wǎng)站有固定的頁面模版,每一頁面都針對某一概念或?qū)嶓w進(jìn)行詳細(xì)的介紹.這樣的半結(jié)構(gòu)化形式,更易于實施知識抽取.并且,大多數(shù)百科網(wǎng)站知識質(zhì)量高,權(quán)威性強,出錯率較低,抽取所得知識的質(zhì)量更高.廣義來講,符合這些特征的網(wǎng)站都可視為百科網(wǎng)站,如購物網(wǎng)站、電影、音樂網(wǎng)站等,也可以通過相似的方法構(gòu)建相關(guān)領(lǐng)域的知識圖譜.

        基于百科網(wǎng)站的知識圖譜構(gòu)建又可分為兩類[63]:(1)單百科網(wǎng)站的深度知識抽取,典型代表有Dbpedia、Yago 和CN-DBpedia.Dbpedia 和Yago 以維基百科作為數(shù)據(jù)源;CN-Dbpedia 以百度百科作為數(shù)據(jù)源.(2)多百科網(wǎng)站的知識融合,典型代表有zhishi.me 和XLore.Zhishi.me 融合了百度百科、互動百科以及中文維基百科.XLore 融合了百度百科、互動百科以及英文維基百科.這兩類構(gòu)建過程中的側(cè)重點也不同,前者更側(cè)重于抽取,后者不僅需要知識抽取還注重融合.

        4.2.2 普通網(wǎng)頁

        盡管百科網(wǎng)站包含了大量的常見知識,但其所覆蓋的知識范圍有限,不能滿足通用知識圖譜和專業(yè)知識圖譜的構(gòu)建需求.因此,結(jié)構(gòu)化程度較低的普通網(wǎng)頁是知識圖譜的另一大數(shù)據(jù)來源.普通網(wǎng)頁數(shù)據(jù)的格式豐富多樣,沒有較為一致的規(guī)范,且包含的知識可能存在大量的冗余和錯誤,準(zhǔn)確率較低.因此,基于普通網(wǎng)頁的知識抽取工作的復(fù)雜度較高,知識融合的難度更大.此類知識圖譜的構(gòu)建工作重點在于知識抽取與知識融合.卡內(nèi)基梅隆大學(xué)的——“永不停止的語言學(xué)習(xí)”項目(Never-Ending Language Learning,NELL),就是從上億個網(wǎng)頁中進(jìn)行知識的抽取.

        4.3 知識更新

        隨著人們對客觀世界的認(rèn)知加深,信息與知識量不斷增加,知識圖譜的內(nèi)容也需要與時俱進(jìn),迭代更新,增加新的知識,刪除過時的知識.

        根據(jù)知識圖譜的邏輯結(jié)構(gòu),知識圖譜的更新可分為模式層更新和數(shù)據(jù)層更新.模式層更新是指本體中元素的更新,包括概念的增加、修改、刪除,概念屬性的更新以及概念之間關(guān)系的更新等.其中,概念屬性的更新操作會直接影響到所有與其直接或間接相關(guān)的子概念和實體.因此,模式層更新多數(shù)情況下是在人工干預(yù)的情況下完成的,需要人工定義規(guī)則,人工處理沖突等,實施起來有一定的復(fù)雜度.數(shù)據(jù)層更新指的是實體元素的更新,包括實體以及實體間關(guān)系和屬性值的增加、修改、刪除.由于數(shù)據(jù)層的更新對知識圖譜的整體架構(gòu)影響較小,通過在可靠數(shù)據(jù)源(如百科類網(wǎng)站)自動抽取的方式即可完成.

        根據(jù)更新的方式,知識圖譜的更新可分為增量更新和完全更新.增量更新是以知識圖譜數(shù)據(jù)源(維基百科等)發(fā)布出的更新內(nèi)容為基礎(chǔ)對知識圖譜進(jìn)行部分更新.也可以基于用戶在語義搜索平臺上的行為,如反饋信息過時或搜索了一個知識圖譜中沒有的新詞而進(jìn)行相應(yīng)的更新.完全更新是指間隔一定的周期,重新將知識圖譜數(shù)據(jù)源的全部數(shù)據(jù)進(jìn)行一次抽取解析.完全更新的優(yōu)點在于:能較大程度保證知識圖譜更新過程中的邏輯一致性,適用于模式層的更新.但該方法代價昂貴,且耗時長,不能保證時效性.

        5 知識圖譜的存儲與檢索

        Web 本體語言O(shè)WL 是當(dāng)前存儲本體的主要形式.OWL 也適用于知識圖譜的存儲,但OWL 文檔不適用于大數(shù)據(jù)量的情況,影響查詢、修改和推理速度.作為知識庫的知識圖譜,其基本元素是海量的各種關(guān)系聯(lián)系在一起的實體,需要創(chuàng)新性的存儲方式.知識圖譜可采用關(guān)系型數(shù)據(jù)庫或圖數(shù)據(jù)庫存儲,也可采用混合的方式存儲.

        5.1 關(guān)系型數(shù)據(jù)庫

        將知識圖譜存入關(guān)系型數(shù)據(jù)庫,是一個將知識圖譜轉(zhuǎn)換為RDF 三元組進(jìn)行存儲的問題,即,將知識圖譜的關(guān)系分解為一個個<Subject,Predicate,Object>的三元組形式,并映射至關(guān)系表,存儲于關(guān)系型數(shù)據(jù)庫中[64].根據(jù)映射方法不同,基于關(guān)系型數(shù)據(jù)庫的知識圖譜存儲可以采用四種方法[65]:

        (1)三元組表:構(gòu)建一張只有三列的表(Subject,Predicate,Object),以元組為單位進(jìn)行存儲,將知識圖譜所有的RDF 三元組都存放在這個表中.這一方法簡單直觀,有很好的通用性,且語義表達(dá)較為明確.但在涉及關(guān)系的查詢過程中可能會面臨大量的自連接操作,導(dǎo)致查詢性能低下.

        (2)水平存儲[66]:將知識圖譜中的每個實體表示為數(shù)據(jù)庫表中的一行,表中的列包括有RDF 數(shù)據(jù)集合中所有的屬性.水平存儲的優(yōu)勢在于設(shè)計簡單,能夠高效查詢面向某單個實體的屬性值.而其缺點在于:① 數(shù)據(jù)稀疏性,一個實體并不可能在所有的屬性上都有屬性值,從而導(dǎo)致表中的大量空值,增加存儲負(fù)載也影響查詢效率.② 水平存儲中表的列數(shù)量是固定的,這樣的固定模式使得實體在一個屬性上只能存儲一個值.但在實際應(yīng)用中,屬性往往都會存在多個值而與水平存儲的模式不符.③ 固定的模式也會令數(shù)據(jù)的變化帶來較大的更新成本.數(shù)據(jù)屬性的更新可能涉及到整個表結(jié)構(gòu)的變化,這也使水平存儲無法很好應(yīng)對這類問題.

        (3)屬性表:屬性表針對水平存儲模式中表的數(shù)據(jù)稀疏問題作出優(yōu)化.根據(jù)實體的屬性對實體進(jìn)行分類,將屬性重合度高的實體分作一類,每一類仍采用水平存儲方式,避免了表中列數(shù)過多等問題.屬性表對于某些查詢能夠提高查詢性能,但將導(dǎo)致大部分的查詢都會涉及多個表的連接或合并操作.另外,實體與屬性之間關(guān)聯(lián)性不強的知識圖譜不適合采用此種存儲方法,易導(dǎo)致空值問題.

        (4)垂直分割:垂直分割指的是以關(guān)系進(jìn)行劃分,將三元組表重寫為N張包含兩列的表,N指的是關(guān)系的個數(shù).每一張表都以關(guān)系(屬性)為表名,其第一列是所有在這個屬性上有屬性值的實體,第二列是該實體在這個屬性上的值.垂直分割適應(yīng)于多值數(shù)據(jù),當(dāng)一個實體在一個屬性上有多個屬性值時,只要將其存儲為多行即可.結(jié)構(gòu)化較差的知識圖譜也同樣適用此存儲方法,如果一個實體未定義某個屬性,那么這個記錄就不會在這種存儲方式中出現(xiàn),避免了空值的產(chǎn)生.但垂直分割的缺點在于:① 增加了表連接的運算數(shù).② 表的增多也增加了數(shù)據(jù)更新的難度,對一個實體的更新需要涉及多個表.

        5.2 圖數(shù)據(jù)庫

        目前,基于圖數(shù)據(jù)庫的知識圖譜存儲方法是學(xué)界研究的主流.圖數(shù)據(jù)庫增強了關(guān)系表達(dá),能提供完善的圖查詢語言,支持各種圖挖掘算法.采用圖數(shù)據(jù)庫存儲知識圖譜,能有效利用圖數(shù)據(jù)庫中以關(guān)聯(lián)數(shù)據(jù)為中心的數(shù)據(jù)表達(dá)、存儲和查詢.適用于存儲知識圖譜的圖數(shù)據(jù)庫如表6所示.

        表6 已用于知識圖譜存儲的圖數(shù)據(jù)庫

        將知識圖譜存入圖數(shù)據(jù)庫,是將知識圖譜的實體或?qū)傩灾荡鏋閳D數(shù)據(jù)庫中的節(jié)點,而實體間的關(guān)系或?qū)傩詫?yīng)存為連接各個節(jié)點的邊.圖數(shù)據(jù)庫的存儲方式更適用于涉及多重關(guān)系的查詢,還可通過經(jīng)典的圖算法而實現(xiàn)更為復(fù)雜的圖匹配查詢與推理等.

        除了圖數(shù)據(jù)庫,一些非關(guān)系型數(shù)據(jù)庫也可用于知識圖譜的存儲.例如,MongoDB[71]作為一個基于分布式文件存儲的數(shù)據(jù)庫,支持無模式的數(shù)據(jù)建模方式,即,可以按需進(jìn)行模式的添加或修改.這樣的特性也適合于自底向上地構(gòu)建知識圖譜.

        知識圖譜的存儲方式應(yīng)考慮到其后續(xù)的使用效率.實際應(yīng)用中,往往采用多種方法結(jié)合的方式來存儲復(fù)雜的知識圖譜.例如,采用關(guān)系數(shù)據(jù)庫存儲相對固定的數(shù)據(jù),如概念和實體的基本信息、介紹等;采用圖數(shù)據(jù)庫存儲屬性關(guān)系類的數(shù)據(jù);采用內(nèi)存數(shù)據(jù)庫存儲查詢頻繁的數(shù)據(jù),如概念的名稱等.

        6 結(jié)論

        知識圖譜提供了一種新的方法來實現(xiàn)知識的表示、存儲和管理,逐漸受到關(guān)注并獲得一定的研究進(jìn)展.本文在介紹了知識圖譜的構(gòu)建、存儲和應(yīng)用等方面的基礎(chǔ)上,闡述了知識圖譜與本體間的關(guān)系.通過分析了國內(nèi)外已有的知識圖譜,可見知識圖譜的研究已有一定的成果,未來的研究方向在于:

        (1)知識圖譜的分布式存儲.由于知識圖譜的結(jié)構(gòu)特殊性,隨著數(shù)據(jù)量的增大,如何將其進(jìn)行分布式存儲是一個具有現(xiàn)實意義的問題.該問題包括有如何將知識圖譜進(jìn)行合理分割存儲而不影響其功能,知識圖譜的負(fù)載均衡,知識圖譜的存儲模型等.

        (2)知識圖譜的推理.知識圖譜的構(gòu)建推理能支持知識圖譜的構(gòu)建,通過檢測原有的知識是否存在邏輯矛盾以及從已知知識中發(fā)現(xiàn)未知的關(guān)系,保證知識圖譜的一致性與完整性,又能豐富和擴展知識圖譜.另一方面,知識圖譜的應(yīng)用推理也值得關(guān)注.通過添加領(lǐng)域內(nèi)的知識規(guī)則,知識圖譜的應(yīng)用推理可以實現(xiàn)領(lǐng)域知識的推論,輔助自動決策、智能問答和預(yù)測等.

        (3)目前已有的知識圖譜大部分使用率和重用率不高,甚至在構(gòu)建工作完成以后就被擱置;而另一方面,有實際需求的企業(yè)卻缺少構(gòu)建知識圖譜的渠道.針對這種情況,未來可以考慮:① 加強知識圖譜以及本體構(gòu)建工程的知識理論體系建設(shè),以及相關(guān)人才的培養(yǎng).②加大通用知識圖譜的構(gòu)建力度,而行業(yè)知識圖譜則只在有實際需求時再根據(jù)情況構(gòu)建.③ 繼續(xù)加強知識圖譜以及本體自動構(gòu)建方法的研發(fā),提高構(gòu)建過程的自動化程度.

        猜你喜歡
        數(shù)據(jù)源本體圖譜
        Abstracts and Key Words
        繪一張成長圖譜
        對姜夔自度曲音樂本體的現(xiàn)代解讀
        Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
        補腎強身片UPLC指紋圖譜
        中成藥(2017年3期)2017-05-17 06:09:01
        基于不同網(wǎng)絡(luò)數(shù)據(jù)源的期刊評價研究
        主動對接你思維的知識圖譜
        《我應(yīng)該感到自豪才對》的本體性教學(xué)內(nèi)容及啟示
        基于真值發(fā)現(xiàn)的沖突數(shù)據(jù)源質(zhì)量評價算法
        Care about the virtue moral education
        卷宗(2013年6期)2013-10-21 21:07:52
        欧美老肥妇做爰bbww| 青青草久热手机在线视频观看| 亚洲一区二区av天堂| 亚洲色大成网站www永久| 日韩人妻无码一区二区三区| 亚洲AV永久无码精品导航| 最新国内视频免费自拍一区| 大奶白浆视频在线观看| 亚洲性啪啪无码av天堂| 久久av高潮av喷水av无码| 一区二区三区在线日本| 精品亚洲一区二区三区四| 精品国产乱码久久久久久1区2区| 亚洲阿v天堂网2021| 在线观看播放免费视频| 日韩av无码一区二区三区| 日本熟妇色xxxxx欧美老妇| 亚洲国产香蕉视频欧美| 精品中文字幕精品中文字幕| 永久天堂网av手机版| 国模无码人体一区二区| 国产成人精品视频网站| av天堂手机免费在线| 三年片大全在线观看免费观看大全| 最新国产三级| 亚洲一区二区三区高清视频| 精品无码一区二区三区的天堂| 在教室伦流澡到高潮hgl视频 | 日韩女优图播一区二区| 亚洲av片在线观看| 国产精品自在拍在线播放| 国产性感主播一区二区| 少妇高潮惨叫久久久久电影69| 少妇被躁爽到高潮无码文| 无码8090精品久久一区| 亚洲sm另类一区二区三区| 大又大粗又爽又黄少妇毛片| 亚洲AV无码精品色欲av| 日本在线一区二区免费| 亚洲人成无码区在线观看| 91av国产视频|