亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        知識圖譜研究進展及其前沿主題分析

        2020-12-15 10:54:56譚曉張志強
        圖書與情報 2020年2期
        關(guān)鍵詞:知識圖譜

        譚曉 張志強

        摘 ? 要:文章基于收集的近30年知識圖譜主題文獻展示了知識圖譜發(fā)展的趨勢,利用關(guān)鍵詞共現(xiàn)呈現(xiàn)了知識圖譜領(lǐng)域主題的相互聯(lián)系和結(jié)構(gòu),基于描述的熱點前沿構(gòu)建了內(nèi)容層面分析的主題框架,從實體消歧、關(guān)系擴充、圖譜改進、圖譜集成、關(guān)聯(lián)數(shù)據(jù)、動態(tài)構(gòu)建等方面進行分析,總結(jié)了知識圖譜的應(yīng)用現(xiàn)狀,并對知識圖譜的發(fā)展趨勢予以揭示。

        關(guān)鍵詞:知識圖譜;實體消歧;嵌入模型;事件圖譜;知識融合

        中圖分類號:G254.29 ? 文獻標識碼:A ? DOI:10.11968/tsyqb.1003-6938.2020027

        Abstract Based on nearly 30 years collection of knowledge graph macro subject literature, the paper shows the trend of the development of the knowledge graph. Keywords co-occurrence is used to present knowledge graph topic in the field of the structure and interconnection. Based on the description of hot frontier, the theme of the analysis of the content level framework is constructed. In-depth analysis was made from the entity disambiguation, relationship expansion, graph improvement, graph integration, correlated data, and dynamic building to summarize the present situation of the application of knowledge graph. It also reveals the development trend of knowledge graphing.

        Key words knowledge graph; entity disambiguation; embedded model; event graph; knowledge fusion

        知識圖譜(Knowledge Graph,KG)旨在描述客觀世界中的實體、概念、事件、屬性及其之間的關(guān)系。從結(jié)構(gòu)化的、半結(jié)構(gòu)化的、非結(jié)構(gòu)化的數(shù)據(jù)源中抽取知識及知識間的關(guān)系,強調(diào)現(xiàn)實世界的實體、關(guān)系,并以圖的形式進行組織,提供了從關(guān)系分析問題的能力。知識圖譜技術(shù)包括知識圖譜構(gòu)建、管理、更新以及應(yīng)用過程中使用的技術(shù),融合了知識表示、信息檢索和抽取、機器學(xué)習(xí)、自然語言處理、語義網(wǎng)以及數(shù)據(jù)挖掘等交叉領(lǐng)域。

        互聯(lián)網(wǎng)上的信息是碎片式的,并以不同的數(shù)據(jù)形式呈現(xiàn),這使得用戶對知識連續(xù)、系統(tǒng)、全面地收集和理解都很困難;在大數(shù)據(jù)時代,用戶更喜歡獲取知識,而不是從網(wǎng)絡(luò)上獲取頁面;在信息環(huán)境和知識經(jīng)濟發(fā)展的背景下,圖書情報工作核心定位于知識服務(wù),已成為在面向科技決策、科技創(chuàng)新、科學(xué)研究以及產(chǎn)業(yè)發(fā)展等多層次的文獻情報需求的核心,需要對異構(gòu)的文本知識對象進行挖掘……為解決這些問題,知識圖譜成為大數(shù)據(jù)時代最有效的知識表示及整合方法之一。一方面,知識圖譜能同時被機器和人所理解,反映客觀世界的組成和關(guān)系,為實現(xiàn)推理和決策提供關(guān)鍵組件;另一方面,知識圖譜作為知識工程的一類技術(shù),是實現(xiàn)智能的重要手段。近年來,知識圖譜技術(shù)在科學(xué)研究和產(chǎn)業(yè)界得到了廣泛的應(yīng)用實踐。但知識圖譜并不是最近才出現(xiàn)的技術(shù),它的發(fā)展一直伴隨著人工智能技術(shù)發(fā)展歷程。 人工智能經(jīng)歷了運算智能、感知智能和認知智能三個階段,其中,認知智能可以讓機器具備能理解思考、像人一樣能夠?qū)W習(xí)和推理的能力,而其知識描述和知識管理正是目前需要克服前進的方面。

        知識圖譜與知識領(lǐng)域映射地圖(Mapping knowledge domain)、本體、語義網(wǎng)、知識庫有異同(見圖1、表1)。

        知識圖譜屬于知識管理的范疇。知識圖譜緊密依存大數(shù)據(jù)理論,關(guān)注數(shù)據(jù)規(guī)范性和關(guān)聯(lián)性的本體及語義網(wǎng)理論,以本體建模為手段,借助語義網(wǎng)絡(luò)分析理論挖掘并發(fā)現(xiàn)新知識,應(yīng)用語義網(wǎng)知識庫關(guān)聯(lián)方法實現(xiàn)知識的分布式存儲,應(yīng)用深度學(xué)習(xí)算法發(fā)現(xiàn)創(chuàng)新性知識,提供基于實體檢索的智能檢索及個性化推薦,為用戶提供高質(zhì)量知識服務(wù);知識領(lǐng)域映射地圖則是將科研活動主題或具有共同特征的領(lǐng)域客體作為研究對象,應(yīng)用于計量學(xué)、引文分析、知識創(chuàng)新/演變預(yù)測等,展現(xiàn)的是科學(xué)活動主體、科學(xué)知識的結(jié)構(gòu)及演變,應(yīng)用的理論是庫恩的科學(xué)發(fā)展模式,應(yīng)用社會網(wǎng)絡(luò)分析方法和聚類分析,構(gòu)建社區(qū)及發(fā)現(xiàn)社區(qū)關(guān)鍵人物/主題,構(gòu)建網(wǎng)絡(luò)路徑,通過關(guān)鍵人物共享和傳播知識,在情報學(xué)領(lǐng)域,是跟蹤科技前沿、選擇科研方向、開展知識管理并輔助科學(xué)決策的有利工具。知識圖譜與知識庫兩者都是通過更有效和智能地保存、管理已有的知識,同時對外提供一個便捷訪問所需知識的接口。知識圖譜最終形成的是知識庫,同時,知識圖譜構(gòu)建的重要來源是知識庫。

        為了更清晰地了解知識圖譜研究進展情況,文章收集了近30年的科學(xué)文獻,通過對這些文獻計量層面的分析能宏觀了解知識圖譜發(fā)展的趨勢,利用關(guān)鍵詞共現(xiàn)方法呈現(xiàn)知識圖譜領(lǐng)域主題的相互聯(lián)系和結(jié)構(gòu),基于描述的熱點前沿,構(gòu)建了內(nèi)容層面分析的主題框架,并進行內(nèi)容層面的深度解讀,最后文章對知識圖譜在各領(lǐng)域的應(yīng)用進行了總結(jié)。

        1 ? 知識圖譜研究進展的宏觀分析

        本文采用的數(shù)據(jù)源為ISI Web of Science,檢索主題為“知識圖譜”,構(gòu)建的檢索式如下:

        #1:

        TS=("knowledge graph" OR "knowledge graphs")

        #2:

        TS=("semantic* net*") or ts=("semantic* web*") or ts=("semantic* relation*") or ts=("artificial intelligence" or "big data") or ts=("ontology *" or "ontology*") or ts=(RDF* or "Web Ontology Language" or ontology) or ts=("nature language *") or ts=("knowledge base") or ts=("deep learn*" or "machine learn*") or ts=("relation* extract*" or "extract* of relation*") or ts=("entit* extract*" or "extract* of entit*") or ts=( "link* data" ) or ts=("neural*")

        #3

        ts=("knowledge represent*" or "knowledge inference" or "knowledge reason*" or "knowledge acquisit* " or "knowledge extract*" or "represent* of knowledge")or ("knowledge descrip*") or (ts=("knowledge fusion"))

        #1 or (#2 and #3)

        截至2018年5月21日,共檢索出知識圖譜主題文獻3892篇。

        1.1 ? ?知識圖譜文獻時間分布

        知識圖譜主題的文獻出現(xiàn)于1991年,之后一直到2017年論文呈現(xiàn)的是階段性上漲的趨勢。根據(jù)數(shù)據(jù)分析,期間大致有三次大幅增長段:1992-1994、2003-2006、2010-2017,論文產(chǎn)出持續(xù)增長,在1997年、2001年、2008年前后出現(xiàn)了較大的減退。從論文的作者量來看,呈現(xiàn)的是1991-2017年持續(xù)增長趨勢,在1994年、2003年、2014年左右出現(xiàn)幾次大幅增長,與論文大幅增長時期大致同步。在論文數(shù)量減退時期,作者數(shù)量也出現(xiàn)了較少的回落。從作者篇均投入水平來看,整體是上升的趨勢,在論文三次增長時期,作者篇均論文數(shù)量為:2.38人/篇,3.03人/篇,3.83人/篇(見圖2)。

        1.2 ? ?知識圖譜文獻主題分布

        基于關(guān)鍵詞的共現(xiàn)關(guān)系可以用來描述表達學(xué)科領(lǐng)域集合內(nèi)部的相互聯(lián)系和結(jié)構(gòu),進行熱點主題的揭示和發(fā)展動態(tài)預(yù)測。本文利用Citespace進行關(guān)鍵詞共現(xiàn)聚類分析,得到25個類簇,結(jié)合TF-IDF和LLR,得到25個類簇的主題詞(見圖3)。主要集中在:神經(jīng)網(wǎng)絡(luò)應(yīng)用(#0)、醫(yī)療文本挖掘/生物醫(yī)學(xué)本體(#1、#3、#10)、快速推理(#2)、人工非單調(diào)神經(jīng)網(wǎng)絡(luò)(#4)、規(guī)則抽?。?5)、領(lǐng)域?qū)<遥?6)、增強學(xué)習(xí)算法(#7)、概念圖譜(#8)、基于本體的數(shù)據(jù)挖掘方法(#9)、知識圖譜嵌入(#11)、關(guān)聯(lián)屬性發(fā)現(xiàn)(#12)、維基百科(#13)、時序表示(#14)、信息庫(#15)、異構(gòu)知識表示(#16)、混合專家系統(tǒng)(#17)、變革管理(#18)、無監(jiān)督學(xué)習(xí)(#19)、神經(jīng)表征(#20)、網(wǎng)絡(luò)系統(tǒng)開發(fā)(#21)、預(yù)測統(tǒng)計模型(#22)、模糊歸納學(xué)習(xí)策略(#23)、普適計算(#24)。

        2 ? 知識圖譜研究主題現(xiàn)狀

        當今,隨著知識圖譜構(gòu)建和應(yīng)用的快速發(fā)展,很多知識圖譜,如Freebase、DBpedia、YAGO及NELL,已經(jīng)成功應(yīng)用并通用于世界,其范圍涉及到語義分析、命名實體消歧、信息抽取、問答系統(tǒng)等。在大數(shù)據(jù)時代,知識服務(wù)和應(yīng)用對知識庫從數(shù)據(jù)體量、動態(tài)更新和擴展性、異構(gòu)性到價值性方面提出了更高的需求,當前面臨著:從碎片化的數(shù)據(jù)中抽取知識,知識的動態(tài)演化導(dǎo)致真值發(fā)現(xiàn)難度大,語言表述時存在一詞多義和一義多詞現(xiàn)象,數(shù)據(jù)源的異源異構(gòu)導(dǎo)致的知識質(zhì)量參差不一使得知識價值評判難等問題。針對這些問題,文章對本文檢索到的近4000篇文獻進行了分析和歸納,利用關(guān)鍵詞共現(xiàn)形成的主題簇構(gòu)建了知識圖譜進展研究的框架(見圖4)。

        2.1 ? ?實體消歧

        實體消歧是實體抽取中的一個關(guān)鍵環(huán)節(jié),其任務(wù)是將存在歧義的實體指稱在眾多候選實體中匹配出對應(yīng)的目標實體,本質(zhì)是計算實體指稱項和候選實體的相似度,選擇相似度最大的候選實體作為鏈接的目標實體。目前的實體消歧的方法分為實體的特征/屬性和實體-實體的相關(guān)性。

        (1)依據(jù)實體特征/屬性消歧。依據(jù)實體特征進行消歧的方法包括字符串相似性、流行度、共性。字符串相似性是最直接和常用的方法,指稱實體和候選實體名稱通過距離[3-4]或不同相似性系數(shù)進行對比。但是當候選實體或者指稱實體有語義異構(gòu)表達時,無法將語義相同的實體進行鏈接?;诹餍卸认绲谋举|(zhì)是基于概率統(tǒng)計的方法,具有領(lǐng)域依賴性,其思想是 “對于給定實體指代,與其對應(yīng)的映射實體最有可能是現(xiàn)實世界中最著名的實體”,但缺陷在于:不論實體的上下文語義環(huán)境如何,都會固定指向某一候選實體。實體共性是在實體消歧中非常有效的特征,是指從語義分布到實體標注語料庫計算的實體先驗概率,其難度在于計算實體共性依賴于標注語料庫,計算出的概率因語料庫不完備可能造成實體覆蓋受限。

        (2)實體相關(guān)性消歧。利用實體相關(guān)性進行消歧,基于不同的信息源有不同的語義特征來計算實體相關(guān)性??梢詮恼Z義內(nèi)容、上下文相似、圖譜分析三個方面進行實體相關(guān)的語義消歧。

        首先,基于實體的語義內(nèi)容,利用以下方法在詞袋或向量空間模型(VSM)中計算實體相關(guān)性:①實體描述或類別向量的點積或余弦相似性;②利用加權(quán)關(guān)鍵詞組重疊率以及主題模型進行實體主題一致性計算;③實體分類層次的語義相似度。

        第二,利用實體標注語料庫、實體共現(xiàn)及實體分布計算實體間關(guān)聯(lián),其假設(shè)是在相似的上下文語境下出現(xiàn)的實體具有語義關(guān)聯(lián)性,本質(zhì)是基于被比較的文本間存在重疊。計算這種重疊相似性的常用指標是Jaccard或Dice系數(shù)。VSM被用來代表高維上下文語境及實體向量,計算特定文本集和詞表的TF-IDF得分,上下文-實體的相似性是用點積或兩向量間的余弦值。最近學(xué)界還提出了利用深度學(xué)習(xí)架構(gòu)對指稱實體、上下文、候選實體進行分布式向量表示,并基于Word2Vec將上下文詞用相似詞來擴展。此外,概率語言模型和主題模型已被應(yīng)用于上下文-指稱實體-候選實體的建模中?;趯嶓w上下文能較好的彌補流行度的缺陷,在實體上下文信息足夠豐富的情況下,可以取得較高的準確率,但是在短文本或文本稀疏存在噪音的情況下無法保障。

        第三,圖譜分析在測度實體關(guān)聯(lián)上具有有效性。實體圖譜分析是基于語義實體網(wǎng)絡(luò)中點度分析。點度分析計算的是鏈接實體的邊緣,關(guān)系分析則考慮實體之間的有意義的語義關(guān)系。這種差異導(dǎo)致了不同類型的實體關(guān)聯(lián)方法。Milne等提出了一種基于入邊和出邊鏈接計算實體相關(guān)性的點度分析方法。這種實體關(guān)聯(lián)方法已被廣泛應(yīng)用于命名實體消歧系統(tǒng)。類似點度分析的還包括互信息以及Jaccard距離。最近的研究開始關(guān)注圖譜中實體之間的語義關(guān)系,基于實體間最短路徑和最短路徑的關(guān)系權(quán)重計算實體間的相關(guān)性。

        各種不同的實體關(guān)聯(lián)方法,可以通過對機器學(xué)習(xí)技術(shù)的結(jié)合以及多種方法的融合,進一步優(yōu)化和增強實體相關(guān)性的性能。除了基于相似的方法,無監(jiān)督的消歧方法是基于圖的方法,將不同的消歧特性結(jié)合到圖譜表示。上面描述的所有方法代表了處理命名實體歧義的不同方面的考慮因素,在實際應(yīng)用中要根據(jù)數(shù)據(jù)集的具體特征和在召回率、準確率以及效率之間尋求應(yīng)用需求,選擇消除歧義的特征和方法。

        2.2 ? ?關(guān)系擴充

        關(guān)系預(yù)測與預(yù)測圖譜中邊的存在(正確性的概率)或者邊的類型有關(guān),這在知識圖譜構(gòu)建、關(guān)系擴充中十分重要,因為圖譜中會缺失很多事實,包含的邊可能是錯誤的。

        機器學(xué)習(xí)研究方法,用于關(guān)系或圖形結(jié)構(gòu)的數(shù)據(jù)的統(tǒng)計分析。在大型知識圖譜上“訓(xùn)練”統(tǒng)計模型,然后用來預(yù)測圖中的新邊。特別地,其中的兩種完全不同的統(tǒng)計關(guān)系模型,它們都可以擴展到大量的數(shù)據(jù)集?;趶埩恳蜃臃纸夂投嗦飞窠?jīng)網(wǎng)絡(luò)等潛在特征模型。Socher等[5]將鏈接預(yù)測問題視為矩陣或者張量的補全。初始的知識庫可以看做是E×P×E三維稀疏矩陣G,E是實體數(shù)量,P是謂詞數(shù)(關(guān)系數(shù)量),G(s,p,o)=1,如果存在一個從s到o的鏈接p,那么G(s,p,o)=0。可以通過將潛在的低維向量與每個實體和謂詞進行關(guān)聯(lián)來執(zhí)行該張量的低秩分解,然后計算元素內(nèi)積:Pr(G(s,p,o)=1)=σ(uskwpkvok)。σ(x)=1/(1+e-x)是邏輯函數(shù),K-60是隱藏層,us,wp,vo是K維向量,將離散標記嵌入語義空間。Zhao等[6]將成對實體關(guān)系嵌入到低維空間進行學(xué)習(xí),在Freebase中基于已存關(guān)系進行關(guān)系預(yù)測。第二個是基于在圖中觀察到的模式。Lange等[7]利用條件隨機場在維基百科摘要中學(xué)習(xí)模式,Wu等[8]將這些潛在的和可觀察的模型結(jié)合起來,并將這些統(tǒng)計模型與基于文本的信息提取方法結(jié)合起來,以便從Web自動構(gòu)建知識圖譜。

        同樣的,關(guān)聯(lián)關(guān)系挖掘也可用于預(yù)測關(guān)系。Dutta和Kolthoff[9]利用關(guān)聯(lián)規(guī)則挖掘?qū)ふ矣幸饬x的關(guān)系鏈來預(yù)測缺失關(guān)系。另一個預(yù)測關(guān)系的常用方法是遠程監(jiān)督,這個方法會使用大型文本語料庫。遠程監(jiān)督的假設(shè)是一個句子中含有一個關(guān)系涉及的實體對,那么這個句子就是描述的這個關(guān)系。與遠程監(jiān)督類似,解決關(guān)系預(yù)測的方法還有路徑排序算法(Path ranking algorithm,PRA),起始于所有的源節(jié)點,在知識圖譜中完成隨機游走,所有到達目標節(jié)點的路徑都是成功的。這些路徑的質(zhì)量可以由它們的支持度和精確度來度量。PRA學(xué)習(xí)的路徑可以解釋為規(guī)則。由于多規(guī)則或路徑可以應(yīng)用于任何給定的實體對,可以通過設(shè)置二值分類器來組合。

        許多知識圖譜包含與其他知識圖譜的鏈接。知識圖譜之間的相互鏈接可以用來填補另一個知識圖譜中的空白。Dutta等[10]提出了知識圖譜之間的概率映射?;陬愋秃蛯傩苑植?,它們在知識圖譜之間創(chuàng)建了一個映射,然后可以用來在知識圖譜中派生出額外的、缺失的事實。兩個知識圖譜所使用的類型系統(tǒng)彼此映射,一個知識圖譜的類型可以被另一個知識圖譜用來預(yù)測缺失的關(guān)系。

        知識圖譜包含實體和關(guān)系,每個實體關(guān)系由三元組形式表示:(h,r,t),h/t表示的頭部尾部實體由兩者之間代表的一種關(guān)系r進行鏈接。傳統(tǒng)的知識表示不能很好的表示實體的語義相關(guān)性,為了解決這個問題,知識表示采用分布式方式。知識圖譜嵌入,將實體和關(guān)系映射到連續(xù)的低維向量空間,可以應(yīng)用于知識圖譜完備、關(guān)系抽取、實體分類以及實體分解等,在這里主要介紹知識圖譜嵌入在鏈接預(yù)測和關(guān)系挖掘中的有效性。經(jīng)典的知識圖譜嵌入技術(shù)包含三步:第一步指定實體和關(guān)系在連續(xù)向量空間中的表示,實體通常由向量表示,通過多源高斯函數(shù)對實體進行建模分布。關(guān)系通常可以表示為向量、矩陣、張量、多源高斯分布;第二步定義了計分函數(shù)fr (h,t),在每個事實(h,r,t)上來衡量其合理性;第三步學(xué)習(xí)實體和關(guān)系解決得了優(yōu)化問題,使整體合理性最大化。

        粗略的將知識圖譜嵌入分為兩類:平移距離模型和語義匹配模型。前者是基于距離得分功能,后者是基于相似度。其中,平移距離模型典型方法包括TransE、TransH、TransR、CTransR、TransF、TransM等。在所有的基于翻譯模型的知識圖譜嵌入中,TransE是最經(jīng)典的模型,它的基本假設(shè):當被編碼為度量空間時,關(guān)系是從h到t的轉(zhuǎn)化/翻譯,也就是三元組(h,r,t)適應(yīng)于表達式h+r≈t,基于此,關(guān)系補全通過尋找r*使得h+r*≈t。當一個實體對有多個關(guān)系時,多度量空間的方案被提出,這些基于翻譯的不同模型的區(qū)別在于如何將一個向量從一個空間表示為另一個空間。語義匹配模型探索了基于相似的得分函數(shù),通過潛在語義匹配測度事實的實體和關(guān)系在向量空間表示的合理性。

        2.3 ? ?知識圖譜改進

        來源網(wǎng)頁的數(shù)據(jù)抽取存在噪音,實體和關(guān)系存在不完整和易錯性,知識圖譜改進主要體現(xiàn)在數(shù)據(jù)的完備性和錯誤數(shù)據(jù)修正,范疇包含實體類別、實體關(guān)系以及知識真值(解決異源知識間的沖突和不一致),涉及到的研究領(lǐng)域有概念層面及實例層面。

        知識圖譜的完備性目標主要是增加知識圖譜的覆蓋率,完備性相關(guān)的研究內(nèi)容主要集中在缺失實體的預(yù)測、缺失實體類型的預(yù)測以及實體間缺失關(guān)系的判斷。①在預(yù)測實體類型方面:Paullheim等[11-12]提出了一種基于條件概率的方法,如CAST類型有向內(nèi)的邊,則節(jié)點為Actor的概率較高,SDT算法利用了這種可能性;Sleeman和Finin[13]利用支持向量機在DBpedia和Freebase中輸入實體,利用知識圖譜之間的相互鏈接,根據(jù)屬性對知識圖譜中的實例進行分類,以提高知識圖譜的覆蓋率和精確性;Nickel等[14]提出在YAGO中使用矩陣分解來預(yù)測實體類型。由于許多知識圖譜都有類層次結(jié)構(gòu),因此類型預(yù)測可以看做是一個層次分類問題[15]。在數(shù)據(jù)挖掘中,利用關(guān)聯(lián)規(guī)則的共現(xiàn)性預(yù)測圖譜中缺失信息,既確保有足夠重疊的信息來學(xué)習(xí)關(guān)聯(lián)規(guī)則,又確保有許多實體在系統(tǒng)中的類型唯一。Heiko[16]利用這種關(guān)聯(lián)規(guī)則基于冗余信息預(yù)測DBpedia中缺失的類型;Sleeman等[17]提出利用主題建模進行類型預(yù)測,知識圖譜中的實體表示文檔,在文檔上應(yīng)用LDA查找主題,通過分析主題和實體類型的共現(xiàn),為實體分配新的類型。還可以利用外部知識進行實體特征表示進行類型的預(yù)測。Nuzzolese等[18]提出使用K近鄰分類器利用Wikipedia鏈接圖譜來預(yù)測實體類型;Aprosio等[19]使用不同距離度量的KNN分類器利用不同DBpedia語言版本的實體類型作為預(yù)測缺失類型的特性;Gangemi等[20]使用不同語言的摘要來提高覆蓋率和精確性。②在預(yù)測實體關(guān)系方面:分類方法也可用于預(yù)測實體關(guān)系,在3.2中的關(guān)系擴充中提到了Socher等[21]訓(xùn)練一個張量神經(jīng)網(wǎng)絡(luò)預(yù)測新的關(guān)系;Krompaβ等[22]提出了類似的方法,使用定義的或誘導(dǎo)的模式對知識進行細化,可以顯著提高鏈接的性能; Kolthoff等[23]使用了關(guān)聯(lián)規(guī)則挖掘的方法尋找有意義的鏈接進行關(guān)系預(yù)測。實體關(guān)系也可以利用文本源進行預(yù)測;Lange等[24]在Wikipedia摘要中使用條件隨機場進行模式學(xué)習(xí)。預(yù)測兩個實體間的關(guān)系的另一個常用方法是遠程監(jiān)控;Mintz等[25]與Aprosio等[29]通過命名實體識別將知識圖譜中的實體與文本語料庫鏈接起來;然后,基于圖譜中的關(guān)系尋找對應(yīng)關(guān)系類型的文本模式并應(yīng)用這些模式在文本語料庫中尋找附加的關(guān)系;Mu?觡oz等[26]認為對于在維基百科表格中共存的兩個實體,在知識圖譜中可能共享一條邊。為了填充這些邊,首先從表中提取一組候選元素,使用在兩列中可能的關(guān)系。然后,基于該提取的標簽子集,使用不同的特征來進行分類以識別在知識圖譜中實際存在的關(guān)系;Ritze等[27]將這種方法擴展到任意的HTML表格。

        基于已建圖譜的三類擴充改進,提煉出的推理主要集中在四類方法:利用邏輯推理進行規(guī)則學(xué)習(xí)、基于圖譜推理和學(xué)習(xí)算法、基于推理的實體和關(guān)系嵌入以及統(tǒng)計關(guān)系學(xué)習(xí)方法。

        (1)邏輯推理。在圖譜關(guān)系中存在的規(guī)則,由抽象或具象的霍恩子句進行表示,基于邏輯規(guī)則進行推理。規(guī)則都有某種特定的屬性,可以揭示在現(xiàn)存圖譜不同關(guān)系實例中的矛盾。

        在AI領(lǐng)域中知識圖譜出現(xiàn)之前的一階學(xué)習(xí)系統(tǒng)是GOLEM和FOIL,從數(shù)據(jù)實例中建立一階霍恩子句規(guī)則。為了提高可擴展性,利用Dirichlet先驗多項式分布估計每個N-FOIL規(guī)則的條件概率P。SOFIE是第一個將邏輯一致性圖例和信息抽取進行整合的系統(tǒng)。該系統(tǒng)將已知事實、新事實假設(shè)、單詞到實體的映射、模式以及約束轉(zhuǎn)化為邏輯子句。將權(quán)重分配給從數(shù)據(jù)統(tǒng)計證據(jù)中派生出來的子句。其目的是找到滿足最大約束條件的真子句,并將問題轉(zhuǎn)化為加權(quán)最大滿足性問題。

        (2)圖譜推理和學(xué)習(xí)。為了提高收斂率,各種算法已經(jīng)直接對圖進行推理以生成新的關(guān)系實例。隨機游走相關(guān)的圖算法已經(jīng)用于推理,一種常用的測度方法是重啟隨機游走(random walk with restart, RWR)。Lao等提出了用于關(guān)系檢索的路徑排序算法,應(yīng)用該方法在大規(guī)模知識庫用“數(shù)據(jù)驅(qū)動路徑尋找”完成學(xué)習(xí)和推理任務(wù)。Gardner等進一步用潛在句法線索進行推理。Wang等提出使用個性化的PageRank用于圖的推理,這是對隨機邏輯程序的擴展,G的隨機遍歷由每個節(jié)點的概率選擇來定義。每條邊都與一個具有各自權(quán)重的特征向量相關(guān)聯(lián),每個節(jié)點都有一條邊指向受重啟隨機游走測度的啟發(fā),參數(shù)通過隨機梯度下降(SGD)進行學(xué)習(xí),可以適應(yīng)并行學(xué)習(xí)任務(wù)。

        (3)基于推理的實體和關(guān)系嵌入。知識圖譜補全的目標是實現(xiàn)實體間的鏈接預(yù)測,但是傳統(tǒng)的鏈接預(yù)測不適用于知識圖譜的知識補全,因為知識圖譜中的實體有復(fù)雜的類型和屬性、知識圖譜中的邊也有不同的類型。現(xiàn)有的很多研究和工作是關(guān)于實體和關(guān)系嵌入技術(shù)的。

        (4)統(tǒng)計關(guān)系學(xué)習(xí)。統(tǒng)計關(guān)系學(xué)習(xí)是可以同時表示不確定性和關(guān)系結(jié)構(gòu)的模型。提供了利用機器學(xué)習(xí)的方式實現(xiàn)學(xué)習(xí)和推理的通用框架。馬爾科夫邏輯網(wǎng)絡(luò)在關(guān)系學(xué)習(xí)中被證明是最通用的。

        馬爾科夫邏輯網(wǎng)絡(luò)(Markov logic network, MLN)是一種簡單的表示,結(jié)合了概率圖模型和一階邏輯,在經(jīng)常出現(xiàn)的沖突和不確定性的數(shù)據(jù)中,應(yīng)用馬爾科夫邏輯網(wǎng)絡(luò)軟化約束,每個公式都有一個權(quán)重,表示公式的強度。馬爾科夫邏輯框架可以看成構(gòu)建馬爾科夫網(wǎng)絡(luò)的模板。隨機變化和依賴性形成了馬爾科夫隨機場。

        受約束的概率模型不同于MLN,它是將概率和聲明進行分離的模型,允許概率部分作為任意條件分布。另外,先驗知識編碼為約束條件,應(yīng)用于信息抽取和語義角色標注。

        2.4 ? ?知識集成/知識圖譜融合

        知識融合是使來自不同數(shù)據(jù)源的知識在同一框架規(guī)范下進行消歧、對齊、合并、推理驗證、更新等的高層次知識組織。當前具有增值規(guī)模的知識庫包括Wiki百科、Freebase、YAGO、微軟Satobri以及谷歌知識圖譜。增加現(xiàn)有事實規(guī)模,前期的方法都是基于文本抽取,結(jié)果會有較大的噪音。Knowledge Vault(KV)將從網(wǎng)頁抽取的知識與現(xiàn)存的知識庫中的先驗知識相結(jié)合,同時利用監(jiān)督機器學(xué)習(xí)的方法將不同的信息資源進行融合。

        谷歌搜索不再是簡單的網(wǎng)頁鏈接,而是直接回答問題的知識引擎,不過現(xiàn)有的知識圖譜依然依賴Freebase,KV自動進行知識擴充, KV的三個主要組件:抽取器、先驗圖譜學(xué)習(xí)、知識融合,通過KV的知識融合,知識圖譜自動構(gòu)建的新技術(shù)知識集成的借鑒。知識融合包含三種融合:實體融合、關(guān)系融合、實例融合??杉毞譃閷嶓w對齊和知識庫融合。

        將從不同數(shù)據(jù)源抽取的信息進行組合的簡單方法是為抽取的每個三元組t(s,p,o)構(gòu)造一個特征向量f(t),然后應(yīng)用二值分類器來計算Pr(t=1|f(t)),并為每個謂詞分別設(shè)置一個分類。每個抽取器的特征向量由兩個數(shù)字組成:提取器從中提取此三元組的源數(shù)量的平方根,以及來自此提取器的提取內(nèi)容的平均得分。此外,由于每個謂詞都有一個單獨的分類,也可以模擬它們的不同可靠性[28]。

        2.5 ? ?事件圖譜建模

        基于概念的知識表示較多的描述靜態(tài)特征,無法反映事物動態(tài)變化,為了動態(tài)表示,構(gòu)建以事件為中心的圖譜,考慮了事件的發(fā)生時間、地理屬性、發(fā)生原因、事件結(jié)果、事件方案。事件在信息抽取中是指在某個特定的時間片段和地域范圍內(nèi)發(fā)生的,由一個或多個角色參與,由一個或多個動作組成的一件事情;在話題檢測跟蹤中,事件是指關(guān)于某一主題的一組相關(guān)描述。為了描述知識的動態(tài)性,用事件對知識進行表述,把事件定義為參與對象在一定時間和環(huán)境條件下進行的動態(tài)過程[29]。

        事件圖譜研究的層次分為三層:第一層是面向事件的語料庫構(gòu)建;第二層是時間識別與抽取、事件關(guān)系識別與抽取[30];第三層是面向事件的自動問答、面向事件的自動文摘。

        傳統(tǒng)的事件抽取依賴于精細的特征設(shè)計和復(fù)雜的自然語言處理工具,消耗大量人力、易產(chǎn)生錯誤及數(shù)據(jù)稀疏問題。Chen等[31]為了捕獲詞匯的語義規(guī)律,并能考慮不遺漏重要信息,提出了利用動態(tài)多池化卷積神經(jīng)網(wǎng)絡(luò)(Dynamic Multi-Pooling Convolution Neural,DMCNN)進行事件抽取工作,能夠從詞和句層面的特征進行自動化感應(yīng),在一個句子中為每個事件抓取充分的情報。詞特征層面從大量未標記數(shù)據(jù)中學(xué)到的詞嵌入對于捕獲詞的有意義規(guī)則更為強大[32],應(yīng)用Skip-gram模型預(yù)先訓(xùn)練詞嵌入[33],句子特征層面的抽取,分為兩個步驟:第一步是觸發(fā)詞分類,對每個句子的單詞進行分類,進而識別觸發(fā)詞;若含有觸發(fā)詞,進行第二步參數(shù)分類,應(yīng)用DMCNN進行參數(shù)分配并對齊參數(shù)的角色。為了提取句子層面的特征,預(yù)測觸發(fā)詞和參數(shù)候選詞之間的語義交互是參數(shù)分類的關(guān)鍵, DMCNN用于捕捉這些重要線索的三種類型:①上下文詞特征:將整個句子中所有單詞作為上下文,通過查找單詞嵌入轉(zhuǎn)換的每個單詞標記的向量;②位置特征(Position feature,PF):在參數(shù)分類中指定單詞是候選參數(shù),PF用來定義當前單詞到預(yù)測觸發(fā)器或候選參數(shù)的相對距離,每個距離值也由一個嵌入向量表示;③事件類型特征:當前觸發(fā)器/觸發(fā)詞的事件類型對于參數(shù)分類很有價值,將觸發(fā)器分類階段預(yù)測的事件類型編碼為DMCNN的重要線索。在每個特征圖中為了抽取重要特征(最大價值),有必要捕捉關(guān)于候選詞變化的最有價值的信息,并在參數(shù)分類階段預(yù)測觸發(fā)器/觸發(fā)詞。

        利用融合的圖譜將面向不同數(shù)據(jù)源提取的相似事件進行機器讀取更有效,機器閱讀可以從一個整合圖中獲取包含在多個文本中的知識,該問題的解決通過MERGILO,利用圖譜對齊和詞的相似性。Alam等[34]提出了一種對MERGILO的進化,改進的主要重點是事件融合,融合知識圖譜通常用于多文檔摘要,或者用于檢測跨文檔系列的知識演化。為了收集事件的完整語義表示,使用FRED語義網(wǎng)頁機器讀取器與框架一起使用,利用語義框架來增強提取的事件知識,基于語義框架的圖形結(jié)構(gòu)和框架內(nèi)定義的語義角色的包容層次結(jié)構(gòu),擴展了MERGILO的相似之處。

        Rospocher等[35]提出了一種從新聞文章中自動構(gòu)建事件知識圖譜的方法和工具。新聞文章用最先進的自然語言處理和語義Web技術(shù)來創(chuàng)建以事件為中心的知識圖譜(ECKGs)。ECKGs以事件為中心意味著在時間和地點錨定時間并將它們鏈接到實體來表示長期的開發(fā)和故事線。在確定事件的關(guān)聯(lián)中,首先將語義角色標簽層的謂詞和具有相同引文的所有謂詞或在WordNet 2.0以上具有相似度評分的謂詞鏈接到一個單獨的引用集中,通過聚合來自同一源中所有引用的參與者和時間表達式來創(chuàng)建所謂的復(fù)合事件對象。

        2.6 ? ?與LOD集成

        關(guān)聯(lián)數(shù)據(jù)(Linked Data)概念是萬維網(wǎng)的發(fā)明人Tim Berner-Lee于2006年首次提出的,2007年啟動關(guān)聯(lián)開放數(shù)據(jù)(LOD)項目,其目的是用協(xié)議來規(guī)范發(fā)布和連接Web的各種數(shù)據(jù),建立一個計算機能理解的、可描述的、富含語義、具有結(jié)構(gòu)化的、互聯(lián)互通的知識網(wǎng)絡(luò),從而更加高效地利用這些相互關(guān)聯(lián)的信息。關(guān)聯(lián)數(shù)據(jù)就是把數(shù)據(jù)通過開放標準關(guān)聯(lián)在一起,揭示出數(shù)據(jù)間的相互關(guān)聯(lián)和相互聯(lián)系的規(guī)律,從而發(fā)現(xiàn)更多的新事物,產(chǎn)生更大的效益和更好的應(yīng)用。

        語義網(wǎng)上的知識圖譜通常由關(guān)聯(lián)數(shù)據(jù)提供[36]。關(guān)聯(lián)數(shù)據(jù)是RDF描述的一種較新的知識表示和發(fā)布形式, RDF Schema (RDFS)的核心思想是擴展RDF詞匯表,并允許將語義附加到用戶定義的類和屬性。RDFS由于不能表達鏈接實體之間的隱式語義,不能充分利用RDF的潛力。為了填補這一空白,Pu等[37]設(shè)計了新的語義標注和推理方法,從不同屬性擴展更多的隱式語義。首先,為鏈接數(shù)據(jù)源建立了定義良好的語義增強注釋策略。并提出了一種新的通用語義擴展的鏈接數(shù)據(jù)源方案,通過語義增強推理實現(xiàn)對目標鏈接數(shù)據(jù)源的語義擴展。LOD的語義內(nèi)容結(jié)合SPARQL提供的高級搜索和查詢機制,不僅為增強現(xiàn)有應(yīng)用程序,而且為開發(fā)新的和創(chuàng)新的語義應(yīng)用程序提供了前所未有的機會。然而,SPARQL不足以處理諸如比較、排序和排序搜索結(jié)果等功能,針對這一問題, Meymandpour等[38]提出了一種系統(tǒng)的關(guān)聯(lián)數(shù)據(jù)資源語義相似度度量模型。提出了一種基于內(nèi)容的通用信息方法。測量相似度在關(guān)聯(lián)數(shù)據(jù)中是比較新的趨勢。語義相似性反映了兩個概念、實體、術(shù)語、句子或文檔之間的均值關(guān)系。語義相似度的措施可以分為以下類別:①基于距離模型, 在語義網(wǎng)絡(luò)中被稱為邊緣計數(shù)或基于路徑的方法,將相似性定義為概念之間距離的函數(shù)?;诼窂降姆椒▽⒔o定分類法中概念的相對深度融入到語義相似度評估中[39]。其他被廣泛使用的基于鏈接的圖(如萬維網(wǎng)鏈接結(jié)構(gòu)或引文網(wǎng)絡(luò))的相似性度量包括SimRank、PageRank、HITS、Co-citation和SALSA。然而,這些方法沒有明確考慮鏈接的類型,所有鏈接類型都被視為相同的;②基于特征模型,該方法假設(shè)概念可以作為特征集來表示。它們根據(jù)特征集之間的共性來評估概念的相似性:概念之間公共特征的任何增加都會導(dǎo)致更高的相似性得分,而共享特征的任何減少都會導(dǎo)致較低的相似性水平。在此基礎(chǔ)上,可以采用Jaccard、Dice等基于集合的指標進行相似性評估;③統(tǒng)計方法,統(tǒng)計相似性度量將來自基礎(chǔ)域各個方面的統(tǒng)計信息合并到相似度計算中。有幾種方法使用文檔中術(shù)語的流行程度作為其信息量的度量,并以此作為度量相似性的基礎(chǔ)。

        3 ? 知識圖譜的應(yīng)用現(xiàn)狀

        3.1 ? ?基于知識圖譜的推薦系統(tǒng)

        推薦系統(tǒng)是一種信息過濾系統(tǒng),基于用戶畫像(用戶所表達的偏好、過去行為或者其他數(shù)據(jù))生成有意義的推薦,在越來越多的領(lǐng)域得到了應(yīng)用。基于協(xié)同和基于內(nèi)容的推薦系統(tǒng)是常用的兩類,基于協(xié)同的方法需要來自許多用戶的大量數(shù)據(jù)進行用戶相似度的測度,從而提供有效建議,涉及到用戶隱私;基于公共內(nèi)容的方法測度了不同內(nèi)容間的相似性?;谥R圖譜的推薦系統(tǒng)有效地解決了上述問題。RERA[40](Relation of entities recommendation agent)充分利用了出現(xiàn)在用戶歷史記錄中的實體和出現(xiàn)在候選內(nèi)容中的實體之間的關(guān)系,提出了一種新的個性化PageRank對建議內(nèi)容進行排序,分別提取實體作為用戶感興趣實體集合set1和從提議內(nèi)容提取實體set2,分析兩個集合連接性,進而判斷內(nèi)容相關(guān)性,從而實現(xiàn)基于內(nèi)容的推薦。

        知識圖譜是一種表示在Web數(shù)據(jù)中編碼的知識方式,也是為了提取新的和隱式信息進行推理的工具。Oramas等[41]描述了如何創(chuàng)建和利用一個知識圖譜來提供一個混合的推薦引擎,并在描述音樂和聲音項目的文檔集合的基礎(chǔ)上構(gòu)建信息?;跇?gòu)建的知識圖譜,使用一種特性組合混合方法來計算,可以獲得兩個顯式的圖形特征映射,從而捕獲嵌入在圖中的知識。這些內(nèi)容特性與來自隱式用戶反饋的附加協(xié)作信息進一步結(jié)合在一起。最終形成混合的信息,基于此構(gòu)建推薦引擎。

        3.2 ? ?跨媒體推理

        信息的獲取、傳播、處理和分析已經(jīng)逐漸從一種媒體形式轉(zhuǎn)變?yōu)槲谋?、圖像、視頻、音頻、立體圖像等多種媒體類型。不同媒體類型和形式代表了全面的知識,反映了個人和群體的行為。由此,人們認識到一種新的信息形式,即跨媒體信息。傳統(tǒng)的方法無法實現(xiàn)從多種媒體模式中提取語義,無法處理跨媒體數(shù)據(jù)分析,無法處理具有復(fù)雜組合、不同表示和復(fù)雜關(guān)聯(lián)的跨媒體場景。在跨媒體統(tǒng)一表示的理論和模型、跨媒體知識圖譜建設(shè)和學(xué)習(xí)方法、跨媒體知識的演變和推理等方面呈現(xiàn)方法、進展和未來方向。

        (1)跨媒體統(tǒng)一表示模型。第一個跨媒體統(tǒng)一表示模型是CCA[42],它通過最大化兩兩并行異構(gòu)數(shù)據(jù)之間的相關(guān)性來學(xué)習(xí)共享空間,并通過線性函數(shù)進行投影。CCA只能對兩種媒體類型的相互關(guān)系建模,為了解決這一限制,Zhai等[43]和Peng等[44]通過對XMedia數(shù)據(jù)集(包含了文本、圖像、視頻、音頻和3D模型)的五種媒體類型進行圖形正則化,在統(tǒng)一框架下對相關(guān)性和語義信息進行聯(lián)合建模;Yang等[45]提出了多媒體文檔(Multimedia document,MMD)模型,每個MMD具有不同模式但是相同語義的媒體對象,MMD之間的距離與每個模態(tài)相關(guān),這樣就可以進行跨媒體檢索;主題模型是跨媒體統(tǒng)一表示學(xué)習(xí)中另一種技術(shù),假設(shè)包含相同語義的異構(gòu)數(shù)據(jù)共享一些潛在的主題,Roller等[46]將視覺特征融入到LDA中,提出了一種多模態(tài)LDA模型來學(xué)習(xí)文本和視覺數(shù)據(jù)的表示,Wang等[47]提出了一種稱為多模態(tài)相互話題強化模型(multimodal mutual topic enhanced model, M3R)的方案,該方案旨在通過模型因素之間的適當交互來發(fā)現(xiàn)相互一致的語義話題。

        (2)跨媒體知識圖譜建設(shè)和學(xué)習(xí)方法。在跨媒體檢索中,不僅從文本數(shù)據(jù)語料庫中定義和提取實體和關(guān)系,而且從文本、圖像、視頻等大量松散數(shù)據(jù)形式中提取實體和關(guān)系,跨媒體知識圖譜為跨媒體語境下的語義關(guān)聯(lián)分析和認知層次推理提供了基本的可計算的知識表示結(jié)構(gòu),促進了跨媒體智能的理論和技術(shù)發(fā)展。為了將數(shù)據(jù)網(wǎng)絡(luò)轉(zhuǎn)化為知識網(wǎng)絡(luò),Suchanek和Weikum[48]認為跨媒體知識圖譜的研究需要考慮幾個問題;首先,研究從異構(gòu)跨媒體信息源中提取實體和構(gòu)建關(guān)系的有效技術(shù);其次,研究基于跨媒體知識圖譜的信息搜索與檢索,為更多樣化的應(yīng)用環(huán)境提供更有效的知識獲取和信息檢索機制;第三,開發(fā)跨媒體知識圖譜的挖掘和推理,促進知識的獲取和對實際應(yīng)用的高層次推理;第四,需要知識驅(qū)動的跨媒體學(xué)習(xí)模型來實現(xiàn)更多的泛化和學(xué)習(xí)能力,從而產(chǎn)生更高級的跨媒體智能。

        (3)跨媒體知識的演變和推理?,F(xiàn)實世界中的知識和推理過程通常涉及語言、視覺和其他類型的媒體數(shù)據(jù)間的協(xié)作。大多數(shù)現(xiàn)有的智能系統(tǒng)僅利用來自單一媒體類型的信息來執(zhí)行推理過程。視覺問答(Visual question answer, VQA)是跨媒體推理的一個很好的案例[49]。VQA的目的是以圖像和自然語言相結(jié)合的形式,為所給的問題提供自然語言的答案。Johnson等[50]試圖借助場景圖來提高圖像檢索的并行性,這也體現(xiàn)了跨媒體推理的思想。場景圖表示對象及其屬性和關(guān)系,可用于指導(dǎo)語義級的圖像檢索。然而,這些系統(tǒng)仍然難以充分利用互補媒體類型所包含的豐富語義信息,無法對多媒體進行復(fù)雜的跨媒體分析和推理。

        跨媒體大數(shù)據(jù)本質(zhì)上是多模態(tài)、跨領(lǐng)域的,使用不同的表示形式和復(fù)雜的關(guān)聯(lián)。現(xiàn)有的智能系統(tǒng)和框架在很大程度上依賴于特定領(lǐng)域的結(jié)構(gòu)化輸入和知識。高效的智能引擎將成為技術(shù)與應(yīng)用之間的橋梁,可以整合跨媒體的統(tǒng)一表示、關(guān)聯(lián)學(xué)習(xí)、知識進化、推理等。人工智能時代的到來,以及海量跨媒體數(shù)據(jù)的可用性,正在徹底改變所有行業(yè)的格局。其中,跨媒體Web內(nèi)容監(jiān)控、Web信息趨勢分析和醫(yī)療數(shù)據(jù)融合與推理是三個關(guān)鍵的應(yīng)用,以醫(yī)療數(shù)據(jù)融合與推理為例,數(shù)據(jù)驅(qū)動的醫(yī)療分析基于海量跨媒體數(shù)據(jù)的融合,正在將經(jīng)驗診斷和循證醫(yī)學(xué)改革為個性化和精準醫(yī)療。醫(yī)療分析是一個關(guān)鍵的技術(shù),為廣泛的現(xiàn)實所應(yīng)用(見圖5)。

        3.3 ? ?知識圖譜在生物醫(yī)學(xué)領(lǐng)域的應(yīng)用

        生物醫(yī)學(xué)領(lǐng)域知識的復(fù)雜性和規(guī)模性推動了從結(jié)構(gòu)化和非結(jié)構(gòu)化知識庫中挖掘異構(gòu)數(shù)據(jù)的研究工作。在這個方向上,有必要結(jié)合事實,形成關(guān)于領(lǐng)域概念的假設(shè)或者結(jié)論。

        在生物醫(yī)學(xué)領(lǐng)域,各種知識的發(fā)展規(guī)模和速度已經(jīng)超過個人的能力。目前大規(guī)模數(shù)據(jù)給醫(yī)學(xué)領(lǐng)域帶來信息提取及知識融合產(chǎn)生新知識這兩個難題。Swanson[52]展示了在結(jié)合不同來源的事實中發(fā)現(xiàn)新的、未知知識的潛力;Srinivasan等[53]開發(fā)了一套系統(tǒng),該系統(tǒng)通過一組預(yù)定義類型的共現(xiàn)概念,從感興趣的概念開始搜索兩個概念間的路徑,從而發(fā)現(xiàn)潛在關(guān)系;Weissenborn等[54]利用依賴關(guān)系樹作為句子中兩兩概念的句法依存工具,在知識表示和融合中,基于知識圖譜將異構(gòu)的知識集成到一個一致的表示模式,解決概念的相互映射問題,并利用語義向量減少關(guān)系空間。通過訓(xùn)練模型發(fā)現(xiàn)不能直接提取的概念之間的隱藏關(guān)系,可以進行全新知識的推斷;Vlietstra等[55]展示了如何從生物醫(yī)學(xué)文獻和結(jié)構(gòu)化數(shù)據(jù)庫中提取語義集成的知識來自動識別潛在的偏頭痛生物標志物。

        藥物間的相互作用(Drug-Drug interaction,DDIs)是可預(yù)防的藥物不良反應(yīng)的主要原因。已知現(xiàn)有的公共和專有的DDI信息來源不完整或不準確。Abdelaziz等[56]提出了一種基于相似度的大規(guī)模框架Tiresias,通過鏈路預(yù)測來預(yù)測DDIs。Tiresias將各種與藥物相關(guān)的數(shù)據(jù)和知識來源作為輸入,并將DDI預(yù)測作為輸出。這個過程從輸入數(shù)據(jù)的語義集成開始,生成一個描述藥物屬性的知識圖譜,以及與各種相關(guān)實體(如酶、化學(xué)結(jié)構(gòu)等)的關(guān)系。然后使用知識圖譜在可伸縮和分布式框架中計算所有藥物之間的幾個相似性度量。

        3.4 ? ?其他

        知識圖譜在語音識別、智能問答、網(wǎng)頁生成視頻、圖像特征學(xué)習(xí)等方面都有廣泛的應(yīng)有。此外,知識圖譜在垂直領(lǐng)域的應(yīng)用也很廣泛,包括讓消費者能快速掌握產(chǎn)品功能及技術(shù)的產(chǎn)品知識圖譜、金屬材料知識圖譜、地質(zhì)知識圖譜、交通知識圖譜、城市治理知識圖譜等領(lǐng)域方面的應(yīng)用。

        4 ? 結(jié)語

        文章從文獻計量和主題內(nèi)容挖掘出發(fā),分析了知識圖譜的研究進展及其相關(guān)新技術(shù)發(fā)展,更詳細地討論了知識圖譜的構(gòu)建、改進和應(yīng)用方面的現(xiàn)狀和面臨的主要挑戰(zhàn),以及處理這些問題的方法。

        可以看出,近年來知識表示、知識組織和知識理解已經(jīng)成為最重要的知識系統(tǒng)?,F(xiàn)有學(xué)術(shù)研究和產(chǎn)業(yè)界提出了大量與知識圖譜加速發(fā)展相關(guān)的研究問題、應(yīng)用和產(chǎn)品。然而,在知識圖譜領(lǐng)域仍然存在著諸多機遇和挑戰(zhàn),特別是在強調(diào)知識集成、知識服務(wù)、知識發(fā)現(xiàn)的情報學(xué)領(lǐng)域,研究對象已經(jīng)深入到知識內(nèi)容層面,知識圖譜為情報研究發(fā)展提供了很好的思路。富媒體時代,隨著需求的不斷增加,以及知識圖譜的涌現(xiàn),需要在數(shù)據(jù)、對象、情景、作用和工作流等層面進行圖譜集成、推理、應(yīng)用方面的評估,并利用圖譜中的各類感知信息及關(guān)系在各領(lǐng)域展開更為智能和廣泛的應(yīng)用。

        參考文獻:

        [1] ?Rober Neches,Richard Fikes,Tim Finin,et al. Enabling technology for knowledge sharing[J].Ai Magazine,1991,12(3):36-56.

        [2] ?Studer R,Benjamins V R,F(xiàn)ensel D.Knowledge engineering principles and methods[J].Data and knowledge engineering,1998,25(1/2):161-197.

        [3] ?Liu X,Li Y,Wu H,et al.Entity linking for tweets[J].ACL,2013(1):1304-1311.

        [4] ?Dredze M,Mcnamee P,Rao D,et al.Entity Disambiguation for Knowledge Base Population[C].Association for Computational Linguistics,2010.

        [5] ?Socher R,Chen D,Manning C D,et al.Reasoning With Neural Tensor Networks for Knowledge Base Completion[C].International Conference on Neural Information Processing Systems,2013.

        [6] ?Yu Zhao,Sheng Gao,Patrick Gallinari,et al.Knowledge base completion by learning pairwise-interaction differentiated embeddings[J].Data Mining and Knowledge Discovery,2015,29(5):1486-1504.

        [7] ?Lange D,Christoph B?觟hm,Naumann F.Extracting structured information from Wikipedia articles to populate infoboxes[C].Acm International Conference on Information & Knowledge Management.ACM,2010.

        [8] ?Wu F,Hoffmann R,Weld D S.Information extraction from Wikipedia:moving down the long tail[C].Acm Sigkdd International Conference on Knowledge Discovery & Data Mining,2008.

        [37] ?Pu L,Bao X,Aftab A,et al.SES LDS:An Extension Scheme for Linked Data Sources Based on Semantically Enhanced Annotation and Reasoning[J].International Journal of Intelligent Systems,2017,33(7209):233-258.

        [38] ?Rouzbeh Meymandpour,Joseph G.Davis.A semantic similarity measure for linked data:an information content-based approach[J].Knowledge-Based Systems,2016,109:276-293.

        [39] ?Leacock C,Chodorow M.Combining Local Context and WordNet Similarity for Word Sense Identification[C].WordNet:An Electronic Lexical Database,1998.

        [40] ?Chaudhari S,Azaria A,Mitchell T.An entity graph based Recommender System[J].AI Communications,2017,30(2):141-149.

        [41] ?Oramas S,Ostuni V C,Noia T D,et al.Sound and Music Recommendation with Knowledge Graphs.[J].ACM Transactions on Intelligent Systems and Technology,2016,8(2):1-21.

        [42] ?Rasiwasia N,Costa Pereira J,Coviello E,et al.A new approach to cross-modal multimedia retrieval[C].ACM Int.Conf.on Multimedia,2010:251-260.

        [43] ?Zhai X,Peng Y,Xiao J.Learning cross-media joint representation with sparse and semi-supervised regularization[J].IEEE Trans.Circ.Syst.Video Technol.,2014,24(6):965-978.

        [44] ?Peng Y,Zhai X,Zhao Y,et al.Semi-supervised cross-media feature learning with unified patch graph regularization[J].IEEE Trans.Circ.Syst.Video Technol.,2016,26(3):583-596.

        [45] ?Yang Y,Zhuang Y,Wu F,et al.Harmonizing hierarchical manifolds for multimedia document semantics understanding and cross-media retrieval.[J].IEEE Trans.Multim.,2008,10(3):437-446.

        [46] ?Roller S,Schulte im Walde S.A multimodal LDA model integrating textual,cognitive and visual modalities[C].Conf.on Empirical Methods in Natural Language Processing,2013:1146-1157.

        [47] ?Wang Y,Wu F,Song J,et al.Multi-modal mutual topic reinforce modeling for cross-media retrieval[C].ACM Int.Conf.on Multimedia,2014:307-316.

        [48] ?Suchanek F,Weikum G.Knowledge bases in the age of big data analytics[C].Proc.VLDB Endow.,2014:1713-1714.

        [49] ?Antol S,Agrawal A,Lu J,et al.VQA:visual question answering[C].IEEE Int.Conf.on Computer Vision,2015:2425-2433.

        [50] ?Johnson J,Krishna R,Stark M,et al.Image retrieval using scene graphs[C].IEEE Conf.on Computer Vision and Pattern Recognition,2015:3668-3678.

        [51] ?Peng Y,Zhu W,Zhao Y,et al.Cross-media analysis and reasoning:advances and directions[J].Frontiers of Information Technology & Electronic Engineering,2017,18(1):44-57.

        [52] ?Swanson D R,F(xiàn)ish Oil.Raynauds Syndrome,and Undiscovered Public Knowledge[J].Perspectives in Biology and Medicine,1986,30(1):7-18.

        [53] ?Srinivasan P,Libbus B,Sehgal AK.Mining medline:Postulating a beneficial role for curcumin longa in retinal diseases[C].Workshop BioLINK,linking biological literature,ontologies and databases at HLT NAACL,2004.

        [54] ?Weissenborn D,Schroeder M,Tsatsaronis G.Discovering relations between indirectly connected biomedical concepts[J].Journal of Biomedical Semantics,2015,6(1):1-19.

        [55] ?Vlietstra W J,Zielman R,van Dongen,et al.Automated extraction of potential migraine biomarkers using a semantic graph[J].Journal of Biomedical Informatics,2017,71:178-189.

        [56] ?Abdelaziz I,F(xiàn)okoue A,Hassanzadeh O,et al.Large-scale structural and textual similarity-based mining of knowledge graph to predict drug-drug interactions[J].Web Semantics:Science,Services and Agents on the World Wide Web,2017,44:104-117.

        作者簡介:譚曉(1983-),女,北京市科學(xué)技術(shù)情報研究所助理研究員,博士,研究方向:情報方法研究、戰(zhàn)略情報、文本挖掘;張志強(1964-),男,中國科學(xué)院成都文獻情報中心研究員,博士生導(dǎo)師,研究方向:科技戰(zhàn)略與規(guī)劃、科技政策與管理、科學(xué)計量學(xué)與科技評價。

        猜你喜歡
        知識圖譜
        國內(nèi)外智庫研究態(tài)勢知識圖譜對比分析
        國內(nèi)信息素養(yǎng)研究的知識圖譜分析
        國內(nèi)圖書館嵌入式服務(wù)研究主題分析
        國內(nèi)外政府信息公開研究的脈絡(luò)、流派與趨勢
        近十五年我國小學(xué)英語教學(xué)研究的熱點、問題及對策
        基于知識圖譜的產(chǎn)業(yè)集群創(chuàng)新績效可視化分析
        智富時代(2016年12期)2016-12-01 16:28:41
        基于知識圖譜的智慧教育研究熱點與趨勢分析
        國內(nèi)酒店品牌管理研究進展的可視化分析
        從《ET&S》與《電化教育研究》對比分析中管窺教育技術(shù)發(fā)展
        專家知識圖譜構(gòu)建研究
        强d漂亮少妇高潮在线观看| 成人a级视频在线观看| 亚洲av成人精品日韩一区| 中日韩欧美成人免费播放| 国产熟女露脸大叫高潮| 久久精品第九区免费观看| 精品国产乱码久久久久久1区2区| 在线精品国内视频秒播| 中文字幕高清一区二区 | 日韩av在线播放人妻| 午夜精品久久久久久99热| 天天爽夜夜爽人人爽曰喷水| 二区三区亚洲精品国产| 国产精品精品国产色婷婷| 天天爽夜夜爱| 免费看操片| 亚洲产在线精品亚洲第一页| 丰满人妻久久中文字幕| 国产精品亚洲一区二区三区在线 | 人妻丝袜av中文系列先锋影音| 久久久久成人亚洲综合精品| 国产熟女精品一区二区| 久久精品国产亚洲av麻豆会员| 在线精品国产一区二区三区| 亚洲a级片在线观看| 日韩亚洲一区二区三区在线| 午夜免费电影| 色偷偷一区二区无码视频| 一区二区三区不卡免费av| 国产女主播一区二区三区| 亚洲日本va中文字幕| 在线视频一区二区日韩国产| 亚洲一区域二区域三区域四| 色综合久久久无码中文字幕| 亚洲av无码一区二区乱子伦| 亚洲青涩在线不卡av| 免费在线观看av不卡网站| 男女爱爱好爽视频免费看| 国产亚洲美女精品久久| 狼狼色丁香久久女婷婷综合| 777国产偷窥盗摄精品品在线|