亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        知識圖譜綜述
        ——表示、構(gòu)建、推理與知識超圖理論

        2021-09-09 08:09:20張謹(jǐn)川張晉豪周望濤
        計算機應(yīng)用 2021年8期
        關(guān)鍵詞:圖譜實體語義

        田 玲,張謹(jǐn)川,張晉豪,周望濤,周 雪

        (1.電子科技大學(xué)計算機科學(xué)與工程學(xué)院,成都 611731;2.電子科技大學(xué)信息與軟件工程學(xué)院,成都 610054)

        0 引言

        隨著計算機科學(xué)相關(guān)領(lǐng)域研究的不斷深入,人工智能的研究重心由感知智能轉(zhuǎn)向認(rèn)知智能。專家系統(tǒng)和語義網(wǎng)絡(luò)作為認(rèn)知智能的早期代表,提出“將知識引入人工智能領(lǐng)域”,在某些特定領(lǐng)域具備一定的問題解決能力,但仍存在規(guī)模較小、自動化構(gòu)建能力不足、知識獲取困難等一系列問題。

        知識圖譜(Knowledge Graph,KG)的出現(xiàn),改變了傳統(tǒng)的知識獲取模式,將知識工程“自上而下”方式轉(zhuǎn)變?yōu)橥诰驍?shù)據(jù)、抽取知識的“自下而上”方式。經(jīng)過長期的理論創(chuàng)新與實踐探索,知識圖譜已經(jīng)具備體系化的構(gòu)建與推理方法。然而,對于實體關(guān)系,知識圖譜雖然有較強的建模能力,但難以表達(dá)普遍存在的多元關(guān)系。知識超圖通過引入超邊關(guān)系,能夠完整表達(dá)各種復(fù)雜的關(guān)系類型,得到學(xué)術(shù)界和工業(yè)界的高度關(guān)注。此外,知識圖譜和知識超圖能夠結(jié)合深度學(xué)習(xí)(Deep Learning,DL)等人工智能技術(shù),實現(xiàn)高效推理。

        1 知識圖譜基本概念

        本章將從知識圖譜定義引入,介紹知識圖譜的發(fā)展歷程、常見的知識圖譜分類以及知識圖譜的邏輯架構(gòu)。

        1.1 知識圖譜定義與發(fā)展歷程

        知識圖譜在維基百科中的定義是:使用語義檢索,從多種來源收集信息,以提高搜索質(zhì)量的知識庫[1]。本質(zhì)上,知識圖譜是真實世界中存在的各種實體、概念及其關(guān)系構(gòu)成的語義網(wǎng)絡(luò)圖,用于形式化地描述真實世界中各類事物及其關(guān)聯(lián)關(guān)系。

        如圖1所示,1965年,斯坦福大學(xué)的E.A.Feigenbaum提出專家系統(tǒng)(Expert System,ES)的概念,基于知識進(jìn)行決策,使人工智能的研究從推理算法主導(dǎo)轉(zhuǎn)變?yōu)橹R主導(dǎo)。

        圖1 知識圖譜發(fā)展歷程Fig.1 Development history of knowledge graph

        之后,在1968年,M.R.Quillian提出語義網(wǎng)絡(luò)(Semantic Network,SN)的知識表達(dá)模式,用相互連接的節(jié)點和邊來表示知識,知識庫(Knowledge Base,KB)的構(gòu)建和知識表示(Knowledge Representation,KR)方法成為研究的熱點。

        1977年,在第五屆國際人工智能聯(lián)合會議上,E.A.Feigenbaum提出知識工程(Knowledge Engineering,KE)概念,以知識為處理對象,基于人工智能的原理、方法和技術(shù),研究如何用計算機表示知識,進(jìn)行問題的求解。

        1989年,Tim Berners-Lee發(fā)明了萬維網(wǎng)(World Wide Web,WWW),并于1998年提出語義網(wǎng)(Semantic Web,SW)概念,將傳統(tǒng)人工智能的發(fā)展與萬維網(wǎng)結(jié)合,以資源描述框架(Resource Description Framework,RDF)為基礎(chǔ),在萬維網(wǎng)中應(yīng)用知識表示與推理方法。

        XML作為最早的語義網(wǎng)描述語言,以文檔為單位表示知識,可以用于標(biāo)記數(shù)據(jù)和定義數(shù)據(jù)類型。通過XML,用戶可以自由地設(shè)計元素和屬性標(biāo)簽;但由于不能顯式地定義標(biāo)簽的語義約束,靈活、個性化的標(biāo)簽設(shè)置導(dǎo)致XML通用性差。

        1.2 知識圖譜分類

        本節(jié)將分別介紹早期知識庫、開放知識圖譜、中文常識知識圖譜和領(lǐng)域知識圖譜等。

        1.2.1 早期知識庫

        早期知識庫通常由相關(guān)領(lǐng)域?qū)<胰斯?gòu)建,準(zhǔn)確率和利用價值高,但存在構(gòu)建過程復(fù)雜、需要領(lǐng)域?qū)<覅⑴c、資源消耗大、覆蓋范圍小等局限。典型的早期知識庫包含WordNet[3]、ConceptNet[4]等。

        NER方法可分為基于規(guī)則、基于統(tǒng)計模型和基于神經(jīng)網(wǎng)絡(luò)三類,如表4所示。

        ConceptNet是一個常識知識庫,源于麻省理工學(xué)院媒體實驗室在1999年創(chuàng)立的OMCS(Open Mind Common Sense)項目。ConceptNet采用了非形式化、類似自然語言的描述,側(cè)重于詞與詞之間的關(guān)系。ConceptNet以三元組形式的關(guān)系型知識構(gòu)成,已經(jīng)包含近2 800萬個關(guān)系描述。

        1.2.2 開放知識圖譜

        開放知識圖譜類似于開源社區(qū)的數(shù)據(jù)倉庫,允許任何人在遵循開源協(xié)議和開放性原則的前提下進(jìn)行自由的訪問、使用、修改和共享,典型代表為Freebase[5]、Wikidata[6]等。

        Freebase是MetaWeb從2005年開始研發(fā)的開放共享的大規(guī)模鏈接知識庫。Freebase作為Google知識圖譜的數(shù)據(jù)來源之一,包含多種話題和類型的知識,包括人類、媒體、地理位置等信息。Freebase基于RDF三元組模型,底層采用圖數(shù)據(jù)庫存儲,包含約4 400萬個實體,以及29億相關(guān)的事實。

        Wikidata是一個開放、多語言的大規(guī)模鏈接知識庫,由維基百科從2012年開始研發(fā)。Wikidata以三元組的形式存儲知識條目,其中每個三元組代表一個條目的陳述,例如“Beijing”的條目描述為“Beijing,isTheCapitalOf,China”。Wikidata包含超過2 470萬個知識條目。

        1.2.3 中文常識知識圖譜

        高臺縣羅城中型灌區(qū)屬于黑河下游中段中型自流灌區(qū),擔(dān)負(fù)著羅城鎮(zhèn)13個行政村87個自然社、總?cè)丝?.38萬人、0.38萬hm2耕地的灌溉任務(wù),灌區(qū)現(xiàn)有水庫4座,總庫容1 496.62萬m3。共有灌溉干渠渠道10條,長85.35 km,支渠渠道3條,長度8.02 km,斗渠274條,長度132.37 km。灌區(qū)依黑河沿岸布局,地下水位較高,地表鹽漬化嚴(yán)重。

        與英文百科數(shù)據(jù)相比,中文百科數(shù)據(jù)結(jié)構(gòu)更為多樣,語義內(nèi)涵更為豐富,且包含的結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)有限,為知識圖譜的構(gòu)造提出了更大的挑戰(zhàn)。當(dāng)前,中文常識圖譜的主要代表為Zhishi.me[7]、CN-DBpedia[8]等。

        Zhishi.me采用與DBpedia類似的方法,從百度百科、互動百科和維基百科中提取結(jié)構(gòu)化知識,并通過固定的規(guī)則將它們之間的等價實體鏈接起來。Zhishi.me包含超過1 000萬個實體和1.25億個三元組。

        老大爺阿扁做的車輪不是自行車的車輪啦,那個時候還沒有自行車。那個時候的車輪還是木頭的。他在齊國給國君齊桓公做車輪。齊桓公當(dāng)時要稱霸,需要很多車馬,所以阿扁一天到晚都很忙。齊桓公也很專心地學(xué)習(xí)治國之道。

        CN-DBpedia是一個大規(guī)模的中文通用知識圖譜,由復(fù)旦大學(xué)于2015年開始研發(fā)。CN-DBpedia主要從中文百科類網(wǎng)站(如百度百科、互動百科、中文維基百科等)中提取信息,并且對提取的知識進(jìn)行整合、補充和糾正,極大地提高了知識圖譜的質(zhì)量。CN-DBpedia包含940萬個實體和8 000萬個三元組。

        1.2.4 領(lǐng)域知識圖譜

        領(lǐng)域知識圖譜面向軍事、公安、交通、醫(yī)療等特定領(lǐng)域,用于復(fù)雜的應(yīng)用分析或輔助決策,具有專家參與度高、知識結(jié)構(gòu)復(fù)雜、知識質(zhì)量要求高、知識粒度細(xì)等特點。

        例如“星河”知識圖譜[9],作為一個軍事知識圖譜,具有暗網(wǎng)數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)、傳統(tǒng)數(shù)據(jù)庫、軍事書籍等多種數(shù)據(jù)來源。“星河”知識圖譜按軍事事件類型和實體類型進(jìn)行劃分,包括88個國家和6大作戰(zhàn)空間的武器裝備,共10萬余裝備實體數(shù)據(jù)、330個軍事本體類別。

        分別稱取的空白樣品20.00 g,添加適量的樹莓酮標(biāo)準(zhǔn)溶液,使其濃度為1.0、2.0和10.0 μg/kg,每個濃度進(jìn)行6樣本分析,結(jié)果見表2。本方法的回收率為75.4%~82.3%,相對標(biāo)準(zhǔn)偏差為5.97%~8.40%。

        其余典型的領(lǐng)域知識圖譜還包括IBM Watson Health醫(yī)療知識圖譜[10]、海致星圖金融知識圖譜[11]、海信“交管云腦”交通知識圖譜[12]等。

        1.3 知識圖譜架構(gòu)

        知識圖譜在邏輯架構(gòu)層面可分為模式層和數(shù)據(jù)層,如表1所示。

        表1 知識圖譜邏輯結(jié)構(gòu)Tab.1 Logical structureof knowledgegraph

        1.3.1 知識圖譜模式層

        應(yīng)力控制下的肢體創(chuàng)傷修復(fù)、畸形矯正與再生重建,是21世紀(jì)骨科學(xué)發(fā)展的大趨勢,中國在這個新興學(xué)科領(lǐng)域已經(jīng)由跟跑者成為領(lǐng)跑者之一。秦泗河教授牽頭申辦成功“第六屆世界外固定肢體延長與重建大會”主辦權(quán)(2023-北京),屆時將有上百個國家的代表匯集北京共鑲盛會。為在這個學(xué)科領(lǐng)域培育國際化青年俊才,推動中國四肢矯形骨科在世界上的地位,秦泗河教授決定,在全國范圍招收青年骨科進(jìn)修醫(yī)生。

        1.3.2 知識圖譜數(shù)據(jù)層

        數(shù)據(jù)層是以事實(Fact)三元組等知識為單位,存儲具體的數(shù)據(jù)信息。知識圖譜一般以三元組G={E,R,F(xiàn)}的形式表示。其中,E表示實體集合{e1,e2,…,eE},實體e是知識圖譜中最基本的組成元素,指代客觀存在并且能夠相互區(qū)分的事物,可以是具體的人、事、物,也可以是抽象的概念。R表示關(guān)系集合{r1,r2,…,rR},關(guān)系r是知識圖譜中的邊,表示不同實體間的某種聯(lián)系。F表示事實集合{f1,f2,…,fF},每一個事實f又被定義為一個三元組(h,r,t)∈f。其中,h表示頭實體,r表示關(guān)系,t表示尾實體。例如,事實的基本類型可以用三元組表示為(實體,關(guān)系,實體)和(實體,屬性,屬性值)等。

        其中,早期的NER方法一般是基于規(guī)則的方法和基于統(tǒng)計模型的方法。

        (實體,關(guān)系,實體)三元組可以表示為有向圖結(jié)構(gòu),以單向箭頭表示非對稱關(guān)系,以雙向箭頭表示對稱關(guān)系。具體示例如圖2所示,實體“Arthur”與實體“Carl”間存在“ColleagueOf(同事)”對稱關(guān)系;實體“Carl”與實體“Barry”存在“HasChild(父子)”非對稱關(guān)系。

        本研究中顯示:血脂異常、吸煙和冠心病家族史均為年輕心肌梗塞的主要危險因素,這表明年輕心肌梗塞患者的危險因素不同于中老年人,如果有冠心病家族史,通過調(diào)整正常的作息方式和良好的飲食習(xí)慣來控制血脂異常,有吸煙史的立即戒煙,會在一定程度上預(yù)防對心肌梗塞的發(fā)生。

        圖2 三元組示例1 Fig.2 Tripleexample1

        (實體,屬性,屬性值)三元組可以表示為有向圖結(jié)構(gòu),單向箭頭表示實體的屬性,由實體指向?qū)傩灾?。具體示例如圖3所示,實體“Barry”的屬性有“DateOfBirth(出生日期)”等。其中,“DateOfBirth”屬性值為“2012.12.31”。

        總體而言,知識圖譜可以看作是事實的結(jié)構(gòu)化表征,包括事實的實體、關(guān)系、屬性以及語義描述。

        2 知識表示與存儲

        知識表示與存儲是知識圖譜構(gòu)建、管理和應(yīng)用的基礎(chǔ)?,F(xiàn)代知識圖譜基于海量的互聯(lián)網(wǎng)數(shù)據(jù),規(guī)模日益增長,對知識的高效表示和有效存儲提出了新的挑戰(zhàn)。本章將分析介紹現(xiàn)有的知識表示方法與存儲方式。

        2.1 知識表示

        知識圖譜中,知識表示是一種對知識的描述方式,利用信息技術(shù)將真實世界中的海量信息轉(zhuǎn)化為符合計算機處理模式的結(jié)構(gòu)化數(shù)據(jù)。

        如表2所示,早期的知識表示方法有一階邏輯(First-Order Logic,F(xiàn)OL)[13]、霍恩邏輯(Horn Logic,HL)[14]、語義網(wǎng)絡(luò)(SN)[15]、產(chǎn)生式規(guī)則(Production Rules,PR)[16]、框架系統(tǒng)(Frame Systems,F(xiàn)S)[17]、腳本理論(Script Theory,ST)[18]等。隨著互聯(lián)網(wǎng)絡(luò)的發(fā)展和語義網(wǎng)SW的提出,需要用于面向語義網(wǎng)知識表示的標(biāo)準(zhǔn)語言。因此,萬維網(wǎng)聯(lián)盟(W 3C)提出了XML(eXtensible Markup Language)[19]、RDF[20]、RDFS(RDF Schema)[21]和OWL(Web Ontology Language)[22]描述語言。

        模式層在數(shù)據(jù)層之上,是知識圖譜的核心。主要內(nèi)容為知識的數(shù)據(jù)結(jié)構(gòu),包括實體(Entity)、關(guān)系(Relation)、屬性(Attribute)等知識類的層次結(jié)構(gòu)和層級關(guān)系定義,約束數(shù)據(jù)層的具體知識形式。在復(fù)雜的知識圖譜中,一般通過額外添加規(guī)則或公理表示更復(fù)雜的知識約束關(guān)系。

        通過支架合理工作阻力及支架結(jié)構(gòu)優(yōu)化,最終確定6上109待采工作面換用當(dāng)時國內(nèi)外首套最大工作阻力的ZF21000/25/45D 四柱放頂煤支架。

        表2 早期知識表示方法對比Tab.2 Comparison of early knowledge representation methods

        2012年,Google提出知識圖譜概念[2]。不同于傳統(tǒng)專家系統(tǒng)和知識工程主要依靠手工獲取知識的方式,知識圖譜作為新時代的知識工程技術(shù),以RDF三元組和屬性圖表示知識,數(shù)據(jù)規(guī)模巨大,需要使用機器學(xué)習(xí)(Machine Learning,ML)、自然語言處理(Natural Language Processing,NLP)等技術(shù)進(jìn)行自動化的圖譜構(gòu)建。

        RDF提供一個統(tǒng)一的標(biāo)準(zhǔn)以“主體(Subject)-謂詞(Predicate)-賓語(Object)”的SPO三元組來描述實體和資源。RDF可以表示為有向圖結(jié)構(gòu),其中謂詞作為邊,可以是連接主體和賓語的關(guān)系或是連接主體和數(shù)據(jù)的屬性等;但RDF中缺乏對類和屬性的明確定義,抽象能力不足。

        RDFS可以看作RDF的拓展,在RDF的基礎(chǔ)上,對RDF中的類、屬性及關(guān)系提供了模式定義,為RDF提供了數(shù)據(jù)模型和簡單的約束規(guī)則;但RDFS只能聲明子類關(guān)系,無法對互斥類、多個類或?qū)嵗M(jìn)行聲明。

        以某企業(yè)實際立體倉庫為研究對象,運用MATLAB編程并仿真,驗證同軌雙車貨位分配模型的適用性及EMBBO算法的優(yōu)越性。

        OWL則是在RDFS的基礎(chǔ)上,針對復(fù)雜場景,添加了額外的預(yù)定義詞匯來描述資源,如可以聲明數(shù)據(jù)的等價性、屬性的傳遞性、互斥性、函數(shù)性、對稱性等。

        然而,這些傳統(tǒng)的知識表示方法都是基于符號邏輯,能夠刻畫顯式、離散的知識,卻不能表示真實世界中大量不易于用符號邏輯解釋的知識,難以有效挖掘分析知識實體間的語義關(guān)系。

        參照《中藥新藥臨床研究指導(dǎo)原則》“中藥新藥治療慢性腎功能衰竭臨床研究指導(dǎo)原則”中的腎虛證及濕熱證兩種證候的診斷標(biāo)準(zhǔn)[9],擬定腎虛濕熱證的標(biāo)準(zhǔn)。主癥:腰酸膝軟,口中粘膩,肢體困重,納差,口干,口苦;次癥:乏力,脘腹脹滿不適,骨痛,惡心,嘔吐;舌苔脈象:舌質(zhì)紅苔黃膩或黃厚,脈濡數(shù);診斷條件:主癥必備,次癥或兼,結(jié)合舌脈。

        2.2 知識存儲

        隨著信息時代數(shù)據(jù)量的爆炸式增長,知識圖譜的規(guī)模日益增大,對知識的管理和存儲提出了更高的要求。

        知識存儲的目的是確定合理高效的知識圖譜存儲方式?,F(xiàn)有研究中,大部分知識圖譜都是基于圖的數(shù)據(jù)結(jié)構(gòu),如表3所示,主要的存儲方式有三種:RDF數(shù)據(jù)庫、傳統(tǒng)關(guān)系型數(shù)據(jù)庫(Relational Database,RDB)存 儲 和 圖 數(shù) 據(jù) 庫(Graph Database,GDB)存儲。

        4.平茬。如果所培育的大苗干形成不合要求,長勢不旺,或地上部分遭到嚴(yán)重?fù)p傷,可在春季發(fā)芽前,齊地面進(jìn)行平茬,以使重新長出端直強壯的主干。平茬時要求切口光滑,有利于傷口愈合和萌生枝條。平茬后覆蓋3—5厘米的土,以防止水分蒸發(fā)和傷口干燥,當(dāng)萌條長出后,要及時定干。

        表3 知識存儲方式對比Tab.3 Comparison of knowledge storage methods

        2.2.1 RDF數(shù)據(jù)庫

        RDF數(shù)據(jù)庫存儲就是將組成RDF數(shù)據(jù)集的三元組抽象為圖的形式存儲數(shù)據(jù)。其優(yōu)點是圖結(jié)構(gòu)描述直觀,可以最大限度保持RDF數(shù)據(jù)的語義信息,易于數(shù)據(jù)的共享和發(fā)布;但是RDF不包含實體的屬性信息、所需存儲空間大,沒有圖查詢相應(yīng)引擎,導(dǎo)致查詢和搜索效率低下,且在處理新增數(shù)據(jù)時需要重構(gòu)整個圖。目前學(xué)術(shù)界主要的開源RDF數(shù)據(jù)庫包括:Jena[23]、RDF4J[24]和gStore[25]等。

        2.2.2 關(guān)系型數(shù)據(jù)庫

        RDB發(fā)展歷史久遠(yuǎn),理論體系成熟,是知識圖譜存儲的常用方式。RDB使用三元組、水平表、屬性表、垂直劃分和六重索引等建表方式存儲知識三元組,知識存儲和查詢效率都比較高;但是在進(jìn)行深度的關(guān)聯(lián)關(guān)系查詢或多跳查詢時效率較低,且難以處理實時的關(guān)系查詢。目前主流的開源RDB有PostgreSQL[26]和MySQL[27]等。

        2.2.3 圖數(shù)據(jù)庫

        GDB是一種非關(guān)系型數(shù)據(jù)庫,基于GDB的存儲是目前知識存儲的主流方式。其優(yōu)點是以節(jié)點和邊表示數(shù)據(jù),明確地列出了數(shù)據(jù)節(jié)點間的依賴關(guān)系,具有完善的圖查詢語言且支持各種圖挖掘算法,在深度關(guān)聯(lián)查詢速度上優(yōu)于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫;但由于分布式存儲特性,資源消耗大。典型的GDB有Neo4j[28]、JanusGraph[29]和HugeGraph[30]等。

        3 知識圖譜構(gòu)建技術(shù)

        構(gòu)建大規(guī)模、高質(zhì)量的通用知識圖譜或基于行業(yè)數(shù)據(jù)的領(lǐng)域知識圖譜,實現(xiàn)大量知識的準(zhǔn)確抽取和快速聚合,需要運用多種高效的知識圖譜構(gòu)建技術(shù)。

        如圖4所示,知識圖譜是通過知識抽取(Knowledge Extraction,KE)、知識融合(Knowledge Fusion,KF)、知識加工(Knowledge Processing,KP)和知識更新(Knowledge Update,KU)等構(gòu)建技術(shù),從原始數(shù)據(jù)(包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù))和外部知識庫中抽取知識事實。根據(jù)知識的語義信息進(jìn)行知識的融合、加工,再通過知識更新技術(shù)保障知識圖譜的時效性,最終得到完整的知識圖譜。本章將對這些構(gòu)建技術(shù)及相關(guān)方法進(jìn)行闡述。

        圖4 知識圖譜構(gòu)建技術(shù)流程Fig.4 Flowchart of knowledgegraph construction technique

        3.1 知識抽取

        知識抽取是知識圖譜構(gòu)建的首要任務(wù),通過自動化或半自動化的知識抽取技術(shù),從原始數(shù)據(jù)中獲得實體、關(guān)系及屬性等可用知識單元,為知識圖譜的構(gòu)建提供知識基礎(chǔ)。

        早期知識抽取主要是基于規(guī)則的知識抽取,通過人工預(yù)先定義的知識抽取規(guī)則,實現(xiàn)從文本中抽取知識的三元組信息;但是這種傳統(tǒng)方法主要依賴具備領(lǐng)域知識的專家手工定義規(guī)則,當(dāng)數(shù)據(jù)量增大時,規(guī)則構(gòu)建耗時長、可移植性差,難以應(yīng)對數(shù)據(jù)規(guī)模龐大的知識圖譜構(gòu)建。

        相比早期基于規(guī)則的知識抽取,基于神經(jīng)網(wǎng)絡(luò)的知識抽取將文本作為向量輸入,能夠自動發(fā)現(xiàn)實體、關(guān)系和屬性特征,適用于處理大規(guī)模知識,已成為知識抽取的主流方法。本節(jié)將以關(guān)系抽?。≧elation Extraction,RE)為核心,介紹知識抽取的三類主要任務(wù)。

        由于市場環(huán)境的變化也會導(dǎo)致工程造價預(yù)算的精準(zhǔn)度,所以要加強市場環(huán)境的預(yù)測管理。作為建筑企業(yè)應(yīng)該要求預(yù)算人員做好對市場環(huán)境隨時發(fā)生變化的預(yù)測,加強對各種原材料的價格因市場環(huán)境發(fā)生變化的預(yù)測分析,為建筑工程選擇原材料價格提供依據(jù)。

        3.1.1 實體識別

        不過觀察上證50和白馬股,會發(fā)現(xiàn)二者的關(guān)聯(lián)度還是很高,在道指創(chuàng)出新低之際,上證50也結(jié)束一個季度的盤整開始新一輪探底。我們認(rèn)為這種現(xiàn)象主要與A股國際化有關(guān),2017年納入MSCI后A股與國際主要市場逐步接軌,上證50成為外資重點配置的方向,理論上兩個指數(shù)里面的資金屬性是一樣的。

        實體識別即命名實體識別(Named Entity Recognition,NER),是自然語言處理和知識圖譜領(lǐng)域的基礎(chǔ)任務(wù)。其目的是從海量的原始數(shù)據(jù)(如文本)中準(zhǔn)確提取人物、地點、組織等命名實體信息。實體識別的準(zhǔn)確率影響了后續(xù)的關(guān)系抽取等任務(wù),決定了知識圖譜構(gòu)建的質(zhì)量。

        WordNet是由普林斯頓大學(xué)認(rèn)知科學(xué)實驗室從1985年開始開發(fā)的詞典知識庫,主要用于詞義消歧。WordNet主要定義了名詞、動詞、形容詞和副詞之間的語義關(guān)系。例如名詞之間的上下位關(guān)系中,“Canine”是“Dog”的上位詞。WordNet包含超過15萬個詞和20萬個語義關(guān)系。

        表4 命名實體識別方法對比Tab.4 Comparison of named entity recognition methods

        在事實中,實體一般指特定的對象或事物,如具體的某個國家或某本書籍等;關(guān)系表示實體間的某種外在聯(lián)系,屬性和屬性值表示一個實體或概念特有的參數(shù)名和參數(shù)值。

        基于規(guī)則的方法通過專家手工構(gòu)建規(guī)則集,將文本等數(shù)據(jù)與規(guī)則集匹配來得到命名實體信息。該方法在處理小規(guī)模的知識圖譜時精度較高,但是隨著知識圖譜規(guī)模的增大,規(guī)則構(gòu)建困難,且由于規(guī)則基于人工構(gòu)建,難以進(jìn)行大規(guī)模擴展并應(yīng)用于不同領(lǐng)域的知識圖譜。

        基于統(tǒng)計模型的方法將NER作為序列標(biāo)注問題,以完全或部分標(biāo)注的語料進(jìn)行模型訓(xùn)練。常見的統(tǒng)計模型有條件馬爾可夫模型(Conditional Markov Model,CMM)[31]、隱馬爾可夫(Hidden Markov Model,HMM)[32]、條件隨機場(Conditional Random Fields,CRF)[33]和最大熵(Maximum Entropy,ME)[34]等?;诮y(tǒng)計模型的方法在構(gòu)建一個新的領(lǐng)域知識圖譜時需要做的改動較少,通用性強;但是統(tǒng)計模型的狀態(tài)搜索空間龐大、訓(xùn)練時間長,高度依賴特征選取和語料庫,難以從海量數(shù)據(jù)中發(fā)現(xiàn)復(fù)雜且隱含的關(guān)鍵特征。

        經(jīng)過三個晝夜的苦思冥想,甲洛洛把希望寄托在了自己身上,他決定不惜一切代價,自己去偵查誰是小偷,并根據(jù)以下情況列了排序:

        由于深度學(xué)習(xí)能夠自動地從數(shù)據(jù)中學(xué)習(xí)復(fù)雜的隱藏特征,所需的領(lǐng)域?qū)I(yè)知識和經(jīng)驗知識較少,基于神經(jīng)網(wǎng)絡(luò)的NER已成為目前主流方法,主要模型有卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)和 循 環(huán) 神 經(jīng) 網(wǎng) 絡(luò)(Recurrent Neural Network,RNN)等。

        Collobert等[35]最先提出使用卷積層提取句子的局部特征并構(gòu)造全局特征向量?;谶@項工作,Strubell等[36]提出了IDCNN,相較于傳統(tǒng)的CNN,在大量的文本和結(jié)構(gòu)化數(shù)據(jù)預(yù)測中具有更好的性能。Huang等[37]提出使用長短時記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)、雙 向 長 短 時 記 憶 網(wǎng) 絡(luò)(Bidirectional Long Short-Term Memory,Bi-LSTM)等模型進(jìn)行序列標(biāo)注,能夠有效利用序列的上下文信息。?ukov-Gregori?等[38]則是在先前研究的基礎(chǔ)上,使用多個獨立的Bi-LSTM分布計算進(jìn)行實體識別,減少了參數(shù)總數(shù)。楊飄等[39]針對中文NER普遍存在無法表征字的多義性問題,通過嵌入BERT(Bidirectional Encoder Representation from Transformers)預(yù)訓(xùn)練語言模型,構(gòu)建BERT-BiGRU(Bidirectional Gated Recurrent Unit networks)-CRF模型表征語句的特征,有效提升中文NER效果。

        此外,還有一些基于神經(jīng)網(wǎng)絡(luò)的改進(jìn)模型,如Lin等[40]提出了“實體觸發(fā)器(Entity Trigger,ET)”概念,針對NER問題作出解釋性注釋,通過觸發(fā)器匹配網(wǎng)絡(luò)(Trigger Matching Network,TMN)對ET進(jìn)行編碼,提高實體標(biāo)記的有效性,減少了NER人工注釋的成本。

        3.1.2 關(guān)系抽取

        關(guān)系抽?。≧E)是知識圖譜領(lǐng)域的研究重點,也是知識抽取中的核心內(nèi)容。通過獲取實體之間的某種語義關(guān)系或關(guān)系的類別,自動識別實體對及聯(lián)系這一對實體的關(guān)系所構(gòu)成的三元組[41]。

        近年來,RE研究大多是基于神經(jīng)網(wǎng)絡(luò)方法,主要包括基于CNN、基于RNN、基于注意力機制(ATTention mechanism,ATT)、基于圖卷積網(wǎng)絡(luò)(Graph Convolutional Network,GCN)、基于對抗訓(xùn)練(Adversarial Training,AT)、基于強化學(xué)習(xí)(Reinforcement Learning,RL)的RE以及實體-關(guān)系聯(lián)合抽?。↗oint Entity and Relation Extraction,JERE)。

        1)基于卷積神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取。

        近年來,基于深度學(xué)習(xí)的知識表示學(xué)習(xí)(Knowledge Representation Learning,KRL)在語音識別、圖像分析和自然語言處理領(lǐng)域得到廣泛關(guān)注。知識表示學(xué)習(xí)面向知識庫實體和關(guān)系,通過將研究對象(如三元組)中的語義信息投影到稠密的低維向量空間,實現(xiàn)對實體和關(guān)系語義信息的分布式表示,能夠高效地計算實體、關(guān)系間的復(fù)雜語義關(guān)系,易于深度學(xué)習(xí)模型的集成。

        CNN通過將嵌入表示和文本信息等數(shù)據(jù)組織為類似圖像的二維結(jié)構(gòu),使用卷積核提取特征信息并用于關(guān)系抽取。

        賢莊村片區(qū)水力主要是確定水泵型號后,管道輸水能力的復(fù)核。選定水泵設(shè)計流量為192 m3/h。流量調(diào)整后管線的水頭損失為14.2 m,管道地形沿程為55 m,考慮出水口剩余水頭為2.0 m,確定調(diào)整流量后輸水系統(tǒng)輸水損失為71.2 m,小于水泵額定揚程73 m。

        針對基于統(tǒng)計機器學(xué)習(xí)的關(guān)系抽取方法過度依賴提取的特征質(zhì)量問題,Zeng等[42]首次提出使用CNN提取單詞和句子級特征,形成特征向量預(yù)測關(guān)系分類。之后,Nguyen等[43]提出多窗口CNN研究語料庫不平衡情況下的關(guān)系抽取。PATMR[44]使用分段CNN(Piecewise CNN,PCNN)對每個句子編碼,挖掘未標(biāo)記語料庫的相互關(guān)系,結(jié)合實體類型與隱式關(guān)系進(jìn)行關(guān)系抽取。

        CNN方法為基于深度學(xué)習(xí)的關(guān)系抽取提供了思路,后續(xù)很多基于神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取方法都利用CNN提取單詞和句子的特征。

        2)基于循環(huán)神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取。

        RNN可以很好地利用內(nèi)部的記憶機制處理時序相關(guān)信息,適用于處理和表示短語及句子的組合向量。

        Socher等[45]首次提出基于RNN的語義合成模型MVRNN,學(xué)習(xí)任意長度的組合向量表示并用于名詞間因果或主題信息等語義關(guān)系分類。此外,SDP-LSTM(Shortest Dependency Path with LSTM)[46]利用實體間的最短依賴路徑保留最相關(guān)信息,并使用多通道RNN對句子中的實體關(guān)系分類。Geng等[47]使用雙向樹形LSTM提取基于句子依存關(guān)系樹的結(jié)構(gòu)特征,并使用雙向順序LSTM提取基于單詞的特征,將結(jié)構(gòu)特征與基于單詞的特征結(jié)合以優(yōu)化關(guān)系抽取性能。

        3)基于注意力機制的關(guān)系抽取。

        ATT能夠基于權(quán)重篩選上下文相關(guān)性強的信息,提高關(guān)系抽取的質(zhì)量。目前已有多種根據(jù)不同的ATT進(jìn)行關(guān)系抽取的方法。

        Attention-CNN[48]考慮文本中不同信息與實體的相關(guān)性,利用詞嵌入信息,將文本段編碼為語義信息,通過單詞級ATT確定句子中的哪些部分對實體影響最大。Lin等[49]針對關(guān)系抽取中摻雜錯誤標(biāo)簽,導(dǎo)致抽取性能低下的問題,提出基于句子級ATT的關(guān)系抽取模型,通過CNN嵌入句子的語義信息,在多個實例上建立句子級ATT,減少噪聲的權(quán)重。針對如何有效選擇實 體,APCNNs(sentence-level Attention model based on PCNNs)[50]提出利用知識庫中的信息,基于句子級ATT,補充實體背景知識。此外,SeG(Selective Gate)[51]使用自注意力機制(Self-ATTention mechanism,SATT)獲取上下文的依存關(guān)系,與選擇性ATT相比,該方法即使在只有一個句子時也能穩(wěn)定抽取關(guān)系。

        4)基于圖卷積網(wǎng)絡(luò)的關(guān)系抽取。

        GCN可以捕捉圖的全局信息,具有很好的節(jié)點表示能力。基于GCN的關(guān)系抽取針對文本依存樹中各詞語的依存關(guān)系編碼,將關(guān)系知識編碼信息引入關(guān)系抽取,挖掘句子中更深層的語義信息。

        C-GCN(Contextualized GCN)[52]針對現(xiàn)有依存樹模型在不同結(jié)構(gòu)樹下計算效率低、剪枝導(dǎo)致忽視信息等問題,提出基于GCN和修剪依存樹的關(guān)系抽取方法。AGGCNs(Attention Guided GCNs)[53]針對如何有效選取依存樹中的相關(guān)信息問題,改進(jìn)現(xiàn)有的硬剪枝策略,將ATT和GCN結(jié)合,使用軟剪枝方法自動選擇依存樹中的相關(guān)子結(jié)構(gòu)。SGCN(Selfdetermined GCN)[54]使用SATT確定加權(quán)圖,并使用GCN對自定義圖進(jìn)行編碼來完成關(guān)系抽取。

        5)基于對抗訓(xùn)練的關(guān)系抽取。

        基于神經(jīng)網(wǎng)絡(luò)的模型通常忽略了輸入數(shù)據(jù)中的噪聲,導(dǎo)致模型效果不佳。將對抗訓(xùn)練AT引入關(guān)系抽取,對訓(xùn)練數(shù)據(jù)產(chǎn)生對抗噪聲來優(yōu)化分類算法,能夠有效提升模型魯棒性。

        Wu等[55]首次提出在關(guān)系抽取中應(yīng)用AT策略,Wang等[56]在此基礎(chǔ)上,提出了AMNRE(Adversarial Multi-lingual Neural Relation Extraction),以AT策略保證對多種語言的句子表征,提取出語義一致的關(guān)系。馮沖等[57]使用生成式對抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN),將帶ATT的BiGRU與AT相融合,并引入因果關(guān)系解釋語句提高因果關(guān)系抽取效果。DSGAN(Distant Supervision GAN)[58]引入AT框架提升關(guān)系抽取性能。

        6)基于強化學(xué)習(xí)的關(guān)系抽取。

        強化學(xué)習(xí)(RL)是一類學(xué)習(xí)、預(yù)測和決策的方法框架,通過訓(xùn)練策略網(wǎng)絡(luò)選擇最優(yōu)實例,結(jié)合神經(jīng)網(wǎng)絡(luò)進(jìn)行關(guān)系抽取。

        Qin等[59]提出了使用深度強化學(xué)習(xí)(Deep Reinforcement Learning,DRL)策略產(chǎn)生假陽性指標(biāo),在沒有監(jiān)督信息的情況下自動識別假陽性的關(guān)系類型。Takanobu等[60]針對現(xiàn)有大部分方法將實體識別和關(guān)系抽取分開,關(guān)系抽取可能存在重疊關(guān)系,提出HRL(Hierarchical RL),將實體識別和關(guān)系抽取分為兩級RL策略,提升了處理重疊關(guān)系時的性能。JRE_TRL(Joint entity and Relation Extraction model with Transformer and RL agent)[61]通過強化學(xué)習(xí)策略和獎勵機制過濾噪聲句子并進(jìn)行關(guān)系分類。

        7)實體-關(guān)系聯(lián)合抽取。

        實體-關(guān)系聯(lián)合抽取旨在針對實體識別和關(guān)系抽取作為兩個串聯(lián)子任務(wù)時存在的錯誤傳播問題,對實體和關(guān)系進(jìn)行聯(lián)合建模。能夠考慮到實體與關(guān)系間的語義相關(guān)性,有效解決關(guān)系重疊問題,減少誤差累積,提高知識抽取的整體效果。

        最早的實體-關(guān)系聯(lián)合抽取方法是Miwa等[62]提出的堆疊雙向樹型LSTM-RNNs模型,在考慮實體信息的情況下進(jìn)行關(guān)系抽取。本質(zhì)上,該方法的實體識別和關(guān)系抽取仍然是分離的,無關(guān)的實體輸入還導(dǎo)致了信息的冗余。對此,Zheng等[63]使用標(biāo)注機制,將聯(lián)合抽取轉(zhuǎn)換為標(biāo)注任務(wù),通過計算偏重?fù)p失提升實體標(biāo)簽間的相關(guān)性,實現(xiàn)聯(lián)合抽取。

        進(jìn)一步地,考慮實體標(biāo)簽間的長距離依賴關(guān)系,Zheng等[64]提出了一種混合模型,包括用于實體抽取的雙向編碼器-解碼器LSTM模型和用于關(guān)系分類的CNN模型,獲得單詞間的長距離交互關(guān)系和標(biāo)簽間的長距離依賴關(guān)系。陳仁杰等[65]提出FETI(Fusing Entity Type Information)模型,融合頭尾實體的類別信息,提升聯(lián)合抽取性能。

        此外,還有一些方法以元組形式進(jìn)行實體-關(guān)系聯(lián)合抽取。例如,Nayak等[66]使用編碼器-解碼器模型,通過關(guān)系元組表示方法聯(lián)合抽取實體和關(guān)系。

        綜上,基于神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取方法對比如表5所示。

        表5 基于神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取方法對比Tab.5 Comparison of relation extraction methodsbased on neural network

        3.1.3 屬性抽取

        屬性抽取是知識庫構(gòu)建和應(yīng)用的基礎(chǔ),通過從不同信息源的原始數(shù)據(jù)中抽取實體的屬性名和屬性值,構(gòu)建實體的屬性列表,形成完整的實體概念,實現(xiàn)知識圖譜對實體的全面刻畫。

        屬性抽取方法一般可分為傳統(tǒng)的監(jiān)督、無監(jiān)督和半監(jiān)督屬性抽取,基于神經(jīng)網(wǎng)絡(luò)的屬性抽取和其他類型(如元模式、多模態(tài)等)的屬性抽取。

        目前大部分屬性抽取是從文本數(shù)據(jù)中抽取信息。傳統(tǒng)方法中監(jiān)督學(xué)習(xí)的屬性抽取一般使用HMM和CRF等抽取屬性。Raju等[67]使用名詞聚類方式,從名詞類中抽取屬性。Shinzato等[68]則提出一種無監(jiān)督的屬性抽取方式,自動對語料庫質(zhì)量進(jìn)行注釋,生成知識庫。

        基于神經(jīng)網(wǎng)絡(luò)的屬性抽取一般作為序列標(biāo)注任務(wù),使用序列標(biāo)注模型抽取文本中的屬性值。如Zhao等[69]基于BERT預(yù)訓(xùn)練模型,使用LSTM結(jié)合CRF的序列標(biāo)簽?zāi)P统槿∥谋局械膶傩浴?/p>

        基于元模式的屬性抽取如Jiang等[70]提出的MetaPAD,將類型化的文本模式結(jié)構(gòu)命名為元結(jié)構(gòu),可以在海量語料庫中發(fā)現(xiàn)元模式。在屬性抽取的場景中,能使用這種方法發(fā)現(xiàn)文本中高質(zhì)量的屬性描述語句,作為實體的屬性值。

        此外,Logan等[71]針對屬性抽取大部分是基于文本數(shù)據(jù)的現(xiàn)狀,提出了多模態(tài)屬性抽?。∕ultimodal Attribute Extraction,MAE)方法及數(shù)據(jù)集,實現(xiàn)對多種類型數(shù)據(jù)(如圖像、視頻、音頻等)的屬性抽取。

        3.2 知識融合

        知識融合是融合各個層面的知識,包括融合不同知識庫的同一實體、多個不同的知識圖譜、多源異構(gòu)的外部知識等,并確定知識圖譜中的等價實例、等價類及等價屬性,實現(xiàn)對現(xiàn)有知識圖譜的更新。如表6所示,知識融合的主要任務(wù)包含實 體 對 齊(Entity Alignment,EA)和 實 體 消 歧(Entity Disambiguation,ED)。

        表6 知識融合主要任務(wù)Tab.6 Main tasksof knowledge fusion

        3.2.1 實體對齊

        實體對齊是知識融合階段的主要工作,旨在發(fā)現(xiàn)不同知識圖譜中表示相同語義的實體。一般而言,實體對齊方法可分為傳統(tǒng)概率模型、機器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)等類別。

        傳統(tǒng)概率模型基于屬性相似性關(guān)系,將實體對齊看作概率分類模型,根據(jù)相似度評分選擇對齊實體。常用的模型有CRF、馬爾可夫邏輯網(wǎng)絡(luò)(Markov Logic Network,MLN)和隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)等。

        基于機器學(xué)習(xí)的實體對齊將實體對齊問題看作二分類問題,可分為監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。在監(jiān)督學(xué)習(xí)實體對齊中,使用預(yù)先人工標(biāo)注部分來訓(xùn)練模型,對未標(biāo)注數(shù)據(jù)進(jìn)行分類。如決策樹(Decision Tree,DT)、支持向量機(Support Vector Machine,SVM)等方法通過比較特征向量進(jìn)行實體對齊,或考慮實體的相似度,使相似實體聚類對齊,如Cohen等[72]提出的自適應(yīng)實體對齊和聚類技術(shù)。

        在神經(jīng)網(wǎng)絡(luò)方法中,基于嵌入的實體對齊將不同的知識圖譜表示為低維嵌入,并通過計算實體嵌入間的相似度來進(jìn)行實體對齊,是目前實體對齊方法的研究重點。

        Sun等[73]將實體對齊看作分類問題,提出基于嵌入的實體對齊Bootstrapping方法,將可能的實體對齊標(biāo)記并迭代添加到訓(xùn)練數(shù)據(jù)中,保證對齊的精度。Zhang等[74]針對實體對齊中實體特征沒有被發(fā)現(xiàn)或沒有被統(tǒng)一處理的問題,提出通過統(tǒng)一多個實體視圖來學(xué)習(xí)實體對齊嵌入的框架,并通過組合策略提升跨圖譜間實體對齊的性能。

        此外,Trisedya等[75]則是從學(xué)習(xí)不同圖譜中的實體間相似性出發(fā),提出兩個知識圖譜間的實體對齊框架,將實體嵌入和屬性嵌入結(jié)合,學(xué)習(xí)兩個圖譜的統(tǒng)一嵌入空間,提升實體對齊性能。車超等[76]提出基于屬性信息和雙向?qū)R的圖卷積模型(Bidirectional alignment Graph Convolutional Network with Attribution information,BiGCN-A),在實體對齊中融入屬性信息,并在對齊預(yù)測階段使用雙向?qū)R提高準(zhǔn)確率。

        3.2.2 實體消歧

        實體消歧是根據(jù)給定文本,消除不同文本中實體指稱的歧義(即一詞多義問題),將其映射到實際的實體上。

        根據(jù)有無目標(biāo)知識庫劃分,實體消歧主要有命名實體聚類消歧和命名實體鏈接消歧等方法。命名實體聚類消歧將所有的實體指稱與實際的目標(biāo)實體進(jìn)行聚類。命名實體鏈接消歧則是根據(jù)文本的上下文信息,將文本中的實體指稱鏈接到候選的實際目標(biāo)實體列表中。

        近年來,詞嵌入(Word Embedding,WE)在自然語言處理領(lǐng)域應(yīng)用廣泛,可以利用分布式低維向量中的語義特征消除文本中實體指稱的歧義。如Zuheros等[77]使用LSTM對目標(biāo)實體的上下文信息編碼,無需使用知識庫等外部資源。Ganea等[78]針對文檔級實體消歧,提出了一種結(jié)合實體嵌入和局部上下文注意力機制(Local Context ATTention mechanism,LCATT)的深度學(xué)習(xí)框架,提升消歧效率。

        此外,針對傳統(tǒng)實體消歧方法難以處理上下文信息有限或相似度較高的短文本的問題,Zhu等[79]提出了一種基于語義和上下文相似度的命名實體消歧方法,通過計算各個單詞間的語義相似度提高實體消歧的性能。張晟旗等[80]通過拼接消歧文本和實體知識描述文本,將短文本轉(zhuǎn)換為長文本,并使用局部注意力機制(Local ATTention,LATT)增強實體鄰近上下文的語義信息。

        3.3 知識加工

        知識加工是在知識抽取、知識融合的基礎(chǔ)上,對基本的事實進(jìn)行處理,形成結(jié)構(gòu)化的知識體系和高質(zhì)量的知識,實現(xiàn)對知識的統(tǒng)一管理。知識加工的具體步驟包括本體構(gòu)建(Ontology Construction,QC)、知識推理(Knowledge Reasoning,KR)和質(zhì)量評估(Quality Evaluation,QE),如表7所示。

        表7 知識加工主要任務(wù)Tab.7 Main tasks of knowledge processing

        3.3.1 本體構(gòu)建

        本體構(gòu)建是指在模式層構(gòu)建知識的概念模板,規(guī)范化描述指定領(lǐng)域內(nèi)的概念及概念之間的關(guān)系,其過程又包括概念提取和概念間關(guān)系提取兩部分。根據(jù)構(gòu)建過程的自動化程度不同,可將常用的本體構(gòu)建方法分為手工構(gòu)建、半自動構(gòu)建以及自動構(gòu)建,如表8所示。

        表8 本體構(gòu)建方法對比Tab.8 Comparison of ontology construction methods

        1)手工構(gòu)建。

        手工構(gòu)建是指領(lǐng)域?qū)<彝ㄟ^手工編輯的方式構(gòu)建本體,使用該方法能夠獲得高質(zhì)量的本體。目前,手動構(gòu)建本體的研究集中于開發(fā)一系列可視化的建模工具。典型的可視化手工本體構(gòu)建工具包括:OilEd[81]、WebODE[82]、OntoEdit[83]和Protege[84]等。

        手工構(gòu)建本體雖然能夠嚴(yán)格控制內(nèi)容,但需要人工編輯大量的數(shù)據(jù),構(gòu)建成本高、效率低、擴展性差。

        2)半自動構(gòu)建。

        半自動構(gòu)建是指通過人工參與機器輔助的方式完成本體構(gòu)建,相比傳統(tǒng)的手工構(gòu)建方法,該方法能夠更快速、更全面地構(gòu)建本體。例如,用戶可以通過Jena[85]提供的開源編程環(huán)境,構(gòu)建知識概念及概念間關(guān)系,實現(xiàn)本體的半自動構(gòu)建。

        半自動構(gòu)建雖然在一定程度上提升了本體構(gòu)建的效率,但依賴人工提取概念和關(guān)系,難以完成大規(guī)模的本體構(gòu)建。

        3)自動構(gòu)建。

        自動構(gòu)建是指利用機器自動地從各種數(shù)據(jù)源中提取概念及概念間關(guān)系,以實現(xiàn)本體的構(gòu)建。該方法快捷高效,并且能夠處理隱含知識,已經(jīng)成為目前本體構(gòu)建的重要研究方向。例如,MindNet[86]使用了自動化的方式完成本體構(gòu)建。

        然而,本體自動構(gòu)建的研究仍處于起步階段,尚無法完全替代人工構(gòu)建,仍待進(jìn)一步研究。

        3.3.2 知識推理

        知識推理是針對知識圖譜中已有事實或關(guān)系的不完備性,挖掘或推斷出未知或隱含的語義關(guān)系。一般而言,知識推理的對象可以為實體、關(guān)系和知識圖譜的結(jié)構(gòu)等。

        如表9所示,知識推理主要有邏輯規(guī)則、嵌入表示和神經(jīng)網(wǎng)絡(luò)三類方法,后續(xù)章節(jié)將對這些方法進(jìn)行詳細(xì)的闡述。

        表9 知識推理方法對比Tab.9 Comparison of knowledge reasoningmethods

        3.3.3 質(zhì)量評估

        知識圖譜質(zhì)量評估通常在知識抽取或融合階段進(jìn)行,對知識的置信度進(jìn)行評估,保留置信度高的知識,有效保障知識圖譜質(zhì)量。質(zhì)量評估的研究目的通常為提高知識樣本的質(zhì)量,提升知識抽取的效果,增強模型的有效性。

        例如,Zeng等[87]基于RL框架,通過比較深度模型的關(guān)系抽取結(jié)果和答案生成長期獎勵,從而引導(dǎo)關(guān)系抽取的訓(xùn)練過程。Feng等[88]提出基于噪聲數(shù)據(jù)的句子級關(guān)系分類模型,借助強化學(xué)習(xí)思路建立實例選擇器,選擇高質(zhì)量的句子樣本,然后基于關(guān)系分類器的正確率設(shè)計獎勵函數(shù),再反饋回實例選擇器,促進(jìn)其選出更高質(zhì)量的樣本,實現(xiàn)了樣本選擇與關(guān)系分類的聯(lián)合優(yōu)化。

        除了設(shè)置獎勵和剔除低質(zhì)量句子,為提高樣本利用率,低質(zhì)量或者錯誤的數(shù)據(jù)樣本也可以作為訓(xùn)練集中的負(fù)樣本進(jìn)行數(shù)據(jù)增強。如Qin等[59]利用DRL技術(shù),完成標(biāo)簽質(zhì)量的自動檢測。不同于直接丟棄識別的錯誤標(biāo)簽樣本,該模型將假陽性句子以負(fù)樣本形式加入到數(shù)據(jù)集中,在提高數(shù)據(jù)質(zhì)量的同時實現(xiàn)了數(shù)據(jù)增強,從而顯著改善關(guān)系抽取效果。

        3.4 知識更新

        知識更新是隨著時間的推移或新知識的增加,不斷迭代更新知識圖譜的內(nèi)容,保障知識的時效性。

        知識更新有模式層更新和數(shù)據(jù)層更新兩種層次,包括全面更新和增量更新兩種方式,如表10所示。

        表10 知識更新內(nèi)容Tab.10 Content of knowledgeupdate

        3.4.1 知識更新層次

        1)模式層更新。

        當(dāng)新增的知識中包含了概念、實體、關(guān)系、屬性及其類型變化時,需要在模式層中更新知識圖譜的數(shù)據(jù)結(jié)構(gòu),包括對實體、概念、關(guān)系、屬性及其類型的增、刪、改操作。一般而言,模式層更新需要人工定義規(guī)則表示復(fù)雜的約束關(guān)系。

        2)數(shù)據(jù)層更新。

        數(shù)據(jù)層更新主要是指新增實體或更新現(xiàn)有實體的關(guān)系、屬性值等信息,更新對象為具體的知識(如三元組),更新操作一般通過知識圖譜構(gòu)建技術(shù)自動化完成。在進(jìn)行更新前,需要經(jīng)過知識融合、知識加工等步驟,保證數(shù)據(jù)的可靠性和有效性。

        3.4.2 知識更新方式

        1)全面更新。

        全面更新指將更新知識與原有的全部知識作為輸入數(shù)據(jù),重新構(gòu)建知識圖譜。全面更新方法操作簡單,但消耗資源多。

        2)增量更新。

        增量更新只以新增的知識作為輸入數(shù)據(jù),在已有的知識圖譜基礎(chǔ)上增加知識,消耗的資源較少,但是技術(shù)實現(xiàn)較為困難,且需要大量的人工定義規(guī)則。

        4 知識推理

        知識推理在整個知識圖譜理論與技術(shù)框架中占據(jù)著十分重要的地位,是知識圖譜研究的一大重點和難點,在實際工程中也有非常廣泛的應(yīng)用場景。因此,本章將詳細(xì)介紹基于邏輯規(guī)則、基于嵌入表示和基于神經(jīng)網(wǎng)絡(luò)的知識推理方法。

        4.1 基于邏輯規(guī)則的知識圖譜推理

        基于邏輯規(guī)則的推理是指通過在知識圖譜上運用簡單規(guī)則及特征,推理得到新的事實,該方法能夠很好地利用知識的符號性,精確性高且能為推理結(jié)果提供顯式的解釋。

        根據(jù)推理過程中所關(guān)注的特征不同,又可將基于邏輯規(guī)則的知識圖譜推理方法分為基于邏輯的推理、基于統(tǒng)計的推理以及基于圖結(jié)構(gòu)的推理。

        4.1.1 基于邏輯的推理

        基于邏輯的推理是指直接使用一階謂詞邏輯FOL、描述邏輯(Description Logic)等方式對專家制定的規(guī)則進(jìn)行表示及推理,這類方法具有精確性高、可解釋性強的特點。根據(jù)規(guī)則依托的表示方式不同,基于邏輯的推理方法又可分為基于一階謂詞邏輯的推理和基于描述邏輯的推理。

        1)基于一階謂詞邏輯的推理。

        基于一階謂詞邏輯的推理是指使用一階謂詞邏輯對專家預(yù)先定義好的規(guī)則進(jìn)行表示,然后以命題(Propositions)為基本單位進(jìn)行推理,該方法使用接近人類自然語言的方式對知識進(jìn)行表示和推理,精確性高且可解釋。

        其中,命題包含個體和謂詞,個體對應(yīng)知識圖譜中的實體,謂詞對應(yīng)知識圖譜中的關(guān)系。如圖5所示,已知三元組(Bruce,HasChild,Carl)和(Bruce,IsCitizenOf,New York),則 有如下的一階謂詞邏輯推理規(guī)則:

        圖5 基于邏輯規(guī)則的推理實例Fig.5 Example of knowledge reasoning based on logic rules

        (Bruce,HasChild,Carl)∧(Bruce,IsCitizenOf,New York)?(Carl,IsCitizenOf,New York)

        典型工作是Richardson等[89]提出的馬爾可夫邏輯網(wǎng)絡(luò)(MLN),結(jié)合專家定義的邏輯規(guī)則與概率圖模型構(gòu)建網(wǎng)絡(luò),并在構(gòu)建好的網(wǎng)絡(luò)上執(zhí)行推理。后續(xù),研究者們對MLN進(jìn)行了進(jìn)一步的研究。例如,Pujara等[90]為了在MLN中引入置信值,使用概率軟邏輯來執(zhí)行推理,Ku?elka等[91]在理論上研究了缺少數(shù)據(jù)的情況下從知識圖譜中學(xué)習(xí)MLN權(quán)重的適用性?;谝浑A謂詞邏輯的知識圖譜推理方法簡單、易理解,在小規(guī)模知識圖譜上取得了較好的精度。

        2)基于描述邏輯的推理。

        基于描述邏輯的推理關(guān)鍵在于將知識圖譜中的復(fù)雜實體或關(guān)系推理轉(zhuǎn)換為一致性檢測問題,該方法有效地降低了知識圖譜模型的推理復(fù)雜度,取得了表達(dá)能力和推理復(fù)雜度的平衡。具體而言,使用描述邏輯表示的知識圖譜由術(shù)語集(Terminological Axioms,TBox)和斷言集(Assertional Axioms,ABox)組成[92],TBox包含描述概念和關(guān)系的一系列公理,ABox中則包含TBox中概念的實例,基于描述邏輯的推理方法通過確定一個描述是否滿足邏輯一致性,實現(xiàn)知識圖譜推理。

        典型算法是Halaschek-Wiener等[93]提出的描述邏輯推理算法,該方法通過添加和刪除ABox斷言補全知識圖譜。在此基礎(chǔ)上,許多學(xué)者對基于描述邏輯的知識圖譜推理進(jìn)行了進(jìn)一步研究。例如,Calvanese等[94]提出了基于認(rèn)知的一階查詢語言EQL,用于處理推理過程知識圖譜的信息不完備問題。Li等[95]和Stoilos等[96]通過使用模糊理論擴展了傳統(tǒng)的描述邏輯,使推理具有模糊能力。Kr?tzsch等[97]提出了屬性描述邏輯,豐富了知識圖譜對現(xiàn)實世界的建模能力。胡博等[98]提出了一種基于描述邏輯的上下文知識獲取與推理方法,用于上下文感知。此外,Bienvenu等[99]開發(fā)了一個框架,為描述邏輯推理提供可解釋性。

        4.1.2 基于統(tǒng)計的推理

        基于統(tǒng)計的推理關(guān)鍵在于利用機器學(xué)習(xí)方法,從知識圖譜中自動挖掘出隱含的邏輯規(guī)則,并將這些規(guī)則用于推理。該方法摒棄了專家定義規(guī)則的模式,可利用挖掘的規(guī)則解釋推理結(jié)果?;诮y(tǒng)計的推理方法又分為基于歸納邏輯編程的推理和基于關(guān)聯(lián)規(guī)則挖掘的推理。

        1)基于歸納邏輯編程的推理。

        基于歸納邏輯編程(Inductive Logic Programming,ILP)的推理是指使用機器學(xué)習(xí)和邏輯編程技術(shù),在知識圖譜上自動歸納出抽象的規(guī)則集,以完成推理,該方法摒棄了人工定義規(guī)則的模式,在小規(guī)模的知識圖譜上具有較好的推理能力。

        典型算法是Schoenmackers等[100]提出的一階規(guī)則學(xué)習(xí)算法(First Order Inductive Learner,F(xiàn)OIL),該方法將知識圖譜中關(guān)系的霍恩子句集(Horn Clauses)作為特征,采用窮舉搜索算法,為每個關(guān)系建立判別器,以預(yù)測指定實體間是否存在該關(guān)系。后續(xù)出現(xiàn)了許多關(guān)于FOIL算法的改進(jìn)算法,例如,Landwehr等[101]通過將貝葉斯算法與FOIL算法結(jié)合在一起,擴展了FOIL算法處理不確定知識的能力,隨后,他們又在FOIL算法中引入核方法[102],降低了算法復(fù)雜度。

        2)基于關(guān)聯(lián)規(guī)則挖掘的推理。

        基于關(guān)聯(lián)規(guī)則挖掘的推理關(guān)鍵在于從知識圖譜中自動挖掘出高置信度的規(guī)則,并利用這些規(guī)則在知識圖譜上推理以得到新的知識,相較于傳統(tǒng)的歸納邏輯編程方法,基于關(guān)聯(lián)規(guī)則挖掘的推理可以處理更復(fù)雜、更龐大的知識圖譜,且規(guī)則挖掘的速度更快。

        典型算法是Galárraga等[103]提出的基于不完備知識庫的關(guān)聯(lián)規(guī)則挖掘算法(Association rule Mining under Incomplete Evidence,AMIE)。AMIE算法通過在知識圖譜上挖掘霍恩規(guī)則(Horn Rules),并將這些規(guī)則應(yīng)用于知識圖譜中得到新的事實,以補全知識圖譜并檢測圖譜中的錯誤。在此基礎(chǔ)上,Galárraga等[104]又提出了AMIE+系統(tǒng),以挖掘更大的知識圖譜。Wang等[105]提出了RDF2Rules模型,克服了AMIE和AMIE+系統(tǒng)一次只能挖掘一條規(guī)則的缺點。文獻(xiàn)[106-107]分別針對AMIE規(guī)則質(zhì)量的評估方式和規(guī)則挖掘的速度進(jìn)行了改進(jìn)。此外,李智星等[108]提出了一種基于非結(jié)構(gòu)化文本增強關(guān)聯(lián)規(guī)則的知識圖譜推理方法,從非結(jié)構(gòu)化文本表述中抽象出文本表述模式,然后結(jié)合知識圖譜已有知識構(gòu)建規(guī)則。

        4.1.3 基于圖結(jié)構(gòu)的推理

        基于圖結(jié)構(gòu)的推理是指利用圖譜的結(jié)構(gòu)作為特征完成推理任務(wù)。其中,知識圖譜中最為典型的結(jié)構(gòu)是實體間的路徑特征,對于知識圖譜推理具有重要作用?;趫D結(jié)構(gòu)的知識圖譜推理具有推理效率高且可解釋的優(yōu)點。例如,在圖5中,從實體“Carl”出發(fā),利用關(guān)系路徑“HasW ife→HasChild”能夠推理出實體“Carl”和實體“Barry”可能存在“HasChild”關(guān)系。根據(jù)關(guān)注特征的粒度不同,基于圖結(jié)構(gòu)的推理方法又可分為基于全局結(jié)構(gòu)的推理以及加入局部結(jié)構(gòu)的推理。

        1)基于全局結(jié)構(gòu)的推理。

        基于全局結(jié)構(gòu)的推理是指對整個知識圖譜進(jìn)行路徑提取,然后將實體之間的路徑作為特征用于判斷實體間是否存在目標(biāo)關(guān)系,該方法能夠自動挖掘路徑規(guī)則且具有可解釋性。

        典型算法為Lao等[109]提出的路徑排序算法(Path Ranking Algorithm,PRA)。該算法將知識圖譜中連接目標(biāo)關(guān)系實體對的路徑作為特征,為每類關(guān)系訓(xùn)練一個邏輯回歸模型,從而完成知識圖譜推理任務(wù)。PRA采用的隨機游走策略需要巨大的計算代價,為此,出現(xiàn)了Cor-PRA[110]、CPRA[111]、ELP(Enhance Link Prediction)[112]等改進(jìn)算法,旨在提升PRA算法路徑搜索的效率及推理性能。知識圖譜中的實體和關(guān)系服從長尾分布,即只有少量的實體和關(guān)系擁有較高的出現(xiàn)頻率[113],由此導(dǎo)致的數(shù)據(jù)稀疏性問題對基于全局結(jié)構(gòu)的推理算法性能影響較大。

        2)引入局部結(jié)構(gòu)的推理。

        引入局部結(jié)構(gòu)的推理是指利用與推理高度相關(guān)的局部圖譜結(jié)構(gòu)作為特征進(jìn)行計算,以實現(xiàn)知識圖譜的推理,相較于基于全局結(jié)構(gòu)的推理,該方法的特征粒度更細(xì)且計算代價低。

        典型算法包含SFE(Subgraph Feature Extraction)[114]、HIRI(Hierarchical Random-walk Inference)[115]等。對于目標(biāo)實體,SFE算法首先使用廣度優(yōu)先搜索法得到局部子圖,然后對其進(jìn)行多特征提取,最后根據(jù)提取的特征進(jìn)行推理。HIRI算法是一種分層隨機游走算法,通過提取知識圖譜中特定關(guān)系子圖的拓?fù)浣Y(jié)構(gòu),來提高基于隨機游走的推理性能。此外,劉嶠等[116]提出了一種雙層隨機游走算法(Two-tier Random Walk Algorithm,TRWA),同時考慮特定關(guān)系的子圖和關(guān)系語義的雙向性。這類方法考慮更細(xì)的局部結(jié)構(gòu)特征,提升了推理能力和推理效率;但由于只考慮了特定實體或關(guān)系子圖的結(jié)構(gòu),忽略了子圖之間的關(guān)系,具有一定的局限性。

        綜上,基于邏輯規(guī)則的知識圖譜推理各類方法對比分析如表11所示。

        表11 基于邏輯規(guī)則的知識圖譜推理方法對比Tab.11 Comparison of knowledgegraph reasoningmethods based on logic rules

        4.2 基于嵌入表示的知識圖譜推理

        在機器學(xué)習(xí)中,嵌入表示是一種非常重要的技術(shù)手段,通過嵌入表示可以將復(fù)雜的數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)化為向量化的表示,為后續(xù)工作的開展提供便利。對于知識圖譜推理,嵌入表示的技術(shù)優(yōu)勢同樣明顯。通過將圖結(jié)構(gòu)中隱含的關(guān)聯(lián)信息映射到歐氏空間,使得原本難以發(fā)現(xiàn)的關(guān)聯(lián)關(guān)系變得顯而易見。因此,基于嵌入表示的推理是知識圖譜推理技術(shù)的重要組成部分。

        接下來介紹三類嵌入推理的方法,分別是張量分解方法、距離模型和語義匹配模型。

        4.2.1 張量分解方法

        張量分解(Tensor Decomposition,TD)方法是通過特定技術(shù)將關(guān)系張量分解為多個矩陣,利用這些矩陣可以構(gòu)造出知識圖譜的一個低維嵌入表示。通過對基本張量分解算法進(jìn)行改進(jìn)和調(diào)整,并加以應(yīng)用,這類模型能夠快速訓(xùn)練出一個知識圖譜的嵌入表示。

        當(dāng)前用于嵌入推理的張量分解方法以RESCAL[117-118]為主。該模型將知識圖譜中的知識以一個三階張量的形式表示,該張量反映了知識圖譜中實體-關(guān)系-實體的三元組結(jié)構(gòu)。RESCAL通過對張量進(jìn)行分解,得到實體和關(guān)系類型的嵌入表示,該嵌入表示反映的是實體或關(guān)系鄰域結(jié)構(gòu)的相似性。如圖6所示,“Carl”和“Arthur”均是一個學(xué)生的導(dǎo)師,均教授一門課程,也都主持了一個項目。由于兩人鄰域結(jié)構(gòu)高度相似,RESCAL模型得到的兩人的嵌入表示也是相近的,由此可推理出二人存在關(guān)聯(lián)關(guān)系,結(jié)合背景知識,這一關(guān)系很可能是“ColleagueOf”。

        圖6 嵌入表示知識推理實例Fig.6 Exampleof knowledge reasoningbased on embedding representation

        RESCAL是一個十分經(jīng)典的張量分解模型,但由于其分解原理簡單,考慮因素相對單一,不適應(yīng)于部分復(fù)雜的應(yīng)用場景。因此,部分研究以此為基礎(chǔ),提出了改進(jìn)的模型。YAGO[119]在RESCAL的基礎(chǔ)上添加了用于處理實體屬性信息的模塊,是RESCAL模型的一個擴展。Rendle等[120]考慮了知識圖譜中的二元組關(guān)系,即主體-關(guān)系類型關(guān)系、主體-客體關(guān)系、關(guān)系類型-客體關(guān)系。Rendle等[121]進(jìn)一步提出在線性時間內(nèi)學(xué)習(xí)大規(guī)模的關(guān)系型數(shù)據(jù),該方法在知識圖譜的鏈路預(yù)測和推薦系統(tǒng)方面有重要價值。Jenatton等[122]提出了通過概率模型學(xué)習(xí)稀疏的關(guān)系表示,以此處理關(guān)系數(shù)量極大的知識圖譜嵌入表示問題。

        4.2.2 距離模型

        距離模型(Distance Model,DM)又可稱為平移模型(Translational Model,TM),該類模型將知識圖譜中的每個關(guān)系看作從主體向量到客體向量的一個平移變換。通過最小化平移轉(zhuǎn)化的誤差,將知識圖譜中的實體和關(guān)系類型映射到低維空間。

        典型的距離模型是TransE[123],該模型將知識圖譜中的實體和關(guān)系類型都嵌入為低維的向量。將知識圖譜中的每個關(guān)系理解為從主體向量到客體向量的一個平移變換,即該模型要求主體向量、關(guān)系類型向量和客體向量滿足h+r≈t。

        如圖7所示,TransE通過學(xué)習(xí)已有知識,將四個人物實體映射為低維空間的四個點(即點A、B、C、D),同時將“Thomas”和“Pamela”二人之間已知的“ColleagueOf”關(guān)系映射為向量α(即向量ˉ→ˉˉCD)。在推理“Carl”和“Arthur”是否存在同事關(guān)系時,只需判斷“ColleagueOf”這一關(guān)系的嵌入向量α能否在低維空間中近似地實現(xiàn)從“Carl”的嵌入點(A點)到“Arthur”的嵌入點(B點)的平移。如果能,則可推出(Carl,ColleagueOf,Arthur)這一關(guān)系存在;反之則認(rèn)為該關(guān)系不存在。

        圖7 TransE實體和關(guān)系映射實例Fig.7 Example of entity and relation mapping of TransE

        TransE模型通過上述這種直觀的映射方式,使得知識推理在實際應(yīng)用中有很好的可解釋性。然而,TransE模型的性能受到兩個方面的制約:一方面是其平移轉(zhuǎn)化這一要求過于嚴(yán)格,導(dǎo)致靈活性和魯棒性受到影響;另一方面則是該模型無法處理知識圖譜中的非一對一的關(guān)系,對學(xué)習(xí)效果造成了一定影響。針對這兩個問題,研究者們對TransE做出了改進(jìn)。

        針對第一個問題,一些松弛化模型被提出。TransM[124]模型給每種關(guān)系類型定義了一個權(quán)重,以衡量該關(guān)系類型在優(yōu)化目標(biāo)中的重要性。ManifoldE[125]將平移轉(zhuǎn)化約束做了進(jìn)一步松弛,提出了一種基于流形的知識圖譜嵌入模型,要求平移后的向量落在相應(yīng)的流形之上。TransF[126]則是以一種線性的方式對平移轉(zhuǎn)化約束做出松弛化處理,增強了模型處理復(fù)雜的帶噪聲數(shù)據(jù)的能力。TransAt[127]在模型中引入了注意力機制,更加關(guān)注與特定關(guān)系相關(guān)的屬性,忽略無關(guān)屬性的干擾,使得算法更具魯棒性。TransA[128]是一種基于馬氏距離的更靈活的知識圖譜嵌入模型。

        針對第二個問題,主要思路是將實體和關(guān)系在特定投影空間進(jìn)行平移轉(zhuǎn)化。為了能夠更好地處理非一對一的關(guān)系,并且一定程度上保留TransE的效率和簡潔性,TransH[129]將關(guān)系類型擬合為一個超平面。TransR[130]受此啟發(fā),引入了實體空間和關(guān)系空間的概念,將實體和關(guān)系類型在各自的空間中分別建模。TransR模型是對TransE的一個非常經(jīng)典的改進(jìn),但存在的主要問題是運算開銷過高。一些研究嘗試在保留TransR性能的同時,降低其模型復(fù)雜度。TransD[131]中每一個實體或關(guān)系都被表示為兩個向量,這大大減少了參數(shù)的數(shù)量,同時避免了大量矩陣乘法,降低了運算開銷。TransSparse[132]也是對投影矩陣的一個簡化,利用稀疏矩陣顯著降低了模型的參數(shù)數(shù)量,降低了訓(xùn)練的復(fù)雜度。TransAH[133]采用了一種自適應(yīng)的度量方法,加入了對角權(quán)重矩陣將得分函數(shù)中的度量由歐氏距離轉(zhuǎn)換為加權(quán)歐氏距離,并實現(xiàn)了為每一個特征維區(qū)別地賦予權(quán)重,引入面向特定關(guān)系的超平面模型,將頭實體和尾實體映射至給定關(guān)系的超平面加以區(qū)分。

        除了上述兩類改進(jìn)模型以外,研究者還提出了對于TransE的一些其他改進(jìn)思路。KG2E[134]是一種基于密度的知識圖譜嵌入表示學(xué)習(xí)方法,在多維高斯分布空間中學(xué)習(xí)知識圖譜的嵌入表示。TransG[135]將實體和關(guān)系類型表示為服從高斯分布的隨機向量,認(rèn)為同一個關(guān)系在不同的首尾實體的背景下可能有多個語義。Rotate[136]引入了復(fù)空間,將實體和關(guān)系類型的嵌入表示構(gòu)建在復(fù)空間中,將關(guān)系看作是頭實體經(jīng)過旋轉(zhuǎn)變換得到尾實體,而非平移變換,這一觀念的轉(zhuǎn)變是極具啟發(fā)性的。TorusE[137]則將嵌入的空間從向量空間遷移到一個環(huán)面(Torus)上,將這個環(huán)面作為知識圖譜的嵌入空間 。 CEKGRL(Category-Enhanced Knowledge Graph Representation Learning)[138]模型在TransE模型的基礎(chǔ)上引入實體的類別表示,旨在學(xué)習(xí)三元組知識的同時,能夠通過類別信息得到更加準(zhǔn)確的知識表示。彭敏等[139]在TransE的基礎(chǔ)上提出了聚合鄰域信息的聯(lián)合知識表示模型TransE-NA(Neighborhood Aggregation on TransE),緩解數(shù)據(jù)稀疏問題,改善知識表示性能。MCKRL(Knowledge Representation Learning based on Multi-source information Combination)[140]引入卷積神經(jīng)網(wǎng)絡(luò)和圖注意力機制,構(gòu)建了基于TransE的編碼器-解碼器模型,對知識圖譜中的三元組信息、文本描述信息、實體層次類型信息和圖結(jié)構(gòu)信息進(jìn)行融合,實現(xiàn)基于多源信息組合的知識表示學(xué)習(xí)。

        4.2.3 語義匹配模型

        語義匹配模型(Semantic Matching Models)通過設(shè)計基于相似度的目標(biāo)函數(shù),在低維向量空間匹配不同實體和關(guān)系類型的潛在語義,定義基于相似性的評分函數(shù),度量一個關(guān)系三元組的合理性。該類模型認(rèn)為訓(xùn)練集中存在的關(guān)系三元組應(yīng)該有較高的相似度,而訓(xùn)練集中沒有的關(guān)系應(yīng)該有相對較低的相似度。

        常用的語義匹配模型,如TATEC(Two And Three-way Embeddings Combination)[141]模型,主要思路是對知識圖譜中的二元語義和三元語義進(jìn)行匹配,衡量各關(guān)系的合理性。在匹配主體-關(guān)系類型-客體的三元語義的同時,也對主體與關(guān)系類型、關(guān)系類型與客體和主體與客體等三類語義進(jìn)行匹配,使得模型有更強的擬合能力和靈活性。

        例如,針對圖6中的關(guān)系網(wǎng)絡(luò),TATEC模型首先定義一個語義評分函數(shù),用于衡量三元和二元語義關(guān)系的合理性。如對于三元組(Carl,Teaches,OperatingSystem),其對應(yīng)的三元語義的 評 分 為 0.35, 二 元 語 義 (Carl,Teaches)、(Teaches,OperatingSystem)和(Carl,OperatingSystem)的評分分別為0.25、0.13和0.18。將上述四個分?jǐn)?shù)求和,即得到關(guān)系三元組(Carl,Teaches,OperatingSystem)的語義評分為0.91。訓(xùn)練時要求所有已知關(guān)系三元組的語義評分盡可能高。在推理“Carl”和“Arthur”是否為同事關(guān)系時,根據(jù)訓(xùn)練得到的實體和關(guān)系的嵌入表示,計算得(Carl,ColleagueOf,Arthur)這一三元組的語義評分為0.85,該評分高于預(yù)設(shè)的經(jīng)驗性閾值0.75,因此可判斷該關(guān)系成立。

        TATEC模型的運算復(fù)雜度較高,因為其空間映射矩陣中待訓(xùn)練參數(shù)數(shù)量較大,改進(jìn)模型嘗試平衡TATEC的效果和復(fù)雜度。DistMult[142]要求模型中的空間映射矩陣是一個對角矩陣,以此大大減少模型的參數(shù)數(shù)量,使得模型的訓(xùn)練難度降低,但也導(dǎo)致其效果相比TATEC略弱。張金斗[143]提出在DistMult的基礎(chǔ)上引入偏序關(guān)系建模層次結(jié)構(gòu)的方法,實現(xiàn)了結(jié)合層次類別信息的知識圖譜表示學(xué)習(xí)。HolE[144]引入了向量卷積,實現(xiàn)了主客體的信息融合,基于DistMult,一定程度上增加了復(fù)雜度,卻大幅提升了模型擬合能力。ComplEx[145]在DistMult模型的基礎(chǔ)上引入了復(fù)空間,將實體和關(guān)系類型映射到低維復(fù)數(shù)空間。QuatE[146]在ComplEx的復(fù)向量表示基礎(chǔ)上,提出了超復(fù)空間(Super-Complex Space)的向量表示,并將實體和關(guān)系映射到該空間。ANALOGY[147]模型在TATEC基礎(chǔ)上,進(jìn)一步考慮了實體的隱喻關(guān)系。

        為了提高對非線性模式的捕捉能力,一系列基于神經(jīng)網(wǎng)絡(luò)的模型被提出。SME(Semantic Matching Energy)[148]模型是基于神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)關(guān)系和實體低維向量表示的模型。該模型首先將實體和關(guān)系輸入到神經(jīng)網(wǎng)絡(luò)的輸入層,并將其映射為向量,通過學(xué)習(xí)兩個帶參數(shù)的函數(shù),可以得到關(guān)系和實體的低維向量表示形式。NTN(Neural Tensor Networks)[149]加入了非線性函數(shù),增強了擬合能力,但是其所需訓(xùn)練的參數(shù)數(shù)量較大,因而訓(xùn)練所需的開銷大幅增加了。Dong等[150]使用一個簡單的多層感知機的方法,實現(xiàn)了主體-關(guān)系類型-客體的三部分信息融合。NAM(Neural Association Models)[151]采用了深度神經(jīng)網(wǎng)絡(luò)方法,提升了模型的擬合能力。

        綜上,基于嵌入表示的知識推理方法對比如表12所示。

        表12 基于嵌入表示的知識圖譜推理方法對比Tab.12 Comparison of knowledgegraph reasoningmethods based on embedding representation

        4.3 基于神經(jīng)網(wǎng)絡(luò)的知識圖譜推理

        基于神經(jīng)網(wǎng)絡(luò)的知識圖譜推理,充分利用了神經(jīng)網(wǎng)絡(luò)對非線性復(fù)雜關(guān)系的建模能力,能夠深入學(xué)習(xí)圖譜結(jié)構(gòu)特征和語義特征,實現(xiàn)對圖譜缺失關(guān)系的有效預(yù)測。一般地,應(yīng)用于知識圖譜推理的神經(jīng)網(wǎng)絡(luò)方法主要包括CNN方法、RNN方法、圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Network,GNN)方法、DRL方法等,相關(guān)方法的基本流程如表13所示。

        表13 基于神經(jīng)網(wǎng)絡(luò)的知識圖譜推理方法基本流程Tab.13 Basic processesof knowledge graph reasoningmethodsbased on neural network

        4.3.1 卷積神經(jīng)網(wǎng)絡(luò)方法

        基于CNN的知識圖譜推理方法,通過卷積操作提取知識局部特征,預(yù)測圖譜中的缺失關(guān)系。主要包括基于實體文本描述(Entity Text Description,ETD)的推理和基于實體關(guān)系交互的推理兩大類。

        1)基于實體文本描述的推理。

        ETD是對知識圖譜中實體語義信息的詳細(xì)描述?;贓TD的CNN推理,指利用CNN對ETD進(jìn)行解析,從中提取出關(guān)鍵的文本片段并轉(zhuǎn)換為嵌入向量,進(jìn)而利用文本特征輔助對實體語義的準(zhǔn)確理解。

        其中,典型方法包括DKRL、ConMask、TECRL等模型。具體而言,Xie等[152]提出DKRL(Description-embodied Knowledge Representation Learning)模型,針對知識圖譜中的實體描述信息,利用連續(xù)詞袋模型(Continuous Bag-of-Words,CBOW)和CNN,分別學(xué)習(xí)文本描述中的無序特征和詞序特征,并融合生成最終的知識嵌入表示進(jìn)行推理,實現(xiàn)新實體的有效發(fā)現(xiàn)。進(jìn)一步地,Shi等[153]提出ConMask(Content Masking)模型,利用CNN融合了文本描述特征與實體語義信息。鮑開放等[154]針對文本描述的編碼結(jié)果,結(jié)合翻譯模型對實體關(guān)系進(jìn)行聯(lián)合學(xué)習(xí),實現(xiàn)復(fù)雜關(guān)系語義的有效表達(dá)。Zhao等[155]提出TECRL(Text-Enhanced Convolutional Representation Learning)模型,對文本描述先后使用兩次卷積操作提取特征。

        2)基于實體關(guān)系交互的推理。

        實體關(guān)系交互指在同一個三元組中,實體語義和關(guān)系語義的相互關(guān)系,其反映了知識結(jié)構(gòu)的語義。基于實體關(guān)系交互的CNN推理,指利用CNN對實體關(guān)系嵌入向量拼接而成的二維矩陣執(zhí)行卷積操作,從中提取出實體、關(guān)系語義的交互信息,進(jìn)而提升對知識三元組結(jié)構(gòu)語義的理解。

        其 中,典 型 方 法 包 括ConvE、InteractE、M-DCN、Convolution-based KG等模型。具體而言,Dettmers等[156]提出ConvE模型,針對實體關(guān)系嵌入向量構(gòu)成的二維矩陣,利用二維卷積、嵌入投影、內(nèi)積等簡單運算,實現(xiàn)實體關(guān)系間交互特征的有效捕捉。進(jìn)一步地,Vashishth等[157]提出InteractE模型,利用特征置換、方形特征重塑、圓形卷積等技術(shù),進(jìn)一步增加實體關(guān)系間交互數(shù)量。Zhang等[158]提出M-DCN(Multiscale Dynamic Convolutional Network)模型,交替輸入實體關(guān)系嵌入,有效學(xué)習(xí)知識間交互的序列特征。李少杰等[159]提出ConvKE模型,利用維度變換策略提升卷積滑動窗口的滑動步數(shù),增強了知識間交互信息的學(xué)習(xí)能力。Annervaz等[160]提出Convolution-based KG模型,結(jié)合注意力機制,實現(xiàn)對實體關(guān)系聚集結(jié)構(gòu)的深入分析。

        4.3.2 循環(huán)神經(jīng)網(wǎng)絡(luò)方法

        基于RNN的知識圖譜推理方法,指基于循環(huán)結(jié)構(gòu)提取知識序列特征,預(yù)測圖譜中的缺失關(guān)系,主要包括基于知識路徑語義的推理和基于ETD的推理兩大類。

        1)基于知識路徑語義的推理。

        知識路徑指知識圖譜中由實體關(guān)系交替組成的有序路徑,其中蘊含了從起點實體到終點實體間的隱藏語義?;谥R路徑語義的RNN推理,指利用RNN結(jié)構(gòu)特征,迭代學(xué)習(xí)路徑的語義特征,從中發(fā)現(xiàn)關(guān)聯(lián)路徑上的隱含語義信息,并基于此實現(xiàn)缺失知識的準(zhǔn)確預(yù)測。

        其中,典型方法包括RNN+PRA Classifier、Single-Model、DSKG等模型。具體而言,Neelakantan等[161]提出RNN+PRA Classifier模型,通過迭代使用RNN,有效學(xué)習(xí)知識路徑的組合表示,并在路徑嵌入空間上實現(xiàn)知識推理。進(jìn)一步地,Das等[162]提出Single-Model模型,通過引入神經(jīng)注意力(Neural Attention,NATT)機制,有效組合多條關(guān)系路徑的語義信息。Jagvaral等[163]則同時建模了路徑的雙向語義。Guo等[164]提出DSKG(Deep Sequential model for KG)模型,采用兩個獨立的RNN單元對實體關(guān)系分別進(jìn)行建模。

        2)基于實體文本描述的推理。

        除CNN外,對于蘊含詳細(xì)語義信息的ETD而言,也可以利用RNN進(jìn)行分析建模。一般地,基于ETD的RNN推理,利用RNN依次讀入ETD信息,完成不同三元組中實體語義信息的匹配,從而實現(xiàn)對缺失知識的準(zhǔn)確預(yù)測。

        其中,典型方法包括KGDL等模型。具體而言,Chen等[165]提 出KGDL(learning Knowledge Graph embedding with entity Descriptions based on LSTM networks)模型,采用LSTM逐詞編碼相關(guān)文本描述,再嵌入三元組編碼的實體描述,實現(xiàn)對缺失知識的預(yù)測。進(jìn)一步地,Zhao等[166]結(jié)合完全注意力(Complete ATTention,CATT)機制編碼實體描述,學(xué)習(xí)到了實體在不同三元組中的具體語義。靳京[167]提出T-CRNN模型,先利用CNN提取實體描述中的單詞特征,再利用門控循環(huán)網(wǎng)絡(luò)(Gate Recurrent Unit,GRU)學(xué)習(xí)實體描述的上下文信息,實現(xiàn)實體描述語義信息的深入挖掘。An等[168]結(jié)合互注意力(Mutual ATTention,MATT)機制整合多種文本語料信息,從而捕捉到實體關(guān)系在不同三元組中的語義變化。

        4.3.3 圖神經(jīng)網(wǎng)絡(luò)方法

        基于GNN的知識圖譜推理方法,指基于GNN提取出圖譜拓?fù)浣Y(jié)構(gòu)特征,預(yù)測圖譜中的缺失關(guān)系,主要包括基于GCN的推理與基于圖注意力網(wǎng)絡(luò)的推理兩大類。

        1)基于GCN的推理。

        GCN[169]引入傅里葉變換,將圖結(jié)構(gòu)信息變換到由圖拉普拉斯矩陣特征向量構(gòu)成的正交空間中,從而實現(xiàn)鄰域向中心的信息聚合。同理,基于GCN的推理,將圖譜視作無向圖,利用GCN分析拓?fù)浣Y(jié)構(gòu),實現(xiàn)鄰域向中心實體的語義匯聚。

        其中,典型方法包括SACN、R-GCN、RGHAT等模型。具體而言,Shang等[170]提出SACN(Structure-Aware Convolutional Network)模型,將一個加權(quán)GCN作為編碼器,卷積網(wǎng)絡(luò)Conv-TransE作為解碼器,自適應(yīng)地學(xué)習(xí)節(jié)點鄰域結(jié)構(gòu)的語義信息。進(jìn)一步地,Schlichtkrull等[171]提出R-GCN(Relational Graph Convolutional Network)模型,在消息傳遞過程中引入了特定于關(guān)系類型的轉(zhuǎn)換矩陣,能夠?qū)W習(xí)多種類型的關(guān)系語義。聶斌玲[172]提 出SAGCN(Structure Aware Graph Convolutional Network)模型,綜合了實體相鄰節(jié)點與相鄰邊的語義信息,實現(xiàn)實體語義的完整表達(dá)。Zhang等[173]提出RGHAT(Relational Graph neural network with Hierarchical ATtention)模型,結(jié)合層次注意力(Hierarchical ATTention,HATT)機制,能夠更加有效地利用實體鄰域信息。

        2)基于GAT的推理。

        GAT(Graph Attention Networks)[174]是一種基于空間結(jié)構(gòu)的圖神經(jīng)網(wǎng)絡(luò),在聚合鄰域特征信息時,通過ATT確定鄰居節(jié)點權(quán)重信息,從而實現(xiàn)鄰域?qū)χ行呢暙I(xiàn)程度的自適應(yīng)調(diào)節(jié)。同理,基于GAT的推理,將圖譜視作有向圖,利用GAT分析拓?fù)浣Y(jié)構(gòu),實現(xiàn)鄰域結(jié)構(gòu)對中心實體語義貢獻(xiàn)的準(zhǔn)確量化。

        其中,典型方法包括DPMPN、ExpressGNN-E、ReInceptionE等 模 型。具 體 而 言,Xu等[175]提 出DPMPN(Dynamically Pruned Message Passing Networks)模型,同時編碼通用的全圖表示和針對輸入信息的局部表示,實現(xiàn)推理過程中子圖的動態(tài)構(gòu)建。進(jìn)一步地,Zhang等[176]提出ExpressGNN-E模型,組合了MLN和GNN,能夠進(jìn)行有效的概率邏輯推理。Xie等[177]提出ReInceptionE模型,結(jié)合ConvE和KBGAT[178],利用關(guān)系感知注意力(Relation-Aware ATTention,RAATT)機制實現(xiàn)對圖譜結(jié)構(gòu)信息的深入理解。康世澤等[179]提出HE-GAN-NC(HE-GAN toward Node Classification)模型,通過堆疊圖注意力網(wǎng)絡(luò),有效學(xué)習(xí)實體的高階鄰居特征,實現(xiàn)對知識圖譜語義的完整表達(dá)。

        4.3.4 深度強化學(xué)習(xí)方法

        基于DRL的知識圖譜推理方法,結(jié)合了深度學(xué)習(xí)對圖譜結(jié)構(gòu)的感知能力與強化學(xué)習(xí)對補全關(guān)系的決策能力,將圖譜上的推理建模為序列決策模型。該類方法主要指基于關(guān)系路徑探索的推理。

        基于關(guān)系路徑探索的推理將知識實體、鄰接關(guān)系分別構(gòu)建為狀態(tài)空間和行動空間,采用實體游走進(jìn)行狀態(tài)轉(zhuǎn)換,發(fā)現(xiàn)正確答案即生成獎勵。從而基于“關(guān)系-路徑-探索”建立推理方案,能夠顯著提升知識推理的有效性和多樣性。

        其 中,典 型 方 法 包 括DeepPath、MINERVA、ADRL、DAPath、MARLPaR、RLH、GRL等模型。具體而言,Xiong等[180]建立DeepPath模型,將行為定義為選擇當(dāng)前節(jié)點連接的某條邊,基于行為序列擴展實現(xiàn)路徑探索,并在預(yù)測出正確實體時給予獎勵。進(jìn)一步地,Das等[181]提出MINERVA(Meandering In Networks of Entities to Reach Verisimilar Answers)模型,通過在查詢實體鄰域內(nèi)進(jìn)行高效搜索,能夠解決答案未知的復(fù)雜推理問 題。Wang等[182]提 出ADRL(Attention-based Deep Reinforcement Learning)模型,結(jié)合LSTM和ATT,使得生成軌跡具有更強的可解釋性。Tiwari等[183]提出DAPath(Distance-Aware Path)模型,結(jié)合圖自注意力(Graph Self-Attention,GSA)機制和GRU的記憶機制,能夠捕捉到路徑鄰域內(nèi)更完整的實體 信 息。Li等[184]提 出 MARLPaR(Multi-Agent and Reinforcement Learning based method for Path Reasoning)模型,交替選擇實體和關(guān)系,實現(xiàn)聯(lián)合實體關(guān)系語義的知識推理。Wan等[185]提出RLH(Reasoning Like Human)模型,先后編碼歷史信息和行動空間,能夠有效處理多語義問題。Wang等[186]提出GRL(GAN-based Reinforcement Learning)模型,利用GAN和LSTM生成軌跡,能夠結(jié)合領(lǐng)域規(guī)則實現(xiàn)知識推理。

        綜上,基于神經(jīng)網(wǎng)絡(luò)的知識推理方法對比如表14所示。

        表14 基于神經(jīng)網(wǎng)絡(luò)的知識圖譜推理方法對比Tab.14 Comparison of knowledgegraph reasoningmethods based on neural network

        5 超圖理論與方法

        盡管知識圖譜被廣泛采用,但基于三元組的表示方法往往過分簡化了存儲在知識圖譜中的數(shù)據(jù)的復(fù)雜性;特別是對于連接兩個及以上實體的超關(guān)系數(shù)據(jù),其中的高階結(jié)構(gòu)信息的丟失,會導(dǎo)致知識超圖表示及推理能力受限。相關(guān)工作證明,在知識圖譜Freebase中,超過33.3%[187]的實體和61%[188]的關(guān)系是無法以二元關(guān)系表示的。

        知識超圖是一種特殊的異構(gòu)圖。為了更清楚地了解知識超圖特點,本章首先研究異構(gòu)超圖表示方法。根據(jù)其與知識超圖的關(guān)聯(lián)性,進(jìn)一步研究知識超圖表示方法。最后提出了知識超圖的三層架構(gòu),能有效提升知識超圖推理能力及效率。

        超圖及相關(guān)圖定義、特點以及其主要的任務(wù)如表15和圖8所示。其中,|TV|表示節(jié)點類型數(shù),|TE|表示關(guān)系類型數(shù)。

        表15 超圖及相關(guān)圖定義Tab.15 Definitions of hypergraphsand related graphs

        圖8 超圖及相關(guān)圖Fig.8 Hypergraphsand related graphs

        5.1 異構(gòu)超圖表示

        異構(gòu)圖表示為節(jié)點和邊的集合,廣泛存在于真實世界的眾多場景中。例如表示人與人之間關(guān)系的社交網(wǎng)絡(luò)[189-191],作者和論文間的引用網(wǎng)絡(luò)[192]等。

        超圖以圖論和集合論為基礎(chǔ),在聚類、空間數(shù)據(jù)挖掘等方面取得了廣泛應(yīng)用[193]。超圖表示為H=(V,E),V是節(jié)點集,E是邊集,每條邊包含兩個或者更多節(jié)點。通常用|v|×|e|維關(guān)聯(lián)矩陣H來描述超圖的結(jié)構(gòu)。其中,|v|表示超圖中節(jié)點的數(shù)目,稱為超圖的階數(shù),|e|表示超圖中超邊的數(shù)目。根據(jù)計算規(guī)則h(v,e),如果節(jié)點v∈e,則h(v,e)=1;否則,如果v?e,則h(v,e)=0。

        圖9 超圖及其對應(yīng)的鄰接矩陣示例Fig.9 Exampleof hypergraph and the corresponding adjacency matrix

        對于每一個超邊e屬于E,度矩陣δ(v)是超邊上的頂點數(shù)目之和,可表示為δ(v)=∑v∈V h(v,e)。

        異構(gòu)超圖表示學(xué)習(xí)對于超圖構(gòu)建、推理以及應(yīng)用均有重要意義,因此本節(jié)主要研究異構(gòu)超圖表示方法。異構(gòu)超圖表示學(xué)習(xí)旨在將節(jié)點映射為向量的同時,保留圖的拓?fù)浣Y(jié)構(gòu)、節(jié)點與節(jié)點之間的關(guān)系以及子圖等信息[194]。

        異構(gòu)超圖表示包括基于無監(jiān)督聚類、基于隨機游走、基于矩陣分解、基于神經(jīng)網(wǎng)絡(luò)和基于元路徑等方法。異構(gòu)超圖表示的主要模型如圖10所示。

        圖10 異構(gòu)超圖表示的主要模型Fig.10 Main models of heterogeneous hypergraph representation

        1)基于無監(jiān)督聚類的異構(gòu)超圖表示學(xué)習(xí)。

        基于無監(jiān)督聚類的方法將相似的節(jié)點聚集在一起,使得同組的節(jié)點彼此接近,不同組的節(jié)點盡量區(qū)分開。在無可用類別標(biāo)簽的場景下,基于無監(jiān)督的聚類能實現(xiàn)節(jié)點的有效劃分,是學(xué)習(xí)異構(gòu)圖嵌入的有效方式。

        Zhou等[195]采用超圖表示對象之間的復(fù)雜信息,首次將處理無向圖的強大的譜聚類方法推廣到超圖上,并在超圖聚類算法基礎(chǔ)上提出超圖嵌入算法。雖然譜聚類是超圖聚類最有效的算法之一,但是傳統(tǒng)譜聚類算法性能較差,時間與空間成本大。為此,文獻(xiàn)[196-198]中提出了提升聚類性能的基于排名的聚類NetClus(Net Cluster)、以及解決聚類中計算成本大的GraphLSHC(Large Scale Hypergraph Clustering)[199]等。

        2)基于元路徑的異構(gòu)超圖表示學(xué)習(xí)。

        基于元路徑的方法將節(jié)點之間的一系列關(guān)系表示為一條路徑,學(xué)習(xí)不同類型的節(jié)點語義信息。該方法通過度量節(jié)點之間的關(guān)聯(lián)性,學(xué)習(xí)異構(gòu)超圖中豐富的語義信息。

        PathSim(Meta Path-based Similarity Measure)[200]是最早提出的使用元路徑的異構(gòu)圖表示學(xué)習(xí)模型,通過基于元路徑的相似度度量學(xué)習(xí)節(jié)點的表示;但是,該模型過于依賴人為定義的元路徑及其權(quán)重。為此,HIN2Vec(Heterogeneous Information Network to Vector)[201]利用了節(jié)點之間不同類型的關(guān)系,文獻(xiàn)[202-203]中提出主動權(quán)重學(xué)習(xí)等方法。

        3)基于隨機游走的異構(gòu)超圖表示學(xué)習(xí)。

        基于隨機游走的圖表示學(xué)習(xí)以深度搜索的方式學(xué)習(xí)起始節(jié)點的序列信息,并使用該信息表示節(jié)點[194]?;陔S機游走的方法可以保留節(jié)點對之間的接近度,學(xué)習(xí)節(jié)點的局部結(jié)構(gòu)信息。

        Hyper2vec(Hyper-network to vector)[204]首次在超圖上運用有偏二階隨機游走框架,在超圖表示學(xué)習(xí)中取得了良好的性能,并減少了計算時間。但是,該方法以無監(jiān)督的方式生成節(jié)點嵌入,不能將節(jié)點嵌入映射到超邊中,導(dǎo)致無法捕獲超邊的高階結(jié)構(gòu)信息。為此,文獻(xiàn)[205-206]中采用隨機游走,聯(lián)合學(xué)習(xí)實體對關(guān)系和超關(guān)系,捕獲超圖高階結(jié)構(gòu)信息。

        4)基于矩陣分解的異構(gòu)超圖表示學(xué)習(xí)。

        基于矩陣分解的方法將異構(gòu)超圖表示為矩陣,通過對矩陣進(jìn)行分解學(xué)習(xí)節(jié)點的嵌入表示[207-208]?;诰仃嚪纸獾姆椒梢越鉀Q圖的稀疏性問題,獲得可擴展的圖嵌入表示?;诰仃嚪纸獾姆椒òǚ纸鈭D的拉普拉斯特征映射和分解節(jié)點鄰接矩陣。

        Chung[209]首次提出超圖的拉普拉斯矩陣,在此基礎(chǔ)上,Rodriguez[210]研究了超圖中的拉普拉斯特征值以及超圖分解問題。但是,傳統(tǒng)的方法都著重于理論的研究,難以應(yīng)用到大規(guī)模超圖中。為此,HpLapGCN(Hypergraphp-Laplacian Graph Convolutional Networks)[211]利用超圖的拉普拉斯矩陣,保留圖的局部幾何形狀,結(jié)合GCN學(xué)習(xí)多種數(shù)據(jù)特征。

        Cao等[212]為了解決超圖表示中的數(shù)據(jù)稀疏問題,使用非線性矩陣分解方法實現(xiàn)超圖的表示;但由于超邊大小是可變的,傳統(tǒng)方法難以實現(xiàn)異構(gòu)超圖表示。為此,Zhang等[213]提出了協(xié)調(diào)矩陣最小化算法,在超圖上的頂點鄰接域中,交替執(zhí)行非負(fù)矩陣分解和最小二乘匹配,實現(xiàn)高性能的超圖表示。

        5)基于神經(jīng)網(wǎng)絡(luò)的異構(gòu)超圖表示學(xué)習(xí)。

        基于神經(jīng)網(wǎng)絡(luò)的方法學(xué)習(xí)異構(gòu)圖的結(jié)構(gòu)以及節(jié)點信息等非線性關(guān)系;特別是基于GNN的模型,能夠在學(xué)習(xí)節(jié)點特征的同時,捕獲異構(gòu)圖的拓?fù)浣Y(jié)構(gòu)信息。

        HGNN(HyperGraph Neural Network)[214]為基于超邊卷積計算的GNN模型,學(xué)習(xí)現(xiàn)實數(shù)據(jù)的高階相關(guān)性。在此基礎(chǔ)之上,DHGNN(Dynamic HyperGraph Neural Network)[215]為動態(tài)GNN模型,通過GNN提取特征來挖掘新關(guān)系,讓圖網(wǎng)絡(luò)自我進(jìn)化,實現(xiàn)動態(tài)超圖構(gòu)建。為了進(jìn)一步提升性能,Zhang等[216]使用了GAT模型學(xué)習(xí)可變超邊大小的同構(gòu)圖和異構(gòu)圖。HWNN(Hypergraph Wavelet Neural Network)[217]、HyperGCN(HyperGraph Convolutional Network)[218]等模型使用了GCN模型對復(fù)雜關(guān)系進(jìn)行建模。

        當(dāng)前,異構(gòu)超圖領(lǐng)域還有許多亟待解決的難題,相關(guān)方法思路及存在的問題如表16所示。

        表16 異構(gòu)超圖表示方法對比Tab.16 Comparison of heterogeneoushypergraph representation methods

        5.2 知識超圖表示

        知識超圖表示學(xué)習(xí)是將超邊以及實體表示為低維稠密向量空間中的向量。異構(gòu)圖表示學(xué)習(xí)與知識圖譜表示學(xué)習(xí)兩個任務(wù)都是受到word2vec(word to vector)[219]啟發(fā)提出的;但是,知識圖譜中的表示學(xué)習(xí)更偏向關(guān)系建模,異構(gòu)圖表示學(xué)習(xí)側(cè)重于學(xué)習(xí)圖的結(jié)構(gòu)信息。

        知識超圖表示學(xué)習(xí)包括基于軟規(guī)則、基于翻譯、基于張量分解以及基于神經(jīng)網(wǎng)絡(luò)等方法。知識超圖表示的主要模型如圖11所示。

        圖11 知識超圖表示的主要模型Fig.11 Main modelsof knowledgehypergraph representation

        1)基于軟規(guī)則的知識超圖表示。

        基于軟規(guī)則的方法將關(guān)系作為謂詞,節(jié)點作為變量,通過設(shè)置關(guān)系推理的邏輯和約束條件進(jìn)行簡單推理。該方法可以很容易地處理可變的超關(guān)系(超邊大小可變),并且具有可解釋性。

        MLN首次將一階邏輯和概率圖模型相結(jié)合,是一個帶權(quán)重的一階知識庫。但是,該模型將概率添加到邏輯公式中,假設(shè)性太強。ProbLog(Probabilistic Prolog)[220]通過將SLD分辨率與布爾模型結(jié)合在一起,RLR(Relational Logistic Regression)[221]通過將邏輯回歸擴展到關(guān)系模型中改進(jìn)了MLN模型。

        2)基于翻譯的知識超圖表示。

        基于翻譯的方法旨在將關(guān)系建模為在超關(guān)系事實中,實體之間的某種轉(zhuǎn)換操作。該方法可以處理可變的超關(guān)系數(shù)據(jù),并且操作較簡單。

        M-TransH(Multi-fold TransH)[187]將TransH擴展到超關(guān)系數(shù)據(jù)中,是第一個基于翻譯的知識超圖表示模型。M-TransH將實體映射到相關(guān)的超平面,用映射結(jié)果的加權(quán)和定義評分函數(shù)。RAE(Relatedness Affiliated Embedding)[222]進(jìn)一步改進(jìn)了關(guān)聯(lián)性假設(shè)。

        3)基于張量分解的知識超圖表示。

        基于張量分解的方法將超關(guān)系事實表示為n階張量,通過張量的分解學(xué)習(xí)節(jié)點的嵌入。該方法大多使用規(guī)范多元分解(Canonical Polyadic Decomposition,CPD),取得了很好的性能;但是操作比較復(fù)雜,評分函數(shù)也只針對二元關(guān)系。

        SimplE(Simple Enhancement of Canonical Polyadic)[223]和ComplEx都是運用二元關(guān)系的約束條件進(jìn)行運算,難以用等價的運算方式將其擴展到超關(guān)系數(shù)據(jù)中。DistMult只針對對稱關(guān)系,難以建模反對稱、逆、組合關(guān)系,不能完全表達(dá)知識圖譜。為此,F(xiàn)atemi等[188]使用特定位置的卷積濾波器表示實體,針對所有關(guān)系類型進(jìn)行建模,實現(xiàn)了性能的極大提升。GETD(GEneralized Tensor Decomposition)[224]結(jié)合Tucker分解和Tensor Ring分解,將核心張量分解為k個三階張量(k大于超邊大小n),能完全表達(dá)所有關(guān)系類型,在滿足性能的同時減少模型的復(fù)雜性。

        4)基于神經(jīng)網(wǎng)絡(luò)的知識超圖表示。

        基于神經(jīng)網(wǎng)絡(luò)的模型能夠?qū)W習(xí)實體之間的交互信息、圖的拓?fù)浣Y(jié)構(gòu)信息等,在關(guān)系建模、結(jié)構(gòu)建模等方面提升了表示學(xué)習(xí)的性能,包括基于CNN的模型以及基于GNN的模型等。

        基于CNN的模型集中于學(xué)習(xí)一個超關(guān)系事實內(nèi)實體之間的交互信息。NaLP(N-ary Link Prediction)[225-226]等都是采用卷積以及全連接網(wǎng)絡(luò)對超關(guān)系事實進(jìn)行學(xué)習(xí),但是表示性能 較 差 。 HINGE(Hyper-relational knowledge Graph Embedding)[227]則采用2D卷積學(xué)習(xí)超關(guān)系事實,該模型相較于NeuInfer實現(xiàn)了性能的極大提升。

        基于GNN的模型結(jié)合關(guān)系建模與圖結(jié)構(gòu)信息的學(xué)習(xí),極大提升了知識超圖表示學(xué)習(xí)的性能。Zhang等[216]采用GAT學(xué)習(xí)超關(guān)系事實,但是忽略了關(guān)系的語義信息。Galkin等[228]采用GCN學(xué)習(xí)目標(biāo)實體的多跳領(lǐng)域信息,在學(xué)習(xí)關(guān)系重要性的同時,學(xué)習(xí)圖的結(jié)構(gòu)信息。

        當(dāng)前,知識超圖領(lǐng)域亟待解決的難題是超邊大小不定問題,即超關(guān)系事實中n不定。相關(guān)模型解決該問題的思路以及存在的問題如表17所示。

        表17 知識超圖表示方法對比Tab.17 Comparison of knowledge hypergraph representation methods

        5.3 知識超圖三層架構(gòu)

        現(xiàn)有知識超圖普遍采用扁平化的結(jié)構(gòu)組織知識,缺乏時空性的表達(dá),導(dǎo)致其時空關(guān)系模糊,知識更新與推理速度慢。因此,本文提出知識超圖三層架構(gòu),實現(xiàn)事理知識、概念知識、實例知識以及時空性的聯(lián)合表達(dá),如圖12所示。其顯著優(yōu)點包括:1)時空關(guān)系清晰明確;2)知識更新全面高效;3)知識推理快速可靠。

        圖12 知識超圖的三層架構(gòu)Fig.12 Three-layer architectureof knowledgehypergraph

        事理層中節(jié)點是具有一定抽象程度的泛化事件,例如“沖突”可表示罷工、集會示威等多個具體的沖突事件。事理層節(jié)點之間的邊是邏輯推理關(guān)系,例如“政治因素”“軍事因素”“輿論因素”“社會因素”等共同作用會導(dǎo)致“沖突”的發(fā)生,因此“政治因素”等與“沖突”之間用“因果”邊相連。

        概念層實體是實例實體的抽象表示,表示為抽象的詞,例如“地點”。概念層實體之間的邊是超邊,例如超邊“示威活動”連接(原因,參與人員類型,發(fā)生時刻,地點,示威內(nèi)容,持續(xù)時間)多個實體,能清晰表示概念實體之間的相關(guān)性。

        事理層與概念層之間的跨層關(guān)系表示事理節(jié)點與概念層超邊之間的關(guān)系,例如,事理層節(jié)點“沖突”對應(yīng)于概念層的超邊“示威活動”。概念層與實例層之間的關(guān)系是概念實體與實例實體之間的映射關(guān)系,例如,概念實體“地點”與實例實體“內(nèi)比都”之間是映射關(guān)系。

        為了發(fā)現(xiàn)超圖中的隱式關(guān)聯(lián),實現(xiàn)深度推理,創(chuàng)新性地提出了時刻與時間兩個屬性,表達(dá)知識超圖的時空特性。其中,“時刻”屬性實體表示實體或超關(guān)系在特定時間點產(chǎn)生或發(fā)生。例如概念層的“發(fā)生時刻”以及實例層的“2020年2月2日”。“時間”屬性實體表示實體或超邊在特定時間間隔內(nèi)發(fā)生或是有效的。例如概念層的“持續(xù)時間”以及實例層的“兩個月”。根據(jù)時空特性,可以實現(xiàn)隱式關(guān)聯(lián)發(fā)現(xiàn)。例如只根據(jù)概念層“頒布政令”超邊與“示威活動”超邊信息,難以推理出其之間的相關(guān)性;但是根據(jù)實例層“2020年2月1日”與“2020年2月2日”在時間軸上的前后關(guān)聯(lián)關(guān)系,可以推理出“頒布政令”與“示威活動”之間可能具有因果關(guān)聯(lián)。

        在三層架構(gòu)中,通過層次之間的映射關(guān)系,例如概念實體“發(fā)生時刻”與實例實體“2020年2月2日”的映射,能實現(xiàn)知識的相互補充;并且根據(jù)這種映射關(guān)系,能夠在知識超圖中快速定位新知識,提高知識更新速度。通過概念層和實例層的時空性表達(dá),例如“2020年2月1日”和“2020年2月2日”,可以發(fā)現(xiàn)“頒布政令”與“示威活動”之間的隱式關(guān)聯(lián),實現(xiàn)深度推理?;诖穗[式關(guān)聯(lián)發(fā)現(xiàn),進(jìn)而可以推理“政治因素”與“沖突”之間的因果關(guān)系,實現(xiàn)事件推理。通過層次之間信息的補充以及時空性表達(dá),能縮減推理的查詢空間,從而提高知識推理速度。

        6 典型應(yīng)用

        隨著人工智能推理需求不斷增強,知識圖譜及超圖在許多領(lǐng)域得到了廣泛應(yīng)用。

        6.1 應(yīng)用方向

        知識圖譜及超圖的應(yīng)用主要集中在語義搜索、知識問答、推薦與決策等方面。

        6.1.1 語義搜索

        語義搜索旨在從語義層次上理解用戶的檢索需求,尋找與之匹配的資源。比如在使用搜索引擎搜索“緬甸的首都”時,返回結(jié)果中排首位的是“內(nèi)比都”。

        語義搜索包括基于文檔的信息檢索和基于知識圖譜的語義搜索?;谖臋n的信息檢索屬于輕量級語義搜索,通常采用字面值一一對應(yīng)或字符串相似度等資源召回方式。其缺點是無法處理同名、別名和復(fù)雜情形?;谥R圖譜的語義搜索屬于重量級語義搜索,能夠?qū)φZ義進(jìn)行顯式和形式化建模。傳統(tǒng)的語義搜索引擎,采用將問題拆分成關(guān)鍵詞、使用限定符號等方法。基于知識圖譜的語義搜索能處理更加復(fù)雜的問題,而無需采用以上方法,并且能夠更清晰地理解用戶的查詢意圖,返回相關(guān)度高、質(zhì)量好的資源,使得語義搜索在工業(yè)界及學(xué)術(shù)界的優(yōu)勢越發(fā)顯著。

        6.1.2 知識問答

        知識問答(Knowledge Base Question Answering,KBQA)是一種將問題帶入知識庫尋求答案的問答系統(tǒng)。知識問答能將用戶輸入的問題轉(zhuǎn)換為客觀世界的實體,而非抽象的字符串。即將自然語言問題通過不同的方法映射為結(jié)構(gòu)化查詢,然后在知識圖譜中獲取答案。

        知識問答包括基于語法規(guī)則的問答和基于知識圖譜的問答。傳統(tǒng)的問答系統(tǒng)基于大量的語法規(guī)則,由于缺乏泛化能力,在搭建新領(lǐng)域問答系統(tǒng)時,需要重新定義規(guī)則?;谥R圖譜的問答提供了實體之間詳細(xì)的關(guān)系,有助于進(jìn)一步實現(xiàn)隱式推理,提高問答質(zhì)量,提高問答速度,適應(yīng)更通用的場景,使推理具有更強的解釋性。未來,基于知識圖譜的問答系統(tǒng)可以實現(xiàn)從單輪問答到多輪交互。

        6.1.3 推薦與決策

        推薦系統(tǒng)是解決信息過載的一個有效方法,可以向沒有明確目的的用戶推薦可能感興趣的項目列表?;谥R圖譜的方法能夠?qū)崿F(xiàn)個性化推薦,并且使推薦具有可解釋性。

        傳統(tǒng)的推薦系統(tǒng)主要考慮用戶序列偏好,卻忽略了用戶細(xì)致偏好,如用戶具體喜歡哪個物品的哪些屬性等;而知識圖譜提供了實體與實體之間更深層次、更長范圍的關(guān)聯(lián),增強了推薦算法的挖掘能力,提高了準(zhǔn)確性和多樣性,并可以有效彌補交互信息的稀疏或缺失(冷啟動問題)。

        決策系統(tǒng)主要以決策主題為中心,通過構(gòu)建決策主題相關(guān)知識庫、模型庫和研究方法庫,為決策主題提供全方位、多層次的決策支持和知識服務(wù)。知識圖譜可以幫助決策沉淀出規(guī)則,提高決策模型的準(zhǔn)確性和關(guān)聯(lián)性。

        6.2 應(yīng)用領(lǐng)域

        知識圖譜及超圖能夠更加快速、高效地處理多源異構(gòu)數(shù)據(jù),并進(jìn)行關(guān)聯(lián)分析,已在軍事、醫(yī)療、交通、金融等眾多領(lǐng)域得到廣泛應(yīng)用。本節(jié)將介紹知識圖譜及超圖在特定領(lǐng)域的相關(guān)應(yīng)用。

        6.2.1 軍事領(lǐng)域

        隨著戰(zhàn)場信息化水平不斷提高,傳統(tǒng)的信息搜索和查詢方式已經(jīng)無法滿足大量戰(zhàn)場信息和軍事知識的獲取與分析需求。構(gòu)建基于軍事信息庫的知識圖譜,可以為作戰(zhàn)指揮人員提供更加精確的情報,極大地提高部隊作戰(zhàn)效率。

        基于軍事知識圖譜,建立軍事武器問答系統(tǒng)和聯(lián)合作戰(zhàn)信息服務(wù)系統(tǒng),可以實現(xiàn)軍事輔助決策。未來,軍事知識圖譜能夠提供大規(guī)模自主知識約束空間解決方案及智慧指揮決策解決方案,在虛擬情報參謀、隱含知識發(fā)現(xiàn)、情報智能關(guān)聯(lián)等場景中發(fā)揮重要作用,提升部隊作戰(zhàn)能力。

        6.2.2 醫(yī)療領(lǐng)域

        智能醫(yī)療的關(guān)鍵是從海量、異構(gòu)、動態(tài)的醫(yī)療系統(tǒng)中提取有效的醫(yī)學(xué)知識,通過整合臨床醫(yī)學(xué)數(shù)據(jù),建立醫(yī)療知識圖譜,實現(xiàn)核心醫(yī)學(xué)概念的全方位覆蓋以及臨床醫(yī)學(xué)知識的高效分類整理和規(guī)范化表達(dá)。

        知識圖譜具有更接近于人類的認(rèn)知思維模式,能夠提高醫(yī)療信息系統(tǒng)的智能化水平,為醫(yī)療領(lǐng)域提供了從海量的醫(yī)學(xué)文本和圖像信息中抽取結(jié)構(gòu)化知識的手段。基于醫(yī)療知識圖譜,可以實現(xiàn)醫(yī)療知識問答、智能輔助診療、醫(yī)療質(zhì)量控制及疾病風(fēng)險評估等,具有廣闊的發(fā)展前景。

        6.2.3 交通領(lǐng)域

        隨著城市規(guī)模迅速擴張,交通線路規(guī)模不斷龐大,空中交通流量大幅增多,公共交通所占比重不斷增加。交通知識圖譜可以實現(xiàn)交通流量分析建模、航空交通管理以及公共場景挖掘等。

        交通知識圖譜可以實現(xiàn)同乘人員識別提取、公交站點群出行量和運力挖掘、最大公交客流提取識別、線路站點上下車客流提取等,為公共交通領(lǐng)域提供了有效的決策和參考。未來,隨著無人駕駛技術(shù)的普及,智能交通概念深入城市軌道與公路系統(tǒng),交通知識圖譜將支撐交通部門決策,生成動態(tài)交通信息對事故進(jìn)行實時預(yù)警、規(guī)避交通風(fēng)險。

        6.2.4 金融領(lǐng)域

        由于投資的高風(fēng)險性,金融行業(yè)需要更為準(zhǔn)確和可靠的實時數(shù)據(jù)。知識圖譜作為數(shù)據(jù)驅(qū)動的人工智能,能夠存儲金融資訊、行情等海量數(shù)據(jù)中包含的實體、關(guān)系和屬性。

        金融知識圖譜可以實現(xiàn)金融咨詢推薦,風(fēng)險控制評估,依據(jù)生成資訊的多維智能標(biāo)簽,精準(zhǔn)掌握復(fù)雜信息中的隱藏風(fēng)險。通過獲取開源信息,基于知識圖譜中大量金融資訊的關(guān)聯(lián)信息,識別命名實體并提取相關(guān)股票之間的業(yè)務(wù)往來關(guān)系,并結(jié)合相關(guān)股票的新聞,預(yù)測股票走勢。未來,基于知識圖譜的金融數(shù)據(jù)平臺,在信息隱含關(guān)聯(lián)挖掘方面有著不可替代的能力,促進(jìn)金融升級轉(zhuǎn)型。

        6.2.5 其他領(lǐng)域

        除此以外,知識圖譜在教育、通信等領(lǐng)域也有廣泛應(yīng)用,比如學(xué)科問答機器人、通信故障定位分析、網(wǎng)絡(luò)安全監(jiān)測等。

        目前,大規(guī)模知識圖譜在智能語義搜索、知識問答、演化分析、對話理解等方面的應(yīng)用處于初級階段,潛在應(yīng)用領(lǐng)域廣泛,推廣前景廣闊。從知識圖譜應(yīng)用發(fā)展趨勢來看,當(dāng)前正值通用知識圖譜應(yīng)用轉(zhuǎn)向領(lǐng)域知識圖譜應(yīng)用的階段。

        6.3 未來方向

        在未來,無論是軍用還是民用領(lǐng)域,融合知識圖譜與深度學(xué)習(xí)技術(shù)已成為人工智能進(jìn)一步發(fā)展的重要思路。

        在知識表示方面,通過研究事理邏輯知識的表示,描述事件之間的模式和演化規(guī)律。在知識推理方面,使用類似于圖網(wǎng)絡(luò)的統(tǒng)一框架,提高推理效率;通過結(jié)合邏輯規(guī)則和概率圖等,實現(xiàn)更快、更準(zhǔn)、更全且解釋性更強的推理。在應(yīng)用方面,基于大規(guī)模的非結(jié)構(gòu)化數(shù)據(jù)自動構(gòu)建知識圖譜,使其具有較強的可拓展性。此外,研究包含時空屬性的動態(tài)知識圖譜,可以解決傳統(tǒng)知識表示與推理的局限性問題。

        總體而言,知識圖譜將賦能認(rèn)知智能,具有廣泛且多樣的應(yīng)用需求,能夠產(chǎn)生巨大社會價值,對社會結(jié)構(gòu)產(chǎn)生深遠(yuǎn)影響。

        7 結(jié)語

        知識圖譜突破了傳統(tǒng)的數(shù)據(jù)存儲及使用方式,以圖結(jié)構(gòu)呈現(xiàn)各類領(lǐng)域知識,為人工智能技術(shù)發(fā)展和模型推理提供了堅實的知識支撐。本文對知識圖譜和知識超圖的研究工作和應(yīng)用現(xiàn)狀進(jìn)行了闡述、分析和總結(jié),從知識圖譜基本概念出發(fā),系統(tǒng)地介紹了知識表示與存儲方式、知識圖譜構(gòu)建技術(shù)、知識推理方法和知識超圖表示方法。創(chuàng)新性提出三層架構(gòu)的知識超圖,表示真實世界中各類復(fù)雜知識關(guān)系,實現(xiàn)邏輯結(jié)構(gòu)清晰、時空關(guān)系明確的知識快速推理。此外,結(jié)合技術(shù)研究進(jìn)展,介紹了知識圖譜和知識超圖的實際應(yīng)用,并作出展望。希望綜述內(nèi)容能夠為知識圖譜和知識超圖領(lǐng)域研究提供理論指導(dǎo)和創(chuàng)新思路。

        猜你喜歡
        圖譜實體語義
        繪一張成長圖譜
        語言與語義
        前海自貿(mào)區(qū):金融服務(wù)實體
        中國外匯(2019年18期)2019-11-25 01:41:54
        實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
        補腎強身片UPLC指紋圖譜
        中成藥(2017年3期)2017-05-17 06:09:01
        兩會進(jìn)行時:緊扣實體經(jīng)濟“釘釘子”
        振興實體經(jīng)濟地方如何“釘釘子”
        主動對接你思維的知識圖譜
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        認(rèn)知范疇模糊與語義模糊
        久久精品国产亚洲av超清| 99久久99久久久精品久久| 精精国产xxxx视频在线播放器| 一区二区三区精彩视频在线观看| 日韩美腿丝袜三区四区| 精品无码一区二区三区的天堂| 无码丰满熟妇一区二区| 亚洲中文久久精品无码ww16| 国产亚洲曝欧美不卡精品| 人妻被公上司喝醉在线中文字幕| 音影先锋中文字幕在线| 日本精品无码一区二区三区久久久| 又黄又爽又色的视频| 亚洲av永久青草无码精品| 日本一区二区三区一级片| 超碰国产精品久久国产精品99| 男女视频一区二区三区在线观看| 亚洲精品宾馆在线精品酒店| 精品人妻午夜一区二区三区四区| 伊人久久精品久久亚洲一区| 樱花AV在线无码| 91蜜桃国产成人精品区在线| 中文av字幕一区二区三区| 亚洲av无码乱码在线观看牲色| 久久久精品人妻一区二区三区蜜桃| 色欲AV无码久久精品有码| 无码制服丝袜中文字幕| 亚洲美女一区二区三区三州| 亚洲综合国产成人丁香五月激情| 中文字幕无线码| 亚洲区日韩精品中文字幕| 久久无人码人妻一区二区三区| 久久狼精品一区二区三区| 麻豆一区二区三区蜜桃免费| 四虎影视在线观看2413| 国产在线精品亚洲视频在线 | 色视频日本一区二区三区| 粉嫩国产av一区二区三区| 国产精品∧v在线观看| 91网站在线看| 国产一区亚洲一区二区|