亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        深度學(xué)習(xí)與知識(shí)推理相結(jié)合的研究綜述

        2022-01-22 07:47:34郭文忠文朝武龍潔花
        關(guān)鍵詞:語(yǔ)義語(yǔ)言信息

        張 宇,郭文忠,林 森,文朝武,龍潔花

        1.北京農(nóng)業(yè)智能裝備技術(shù)研究中心,北京 100097

        2.吉林農(nóng)業(yè)大學(xué)信息技術(shù)學(xué)院,長(zhǎng)春 130118

        隨著物聯(lián)網(wǎng)、人工智能、大數(shù)據(jù)等技術(shù)的不斷發(fā)展,知識(shí)數(shù)據(jù)呈指數(shù)爆炸式增長(zhǎng)。為了可以簡(jiǎn)潔明了描述知識(shí)和建立世界萬物之間的關(guān)系,并隨時(shí)管理、更新及應(yīng)用知識(shí)數(shù)據(jù),知識(shí)圖譜順勢(shì)而生。2012年,谷歌公司正式提出了知識(shí)圖譜[1-8](knowledge graph),其本質(zhì)就是一種大規(guī)模的語(yǔ)義網(wǎng)絡(luò),以圖的知識(shí)表達(dá)方式形式直觀表現(xiàn)客觀世界中的實(shí)體(概念、人、事物)及其之間關(guān)系的網(wǎng)絡(luò)化結(jié)構(gòu)。比起傳統(tǒng)的語(yǔ)義網(wǎng)絡(luò),它不僅規(guī)模巨大,而且語(yǔ)義豐富、質(zhì)量?jī)?yōu)異、結(jié)構(gòu)友好,可以支持組織網(wǎng)絡(luò)數(shù)據(jù),從而提供智能搜索服務(wù)的知識(shí)庫(kù)。具體地,李艷茹等[1]針對(duì)傳統(tǒng)知識(shí)圖譜中知識(shí)點(diǎn)存儲(chǔ)與推理方法的弊端,提出一種CRA模型,可以便捷且有效地構(gòu)建和展示高中數(shù)學(xué)課程知識(shí)圖譜;文獻(xiàn)[2]利用KG的潛力來解決行業(yè)產(chǎn)品開發(fā)和服務(wù)創(chuàng)新點(diǎn)進(jìn)行全面和徹底的討論,對(duì)工業(yè)產(chǎn)品和服務(wù)中的KG開發(fā)以及提高實(shí)踐適應(yīng)性的定制進(jìn)行了系統(tǒng)調(diào)查;Majid等[3]提出了一種波斯語(yǔ)知識(shí)圖譜群體系統(tǒng),該系統(tǒng)從從網(wǎng)絡(luò)中爬行的無標(biāo)簽原始文本中提取知識(shí);曹永強(qiáng)等[4]利用文獻(xiàn)計(jì)量Citespace可視化分析軟件,采用文獻(xiàn)計(jì)量、共被引分析、引文網(wǎng)絡(luò)結(jié)構(gòu)變換、可視化等方法探究作物需水研究領(lǐng)域發(fā)展現(xiàn)狀,繪制作物需水研究領(lǐng)域的科學(xué)合作、學(xué)科發(fā)展演化規(guī)律、潛在影響力文獻(xiàn)或主題結(jié)構(gòu)網(wǎng)絡(luò)等知識(shí)圖譜,以找出作物需水研究領(lǐng)域的科學(xué)合作特征、研究主題的演化規(guī)律并預(yù)測(cè)具有潛在影響力的主題和學(xué)者;孫龍龍等[5]為全面、系統(tǒng)、客觀地反映建筑安全領(lǐng)域計(jì)算機(jī)視覺技術(shù)的研究成果及其不足,運(yùn)用知識(shí)圖譜分析工具VOSviewer 對(duì)來自WOS 數(shù)據(jù)庫(kù)核心合集上的166 篇相關(guān)研究文獻(xiàn)進(jìn)行了可視化定量分析并輔以定性分析,分析了計(jì)算機(jī)視覺技術(shù)在建筑安全領(lǐng)域的研究現(xiàn)狀與發(fā)展趨勢(shì);Deng等[6]定義并構(gòu)建了一個(gè)專利知識(shí)圖譜,以捕獲專利域中關(guān)鍵字之間的語(yǔ)義信息,然后,根據(jù)專利知識(shí)圖譜將專利和公司描述為加權(quán)圖譜。最后,通過比較基于圖表編輯距離度量的加權(quán)圖譜來生成建議;Liu等[7]提出了一種基于知識(shí)圖譜的生成問題回答方法,包括知識(shí)詞匯構(gòu)建、數(shù)據(jù)預(yù)處理和答案生成三個(gè)部分。實(shí)驗(yàn)結(jié)果表明,該方法在WebQA 數(shù)據(jù)集上比其他方法具有卓越的性能;龔樂君等[8]基于長(zhǎng)鏈非編碼核糖核酸和疾病關(guān)系的分析,對(duì)LncRNA 和疾病知識(shí)概念建模,提出一種有效的LncRNA與疾病關(guān)系的知識(shí)圖譜構(gòu)建方法,并通過SPARQL 查詢語(yǔ)言和可視化技術(shù)展示知識(shí)查詢的推理效果。實(shí)際上,知識(shí)圖譜源于1997 年圖靈獎(jiǎng)獲得者愛德華·費(fèi)根鮑姆提出的“知識(shí)工程”的概念,本質(zhì)上,知識(shí)圖譜就是一個(gè)具有圖數(shù)據(jù)庫(kù)的知識(shí)庫(kù)。

        知識(shí)圖譜由節(jié)點(diǎn)和邊組成。節(jié)點(diǎn)可以是實(shí)體、抽象的概念。邊可以是實(shí)體的屬性、實(shí)體之間的關(guān)系。例如:中國(guó)-首都-北京,這種描述方式為三元組事實(shí)描述,其中中國(guó)為頭實(shí)體,首都為關(guān)系,北京為尾實(shí)體,意思為中國(guó)的首都是北京。知識(shí)圖譜正是因?yàn)槠浠趫D結(jié)構(gòu)的數(shù)據(jù)格式、二元關(guān)系為基礎(chǔ)的描述形式、語(yǔ)義表達(dá)能力豐富、描述形式統(tǒng)一、表示方法對(duì)人類和計(jì)算機(jī)友好,所以被廣泛關(guān)注和應(yīng)用。

        目前,面向開放領(lǐng)域和垂直領(lǐng)域構(gòu)建了各種大規(guī)模知識(shí)圖譜,例如Freebase[9]、Wikidata[10]、Schema.ORG[11],都是人工或者半自動(dòng)方式由下到上構(gòu)建,導(dǎo)致這些圖譜中存在大量實(shí)體之間的隱含關(guān)系沒有被挖掘出來或者挖掘的關(guān)系是錯(cuò)誤關(guān)系。這些缺點(diǎn)限制了AI領(lǐng)域的應(yīng)用發(fā)展。所以如何將現(xiàn)有知識(shí)圖譜的知識(shí)補(bǔ)充完整成為知識(shí)圖譜的炙手可熱的重要問題之一。

        知識(shí)補(bǔ)全(knowledge graph completion)[12-15]技術(shù)便是應(yīng)對(duì)知識(shí)圖譜中知識(shí)不完整或者知識(shí)錯(cuò)誤問題的方法,知識(shí)推理為其中方法之一。知識(shí)推理指從已有的知識(shí)出發(fā),通過運(yùn)用各種方法對(duì)各種事物進(jìn)行思考、理解、認(rèn)知、分析和決策,找出其中隱含的知識(shí),或者推斷出未知知識(shí)的過程,使知識(shí)圖譜逐漸完整?,F(xiàn)在的AI領(lǐng)域,都可以利用深度學(xué)習(xí),隨著深度學(xué)習(xí)的的不斷發(fā)展,深度學(xué)習(xí)與知識(shí)推理相結(jié)合的方法逐漸顯示出強(qiáng)大的魯棒性。本文通過簡(jiǎn)單介紹面向知識(shí)圖譜的知識(shí)推理相關(guān)概念,歸納總結(jié)基于深度學(xué)習(xí)的是推理研究進(jìn)展,并討論了相關(guān)問題和下一步研究建議。

        1 知識(shí)推理介紹

        推理在科技進(jìn)步和社會(huì)發(fā)展中一直扮演著重要的角色,包含了思考-認(rèn)知-理解-創(chuàng)新到再思考-認(rèn)知-理解-創(chuàng)新,一直是一個(gè)循環(huán)狀態(tài),也是感知世界的重要途徑。知識(shí)推理[16-20]種類繁多,根據(jù)側(cè)重點(diǎn)不同,可以分為很多種,詳細(xì)見圖1。Gilgur 等[21]認(rèn)為推理是一種自上而下的邏輯推理,是指在給定的一個(gè)或多個(gè)前提的情況下,推斷出一個(gè)必然成立的結(jié)論的過程。Steven 等[22]認(rèn)為推理是一種自下而上的推理,指基于已有的部分觀察得出一般結(jié)論的過程。孫婧婧等[23]認(rèn)為推理是給定一個(gè)或多個(gè)已有觀察事實(shí)并根據(jù)已有的知識(shí)推斷出對(duì)已有觀察最簡(jiǎn)單且最有可能的解釋的過程。Yuan 等[24]認(rèn)為推理有助于理解他人的意圖,并有助于在符號(hào)及其參考者之間建立對(duì)應(yīng)關(guān)系,將已知事物上的結(jié)論遷移到新的事物上的過程。實(shí)質(zhì)上,知識(shí)推理指根據(jù)已有的知識(shí)去推斷未知知識(shí)的過程。

        圖1 知識(shí)推理分類Fig.1 Classification of knowledge reasoning

        目前研究的大多數(shù)知識(shí)圖譜中,知識(shí)都是以三元組形式進(jìn)行存儲(chǔ),所以知識(shí)推理是圍繞實(shí)體和關(guān)系進(jìn)行推理,主要包括實(shí)體預(yù)測(cè),即已知頭實(shí)體(h)、尾實(shí)體(t)和關(guān)系(r),預(yù)測(cè)最有可能的尾實(shí)體或頭實(shí)體,使構(gòu)成事實(shí)三元組;鏈接預(yù)測(cè),已知兩個(gè)實(shí)體,推理出關(guān)系,使之成為完整三元組。

        由于分析的角度不同,有很多種推理方法。官賽萍等[25]按照推理背景的不同將知識(shí)推理分為傳統(tǒng)知識(shí)推理和面向知識(shí)圖譜的知識(shí)推理。漆桂林等[26]認(rèn)為面向知識(shí)圖譜的知識(shí)推理按照推理方法的不同可分為基于本體的推理、基于圖結(jié)構(gòu)的推理和基于深度學(xué)習(xí)的推理等?;谏疃葘W(xué)習(xí)[27-31]的知識(shí)推理利用不同的模型建模知識(shí)圖譜事實(shí)三元組,得到預(yù)測(cè)實(shí)體或預(yù)測(cè)關(guān)系的K命中率和模型的準(zhǔn)確率、召回率,K命中率為事實(shí)三元組的評(píng)價(jià)標(biāo)準(zhǔn)。Chen 等[32]提出了一種基于LSTM 的輿論模型。通過多模態(tài)信息融合,該模型利用多源信息的互補(bǔ)優(yōu)勢(shì)來提高模型的估計(jì)性能,在豬肉價(jià)格預(yù)測(cè)任務(wù)中,取得了更好的預(yù)測(cè)效果。李曉英等[33]利用基于深度學(xué)習(xí)的不均衡文本分類方法選擇不均衡文本特征將評(píng)分標(biāo)準(zhǔn)設(shè)置為文檔概率相關(guān)度之差的最小值,令所選取文本特征均衡分布于多數(shù)類以及少數(shù)類中,改進(jìn)文本特征的均衡性。實(shí)驗(yàn)結(jié)果表明,該方法可有效分類不均衡文本,分類精度高達(dá)99.5%以上。

        面向知識(shí)圖譜的推理主要圍繞關(guān)系的推理展開,利用圖譜中已有的事實(shí)或關(guān)系推斷出未知的事實(shí)或關(guān)系,主要考察實(shí)體、關(guān)系與圖譜結(jié)構(gòu)的特征信息。但是隨著數(shù)據(jù)的增長(zhǎng),傳統(tǒng)的知識(shí)推理方法逐漸無法推理出正確率高的事實(shí)三元組。隨著人工智能技術(shù)的發(fā)展,深度學(xué)習(xí)在大數(shù)據(jù)和計(jì)算能力的支持下煥發(fā)了驚人的能量,它的分布式表示和深層結(jié)構(gòu)為知識(shí)推理提供了強(qiáng)大的建模功能,具有強(qiáng)大的學(xué)習(xí)能力,而基于深度學(xué)習(xí)的知識(shí)推理使深度學(xué)習(xí)和知識(shí)推理相互促進(jìn),以更強(qiáng)大的學(xué)習(xí)能力進(jìn)行推理。近幾年,隨著深度學(xué)習(xí)的不斷研究,深度學(xué)習(xí)和知識(shí)推理的結(jié)合吸引了越來越多研究者的目光,本文簡(jiǎn)介其研究進(jìn)展,并說明各類推理模型的基本思路與方法。

        2 基于深度學(xué)習(xí)的知識(shí)推理

        基于深度學(xué)習(xí)的知識(shí)推理的主要思路是利用深度學(xué)習(xí)的分布式表示和深層架構(gòu)來建模知識(shí)圖譜的事實(shí)三元組。具體的,基于深度學(xué)習(xí)的知識(shí)推理依據(jù)知識(shí)的屬性分為基于知識(shí)表示學(xué)習(xí)的推理、基于知識(shí)獲取的推理以及基于知識(shí)計(jì)算應(yīng)用的推理。

        2.1 基于知識(shí)表示學(xué)習(xí)的推理

        基于知識(shí)表示學(xué)習(xí)[34]的推理通過挖掘現(xiàn)實(shí)文本中的實(shí)體和關(guān)系信息,能夠?qū)⒅R(shí)組織成結(jié)構(gòu)化的知識(shí)網(wǎng)絡(luò)。利用這些豐富的結(jié)構(gòu)化信息將有助于我們?cè)僦R(shí)驅(qū)動(dòng)下更好地完成各種場(chǎng)景下的推理任務(wù)。本節(jié)介紹三種基于知識(shí)表示學(xué)習(xí)的推理,從細(xì)節(jié)到整體、從點(diǎn)到面依次介紹三種推理方法。其中CTransR 模型對(duì)頭尾實(shí)體間的潛在關(guān)系進(jìn)行聚類,并為每一個(gè)聚類的簇單獨(dú)建立向量表示;PTransE 模型將知識(shí)圖譜中的關(guān)系路徑融入知識(shí)表示模型中;TKRL模型將實(shí)體以不同的方式投影到各自的關(guān)系空間中,但各個(gè)實(shí)體的投影矩陣可能不同,且投影矩陣的構(gòu)建受到實(shí)體層次類型指導(dǎo)。

        2.1.1 CTransR模型

        在知識(shí)圖譜中,很多不同的三元組在相同的關(guān)系會(huì)有一定的多樣性。比如,關(guān)系“屬于”可以出現(xiàn)在2008年奧運(yùn)會(huì)舉辦權(quán)屬于中國(guó)北京、臺(tái)灣屬于中國(guó)等多種情況中。為了進(jìn)一步增強(qiáng)模型對(duì)這種復(fù)雜關(guān)系的建模能力,劉知遠(yuǎn)等[35]提出一種在TransR[36]的基礎(chǔ)上的CTransR模型,CTransR 模型給予分段線性回歸的思路,對(duì)TransR進(jìn)行了進(jìn)一步拓展。模型對(duì)頭實(shí)體和尾實(shí)體之間可能存在的關(guān)系進(jìn)行聚類,并為每一個(gè)聚類的簇單獨(dú)建立向量表示。所有訓(xùn)練數(shù)據(jù)包含的特定關(guān)系r的實(shí)體對(duì)(h,t)將會(huì)根據(jù)(h-t)被聚類到若干組中,其中h、t為TransE[37]得到的實(shí)體嵌入。對(duì)于任意一個(gè)三元組(h,r,t),實(shí)體嵌入為h,t∈Rk,相應(yīng)關(guān)系嵌入為r∈Rd,但是實(shí)體嵌入和關(guān)系嵌入的維數(shù)不一定相同,即k≠d。通過對(duì)于每個(gè)關(guān)系設(shè)置一個(gè)投影矩陣Mr∈Rk×d,它可以將實(shí)體從實(shí)體空間投影到關(guān)系空間。通過映射矩陣,將實(shí)體的投影向量定義為hr=hMr,tr=tMr。假設(shè)同一組內(nèi)的實(shí)體對(duì)所表現(xiàn)的關(guān)系r呦相近的特征,而不同組內(nèi)的關(guān)系r可能表達(dá)不同意義。因此,對(duì)每一組實(shí)體對(duì)c,CTransR 學(xué)習(xí)了一個(gè)單獨(dú)的關(guān)系嵌入rc,相應(yīng)的得分函數(shù)通過一下定義:

        ||rc-r旨在確保特定于集群的關(guān)系向量不會(huì)離原始向量太遠(yuǎn),而α控制次約束的效果,對(duì)于任意的h,r,t,有||h||2 ≤1,||r||2 ≤1,||t||2 ≤1,||hMr||2 ≤1,||tMr||2 ≤1。

        為了證明CTransR 模型的優(yōu)越性,利用WN11、WN18[38]、FB13K、FB15K[39]數(shù)據(jù)集,在鏈接預(yù)測(cè)、三元組分類及文本關(guān)系抽取任務(wù)上進(jìn)行了實(shí)驗(yàn),采用兩種不同的負(fù)例采樣算法unif(均衡采樣)和bern(基于頭尾實(shí)體分布伯努利采樣),最后的結(jié)果證明CTransR 模型要比TransE和TransH模型在效率和復(fù)雜度上表現(xiàn)更為平衡。

        CTransR 模型在一對(duì)一和多對(duì)多數(shù)據(jù)中表現(xiàn)優(yōu)異,但是在一對(duì)多和多對(duì)一種表現(xiàn)較差。

        2.1.2 PTransE模型

        TransE 模型及其擴(kuò)展模型以往只考慮到了實(shí)體之間的直接關(guān)系,但在很多知識(shí)圖譜中,實(shí)體之間的多步關(guān)系路徑蘊(yùn)含了豐富的語(yǔ)義信息,而關(guān)系路徑的特征對(duì)進(jìn)行知識(shí)表示具有重要的意義。比如,hat隱含了h和t之間的爺爺祖父關(guān)系,即(h,祖父,t)。由此劉知遠(yuǎn)等人提出了PTransE 模型,將知識(shí)圖譜中的關(guān)系路徑融入知識(shí)表示學(xué)習(xí)模型中。

        PTransE的簡(jiǎn)易示意圖如圖2所示。

        圖2 PTransE建議示意圖Fig.2 Proposed schematic diagram of PTransE

        PTransE 仍是平移假設(shè),但單個(gè)關(guān)系三元組以關(guān)系路徑取代,即PTransE為關(guān)系三元組定義的得分函數(shù)考慮了實(shí)體間的多步路徑信息:

        其中,E(h,r,t)用直接關(guān)系三元組描述了實(shí)體與關(guān)系之間的相關(guān)性,比如TransE中定義的:

        而E(h,P,t)是PTransE 模型的不同之處,它通過多步路徑來描述關(guān)系層面的推理信息。因?yàn)橐粋€(gè)實(shí)體對(duì)(h,t)在知識(shí)圖譜中可能存在多個(gè)不同的關(guān)系路徑,不同關(guān)系路徑在體現(xiàn)實(shí)體間聯(lián)系方面的可靠性也大不相同,所以定義E(h,P,t)為各關(guān)系路徑下得分函數(shù)根據(jù)其可靠性加權(quán)平均的結(jié)果:

        PTransE模型通過編碼關(guān)系路徑將實(shí)體和關(guān)系嵌入一個(gè)低緯空間之中,并且利用路徑約束的資源分配算法和語(yǔ)義復(fù)合算法來表示路徑。可以實(shí)現(xiàn)高性能的知識(shí)圖譜補(bǔ)全(實(shí)體預(yù)測(cè)和關(guān)系預(yù)測(cè))和文本關(guān)系抽取。但是如果不考慮知識(shí)圖譜的特征,PTransE 相比于TransE是有一定劣勢(shì)的,因?yàn)橹R(shí)圖譜的實(shí)體表示為關(guān)系預(yù)測(cè)提供了關(guān)鍵信息。而且在頭實(shí)體多對(duì)多預(yù)測(cè)中,PTransE模型命中率只有60%。

        2.1.3 TKRL模型

        由于傳統(tǒng)的知識(shí)表示方法對(duì)實(shí)體嵌入加以約束的監(jiān)督僅使用知識(shí)圖譜之間的關(guān)系信息,難以深入理解實(shí)體和三元組。而且實(shí)體層次類型信息具有人工定義的結(jié)構(gòu)化體系,可以看作一種較為準(zhǔn)確的先驗(yàn)知識(shí)。一些開放式的大規(guī)模知識(shí)圖譜都維護(hù)著一套自己的實(shí)體層次類型信息。因此,劉知遠(yuǎn)等[35]提出將實(shí)體層次類型信息應(yīng)用在世界知識(shí)表示學(xué)習(xí)中,他們認(rèn)為特定關(guān)系下的實(shí)體有更需要突出的實(shí)體類型,而這些實(shí)體在突出不同類型時(shí)應(yīng)該有不同的知識(shí)表示。例如,在圖3中的實(shí)體層次類型信息樣例中,會(huì)發(fā)現(xiàn)在效力這個(gè)關(guān)系下,姚明更應(yīng)該突出籃球運(yùn)動(dòng)員這個(gè)類型,而休斯頓火箭隊(duì)更應(yīng)該突出籃球隊(duì)這個(gè)類型,這些相對(duì)重要的實(shí)體在圖3中以實(shí)現(xiàn)進(jìn)行連接。所以,對(duì)于圖3 中的三元組,應(yīng)該由姚明在效力上的知識(shí)表示與休斯頓火箭隊(duì)在籃球隊(duì)上的知識(shí)表示進(jìn)行交互。劉知遠(yuǎn)等人[35]提出了融合實(shí)體層次類型信息的知識(shí)表示學(xué)習(xí)模型(TKRL),它可以通過利用實(shí)體的類型信息來指導(dǎo)知識(shí)表示學(xué)習(xí),使不同情景下的實(shí)體具有不同的嵌入表示。

        圖3 Freebase實(shí)體層次類型信息示例Fig.3 Example of Freebase entity level type information

        TKRL 模型基于平移假設(shè)思想,從TKRL 的能量函數(shù)式(7)中可以看出,TKRL 模型對(duì)各個(gè)實(shí)體的投影矩陣的構(gòu)建受到實(shí)體層次類型指導(dǎo),因此投影矩陣可能不同。

        其中,Mc為層次類型c的投影矩陣。尾實(shí)體t的投影矩陣同理可以得到。

        基于加權(quán)層次編碼器的模型快于基于遞歸層次編碼器的模型,在關(guān)系類型預(yù)測(cè)中,基于RHE 的TKRL 模型表現(xiàn)較好,在實(shí)體預(yù)測(cè)中,基于WHE的TKRL模型表現(xiàn)較好。TKRL模型蘊(yùn)含了豐富的信息,能夠幫助建立更精確的知識(shí)表示,而且在加以軟類型限制的前提下,可以進(jìn)一步提高知識(shí)表示的精確度。但是當(dāng)數(shù)據(jù)類型不加以限制時(shí),TKRL模型的平均排名、一命中率、十命中率等都會(huì)下降。

        2.2 基于知識(shí)獲取的推理

        基于知識(shí)的自動(dòng)獲取[41]的推理指利用實(shí)體或關(guān)系抽取的視角介紹語(yǔ)言知識(shí)的自動(dòng)獲取。本節(jié)主要以關(guān)系抽取為切入點(diǎn),關(guān)系抽取指在沒有標(biāo)注過的文本中抽取實(shí)體間的關(guān)系,然后將實(shí)體與關(guān)系結(jié)構(gòu)化為語(yǔ)言知識(shí)擴(kuò)充到相應(yīng)的知識(shí)圖譜之中。本節(jié)將基于語(yǔ)言多樣性分別介紹基于關(guān)系層次注意力機(jī)制的關(guān)系抽取的知識(shí)推理、基于對(duì)抗訓(xùn)練的多語(yǔ)言知識(shí)關(guān)系抽取的知識(shí)推理和基于跨語(yǔ)言詞匯的義原預(yù)測(cè)的知識(shí)推理。基于關(guān)系層次注意力機(jī)制的關(guān)系抽取的知識(shí)推理根據(jù)每個(gè)實(shí)例在表達(dá)特定關(guān)系上的重要程度計(jì)算一個(gè)注意力得分;基于對(duì)抗訓(xùn)練的多語(yǔ)言知識(shí)關(guān)系抽取的知識(shí)推理能夠有效使用對(duì)抗訓(xùn)練技術(shù)在多語(yǔ)言環(huán)境下學(xué)習(xí)單一語(yǔ)言的獨(dú)特性質(zhì),同時(shí)在全局融合多種語(yǔ)言的共同特性,使抽取系統(tǒng)利用多語(yǔ)言語(yǔ)料進(jìn)行更高效的知識(shí)獲取;基于跨語(yǔ)言詞匯的義原預(yù)測(cè)的知識(shí)推理旨在現(xiàn)有的義原知識(shí)圖譜出發(fā),更高效地為其他語(yǔ)言建立義原知識(shí)圖譜。

        2.2.1 基于關(guān)系層次注意力機(jī)制的關(guān)系抽取知識(shí)推理

        圖4 基于關(guān)系層次注意力機(jī)制的關(guān)系抽取模型結(jié)構(gòu)Fig.4 Structure of relational extraction model based on relational hierarchical attention mechanism

        為了綜合利用不同層次上不同細(xì)粒度[43]的注意力特性,基于層次選擇注意力機(jī)制對(duì)不同層的文本關(guān)系表示進(jìn)行拼接,實(shí)例包S(h,t)的最終表示為:

        最終,s(h,t)會(huì)被作為模型后續(xù)部分的輸入通過一個(gè)Softmax層計(jì)算條件概率計(jì)算,即:

        其中,θ是全部模型的參數(shù),|R|是關(guān)系類型的總數(shù)量,o是神經(jīng)網(wǎng)絡(luò)的最終輸出向量,表示對(duì)所有關(guān)系類型的預(yù)測(cè)分?jǐn)?shù),具體為o=Ms(h,t)+d,其中d是偏置向量,M是所有關(guān)系類型的表示矩陣。

        此模型通過利用關(guān)系層次可以充分考慮到關(guān)系之間的聯(lián)系,以此提供不同粒度的實(shí)例選擇能力,幫助抽取長(zhǎng)尾關(guān)系,但是提升的結(jié)果有限。且當(dāng)數(shù)據(jù)比較稀疏時(shí),它的穩(wěn)定性相對(duì)較差,所以未來要著重研究如何解決長(zhǎng)尾關(guān)系的問題。

        2.2.2 基于對(duì)抗訓(xùn)練的多語(yǔ)言關(guān)系抽取的推理

        由于數(shù)據(jù)的爆炸式增長(zhǎng),互聯(lián)網(wǎng)信息資源多種多樣,單語(yǔ)言場(chǎng)景下的關(guān)系抽取已經(jīng)無法滿足當(dāng)前的多語(yǔ)言環(huán)境,而且在當(dāng)前環(huán)境下基于跨語(yǔ)言注意力機(jī)制的關(guān)系抽取模型也無法有效抽取深層的各語(yǔ)言一致的語(yǔ)義信息和多樣的結(jié)構(gòu)信息,因此劉知遠(yuǎn)等[35]提出一種基于對(duì)抗訓(xùn)練的多語(yǔ)言關(guān)系抽取的推理模型(AMNRE),如圖5 所示。該模型引入語(yǔ)言2 獨(dú)立語(yǔ)義空間,能夠有效地與語(yǔ)言1 獨(dú)立語(yǔ)義空間進(jìn)行對(duì)抗訓(xùn)練。同時(shí)引入句子編碼器和多語(yǔ)言注意力機(jī)制,其中,AMNRE 采用神經(jīng)網(wǎng)絡(luò)得到實(shí)例的表示向量。此外,AMNRE分別利使用卷積和循環(huán)神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)句子編碼器,并且利用編碼獨(dú)立信息和跨語(yǔ)言信息的編碼器對(duì)每種語(yǔ)言分別編碼,有效地分開了兩種信息的編碼;AMNRE利用多語(yǔ)言注意力機(jī)制來捕捉語(yǔ)料中信息豐富的實(shí)例,并在語(yǔ)言間一致和獨(dú)立的語(yǔ)義空間中分別利用。在多語(yǔ)言環(huán)境下學(xué)習(xí)單一語(yǔ)言的獨(dú)特性質(zhì),同時(shí)在全局融合多種語(yǔ)言的共同特性,從而幫助抽取系統(tǒng)利用多言語(yǔ)料進(jìn)行更高效的知識(shí)推理來獲得更完善的知識(shí)。

        圖5 基于對(duì)抗訓(xùn)練的多語(yǔ)言關(guān)系抽取模型結(jié)構(gòu)Fig.5 Structure of multilingual relation extraction model based on adversarial training

        他們將來自不同語(yǔ)言的實(shí)例編碼到了一個(gè)統(tǒng)一的一直語(yǔ)義空間,但是在一種不同語(yǔ)言的句子聚集在同一空間中的不同位置且線性可分的情況下,模型難以達(dá)到挖掘不同語(yǔ)言一致性信息的目標(biāo),受Ganin等[44]的齊發(fā),AMNRE 采用對(duì)抗訓(xùn)練以保證來自不同語(yǔ)言的實(shí)例在語(yǔ)義空間中的嵌入得到充分的混合,以便有效地進(jìn)行關(guān)系抽取。

        在對(duì)抗訓(xùn)練中,設(shè)計(jì)一個(gè)判別器來斷定特征的語(yǔ)言歸屬,結(jié)構(gòu)定義如下:

        其中,MLP 是一個(gè)兩層的多層感知機(jī)模型。與判別器相對(duì),AMNRE希望不同語(yǔ)言的句子編碼器能夠生成判別器難以區(qū)分的表示向量。所以,整體的對(duì)抗訓(xùn)練形式如下:

        其中,Tj是第j種語(yǔ)言的所有實(shí)例集合。

        AMNRE 模型還考慮到每種語(yǔ)言獨(dú)特的語(yǔ)義特征可能錯(cuò)誤地被編碼到語(yǔ)言一致空間中,這樣會(huì)對(duì)語(yǔ)言一致空間中特征的一致性產(chǎn)生較大的負(fù)面影響,所以提出一種正交約束[45]來緩解這個(gè)問題。

        其中,Ij和Cj是兩個(gè)特征矩陣,其行向量為第j類語(yǔ)言通過句子編碼器EI j和EC j編碼出的實(shí)例向量。||·||F是Frobenius函數(shù)。在正交約束下,語(yǔ)言特性和語(yǔ)言共性特征會(huì)被區(qū)分的十分明顯。

        AMNRE 模型通過將多語(yǔ)言蘊(yùn)含的各語(yǔ)言的獨(dú)立信息和跨語(yǔ)言的一致信息分別編碼到不同的語(yǔ)義空間,并采用對(duì)抗訓(xùn)練機(jī)制來更深層地抽取出跨語(yǔ)言的語(yǔ)義信息,構(gòu)建統(tǒng)一的語(yǔ)義空間,達(dá)到提升多語(yǔ)言場(chǎng)景下的關(guān)系抽取效果的目的。多語(yǔ)言數(shù)據(jù)中的信息十分豐富,可以顯著增強(qiáng)關(guān)系抽取模型效果;AMNRE 框架中的一致語(yǔ)義空間是多語(yǔ)言數(shù)據(jù)蘊(yùn)含的語(yǔ)言一致性信息能被更好地挖掘,并在單語(yǔ)言場(chǎng)景下的效果更好;雖然AMNRE模型是多語(yǔ)言的關(guān)系抽取模型,但是在真正多語(yǔ)言場(chǎng)景下的關(guān)系抽取精度是低于單語(yǔ)言場(chǎng)景下的關(guān)系抽取精度。

        2.2.3 基于跨語(yǔ)言詞匯的義原預(yù)測(cè)知識(shí)推理

        基于目前沒有基于義原的語(yǔ)言知識(shí)圖譜的很多語(yǔ)言無法充分理解甚至利用,加上手工構(gòu)建基于義原的語(yǔ)言知識(shí)圖譜需要消耗許多語(yǔ)言專家的精力。而且詞和義原存在語(yǔ)義上的差異,需要構(gòu)建詞與義原之間的語(yǔ)義表示獲取它們之間的語(yǔ)義關(guān)聯(lián)以便識(shí)別一個(gè)詞在其他語(yǔ)言中的語(yǔ)義。劉知遠(yuǎn)等人[35]提出基于跨語(yǔ)言詞匯的義原預(yù)測(cè)的知識(shí)推理模型(CLSP),定義有標(biāo)注義原的語(yǔ)言為源語(yǔ)言,無標(biāo)注義原的為目標(biāo)語(yǔ)言,通過聯(lián)合學(xué)習(xí)將原語(yǔ)言和目標(biāo)語(yǔ)言的詞嵌入到同一個(gè)語(yǔ)義空間,然后利用與目標(biāo)語(yǔ)言的待推薦詞語(yǔ)義相近的源語(yǔ)言中的詞的義原標(biāo)注信息,為目標(biāo)詞推薦義原。CLSP 模型主要包括三個(gè)模塊:?jiǎn)握Z(yǔ)言的詞嵌入學(xué)習(xí)、跨語(yǔ)言的詞嵌入對(duì)齊和基于義原的詞嵌入學(xué)習(xí)。模型的目標(biāo)函數(shù)為:

        (1)單詞語(yǔ)表示

        由于源語(yǔ)言和目標(biāo)語(yǔ)言預(yù)料非平行的性質(zhì),Lmono包含兩個(gè)彼此獨(dú)立的單語(yǔ)項(xiàng)即:

        其中,上標(biāo)S和T分別表示源語(yǔ)言和目標(biāo)語(yǔ)言。本章選擇了Skip-gram[46]這一次表示學(xué)習(xí)模型來獲得單詞語(yǔ)嵌入。

        (2)跨語(yǔ)言詞嵌入對(duì)齊

        跨語(yǔ)言詞嵌入對(duì)齊時(shí)為了源語(yǔ)言和目標(biāo)語(yǔ)言中的詞可以構(gòu)建統(tǒng)一的語(yǔ)義空間,所以本章使用基于種子詞典和匹配[47]作為跨語(yǔ)言信號(hào)的方法來進(jìn)行跨語(yǔ)言詞嵌入對(duì)齊。所以,Lcross由基于種子詞典的對(duì)齊Lseed和通過匹配的對(duì)齊Lmatch組成,即:

        其中,λs和λm是控制兩項(xiàng)相對(duì)權(quán)重的參數(shù)。

        (3)通過種子詞典對(duì)齊

        種子詞典項(xiàng)Lseed的作用是可以通過L2正則項(xiàng)使一個(gè)種子詞典D中的翻譯詞對(duì)的詞嵌入更加接近,即:

        (4)通過匹配機(jī)制對(duì)齊

        假設(shè)每個(gè)目標(biāo)語(yǔ)言詞都語(yǔ)某個(gè)源語(yǔ)言詞或特殊空間次匹配,同理,每個(gè)源語(yǔ)言詞也都與某個(gè)目標(biāo)語(yǔ)言詞或特殊空詞匹配,而匹配的目的是為了彼此找到對(duì)應(yīng)最合適的語(yǔ)言詞,提升所有匹配次對(duì)的概率,其損失函數(shù)可以表達(dá)為:

        (5)基于義原的詞表示

        基于義原[48]的詞表示方法目的是通過引入源語(yǔ)言的語(yǔ)言知識(shí)圖譜信息改進(jìn)用于醫(yī)院預(yù)測(cè)的詞嵌入質(zhì)量。本章主要介紹一種基于義原嵌入的詞表示方法,它聯(lián)合學(xué)習(xí)詞嵌入和義原嵌入充分考慮到醫(yī)院和詞之間的復(fù)雜關(guān)系及不同義原之間的關(guān)系,并且將采用分布式向量表示的義原和詞嵌入放在相同的語(yǔ)義空間之中,可以充分利用基于義原的語(yǔ)言知識(shí)圖譜信息?;诹x原嵌入放入方法利用義原嵌入作為正則項(xiàng)同時(shí)學(xué)習(xí)詞嵌入和義原嵌入來學(xué)習(xí)更好的詞嵌入。假設(shè)從知網(wǎng)中提取出源語(yǔ)言的詞-義原矩陣MS,當(dāng)MS=1 時(shí),說明詞wSs表示詞被標(biāo)注了義原xj;當(dāng)MS=0 時(shí),則反之。通過對(duì)MS的分解,損失函數(shù)定義為:

        CLSP模型不僅考慮義原信息可以提升單詞語(yǔ)嵌入的效果,而且在跨語(yǔ)言詞義原預(yù)測(cè)方面也有顯著的提升。但是,它可以準(zhǔn)確預(yù)測(cè)比較普遍的義原,若遇到一些很少出現(xiàn)的義原是,準(zhǔn)確率就會(huì)下降。而且人手工標(biāo)準(zhǔn)的知識(shí)圖譜在標(biāo)注目標(biāo)詞時(shí)出現(xiàn)的不可避免的錯(cuò)誤也會(huì)影響模型的效果。當(dāng)模型預(yù)測(cè)的目標(biāo)詞出現(xiàn)的頻率很高的時(shí)候,它的詞嵌入會(huì)更好,則預(yù)測(cè)的義原效果就更好。

        2.3 基于知識(shí)計(jì)算應(yīng)用的推理

        在國(guó)內(nèi),最普遍的文獻(xiàn)查詢網(wǎng)址-中國(guó)知網(wǎng),作為一種基于語(yǔ)言知識(shí)的計(jì)算應(yīng)用,是一種基于義原表示學(xué)習(xí)和構(gòu)建的語(yǔ)言知識(shí)圖譜。知網(wǎng)中包含的豐富知識(shí)信息可以改善自然語(yǔ)言處理中很多下游任務(wù),例如自然語(yǔ)言推理、關(guān)系預(yù)測(cè)和情感分析等。本章從語(yǔ)言的最小語(yǔ)義單位出發(fā)介紹兩種方法,其中基于義原注意力機(jī)制的層次解碼器架構(gòu)(HDSA)采用序列到序列解碼器來進(jìn)行層次分類,并利用注意力機(jī)制將義原信息融入;基于義原驅(qū)動(dòng)的語(yǔ)言模型(SDLM)則是可以利用到句子中每一個(gè)詞的義原信息。

        2.3.1 基于義原注意力機(jī)制的層次解碼器結(jié)構(gòu)推理

        LIWC[49]是一個(gè)詞頻計(jì)數(shù)工具,依據(jù)人工標(biāo)注的標(biāo)簽由粗到細(xì)來對(duì)詞進(jìn)行分類,現(xiàn)在已經(jīng)應(yīng)用到很多交叉應(yīng)用領(lǐng)域。原始的LIWC詞典是英文版的,但是近些年來,漢語(yǔ)已經(jīng)成為世界上使用人口最多的語(yǔ)言,也逐漸設(shè)計(jì)出了中文版的LIWC,然而中文版的LIWC 詞典中的詞數(shù)卻只有7 000多個(gè)[50],遠(yuǎn)遠(yuǎn)少于記載的56 008個(gè),因此中文版LIWC詞典的擴(kuò)展勢(shì)在必行,但是人工標(biāo)注的擴(kuò)展方法既耗時(shí)又費(fèi)力。所以劉知遠(yuǎn)[35]等人提出一種基于義原注意力機(jī)制的層次解碼器(HDSA),旨在將層次解碼器使用詞嵌入作為初始狀態(tài),在解碼詞語(yǔ)標(biāo)簽序列時(shí)使用注意力機(jī)制來整合義原信息,然后以序列生成的方式來預(yù)測(cè)詞語(yǔ)的標(biāo)簽層次結(jié)構(gòu)以便更好的擴(kuò)展LIWC詞典。

        基于義原注意力機(jī)制的層次解碼器的結(jié)構(gòu)圖,如圖6所示。

        圖6 HDSA模型結(jié)構(gòu)Fig.6 Model structure of HDSA

        HDSA模型的目標(biāo)函數(shù)用交叉熵來定義:

        其中,eij=vTtanh(W1yi-1+W2hj) 是用來衡量某個(gè)義原嵌入hj和當(dāng)前預(yù)測(cè)標(biāo)簽yi的相關(guān)性,v∈Ra,W1和W2是權(quán)重矩陣,a是注意力模型中隱層的維度。

        采用集束搜索解決層次多標(biāo)簽的問題一遍對(duì)詞語(yǔ)標(biāo)簽進(jìn)行預(yù)測(cè)[52],而依據(jù)經(jīng)驗(yàn)設(shè)置來一個(gè)閾值δ在只有一個(gè)詞語(yǔ)的標(biāo)簽序列y滿足約束lnP( )y>δ時(shí),才將y賦值給這個(gè)詞語(yǔ)。

        HDSA 模型為了使相同的義原在不同類別下?lián)碛胁煌臋?quán)重,在它每一個(gè)時(shí)間步預(yù)測(cè)詞語(yǔ)標(biāo)簽時(shí)都會(huì)選擇關(guān)注一個(gè)義原。在義原注意力機(jī)制的幫助下(義原提供的外部信息),HDSA 模型可以處理一詞多義和詞類低區(qū)分度的問題,所以也就能更準(zhǔn)確、更容易理解地預(yù)測(cè)并擴(kuò)展LIWC詞典,而且HDSA還可以降低反向傳播時(shí)出現(xiàn)的誤差。但是義原有時(shí)候會(huì)產(chǎn)生誤導(dǎo),所以在以后的工作中,應(yīng)該著重考慮義原之間的關(guān)系,從而可以更好地利用義原信息;并且由于低區(qū)分度的問題,HDSA可能產(chǎn)生區(qū)分不同類別的錯(cuò)誤。

        2.3.2 基于義原驅(qū)動(dòng)的語(yǔ)言模型推理

        現(xiàn)在很多自然語(yǔ)言技術(shù)(NLP)[43]處理中都利用到義原這一知識(shí),但是很少有人將義原應(yīng)用到神經(jīng)網(wǎng)絡(luò)模型中,雖然神經(jīng)網(wǎng)絡(luò)模型中采用的是連續(xù)性的詞表示,但將離散的義原知識(shí)利用到模型中還是有幫助的。因此,劉知遠(yuǎn)等[35]提出一種基于義原驅(qū)動(dòng)的語(yǔ)言模型推理(SDLM),旨利用句子中的每個(gè)詞的可解釋性好的義原信息提高語(yǔ)言模型的性能和可解釋性,而且SDLM模型主要關(guān)注序列到序列的解碼器來利用義原信息進(jìn)行句子生成。

        SDLM 模型利用義原信息來預(yù)測(cè)下一個(gè)詞出現(xiàn)的概率,主要包括義原預(yù)測(cè)器、義項(xiàng)[53]探測(cè)器以及詞探測(cè)器三部分,模型結(jié)構(gòu)圖如圖7所示。下面簡(jiǎn)單介紹一下這三部分:

        圖7 SDLM模型結(jié)構(gòu)Fig.7 Model structure of SDLM

        (1)義原預(yù)測(cè)器

        假設(shè)給定上下文w,詞w包含義原ek(k∈{1,2,…,K})是獨(dú)立的,然后義原預(yù)測(cè)器將將w的向量g∈RH1作為輸入,因?yàn)榱x原是最小的語(yǔ)義單位,各個(gè)義原之間不存在語(yǔ)義重疊,所以要輸出每個(gè)義原的權(quán)重。他們?cè)O(shè)計(jì)了一個(gè)以Sigmoid 函數(shù)為激活函數(shù)的義原預(yù)測(cè)器,因此,下一個(gè)詞包含義原ek的概率可以表達(dá)為:

        其中,vk∈RH1和bk∈R是可以訓(xùn)練的參數(shù),σ(·)表示Sigmoid激活函數(shù)。

        (2)義項(xiàng)預(yù)測(cè)器

        (3)詞探測(cè)器

        由圖7知,通過義項(xiàng)預(yù)測(cè)器提供的義項(xiàng)概率累加可以得到詞的預(yù)測(cè)概率:

        SDLM模型在單義詞和多義詞的性能有所提高,特別是多義詞,并且性能隨著義原數(shù)量的增加得到更大的提升。但是當(dāng)義原標(biāo)注的準(zhǔn)確性很低時(shí),模型的性能在也會(huì)隨之降低。在未來的探索中,可以進(jìn)一步考慮義原和詞匯之間復(fù)雜的結(jié)構(gòu)和關(guān)系。

        2.4 其他推理方法

        知識(shí)推理現(xiàn)在還處于新興階段,但已有不少學(xué)者基于不同的方面對(duì)知識(shí)圖譜的推理進(jìn)行研究。比如,典型的基于圖結(jié)構(gòu)的推理方法PRA(path ranking algorithm)[55]和CoR-PRA(constant and reversed path ranking algorithm)[56]。PRA 和CoR-PRA 都利用實(shí)體節(jié)點(diǎn)之間的路徑當(dāng)作特征從而進(jìn)行鏈接預(yù)測(cè)推理,包括頭尾實(shí)體預(yù)測(cè)和關(guān)系預(yù)測(cè),不同的是PRA的路徑是單向搜索,CoR-PRA的路徑是雙向搜索。還有基于規(guī)則學(xué)習(xí)的知識(shí)推理,旨快速有效地從大規(guī)模知識(shí)圖譜上學(xué)習(xí)置信度較高的規(guī)則,然后精確且可解釋的進(jìn)行關(guān)系推理。Luis[57]將整條規(guī)則在圖中構(gòu)成一個(gè)閉環(huán)結(jié)構(gòu),這種規(guī)則叫霍恩規(guī)則(AMIE)。AMIE 包含增加懸掛原子、增加實(shí)例化的原子及增加閉合原子三個(gè)挖掘算子,而且在探索規(guī)則結(jié)構(gòu)的過程中還引入了最低規(guī)則頭覆蓋過濾和即時(shí)增加規(guī)則的置信度兩個(gè)剪枝策略來縮小搜索空間,然后通過SPARQL 在知識(shí)圖譜上的查詢對(duì)規(guī)則的質(zhì)量進(jìn)行評(píng)估。

        3 知識(shí)推理的應(yīng)用前景

        典型的知識(shí)推理一般旨應(yīng)用于對(duì)現(xiàn)有的知識(shí)圖譜中的信息進(jìn)行推理,然后得出新的信息以補(bǔ)充或更新舊的知識(shí)圖譜中的知識(shí),但是隨著知識(shí)推理的深入研究,它逐漸深入到生活之中比如生活?yuàn)蕵穂58]、中醫(yī)臨床[59]、電商[60]和企業(yè)商業(yè)[61]等領(lǐng)域,甚至涉及到了軍事領(lǐng)域[62]。最初設(shè)計(jì)知識(shí)圖譜是為了提升搜索引擎的能力,如今隨著技術(shù)的進(jìn)步,知識(shí)圖譜在輔助智能問答、NLP、大數(shù)據(jù)分析計(jì)算、輔助搜索、人工智能等多個(gè)方面也展現(xiàn)出了豐富的應(yīng)用價(jià)值。比如,現(xiàn)在的“阿里系”“騰訊系”的一系列APP,都是通過智能搜索,然后利用知識(shí)推理排出最適合用戶的消息。一些金融類的專家通過分析近幾年的股票基金,然后推理出一些較為合適的、可以制造收益的選項(xiàng)供廣大用戶選擇。幫助用戶挑出最優(yōu)的選擇,然后輔助人們進(jìn)行決策。

        3.1 軍事領(lǐng)域知識(shí)圖譜

        隨著科技的迅速發(fā)展,我國(guó)要在20 世紀(jì)中葉基本實(shí)現(xiàn)建設(shè)信息化軍隊(duì),打贏信息化戰(zhàn)爭(zhēng)戰(zhàn)略目標(biāo)。并且堅(jiān)持以機(jī)械化為基礎(chǔ),信息化為主導(dǎo),推進(jìn)信息化與機(jī)械化相結(jié)合共同發(fā)展,實(shí)現(xiàn)軍隊(duì)火力、突擊力、機(jī)動(dòng)能力、防護(hù)能力和信息能力整體提高。將知識(shí)推理應(yīng)用到現(xiàn)代信息化軍隊(duì)建設(shè)中有著一定的作用,例如,在紅藍(lán)軍進(jìn)行演習(xí)時(shí),紅軍可以將藍(lán)軍的戰(zhàn)斗地點(diǎn)、方式等各種信息抽取出來,然后通過推理模型的計(jì)算,可以得出藍(lán)軍進(jìn)攻的下一目標(biāo)排名,依此,紅軍可以相應(yīng)作出防御,阻止藍(lán)軍順利進(jìn)攻。當(dāng)然戰(zhàn)爭(zhēng)是瞬息萬變的,沒有任何機(jī)器可以準(zhǔn)確預(yù)料到對(duì)方的下一步行動(dòng),所以知識(shí)推理只能盡可能地預(yù)測(cè)對(duì)手的下一步行動(dòng)從而作出調(diào)整。

        知識(shí)圖譜和信息化軍隊(duì)的結(jié)合,可以鏈接作戰(zhàn)部隊(duì)、指揮部、裝備庫(kù)等各類作戰(zhàn)要素,可以打通各兵種不同業(yè)務(wù)領(lǐng)域。而且隨著軍隊(duì)信息化建設(shè)的深入開展,新型指揮信息系統(tǒng)已經(jīng)成為作戰(zhàn)指揮的基礎(chǔ)平臺(tái)。但是,通過信息系統(tǒng)體驗(yàn),目前還停留在輔助“勞力”而不是輔助“智能”階段,對(duì)于指揮員的態(tài)度、決策或者對(duì)抗推演等智能化較高的問題等無法給出完美的解決方法。但是,隨著軍事改革,構(gòu)建軍事領(lǐng)域知識(shí)圖譜是必須的,因?yàn)樗擒婈?duì)作戰(zhàn)指揮智能化發(fā)展的基礎(chǔ),是提高作戰(zhàn)數(shù)據(jù)的輔助決策水平重要技術(shù)之一。

        知識(shí)圖譜與軍事的相結(jié)合在情報(bào)偵察挖掘、作戰(zhàn)指揮控制、戰(zhàn)場(chǎng)態(tài)勢(shì)感知和網(wǎng)電空間安全方面已經(jīng)取得了重大突破。為充分利用知識(shí)圖譜在軍事方面的優(yōu)勢(shì),可在深入研究以下幾個(gè)方面:一是加強(qiáng)專業(yè)知識(shí)圖譜基礎(chǔ)技術(shù)研究,充分利用人工智能、深度學(xué)習(xí)等技術(shù);二是加強(qiáng)建設(shè)知識(shí)圖譜基礎(chǔ)平臺(tái),目前知識(shí)圖譜基礎(chǔ)平臺(tái)建設(shè)技術(shù)還無法有效應(yīng)對(duì)超大規(guī)模實(shí)時(shí)并發(fā)響應(yīng)需求,可以將云計(jì)算、物聯(lián)網(wǎng)等技術(shù)的聯(lián)合攻關(guān),有效推動(dòng)知識(shí)圖譜基礎(chǔ)平臺(tái)建設(shè)能力和水平;三是拓展知識(shí)圖譜在軍事領(lǐng)域的應(yīng)用,將產(chǎn)生巨大的軍事效益。

        知識(shí)圖譜相關(guān)技術(shù)研究雖然已經(jīng)在軍事領(lǐng)域取得了較大進(jìn)展,但仍然面臨著一下問題:(1)有效軍事數(shù)據(jù)的降噪問題;(2)不同結(jié)構(gòu)的軍事數(shù)據(jù)融合問題;(3)面向軍事應(yīng)用的大規(guī)模分布式知識(shí)圖譜在線實(shí)時(shí)響應(yīng)問題。

        3.2 電商(淘寶)

        目前,隨著科技的進(jìn)步,人們的購(gòu)物方式也越來越多,很多人在家里用手機(jī)就可以進(jìn)行購(gòu)物,而且種類應(yīng)有盡有。因此,電商的發(fā)展十分迅速,特別是我國(guó)2020年新冠病毒的蔓延,電商更是走向了巔峰。因此電商知識(shí)圖譜就變得十分重要,所謂電商,它的核心內(nèi)容是滿足各種人需要的商品。國(guó)內(nèi)著名的電商有淘寶、拼多多、京東等;國(guó)外著名的電商有亞馬遜等。但是論發(fā)展程度,我國(guó)的電商雖然起步晚,無論是速度和質(zhì)量遠(yuǎn)超于國(guó)外,例如淘寶,整個(gè)服務(wù)不僅有商品,還有快遞服務(wù)、商品保險(xiǎn)服務(wù)甚至智能導(dǎo)購(gòu)服務(wù),因?yàn)樘詫毜纳唐分R(shí)大腦學(xué)習(xí)了大量的行業(yè)規(guī)范與國(guó)家標(biāo)準(zhǔn),可以從公共媒體、專業(yè)社區(qū)中的信息識(shí)別出近期熱詞,甚至在使用阿里系的其他APP 時(shí),通過近期瀏覽和大數(shù)據(jù)分析,會(huì)推薦一些關(guān)于近期瀏覽信息的商品,使購(gòu)物者省去搜索的時(shí)間,給出最優(yōu)的選擇排名,輔助購(gòu)物者決策。

        電商的發(fā)展主要是通過大數(shù)據(jù)分析等技術(shù)從大量的商品圖片、文字描述等數(shù)據(jù)中收集信息然后構(gòu)建知識(shí)圖譜,電商知識(shí)圖譜的數(shù)據(jù)包含國(guó)內(nèi)-國(guó)外數(shù)據(jù)、商業(yè)-國(guó)家數(shù)據(jù)和線上-線下等多源數(shù)據(jù);然后通過對(duì)近期瀏覽或者關(guān)聯(lián)APP 的歷史記錄中對(duì)數(shù)據(jù)分析而進(jìn)行智能推理給出滿足購(gòu)物者的商品。通過收集數(shù)據(jù)信息和大數(shù)據(jù)分析,既可以節(jié)省消費(fèi)者的時(shí)間,也可以降低電商后臺(tái)操作的壓力,同時(shí)也滿足了消費(fèi)者的需求。

        這些電商類知識(shí)圖譜需大量多源異構(gòu)數(shù)據(jù)匯集,主要利用大規(guī)模聚集大規(guī)模實(shí)體鏈指、大規(guī)模層次分類等技術(shù)對(duì)商品和產(chǎn)品兩個(gè)核心節(jié)點(diǎn)的知識(shí)融合,其中難度最大的是在于商品或產(chǎn)品的類目細(xì)分和混淆度,以及大規(guī)模訓(xùn)練數(shù)據(jù)的生成和降噪;電商知識(shí)圖譜的實(shí)體量和成本比通用知識(shí)圖譜大很多。同時(shí),電商有利有弊,所有的電商平臺(tái)都存在泄露用戶信息的風(fēng)險(xiǎn),所以電商平臺(tái)需最大限度保護(hù)知識(shí)產(chǎn)權(quán)、消費(fèi)者權(quán)益以及最重要的用戶隱私。

        3.3 中醫(yī)臨床知識(shí)圖譜

        中醫(yī)藥學(xué)在數(shù)千年的發(fā)展中積累了豐富的臨床經(jīng)驗(yàn),已經(jīng)形成了完整的知識(shí)體系,并產(chǎn)生了大量的文獻(xiàn)?,F(xiàn)在如何將臨床指南、中醫(yī)醫(yī)案以及方劑知識(shí)等結(jié)合起來、如何挖掘整理中醫(yī)臨證經(jīng)驗(yàn)和學(xué)術(shù)思想,使中醫(yī)藥知識(shí)服務(wù)更加智能化、個(gè)性化。知識(shí)圖譜的提出可以幫助實(shí)現(xiàn)中醫(yī)臨床知識(shí)的關(guān)聯(lián)、整合與可視化,促進(jìn)中醫(yī)臨床研究,輔助中醫(yī)臨床決策。因此知識(shí)是圖譜在中醫(yī)臨床領(lǐng)域有著廣闊的應(yīng)用前景。

        在國(guó)內(nèi)比較有知名度的有由中國(guó)中醫(yī)科學(xué)院中醫(yī)藥信息研究所初步構(gòu)建的中醫(yī)臨床知識(shí)圖譜系統(tǒng)。該系統(tǒng)以“證、治、效”為中心,將領(lǐng)域?qū)<以O(shè)計(jì)的中醫(yī)臨床領(lǐng)域本體當(dāng)作知識(shí)圖譜的骨架,從術(shù)語(yǔ)系統(tǒng)、數(shù)據(jù)庫(kù)和文本等知識(shí)源中獲取名醫(yī)經(jīng)驗(yàn)、經(jīng)驗(yàn)指南、中醫(yī)醫(yī)案(核心)等多種龐大的知識(shí)資源,對(duì)知識(shí)圖譜內(nèi)容進(jìn)行自動(dòng)、半自動(dòng)的補(bǔ)充、修改等系統(tǒng)梳理。所里的學(xué)者們還研發(fā)了中醫(yī)醫(yī)案語(yǔ)義分析與挖掘工具,以實(shí)現(xiàn)醫(yī)案文本預(yù)處理、分詞、語(yǔ)義標(biāo)注、醫(yī)案文本瀏覽等功能。利用知識(shí)圖譜里的各種推理模型可以依據(jù)與當(dāng)前主題相關(guān)的醫(yī)案、指南和知識(shí)庫(kù)內(nèi)容,發(fā)現(xiàn)他們之間的潛在聯(lián)系,然后推理出各種臨床規(guī)律輔助醫(yī)生進(jìn)行決策。

        構(gòu)建中醫(yī)臨床知識(shí)圖譜,實(shí)質(zhì)是一個(gè)知識(shí)抽象和歸納的過程。在整個(gè)過程中,一方面要完成知識(shí)抽取,對(duì)海量醫(yī)案文本進(jìn)行分析和標(biāo)注從而抽取中醫(yī)知識(shí),過程繁瑣且耗時(shí);另一方面,實(shí)現(xiàn)知識(shí)的結(jié)構(gòu)化表示,旨從醫(yī)案文本到結(jié)構(gòu)化知識(shí)的轉(zhuǎn)化,此過程需將所有的非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行轉(zhuǎn)化。所以,在構(gòu)建中醫(yī)臨床知識(shí)圖譜時(shí),要考慮到各種知識(shí)之間的聯(lián)系,方可進(jìn)行嚴(yán)格的邏輯推理,所以由于這些數(shù)據(jù)的復(fù)雜性,再加入療效這個(gè)因素,使得三者的維度過高,目前的計(jì)算機(jī)模型很難處理,只能選擇驗(yàn)案作為作為研究方證對(duì)應(yīng)關(guān)系的數(shù)據(jù)資源。

        利用中醫(yī)臨床知識(shí)圖譜,能夠發(fā)現(xiàn)中醫(yī)藥概念之間的相關(guān)關(guān)系,揭示各種臨床規(guī)律,從而不斷完善中醫(yī)臨床知識(shí)體系,直接推動(dòng)中醫(yī)臨床研究的快速發(fā)展。

        4 總結(jié)和展望

        近年來深度學(xué)習(xí)和知識(shí)推理發(fā)展迅速,雖然在速度和數(shù)量上表現(xiàn)優(yōu)秀但是在發(fā)展的過程中仍然存在一定的問題。本章簡(jiǎn)要描述當(dāng)前知識(shí)推理研究進(jìn)展的幾個(gè)至今未解決的問題,然后有提出一些建議,最后展望基于深度學(xué)習(xí)的知識(shí)推理的研究發(fā)展前景。

        4.1 存在的問題

        (1)知識(shí)結(jié)構(gòu)問題。義原語(yǔ)言知識(shí)和實(shí)體關(guān)系知識(shí)大部分是以三元組的形式表示兩個(gè)對(duì)象之間的關(guān)系。三元組結(jié)構(gòu)直觀,既能存儲(chǔ)又能計(jì)算而且效率也高,但隨著時(shí)代的發(fā)展,人類知識(shí)的結(jié)構(gòu)會(huì)愈加復(fù)雜多元,比如知識(shí)包含所有發(fā)生過的事件,每個(gè)事件又至少包括時(shí)間、地點(diǎn)、人物、類型等基本信息,無法用一個(gè)個(gè)孤立的三元組簡(jiǎn)單表示。所以,目前的知識(shí)結(jié)構(gòu)面臨著結(jié)構(gòu)過于簡(jiǎn)單的局限性。

        (2)知識(shí)推理的數(shù)據(jù)問題。知識(shí)推理中的大規(guī)模數(shù)據(jù)集無非就是NYT(new york times)系列、FB(freebase)系列和WN(wordnet)系列等數(shù)據(jù)集。所有的推理模型無論是訓(xùn)練集、測(cè)試集還是驗(yàn)證集都是這些系列的一部分,雖然這些數(shù)據(jù)集信息量龐大且一直更新補(bǔ)充但是難免會(huì)出現(xiàn)數(shù)據(jù)質(zhì)量不高且形式不統(tǒng)一的問題,而且基于深度學(xué)習(xí)的知識(shí)推理對(duì)噪音十分敏感,尤其在基于分布式表示與深度學(xué)習(xí)相結(jié)合的推理模型,影響頗大。所以,知識(shí)推理目前只能驗(yàn)證或者只符合與這些數(shù)據(jù)集,而在這些之外的數(shù)據(jù)集,效果還未知。知識(shí)推理既有對(duì)這些數(shù)據(jù)集依賴的問題,還存在內(nèi)部信息質(zhì)量問題。

        (3)知識(shí)推理可利用信息問題。在對(duì)知識(shí)推理的研究中發(fā)現(xiàn),目前大部分學(xué)者研究基于語(yǔ)義的推理方法,通過利用實(shí)體和關(guān)系的屬性信息,只有很少一部分人利用基于義項(xiàng)和義原信息去研究推理方法。實(shí)際上,義原是最基本的語(yǔ)義單位,比如詞語(yǔ)“apple”,主要有兩個(gè)義項(xiàng),一個(gè)是水果(apple),另一個(gè)是品牌(Apple),對(duì)應(yīng)品牌有手機(jī)、Ipad、Macbook 等義原,可以很好地增強(qiáng)詞的表達(dá)效果。知識(shí)圖譜內(nèi)存在大量能夠作為實(shí)體和關(guān)系的標(biāo)簽的義原信息,這些義原信息是十分重要的推理依據(jù),而這些信息尚未引起廣泛重視。

        (4)知識(shí)獲取問題。目前現(xiàn)有的知識(shí)獲取技術(shù)只能對(duì)應(yīng)解決簡(jiǎn)單的三元組知識(shí)。如在實(shí)體關(guān)系抽取方面,將其轉(zhuǎn)換為文本分類任務(wù),將兩實(shí)體出現(xiàn)的句子作為樣例,將關(guān)系類型作為分類體系。即使是對(duì)應(yīng)這種簡(jiǎn)單的三元組知識(shí)獲取,依然存在不少未解決的問題,如何跨越句子邊界、如何跨越語(yǔ)言邊界以及如何跨越預(yù)定義的關(guān)系類型體系。這些問題的探索解決有助于建立更有效的知識(shí)獲取技術(shù)。

        4.2 未來研究方向的建議

        (1)超越三元組。針對(duì)知識(shí)結(jié)構(gòu)的問題,可以試著使用超越三元組,通過描述不同場(chǎng)景下不同抽象層次的信息,提升對(duì)更復(fù)雜的知識(shí)結(jié)構(gòu)的表示、獲取和計(jì)算能力。目前,解決復(fù)雜知識(shí)結(jié)構(gòu)的方式還只是降解為三元組分別處理。未來,在機(jī)器學(xué)習(xí)工具的支持下,有效利用復(fù)雜知識(shí)結(jié)構(gòu)和知識(shí)獲取技術(shù)是值得研究的。

        (2)數(shù)據(jù)集的補(bǔ)充。針對(duì)知識(shí)推理推理模型對(duì)現(xiàn)有的數(shù)據(jù)集系列的依賴性,和數(shù)據(jù)集內(nèi)部存在質(zhì)量問題。考慮可以根據(jù)每個(gè)行收集每個(gè)行業(yè)的數(shù)據(jù)集,所謂“術(shù)業(yè)有專攻”,本行業(yè)的數(shù)據(jù)集由本行業(yè)專家半自動(dòng)完成,數(shù)據(jù)集中的實(shí)體和關(guān)系組成的三元組可以解決數(shù)據(jù)集的質(zhì)量問題,也可以在一定程度上減輕推理模型對(duì)數(shù)據(jù)集的依賴性。

        (3)擴(kuò)大信息利用率。世界中現(xiàn)有大規(guī)模知識(shí)圖譜中的信息內(nèi)容還是十分豐富的,既包括實(shí)體、實(shí)體的屬性等信息,還包括關(guān)系信息,如三元組、多元組等。再往深挖一步,還可以挖掘?qū)嶓w的義原信息,細(xì)粒度更細(xì),提供的知識(shí)更具體??梢越梃b2.3.2小節(jié)的基于義原驅(qū)動(dòng)的語(yǔ)言模型推理,在推理過程中利用到了每個(gè)詞的義原信息來提高模型的可解釋性和準(zhǔn)確性。

        4.3 前景展望

        知識(shí)推理是結(jié)構(gòu)化知識(shí)圖譜存在的重要意義之一,也是可解釋人工智能從數(shù)據(jù)感知到智能認(rèn)知的實(shí)現(xiàn)途徑,對(duì)NLP和補(bǔ)充更新知識(shí)圖譜都起著重要作用。簡(jiǎn)單講,將知識(shí)圖譜當(dāng)作人的大腦知識(shí)庫(kù),那么知識(shí)推理就是大腦中無數(shù)個(gè)神經(jīng)元的結(jié)合,是將大腦知識(shí)庫(kù)中的知識(shí)認(rèn)知、過濾、思考、再認(rèn)知、再過濾、在思考的循環(huán)過程,一直將某件事物的最新消息傳遞給人們。

        目前,所有的知識(shí)推理技術(shù)只是理論研究較為快速,在應(yīng)用方面要發(fā)展到成熟完美還是困難重重的。當(dāng)前,研究知識(shí)推理的學(xué)者們逐年上升,取得的理論成果也頗為成功,主要包括基于規(guī)則、分布式表示學(xué)習(xí)、深度學(xué)習(xí)以及交叉混合的推理方法。目前的知識(shí)圖譜尚處于起步階段,對(duì)知識(shí)圖譜的定義至今沒有統(tǒng)一,并且在發(fā)展的過程中雖然方法眾多,但是沒有開元可靠的工具,阻礙知識(shí)推理的發(fā)展。目前,在知識(shí)補(bǔ)全方面有著較大的效果,逐漸完善知識(shí)圖譜構(gòu)建技術(shù)。但是知識(shí)推理的發(fā)展最終要應(yīng)用到人類相關(guān)生活中,在未來對(duì)AI領(lǐng)域的發(fā)展起關(guān)鍵作用,可以在越來越多的場(chǎng)景下?lián)碛兄鴮儆谧约旱念I(lǐng)域。

        猜你喜歡
        語(yǔ)義語(yǔ)言信息
        語(yǔ)言是刀
        文苑(2020年4期)2020-05-30 12:35:30
        語(yǔ)言與語(yǔ)義
        讓語(yǔ)言描寫搖曳多姿
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        累積動(dòng)態(tài)分析下的同聲傳譯語(yǔ)言壓縮
        “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
        我有我語(yǔ)言
        認(rèn)知范疇模糊與語(yǔ)義模糊
        展會(huì)信息
        語(yǔ)義分析與漢俄副名組合
        极品少妇一区二区三区四区| 色八a级在线观看| 人妻精品人妻一区二区三区四区| 久久青青草原国产毛片| 国产后入又长又硬| 国内大量揄拍人妻在线视频| 亚洲Av无码专区尤物| 午夜宅男成人影院香蕉狠狠爱| 国产让女高潮的av毛片| 精品国产一区二区三区av| 免费无码中文字幕a级毛片| 亚洲精品毛片一区二区三区 | 天美麻花果冻视频大全英文版| 亚洲欧美国产成人综合不卡| 国产色视频在线观看了| 无码喷潮a片无码高潮| 真人无码作爱免费视频禁hnn| 欧美伊人亚洲伊人色综| 国产成人av在线影院无毒| 日韩毛片久久91| 精品国产a毛片久久久av| 亚洲av无码国产精品色软件| 熟妇人妻av中文字幕老熟妇| 久久人妻AV无码一区二区| 成av人片一区二区三区久久| 亚洲一二三四区免费视频| 曰韩亚洲av人人夜夜澡人人爽| 成人区人妻精品一区二区不卡网站| 18禁黄无遮挡免费网站| 人妖在线一区二区三区| 久久天天躁狠狠躁夜夜不卡| 亚洲中文无码av在线| 中文字幕乱码av在线| 人妻制服丝袜中文字幕| 亚洲av无码专区在线播放| 国产精品公开免费视频| 日韩欧美第一区二区三区| 99久久无色码中文字幕鲁信| 亚洲国产精品国自产拍性色 | 日本av一级片免费看| 朝鲜女人大白屁股ass|