亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向知識(shí)圖譜和大語(yǔ)言模型的因果關(guān)系推斷綜述

        2023-10-29 04:20:38馬新宇楊國(guó)利趙會(huì)群
        計(jì)算機(jī)與生活 2023年10期
        關(guān)鍵詞:因果關(guān)系圖譜變量

        李 源,馬新宇,楊國(guó)利,趙會(huì)群,宋 威

        1.北方工業(yè)大學(xué) 信息學(xué)院,北京 100144

        2.北京大數(shù)據(jù)先進(jìn)技術(shù)研究院,北京 100195

        “因果關(guān)系”[1]是指存在于事件之間的一種關(guān)系,即“原因”與“結(jié)果”之間的對(duì)應(yīng)關(guān)系,是一種重要的關(guān)系類型。一般來(lái)講,一個(gè)事件是很多原因綜合產(chǎn)生的結(jié)果,且原因都發(fā)生在較早時(shí)間點(diǎn),而該事件又可成為其他事件的原因。與描述性或預(yù)測(cè)性任務(wù)不同,因果關(guān)系推斷旨在理解干預(yù)一個(gè)變量如何影響另一個(gè)變量[2]。

        因果關(guān)系推斷作為一項(xiàng)重要的研究課題,在許多領(lǐng)域中有極高的應(yīng)用價(jià)值。一旦做到真正理解因果關(guān)系背后的邏輯,即可在計(jì)算機(jī)上進(jìn)行模擬,進(jìn)而創(chuàng)造出一個(gè)“因果關(guān)系推斷專家系統(tǒng)”。這個(gè)系統(tǒng)將可能為解釋或發(fā)現(xiàn)未知的現(xiàn)象或規(guī)律,解決久而未解的科學(xué)問(wèn)題,開發(fā)和設(shè)計(jì)新的實(shí)驗(yàn),并不斷地從環(huán)境中獲取更多的因果知識(shí),進(jìn)而為社會(huì)和民眾帶來(lái)福祉。例如:在數(shù)據(jù)庫(kù)領(lǐng)域,從文本數(shù)據(jù)中提取出事件的因果信息可以填充事件數(shù)據(jù)庫(kù),為事件數(shù)據(jù)庫(kù)提供有價(jià)值的事件數(shù)據(jù)[3];在事件預(yù)測(cè)領(lǐng)域,因果關(guān)系推斷可應(yīng)用于重大事件或突發(fā)事件的預(yù)測(cè),有助于政府迅速做出反應(yīng)和決策[4];在生物制藥領(lǐng)域,因果關(guān)系推斷可以用來(lái)識(shí)別藥物分子之間的相互作用或藥物分子對(duì)某疾病的治療效果及作用,以了解其性質(zhì)和疾病的發(fā)病機(jī)制[5]?,F(xiàn)如今,隨著越來(lái)越多的深度學(xué)習(xí)模型的誕生,模型的可解釋性也成為研究人員越來(lái)越關(guān)注的問(wèn)題,因此研究模型輸入與輸出之間的因果關(guān)系可以增強(qiáng)模型的可解釋性[6]。總之,許多領(lǐng)域在未來(lái)都可以從因果關(guān)系推斷技術(shù)或系統(tǒng)中獲益。

        傳統(tǒng)的因果關(guān)系推斷方法分為兩種:一是面向樣本數(shù)據(jù)的因果關(guān)系推斷。以隨機(jī)對(duì)照實(shí)驗(yàn)為例,為了研究發(fā)現(xiàn)藥物的療效,患者將被隨機(jī)地分為治療組和對(duì)照組,通過(guò)比較兩組患者的平均結(jié)果來(lái)衡量藥物對(duì)某疾病的康復(fù)效果的影響[7]。二是面向文本語(yǔ)義分析進(jìn)行因果關(guān)系發(fā)現(xiàn)。具體過(guò)程是首先通過(guò)自然語(yǔ)言處理技術(shù),將文本數(shù)據(jù)轉(zhuǎn)換成可計(jì)算的形式,例如提取文本中的實(shí)體、關(guān)系等信息;然后利用機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等技術(shù)對(duì)獲得的信息進(jìn)行建模,得到變量之間的因果關(guān)系。

        知識(shí)圖譜是一種用于表示實(shí)體關(guān)系的圖形結(jié)構(gòu),其中蘊(yùn)含豐富的實(shí)體間的關(guān)系信息(例如因果關(guān)系信息)。大語(yǔ)言模型擁有海量參數(shù),可以從上下文信息和對(duì)語(yǔ)義理解進(jìn)行因果推斷。但在目前眾多有關(guān)因果關(guān)系推斷的文獻(xiàn)中[8],尚未涌現(xiàn)對(duì)知識(shí)圖譜和大模型因果關(guān)系推斷的總結(jié)性文獻(xiàn)。鑒于此,經(jīng)過(guò)深入的調(diào)查研究(見表1),本文對(duì)面向知識(shí)圖譜和大模型的相關(guān)因果關(guān)系推斷方法進(jìn)行總結(jié),將傳統(tǒng)因果關(guān)系推斷方法進(jìn)行了分類詳述,并對(duì)未來(lái)因果關(guān)系推斷的發(fā)展趨勢(shì)(如圖1)進(jìn)行了詳細(xì)總結(jié)和對(duì)比。

        表1 因果關(guān)系推斷相關(guān)文獻(xiàn)Table 1 Related literature on causality inference

        本文對(duì)因果關(guān)系推斷的方法和模型進(jìn)行了深入的分類討論。從多個(gè)關(guān)鍵方面出發(fā),包括面向樣本數(shù)據(jù)、文本語(yǔ)料、知識(shí)圖譜以及大模型等,從而更加準(zhǔn)確和詳盡地對(duì)因果關(guān)系推斷方法進(jìn)行討論。(1)傳統(tǒng)的因果關(guān)系推斷方法:這一類方法主要分為面向樣本觀測(cè)數(shù)據(jù)和文本語(yǔ)料兩類。面向樣本數(shù)據(jù)的方法基于統(tǒng)計(jì)學(xué)原理,挖掘數(shù)據(jù)變量之間的因果關(guān)系;而面向文本語(yǔ)料的因果關(guān)系發(fā)現(xiàn)方法通過(guò)分析文本中的邏輯關(guān)系、因果信號(hào)和主題詞等,可以從大規(guī)模文本語(yǔ)料中挖掘出潛在的因果關(guān)系。(2)面向知識(shí)圖譜的因果關(guān)系推斷方法:知識(shí)圖譜是一種用于表示實(shí)體關(guān)系的圖狀結(jié)構(gòu),其中蘊(yùn)含豐富的因果關(guān)系信息?;谥R(shí)圖譜的方法可以通過(guò)對(duì)圖譜中的實(shí)體和關(guān)系進(jìn)行推理,揭示出潛在的因果聯(lián)系。這類方法有助于將外部領(lǐng)域知識(shí)融入因果關(guān)系推斷過(guò)程。(3)面向大語(yǔ)言模型的因果關(guān)系推斷方法:大模型可以從多源數(shù)據(jù)中學(xué)習(xí)因果關(guān)系的模式,利用上下文信息和語(yǔ)義理解進(jìn)行推斷,從而提高因果關(guān)系的準(zhǔn)確性和普適性。(4)知識(shí)圖譜與大模型相結(jié)合的因果關(guān)系推斷方法:旨在利用知識(shí)圖譜的結(jié)構(gòu)信息和大型語(yǔ)言模型的文本理解能力來(lái)深入理解和推斷因果關(guān)系。

        通過(guò)從以上幾個(gè)方面進(jìn)行分類,能夠更全面地理解不同因果關(guān)系推斷方法的優(yōu)勢(shì)和局限性。本文旨在為讀者提供一個(gè)系統(tǒng)性的視角,幫助研究此方向的學(xué)者以及對(duì)此方向感興趣的讀者能夠更好地把握因果關(guān)系推斷領(lǐng)域的發(fā)展趨勢(shì)和前沿動(dòng)態(tài)。通過(guò)綜合考慮統(tǒng)計(jì)學(xué)、文本語(yǔ)料、知識(shí)圖譜和大語(yǔ)言模型等多個(gè)方面,本文希望能夠?yàn)橐蚬P(guān)系推斷方法的討論提供更加深入和全面的內(nèi)容,促進(jìn)該領(lǐng)域的研究和發(fā)展。

        1 因果關(guān)系推斷概述

        早期因果關(guān)系推斷是在沒(méi)有實(shí)驗(yàn)設(shè)計(jì)或者隨機(jī)分配的情況下,通過(guò)觀察變量之間的關(guān)系來(lái)推斷因果關(guān)系的方法。這種方法可以追溯到18世紀(jì)的哲學(xué)家大衛(wèi)·休謀,他提出了“常見的連續(xù)性”(常見的聯(lián)系)的概念,即通常只能通過(guò)經(jīng)驗(yàn)觀察到兩個(gè)事件的關(guān)系,而無(wú)法知道其中一個(gè)事件是因果于另一個(gè)事件。

        隨著統(tǒng)計(jì)學(xué)等學(xué)科的發(fā)展,一些早期的因果關(guān)系推斷方法逐漸得到了發(fā)展和完善,例如卡方檢驗(yàn)[9]、Pearson相關(guān)系數(shù)[10]、多元回歸分析[11]等方法。這些方法都可以用于檢驗(yàn)兩個(gè)或多個(gè)變量之間的關(guān)系(因果效應(yīng)),并推斷其中的因果關(guān)系。但是,由于沒(méi)有實(shí)驗(yàn)設(shè)計(jì),這些方法并不能完全消除混淆變量的影響。因此,現(xiàn)代的因果推斷方法則更加嚴(yán)格,例如隨機(jī)化對(duì)照實(shí)驗(yàn)、自然實(shí)驗(yàn)和文本數(shù)據(jù)統(tǒng)計(jì)分析等。通過(guò)這些方法通常更能保證因果關(guān)系推斷的準(zhǔn)確性。

        本文從多個(gè)關(guān)鍵方面出發(fā),包括面向樣本數(shù)據(jù)文本語(yǔ)料、知識(shí)圖譜以及大模型等,從而更加準(zhǔn)確和詳盡地對(duì)因果關(guān)系推斷方法展開討論。

        2 傳統(tǒng)因果關(guān)系推斷方法

        傳統(tǒng)的因果關(guān)系推斷方法根據(jù)其面向的對(duì)象可以分為兩大類:面向樣本觀測(cè)數(shù)據(jù)和面向文本語(yǔ)料的方法。面向樣本觀測(cè)數(shù)據(jù)的因果關(guān)系推斷方法主要依賴于統(tǒng)計(jì)學(xué)相關(guān)技術(shù)來(lái)推斷因果關(guān)系[12]。這些方法建立在統(tǒng)計(jì)學(xué)的基礎(chǔ)上,基于假設(shè),即如果兩個(gè)變量之間存在因果關(guān)系,那么它們之間必定存在一定的統(tǒng)計(jì)聯(lián)系。因此,通過(guò)分析這兩個(gè)變量之間的統(tǒng)計(jì)關(guān)系,可以得出它們之間可能存在因果關(guān)系的結(jié)論。而面向文本數(shù)據(jù)的因果關(guān)系推斷方法則側(cè)重于從文本中提取因果關(guān)系,通常需要進(jìn)行一系列文本處理步驟,如分詞、詞性標(biāo)注、實(shí)體識(shí)別等。接著,借助自然語(yǔ)言處理技術(shù)來(lái)分析文本中的語(yǔ)義信息,以發(fā)現(xiàn)其中隱藏的因果關(guān)系。這類方法通常需要倚賴領(lǐng)域知識(shí)和語(yǔ)言模型的支持,以更準(zhǔn)確地提取和理解文本中的因果關(guān)系信息。

        2.1 面向樣本觀測(cè)數(shù)據(jù)的因果關(guān)系推斷方法

        在統(tǒng)計(jì)學(xué)領(lǐng)域,許多優(yōu)秀學(xué)者為因果關(guān)系推斷的研究與發(fā)展做出了卓越貢獻(xiàn),F(xiàn)isher[13]及Neyman等[14]各自從統(tǒng)計(jì)學(xué)家的立場(chǎng)出發(fā),分別提出了從潛在結(jié)果和隨機(jī)的視角來(lái)討論因果關(guān)系。Fisher提出了“隨機(jī)對(duì)照實(shí)驗(yàn)”的概念,而Neyman 提出“潛在結(jié)果”并將其應(yīng)用于隨機(jī)對(duì)照實(shí)驗(yàn)。Rubin在文獻(xiàn)[15]中進(jìn)一步結(jié)合了“潛在結(jié)果”和“隨機(jī)對(duì)照實(shí)驗(yàn)”這兩個(gè)概念,系統(tǒng)性地提出了潛在結(jié)果模型的理論假設(shè)、核心內(nèi)容和推理方法。Neyman 利用數(shù)學(xué)語(yǔ)言描述了潛在結(jié)果框架下的因果效應(yīng),Rubin將這一數(shù)學(xué)定義推廣到觀察性研究中。

        隨機(jī)對(duì)照實(shí)驗(yàn)是推斷因果關(guān)系的最高效的方式,將對(duì)象隨機(jī)分成兩組,并且控制兩組只有待驗(yàn)證的變量不同,其他變量相同,觀察結(jié)果。在科學(xué)研究中,使用隨機(jī)分配機(jī)制將子對(duì)象分配給不同的治療組的隨機(jī)對(duì)照實(shí)驗(yàn)作為建立因果關(guān)系的黃金標(biāo)準(zhǔn)有著悠久的歷史。然而,在許多情況下,隨機(jī)實(shí)驗(yàn)在實(shí)踐中既不可行,也不符合倫理,因此研究人員需要依靠觀察數(shù)據(jù)來(lái)推斷因果關(guān)系,進(jìn)而將隨機(jī)對(duì)照實(shí)驗(yàn)方法進(jìn)行了推廣。

        推廣隨機(jī)對(duì)照實(shí)驗(yàn)的一種常見方法是通過(guò)傾向評(píng)分。Rosenbaum 和Rubin 在文獻(xiàn)[16]中表明,如果治療分配沒(méi)有根據(jù)隨機(jī)變量的情況確定,那么它同樣沒(méi)有根據(jù)傾向評(píng)分確定,這表明根據(jù)傾向評(píng)分進(jìn)行調(diào)整可以消除觀察性研究中的混淆。一旦估計(jì)了傾向得分,即可進(jìn)一步應(yīng)用匹配、分層和逆概率加權(quán)等方法進(jìn)行因果關(guān)系推斷。

        但是觀察性研究?jī)H針對(duì)觀測(cè)數(shù)據(jù)進(jìn)行觀察,以推斷變量間的因果效應(yīng),但這種方法不能由研究者決定是否針對(duì)某些研究對(duì)象采取干預(yù)或?qū)φ詹僮?,并且如果忽略了協(xié)變量的作用,僅使用隨機(jī)對(duì)照實(shí)驗(yàn)進(jìn)行因果關(guān)系推斷就會(huì)產(chǎn)生偏差,這種偏差又稱為“混淆因素”。文獻(xiàn)[17]在相關(guān)關(guān)系的基礎(chǔ)上定義混淆因素為:假如兩個(gè)變量之間的相關(guān)關(guān)系受到第三個(gè)變量的影響,則稱第三個(gè)變量為混淆因素。文獻(xiàn)[2]則從潛在結(jié)果的角度出發(fā)對(duì)混淆因素進(jìn)行了定義:p(Y1|X=1)=p(Y1|X=0)且p(Y0|X=1)=p(Y0|X=0),即若潛在結(jié)果Y0和Y1的分布情況與對(duì)照總體的潛在結(jié)果分布情況相同,則說(shuō)明干預(yù)組與對(duì)照組之間無(wú)混淆因素干擾。因此觀察性研究不再滿足隨機(jī)對(duì)照實(shí)驗(yàn)的條件。為了表述因果關(guān)系,Rubin 在文獻(xiàn)[18]中提出了一種潛在結(jié)果框架,其中一個(gè)重要概念為“因果效應(yīng)”。因果效應(yīng)是指在給定一些特定的干預(yù)措施(例如藥物或教育方案)下,響應(yīng)變量(例如治愈率或考試成績(jī))發(fā)生的變化。為了衡量這種效應(yīng),Rubin提出了一個(gè)符號(hào)體系來(lái)表述潛在結(jié)果框架:

        其中,τ表示因果效應(yīng),E表示期望值,Y(i),i=0,1 表示潛在結(jié)果下的響應(yīng)變量。

        在實(shí)際應(yīng)用中,由于無(wú)法同時(shí)觀察到Y(jié)(0) 和Y(1),需要利用統(tǒng)計(jì)學(xué)的方法來(lái)估計(jì)因果效應(yīng),從而進(jìn)行因果關(guān)系推斷。然而潛在結(jié)果框架只能觀察和實(shí)現(xiàn)其中一個(gè)潛在結(jié)果,因此存在缺失數(shù)據(jù)的問(wèn)題。并且當(dāng)涉及到識(shí)別因果路徑或可視化因果網(wǎng)絡(luò)時(shí),潛在結(jié)果框架具有自身的局限性。

        因此,Munch等在文獻(xiàn)[19]中提出了一種交互式方法,從已知邊圖表示的任何給定相關(guān)領(lǐng)域建立概率關(guān)系模型。結(jié)合本體論和專家知識(shí),定義了一組轉(zhuǎn)化為關(guān)系模式的約束。通過(guò)此關(guān)系模式可以學(xué)習(xí)概率關(guān)系模型,并可以應(yīng)用因果關(guān)系推斷。此方法的主要思想是在給定因果約束下的學(xué)習(xí)概率模型,從學(xué)習(xí)到的模型中,提取因果知識(shí)。Yuan等在文獻(xiàn)[20]提出結(jié)構(gòu)方程模型(structural equation model,SEM),研究可觀測(cè)變量與潛在變量,以及潛在變量之間關(guān)系。SEM是一種能夠把樣本數(shù)據(jù)間復(fù)雜的因果聯(lián)系用相應(yīng)的模型方程表現(xiàn)出來(lái)并加以測(cè)量、進(jìn)行分析的模型方法。結(jié)構(gòu)方程模型針對(duì)一些數(shù)據(jù)本身不能直接詢問(wèn)或測(cè)量得到,即所謂以潛在變量的形式,對(duì)數(shù)據(jù)模型進(jìn)行估計(jì)的分析方法。結(jié)構(gòu)方程模型包括兩個(gè)基本模型,分別為測(cè)量模型和結(jié)構(gòu)模型,測(cè)量模型由潛在變量、觀測(cè)變量以及測(cè)量誤差項(xiàng)組成,主要分析潛在變量對(duì)觀測(cè)變量的影響效果。Awang等在文獻(xiàn)[21]中引入了非參數(shù)結(jié)構(gòu)方程模型(non-parametric structural equation model,NPSEM),對(duì)結(jié)構(gòu)方程模型和松弛的線性假設(shè)進(jìn)行了調(diào)整。對(duì)于NPSEM,它允許研究人員更自由地探索變量之間的關(guān)系,而不受事先設(shè)定的參數(shù)假設(shè)的束縛。這有助于發(fā)現(xiàn)潛在的非線性關(guān)系、交互作用和因果關(guān)系,從而提供更準(zhǔn)確和全面的分析結(jié)果。

        面向圖模型的結(jié)構(gòu)因果模型(structure causal model,SCM)是傳統(tǒng)因果推斷中最常用的模型之一。在文獻(xiàn)[22]中,Pearl詳細(xì)闡述了潛在結(jié)果模型與結(jié)構(gòu)因果模型之間的等價(jià)性。相比之下,潛在結(jié)果模型更加精確地代表觀察數(shù)據(jù),從而有助于推斷因果關(guān)系模型,而結(jié)構(gòu)因果模型更加直觀。Pearl 在貝葉斯網(wǎng)絡(luò)領(lǐng)域提出了外部干預(yù)的概念,并為面向外部干預(yù)提供了一種形式化表達(dá)方法,這一概念開創(chuàng)了一種從數(shù)據(jù)中挖掘因果關(guān)系和理解數(shù)據(jù)生成機(jī)制的方法。因此,本節(jié)總結(jié)了因果圖模型方法以及面向知識(shí)圖譜的因果關(guān)系推斷相關(guān)的概念和方法。這些方法為人們更深入地理解因果關(guān)系提供了強(qiáng)大工具。

        圖論是一種廣泛被應(yīng)用的數(shù)學(xué)語(yǔ)言,它能夠直觀地描述事物之間的相互影響關(guān)系,并且可以通過(guò)簡(jiǎn)單的計(jì)算解決因果問(wèn)題。在數(shù)學(xué)中,有向圖[23]中節(jié)點(diǎn)X和Y之間的路徑是指從X開始到Y(jié)結(jié)束的一系列由邊連接的節(jié)點(diǎn)。路徑上的第一個(gè)節(jié)點(diǎn)稱為該路徑上所有節(jié)點(diǎn)的祖先節(jié)點(diǎn),而其他節(jié)點(diǎn)則是祖先節(jié)點(diǎn)的后代節(jié)點(diǎn)[24]。如果路徑沿著箭頭方向追蹤,那么這條路徑就稱為有向路徑。當(dāng)圖中存在一個(gè)節(jié)點(diǎn)存在回到自身的有向路徑時(shí),這個(gè)圖被稱為有環(huán)圖,而沒(méi)有環(huán)的有向圖則稱為有向無(wú)環(huán)圖(directed acyclic graph,DAG)[25]。

        結(jié)構(gòu)因果模型是一種圖形表示的因果關(guān)系模型,可以描述一個(gè)或者多個(gè)變量之間的因果關(guān)系的圖形表示。形式上,SCM 可以表示為一個(gè)四元組,其中V 表示內(nèi)生變量的集合,U 表示外生變量的集合,P(U)表示外生變量的分布,而F表示映射函數(shù)的集合。具體而言,對(duì)于?i∈F,模型χi:=F:=?i(Pa(χi),ui),i=1,2,…,d表示將值χi分配給其結(jié)構(gòu)父變量Pa(χi)和外生變量ui的函數(shù)。對(duì)于每個(gè)SCM,可以通過(guò)為每個(gè)χi添加一個(gè)頂點(diǎn),并從Pa(χi)(即因)指向χi(即果)的父變量添加有向邊,得到一個(gè)因果圖G 。

        面向有向無(wú)環(huán)圖的結(jié)構(gòu)因果模型[26]因果關(guān)系的推斷依賴于有向無(wú)環(huán)圖的三種基本路徑結(jié)構(gòu),即因果鏈條、共同原因和共同結(jié)果三種結(jié)構(gòu)。因果鏈條結(jié)構(gòu)可以表示為X→Y→Z,表示信息盡可以單向傳遞;共同原因結(jié)構(gòu)X←Y→Z表示信息可以從中間節(jié)點(diǎn)傳遞給兩端節(jié)點(diǎn);共同結(jié)果結(jié)構(gòu)X→Y←Z表示中間節(jié)點(diǎn)同時(shí)接收兩端節(jié)點(diǎn)的消息。通過(guò)這三種結(jié)構(gòu)(如圖2)可以將結(jié)構(gòu)因果模型中任意路徑進(jìn)行拆分,以至于考慮到結(jié)構(gòu)因果模型中全部的因果路徑,從而可以準(zhǔn)確推斷出因果關(guān)系。

        Richardson和Robins等在文獻(xiàn)[27]中引入單一世界干預(yù)圖,該圖統(tǒng)一了圖形理論和潛在結(jié)果框架。具體來(lái)說(shuō),對(duì)于在系統(tǒng)中設(shè)置的XA=xA的任何干預(yù),表示為G[X(XA=xA)]的單一世界干預(yù)圖可以從DAG中構(gòu)造而來(lái),從而進(jìn)行因果關(guān)系推斷。該模型利用DAG表示隨機(jī)變量之間的因果關(guān)系,并引入干預(yù)變量的概念來(lái)描述針對(duì)某些變量進(jìn)行的干預(yù)操作。SWIG(single world intervention graph)模型通過(guò)對(duì)DAG 上的治療節(jié)點(diǎn)進(jìn)行“分裂”操作,形成新的圖形,該圖形上的節(jié)點(diǎn)對(duì)應(yīng)于對(duì)治療變量進(jìn)行干預(yù)后的反事實(shí)變量,即對(duì)于干預(yù)前原始的變量取值的替代值。Pearl[22]通過(guò)將結(jié)構(gòu)方程和有向圖結(jié)合進(jìn)行因果結(jié)構(gòu)建模,并以此推斷因果關(guān)系。

        傳統(tǒng)的面向圖模型的因果關(guān)系推斷方法可以分為兩類:第一類方法是面向條件獨(dú)立性關(guān)系,其代表性算法為(Peter Clark,PC)算法[28]、FCI(fast causal inference)算法[28]和GES(greedy equivalence search)算法[29]。這類方法通過(guò)判斷變量之間的條件獨(dú)立性來(lái)構(gòu)建無(wú)向圖,然后通過(guò)一系列的步驟來(lái)判斷圖中邊的方向。第二類方法是面向結(jié)構(gòu)方程模型的方法,其代表性模型為非時(shí)序線性非高斯(linear non-Gaussian acyclic model,LINGAM)模型、非線性加性噪聲(additive noise model,ANM)模型和后非線性因果模型(post-nonlinear causal model,PNL)。

        PC算法的核心思想是面向條件獨(dú)立性關(guān)系來(lái)推斷DAG 的結(jié)構(gòu),并通過(guò)刪邊和方向傳播等操作來(lái)確定DAG 中邊的方向。PC 算法詳細(xì)步驟如下所示:(1)PC 算法從一個(gè)完整的無(wú)向圖G開始。(2)對(duì)于每一對(duì)變量i和j,算法逐個(gè)檢查當(dāng)n=0,1,…,d-2 時(shí),是否存在一些其他n個(gè)變量的條件使得i和j之間獨(dú)立。如果滿足條件,移除i和j之間的無(wú)向邊,并更新條件變量到分離集。算法繼續(xù)執(zhí)行,得到修建后的骨架。(3)算法確定V-結(jié)構(gòu),從而獲得CPDAG(completed partially directed acyclic graph),并根據(jù)其他規(guī)則確定剩余的無(wú)向邊。PC算法在提取非時(shí)間數(shù)據(jù)中的因果關(guān)系時(shí)具有高效、可擴(kuò)展性強(qiáng)等優(yōu)點(diǎn)。同時(shí)在處理大規(guī)模數(shù)據(jù)時(shí)也能夠得到比較準(zhǔn)確的結(jié)果。

        同時(shí),F(xiàn)CI算法是PC算法的一種改進(jìn),可以處理存在未知混淆變量的情況,能夠更加準(zhǔn)確地推斷DAG 結(jié)構(gòu)。FCI 算法的開始步驟類似于PC 算法,構(gòu)建包含無(wú)向邊的完整圖,然后進(jìn)行迭代條件獨(dú)立性測(cè)試來(lái)移除邊緣。FCI 算法利用Prossible-Dsep 和Sepsets 進(jìn)行條件化時(shí),首先移除獨(dú)立的邊緣。對(duì)剩下的邊應(yīng)用10 個(gè)方向規(guī)則進(jìn)行遞歸定向,構(gòu)建適當(dāng)?shù)挠邢驘o(wú)環(huán)圖。詳細(xì)的步驟可以在文獻(xiàn)[30]中找到,此文的作者詳細(xì)闡述了此算法的正確性和完備性。GES(optimal structure identification with greedy search)算法首先從一個(gè)完全無(wú)向圖出發(fā),采用貪心的方式不斷地向模型中添加邊(依賴關(guān)系),從而得到打分函數(shù)局部最大的結(jié)構(gòu)圖。其次利用貪心算法逐步刪除有向邊,直到得分函數(shù)不再變化,得到最后的因果結(jié)構(gòu)圖。GES 算法結(jié)合了PC 算法的優(yōu)點(diǎn),在準(zhǔn)確性和計(jì)算效率之間取得了良好的平衡,尤其適用于中等規(guī)模的數(shù)據(jù)集。PC算法與FCI算法均基于一種稱為D-分離(D-Separation)[31]的方法。D-分離是圖形模型中的一個(gè)基本概念,用于確定在DAG中,給定一個(gè)第三個(gè)節(jié)點(diǎn)集合Z,兩個(gè)節(jié)點(diǎn)集合X和Y是否在條件下相互獨(dú)立,其中這三個(gè)集合是不相交的。如果X和Y之間的所有路徑都被條件集合Z所阻斷,那么稱X和Y在Z的條件下是通過(guò)D-分離的。

        非時(shí)序線性非高斯(LINGAM)模型[32]也是一種用于因果關(guān)系推斷的方法,基于LINGAM 的因果關(guān)系推斷需要滿足3個(gè)假設(shè):(1)因果順序假設(shè),觀測(cè)變量按照一定的因果順序進(jìn)行排序。在這個(gè)排序中,原因變量必須位于結(jié)果變量之前,換言之,各種觀測(cè)變量的因果圖模型必須是有向無(wú)環(huán)圖。這是應(yīng)用此方法進(jìn)行因果發(fā)現(xiàn)最基本的假設(shè),它指示了變量之間的因果關(guān)系的方向。(2)因果充分性假設(shè),在模型中,變量集合中的任意兩個(gè)變量的直接原因都存在于已觀測(cè)的變量集合中。(3)數(shù)據(jù)生成方式假設(shè),數(shù)據(jù)生成的過(guò)程是線性的,原因變量和結(jié)果變量之間的函數(shù)關(guān)系服從線性關(guān)系(式(2))。

        其中,ei為噪聲項(xiàng),ci為偏置常數(shù)項(xiàng)。噪聲項(xiàng)ei之間相互獨(dú)立。噪聲項(xiàng)ei服從高斯分布。

        傳統(tǒng)的面向得分的因果推斷方法[33]依賴于各種局部啟發(fā)式方法,根據(jù)預(yù)定義的得分函數(shù)搜索DAG。雖然這些方法在樣本無(wú)限且符合某些模型假設(shè)時(shí)可能具有顯著的效果,但在實(shí)驗(yàn)過(guò)程中由于數(shù)據(jù)有限且可能存在假設(shè)違規(guī)的情況,其表現(xiàn)是不令人滿意的。因此,Zhu 等在文獻(xiàn)[34]中提出使用強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)來(lái)搜索得分最高的DAG。其將編碼器-解碼器模型以可觀測(cè)數(shù)據(jù)作為輸入,并生成用于計(jì)算獎(jiǎng)勵(lì)的圖鄰接矩陣。獎(jiǎng)勵(lì)預(yù)先定義的得分函數(shù)和強(qiáng)制保持無(wú)環(huán)性而引入的兩個(gè)懲罰項(xiàng)。與典型的RL 應(yīng)用不同,其目標(biāo)是學(xué)習(xí)一種策略,并將RL用作搜索策略,最終得到的輸出是在訓(xùn)練過(guò)程中生成的所有圖中獲得最佳獎(jiǎng)勵(lì)的圖。其在合成數(shù)據(jù)集和真實(shí)數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn),結(jié)果顯示所提出的方法不僅具有改進(jìn)的搜索能力,而且在滿足無(wú)環(huán)性約束的情況下可以使用更靈活的得分函數(shù)。

        面向統(tǒng)計(jì)學(xué)的方法利用數(shù)據(jù)分析,它試圖從觀察到的數(shù)據(jù)中推斷出兩個(gè)變量之間的相關(guān)性。然而相關(guān)性并不意味著因果關(guān)系。因此,這種方法假設(shè)通過(guò)對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,可以確定變量之間的因果關(guān)系。Heckerman在文獻(xiàn)[35]中引入了一種面向約束的貝葉斯網(wǎng)絡(luò)的因果關(guān)系推斷方法。該方法通過(guò)建立節(jié)點(diǎn)之間的概率依賴關(guān)系從而推斷因果關(guān)系。由于面向約束的方法容易受到數(shù)據(jù)集中可能出現(xiàn)的錯(cuò)誤分類決策的影響,在之后的研究中Heckerman在文獻(xiàn)[36]中引入了面向貝葉斯的方法用于因果關(guān)系推斷。將先驗(yàn)分布和似然函數(shù)結(jié)合起來(lái)計(jì)算后驗(yàn)分布,從而得到模型參數(shù)的估計(jì)值,通過(guò)參數(shù)的估計(jì)值進(jìn)行因果關(guān)系推斷。完全依賴于統(tǒng)計(jì)學(xué)的方法通常會(huì)帶來(lái)誤導(dǎo)性、偏見性和泛化性差的結(jié)果,在解決特性領(lǐng)域的問(wèn)題時(shí)可能需要更廣泛的領(lǐng)域知識(shí)。

        2.2 面向文本語(yǔ)料的因果關(guān)系抽取

        Morgan 在文獻(xiàn)[37]中介紹了使用傳統(tǒng)(非文本)數(shù)據(jù)集進(jìn)行有效因果推斷的技術(shù),但將這些技術(shù)應(yīng)用于自然語(yǔ)言數(shù)據(jù)會(huì)帶來(lái)新的挑戰(zhàn)。面向文本語(yǔ)料的因果關(guān)系抽取主要分為兩種方法,一種是基于模式匹配的方法,一種是基于自然語(yǔ)言處理(natural language processing,NLP)技術(shù)和機(jī)器學(xué)習(xí)算法來(lái)從文本數(shù)據(jù)中抽取出因果關(guān)系。

        2.2.1 基于模式匹配的方法

        文獻(xiàn)[38]分析了法語(yǔ)中具有因果含義的動(dòng)詞,并實(shí)現(xiàn)了一個(gè)名為COATIS的系統(tǒng),用于抽取帶有標(biāo)記的顯示因果關(guān)系的句子,其中句子具有“CauseVerb Effect”的結(jié)構(gòu)。這意味著COATIS 系統(tǒng)可以識(shí)別并標(biāo)記出表達(dá)因果關(guān)系的句子,其中動(dòng)詞在句子中起到因果關(guān)系的作用。但COATIS 系統(tǒng)只考慮動(dòng)詞作為因果連接詞。因此,文獻(xiàn)[39]在考慮動(dòng)詞的基礎(chǔ)上,同時(shí)考慮一些介詞(如“for”和“from”等)、狀語(yǔ)連接詞(如“so”“hence”和“therefore”等)以及子句(如“that's why”和“the result is”等)也可以表達(dá)因果關(guān)系。為了抽取帶標(biāo)記的因果關(guān)系,采用了模式匹配的方法,并從人工標(biāo)注的華爾街日?qǐng)?bào)的語(yǔ)料中提取帶有標(biāo)記的因果關(guān)系。

        2.2.2 基于機(jī)器學(xué)習(xí)的方法

        當(dāng)今基于機(jī)器學(xué)習(xí)或深度學(xué)習(xí)模型對(duì)因果關(guān)系抽取主要從三方面進(jìn)行研究。

        (1)對(duì)文本進(jìn)行分類。根據(jù)句子是否包含因果關(guān)系進(jìn)行分類。通過(guò)文獻(xiàn)[40]的提出,有兩種方法可供選擇:一種是面向知識(shí)特征的分類模型;另一種是面向深度學(xué)習(xí)的方法,通過(guò)卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)對(duì)句子中的因果關(guān)系進(jìn)行分類。這個(gè)模型能夠識(shí)別明顯的因果關(guān)系和隱含的因果關(guān)系,并確定因果關(guān)系的方向。而根據(jù)文獻(xiàn)[41]的研究,通過(guò)使用平行的維基百科語(yǔ)料庫(kù),可以識(shí)別新的標(biāo)記,這些標(biāo)記是已知因果短語(yǔ)的變體。通過(guò)遠(yuǎn)程監(jiān)督創(chuàng)建訓(xùn)練集,并利用開放類標(biāo)記的特征和上下文信息的語(yǔ)義特征來(lái)訓(xùn)練因果關(guān)系分類器。

        (2)對(duì)文本中包含的關(guān)系進(jìn)行抽取。根據(jù)文獻(xiàn)[42]的研究,他們將SemEval 數(shù)據(jù)集中的單詞擴(kuò)展為短語(yǔ),并將一對(duì)一的因果關(guān)系擴(kuò)展為多對(duì)多的因果關(guān)系。他們提出了一種新的約束隱藏樸素貝葉斯模型,用于提取文本中的顯式因果關(guān)系。但此模型需要事先知道先驗(yàn)概率,因此增加了特征工程的繁瑣度。而根據(jù)文獻(xiàn)[43]的研究,他們利用生成式對(duì)抗網(wǎng)絡(luò)(generative adversarial networks,GANs)的對(duì)抗學(xué)習(xí)特性,將帶有注意力機(jī)制的雙向門控循環(huán)單元網(wǎng)絡(luò)(bidirectional gated recurrent unit,BiGRU)與對(duì)抗學(xué)習(xí)相融合,提出了一種融合對(duì)抗學(xué)習(xí)的因果關(guān)系抽取方法,從而避免了繁瑣的特征工程。另外,根據(jù)文獻(xiàn)[44]的研究,他們采用多列卷積神經(jīng)網(wǎng)絡(luò)來(lái)抽取因果關(guān)系,利用從網(wǎng)絡(luò)文本中提取的背景知識(shí)以及從原始句子中提取的因果關(guān)系候選信息,但需要進(jìn)行大量的自然語(yǔ)言處理(NLP)預(yù)處理工作。

        (3)進(jìn)行序列標(biāo)注。根據(jù)文獻(xiàn)[45]的研究,他們采用層疊條件隨機(jī)場(chǎng)來(lái)抽取事件間的因果關(guān)系,并將因果關(guān)系擴(kuò)展到跨句、跨段、多因多果等多種類型。在這個(gè)過(guò)程中,進(jìn)行了大量的特征工程構(gòu)建。而根據(jù)文獻(xiàn)[46]的研究,他們利用單詞級(jí)別的詞向量和語(yǔ)義特征,通過(guò)雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(bi-directional long-short term memory,BiLSTM)標(biāo)注句子中的原因、結(jié)果和因果連接詞,并將標(biāo)記擴(kuò)展到短語(yǔ),包括虛詞“of”等。另外,根據(jù)文獻(xiàn)[47]的研究,他們利用因果關(guān)系的時(shí)間特性,重新定義因果抽取為一種特殊的時(shí)間提取方法,并通過(guò)引入多層條件隨機(jī)場(chǎng)模型將任務(wù)轉(zhuǎn)化為序列標(biāo)注的過(guò)程。此外,王朱君等在文獻(xiàn)[3]中引入了面向流水線的因果關(guān)系發(fā)現(xiàn)方法:在流水線方式的因果關(guān)系抽取中,關(guān)系分類任務(wù)利用事件檢測(cè)階段標(biāo)注出的語(yǔ)料。這一任務(wù)是對(duì)已標(biāo)記事件的語(yǔ)料進(jìn)行因果關(guān)系的判別。因果關(guān)系抽取是目前研究較少的領(lǐng)域之一。雖然因果關(guān)系分類是特殊的關(guān)系分類任務(wù),但其主要目標(biāo)是抽取出語(yǔ)料中實(shí)體對(duì)之間存在的關(guān)系。因此,它與抽取事件間的關(guān)系的任務(wù)類似。

        此外,Blei 等在文獻(xiàn)[48]中提出了潛在狄利克雷分配(latent Dirichlet allocation,LDA)模型,該模型是一種面向概率圖的主題模型。它假設(shè)每個(gè)文檔包含多個(gè)主題,每個(gè)主題又由一組詞項(xiàng)構(gòu)成。LDA 通過(guò)對(duì)文檔中的詞項(xiàng)分布和主題分布進(jìn)行推斷,從而得到文本的主題結(jié)構(gòu)。LDA具有更好的靈活性和可解釋性,能夠更準(zhǔn)確地捕捉到文本中的主題關(guān)系。Devlin等在文獻(xiàn)[49]中提出了從文本上下文嵌入,為從文本中提取出有效信息以估計(jì)因果效應(yīng)提供了有效的方法,以估計(jì)因果效應(yīng)。Veitch 等在文獻(xiàn)[50]中使用文本嵌入的方式進(jìn)行因果關(guān)系推斷。由于文本的維度非常高,作者在這篇文章中提出了一種對(duì)文本的因果嵌入的方式。這種方式結(jié)合了兩個(gè)思路:第一是在有監(jiān)督的前提下對(duì)文本進(jìn)行降維;第二是進(jìn)行高效的語(yǔ)言建模,將語(yǔ)言上不相關(guān)(這些信息因果上也不相關(guān))的文本剔除,有效提高了利用文本嵌入方式進(jìn)行因果推斷的準(zhǔn)確度。

        在面向文本語(yǔ)料的因果關(guān)系發(fā)現(xiàn)中,存在一些混淆的因素,這些混淆因素會(huì)對(duì)因果發(fā)現(xiàn)的結(jié)果產(chǎn)生影響,因此需要在因果關(guān)系發(fā)現(xiàn)中加以考慮。一些學(xué)者應(yīng)用面向自然語(yǔ)言處理(NLP)的方法發(fā)現(xiàn)混淆因素:一組方法應(yīng)用無(wú)監(jiān)督的降維方法,將高維文本數(shù)據(jù)降維為低維變量集。這些方法包括潛在變量模型,如主題模型、嵌入方法和自動(dòng)編碼器。Roberts等[51]以及Sridhar 和Getoor[52]應(yīng)用主題模型從文本數(shù)據(jù)中提取混淆因素。Mozer 等[53]在單詞袋表示上使用距離度量來(lái)匹配文本。

        3 面向知識(shí)圖譜的因果關(guān)系推斷

        知識(shí)圖譜(knowledge graphs,KGs)是一種用于表示現(xiàn)實(shí)世界知識(shí)的圖形化結(jié)構(gòu),在2012年,由谷歌正式提出[54]。其將結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)為三元組KG={(ο,γ,τ)?E ×R×E },其中E和R 分別代表實(shí)體和關(guān)系。目前,知識(shí)圖譜可以分為四類(如圖3)[55]:(1)百科全書式知識(shí)圖譜;(2)常識(shí)性知識(shí)圖譜;(3)領(lǐng)域特定知識(shí)圖譜;(4)多模態(tài)知識(shí)圖譜。KGs通過(guò)將實(shí)體、關(guān)系和屬性等元素組織成圖譜的形式,提供了對(duì)知識(shí)的豐富而精準(zhǔn)的表達(dá)和查詢[56]。而因果關(guān)系推斷則是在對(duì)知識(shí)圖譜中的實(shí)體和關(guān)系進(jìn)行分析和推理的基礎(chǔ)上,通過(guò)識(shí)別和分析不同實(shí)體之間的因果關(guān)系,進(jìn)一步深化了對(duì)知識(shí)圖譜所代表的現(xiàn)實(shí)世界的理解和認(rèn)識(shí)。因此,知識(shí)圖譜與因果關(guān)系推斷密切相關(guān),相互促進(jìn),為因果關(guān)系推斷領(lǐng)域的發(fā)展提供了重要的支持和應(yīng)用基礎(chǔ)。

        因果關(guān)系推斷是針對(duì)知識(shí)圖譜中已有的事實(shí)或關(guān)系的不完備性,是在現(xiàn)存知識(shí)的基礎(chǔ)上推斷出未知的或者新知識(shí)的過(guò)程[57],是對(duì)頭尾實(shí)體之間關(guān)系的推斷[58]?,F(xiàn)有的KGs從文本中提取因果關(guān)系,面向名詞短語(yǔ)的語(yǔ)言模式來(lái)表示原因和結(jié)果,例如ConceptNet[59]和WordNet[60]。KGs 表示因果關(guān)系為“原因”和“效應(yīng)”實(shí)體之間的“有因果關(guān)系”“歸因于”和“中介”關(guān)系。KGs 應(yīng)該面向?qū)嶓w而不僅僅是名詞短語(yǔ)來(lái)對(duì)因果關(guān)系進(jìn)行建模,例如Wikidata 和DBpedia。面向?qū)嶓w的表示模型通過(guò)將因果實(shí)體與KGs中相關(guān)的效果實(shí)體或概念進(jìn)行關(guān)聯(lián),從而擴(kuò)大搜索空間。因果關(guān)系是一種復(fù)雜的關(guān)系,不能像現(xiàn)有的KGs 中表示的那樣用單個(gè)鏈接來(lái)表示原因和效果之間的關(guān)系?,F(xiàn)有KGs中因果關(guān)系的表示方法使得支持反事實(shí)推理變得具有挑戰(zhàn)性。因此,需要在面向KGs 的方法中更豐富地表示和建模因果關(guān)系。

        Jaimini 等在文獻(xiàn)[61]中提出了一種因果知識(shí)圖框架(CausalKG,如圖4),該框架首先創(chuàng)建一個(gè)因果貝葉斯網(wǎng)絡(luò)和特定領(lǐng)域的觀測(cè)數(shù)據(jù)集,之后創(chuàng)建一個(gè)因果本體并用因果關(guān)系豐富領(lǐng)域本體,并在給定上下文中估計(jì)治療、中介和結(jié)果變量的因果效應(yīng)。其目的是將因果知識(shí)集成到知識(shí)圖譜中,以改善某領(lǐng)域的可解釋性,促進(jìn)干預(yù)、反事實(shí)推理和因果推斷在下游任務(wù)中的應(yīng)用。其提供了對(duì)知識(shí)圖譜進(jìn)行因果關(guān)系推斷的可能性,但是并未考慮到元數(shù)據(jù)類包含和重疊以及完整性約束等問(wèn)題。因此,Huang在文獻(xiàn)[62]中引入了CareKG 方法。CareKG 是一種新的形式化方法,用于在知識(shí)圖譜中表達(dá)概念(類和關(guān)系)之間的因果關(guān)系,以及使用元數(shù)據(jù)語(yǔ)義實(shí)現(xiàn)知識(shí)圖譜中的因果查詢。其主要原理是通過(guò)將因果結(jié)構(gòu)嵌入到元數(shù)據(jù)語(yǔ)義中,擴(kuò)展了現(xiàn)有的知識(shí)表示方法,使得知識(shí)圖譜中的實(shí)體和關(guān)系能夠表示因果關(guān)系,并允許進(jìn)行因果推斷。

        圖4 CausalKG框架Fig.4 Framework of CausalKG

        Munch 等在文獻(xiàn)[63]中引入了一種利用本體論和專家知識(shí)將數(shù)據(jù)轉(zhuǎn)換為關(guān)系模式的方法,利用貝葉斯網(wǎng)絡(luò)模型學(xué)習(xí)概率關(guān)系模型。然后,提出了變量之間的聯(lián)合概率分布,但這并不一定表明是因果關(guān)系。因此,Simonne 等在文獻(xiàn)[64]中引入了一種差異因果規(guī)則的挖掘方法。差異因果規(guī)則挖掘在知識(shí)圖譜中使用控制變量的概念來(lái)檢查可能的因果關(guān)系,旨在比較目標(biāo)類別的相似實(shí)例,研究治療效果對(duì)目標(biāo)類別及其子類的影響。并使用比值比的質(zhì)量度量方法來(lái)評(píng)估因果關(guān)系的強(qiáng)度。此方法與實(shí)體或類別密切相關(guān)。一些方法挖掘類別中可以用于描述或分類實(shí)例的對(duì)比模式[65]。然而,這種方法不適用于計(jì)算兩個(gè)特定實(shí)例之間的差異。其他方法側(cè)重于發(fā)現(xiàn)在KGs中兩個(gè)實(shí)例共享的屬性集[66],或旨在生成實(shí)例之間差異最大的屬性集[67]。這些方法不允許描述一組實(shí)例對(duì)的相似性和差異性并且缺乏可解釋性。

        Du 等在文獻(xiàn)[68]中提出了一個(gè)事件圖譜知識(shí)增強(qiáng)的可解釋因果關(guān)系推斷算法ExCAR。該算法首先從大規(guī)模因果事件圖中獲取額外的證據(jù)信息作為因果推斷的邏輯規(guī)則;其次應(yīng)用條件馬爾可夫神經(jīng)邏輯網(wǎng)絡(luò)(conditional Markov neural logic network,CMNLN)學(xué)習(xí)邏輯規(guī)則的條件概率,并且以端到端可微的方式結(jié)合了邏輯規(guī)則的表示學(xué)習(xí)和結(jié)構(gòu)學(xué)習(xí)。實(shí)驗(yàn)結(jié)果表明,ExCAR 的性能優(yōu)于以往的基線方法并擁有良好的可解釋性。

        本章對(duì)面向知識(shí)圖譜的因果關(guān)系推斷方法和框架進(jìn)行了總結(jié)。這些方法主要通過(guò)利用知識(shí)圖譜中的結(jié)構(gòu)信息和屬性信息來(lái)進(jìn)行因果關(guān)系推斷。其中,一些方法采用了基于圖的推理和因果推斷工具,通過(guò)分析知識(shí)圖譜中的實(shí)體之間的關(guān)系,識(shí)別因果路徑和推斷因果效應(yīng)。另一些方法則將因果關(guān)系建模為圖神經(jīng)網(wǎng)絡(luò)模型[69],將知識(shí)圖譜作為輸入,通過(guò)學(xué)習(xí)實(shí)體之間的表示來(lái)捕捉因果關(guān)系。同時(shí),研究者們也提出了一些特定領(lǐng)域的因果關(guān)系推斷框架,如基于知識(shí)圖譜的因果推薦系統(tǒng)[70]。這些框架結(jié)合了知識(shí)圖譜中的屬性信息和用戶行為數(shù)據(jù),通過(guò)因果推斷來(lái)解決推薦系統(tǒng)中的偏差和用戶偏好建模的問(wèn)題。

        總體而言,面向知識(shí)圖譜的因果關(guān)系推斷方法和框架提供了一種利用知識(shí)圖譜來(lái)理解和推斷變量之間因果關(guān)系的途徑[71]。這些方法和框架有助于揭示知識(shí)圖譜中的因果機(jī)制,提供更深入的理解和洞察,并為相關(guān)領(lǐng)域的研究和應(yīng)用提供了新的工具和方法。

        4 面向大語(yǔ)言模型的因果關(guān)系推斷

        近來(lái),隨著GPT-4和ChatGPT進(jìn)入公共大眾的視野,對(duì)于大語(yǔ)言模型(large language models,LLMs)在因果關(guān)系推斷方法的探討也隨之增多[72]。對(duì)于面向大模型的因果關(guān)系推斷方法,其因果關(guān)系推斷具有如下幾方面的優(yōu)勢(shì):(1)數(shù)據(jù)驅(qū)動(dòng)的學(xué)習(xí),大模型通過(guò)在大量文本數(shù)據(jù)上進(jìn)行訓(xùn)練,可以學(xué)習(xí)到更多復(fù)雜的語(yǔ)言和語(yǔ)境表達(dá)方式。這使得它們能夠從各種來(lái)源中自動(dòng)提取因果關(guān)系的線索,而不僅僅依賴于預(yù)先構(gòu)建的知識(shí)圖譜。(2)上下文理解,大模型在文本中可以理解上下文,并將先前提到的信息融合到后續(xù)推理中。這對(duì)于因果關(guān)系的推斷尤其有用,因?yàn)橥枰紤]事件之間的時(shí)間順序和因果鏈條。(3)概念聯(lián)想,大模型可以將不同領(lǐng)域的信息進(jìn)行關(guān)聯(lián),從而找到不同領(lǐng)域中的因果關(guān)系。這種概念聯(lián)想能力使得模型能夠挖掘出傳統(tǒng)知識(shí)圖譜中可能不存在的因果關(guān)系。(4)適應(yīng)多樣性,大型模型在處理多種語(yǔ)言和領(lǐng)域的數(shù)據(jù)時(shí)表現(xiàn)良好。它們可以通過(guò)學(xué)習(xí)不同語(yǔ)言和文化中的因果表達(dá)方式,從而更全面地理解因果關(guān)系。

        Jin 等在文獻(xiàn)[73]中引入了一項(xiàng)新的任務(wù)(數(shù)據(jù)集)CORR2CAUSE,此任務(wù)可以從相關(guān)性中推斷因果關(guān)系,從而評(píng)測(cè)大模型的因果推斷的能力。此任務(wù)首先是在原始數(shù)據(jù)的基礎(chǔ)上構(gòu)造一個(gè)因果圖,再由D-分離原理將其轉(zhuǎn)化為自然語(yǔ)言。Jin等收集了40萬(wàn)樣本的大規(guī)模數(shù)據(jù)集,并在6個(gè)常用的基于BERT的NLI 模型以及GPT-3.5(即CharGPT)和最新的GPT-4等模型上進(jìn)行了實(shí)驗(yàn)(實(shí)驗(yàn)數(shù)據(jù)引自文獻(xiàn)[73],如表2)。從實(shí)驗(yàn)結(jié)果上看,普遍認(rèn)為的版本更高的或者推理能力更好的大模型在因果關(guān)系推斷任務(wù)中并沒(méi)有表現(xiàn)出正相關(guān)的結(jié)果。因?yàn)榇竽P驮谝蚬P(guān)系推斷任務(wù)中的性能表現(xiàn)是隨機(jī)的。

        表2 大語(yǔ)言模型因果關(guān)系推斷實(shí)驗(yàn)數(shù)據(jù)Table 2 Experimental data on causal inference using large language models 單位:%

        5 知識(shí)圖譜與大語(yǔ)言模型結(jié)合的因果關(guān)系推斷

        知識(shí)圖譜與大語(yǔ)言模型(LLMs)結(jié)合在因果關(guān)系推斷方面具有巨大的潛力。知識(shí)圖譜提供了大量的結(jié)構(gòu)化知識(shí),包括實(shí)體、關(guān)系和屬性,這些知識(shí)可以用于驗(yàn)證、補(bǔ)充和增強(qiáng)LLMs的因果推斷能力。首先,知識(shí)圖譜可以用于驗(yàn)證和補(bǔ)充LLMs的推理過(guò)程中的假設(shè)。LLMs 在推斷中可能會(huì)產(chǎn)生與事實(shí)不符的錯(cuò)誤,而知識(shí)圖譜中的信息可以用來(lái)驗(yàn)證這些錯(cuò)誤并提供更準(zhǔn)確的因果關(guān)系。其次,知識(shí)圖譜可以用于建模實(shí)體之間的因果關(guān)系。LLMs 可以通過(guò)學(xué)習(xí)知識(shí)圖譜中的關(guān)系來(lái)理解實(shí)體之間的因果聯(lián)系,并在推斷中應(yīng)用這些關(guān)系,從而提高因果推斷的準(zhǔn)確性。此外,知識(shí)圖譜為L(zhǎng)LMs 提供了上下文信息,幫助它們更好地理解文本中的信息。通過(guò)將文本中的實(shí)體和關(guān)系與知識(shí)圖譜中的實(shí)體和關(guān)系關(guān)聯(lián)起來(lái),LLMs 可以更準(zhǔn)確地理解文本中的因果關(guān)系,特別是在存在歧義或隱含信息的情況下。知識(shí)圖譜還具有高度的可解釋性,因?yàn)樗鼈兪墙Y(jié)構(gòu)化的且具有明確的語(yǔ)義。因此,與知識(shí)圖譜結(jié)合,LLMs 可以生成更具可解釋性的因果推斷結(jié)果,增強(qiáng)了結(jié)果的可理解性和可信度。最后,知識(shí)圖譜通常跨足多個(gè)領(lǐng)域和主題,因此結(jié)合LLMs可以擴(kuò)展因果推斷的應(yīng)用范圍,使其在各種領(lǐng)域中發(fā)揮更大的作用。綜合而言,知識(shí)圖譜與LLMs結(jié)合可以為因果關(guān)系推斷提供強(qiáng)大的支持,促進(jìn)了在知識(shí)表示和推理領(lǐng)域的進(jìn)一步發(fā)展。

        5.1 知識(shí)圖譜增強(qiáng)大模型

        大模型(LLMs)在很多自然語(yǔ)言處理的任務(wù)中取得了讓人滿意的結(jié)果。然而,LLMs在推理的過(guò)程中產(chǎn)生與事實(shí)不符的錯(cuò)誤,以及在推理后得到的結(jié)果缺乏可解釋性等方面并不令人滿意。知識(shí)圖譜可以為解決這些問(wèn)題提供有力的支持。知識(shí)圖譜是一種結(jié)構(gòu)化的數(shù)據(jù)表示方式,其中包含了實(shí)體、關(guān)系和屬性的信息。通過(guò)將LLMs與知識(shí)圖譜相結(jié)合,從而可以利用圖譜中的豐富信息來(lái)指導(dǎo)推理過(guò)程,進(jìn)而提高推理的準(zhǔn)確性和可解釋性。

        本節(jié)首先介紹了知識(shí)圖譜增強(qiáng)LLMs 推理的方法。其次介紹了KGs增強(qiáng)LLMs的可解釋性,目的是提高LLMs的可解釋性。KGs增強(qiáng)LLMs的典型方法總結(jié)在表3中。

        表3 知識(shí)圖譜增強(qiáng)大模型Table 3 Large model enhanced with knowledge graph

        5.1.1 知識(shí)圖譜增強(qiáng)大模型的推理

        在利用大模型進(jìn)行推理的過(guò)程中,由于LLMs可能無(wú)法很好地推廣到未見過(guò)的知識(shí),很多方法致力于研究在推理過(guò)程中注入知識(shí)[74]。這些方法主要關(guān)注問(wèn)答任務(wù),因?yàn)閱?wèn)答任務(wù)要求模型捕捉文本含義和最新的現(xiàn)實(shí)世界的知識(shí)。

        (1)知識(shí)動(dòng)態(tài)融合。當(dāng)處理文本輸入和相關(guān)KGs輸入時(shí),有幾種不同的方法,每種方法在文本和知識(shí)之間的交互方式上存在一些特點(diǎn)。一個(gè)直接的方法是雙塔架構(gòu)方法:這種方法使用兩個(gè)獨(dú)立的模塊,一個(gè)處理文本輸入,另一個(gè)處理知識(shí)圖譜輸入[75]。然而,這種方法缺乏文本和知識(shí)之間的交互。在之后的研究過(guò)程中Lin 等在文獻(xiàn)[76]中引入了KagNet 框架,KagNet首先對(duì)輸入的知識(shí)圖譜進(jìn)行編碼,然后增強(qiáng)輸入的文本表示。這種方法強(qiáng)調(diào)在文本和知識(shí)之間建立關(guān)聯(lián)。Feng 等在文獻(xiàn)[77]中引入MHGRN(multi-hop graph relation network)方法,MHGRN 則是使用輸入文本的最終LLMs 的輸出來(lái)指導(dǎo)對(duì)知識(shí)圖譜的推理過(guò)程。然而,這些方法通常只考慮文本到知識(shí)的單向交互。因此,為了解決此問(wèn)題,Yasunaga 等在文獻(xiàn)[78]中引入了QA-GNN(question answering graph neural network)方法。QA-GNN 使用基于GNN 的模型,通過(guò)消息傳遞共同推理輸入上下文和知識(shí)圖譜信息。它將文本信息表示為特殊節(jié)點(diǎn),并將其與知識(shí)圖譜中的實(shí)體相連。然而,這些方法在信息融合方面可能受限,因?yàn)槲谋据斎胫槐粎R集成一個(gè)密集向量。Sun 等在文獻(xiàn)[79]中提出JointLK(joint reasoning with language models and knowledge graphs)方法。JointLK 提出了一個(gè)具有細(xì)粒度交互的框架,通過(guò)LM到KGs和KGs到LM的雙向注意機(jī)制,在文本輸入的標(biāo)記和知識(shí)圖譜實(shí)體之間進(jìn)行交互。該方法通過(guò)計(jì)算成對(duì)的點(diǎn)積分?jǐn)?shù)來(lái)實(shí)現(xiàn)交互,同時(shí)動(dòng)態(tài)修剪知識(shí)圖譜以便后續(xù)層可以關(guān)注更重要的子圖結(jié)構(gòu)。

        (2)檢索增強(qiáng)知識(shí)融合。不同于上述將所有知識(shí)存儲(chǔ)在參數(shù)中的方法,RAG(retrieval augmentation)[80]提出了結(jié)合非參數(shù)和參數(shù)模塊來(lái)處理外部知識(shí)。給定輸入文本,RAG 首先在非參數(shù)模塊中通過(guò)MIPS(maximum inner product search)搜索相關(guān)的知識(shí)圖譜,以獲取多個(gè)文檔。然后,RAG將這些文檔視為隱藏變量z,并將它們作為額外的上下文信息饋送到由Seq2SeqLLMs 強(qiáng)化的輸出生成器中。研究表明,在不同的生成步驟中使用不同的檢索文檔作為條件比僅使用單個(gè)文檔來(lái)指導(dǎo)整個(gè)生成過(guò)程效果更好。實(shí)驗(yàn)結(jié)果顯示,在開放域問(wèn)答中,RAG要優(yōu)于僅使用參數(shù)的基線模型和僅使用非參數(shù)的基線模型。RAG還可以生成比其他僅參數(shù)基線更具體、多樣和真實(shí)的文本。Story-fragments[81]進(jìn)一步通過(guò)添加額外的模塊來(lái)確定顯著的知識(shí)實(shí)體,并將它們?nèi)谌肷善髦?,以提高生成的長(zhǎng)篇故事的質(zhì)量。MAT(external memoryaugmented transformers)[82]進(jìn)一步通過(guò)將外部知識(shí)編碼成鍵值內(nèi)存,并利用快速的最大內(nèi)積搜索來(lái)進(jìn)行內(nèi)存查詢,提高了這種系統(tǒng)的效率。REALM(retrievalaugmented language model pre-training)[83]提出了一種新穎的知識(shí)檢索器,幫助模型在預(yù)訓(xùn)練階段從大型語(yǔ)料庫(kù)中檢索和關(guān)注文檔,并成功提高了開放域問(wèn)答的性能。KGLM(knowledge graphs for fact-aware language modeling)[84]使用當(dāng)前上下文從知識(shí)圖譜中選擇事實(shí),以生成事實(shí)性句子。在外部知識(shí)圖譜的幫助下,KGLM 可以使用領(lǐng)域外的詞語(yǔ)或短語(yǔ)描述事實(shí)。

        5.1.2 知識(shí)圖譜增強(qiáng)大模型可解釋性

        雖然LLMs 在自然語(yǔ)言處理的許多任務(wù)中獲得了顯著的成功,但是其仍然面臨缺乏可解釋性的困難或不足。LLMs的可解釋性指的是對(duì)模型內(nèi)部的運(yùn)轉(zhuǎn)以及推理過(guò)程的解釋或理解[85]。解決這項(xiàng)不足將提高LLMs 的信任度。為此,研究人員對(duì)增強(qiáng)LLMs的可解釋性進(jìn)行了相關(guān)研究。研究的大致方向可分為:(1)知識(shí)圖譜增強(qiáng)LLMs 探測(cè);(2)知識(shí)圖譜增強(qiáng)LLMs分析。

        (1)知識(shí)圖譜增強(qiáng)LLMs探測(cè):LLMs探測(cè)目的是理解已經(jīng)存儲(chǔ)在LLMs 中的知識(shí)。經(jīng)過(guò)規(guī)模龐大的語(yǔ)料庫(kù)鎖訓(xùn)練好的LLMs 通常會(huì)被認(rèn)為包含大量知識(shí)。但是LLMs是采用一種隱藏的方式存儲(chǔ)知識(shí),這使得研究人員難以弄清楚或理解LLMs 中存儲(chǔ)的知識(shí)。此外,LLMs存在幻視問(wèn)題[86],幻視問(wèn)題即生成的與事實(shí)真理相矛盾的陳述。這個(gè)問(wèn)題會(huì)嚴(yán)重影響LLMs 的可靠性。因此,探測(cè)和驗(yàn)證LLMs 中存儲(chǔ)的知識(shí)的可靠性與真實(shí)性是十分必要的。

        Patroni 等在文獻(xiàn)[87]中提出了LAMA(language model analysis)框架,其是第一個(gè)使用知識(shí)圖譜來(lái)探測(cè)LLMs 中知識(shí)的工作。LAMA 首先通過(guò)預(yù)定義的提示模板將知識(shí)圖譜中的事實(shí)轉(zhuǎn)換為填空陳述,然后使用LLMs 來(lái)預(yù)測(cè)缺失的實(shí)體。預(yù)測(cè)結(jié)果用于評(píng)估LLMs 中存儲(chǔ)的知識(shí)。例如,嘗試探測(cè)LLMs 是否知道事實(shí)(馬禮,職業(yè),院長(zhǎng))。首先將事實(shí)三元組轉(zhuǎn)換成一個(gè)帶有對(duì)象掩碼的填空問(wèn)題“馬禮的職業(yè)是什么?”,然后測(cè)試LLMs 是否能夠正確預(yù)測(cè)出對(duì)象“院長(zhǎng)”。然而,LAMA忽視了提示不恰當(dāng)?shù)氖聦?shí)。例如,提示“Mali worked as a”可能比“Mali is a by profession”更有利于語(yǔ)言模型預(yù)測(cè)空白部分。因此,Jiang 等在文獻(xiàn)[88]中提出了LPAQA(language model prompt augmentation for question answering),這是一種基于挖掘和改寫的方法,LPAQA 可以自動(dòng)生成高質(zhì)量且內(nèi)容豐富的提示,從而可以更準(zhǔn)確地評(píng)估LLMs中所包含的知識(shí)。此外,Adolphs 等在文獻(xiàn)[89]中嘗試使用示例來(lái)讓LLMs理解查詢,并在T-REx數(shù)據(jù)集上取得了對(duì)BERT-large 的實(shí)質(zhì)性改進(jìn)。相比手動(dòng)定義提示模板不同,AutoPrompt[90]是一種自動(dòng)化方法,此方法基于梯度引導(dǎo)的搜索來(lái)創(chuàng)建提示。與使用百科和常識(shí)知識(shí)圖譜探測(cè)一般知識(shí)不同,在BioLAMA[91]和MedLAMA[92]中通過(guò)應(yīng)用醫(yī)學(xué)知識(shí)圖譜來(lái)探測(cè)LLMs中的醫(yī)學(xué)知識(shí)。Mallen等在文獻(xiàn)[93]中對(duì)LLMs保留相對(duì)缺乏流行性的事實(shí)知識(shí)的能力進(jìn)行了相關(guān)研究。他們從維基數(shù)據(jù)知識(shí)圖譜中選擇具有低頻率點(diǎn)擊實(shí)體的低流行性事實(shí)。然后將這些事實(shí)用于評(píng)估,結(jié)果表明LLMs 在處理這種知識(shí)時(shí)存在困難,并且擴(kuò)展未能明顯改善LLMs對(duì)尾部事實(shí)知識(shí)的記憶。

        (2)知識(shí)圖譜增強(qiáng)LLMs 的分析:知識(shí)圖譜對(duì)于LLMs 的分析目的在回答諸如“LLMs 怎樣生成結(jié)果?”或者“LLMs中的功能和架構(gòu)是如何工作的?”等問(wèn)題。因此,為了分析LLMs的推理過(guò)程,如Lin等在文獻(xiàn)[94]中引入了KagNet,Yasunaga 等在文獻(xiàn)[78]中引入了QA-GNN。通過(guò)KGs 將LLMs 生成的每個(gè)推理步驟的結(jié)果進(jìn)行了實(shí)質(zhì)性的支持。通過(guò)這種方式,可以通過(guò)從KGs中提取圖結(jié)構(gòu)來(lái)解釋LLMs的推理過(guò)程。Li 等[95]研究了LLMs 如何正確生成結(jié)果。他們采用了從知識(shí)圖譜中提取的事實(shí)的因果關(guān)系分析。該分析定量地衡量了LLMs 生成結(jié)果所依賴的詞語(yǔ)模式。結(jié)果顯示,LLMs生成缺失的事實(shí)更多地依賴于位置封閉的詞語(yǔ),而不是依賴于知識(shí)相關(guān)的詞語(yǔ)。因此,他們聲稱LLMs由于不準(zhǔn)確的依賴關(guān)系而不能很好地記憶事實(shí)知識(shí)。為了解釋LLMs 的訓(xùn)練過(guò)程,Swamy等[96]采用了在預(yù)訓(xùn)練期間生成知識(shí)圖譜的語(yǔ)言模型。LLMs 在訓(xùn)練過(guò)程中獲得的知識(shí)可以通過(guò)KGs中的事實(shí)來(lái)揭示。為了探索隱含知識(shí)如何存儲(chǔ)在LLMs 的參數(shù)中,Dai 等在文獻(xiàn)[97]提出了“知識(shí)神經(jīng)元”的概念。具體而言,已識(shí)別的知識(shí)神經(jīng)元的激活與知識(shí)表達(dá)高度相關(guān)。因此,他們通過(guò)抑制和放大知識(shí)神經(jīng)元來(lái)探索每個(gè)神經(jīng)元所表示的知識(shí)和事實(shí)。

        5.2 大模型增強(qiáng)知識(shí)圖譜

        ChatGPT 是OpenAI 開發(fā)的一種高級(jí)LLMs,主要用于進(jìn)行類似人類的對(duì)話。在最終調(diào)整過(guò)程中,ChatGPT利用文獻(xiàn)[98],從而增強(qiáng)其與人類偏好和價(jià)值觀的一致性。作為OpenAI開發(fā)的一種尖端的大型語(yǔ)言模型,GPT-4是在GPT-3和ChatGPT等前輩的成功基礎(chǔ)上構(gòu)建的。這一發(fā)展是通過(guò)利用大規(guī)模的計(jì)算和數(shù)據(jù)規(guī)模進(jìn)行訓(xùn)練的結(jié)果,它在不同領(lǐng)域表現(xiàn)出非凡的泛化、參考和解決問(wèn)題的能力。這種進(jìn)步為未來(lái)LLMs的發(fā)展提供了新的見解,同時(shí)也為構(gòu)建KGs提供了新的方法和機(jī)會(huì),以及提供了通過(guò)問(wèn)答類LLMs幫助因果關(guān)系推斷的新思路。

        此外,GPT-4 作為一個(gè)大規(guī)模的多模態(tài)模型,具備處理圖像和文本輸入的能力,進(jìn)一步擴(kuò)展了其應(yīng)用領(lǐng)域。這一多模態(tài)特性使其在處理復(fù)雜信息時(shí)更加全面。與此同時(shí),ChatGPT也在信息提取[99]和推理[100]的能力方面引起了研究者的關(guān)注,為在自然語(yǔ)言處理領(lǐng)域的知識(shí)推斷提供了新的機(jī)會(huì)。這些發(fā)展彼此之間存在因果關(guān)系,共同推動(dòng)了LLMs 技術(shù)的前進(jìn),為在大語(yǔ)言模型領(lǐng)域的創(chuàng)新和探索因果關(guān)系推斷開辟了新的道路。

        在涉及到KGs 構(gòu)造和推理的實(shí)驗(yàn)中[101],通常可以觀察到大型語(yǔ)言模型(LLMs)在推理能力方面表現(xiàn)優(yōu)于它們?cè)贙Gs構(gòu)造任務(wù)上的性能。對(duì)于KGs構(gòu)造任務(wù),LLMs在零樣本和一次性方式上都未能超越當(dāng)前最先進(jìn)的模型。這一發(fā)現(xiàn)與之前在信息提取任務(wù)上的實(shí)驗(yàn)[102]結(jié)果一致,表明LLMs通常不是有效的信息提取器,尤其是對(duì)于少數(shù)鏡頭的信息提取任務(wù)。相反地,在KGs 推理任務(wù)中,所有LLMs 在一次性設(shè)置中表現(xiàn)出卓越的性能,而GPT-4甚至在零樣本設(shè)置中也達(dá)到了最先進(jìn)水平。這些觀察結(jié)果為后續(xù)研究提供了有意義的見解,強(qiáng)調(diào)了大型語(yǔ)言模型在知識(shí)圖譜領(lǐng)域內(nèi)的適應(yīng)性和性能提升的重要性。這一現(xiàn)象[101]可以解釋如下:首先,KGs構(gòu)建任務(wù)涉及到實(shí)體、關(guān)系、事件等復(fù)雜元素的識(shí)別和提取,使得任務(wù)更加復(fù)雜和困難。相比之下,KGs 推理任務(wù),尤其是以鏈接預(yù)測(cè)為代表的推理任務(wù),主要依賴于已有的實(shí)體和關(guān)系進(jìn)行推理,因此任務(wù)相對(duì)較簡(jiǎn)單。其次,LLMs在推理任務(wù)中的卓越表現(xiàn)可能歸因于它們?cè)陬A(yù)訓(xùn)練階段暴露于廣泛的知識(shí),這有助于更好地理解和處理與知識(shí)圖譜相關(guān)的信息,從而提高了推理性能。這些發(fā)現(xiàn)強(qiáng)調(diào)了大型語(yǔ)言模型在增強(qiáng)知識(shí)圖譜中的因果關(guān)系推斷方面的潛力,尤其是在KGs推理任務(wù)中。

        實(shí)體和關(guān)系在知識(shí)圖譜中以結(jié)構(gòu)化的方式進(jìn)行表示,因此在面向知識(shí)圖譜的因果關(guān)系推斷和圖譜推理等許多下游任務(wù)中得到了廣泛的應(yīng)用,但是傳統(tǒng)的知識(shí)圖譜通常是不完整的,且對(duì)文本信息的利用并不完全。因此,考慮通過(guò)大語(yǔ)言模型來(lái)增強(qiáng)知識(shí)圖譜。LLMs對(duì)KGs進(jìn)行增強(qiáng)是一種新穎的方法,其能夠補(bǔ)全知識(shí)圖譜的不足并提供更準(zhǔn)確、更全面的知識(shí)因果推理,LLMs可以通過(guò)增強(qiáng)知識(shí)圖譜的嵌入、知識(shí)圖譜的完整性、知識(shí)圖譜的結(jié)構(gòu)等方面對(duì)KGs進(jìn)行增強(qiáng)(如表4)。

        表4 大語(yǔ)言模型增強(qiáng)知識(shí)圖譜的方法Table 4 Methods for enhancing knowledge graphs using large language models

        5.2.1 大模型增強(qiáng)知識(shí)圖譜嵌入

        知識(shí)圖譜嵌入(knowledge graph embedding,KGE)的主要目標(biāo)是將每個(gè)實(shí)體和關(guān)系映射到低維向量空間中,以捕捉知識(shí)圖譜的語(yǔ)義和結(jié)構(gòu)信息,從而可以應(yīng)用于多種任務(wù),包括因果關(guān)系推斷、知識(shí)圖譜推理[103]和推薦等領(lǐng)域。傳統(tǒng)的知識(shí)圖譜嵌入方法主要依賴于知識(shí)圖譜的結(jié)構(gòu)信息,通過(guò)優(yōu)化定義的得分函數(shù)(例如DisMult)來(lái)實(shí)現(xiàn)。然而,由于結(jié)構(gòu)連接性的限制,這些方法通常難以有效地表示未見實(shí)體和長(zhǎng)尾關(guān)系。為了解決這一問(wèn)題,近期的研究采用了大型語(yǔ)言模型(LLMs)來(lái)增強(qiáng)知識(shí)圖譜的表示能力,通過(guò)編碼實(shí)體和關(guān)系的文本描述來(lái)提高表征的質(zhì)量。例如,Nayyeri等在文獻(xiàn)[104]中使用LLMs生成全球級(jí)、句子級(jí)和文檔級(jí)的表示,然后將這些表示與圖結(jié)構(gòu)融合為四維超復(fù)數(shù)的Dihedron 和Quaternion 表示。Huang等在文獻(xiàn)[105]中將LLMs與其他視覺(jué)和圖形編碼器相結(jié)合,以學(xué)習(xí)多模態(tài)知識(shí)圖嵌入,從而提高了下游任務(wù)的性能。CoDEx[106]提出了一種新型的、由LLMs強(qiáng)化的損失函數(shù),通過(guò)考慮文本信息來(lái)指導(dǎo)KGE模型測(cè)量三元組的可能性。這種損失函數(shù)對(duì)于模型結(jié)構(gòu)是不可知的,因此可以與任何知識(shí)圖譜嵌入模型相結(jié)合使用。除了考慮圖結(jié)構(gòu)外,另一類方法則直接利用LLMs 將圖數(shù)據(jù)和文本信息融合到嵌入空間中。例如,KNN-KGE[107]將實(shí)體和關(guān)系視為L(zhǎng)LMs中的特殊標(biāo)記,然后將每個(gè)三元組(h,r,t)及相應(yīng)的文本描述轉(zhuǎn)化為一個(gè)句子。訓(xùn)練結(jié)束后,LLMs中對(duì)應(yīng)的標(biāo)記表示被用作實(shí)體和關(guān)系的嵌入。LambdaKG[108]采用對(duì)比學(xué)習(xí)的方法,同時(shí)為了更好地捕捉圖結(jié)構(gòu),對(duì)1跳鄰居實(shí)體進(jìn)行采樣,然后將它們的標(biāo)記與三元組拼接為一個(gè)句子,最后輸入到LLMs中進(jìn)行訓(xùn)練。

        總的來(lái)說(shuō),這些研究展示了大型語(yǔ)言模型在增強(qiáng)知識(shí)圖譜嵌入中的潛力,尤其在將文本信息與圖結(jié)構(gòu)相結(jié)合以更好地進(jìn)行因果關(guān)系推斷方面。通過(guò)利用LLMs,可以更全面地理解和分析知識(shí)圖譜,為因果關(guān)系推斷提供了更強(qiáng)大的工具和方法。

        5.2.2 大模型增強(qiáng)知識(shí)圖譜完整性

        知識(shí)圖譜補(bǔ)全(knowledge graph completion,KGC)是指在給定知識(shí)圖譜中推斷缺失的事實(shí),增強(qiáng)知識(shí)圖譜的完整性,將有利于因果關(guān)系推斷。與知識(shí)圖譜嵌入(KGE)相似,傳統(tǒng)的知識(shí)圖譜補(bǔ)全方法主要考慮和關(guān)注圖結(jié)構(gòu),但并未考慮更廣泛的文本信息。近來(lái),LLMs的整合使得知識(shí)圖譜補(bǔ)全方法能夠?qū)ξ谋具M(jìn)行編碼或生成事實(shí),從而可以獲得更好的知識(shí)圖譜補(bǔ)全性能。LASS(language and structure-sensitive embeddings)[109]認(rèn)為語(yǔ)言語(yǔ)義與圖結(jié)構(gòu)對(duì)于KGC 同等重要。因此LASS 提出了聯(lián)合學(xué)習(xí)兩種類型的嵌入:語(yǔ)義嵌入和結(jié)構(gòu)嵌入。在此方法中,三元組的完整文本信息被傳入到LLMs中,并分別計(jì)算h、r和t對(duì)應(yīng)的LLMs 輸出的平均池化。最后將得到的嵌入傳入給基于圖的方法,從而重建出知識(shí)圖譜結(jié)構(gòu)。之后,許多方法引入了掩碼語(yǔ)言模型(MLM)的概念對(duì)知識(shí)圖譜文本進(jìn)行編碼。MEM-KGC(meta-embedding models for knowledge graph completion)使用掩碼實(shí)體模型分類機(jī)制來(lái)預(yù)測(cè)三元組中的掩碼實(shí)體。Open-World KGC[110]對(duì)MEM-KGC模型進(jìn)行了擴(kuò)展,從而解決OpenWorld KGC的挑戰(zhàn),其采用一個(gè)流水線框架,其中定義了兩個(gè)基于MLM的順序模塊:實(shí)體描述預(yù)測(cè)(entity description prediction,EDP)和不完整三元組預(yù)測(cè)(incomplete triple prediction,ITP)。EDP首先對(duì)三元組進(jìn)行編碼,并生成最終的隱藏狀態(tài),然后將其作為頭實(shí)體的嵌入,傳遞給ITP 以預(yù)測(cè)目標(biāo)實(shí)體。LPBERT(language-pretrained BERT)[111]是一種混合式的知識(shí)圖譜補(bǔ)全方法,結(jié)合了MLM編碼和分離編碼。該方法由預(yù)訓(xùn)練和微調(diào)兩個(gè)階段組合而成,在預(yù)訓(xùn)練階段利用MLM 機(jī)制對(duì)KGC 數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練。在微調(diào)階段,LLMs 對(duì)兩個(gè)部分進(jìn)行編碼,并采用對(duì)比學(xué)習(xí)方法進(jìn)行優(yōu)化。AutoKG[112]采用提示工程方法設(shè)計(jì)定制的提示語(yǔ),這些提示語(yǔ)包含任務(wù)描述、少樣本示例和測(cè)試輸入,指導(dǎo)LLMs預(yù)測(cè)知識(shí)圖譜補(bǔ)全中的尾部實(shí)體。這些方法結(jié)合了文本信息和圖結(jié)構(gòu),使知識(shí)圖譜補(bǔ)全更加強(qiáng)大和精確。同時(shí),它們也為因果關(guān)系推斷提供了有用的框架,可以用于分析知識(shí)圖譜中的因果關(guān)系。

        5.2.3 大模型增強(qiáng)知識(shí)圖譜構(gòu)建

        知識(shí)圖譜構(gòu)建是指對(duì)特定領(lǐng)域內(nèi)創(chuàng)建的知識(shí)進(jìn)行結(jié)構(gòu)化表示[113]。傳統(tǒng)知識(shí)圖譜構(gòu)建主要包含實(shí)體發(fā)現(xiàn)、共指消解和關(guān)系提取。近來(lái)的方法探索了端到端的知識(shí)圖譜構(gòu)建,即可以在一步中構(gòu)建完整的知識(shí)圖譜,或直接從LLMs 中提取知識(shí)圖譜。LRN(label-relational reasoning network)[114]考慮了標(biāo)簽之間的內(nèi)在和外在的依賴關(guān)系。它使用BERT 對(duì)上下文和實(shí)體進(jìn)行編碼,并利用這些輸出嵌入進(jìn)行演繹和歸納推理。CrossCR[115]利用端到端模型進(jìn)行跨文檔共指消解,該模型在黃金提及跨度上進(jìn)行了提及得分器的預(yù)訓(xùn)練,并使用成對(duì)得分器來(lái)比較所有文檔中的所有提及及跨度之間的關(guān)系。PiVE(prompt with iterative verification for KGs enhancement)[116]提出了一個(gè)迭代驗(yàn)證的提示框架,利用像T5 這樣較小的LLMs來(lái)糾正較大的LLMs(例如ChatGPT等)生成的知識(shí)圖譜中的錯(cuò)誤。West等在文獻(xiàn)[117]中提出一個(gè)符號(hào)知識(shí)提取框架,從LLMs 中提取符號(hào)知識(shí),從而增強(qiáng)知識(shí)圖譜的結(jié)構(gòu)。

        近來(lái),LLMs和KGs的協(xié)同作用引來(lái)了越來(lái)越多的關(guān)注。因此,大語(yǔ)言模型與知識(shí)圖譜的結(jié)合可以成為因果關(guān)系推斷強(qiáng)大的工具。知識(shí)圖譜提供了結(jié)構(gòu)化的知識(shí)表示,而大語(yǔ)言模型則能夠理解和推理文本信息。通過(guò)結(jié)合兩者,可以彌補(bǔ)知識(shí)圖譜的不足,例如自動(dòng)補(bǔ)全和擴(kuò)展知識(shí)圖譜、理解上下文和隱含知識(shí)、整合多模態(tài)數(shù)據(jù)等。大語(yǔ)言模型通過(guò)語(yǔ)義理解和推理能力,提供更全面和準(zhǔn)確的因果關(guān)系推斷。它可以從大規(guī)模的文本數(shù)據(jù)中學(xué)習(xí),并通過(guò)在線學(xué)習(xí)和增量更新,不斷提升因果關(guān)系推斷的準(zhǔn)確性和可靠性。這種結(jié)合為在理解和應(yīng)用因果關(guān)系方面提供了一種強(qiáng)大的方法。

        6 未來(lái)研究方向

        (1)跨模態(tài)知識(shí)圖譜構(gòu)建的方向

        跨模態(tài)知識(shí)圖譜自動(dòng)構(gòu)建[101]是一個(gè)充滿前景的研究方向,如何在跨模態(tài)知識(shí)圖譜上進(jìn)行因果關(guān)系推斷涉及到將來(lái)自不同模態(tài)(如文本、圖像、語(yǔ)音等)的信息融合到一個(gè)統(tǒng)一的知識(shí)圖譜中。因此,在未來(lái)的研究方向中可以對(duì)跨模態(tài)知識(shí)圖譜的表示學(xué)習(xí)進(jìn)行探索:①探索如何將來(lái)自不同模態(tài)的數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一的表示,以便在知識(shí)圖譜中進(jìn)行一致性建模。研究關(guān)注如何捕捉不同模態(tài)之間的關(guān)聯(lián),提高跨模態(tài)表示的語(yǔ)義一致性。②探索多模態(tài)數(shù)據(jù)之間的融合與對(duì)齊,開發(fā)融合和對(duì)齊技術(shù),將不同模態(tài)的數(shù)據(jù)融合到一個(gè)綜合的知識(shí)圖譜中。這需要解決模態(tài)差異、異構(gòu)性和不完整性等問(wèn)題,以實(shí)現(xiàn)模態(tài)之間的有效對(duì)應(yīng)。③探索基于大模型的問(wèn)答及推理能力,從而發(fā)現(xiàn)已有知識(shí)圖譜上尚未關(guān)聯(lián)的具有潛在關(guān)系的圖節(jié)點(diǎn),將信息反饋給知識(shí)圖譜,進(jìn)而幫助知識(shí)圖譜自動(dòng)更新。

        (2)多元因果關(guān)系推斷的方向

        目前面向知識(shí)圖譜的因果關(guān)系推斷主要是面對(duì)兩個(gè)節(jié)點(diǎn)建立的,即一因一果關(guān)系,但對(duì)于一對(duì)多、多對(duì)一的多元因果關(guān)系的推斷效果并不理想,因此,現(xiàn)如今對(duì)于多元的因果關(guān)系推斷還亟需進(jìn)一步的研究。引入圖神經(jīng)網(wǎng)絡(luò)可以解決部分的問(wèn)題,但是多因果關(guān)系的推斷、標(biāo)注和評(píng)價(jià)體系,都需要進(jìn)一步的完善和發(fā)展[118]。現(xiàn)實(shí)生活場(chǎng)景中,氣壓低是降水的原因,而降水又是城市交通擁堵的原因,這就是一個(gè)典型的多元關(guān)系結(jié)構(gòu)[119-120]。

        (3)動(dòng)態(tài)知識(shí)圖譜更新的方向

        在面向知識(shí)圖譜的因果關(guān)系推斷中,動(dòng)態(tài)更新知識(shí)圖譜亦是一個(gè)十分重要的研究方向,動(dòng)態(tài)更新知識(shí)圖譜以發(fā)現(xiàn)圖中的新的具有因果關(guān)系的節(jié)點(diǎn)。未來(lái)可以考慮如何根據(jù)事件觸發(fā)來(lái)自動(dòng)更新知識(shí)圖譜。例如,從新聞、社交媒體等信息源中識(shí)別事件并將其反映到知識(shí)圖譜中。其次可以考慮從時(shí)間角度對(duì)知識(shí)圖譜建模,在知識(shí)圖譜中引入時(shí)間維度,以更好地建模實(shí)體和關(guān)系的演化。時(shí)間感知的建模有助于揭示知識(shí)圖譜中的動(dòng)態(tài)模式和趨勢(shì)。

        (4)面向大模型的因果關(guān)系推斷的可解釋性方向

        解釋大模型的復(fù)雜因果推斷結(jié)果對(duì)于應(yīng)用和領(lǐng)域?qū)<抑陵P(guān)重要,因?yàn)檫@有助于確保結(jié)果的可理解性、可信度和有效應(yīng)用。然而,將這些復(fù)雜的結(jié)果以可解釋的方式呈現(xiàn)給非專業(yè)人士是一個(gè)具有挑戰(zhàn)性的問(wèn)題,因?yàn)檫@涉及到如何將高度技術(shù)性的概念和分析轉(zhuǎn)化為易于理解和可操作的信息。未來(lái)可以考慮應(yīng)用可視化工具提高大模型因果關(guān)系推斷結(jié)果的可解釋性。利用可視化工具來(lái)呈現(xiàn)因果推斷結(jié)果,將抽象的概念轉(zhuǎn)化為圖表、圖像等可視化形式。這有助于非專業(yè)人士更直觀地理解因果關(guān)系和結(jié)果。

        7 總結(jié)

        “因果關(guān)系”推斷作為近幾年熱門的研究方向,得到了越來(lái)越多的研究人員和學(xué)者關(guān)注研究。隨著知識(shí)圖譜的興起,面向知識(shí)圖譜的因果關(guān)系推斷逐漸成為了研究熱門。因此,通過(guò)閱讀近年來(lái)大部分有關(guān)因果關(guān)系推斷的方法和應(yīng)用的文獻(xiàn),本文對(duì)因果關(guān)系推斷進(jìn)行了較為系統(tǒng)的綜述。本文在介紹傳統(tǒng)因果關(guān)系推斷方法的同時(shí),重點(diǎn)分析討論了現(xiàn)如今流行的面向知識(shí)圖譜和大模型的因果關(guān)系推斷方法。本文對(duì)面向知識(shí)圖譜和大模型的因果關(guān)系推斷方法研究現(xiàn)狀進(jìn)行了深入的綜述和討論,并對(duì)這兩類方法的未來(lái)研究趨勢(shì)進(jìn)行了展望和總結(jié)。

        猜你喜歡
        因果關(guān)系圖譜變量
        抓住不變量解題
        玩忽職守型瀆職罪中嚴(yán)重不負(fù)責(zé)任與重大損害后果的因果關(guān)系
        繪一張成長(zhǎng)圖譜
        也談分離變量
        做完形填空題,需考慮的邏輯關(guān)系
        補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
        中成藥(2017年3期)2017-05-17 06:09:01
        幫助犯因果關(guān)系芻議
        主動(dòng)對(duì)接你思維的知識(shí)圖譜
        SL(3,3n)和SU(3,3n)的第一Cartan不變量
        介入因素對(duì)因果關(guān)系認(rèn)定的影響
        老妇女性较大毛片| 国产成人精品久久二区二区91 | av高清视频在线麻豆免费观看| 日本一区二区在线免费视频| 国产揄拍国产精品| 99热免费观看| 毛片av中文字幕一区二区| 中文字幕av长濑麻美| 人妻丰满熟妇av无码区| www.狠狠艹| 大量老肥熟女老女人自拍| 开心五月婷婷激情综合网| 人妻有码中文字幕| 国产亚洲欧美日韩综合综合二区| 免费观看在线一区二区| 国内自拍愉拍免费观看| 天天综合网天天综合色| av色综合网站| 麻豆国产精品伦理视频| 日韩国产人妻一区二区三区| 性大片免费视频观看| 色窝窝手在线视频| 亚洲国产精品悠悠久久琪琪| 中文字幕乱码无码人妻系列蜜桃| 久久福利青草精品免费| 精品国产一区二区三区久久狼| 丝袜美腿高清在线观看| 开心五月激情综合婷婷色| 国产精品一区二区久久乐下载| 在线观看一区二区三区视频| 又紧又大又爽精品一区二区| 伊伊人成亚洲综合人网7777| 亚洲香蕉av一区二区蜜桃| 国产精品一区二区三区免费视频| 亚洲熟妇无码八av在线播放| 国产国语对白一区二区三区| 街拍丝袜美腿美女一区| 精品一区二区三区免费视频| 亚洲人免费| 免费看黄在线永久观看| 极品老师腿张开粉嫩小泬|