覃 曉,廖兆琪,施 宇,元昌安
(1.南寧師范大學(xué),廣西南寧 530299,2.廣西科學(xué)院,廣西南寧 530007)
知識圖譜(Knowledge Graph)的研究最早可追溯到1977年,在第五屆國際人工智能會議上,美國計算機(jī)科學(xué)家Feigenbaum B.A.首次提出知識工程(Knowledge Engineering)的概念。知識工程即針對用戶提出的問題用知識庫中已有的知識來求解的系統(tǒng),其中最經(jīng)典的是專家系統(tǒng)。
2012年5月17日,谷歌(Google)發(fā)布知識圖譜項(xiàng)目,并宣布以此為基礎(chǔ)構(gòu)建下一代智能化搜索引擎[1]。該項(xiàng)目通過對客觀真實(shí)世界中各種實(shí)體及其關(guān)系的描繪,形成一張巨大的語義結(jié)構(gòu)網(wǎng)絡(luò)圖,使各種龐雜無關(guān)的知識聯(lián)系起來,從而達(dá)到便捷地獲取知識的目的。
如果按使用范圍劃分,知識圖譜可劃分為領(lǐng)域知識圖譜和通用知識圖譜。對于特定領(lǐng)域知識,通過知識庫的理論進(jìn)行組織和管理較為有效。根據(jù)全球機(jī)構(gòu)庫統(tǒng)計網(wǎng)站開放獲取知識庫名錄的數(shù)據(jù),截至2014年4月,大約有2 616個知識庫已在該網(wǎng)站注冊,其中包含機(jī)構(gòu)知識庫2 212個,占總數(shù)的84.56%。在國內(nèi),始建于2007年的中國科學(xué)院知識庫為全民提供大量的知識學(xué)習(xí)資源。另外,許多高校也開始構(gòu)造或已經(jīng)構(gòu)造自己的知識庫系統(tǒng)。
通用知識圖譜指的是由世界知識構(gòu)成的語義網(wǎng)絡(luò)。從2006年開始,隨著大規(guī)模百科資源的出現(xiàn)以及知識提取方法的進(jìn)步,知識工程取得重大進(jìn)展。典型的例子是谷歌收購Freebase后在2012年推出的知識圖譜。最具代表性的大規(guī)模網(wǎng)絡(luò)知識獲取工作包括DBpedia、Freebase、KnowItAll、WikiTaxonomy和YAGO,以及BabelNet、ConceptNet、DeepDive、NELL、Probase、Wikidata、XLORE、Zhishi.me、CNDBpedia等。這些知識圖譜遵循RDF數(shù)據(jù)模型,包含數(shù)以千萬級或者億級規(guī)模的實(shí)體,并且這些實(shí)體被組織到各種客觀世界的概念中。
知識圖譜是將大量收集的數(shù)據(jù)整理成機(jī)器能處理的知識庫,并實(shí)現(xiàn)可視化的展示。知識圖譜本質(zhì)上是一種大規(guī)模的語義網(wǎng)絡(luò),其主要目的是對真實(shí)世界里實(shí)體或概念之間的關(guān)聯(lián)關(guān)系進(jìn)行描述。
三元組是知識圖譜的一種基本表示方式,即G=(E,R,S),其中E={e1,e2,…,e|E|}是知識庫中的實(shí)體集,共包含|E|種實(shí)體;R={r1,r2,…,r|E|}是知識庫中的關(guān)系集合,共包含|R|種關(guān)系;S?E×R×E代表知識庫中的三元組集合。三元組的主要結(jié)構(gòu)是實(shí)體-關(guān)系-實(shí)體,以及各種概念、屬性和屬性值等,其中實(shí)體是其最基本的元素。概念主要指集合、類別、對象類型等;屬性主要指對象可能具有的屬性、特征、特性等;屬性值主要指對象指定屬性的值。實(shí)體可以通過特有的標(biāo)簽來表示,關(guān)系則用來聯(lián)系兩個實(shí)體[2]。
知識圖譜的體系架構(gòu)是指構(gòu)造該圖譜模型的結(jié)構(gòu),如圖1所示。其中虛線框內(nèi)的部分為知識圖譜的模塊構(gòu)造過程。
圖1 知識圖譜的體系架構(gòu)Fig.1 Architecture of the knowledge graph
知識圖譜主要有自頂向下與自底向上兩種構(gòu)造方式。自頂向下指的是先定義所需要的模式,再將各種實(shí)體知識加入知識庫中。自底向上指的是先從各種數(shù)據(jù)中抽取實(shí)體,再篩選出置信度較高的實(shí)體去構(gòu)造頂層的模式[3]。
知識圖譜的體系架構(gòu)展現(xiàn)了構(gòu)造知識圖譜的幾個關(guān)鍵步驟,包括數(shù)據(jù)采集、知識抽取、知識融合、知識加工、知識更新等過程,其中,從數(shù)據(jù)采集到知識抽取還需要恰當(dāng)?shù)闹R表達(dá)技術(shù)。本文著重就知識表達(dá)和知識抽取兩個關(guān)鍵技術(shù)進(jìn)行闡述。
為了高效存儲與利用結(jié)構(gòu)化知識,人們結(jié)合專家手工標(biāo)注與計算機(jī)自動標(biāo)注等方式,面向開放領(lǐng)域和垂直領(lǐng)域構(gòu)建了各種大規(guī)模知識圖譜。如來自羅馬薩皮恩薩大學(xué)的Roberto Navigli是BabelNet的創(chuàng)始人[4],BabelNet目前是最大的高質(zhì)量多語言百科全書計算機(jī)辭典,一個覆蓋廣泛的大型多語言語義網(wǎng)絡(luò)。BabelNet網(wǎng)絡(luò)能夠自動將最大的多語Web百科全書——維基百科,鏈接到最常用的英語計算詞典WordNet。除此之外,機(jī)器翻譯也能夠讓所有語種的詞匯信息資源等更豐富,已有的BabelNet(v3.7)已覆蓋271種語言,包括全部的歐洲語言、大多數(shù)亞洲語言及拉丁語。在新的標(biāo)準(zhǔn)數(shù)據(jù)集和現(xiàn)有的標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果也證明這個資源具有很高的品質(zhì)和很廣的覆蓋范圍。
來自Max-Planck信息學(xué)研究所的Hoffart等[5]提出的YAGO2,是YAGO知識庫的一個拓展;實(shí)體、事實(shí)和事件在YAGO2知識庫里都被按照時間和空間的順序進(jìn)行排序;YAGO2涵蓋980萬個實(shí)體的4.47億個事實(shí),這些事實(shí)數(shù)據(jù)都在GeoNames、維基百科以及WordNet上自動構(gòu)建形成,經(jīng)過專家的評估確認(rèn),其中有95%的事實(shí)是正確的。
此外,還有WikiData[6]、Freebase[7]、DBpedia[8]、WordNet[9]等經(jīng)典知識庫。以WikiData為例,目前其已經(jīng)包含5 700多萬個實(shí)體。與此同時,國內(nèi)外各大互聯(lián)網(wǎng)公司也均有各自的知識圖譜產(chǎn)品,如谷歌知識圖譜、百度知心、同方、搜狗知立方和微軟(Microsoft) Bing Satori 等。
知識表示是知識圖譜研究首先需要討論的技術(shù)。鄢珞青[10]對知識表達(dá)方面的相關(guān)知識做了細(xì)致的研究,提出知識點(diǎn)的概念并討論了各種知識表達(dá)的類型等。王知津等[11]在對知識組織各個方面進(jìn)行分析后提出多維性原則、科學(xué)性原則等十大原則。王軍等[12]著重對互聯(lián)網(wǎng)環(huán)境下知識的組織結(jié)構(gòu)進(jìn)行系統(tǒng)化討論,針對網(wǎng)絡(luò)知識組織系統(tǒng)的各種應(yīng)用層面進(jìn)行細(xì)致的介紹。知識表達(dá)組織需要根據(jù)整個知識庫系統(tǒng)的需求及其框架來確定。當(dāng)今,比較常用的知識表達(dá)框架主要基于面向?qū)ο?,將知識分解為實(shí)體與實(shí)體間的關(guān)系。
近年來,知識表示學(xué)習(xí)由于深度學(xué)習(xí)的發(fā)展也獲得了相應(yīng)的成果,并逐漸成為前沿研究的熱點(diǎn)。知識表示學(xué)習(xí)主要是對知識庫中的實(shí)體以及它們之間的關(guān)系進(jìn)行學(xué)習(xí),將其中的語義知識信息向量化,從而在低維空間中實(shí)現(xiàn)高效計算實(shí)體和關(guān)系的語義聯(lián)系,不但有效解決數(shù)據(jù)稀疏的問題,而且使知識獲取、融合和推理的效果更為有效。國外關(guān)于知識庫的研究更側(cè)重實(shí)踐方面,并且主要針對網(wǎng)絡(luò)知識組織系統(tǒng)進(jìn)行相關(guān)的研發(fā)工作,例如對在線圖書館的研究等[13]。
2.1.1 知識表示學(xué)習(xí)經(jīng)典模型
(1)神經(jīng)張量模型
神經(jīng)張量模型[14]的基本思想:在不同維度下,將實(shí)體聯(lián)系起來,表示實(shí)體間復(fù)雜的語義聯(lián)系。模型為知識庫中的每個三元組(h,r,t)定義了以下形式的評價函數(shù):
神經(jīng)張量模型在構(gòu)造實(shí)體的向量表示時,是將該實(shí)體中的所有單詞的向量取平均值,這樣一方面可以反復(fù)使用單詞向量構(gòu)造實(shí)體,另一方面將有利于增強(qiáng)低維向量的稠密程度以及實(shí)體與關(guān)系的語義計算。
(2)矩陣分解模型
通過矩陣分解的方式可得到低維的向量表示,因此相關(guān)模型被開發(fā)出來,其中的典型代表是RESACL模型[15]。
(3)翻譯模型
受平移不變現(xiàn)象的啟發(fā),有研究團(tuán)隊(duì)提出TransE模型[16],即將知識庫中實(shí)體之間的關(guān)系看成是從實(shí)體間的某種平移,并用向量表示。關(guān)系lr可以看作是從頭實(shí)體向量lh到尾實(shí)體向量lt的翻譯。對于知識庫中的每個三元組(h,r,t),TransE都希望滿足以下關(guān)系:lh+lr≈lt,其損失函數(shù)為
fr(h,r,t)=|lh+lr-lt|L1/L2,
即向量lh+lr與Lt的L1或L2距離。該模型的參數(shù)較少,計算的復(fù)雜度顯著降低,并且該模型具有較好的性能與擴(kuò)展性。
2.1.2 知識表示學(xué)習(xí)改進(jìn)模型
盡管知識表示學(xué)習(xí)經(jīng)典模型具有很好的效率和結(jié)果,并被廣泛應(yīng)用于知識表示學(xué)習(xí)任務(wù)中,但經(jīng)典模型仍存在難以表達(dá)復(fù)雜關(guān)系、未充分利用多步關(guān)系路徑信息的不足。有研究人員嘗試將復(fù)雜關(guān)系、多步路徑關(guān)系信息進(jìn)行嵌入表達(dá),如Tang等[17]針對知識表示學(xué)習(xí)中的復(fù)雜關(guān)系建模進(jìn)行研究,提出一種基于距離的鏈接預(yù)測知識圖嵌入方法。這個方法先是使用正交關(guān)系變換把RotatE拓展到高維空間上,然后把圖結(jié)構(gòu)的信息集成到距離評分函數(shù)中,用于訓(xùn)練和推理過程中度量三元組的相似性。Nguyen等[18]提出基于關(guān)系記憶網(wǎng)絡(luò)的Embedding模型,這個模型充分利用三元組之間潛在的依賴關(guān)系,其中包含多頭注意力機(jī)制編碼,并且在三元組分類中驗(yàn)證了模型的效果比當(dāng)前最新的模型好。Zhang等[19]提出一種名為CrossE的新型知識圖譜嵌入,該模型可以正確地模擬交叉交互。它不僅能像大多數(shù)已有方法一樣為每個實(shí)體和關(guān)系學(xué)習(xí)生成一個通用嵌入,還為這兩者之間生成多個三重特定的嵌入,即交互嵌入。通過對典型鏈接預(yù)測任務(wù)上的嵌入評估,發(fā)現(xiàn)CrossE可以在很復(fù)雜的數(shù)據(jù)集上得到良好效果。同時從新的角度評估嵌入,然后對頭尾實(shí)體之間的可靠閉合路徑給出解釋,完成三元組的預(yù)測。Lin等[20]提出將關(guān)系路徑信息嵌入知識表示學(xué)習(xí)模型PTransE。PTransE提供一種知識圖譜的新型表示方法,通過編碼關(guān)系路徑將實(shí)體和關(guān)系嵌入一個低維空間之中,與傳統(tǒng)方法相比,PTransE在知識圖譜補(bǔ)全和文本關(guān)系抽取任務(wù)上取得了顯著的改進(jìn)效果。
復(fù)雜關(guān)系知識表示模型TransR和關(guān)系路徑知識表示PTransE是關(guān)系表示學(xué)習(xí)的成功改進(jìn)模型。
(1)復(fù)雜關(guān)系知識表示模型TransR
經(jīng)典知識表示模型的三元組(h,r,t)中,關(guān)系r僅代表一種語義。但實(shí)際情況下,同一個實(shí)體在不同的關(guān)系場景下具有的語義是有區(qū)別的。比如“繡球”在民族文化語義中是廣西壯族手工藝品,是壯家人的定情物和吉祥物,但在植物科目中“繡球”卻是薔薇目虎耳草科植物;“韋啟初”是環(huán)江韋氏仿古壯族銅鼓鑄造廠廠長,又是廣西壯族自治區(qū)級非物質(zhì)文化遺產(chǎn)“壯族銅鼓鑄造技藝”代表性傳承人。為擴(kuò)展經(jīng)典知識表示模型復(fù)雜關(guān)系的表達(dá)能力,Lin等[21]提出TransR模型,該模型基于復(fù)雜關(guān)系知識表示建模,為每一種關(guān)系r定義單獨(dú)的語義空間,并使用不同的映射矩陣Mr將經(jīng)典模型中的實(shí)體映射到關(guān)系空間中(圖2)。
圖2 實(shí)體空間到關(guān)系空間映射Fig.2 Mapping from entity space to relation space
以翻譯模型TransE為基礎(chǔ),考慮復(fù)雜關(guān)系的知識表示模型,在關(guān)系r所在的空間中,hr和tr滿足的損失函數(shù)與TransE相同。即
fr(h,r,t)=|lhr+lr-ltr|L1/L2。
(2)關(guān)系路徑知識表示模型PTransE
PTransE為關(guān)系三元組定義的損失函數(shù)考慮實(shí)體間多步關(guān)系路徑信息:
f(h,r,t)=E(h,r,t)+E(h,P,t),
其中,E(h,r,t)代表實(shí)體h和t之間直接關(guān)系的相關(guān)性,而E(h,P,t)則刻畫多步路徑所蘊(yùn)含的關(guān)系信息。PTransE模型將P看作是多條關(guān)系路徑p的嵌入表示,每一條關(guān)系路徑p看作多步關(guān)系信息得到的實(shí)體間關(guān)系的近似。于是E(h,P,t)就可以定義為
E(h,P,t)=∑p∈P(h,t)R(p|h,t)E(h,p,t),
近年來,盡管很多大型知識圖譜,如Freebase、DBpedia、YAGO等在問答系統(tǒng)、文本檢索等領(lǐng)域取得顯著效果,但是這些大型知識圖譜所涵蓋的知識,與現(xiàn)實(shí)世界無窮無盡的知識比較起來,是不夠完善的。因此,知識自動獲取成為豐富知識圖譜知識和提高知識獲取效率的重要課題。在知識的自動獲取技術(shù)上,關(guān)系抽取是其核心。關(guān)系抽取的目標(biāo)是解決實(shí)體間語義鏈接的問題,最初的關(guān)系抽取是通過人為構(gòu)造規(guī)則的方法,隨后,實(shí)體間的關(guān)系模型逐漸替代人工預(yù)定義的語法與規(guī)則。文獻(xiàn)[22]提出面向開放域的信息抽取框架(Open Information Extraction,OIE)。但OIE方法在對實(shí)體的隱含關(guān)系抽取方面性能低下,因此部分學(xué)者提出基于馬爾可夫邏輯網(wǎng)(Markov Logic Network,MLN)以及基于本體推理的深層隱含關(guān)系抽取方法[23]。
2.2.1 傳統(tǒng)的關(guān)系抽取模型
(1)開放式實(shí)體關(guān)系抽取
開放式實(shí)體關(guān)系抽取可分為二元開放式關(guān)系抽取和n元開放式關(guān)系抽取。在二元開放式關(guān)系抽取中,早期的研究有KnowItAll[24]與TextRunner[25]系統(tǒng),但是表現(xiàn)一般。Suchanek等[26]提出一種基于Wikipedia的OIE方法——WOE,經(jīng)自監(jiān)督學(xué)習(xí)得到提取器,準(zhǔn)確率較TextRunner有顯著提高。
(2)基于聯(lián)合推理的實(shí)體關(guān)系抽取
聯(lián)合推理的實(shí)體關(guān)系抽取中的典型方法是馬爾可夫邏輯網(wǎng)MLN[27],其最核心的思想即將馬爾可夫網(wǎng)絡(luò)與邏輯相結(jié)合,同時也是在OIE中融入推理的一種重要實(shí)體關(guān)系抽取模型?;谠撃P?,Liu等[28]提出一種無監(jiān)督學(xué)習(xí)模型StatSnowball,不同于傳統(tǒng)的OIE,該方法可自動產(chǎn)生或選擇樣例生成提取器。在StatSnowball的基礎(chǔ)上,楊博等[22]和Liu等[28]提出一種實(shí)體識別與關(guān)系抽取相結(jié)合的模型EntSum,該模型主要由擴(kuò)展的CRF命名實(shí)體識別模塊與基于StatSnowball的關(guān)系抽取模塊構(gòu)成,在保證準(zhǔn)確率的同時也提高了召回率。
(3)有監(jiān)督的實(shí)體關(guān)系抽取
傳統(tǒng)的有監(jiān)督的實(shí)體關(guān)系抽取模型主要基于統(tǒng)計方法,包括特征工程方法[29-31]、核函數(shù)方法[32-34]、圖模型方法[35-37]等。有監(jiān)督的實(shí)體關(guān)系抽取模型雖然取得有目共睹的效果,但是這些方法大多依賴于大量的標(biāo)注數(shù)據(jù),而取得大規(guī)模標(biāo)注數(shù)據(jù)需要極高代價的人力和物力。為取得大規(guī)模的標(biāo)注數(shù)據(jù)用于關(guān)系抽取模型的訓(xùn)練,Mintz等[38]提出遠(yuǎn)程監(jiān)督模型,用于自動標(biāo)注訓(xùn)練數(shù)據(jù)。遠(yuǎn)程監(jiān)督模型基于一個強(qiáng)假設(shè)條件來標(biāo)注數(shù)據(jù),即假設(shè)在一個小型的知識圖譜中,兩個實(shí)體之間存在某種關(guān)系R,那么遠(yuǎn)程監(jiān)督模型認(rèn)為,現(xiàn)實(shí)世界中只要這兩個實(shí)體同時出現(xiàn)在一個句子中,則兩個實(shí)體間的關(guān)系就一定是R。
遠(yuǎn)程監(jiān)督的強(qiáng)假設(shè)條件不可避免地造成數(shù)據(jù)的錯誤標(biāo)注問題。為了解決遠(yuǎn)程監(jiān)督數(shù)據(jù)集的噪聲問題,Bunescu等[39]將弱監(jiān)督學(xué)習(xí)與多實(shí)例學(xué)習(xí)相結(jié)合,并將其擴(kuò)展到關(guān)系抽取上。Riedel等[40]將遠(yuǎn)程監(jiān)督的關(guān)系抽取問題形式化為多實(shí)例單標(biāo)簽問題。但這些方法還是基于傳統(tǒng)的自然語言處理工具生成特征,其效果仍然受到特征提取錯誤的附加影響。
2.2.2 關(guān)系抽取學(xué)習(xí)模型
伴隨著深度學(xué)習(xí)的快速發(fā)展,基于深度學(xué)習(xí)的關(guān)系抽取模型得到廣泛關(guān)注和研究。有監(jiān)督的關(guān)系抽取深度學(xué)習(xí)模型的研究,主要受計算機(jī)視覺任務(wù)中各種卷積神經(jīng)網(wǎng)絡(luò)的啟發(fā),諸多基于變種卷積神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取模型相繼被提出[41-43],研究人員同時也關(guān)注了深度學(xué)習(xí)應(yīng)用與消除遠(yuǎn)程監(jiān)督模型噪聲數(shù)據(jù)的研究。
(1)句子級別的關(guān)系抽取深度學(xué)習(xí)模型
其中的αi在ATT模型中由選擇性注意力機(jī)制定義。
ATT模型通過從遠(yuǎn)程監(jiān)督的噪聲數(shù)據(jù)識別有效實(shí)例,減輕遠(yuǎn)程監(jiān)督中錯誤標(biāo)注帶來的影響。但這種僅對每一類關(guān)系使用單獨(dú)模型來處理噪聲數(shù)據(jù)的方法,忽略了實(shí)體關(guān)系間豐富的關(guān)聯(lián)信息,而這些關(guān)聯(lián)信息對關(guān)系抽取具有重要意義。
Yang等[45]在ATT模型基礎(chǔ)上引進(jìn)關(guān)系的層次信息,提出層次注意力模型的關(guān)系自動抽取模型(HATT)。與ATT模型相比較,HATT模型引入關(guān)系內(nèi)在的層次結(jié)構(gòu),并規(guī)定底層關(guān)系具有特定的關(guān)系特征(如寧明花山景點(diǎn)),而高層關(guān)系則為泛化概念,較為籠統(tǒng)和普遍(如地域)。HATT模型在關(guān)系層次上逐層計算包含同樣實(shí)體對的句子權(quán)重,因而在不同層次的關(guān)系上具有不同粒度的信息選擇與噪聲處理能力。與傳統(tǒng)的去噪模型相比,注意力機(jī)制通過學(xué)習(xí)句子關(guān)系信息量的權(quán)重,能夠動態(tài)降低噪聲句子的影響,有效提升關(guān)系抽取的性能。而層次注意力機(jī)制能夠更好地利用關(guān)系間豐富的聯(lián)系,進(jìn)一步提升關(guān)系抽取模型的整體效果。
(2)多語言關(guān)系抽取
在互聯(lián)網(wǎng)時代,承載信息的自由文本資源來源豐富,實(shí)體間的關(guān)系不僅存在于一種語言文本中,而且常常是多語言的。如同一個景區(qū)景點(diǎn)的介紹,常常存在多國語言版本,因此,不同語言文本之間,實(shí)體關(guān)系具有潛在的互補(bǔ)性和一致性。Lin等[46]基于實(shí)體關(guān)系通常在各種語言中存在不同的表達(dá)模式這個事實(shí),基于當(dāng)前存在的單語言關(guān)系抽取方法,提出一個基于多語言交叉Attention機(jī)制實(shí)體關(guān)系抽取方法(MNRE),即針對不同語言中實(shí)體間關(guān)系的不同表達(dá)模式,設(shè)計相應(yīng)的關(guān)系權(quán)重計算方法,可以充分利用不同語言中的關(guān)系模式,從而增強(qiáng)關(guān)系模式的學(xué)習(xí)。Wang等[47]針對MNRE模型不能夠很好地捕捉不同語言間關(guān)系模式的一致性和多樣性的問題,將對抗網(wǎng)絡(luò)引入多語言關(guān)系抽取模型學(xué)習(xí)中,提出基于對抗訓(xùn)練的多語言神經(jīng)關(guān)系抽取模型(AMNRE)。該模型將不同語言文本映射到相應(yīng)的特有語言空間進(jìn)行語言特性的提取,并采用對抗機(jī)制以保證能夠有效抽取出語言一致性特征,從而解決關(guān)系模式一致性和多樣性的學(xué)習(xí)問題。
3.1.1 基于知識圖譜的對話系統(tǒng)
對話系統(tǒng),傳統(tǒng)上分為目標(biāo)導(dǎo)向Agent和閑聊Agent兩種。所謂目標(biāo)導(dǎo)向Agent,即幫助用戶去完成某項(xiàng)任務(wù),例如幫忙預(yù)定餐桌或安排代駕等。閑聊Agent即智能對話,具有互動性、娛樂性和話題性。
近年來涌現(xiàn)出太多關(guān)于深度神經(jīng)網(wǎng)絡(luò)構(gòu)建端到端(不需要特定通道)對話系統(tǒng)的工作。然而,現(xiàn)在越來越明顯的趨勢是,無論在目標(biāo)導(dǎo)向Agent還是閑聊Agent中都需要擁有一些知識,前者需要領(lǐng)域知識,后者需要常識知識。知識圖譜將提高Agent對話的可解釋性。在實(shí)際應(yīng)用中,一個任務(wù)型對話系統(tǒng)一般會涉及多個領(lǐng)域的知識,分別對應(yīng)不同領(lǐng)域的知識庫。這些知識庫往往有著不同的來源。這些不同的知識源往往由不同的技術(shù)人員進(jìn)行維護(hù),且具有異構(gòu)的分布和屬性。這會導(dǎo)致知識庫很難甚至無法直接應(yīng)用于任務(wù)型對話系統(tǒng)中。所以,需要借助于知識融合模型,將這些異源的知識庫融合為一個知識庫,然后再將融合后的知識庫應(yīng)用于任務(wù)型對話系統(tǒng)中[48]。
3.1.2 知識圖譜情報案例分析
漆桂林實(shí)驗(yàn)團(tuán)隊(duì)的前沿研究現(xiàn)狀是對知識圖譜在情報案例中的分析[49]。該團(tuán)隊(duì)為推動知識圖譜發(fā)展,強(qiáng)調(diào)中文開放知識圖譜聯(lián)盟OpenKG發(fā)展的必要性。該聯(lián)盟旨在推動中文知識圖譜的開放與互聯(lián),推動知識圖譜技術(shù)在中國的普及與應(yīng)用,為中國人工智能的發(fā)展以及創(chuàng)新創(chuàng)業(yè)做出貢獻(xiàn)。
該實(shí)驗(yàn)團(tuán)隊(duì)舉例的情報案例分析包括股票投研情報分析、公安情報分析、反欺詐情報分析。對于股票投研情報分析,主要是從各種股票相關(guān)的半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)中批量自動抽取股票相關(guān)人員的信息,構(gòu)建公司知識圖譜,為投資研究人員做更深層次的分析與決策提供可視化的分析依據(jù)。對于公安情報分析,主要是構(gòu)建融合企業(yè)與個人信息的資金關(guān)系知識圖譜,通過分析資金流向,為公安人員判斷是否為非法集資提供分析依據(jù)。對于反欺詐情報分析,主要是通過融合來自不同數(shù)據(jù)源的信息構(gòu)成知識圖譜,同時引入領(lǐng)域?qū)<医I(yè)務(wù)專家規(guī)則,利用構(gòu)建的知識圖譜分析識別可能潛在的詐騙風(fēng)險[49]。
3.1.3 基于知識圖譜的產(chǎn)品案例
除上述將知識圖譜技術(shù)應(yīng)用于輔助特定業(yè)務(wù)分析之外,國內(nèi)有關(guān)知識圖譜技術(shù)應(yīng)用的成熟智能產(chǎn)品也在市場中不斷涌現(xiàn)。其中科大訊飛、云知聲等企業(yè)的基于知識圖譜的智慧產(chǎn)品在市場中表現(xiàn)尤為活躍。
科大訊飛基于學(xué)生學(xué)情、學(xué)科教學(xué)內(nèi)容等數(shù)據(jù),構(gòu)建教育領(lǐng)域知識圖譜,借助教育知識圖譜,幫助老師預(yù)設(shè)教學(xué)重點(diǎn),打造課前、課中、課后以生為本的教學(xué)閉環(huán)場景,構(gòu)建實(shí)時線上互動的智慧課堂,顯著提升教學(xué)效率,實(shí)現(xiàn)精準(zhǔn)教學(xué)。同時,知識點(diǎn)圖譜與自適應(yīng)推薦引擎可為學(xué)生構(gòu)建線上線下可視化的自主學(xué)習(xí)場景,支持學(xué)生按圖索驥式學(xué)習(xí),從而實(shí)現(xiàn)因材施教,提升學(xué)習(xí)效率,達(dá)到自主學(xué)習(xí)的目的。而通過構(gòu)建基于司法案件宗卷數(shù)據(jù)的司法領(lǐng)域知識圖譜,科大訊飛實(shí)現(xiàn)了智慧司法的產(chǎn)品研發(fā)和實(shí)際應(yīng)用。在公安、檢察機(jī)關(guān)、法院以及政法業(yè)務(wù)等領(lǐng)域,提供多種一體化智慧建設(shè)方案,實(shí)現(xiàn)案件宗卷語義理解,規(guī)范司法管理流程,打通公檢法司數(shù)據(jù)流程,服務(wù)各級機(jī)關(guān)執(zhí)法辦案,確保辦案證據(jù)標(biāo)準(zhǔn)符合法定定案標(biāo)準(zhǔn)。
與科大訊飛相比,云知聲的AI能力始于智能語音處理技術(shù),在知識感知、表達(dá)、理解、分析和決策等認(rèn)知技術(shù)廣泛部署,并朝著多模態(tài)人工智能系統(tǒng)方向發(fā)展。同樣是智能教育方案,云知聲專注于利用自然語言理解技術(shù),構(gòu)建自然語言語義及語音的關(guān)系知識庫,并聯(lián)合應(yīng)用語音評測技術(shù)、云計算技術(shù)等,為用戶提供智能化的語言學(xué)習(xí)產(chǎn)品后臺服務(wù)。云知聲在智能家居、智慧醫(yī)療等行業(yè),將領(lǐng)域知識與語音識別、語音交互技術(shù)有效結(jié)合起來,有效解決現(xiàn)實(shí)領(lǐng)域內(nèi)智能服務(wù)產(chǎn)品的技術(shù)實(shí)現(xiàn),真正帶給用戶良好流暢的交流體驗(yàn)和卓越的應(yīng)用價值。如云知聲提供的智慧醫(yī)療方案,能夠?qū)崿F(xiàn)智能語音交互的知識問答和病例查詢,從而進(jìn)行健康風(fēng)險預(yù)測等患者病例分析,能夠從真正意義上實(shí)現(xiàn)病例的精準(zhǔn)錄入。
知識圖譜在未來的智能機(jī)器中將發(fā)揮大腦的作用,對自然語言處理、信息檢索以及人工智能的發(fā)展將產(chǎn)生深遠(yuǎn)的影響。知識圖譜關(guān)鍵技術(shù)及應(yīng)用研究將會在很長一段時間成為大數(shù)據(jù)、人工智能的熱門研究方向。未來的知識圖譜關(guān)鍵技術(shù)及應(yīng)用仍需針對以下3個方面展開深入研究。
第一,高質(zhì)量知識的獲取。如何在互聯(lián)網(wǎng)大數(shù)據(jù)以及其他紛繁浩瀚的數(shù)據(jù)來源里面獲取高質(zhì)量的知識,是構(gòu)建知識圖譜的難題之一。目前在抽取知識的準(zhǔn)確率、有效性和效率等方面都不盡如人意,影響知識圖譜系統(tǒng)構(gòu)建的有效性。在旅游文化知識圖譜中,文化知識的來源主要為百科科普型網(wǎng)站、旅游網(wǎng)站以及相關(guān)的書籍等,各方面來源的知識匯聚到一起使得知識量非常龐大,出現(xiàn)冗余或者錯誤的知識比較普遍,因此如何構(gòu)建知識圖譜的本體成為難題,這時需要旅游相關(guān)的專家來進(jìn)行實(shí)體的定義。如何定義實(shí)體并建立實(shí)體之間的關(guān)系,以及用什么方法把實(shí)體在知識中抽取出來,這些都是建立知識圖譜非常關(guān)鍵的過程。同時為了保證知識的高質(zhì)量,在實(shí)體抽取的過程中需要大量的人力資源進(jìn)行校對修改。因此,如何有效地獲取高質(zhì)量的知識,應(yīng)作為知識圖譜的重要研究主題。
第二,知識的融合。從不同來源獲取的知識可能存在大量的噪聲或者冗余,不同語種中對同類型知識也可能存在不同的描述方式,使用什么方法把這些知識有效地融合到一起,以建立更大規(guī)模的知識圖譜,是完成大數(shù)據(jù)智能的必經(jīng)之路。在旅游文化知識圖譜系統(tǒng)中,某個實(shí)體或者概念在知識庫中可能存在不同的描述信息,在現(xiàn)實(shí)中也存在相同事物有多種不同叫法的情況。為了確保知識圖譜系統(tǒng)的質(zhì)量,以便于給用戶提供準(zhǔn)確的信息,需要把多個來源同一個實(shí)體或者概念的不同描述信息進(jìn)行融合映射,這需要解決實(shí)體命名模糊、數(shù)據(jù)格式不一致等問題。同時,因?yàn)橹R量過于龐大,如何準(zhǔn)確有效地把知識進(jìn)行融合映射也是其中的難點(diǎn)之一。
第三,民族文化知識圖譜構(gòu)建及應(yīng)用。知識圖譜在智能產(chǎn)品中的應(yīng)用案例分析,揭示了知識圖譜是從大數(shù)據(jù)到人工智能實(shí)現(xiàn)的技術(shù)橋梁這一事實(shí)。知識圖譜的構(gòu)建為領(lǐng)域數(shù)據(jù)分析提供具有可解釋性的推理過程,因而基于知識圖譜的解決方案更符合人類認(rèn)知的規(guī)律。目前已有基于教育、司法、醫(yī)療、交通等諸多領(lǐng)域知識圖譜的成功應(yīng)用案例公開報道,但是關(guān)于民族文化知識圖譜的研究還非常匱乏。民族文化知識是世界知識的一個子集,構(gòu)建民族文化知識圖譜對于豐富世界知識圖譜具有重要意義。
民族文化知識圖譜的構(gòu)建能夠應(yīng)用于數(shù)字文化旅游中的特色文化推薦、同源文化演變分析,以及文化跨媒體數(shù)據(jù)有效管理和檢索等場景,具有重要的應(yīng)用價值。民族文化知識圖譜的構(gòu)建工作同樣在于知識庫中實(shí)體類型、屬性、實(shí)體關(guān)系類型和屬性的定義,以及海量知識數(shù)據(jù)的標(biāo)注。民族文化知識本身的多樣性和豐富性,使得文化知識的實(shí)體類型、關(guān)系類型及其屬性的定義存在較大難度,需要通過閱讀大量文獻(xiàn),并與領(lǐng)域?qū)<夜餐接戇M(jìn)行約定。同時,承載文化知識的媒體數(shù)據(jù)繁多,如何有效降低數(shù)據(jù)標(biāo)注的人工成本,研究文化知識數(shù)據(jù)自動標(biāo)注方法,是當(dāng)前知識圖譜領(lǐng)域的一個研究熱點(diǎn)。
筆者所在研究團(tuán)隊(duì)針對上述民族文化知識圖譜構(gòu)建中的兩個主要工作——民族文化知識實(shí)體、實(shí)體關(guān)系及其屬性的定義和文化知識數(shù)據(jù)標(biāo)注展開深入研究。目前對旅游行業(yè)的景觀文化、民族服飾等不同類型的文化實(shí)體、實(shí)體關(guān)系進(jìn)行定義,構(gòu)建關(guān)于廣西旅游景區(qū)文化知識、壯族服飾和瑤族服飾等幾類小型知識圖譜,并基于廣西民族文化旅游知識圖譜,設(shè)計相應(yīng)的問答系統(tǒng)。后續(xù)將針對民族文化知識數(shù)據(jù)深入研究其知識表達(dá)和知識自動獲取關(guān)鍵技術(shù),提高民族文化知識圖譜構(gòu)建效率,拓展民族文化知識圖譜的應(yīng)用場景,使其在地方經(jīng)濟(jì)建設(shè),特別是旅游產(chǎn)業(yè)建設(shè)中發(fā)揮重要作用。