林 碩,趙 震
(渤海大學(xué) 信息科學(xué)與技術(shù)學(xué)院,遼寧 錦州 121013)
傳統(tǒng)的知識(shí)融合一般是靜態(tài)的,在固定的應(yīng)用場(chǎng)景下,以人為應(yīng)用主體的知識(shí)融合的過(guò)程。然而21世紀(jì)是一個(gè)信息爆炸的時(shí)代,每天都有無(wú)數(shù)條信息流入網(wǎng)絡(luò)中,傳播較為迅速。這些傳遞的信息是多元化的,而且缺乏統(tǒng)一的描述規(guī)則,給不同領(lǐng)域的信息獲取和管理帶來(lái)了很多挑戰(zhàn)。通過(guò)信息抽取,實(shí)現(xiàn)了從非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)中獲取實(shí)體關(guān)系及屬性,然而,這些結(jié)果中可能存在大量的冗余和錯(cuò)誤信息,因此,需要對(duì)其進(jìn)行清理和融合。如何快速、準(zhǔn)確地獲取信息,讓融合后的知識(shí)可以更好地滿足不同需求的用戶(hù),且形成特定問(wèn)題的領(lǐng)域知識(shí)庫(kù)已成為現(xiàn)階段研究的重點(diǎn)。知識(shí)融合是在信息融合的基礎(chǔ)上發(fā)展起來(lái)的一個(gè)新的概念,它可以看成是信息融合的高級(jí)領(lǐng)域。該文的主要貢獻(xiàn)如下:
(1)對(duì)國(guó)內(nèi)外研究現(xiàn)狀進(jìn)行了歸納整理并對(duì)語(yǔ)義規(guī)則、貝葉斯網(wǎng)絡(luò)等知識(shí)融合算法進(jìn)行了總結(jié),對(duì)所用算法的目的和未來(lái)研究方向進(jìn)行了描述。
(2)對(duì)知識(shí)融合模式及框架進(jìn)行了綜述,并詳細(xì)討論了機(jī)器學(xué)習(xí)方法、深度學(xué)習(xí)方法等知識(shí)融合的前沿方法。
(3)深入分析知識(shí)融合應(yīng)用狀況及現(xiàn)階段面臨的挑戰(zhàn),提出未來(lái)研究方向,為知識(shí)融合相關(guān)研究提供參考。
總體框架如圖1所示。
圖1 總體框架
如圖2所示,在中國(guó)知網(wǎng)數(shù)據(jù)庫(kù)中,對(duì)關(guān)鍵詞“知識(shí)融合”進(jìn)行模糊檢索,共檢索1 721篇文獻(xiàn)。自從2002年中國(guó)首次發(fā)表知識(shí)融合的論文以來(lái),關(guān)于知識(shí)融合的相關(guān)研究不多,說(shuō)明很長(zhǎng)一段時(shí)間學(xué)者們對(duì)此的研究不夠。2015年至今,知識(shí)融合的相關(guān)研究已經(jīng)引起了學(xué)者們的關(guān)注,文獻(xiàn)數(shù)量逐漸增加,但還沒(méi)有到達(dá)頂峰,說(shuō)明現(xiàn)階段知識(shí)融合已成為熱門(mén)的研究方向。國(guó)外知識(shí)融合的研究最早出現(xiàn)在20世紀(jì)80年代后期。語(yǔ)義規(guī)則、貝葉斯網(wǎng)絡(luò)、D-S理論方面的融合算法是國(guó)外研究的重點(diǎn)。國(guó)內(nèi)研究主題圖、模糊理論等方面,除此之外還對(duì)國(guó)外研究的各個(gè)方面進(jìn)行了深入分析。
圖2 知識(shí)融合研究趨勢(shì)
G Jin等[1]在語(yǔ)義規(guī)則方面提出一種基于GA和語(yǔ)義規(guī)則的知識(shí)融合算法,提出調(diào)整參數(shù)和優(yōu)化融合的反饋機(jī)制,融合的結(jié)果被結(jié)構(gòu)化地存儲(chǔ)在一個(gè)知識(shí)空間中。緱錦等[2]利用語(yǔ)義規(guī)則將知識(shí)對(duì)象分類(lèi)處理,將其轉(zhuǎn)換為對(duì)應(yīng)的本體描述和元知識(shí)集。整個(gè)框架總體采用分布式結(jié)構(gòu),具有很好的可擴(kuò)充性、很強(qiáng)的安全性和實(shí)用性以及比較低的誤警率。結(jié)果表明,提高了知識(shí)對(duì)象的可重用性和融合的正確率。
貝葉斯網(wǎng)絡(luò)是研究不確定性知識(shí)表達(dá)和推理的有效方法,已成為人工智能領(lǐng)域研究的熱點(diǎn)之一。基于貝葉斯模型的方法在知識(shí)為真時(shí)的先驗(yàn)概率和從數(shù)據(jù)源觀察到的條件概率都已知的情況下,求出知識(shí)為真的后驗(yàn)概率。后驗(yàn)概率最大時(shí)對(duì)應(yīng)的知識(shí)就是要找的正確知識(shí)[3]。Santosl等人[4]在貝葉斯網(wǎng)絡(luò)方面,將多個(gè)貝葉斯融合成單個(gè)貝葉斯,更容易聚合和分解多個(gè)源的信息,解決了專(zhuān)家對(duì)關(guān)系權(quán)重意見(jiàn)不一致的問(wèn)題。張玉潔[5]提出了一種不需要原始數(shù)據(jù)的貝葉斯網(wǎng)絡(luò)融合方法,在已有的貝葉斯網(wǎng)絡(luò)融合方法的基礎(chǔ)上,利用評(píng)分機(jī)制,得到最終的融合結(jié)果。張振海等[6]使用K2算法來(lái)學(xué)習(xí)貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)。根據(jù)貝葉斯定理,如公式(1):
(1)
其中,p(Sh)表示網(wǎng)絡(luò)結(jié)構(gòu)的先驗(yàn)概率,p(C)表示與結(jié)構(gòu)無(wú)關(guān)的常數(shù),p(Sh|C)表示邊界似然。通過(guò)收集不同專(zhuān)家的意見(jiàn),使用證據(jù)理論排除無(wú)意義的因果關(guān)系,減小搜索空間,提高算法的學(xué)習(xí)效率。結(jié)果表明,基于專(zhuān)家知識(shí)融合的貝葉斯網(wǎng)絡(luò)構(gòu)造方法利用專(zhuān)家知識(shí)限制學(xué)習(xí)算法的搜索條件,有效地縮小了搜索空間。
D-S證據(jù)理論的方法是融合不同觀測(cè)結(jié)果的信任函數(shù),得到基礎(chǔ)概率分配后,再選擇最大支持度的假設(shè)作為最優(yōu)判斷,從而選擇認(rèn)為正確的知識(shí)。D.Andrade等[7]在D-S理論方面研究了3個(gè)組合規(guī)則,包括原始的D-S規(guī)則、墨菲規(guī)則和基于非精確狄利克模型的規(guī)則。結(jié)果表明,前兩者有匯聚的能力,而后者具有數(shù)據(jù)挖掘的能力。Sun等[8]利用知識(shí)融合方法D-S理論,對(duì)野生鳥(niǎo)類(lèi)禽流感H5N1病毒全球空間的風(fēng)險(xiǎn)估計(jì)進(jìn)行整合。韓立巖等[9]提出一種新的融合方法:D2S(Dempster2Shafer)證據(jù)理論。利用模糊的概念,選擇一個(gè)函數(shù),根據(jù)估計(jì)方法將計(jì)算出的數(shù)值與閾值的差值,轉(zhuǎn)換為[0,1]之間的數(shù)字,此數(shù)字代表企業(yè)失敗的概率。結(jié)果表明,提高了企業(yè)失敗估計(jì)的準(zhǔn)確性。
簡(jiǎn)單來(lái)說(shuō),就是根據(jù)圖上的一組現(xiàn)有的邊,預(yù)測(cè)其他邊存在的可能性。王海棟等人[10]提出了一種置信度理論知識(shí)融合模型,使用自動(dòng)校正機(jī)制,更好地表現(xiàn)置信度的客觀性,加強(qiáng)了在不確定性方面處理的缺點(diǎn),解決了實(shí)體融合過(guò)程中信息歧義的問(wèn)題。魯慧民等[11]提出一種面向多源知識(shí)的融合算法。從語(yǔ)法、語(yǔ)義和語(yǔ)用三個(gè)方面計(jì)算相似度,并考慮了概念結(jié)構(gòu)和語(yǔ)境的相似性。結(jié)果表明算法在查準(zhǔn)率(Precision)、查全率(Recall)和F值(F-measure)均有所提升。評(píng)價(jià)標(biāo)準(zhǔn)如公式(2)所示:
(2)
其中,PN是通過(guò)人工比對(duì)認(rèn)為應(yīng)該融合的元素對(duì)數(shù),AN是算法判定應(yīng)該融合的元素對(duì)數(shù),RN是各元素中正確的元素對(duì)。模糊集理論的方法是在D-S證據(jù)理論的基礎(chǔ)上工作的。
模糊集理論的方法在D-S證據(jù)理論的基礎(chǔ)上,進(jìn)一步放寬了貝葉斯模型的限制條件[12-13]。目前應(yīng)用較為廣泛的方法是基于模糊積分的方法[14]。模糊積分是一個(gè)非線性函數(shù),可以完成質(zhì)量評(píng)估,找到置信度最高的知識(shí)作為正確的知識(shí)。Yin等人[15]設(shè)計(jì)一種基于粗糙集算法的知識(shí)融合模型,可以自動(dòng)實(shí)現(xiàn)復(fù)雜表面零件制造過(guò)程的質(zhì)量預(yù)測(cè)。模型降低了數(shù)據(jù)的不確定性,從而提高了產(chǎn)品的質(zhì)量。周芳等[16]在知識(shí)融合中借鑒了信息融合的想法,用基于模糊集理論的方法對(duì)多源知識(shí)進(jìn)行融合。結(jié)果表明,該工作提高了企業(yè)失敗預(yù)警判別的確定性。
國(guó)內(nèi)外研究現(xiàn)狀對(duì)比如表1所示。雖然學(xué)者們對(duì)知識(shí)融合有著不同的出發(fā)點(diǎn),但是本質(zhì)都是為了使知識(shí)能夠最大化的被利用。
表1 國(guó)內(nèi)外研究匯總
知識(shí)融合是實(shí)時(shí)地融合和處理多源的信息來(lái)創(chuàng)造新的知識(shí)的過(guò)程,包括實(shí)體鏈接和知識(shí)合并兩部分。一個(gè)典型的知識(shí)融合系統(tǒng)應(yīng)該提供以下三種基本服務(wù)[10]:
(1)知識(shí)定位服務(wù):供用戶(hù)或其他組件在網(wǎng)絡(luò)上定位相關(guān)知識(shí)。
(2)知識(shí)轉(zhuǎn)換服務(wù):將異構(gòu)知識(shí)資源轉(zhuǎn)換為統(tǒng)一的語(yǔ)言或本體表示。
(3)知識(shí)融合服務(wù):對(duì)知識(shí)資源進(jìn)行組合和處理,合并、簡(jiǎn)化知識(shí),找出滿足某種條件限制的解決方案。
其中具有代表性的框架是Preece AD的KRAFT(Knowledge Reuse and Fusion/Transform)[17],如圖3所示。將知識(shí)融合定義為從多個(gè)異構(gòu)的資源中對(duì)相關(guān)的知識(shí)進(jìn)行定位和提取,將其轉(zhuǎn)換為統(tǒng)一的知識(shí)模式,使融合的知識(shí)能夠解決實(shí)際問(wèn)題。
(1)UA:用戶(hù)為消費(fèi)者。
(2)W:為系統(tǒng)和KRAFT代理接口提供橋梁。例如:關(guān)系數(shù)據(jù)庫(kù)的傳統(tǒng)接口是SQL/ODBC,KRAFT中的W會(huì)接受來(lái)自KRAFT中其他代理的請(qǐng)求信息,將其轉(zhuǎn)換為SQL語(yǔ)句并在數(shù)據(jù)庫(kù)上運(yùn)行,最后返回結(jié)果。
(3)M:每個(gè)M從其他代理獲取知識(shí),是知識(shí)融合的核心。
(4)F:建立服務(wù)請(qǐng)求,每個(gè)KRAFT網(wǎng)絡(luò)中至少有一個(gè)F。
(5)R:服務(wù)資源,包括數(shù)據(jù)庫(kù)和知識(shí)庫(kù)。
F根據(jù)W提供的信息去尋找匹配的M進(jìn)行連接。當(dāng)連接是從W到M時(shí),M進(jìn)行知識(shí)轉(zhuǎn)換;當(dāng)一條路徑上有多個(gè)M,或同一M在多條路徑上時(shí),進(jìn)行知識(shí)融合。當(dāng)連接是從UA對(duì)應(yīng)的從W到M時(shí),M會(huì)用統(tǒng)一的知識(shí)模式提供給UA[18]。
圖3 KRAFT結(jié)構(gòu)
2.1.1 實(shí)體鏈接
實(shí)體鏈接是指通過(guò)對(duì)本體庫(kù)中名字是否具有相同含義來(lái)判斷實(shí)體是否相對(duì)應(yīng),或者名字不同的實(shí)體是否能夠表達(dá)同一個(gè)含義。實(shí)體鏈接又包含實(shí)體消歧和共指消解兩部分[19]。
(1)實(shí)體消歧。
例如“張藍(lán)心”這個(gè)單詞(指稱(chēng)項(xiàng))可以對(duì)應(yīng)于作為演員身份的張藍(lán)心這個(gè)實(shí)體,也可以對(duì)應(yīng)于模特身份的張藍(lán)心這個(gè)實(shí)體,還可以作為國(guó)家跆拳道選手身份的張藍(lán)心這個(gè)實(shí)體。通過(guò)具體語(yǔ)境,對(duì)實(shí)體進(jìn)行消歧。重點(diǎn)在于計(jì)算描述的詞匯與實(shí)體之間的相似度。
(2)共指消解。
共指消解是解決多個(gè)詞匯(指稱(chēng)項(xiàng))對(duì)應(yīng)同一個(gè)實(shí)體的問(wèn)題。例如某文中提到“唐納德·特朗普”,“川普”,“特朗普”指向的是同一個(gè)實(shí)體,其中如“他”、“他的”,都有可能指向這個(gè)實(shí)體。將這些指稱(chēng)項(xiàng)通過(guò)共指消解,合并到正確的實(shí)體對(duì)象中。
2.1.2 知識(shí)合并
知識(shí)合并包括外部知識(shí)庫(kù)和關(guān)系數(shù)據(jù)庫(kù)。
(1)外部知識(shí)庫(kù):包括數(shù)據(jù)層面和模式層面。
(2)關(guān)系數(shù)據(jù)庫(kù):將關(guān)系數(shù)據(jù)庫(kù)的數(shù)據(jù)轉(zhuǎn)換成三元組。
為了解決知識(shí)共享問(wèn)題,將知識(shí)融合分為多個(gè)層次,可以更好地解決實(shí)體的屬性、關(guān)系以及概念的重復(fù)等問(wèn)題。周利琴[20]從知識(shí)表示的角度,將網(wǎng)絡(luò)知識(shí)模式分為實(shí)例、關(guān)系、域集、屬性和概念融合。其中實(shí)例融合是對(duì)實(shí)體對(duì)象進(jìn)行去重與合并,從而產(chǎn)生新的實(shí)例。域集融合是在實(shí)例融合的基礎(chǔ)上產(chǎn)生的。關(guān)系融合是對(duì)多源知識(shí)的關(guān)系進(jìn)行對(duì)比分析,與屬性融合是相互作用的。概念融合則是根據(jù)每一次產(chǎn)生新的知識(shí)概念來(lái)實(shí)現(xiàn)的。
知識(shí)融合框架是進(jìn)行知識(shí)融合的開(kāi)端,為各個(gè)模塊提供方向。因?yàn)橹R(shí)融合的復(fù)雜性,需要對(duì)特定問(wèn)題制定專(zhuān)門(mén)的框架,現(xiàn)在國(guó)內(nèi)還沒(méi)有統(tǒng)一的知識(shí)融合框架。徐賜軍等[21]設(shè)計(jì)了基于本體的知識(shí)融合框架,實(shí)現(xiàn)對(duì)元知識(shí)集進(jìn)行構(gòu)建、知識(shí)的測(cè)量標(biāo)準(zhǔn)、包含融合算法的設(shè)計(jì)以及融合后處理等功能。可以減少融合的規(guī)模,提高準(zhǔn)確性。陳思華等[22]提出一種文化算法框架,采用兩階段遺傳算法,包括編碼階段和融合階段。從兩個(gè)層面對(duì)知識(shí)進(jìn)行優(yōu)化的知識(shí)融合策略,用啟發(fā)式規(guī)則進(jìn)行表示。謝能付[23]提出的框架包括知識(shí)聚類(lèi)模塊、評(píng)估模塊和融合模塊。
JointDirectors of Laboratories (JDL)由美國(guó)國(guó)防部在1986年首次提出[24],主要用于軍事領(lǐng)域。JDL的融合框架如圖4所示。
圖4 JDL的融合框架
機(jī)器學(xué)習(xí)方法是一個(gè)比較熱門(mén)的研究主題,是計(jì)算機(jī)科學(xué)和人工智能的一個(gè)分支學(xué)科。在知識(shí)融合領(lǐng)域也可以應(yīng)用各種機(jī)器學(xué)習(xí)方法??梢愿鶕?jù)訓(xùn)練樣本是否有輸出值,將機(jī)器學(xué)習(xí)方法分為監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)。監(jiān)督學(xué)習(xí)是機(jī)器學(xué)習(xí)中的一種訓(xùn)練方式,監(jiān)督學(xué)習(xí)(Supervised Learning)中的常用方法為SVM、決策樹(shù)、集成學(xué)習(xí)等。
3.1.1 監(jiān)督學(xué)習(xí)3.1.1.1 SVM
SVM(Support Vector Machine)是一種二分類(lèi)模型,通過(guò)找到間隔最大的超平面來(lái)對(duì)數(shù)據(jù)進(jìn)行分類(lèi),可以轉(zhuǎn)換為一個(gè)凸二次規(guī)劃問(wèn)題進(jìn)行求解。Park等人[25]提出了一種基于分?jǐn)?shù)級(jí)融合的虹膜識(shí)別方法。使用兩個(gè)Gabor波濾器用于局部和全局虹膜處理,用SVM融合了由Gabor波濾器計(jì)算出的HD(Hamming Distance)。SVM表示成公式(3):
(3)
其中,k表示數(shù)據(jù)的數(shù)量,yi∈{-1,1}表示訓(xùn)練樣本xi的類(lèi)標(biāo),?i表示求解二次規(guī)劃問(wèn)題的線性約束條件,b表示偏置。利用核函數(shù)將SVM擴(kuò)展到非線性決策面。結(jié)果表明,降低了由此產(chǎn)生的認(rèn)證誤差。
一般來(lái)說(shuō),虹膜識(shí)別精度取決于Gabor波濾器的大小、頻率和振幅的選擇。文中為了減少時(shí)間和復(fù)雜的操作,使用了傳統(tǒng)的1D Gabor,如公式(4)、公式(5):
(4)
(5)
其中,A表示Gabor過(guò)濾器(G(x))的振幅,σ和u0分別表示Gabor波濾器的大小和頻率,x0表示移動(dòng)量,DC=0表示將波濾系數(shù)歸一化為0。
3.1.1.2 決策樹(shù)
決策樹(shù)(Decision Tree)有分類(lèi)樹(shù)和回歸樹(shù)。根據(jù)損失函數(shù)最小化原則建立決策樹(shù)模型。Elfeky等[26]在TAILOR工具包中實(shí)現(xiàn)了一種ID3決策樹(shù)算法,TALOR是一個(gè)記錄鏈接工具箱。用戶(hù)可以調(diào)整系統(tǒng)參數(shù)和插入工具來(lái)構(gòu)建自己的實(shí)體對(duì)齊模型。結(jié)果表明,算法匹配效果高于傳統(tǒng)的概率模型方法。張曉丹等[27]利用ID3算法分析和處理測(cè)試空間中的多源數(shù)據(jù),建立準(zhǔn)確的評(píng)估模型。最后的結(jié)果表明,該方法在解決多源數(shù)據(jù)問(wèn)題,并且在處理大量無(wú)序和不確定數(shù)據(jù)方面非常有效。
袁雅萍[28]用決策樹(shù)模型作為土壤與環(huán)境關(guān)系中知識(shí)融合和抽取的方法。使用一致性分析等統(tǒng)計(jì)方法,實(shí)現(xiàn)多源知識(shí)的互補(bǔ)和融合。利用混淆矩陣運(yùn)算出生產(chǎn)精度(PA)和用戶(hù)精度(UA),用于表示每個(gè)分類(lèi)的精度指標(biāo)??偩?OA),用于表示總體分類(lèi)的精度指標(biāo),通過(guò)這些指標(biāo)共同檢驗(yàn)預(yù)測(cè)土壤圖的精度。三種指標(biāo)的計(jì)算公式如下:
(6)
(7)
(8)
其中,n表示土壤圖所有準(zhǔn)確分類(lèi)的樣本數(shù)量,N1表示野外該類(lèi)土壤的樣本總數(shù),N2表示土壤圖中劃分到該類(lèi)土壤的樣本總數(shù),N表示樣本總數(shù)。
3.1.1.3 集成學(xué)習(xí)
集成學(xué)習(xí)通過(guò)使用一些規(guī)則將各個(gè)學(xué)習(xí)器學(xué)到的結(jié)果整合,從而得到比較好的效果。Chen等[29]提出了統(tǒng)一的決策模型,使用Context-Extended和Context-Weight方法,將兩個(gè)部分用兩種組合方法進(jìn)行融合。實(shí)驗(yàn)結(jié)果表明,集成學(xué)習(xí)框架在不同領(lǐng)域的應(yīng)用上,實(shí)現(xiàn)了更高的匹配質(zhì)量,也證明了所提出的方法相對(duì)于其他方法的優(yōu)勢(shì),提高了實(shí)體的消歧質(zhì)量。
3.1.2 無(wú)監(jiān)督學(xué)習(xí)
當(dāng)訓(xùn)練樣本數(shù)量不足時(shí),可以通過(guò)無(wú)監(jiān)督學(xué)習(xí)完成知識(shí)融合中的實(shí)體對(duì)齊。常用方法是聚類(lèi)。聚類(lèi)根據(jù)相似度或距離來(lái)判斷,將相似的樣本聚集在相同的類(lèi),不相似的樣本分散在不同的類(lèi)。Zhang等[30]采用基于實(shí)例的無(wú)監(jiān)督學(xué)習(xí)方法,該方法提供了一個(gè)MBL框架。結(jié)果表明,能夠?qū)?shí)體之間的多種關(guān)系進(jìn)行精確的識(shí)別,獲得了很好的結(jié)果。Bhattacharya等[31]提出一種關(guān)于實(shí)體的屬性和關(guān)系信息的聚類(lèi)算法。研究了不同關(guān)系相似性影響對(duì)實(shí)體質(zhì)量的解決辦法。結(jié)果表明,當(dāng)數(shù)據(jù)中存在模糊引用時(shí),關(guān)系聚類(lèi)算法的效果優(yōu)于屬性相似度。Verykios等人[32]使用聚類(lèi)方法,通過(guò)少量標(biāo)記樣本推斷聚類(lèi)中其他樣本的情況,使用屬性和關(guān)系的信息來(lái)確定實(shí)體。結(jié)果表明,通在相似性搜索,在知識(shí)獲取方面有很大提高。
3.1.3 半監(jiān)督學(xué)習(xí)
半監(jiān)督學(xué)習(xí)是監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)相結(jié)合的一種學(xué)習(xí)方法。使用大量的未標(biāo)記數(shù)據(jù),同時(shí)使用標(biāo)記樣本,來(lái)進(jìn)行模式識(shí)別工作。常用的方法是留一驗(yàn)證法和交叉驗(yàn)證法。Carlson等人[33]從網(wǎng)頁(yè)中提取類(lèi)別和關(guān)系,使用半監(jiān)督學(xué)習(xí)方法和CPL(Coupled Pattern Learner)和CSEAL(Coupled SEAL)耦合的方式,證明了這種方法可以提高多種類(lèi)型的提取器的準(zhǔn)確性。
嚴(yán)格來(lái)講,深度學(xué)習(xí)屬于機(jī)器學(xué)習(xí)范疇。但深度學(xué)習(xí)可以更好地處理大規(guī)模數(shù)據(jù),所以將深度學(xué)習(xí)方法單獨(dú)列出來(lái)。
神經(jīng)網(wǎng)絡(luò)(Neural Network)也叫做人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network),由大量的節(jié)點(diǎn)(或神經(jīng)元)直接相互關(guān)聯(lián)而構(gòu)成,是一種模仿動(dòng)物神經(jīng)網(wǎng)絡(luò)行為特征,進(jìn)行分布式并行信息處理的算法數(shù)學(xué)模型。神經(jīng)網(wǎng)絡(luò)包括監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)。
Gabriel等[34]將不同分類(lèi)方法和神經(jīng)網(wǎng)絡(luò)集成在一起,形成代理虛擬組織,用于從E-nose 檢索的參數(shù)中進(jìn)行信息融合,該系統(tǒng)模擬人腦如何分類(lèi)。利用PCA作為一種降維方法,對(duì)初始數(shù)據(jù)進(jìn)行預(yù)處理,然后利用反向傳播神經(jīng)網(wǎng)絡(luò)BPNN對(duì)E-nose進(jìn)行分類(lèi),結(jié)果表明組合分類(lèi)器的結(jié)果和精度均大于單個(gè)分類(lèi)器。
Wang L等[35]通過(guò)對(duì)反向傳播(BP)神經(jīng)網(wǎng)絡(luò)使用遺傳算法(GA)來(lái)優(yōu)化,評(píng)估創(chuàng)新生態(tài)系統(tǒng)中知識(shí)融合的風(fēng)險(xiǎn)。使用預(yù)處理后的數(shù)據(jù)作為神經(jīng)網(wǎng)絡(luò)的輸入值,確定種群大小和最大迭代次數(shù),選擇交叉概率,設(shè)置權(quán)重和閾值的上下限。結(jié)果表明,GA-BP神經(jīng)網(wǎng)絡(luò)具有更快的收斂速度和更高的穩(wěn)定性,可以更快地實(shí)現(xiàn)目標(biāo)。
Zeng等[36]利用分段卷積神經(jīng)網(wǎng)絡(luò)和多實(shí)例學(xué)習(xí)進(jìn)行遠(yuǎn)程監(jiān)督關(guān)系提取。其使用分段最大池化來(lái)自動(dòng)學(xué)習(xí)特征,結(jié)合多實(shí)例學(xué)習(xí)來(lái)解決錯(cuò)誤的標(biāo)簽問(wèn)題。Santos等[37]提出一種排名分類(lèi)模型CR-CNN,使用單詞嵌入作為輸入要素,利用卷積神經(jīng)網(wǎng)絡(luò)來(lái)處理關(guān)系分類(lèi)任務(wù)。使用新的成對(duì)排名損失函數(shù),可以有效減少人工分類(lèi)的影響。
Hka B[38]提出一種基于機(jī)器學(xué)習(xí)和知識(shí)圖譜的AM(Additive Manufacturing)框架,對(duì)來(lái)自國(guó)家標(biāo)準(zhǔn)和技術(shù)研究所的測(cè)量數(shù)據(jù),采用分類(lèi)和回歸樹(shù)的機(jī)器學(xué)習(xí)方法來(lái)解決AM相關(guān)的問(wèn)題。Wang[39]提出一種新的知識(shí)融合方法HCCKF(Human-Computer Cooperative Genetic Algorithm),利用進(jìn)化計(jì)算(Evolutionary Computation)融合了人類(lèi)知識(shí)、先驗(yàn)知識(shí)和計(jì)算知識(shí)。
George[40]提出CKF(Collaborative Knowledge Fusion)方法,想要了解和控制信息的傳播,如何促進(jìn)真實(shí)信息的傳播。Balemans[41]提出了傳感器融合方法,為了提高不同環(huán)境的感知精度,傳感器提供關(guān)于相同特性的互補(bǔ)信息,通過(guò)結(jié)合兩個(gè)傳感器的信息來(lái)提高檢測(cè)精度。
各類(lèi)知識(shí)融合方法特點(diǎn)的總結(jié)如表2所示。
表2 知識(shí)融合方法總結(jié)
知識(shí)融合應(yīng)用領(lǐng)域十分廣泛,覆蓋自動(dòng)問(wèn)答、銀行、企業(yè)發(fā)展等領(lǐng)域。其中由清華大學(xué)、清華同方發(fā)起的中國(guó)知識(shí)基礎(chǔ)設(shè)施工程(CNKI),集成了各個(gè)學(xué)科的公共知識(shí)和各學(xué)科專(zhuān)家的個(gè)人知識(shí),建立了一個(gè)龐大的共享知識(shí)庫(kù),旨在為科研、教學(xué)和知識(shí)服務(wù)提供基礎(chǔ)。知識(shí)融合現(xiàn)在有了一定的發(fā)展,但仍不能滿足人們的需求?,F(xiàn)階段知識(shí)融合依舊是一項(xiàng)具有挑戰(zhàn)的工作,仍有很多問(wèn)題需要解決。
(1)知識(shí)的不一致性。如何在異構(gòu)知識(shí)情況下,對(duì)特定知識(shí)進(jìn)行融合,為用戶(hù)提供需求是一個(gè)艱巨的任務(wù)。
(2)知識(shí)的復(fù)雜關(guān)系。存在大規(guī)模語(yǔ)義表達(dá)相似的知識(shí),導(dǎo)致關(guān)系的難理解。這需要更健壯的技術(shù),并能夠消除噪聲。
(3)實(shí)體鏈接實(shí)現(xiàn)的準(zhǔn)確性。目前,如何在上下文信息受到限制的情況下,準(zhǔn)確地將實(shí)體與知識(shí)庫(kù)中的實(shí)體鏈接成為現(xiàn)在普遍關(guān)注的問(wèn)題。
未來(lái)知識(shí)融合領(lǐng)域也有更多的發(fā)展方向:
(1)實(shí)時(shí)融合大規(guī)模知識(shí),進(jìn)行多種語(yǔ)言的融合。
(2)建立一個(gè)統(tǒng)一、專(zhuān)門(mén)的知識(shí)融合體系結(jié)構(gòu)。
(3)將深度學(xué)習(xí)應(yīng)用到知識(shí)融合中??梢垣@得更高的性能和預(yù)測(cè)精度。深度學(xué)習(xí)能夠從大數(shù)據(jù)中獲取實(shí)體之間復(fù)雜、模糊的關(guān)系,是很有效率的方法。
未來(lái)的研究應(yīng)該更加投入到圖書(shū)情報(bào)中,將知識(shí)融合充分運(yùn)用到其中。知識(shí)圖譜成為智能搜索的關(guān)鍵技術(shù),具有很深遠(yuǎn)的價(jià)值。知識(shí)融合是知識(shí)圖譜中的一個(gè)重要環(huán)節(jié),期待更多的研究人員可以對(duì)此進(jìn)行深入研究,促進(jìn)知識(shí)融合領(lǐng)域的發(fā)展。