高國偉 梁力琛 李永先 郭琪
摘要:網(wǎng)絡(luò)大數(shù)據(jù)中包含著海量的知識資源,這些資源在知識服務(wù)的過程中發(fā)揮著極其重要的作用。如何從多源異構(gòu)的海量數(shù)據(jù)中準(zhǔn)確地提取知識并加以有效利用成為當(dāng)前知識服務(wù)的熱點問題。本文以當(dāng)前大數(shù)據(jù)背景下知識融合研究現(xiàn)狀為出發(fā)點,對當(dāng)前知識融合領(lǐng)域內(nèi)的相關(guān)文獻(xiàn)資料進(jìn)行分析,從傳統(tǒng)的知識融合的理論結(jié)構(gòu)、關(guān)鍵技術(shù)、學(xué)科或領(lǐng)域間的交互運(yùn)用入手,歸納并總結(jié)知識融合的理論方法與框架模型,從而探討大數(shù)據(jù)環(huán)境背景下的知識融合研究的新進(jìn)展以及對未來做出展望,同時在此基礎(chǔ)上進(jìn)行評述,以期為該領(lǐng)域更為深入的發(fā)展提供參考。
關(guān)鍵詞:大數(shù)據(jù);知識融合;知識服務(wù)
伴隨著互聯(lián)網(wǎng)技術(shù)的不斷普及和創(chuàng)新,大數(shù)據(jù)時代逐漸走進(jìn)我們的視野。大數(shù)據(jù)不僅是一種實用性很強(qiáng)的分析工具,而且也是一種重要的思維方式。但大數(shù)據(jù)為我們帶來許多積極影響的同時也面臨著眾多亟待解決的問題。在大數(shù)據(jù)背景下,知識庫的容量不斷被豐富,如何讓所得知識得到最大化利用就成為了現(xiàn)階段知識學(xué)科需要面對的頭等問題。為了突破這個難點,相關(guān)知識領(lǐng)域的專家學(xué)者提出了“知識融合”這一概念并對其進(jìn)行了深度研究。不斷地促進(jìn)和發(fā)展相關(guān)理論與技術(shù),從而達(dá)到解決問題的目標(biāo)。
知識融合是一門交叉學(xué)科,它通過對多元異構(gòu)的分布式知識進(jìn)行組織提取,以知識需求作為最終目的對知識進(jìn)行轉(zhuǎn)化融合等過程,從而獲取高效、高價值的新知識。自20世紀(jì)90年代以后知識融合概念進(jìn)入學(xué)術(shù)界以來,國內(nèi)外的眾多學(xué)者對知識融合問題開展了多方面的研究,綜合現(xiàn)階段的知識融合領(lǐng)域相關(guān)文獻(xiàn),可以發(fā)現(xiàn)當(dāng)前的研究重點主要在融合算法和體系建設(shè)兩方面。知識融合的相關(guān)文獻(xiàn)在不斷的增長,但還未有一個相對全面的的研究綜述和系統(tǒng)歸納。
本文通過對當(dāng)前知識融合領(lǐng)域的相關(guān)文獻(xiàn)期刊進(jìn)行分析,并分別從知識融合的理論結(jié)構(gòu)、融合算法、學(xué)科或領(lǐng)域間的交互應(yīng)用等方面進(jìn)行歸納總結(jié),并對知識融合的未來發(fā)展提出了展望,以期為知識服務(wù)的相關(guān)研究提供一些借鑒和參考。
1、知識融合的研究概況
我們在中國知網(wǎng)數(shù)據(jù)庫中,限定主題詞為“知識融合”進(jìn)行模糊檢索,結(jié)果得到文獻(xiàn)總數(shù)5732篇。再對檢索結(jié)果進(jìn)行可視化計量分析。由此得到圖1的知識融合共現(xiàn)圖譜。
通過圖1的共現(xiàn)圖譜,我們可以發(fā)現(xiàn)大數(shù)據(jù),知識服務(wù),知識融合,知識表示這四個主題之間聯(lián)系密切。知識融合作為知識管理的主要內(nèi)容,已經(jīng)成為知識管理中極其重要的一個環(huán)節(jié),對于實現(xiàn)知識的有效利用有著重要作用。而數(shù)據(jù)到信息再到知識這一過程則體現(xiàn)了前三者之間的相互依存關(guān)系,缺一不可。
在關(guān)鍵詞分布中,我們可以發(fā)現(xiàn)在本主題中用知識融合做關(guān)鍵詞的文獻(xiàn)所占比重高居所有結(jié)果中的第二位,這說明知識融合已經(jīng)是融合領(lǐng)域特別是知識學(xué)科的一大研究熱點。再從學(xué)科分布情況來看,知識融合涉及到的學(xué)科眾多,分布廣泛,在教育學(xué)和圖書情報學(xué)領(lǐng)域研究較多,也同樣是這兩個學(xué)科的研究熱點之一。
2、知識融合的理論發(fā)展
在大數(shù)據(jù)背景下,知識的內(nèi)容和來源極其豐富多樣,多元化的知識具有更加廣泛的深度,也因此更難以利用處理。但通過知識融合的相關(guān)理論方法卻可以對其進(jìn)行提取和利用,從而構(gòu)建一個更為完整且可信度更高的知識體系,而提升知識服務(wù)的整體質(zhì)量。但因為各學(xué)科對這一新興概念的解釋存在著不同的立場,含有一定的學(xué)科特色,所以到目前為止,學(xué)術(shù)界對知識融合這一概念并沒有形成一個相對統(tǒng)一的定義或解釋。
國外學(xué)者A.Preece認(rèn)為知識融合“是從多種異構(gòu)源中定位并獲取知識且對所獲知識進(jìn)行轉(zhuǎn)換的過程,從而可以將這種結(jié)果運(yùn)用于相關(guān)知識問題的求解?!痹谶@個結(jié)論中我們發(fā)現(xiàn)A.Preece關(guān)注知識融合過程中的三個要素,即如何去定位知識,提取知識,對知識進(jìn)行轉(zhuǎn)換。最后再對獲取到的結(jié)果進(jìn)行融合利用,解決實際問題。而另一位學(xué)者A.Smirnov則認(rèn)為“知識融合的目標(biāo)是產(chǎn)生新的知識,將松耦合來源的知識集成,從而構(gòu)成一個合成資源,用來彌補(bǔ)不完全的知識[2]”,該觀點與A.Preece所提觀點又有所不同,體現(xiàn)在知識融合的結(jié)果不同,前者是為了彌補(bǔ)不足的知識,后者則是著重于解決問題。
上述觀點主要是對知識融合的內(nèi)涵進(jìn)行歸納總結(jié),此外還有對知識融合的體系構(gòu)架的描述,例如著名的KRAFT理論,此理論的重點在于描述知識融合相關(guān)元素和它們之間的關(guān)系以及各元素之間的相互作用等。A.Nikolov等人提出了知識融合系統(tǒng)KnoFuss,該系統(tǒng)提供了面向子任務(wù)的方法,而且可以從中選擇更為正確的方法。
通過以上分析,雖然各個學(xué)者對于知識融合有著不同的看法和出發(fā)點,但其本質(zhì)都是一樣的,都是為了使知識最大化程度利用。據(jù)此,我們認(rèn)為,知識融合就是在大數(shù)據(jù)背景下,從異構(gòu)數(shù)據(jù)源出發(fā),運(yùn)用語義規(guī)則等相關(guān)技術(shù),對知識進(jìn)行獲取和轉(zhuǎn)換以得到其中的相關(guān)關(guān)系,并由此創(chuàng)造出新知識,用以解決知識服務(wù)所面臨的各種問題。
3、知識融合的關(guān)鍵技術(shù)
3.1融合算法
在知識融合的過程中,如何運(yùn)用相關(guān)技術(shù)對知識進(jìn)行提取整合是極其重要的一步。在語義規(guī)則方面,E.Gregoire在邏輯規(guī)則中引入一種新的語義規(guī)則來融合異源知識,這種方式在于處理相互沖突或不完整的信息,并減少對于融合公式的遺漏。在貝葉斯網(wǎng)絡(luò)方面,E.Santos將數(shù)學(xué)概率模型作為貝葉斯理論的基礎(chǔ),從而提出融合算法。這主要有三個過程,即概率獲取、融合處理和最佳決策。D-S理論又被稱為證據(jù)組合理論,它是對貝葉斯論的進(jìn)一步發(fā)展,結(jié)果可以直接表示為“不知道”或“不確定”。今天學(xué)界廣泛使用的理論是由Dempester所提出的并做了進(jìn)一步完善。該理論通過獲取不同結(jié)果間的信任函數(shù),再根據(jù)所提供的組合規(guī)則將所得函數(shù)融合,最后來判斷組合后的函數(shù),以此來確定最優(yōu)決策。模糊集理論建立在證據(jù)理論知識基礎(chǔ)上,進(jìn)一步放寬了概率論方法的限制條件。模糊集理論的方法可以處理不精確的知識,對開放網(wǎng)絡(luò)知識的評估非常有效。
此外,在國內(nèi)的關(guān)鍵技術(shù)研究中擴(kuò)展到了交叉學(xué)科。例如,緱錦提出基于遺傳算法的知識融合算法;蔣黎黎等提出基于粒度計算理論的知識融合模型。由此可見,國內(nèi)對于知識融合算法更為具體和廣泛,也有了一定程度的綜合運(yùn)用,但主要還停留在理論層面,并未進(jìn)行更為深層的發(fā)掘。
3.2框架與模型
國內(nèi)學(xué)者徐賜軍、李愛平等提出了基于本體的知識融合框架,有利于控制知識融合結(jié)果的規(guī)模,提高了知識的語義相關(guān)性和準(zhǔn)確度。其中涵蓋了如何構(gòu)造元知識集、確定測度指標(biāo)、設(shè)計算法和反饋處理等核心功能。此外,林海倫、王元卓等以開放知識網(wǎng)絡(luò)OpenKN作為網(wǎng)絡(luò)大數(shù)據(jù)知識統(tǒng)一表示和計算的框架,總結(jié)了面向大數(shù)據(jù)背景的知識融合框架模式。該框架自下而上包含數(shù)據(jù)收集、知識獲取和知識融合功能。
通過上述分析,我們發(fā)現(xiàn)建立一個合適高效的知識融合框架有利于管理知識融合的結(jié)果,提高知識的語義相關(guān)性,除此之外還能通過相關(guān)的評價方法獲取更為精準(zhǔn)的知識,從而構(gòu)建一個實用的框架來解決實際問題。目前來看,知識融合的相關(guān)算法和系統(tǒng)框架的研究已經(jīng)有了一定的成果,但在越來越復(fù)雜的網(wǎng)絡(luò)大數(shù)據(jù)背景下,知識融合仍將會是一項極具挑戰(zhàn)的工作,知識融合相關(guān)技術(shù)仍然存在著諸多缺陷,還有大量問題亟待解決。例如,網(wǎng)絡(luò)大數(shù)據(jù)因為其高度動態(tài)性,就要求知識評估具有實時性的特點;實體擴(kuò)充和大規(guī)模異構(gòu)分類體系的擴(kuò)充方法能夠面對更為廣泛的領(lǐng)域發(fā)揮作用等。
4、學(xué)科領(lǐng)域間的交互運(yùn)用
通過綜合國內(nèi)外知識融合研究文獻(xiàn)的學(xué)科分布情況,我們發(fā)現(xiàn)知識融合相關(guān)研究最主要集中在“計算機(jī)科學(xué)”、“經(jīng)濟(jì)管理學(xué)”和“圖書情報學(xué)”這三個領(lǐng)域。
早期知識融合主要由軍事領(lǐng)域發(fā)展而來,隨著計算機(jī)網(wǎng)絡(luò)飛速發(fā)展和大數(shù)據(jù)時代的到來,知識融合的應(yīng)用領(lǐng)域不斷的擴(kuò)大,更多的被應(yīng)用于諸如云計算、物聯(lián)網(wǎng)等相關(guān)應(yīng)用上。同時伴隨著知識學(xué)科的深入發(fā)展,知識庫中的知識轉(zhuǎn)化、知識庫的構(gòu)建和知識圖譜等都需要更為高效的知識融合技術(shù)。
謝能付提出了面向基于農(nóng)業(yè)本體的知識融合框架,用于解決知識服務(wù)所面對的精度低、冗余等問題,并運(yùn)用實例進(jìn)行分析,發(fā)現(xiàn)知識融合可以有效解決農(nóng)業(yè)知識領(lǐng)域在此方面的不足之處;國外學(xué)者GeE等利用知識融合分析了H5N1禽流感,整合了多學(xué)科來分析傳染病的流行因素。
我們發(fā)現(xiàn),在上述知識融合各領(lǐng)域運(yùn)用的有關(guān)情況是知識學(xué)科近年來的熱點問題,但大部分主要還是構(gòu)建模型,距離真正運(yùn)用到實際中還有待發(fā)展。在互聯(lián)網(wǎng)行業(yè)中,知識融合則是取得了較大的進(jìn)展,一些企業(yè)對于數(shù)據(jù)挖掘和知識融合已經(jīng)有了不錯的成功經(jīng)驗,如維基百科、谷歌知識圖譜等。
5、存在問題及未來的發(fā)展趨勢
過去十多年來學(xué)界針對知識融合的體系架構(gòu)、技術(shù)方法等做了大量工作,知識融合在應(yīng)用中發(fā)揮著越來越重要的作用,針對知識融合中的一些關(guān)鍵性問題也有很多新的算法和技術(shù)被提出改進(jìn)。但知識融合仍然存在一些問題,主要體現(xiàn)在以下幾個方面:
(1)當(dāng)前的研究主要重點是針對特定知識類型在特定場景下的融合手段研究。這種方法的通用性還有不足之處。如何針對最基本的知識元素構(gòu)建一個通用規(guī)范的融合框架是我們需要進(jìn)一步探索的問題。
(2)大多數(shù)融合算法需要借助于本體之間的交互作用,而本體本身的復(fù)雜性降低了算法的效率。本體的管理過程相對復(fù)雜,如何盡可能的利用本體論技術(shù)優(yōu)勢為知識融合提供服務(wù),又克服本體論中固有的難點對知識融合的影響也是今后值得深思的問題。
(3)由于知識融合的結(jié)果往往是一個規(guī)模龐大的知識集,其中的有些知識甚至是無用的,所以在融合規(guī)則指導(dǎo)下產(chǎn)生的新知識的有效性還有待通過相關(guān)評價機(jī)制進(jìn)行檢驗。融合評價是知識融合過程中極為重要的一個環(huán)節(jié),這不僅包括對結(jié)果的正確與否進(jìn)行檢驗,也包括對知識融合的整個過程進(jìn)行反饋。
(4)此外,有必要對知識元理論加以研究,并基于知識元理論對知識融合乃至整個知識服務(wù)進(jìn)行整合研究。同時對于現(xiàn)實中的知識融合問題而言,必然是一個多樣而復(fù)雜的過程,如何讓這種過程更加靈活,適應(yīng)大數(shù)據(jù)的網(wǎng)絡(luò)環(huán)境有待深思。
6、結(jié)語
通過對知識融合的研究狀況進(jìn)行分析,我們發(fā)現(xiàn),近年來知識融合已經(jīng)漸漸成為知識學(xué)科領(lǐng)域的前沿?zé)狳c問題,各個領(lǐng)域的學(xué)者對于知識融合的理論定義、框架模型等關(guān)鍵問題都做出了不同程度的解釋,極大地豐富和發(fā)展了知識融合的內(nèi)容,取得了一定的成果。
在網(wǎng)絡(luò)大數(shù)據(jù)的背景下,知識呈現(xiàn)出更加多樣化和巨量的特點,如何處理知識的準(zhǔn)確度和知識庫的實用性給我們帶來巨大的挑戰(zhàn)。當(dāng)前知識融合的研究工作在我國大多還處在理論探討方面,對于實際生活中的應(yīng)用相對較少,這方面發(fā)展空間很大,可以作為以后知識融合的發(fā)展方向。另外,對于知識融合來說,各個學(xué)科有著不同的解讀,學(xué)界還缺乏一個標(biāo)準(zhǔn)統(tǒng)一的框架規(guī)則,如何統(tǒng)一知識融合各個模塊之間的關(guān)系也是今后需要研究的問題。知識融合的最終目的是要服務(wù)于用戶問題,將知識融合運(yùn)用于更多學(xué)科,充分發(fā)揮其對知識服務(wù)的關(guān)鍵作用。郾參考文獻(xiàn)
[1] PREECE A,HUI K,GRAY A.KRAFT: an agent architecturefor knowledge fusion[J]. International journal ofcooperative information systems,2001,10(1-2):171- 195.
[2] SMIRNOV A,PASHKIN M,CHILOV N.Multi-agentarchitecture for knowledge fusion from distributedsources[M]. Berlin:Springer, 2002:293- 302.
[3]林海倫等.面向網(wǎng)絡(luò)大數(shù)據(jù)的知識融合方法綜述[J].計算機(jī)學(xué)報,2017(1):0254-4164.
[4]謝能付.基于農(nóng)業(yè)本體和融合規(guī)則的知識融合框架研究[J].安徽農(nóng)業(yè)科學(xué),2013,41(1):395-397.
[5] GE E.Using knowledge fusion to analyze avian influenzaH5N1 in East and Southeast Asia[J]. PloS One,2012,7(5).