朱環(huán)宇
摘要:本文通過對知識發(fā)現(xiàn)進(jìn)行深入的研究,闡述知識發(fā)現(xiàn)的功能及一般過程,探討將知識發(fā)現(xiàn)引入數(shù)字圖書館的積極意義,并據(jù)此探索數(shù)字圖書館中基于知識發(fā)現(xiàn)的知識檢索服務(wù)、個性化知識推送服務(wù)以及參考咨詢服務(wù)。
關(guān)鍵詞:知識發(fā)現(xiàn) 數(shù)字圖書館服務(wù) 應(yīng)用
中圖分類號:G2507文獻(xiàn)標(biāo)識碼:A文章編號:1009-5349(2016)23-0019-02
隨著網(wǎng)絡(luò)環(huán)境和數(shù)據(jù)庫技術(shù)的迅猛發(fā)展,人類進(jìn)入到數(shù)字化信息時代,人們對于世界的認(rèn)識越來越全面及深入。相應(yīng)地,各種數(shù)據(jù)信息呈指數(shù)級的增長,并涵蓋到我們生活中的方方面面。在這些浩如煙海的數(shù)據(jù)中,隱藏著大量的、有重要價值的信息。目前的數(shù)據(jù)庫技術(shù)雖然能高效、便捷地實(shí)現(xiàn)對數(shù)據(jù)的查詢功能,但依據(jù)現(xiàn)有的數(shù)據(jù)檢索機(jī)制和統(tǒng)計分析方法仍無法滿足某些高層次的需求,也不能從用戶的需求出發(fā),實(shí)現(xiàn)用戶獲取準(zhǔn)確信息的意圖,個性化的主動知識服務(wù)就更無從談起?!皵?shù)據(jù)雖然豐富,但信息仍舊匱乏”,用戶們?nèi)匀辉谛畔⒊d的環(huán)境下面臨艱難抉擇。數(shù)字圖書館作為集數(shù)據(jù)、信息、知識為一體的知識寶庫,也面臨上面所述的一系列問題,如何將知識發(fā)現(xiàn)技術(shù)應(yīng)用于數(shù)字圖書館的建設(shè)中去,全面提升數(shù)字圖書館的知識服務(wù)價值和創(chuàng)新能力是新時代、新形勢下帶給圖書館人的挑戰(zhàn)。
一、知識發(fā)現(xiàn)
(一)知識發(fā)現(xiàn)的概念
知識發(fā)現(xiàn)(Knowledge Discovery in Database)一詞是在1989年召開的國際聯(lián)合人工智能學(xué)術(shù)會議上首次提出的,其定義有多個版本,目前被業(yè)界廣泛認(rèn)可的是法耶茲(Fayyad)提出的。知識發(fā)現(xiàn)是指從大量數(shù)據(jù)中獲取有效的、未知的、有潛在價值的并最終可理解的模式的高級處理過程。知識發(fā)現(xiàn)是一個交叉的學(xué)科,在計算機(jī)技術(shù)、數(shù)據(jù)庫技術(shù)、機(jī)器學(xué)習(xí)技術(shù)、人工智能、統(tǒng)計學(xué)技術(shù)等多學(xué)科不斷深度融合發(fā)酵中發(fā)展起來的。知識發(fā)現(xiàn)實(shí)質(zhì)上是一個系統(tǒng)化過程,其核心是實(shí)施對大量的數(shù)據(jù)倉庫、知識庫、數(shù)據(jù)庫的分析處理及深入挖掘,找尋數(shù)據(jù)間潛在的關(guān)聯(lián)、規(guī)則、模式、趨勢。幫助用戶發(fā)現(xiàn)數(shù)據(jù)背后潛藏知識與信息,與傳統(tǒng)信息檢索相比,知識發(fā)現(xiàn)獲取到的信息是有先前未知性、有效性和實(shí)用性三個特征。
(二)知識發(fā)現(xiàn)的功能
知識發(fā)現(xiàn)不同于傳統(tǒng)的數(shù)據(jù)庫定向查詢、檢索、調(diào)用,它會對數(shù)據(jù)進(jìn)行分析、統(tǒng)計、歸類及推理,以此為基礎(chǔ)指導(dǎo)實(shí)際問題的求解,并力圖發(fā)現(xiàn)事務(wù)間的相互聯(lián)系,依據(jù)這種數(shù)據(jù)間的關(guān)聯(lián)對未來的活動作出預(yù)測。知識發(fā)現(xiàn)技術(shù)可以從海量的、蕪雜的數(shù)據(jù)中根據(jù)特定的算法,篩選出有價值的、高質(zhì)量的相關(guān)聯(lián)數(shù)據(jù)。
(三)知識發(fā)現(xiàn)的一般性過程
關(guān)于知識發(fā)現(xiàn)的過程,目前尚存在分歧,有的學(xué)者提出“五步說”,也有學(xué)者提出“六步說”,本文認(rèn)為知識發(fā)現(xiàn)的過程應(yīng)分為九個步驟。①用戶調(diào)查,用以了解用戶的需求。②數(shù)據(jù)收集,創(chuàng)建目標(biāo)數(shù)據(jù)集,該數(shù)據(jù)集可以來自現(xiàn)有系統(tǒng),也可以來自數(shù)據(jù)倉庫。③數(shù)據(jù)預(yù)處理及清理,對上一步數(shù)據(jù)庫進(jìn)行糾錯及除去冗余數(shù)據(jù),并將處理結(jié)果轉(zhuǎn)化為數(shù)據(jù)采集工具所需的標(biāo)準(zhǔn)表達(dá)形式。④數(shù)據(jù)的簡化和投影,找出數(shù)據(jù)挖掘目標(biāo)的有效特征,降維處理或用其他變量等價表示,以減少變量的有效數(shù)目。⑤根據(jù)目標(biāo)選擇恰當(dāng)?shù)臄?shù)據(jù)挖掘方法。⑥根據(jù)模式類型選擇適當(dāng)?shù)臄?shù)據(jù)挖掘算法。⑦利用選定的數(shù)據(jù)挖掘方法及算法進(jìn)行數(shù)據(jù)挖掘,挖掘出用戶感興趣的模式。⑧評價和解釋發(fā)現(xiàn)的模式并將其可視化。⑨知識整理及應(yīng)用,把挖掘出來的知識發(fā)現(xiàn)結(jié)果應(yīng)用到用戶的系統(tǒng)中去。以上步驟可進(jìn)一步歸納為三個部分:數(shù)據(jù)準(zhǔn)備階段、數(shù)據(jù)挖掘階段及數(shù)據(jù)挖掘后處理階段。
二、數(shù)字圖書館引入知識發(fā)現(xiàn)系統(tǒng)的意義
(一)有利于提高數(shù)字圖書館資源的利用率
在傳統(tǒng)的數(shù)字圖書館資源建設(shè)中,只是單純地注重資源建設(shè)本身及檢索傳遞能力,而忽視了用戶對于資源使用的效率問題,導(dǎo)致了數(shù)字圖書館的資源利用率普遍偏低的現(xiàn)狀。知識發(fā)現(xiàn)系統(tǒng)的引入,使得數(shù)字圖書館在原有資源的基礎(chǔ)上,通過關(guān)聯(lián)分析、分類、聚類等方法,獲取與原有信息存在一定關(guān)聯(lián)并潛藏于文獻(xiàn)、資料、數(shù)據(jù)背后的有價值的知識。區(qū)別于傳統(tǒng)模式,知識發(fā)現(xiàn)系統(tǒng)在用戶獲取知識A的同時,也會將與其存在一定相關(guān)性的知識B推送給用戶,以供用戶選擇。這種推送不僅增加了知識B的利用率,也使得用戶發(fā)現(xiàn)了單純依靠本人能力無法獲取到的、所需要的知識B。由此我們可以看出,知識發(fā)現(xiàn)的核心是對知識的挖掘,它是應(yīng)用戶的需求而存在的,在知識服務(wù)模式中,應(yīng)該是知識尋找用戶,而不僅僅局限于用戶尋求知識。知識發(fā)現(xiàn)系統(tǒng)的應(yīng)用,有效地提高了數(shù)字圖書館資源的利用率。
(二)為用戶提供個性化的知識服務(wù)
進(jìn)入新世紀(jì)以來,數(shù)據(jù)、信息、知識產(chǎn)生的速度越來越快,數(shù)量越來越多。根據(jù)統(tǒng)計表明,全世界每天約產(chǎn)生2EB的數(shù)據(jù)量(2EB既10億GB或1000PB),加之以前積累起來的數(shù)據(jù),簡直不可勝數(shù)。在如此海量的數(shù)據(jù)中充斥著相當(dāng)一部分的垃圾數(shù)據(jù)(包括虛假數(shù)據(jù)及冗余數(shù)據(jù)),這些數(shù)據(jù)不但無法滿足用戶的需求,還會對其造成困擾。知識發(fā)現(xiàn)系統(tǒng)通過收集、關(guān)聯(lián)分析、聚類、分類等方法,對網(wǎng)站結(jié)構(gòu)、資源內(nèi)容及用戶情況進(jìn)行深入挖掘,找出信息特點(diǎn)與信息關(guān)聯(lián)并加以合理利用,提高知識服務(wù)水平,進(jìn)而促進(jìn)用戶的信息素養(yǎng)能力。另外,數(shù)字圖書館知識發(fā)現(xiàn)系統(tǒng)通過跟蹤并分析用戶信息及其知識行為特征,運(yùn)用關(guān)聯(lián)分析、分類、時間序列分析等方法,挖掘其存在的規(guī)律和特點(diǎn),以此作為數(shù)字圖書館資源智能化關(guān)聯(lián)和聚類的依據(jù)。通過知識發(fā)現(xiàn)技術(shù)對可用知識進(jìn)行關(guān)聯(lián)和升值,進(jìn)而利用這些數(shù)據(jù)和規(guī)律對用戶未來的活動進(jìn)行合理的預(yù)測,從而向用戶推送知識,以滿足用戶對于知識的實(shí)際和期望的需求,實(shí)現(xiàn)從信息獲取到知識服務(wù)的跨越。
(三)進(jìn)一步推動數(shù)字圖書館資源的開發(fā)和數(shù)據(jù)庫的建設(shè)
數(shù)據(jù)資源的價值是非常寶貴的,通過知識發(fā)現(xiàn)系統(tǒng)找出資源中潛在的特征和規(guī)律,向用戶提供符合用戶需求的、高效的知識獲取手段,使用戶獲取藏匿于數(shù)據(jù)背后的潛在的、全新的、有價值的知識,實(shí)現(xiàn)對資源的利用達(dá)到最大化,杜絕出現(xiàn)知識資源不必要的浪費(fèi),并以此為目標(biāo)指導(dǎo)數(shù)字圖書館資源優(yōu)化配置。知識發(fā)現(xiàn)系統(tǒng)從技術(shù)上加強(qiáng)了對現(xiàn)有數(shù)字資源的開發(fā)力度,多維度挖掘資源間的潛在聯(lián)系,從而減少盲目的資源購置行為,減少現(xiàn)有資源不能充分利用的現(xiàn)象。通過對用戶信息、行為特征的分析,了解用戶的需求,進(jìn)而指導(dǎo)數(shù)字圖書館資源的開發(fā)和數(shù)據(jù)庫的建設(shè)、更新及優(yōu)化。
三、知識發(fā)現(xiàn)在數(shù)字圖書館服務(wù)中的應(yīng)用
(一)基于知識發(fā)現(xiàn)的知識檢索服務(wù)
知識檢索不同于信息檢索,它在語義層面進(jìn)行標(biāo)引,建立知識庫。通過信息的語義概念,揭示信息的內(nèi)在含義,而非字面上的模式匹配。從根本上解決了檢索結(jié)果冗余嚴(yán)重、檢索率低、用戶獲取知識成本高等問題。數(shù)字圖書館借助知識發(fā)現(xiàn)技術(shù),分析用戶檢索行為,挖掘其感興趣的知識,構(gòu)建用戶信息模型。對用戶進(jìn)行聚類分析,通??蓪⑵浞譃榍逦樵?、半模糊查詢、模糊查詢。其中,知識發(fā)現(xiàn)的檢索服務(wù)可以提高后兩種查詢的查詢質(zhì)量。在數(shù)字圖書館檢索體系中,知識發(fā)現(xiàn)揭示了知識在深層次的關(guān)聯(lián)情況,對于增強(qiáng)其交互性,突破知識傳播和共享的時空限制,使一站式知識檢索服務(wù)成為現(xiàn)實(shí)。
(二)基于知識發(fā)現(xiàn)的個性化知識推送服務(wù)
通過用戶使用記錄、用戶行為挖掘、用戶特征分類和用戶反饋分析等方式,經(jīng)過模式識別和機(jī)器學(xué)習(xí),分析并預(yù)測用戶感興趣的知識領(lǐng)域。根據(jù)構(gòu)建的用戶興趣模型將相關(guān)的知識推送給用戶,也可以通過聚類、分析、關(guān)聯(lián)等規(guī)則,找到興趣相投的用戶加以歸類,并將上述知識推送給相似需求的用戶。知識發(fā)現(xiàn)運(yùn)用智能分析,實(shí)現(xiàn)數(shù)字圖書館對用戶的個性化推送服務(wù)及個性化定制服務(wù),并依據(jù)用戶對于推送或定制服務(wù)的反饋,進(jìn)一步調(diào)整策略,進(jìn)而滿足用戶的需求、提高用戶的體驗(yàn)。
(三)基于知識發(fā)現(xiàn)的參考咨詢服務(wù)
參考咨詢服務(wù)最早要追溯自馬里蘭大學(xué)的“參考服務(wù)的電子化訪問”項(xiàng)目。傳統(tǒng)的淺層次的參考咨詢服務(wù)是無法滿足用戶的需求,個性化的知識增值服務(wù)在數(shù)字圖書館服務(wù)中處于主動地位。知識咨詢服務(wù)立足于數(shù)字圖書館豐富的智力資源和信息資源,依托知識發(fā)現(xiàn)系統(tǒng)為用戶提供的原始知識或是經(jīng)過深度加工的知識。通過知識發(fā)現(xiàn)系統(tǒng)對用戶進(jìn)行需求定位,挖掘用戶的潛在需求,以便為用戶提供更為精確的知識服務(wù)。基于知識發(fā)現(xiàn)的參考咨詢服務(wù)不受時間限制、地域限制,以多種形式展開,更主要的是能為用戶提供高效的、便捷的、深層次的知識服務(wù)。
四、結(jié)語
知識發(fā)現(xiàn)服務(wù)是數(shù)字圖書館知識服務(wù)未來的發(fā)展方向,推進(jìn)知識信息的積累、組織和整理,促進(jìn)新知識的創(chuàng)造及共享,不斷豐富資源和服務(wù),必將成為數(shù)字圖書館體系結(jié)構(gòu)中不可或缺的一部分。知識發(fā)現(xiàn)系統(tǒng)在數(shù)字圖書館的廣泛應(yīng)用將進(jìn)一步豐富和優(yōu)化圖書館的信息資源,使圖書館的知識服務(wù)能力發(fā)生質(zhì)的變化。
參考文獻(xiàn):
[1]張為江.基于用戶需求分析的數(shù)字圖書館知識發(fā)現(xiàn)系統(tǒng)研究[J].圖書館理論與實(shí)踐,2014(9).
[2]王芙蓉.基于知識發(fā)現(xiàn)的高校圖書館機(jī)構(gòu)知識庫模型的建立[J].圖書館學(xué)刊,2016(8).
[3]史海燕.基于知識發(fā)現(xiàn)的數(shù)字圖書館個性化信息服務(wù)研究[J]圖書館學(xué)研究,2010(10).
[4]靳曉恩.數(shù)字圖書館的知識發(fā)現(xiàn)研究[D].湘潭:湘潭大學(xué),2008.
[5]周楊姊.基于知識發(fā)現(xiàn)的數(shù)字圖書館個性化信息服務(wù)[J].中國成人教育,2010(17).
[6]邵慧麗.基于知識發(fā)現(xiàn)數(shù)字圖書館知識服務(wù)研究[J].圖書館,2016(2).
[7]樊紅俠.知識發(fā)現(xiàn)及其在數(shù)字圖書館的應(yīng)用[J].現(xiàn)代情報,2008(8).
責(zé)任編輯:楊國棟