方婷
摘要:知識挖掘技術(shù)是采集檢索海量學(xué)術(shù)文獻(xiàn)資源所必需具備的。文章分析了知識挖掘的四大關(guān)鍵技術(shù):聯(lián)機分析挖掘技術(shù)、Web挖掘技術(shù)、數(shù)據(jù)倉庫技術(shù)和信息可視化技術(shù),重點研究了海量學(xué)術(shù)文獻(xiàn)資源的用戶知識挖掘和學(xué)科知識挖掘模式,詳細(xì)探討了海量學(xué)術(shù)文獻(xiàn)資源知識挖掘創(chuàng)新模式:知識服務(wù)、Lotus知識發(fā)現(xiàn)、綜合知識挖掘。
關(guān)鍵詞:海量學(xué)術(shù)文獻(xiàn)資源;知識挖掘;知識發(fā)現(xiàn)
中圖分類號:G250.7 文獻(xiàn)標(biāo)識碼:A 文章編號:2095-5707(2017)04-0007-04
Abstract: In this thesis, the necessity of applying knowledge discovery techniques to collecting huge amounts of academic literature resources is analyzed at first. The four key knowledge discovery techniques are then introduced: online analytic mining (OLAM) technique, Web mining technique, data warehouse(DW) technique, and information visualization technique. User knowledge mining mode and subject knowledge mining mode of huge amounts of academic literature resources are further studied empirically. At last, innovative knowledge mining modes of huge amounts of academic literature resources are discussed in details: knowledge service mode, Lotus knowledge discovery mode, and comprehensive knowledge mining mode.
Key words: huge amounts of academic literature resource; knowledge mining; knowledge discovery
圖書館海量學(xué)術(shù)文獻(xiàn)資源知識管理已經(jīng)從手工管理、計算機管理向網(wǎng)絡(luò)化管理改進(jìn),目前圖書館領(lǐng)域的研究熱點就是智能化、個性化管理。通過對讀者的查找計劃,比如想要做什么、對什么感興趣等進(jìn)行推理,為讀者提供所需的知識。海量學(xué)術(shù)文獻(xiàn)資源數(shù)據(jù)庫中的知識挖掘主要是用一些復(fù)雜的統(tǒng)計分析及模型技術(shù),在大量的數(shù)據(jù)和信息中篩選出不清楚、不被人們理解的信息,最終轉(zhuǎn)化為可利用的信息。通過挖掘技術(shù)對數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行處理,重新獲得有價值的信息資源[1]。
知識挖掘是通過數(shù)據(jù)挖掘完成的,即新知識=數(shù)據(jù)+已有知識+目標(biāo)。在知道讀者的需求后,通過數(shù)據(jù)分析,加上原來已有的知識進(jìn)行計算,幫助讀者得到他們之前不知道的知識。知識挖掘使人們找尋知識不再困難。現(xiàn)代圖書館可以根據(jù)人們對知識的需求程度,對原理、知識信息等進(jìn)行重新整理、規(guī)劃,提取出最主要的、對人們有用的且容易識別的信息。本文的研究目的在于通過圖書館館藏的海量學(xué)術(shù)文獻(xiàn)資源進(jìn)行知識挖掘,從而提高館藏資源的開發(fā)與利用效率。
1 利用知識挖掘技術(shù)的必要性
1.1 采集海量學(xué)術(shù)文獻(xiàn)資源信息所必需
現(xiàn)在人們對圖書的需求量越來越多,知識面越來越廣,對知識以及閱讀的需求量更加多樣化。圖書館購買圖書的費用降低,加大了采購的難度[2]。圖書館自動化功能可以產(chǎn)生很多對采購有用的數(shù)據(jù),但是只有那些數(shù)據(jù)還是不能直接進(jìn)行采購,需要應(yīng)用知識挖掘技術(shù),統(tǒng)計各種數(shù)據(jù),比如尋找專家、查找光盤、調(diào)查書籍借還速度等[3]。知識挖掘技術(shù)幫助采購人員得到很多有價值的信息,是采購工作不可缺少的環(huán)節(jié)。知識挖掘技術(shù)在網(wǎng)絡(luò)上的圖書館智能化系統(tǒng)可以幫助采購人員通過網(wǎng)上合作采購書刊,起到預(yù)測信息以及決策分析的作用。
1.2 檢索海量學(xué)術(shù)文獻(xiàn)資源信息所必需
信息檢索方式從索引檢索、打孔穿卡片檢索已經(jīng)發(fā)展到現(xiàn)在的計算機信息檢索[4]。在大數(shù)據(jù)時代,人們需要信息檢索更加完整、正確并且快速,而智能檢索技術(shù)可以通過預(yù)測讀者需求,快速提供檢索結(jié)果[5]。知識挖掘技術(shù)通過復(fù)雜的數(shù)據(jù)分析,從海量信息中統(tǒng)計出對人們有用的信息,經(jīng)過數(shù)據(jù)庫進(jìn)一步的處理,用機器學(xué)習(xí)的方法從其中得到有用信息。通過知識挖掘,特別是知識挖掘的分支——文本挖掘及Web挖掘技術(shù)得到文本中的有用信息,再把這些信息通過動態(tài)方式展現(xiàn)給讀者,滿足讀者要求。同時,它還可以與計算機存儲、組織、管理、使用的領(lǐng)域的本關(guān)理論、知識事實數(shù)據(jù)進(jìn)行交換、聯(lián)系、集合,這用戶提供個性化服務(wù)。
2 知識挖掘的關(guān)鍵技術(shù)
2.1 聯(lián)機分析挖掘技術(shù)
聯(lián)機分析挖掘技術(shù)(OLAM)由聯(lián)機分析處理(online analytical processing, OLAP)及數(shù)據(jù)挖掘(data mining, DM)組成,OLAP和DM是通過數(shù)據(jù)倉庫技術(shù)發(fā)展而來的信息分析和挖掘工具[6],二者相輔相成。OLAP通過多維數(shù)據(jù)進(jìn)行分析,和數(shù)據(jù)倉庫原有的數(shù)據(jù)取長補短。OLAP分析主要是通過數(shù)據(jù)庫對模型進(jìn)行剖析、旋轉(zhuǎn)等方式來得到有用的信息,給決策者提供幫助。多維結(jié)構(gòu)是OLAP的重要組成部分,多維結(jié)構(gòu)里面的維不僅僅指的是三維,還可以是超立方體和多立方體的一些結(jié)構(gòu)。OLAP有2個顯著特征:一方面是在線性,就是能很快感應(yīng)到讀者的需求;另一方面是多維性,對統(tǒng)計分析、整理后的數(shù)據(jù)再進(jìn)行多維分析。DM數(shù)據(jù)挖掘分為2個步驟:建立模型和預(yù)測結(jié)果,通過對各種信息源尤其是最原始的數(shù)據(jù)進(jìn)行挖掘。
2.2 Web挖掘技術(shù)
現(xiàn)在網(wǎng)絡(luò)在技術(shù)應(yīng)用、規(guī)模復(fù)雜程度等方面都有突飛猛進(jìn)的發(fā)展,包括多行業(yè)的內(nèi)容信息、廣泛的超鏈接信息還有Web自身頁面的訪問及使用信息。Web挖掘指的是通過數(shù)據(jù)挖掘技術(shù)從Web文檔以及Web活動中抽取出人們感興趣的、對人們有幫助的信息。
Web挖掘分為3種類型[7]:⑴Web內(nèi)容的挖掘。對Web自身頁面的內(nèi)容進(jìn)行挖掘,主要通過對非結(jié)構(gòu)化的數(shù)據(jù),像文本、音頻、視頻以及圖形圖像等多種數(shù)據(jù)結(jié)合的信息進(jìn)行挖掘。⑵Web結(jié)構(gòu)的挖掘。通過對Web頁面之間的結(jié)構(gòu)來進(jìn)行挖掘,通過對WWW之間的組織結(jié)構(gòu)以及連接間的關(guān)系來推理知識,例如HITS算法即屬于對Web結(jié)構(gòu)的挖掘。⑶Web使用信息的挖掘。通過Web日志文件及相關(guān)數(shù)據(jù),對用戶查看Web時留下的記錄進(jìn)行挖掘,從而發(fā)現(xiàn)人們查找Web頁面的規(guī)律及模式。
2.3 數(shù)據(jù)倉庫技術(shù)
數(shù)據(jù)倉庫是由面向主題的、集成的、穩(wěn)定的、并且隨時間變化而變化的數(shù)據(jù)組成的,對經(jīng)營管理起決策性作用。一方面,數(shù)據(jù)倉庫用來支持決策,對分析型數(shù)據(jù)進(jìn)行處理,與現(xiàn)在數(shù)據(jù)庫的操作模式不一樣;另一方面,數(shù)據(jù)倉庫對不同主題、不同來源的數(shù)據(jù)庫進(jìn)行重新組合。
數(shù)據(jù)倉庫系統(tǒng)由4個方面組成:⑴數(shù)據(jù)源,是數(shù)據(jù)倉庫系統(tǒng)的基本組成部分。⑵數(shù)據(jù)的存儲與管理。是數(shù)據(jù)倉庫系統(tǒng)的主要組成部分,對數(shù)據(jù)庫的管理起到了關(guān)鍵性的作用。⑶OLAP服務(wù)器。通過對有用的數(shù)據(jù)進(jìn)行分析,按照多維模型結(jié)構(gòu)進(jìn)行重組,有利于朝更廣、更深層次的方向發(fā)展,從而發(fā)現(xiàn)未來的走向。⑷前端工具,是由各種報表工具、查詢工具、數(shù)據(jù)分析工具、數(shù)據(jù)挖掘工具等組成。其中數(shù)據(jù)分析工具主要是針對OLAP服務(wù)器的,報表工具、數(shù)據(jù)挖掘工具是在數(shù)據(jù)倉庫中使用。
2.4 信息可視化技術(shù)
信息可視化技術(shù)是信息科學(xué)非常重要的一部分,正向信息的知覺化、感知化方向發(fā)展。信息可視化應(yīng)用領(lǐng)域非常廣,由信息的抽取和描述、人工和機器的交換、數(shù)據(jù)的挖掘、制圖學(xué)和成像學(xué)等組成[8]。信息可視化能把抽象的數(shù)據(jù)以及文字信息通過二維或者多維模式體現(xiàn)出來。在對信息進(jìn)行可視化處理時,能夠看出數(shù)據(jù)的屬性,那些不容易發(fā)現(xiàn)的數(shù)據(jù)之間的關(guān)系也能清晰地體現(xiàn)出來,用戶可獲得更豐富的信息資源。
3 海量學(xué)術(shù)文獻(xiàn)資源的知識挖掘模式
知識挖掘是從海量學(xué)術(shù)文獻(xiàn)資源中挖掘出有用的信息,再對相同類型的數(shù)據(jù)元進(jìn)行比較、處理及分類等,得出他們之間的某些關(guān)系,從而生成、獲得更多的知識信息。
3.1 用戶知識挖掘
因為讀者有需求才有個性化的服務(wù),只有足夠了解讀者的需求,才可能設(shè)計、構(gòu)思出能夠滿足讀者要求的更高層次的知識信息。
用戶知識可以分為3類:可以滿足用戶需要的知識、本身出自用戶的知識和與用戶相關(guān)的知識,每種知識都有各自的特征。能滿足人們要求的知識是指圖書館能夠給用戶提供的知識;本身出自用戶的知識是指用戶表達(dá)的知識信息,是在利用圖書館時向工作人員所反饋的信息;與用戶相關(guān)的知識是指用戶在圖書館時需要的信息。用戶知識挖掘為圖書館的發(fā)展打下良好的基礎(chǔ),充分了解用戶,把圖書館的管理水平和人們的知識需求相結(jié)合,就會形成滿足人們需要的個性化服務(wù)。
知識挖掘非常顯著的特征就是它能把一些人們沒有表達(dá)清楚的信息挖掘出來,再通過這些信息點預(yù)測未來的發(fā)展走向。
知識挖掘通過對用戶需要什么知識、曾經(jīng)訪問過的記錄和某種行為,將這些知識再重新整理、分類、規(guī)劃,形成一個用戶知識的海洋,利用反饋出來的信息,來推測人們以后對知識的需求會往什么方向發(fā)展,根據(jù)這些推測,圖書館便能開發(fā)出符合人們要求的不同類型的知識。通過時間的不同、需要信息的種類不同,把知識種類進(jìn)行歸納整理、分類劃分,從而滿足人們的信息需求。
3.2 學(xué)科知識挖掘
和用戶知識挖掘相似,學(xué)科知識挖掘主要是通過挖掘技術(shù)對學(xué)科進(jìn)行某種分析,得到某些不容易發(fā)現(xiàn)的知識,再形成面向?qū)W科的專業(yè)知識的海洋。可以觀察不知道的那些知識他們之間的某種關(guān)系,從而進(jìn)行整理。
學(xué)科知識挖掘由5個部分組成:⑴信息采集。知識挖掘的主要目的是研究和學(xué)科有關(guān)的信息。資源信息的采集大部分都是從簡單到復(fù)雜,先整理出自身圖書館的信息資源,再慢慢向其他圖書館、網(wǎng)絡(luò)機構(gòu)等進(jìn)行擴展。⑵信息過濾。指對這些信息進(jìn)行篩選,再通過各種信息之間的關(guān)系進(jìn)行歸類整理。⑶信息匯總。把相同類型的學(xué)科知識信息進(jìn)行整理,形成信息庫。⑷信息提供。針對不同用戶的不同需求提供信息。⑸反饋評價。知識挖掘非常重要的步驟。通過人們反饋的意見,對知識挖掘各方面進(jìn)行改進(jìn)。
4 海量學(xué)術(shù)文獻(xiàn)資源知識挖掘創(chuàng)新模式
4.1 知識服務(wù)
知識服務(wù)是通過把一些知識進(jìn)行重新整理、分類,組成新的知識,以滿足不同用戶對知識的不同需求。高校數(shù)字圖書館利用查找、整理信息的能力,來實現(xiàn)自身的價值。
圖書館提供知識服務(wù),還需要有更加完善的管理機制,豐富館藏資源,加強館際合作,對各種信息整合、規(guī)范,提升完成知識服務(wù)的能力。
4.2 Lotus知識發(fā)現(xiàn)
Lotus是一種新的知識挖掘方式,主要通過知識倉庫完成。前端的Lotus知識工作站是最基礎(chǔ)的關(guān)于Web的知識信息解決,它融合了Lotus先進(jìn)的門戶技術(shù)、實時協(xié)作平臺以及群組共同協(xié)作完成方案等核心的協(xié)作工具與服務(wù),把應(yīng)用、團(tuán)隊協(xié)作服務(wù)和個人服務(wù)融合在一起,通過把“人物、地點和事件”這三個不同的知識信息相融合,群組之間的相互協(xié)作,讓工作人員通過LotusNotes客戶端或瀏覽器進(jìn)行訪問,從而發(fā)現(xiàn)、使用和實現(xiàn)知識間的相互傳遞。后臺的LotusNotes服務(wù)器可總結(jié)出“人物、地點和事件”三者的關(guān)系,從存儲在企業(yè)的文檔、數(shù)據(jù)庫、電子郵件、Web和ERP(企業(yè)資源計劃)等業(yè)務(wù)系統(tǒng)的信息庫中得到自己想要的知識。
4.3 綜合知識挖掘
雙庫協(xié)同知識發(fā)現(xiàn)(KDD&K)是數(shù)據(jù)庫和知識庫的綜合知識挖掘系統(tǒng),使知識之間相互組合以及知識增加,系統(tǒng)深度知識也是通過它來完成和實現(xiàn)深化。KDD&K系統(tǒng)主要是將原來數(shù)據(jù)間的關(guān)系,再通過分析、歸納、整理,從而發(fā)現(xiàn)更深層次的知識,即具有無窮盡的知識。KDD&K系統(tǒng)使用很多種推理方法,發(fā)現(xiàn)的知識是有價值的并且人們能夠理解的。因為數(shù)據(jù)和知識本來就是截然不同的2個概念,KDD&K過程非常復(fù)雜并且會有很多方法和途徑的,它和數(shù)據(jù)庫、數(shù)據(jù)倉庫、知識庫的組織、以及人們對最終想要的知識類型息息相關(guān),需要KDD&K必須具備很強的知識挖掘能力。
5 結(jié)語
知識挖掘的目的是通過最新的智能型工具找到隱藏在海量學(xué)術(shù)文獻(xiàn)資源中的隱性知識,再形成專業(yè)的知識庫和知識倉庫。對圖書館館藏的海量學(xué)術(shù)文獻(xiàn)資源進(jìn)行知識挖掘研究,有利于促進(jìn)館藏學(xué)術(shù)資源的有效開發(fā)與利用,從而進(jìn)一步提升圖書館服務(wù)質(zhì)量。
參考文獻(xiàn)
[1] 鄭立新.論圖書館員工隱性知識挖掘[J].現(xiàn)代情報,2010,30(3):29-31.
[2] 蔡皎潔,張玉峰.企業(yè)電子商務(wù)中客戶知識挖掘模型研究[J].江蘇商論,2012(8):52-55,83.
[3] 王峰,汪華方.數(shù)字圖書館信息檢索技術(shù)的智能化發(fā)展趨勢[J].現(xiàn)代情報,2008,28(11):93-95,99.
[4] 蔡皎潔.Web環(huán)境下的語義挖掘模型研究[J].情報理論與實踐,2015, 38(5):121-124,111.
[5] 張春燕,覃海生.數(shù)據(jù)挖掘在多媒體資源庫建設(shè)中的應(yīng)用[J].無線互聯(lián)科技,2015(14):138-139.
[6] 鐘文一.大數(shù)據(jù)時代下的圖書館數(shù)據(jù)挖掘和情報分析研究——以中文發(fā)現(xiàn)系統(tǒng)為例[J].教育觀察,2014,25(3):88-91.
[7] 龐觀松,張黎莎,蔣盛益.跨語言智能學(xué)術(shù)搜索系統(tǒng)設(shè)計與實現(xiàn)[J].山東大學(xué)學(xué)報(工學(xué)版),2011,41(5):63-68.
[8] 凃寓,王志彥.淺談資源發(fā)現(xiàn)系統(tǒng)在圖書館服務(wù)中的現(xiàn)狀與趨勢[J].圖書情報論壇,2014(5):55-58.