田 紅
〔摘 要〕本文以國內(nèi)權(quán)威的CNKI系列全文數(shù)據(jù)庫1995-2007年間登載的相關(guān)文獻(xiàn)數(shù)據(jù)為基礎(chǔ),利用基于關(guān)鍵詞詞頻統(tǒng)計(jì)的內(nèi)容分析方法,對數(shù)據(jù)挖掘技術(shù)在我國圖書情報(bào)領(lǐng)域中的應(yīng)用研究狀況進(jìn)行了比較全面的分析,揭示了研究的重點(diǎn)主題,分析了研究中存在的問題,以期為相關(guān)研究工作的深化發(fā)展提供參考。
〔關(guān)鍵詞〕數(shù)據(jù)挖掘;圖書情報(bào)學(xué);應(yīng)用研究;內(nèi)容分析
〔中圖分類號〕TP39;G250 〔文獻(xiàn)標(biāo)識碼〕A 〔文章編號〕1008-0821(2009)09-0038-04
On Application of Data Mining to Library and Information Science
——An Content Analysis Based on CNKI DatabasesTian Hong
(Library,Guizhou University,Guiyang 550003,China)
〔Abstract〕Based on literatures of authoritative CNKI databases during 1995-2007,the author explored academic research of applying data mining to library and information science by the method of keywords-based content analysis,and discussed its core subjects and the problems.
〔Key words〕data mining;library and information science;applied research;content analysis
作為一門技術(shù)性較強(qiáng)的應(yīng)用社會(huì)科學(xué),圖書情報(bào)學(xué)的每一次大發(fā)展都離不開信息技術(shù)的發(fā)展和應(yīng)用,以至有人認(rèn)為,圖書情報(bào)學(xué)是對信息技術(shù)最敏感、應(yīng)用最成熟的社會(huì)科學(xué)之一。數(shù)據(jù)挖掘作為信息科學(xué)技術(shù)的重要新興領(lǐng)域之一,近年來受到圖書情報(bào)工作者與研究者的 重視和關(guān)注。然而,數(shù)據(jù)挖掘技術(shù)在我國圖書情報(bào)領(lǐng)域中的應(yīng)用研究狀況如何?有哪些重要 的進(jìn)展和成果?還存在哪些方面的不足和薄弱環(huán)節(jié)?都是當(dāng)前需要解答的重要問題,對深化 數(shù)據(jù)挖掘技術(shù)在我國圖書情報(bào)領(lǐng)域中的應(yīng)用、促進(jìn)圖書情報(bào)學(xué)術(shù)研究與實(shí)踐的發(fā)展都具有重 要的現(xiàn)實(shí)意義。
1 研究方法與數(shù)據(jù)收集
1.1 基于詞頻統(tǒng)計(jì)的內(nèi)容分析法
內(nèi)容分析法是一種對研究對象的內(nèi)容進(jìn)行深入分析,透過現(xiàn)象看本質(zhì)的科學(xué)方法。應(yīng)用這一方法,對文獻(xiàn)的特定主題內(nèi)容進(jìn)行定性和定量剖析,可以揭示該主題內(nèi)容的實(shí)質(zhì),系統(tǒng)、客觀地把握其研究動(dòng)態(tài)和趨勢[1]。關(guān)鍵詞是指出現(xiàn)在文獻(xiàn)的篇名、摘要和正文中,用以表達(dá)文獻(xiàn)主題概念的、有實(shí)際意義的自然語言詞匯。對于某學(xué)科專業(yè)學(xué)術(shù)論文而言,由于科研人員對同一課題或概念的掌握較為準(zhǔn)確,因而所使用的關(guān)鍵詞也趨向一致[2]。對各學(xué)科、各專業(yè)的前沿領(lǐng)域而言,由于其科研人員長期從事各學(xué)科、各專業(yè)前沿領(lǐng)域的課題研究,對新理論、新技術(shù)、新成果有較深刻的理解,并能及時(shí)轉(zhuǎn)化為公認(rèn)的關(guān)鍵詞,這些新興關(guān)鍵詞的多寡也代表著學(xué)科發(fā)展的方向與成熟度。因此,該學(xué)科相關(guān)文獻(xiàn)的關(guān)鍵詞的分布頻次與特征,能顯示該學(xué)科的總體內(nèi)容特征、研究內(nèi)容之間的內(nèi)在聯(lián)系、學(xué)術(shù)研究的發(fā)展脈絡(luò)與發(fā)展方向、學(xué)術(shù)研究的重點(diǎn)與熱點(diǎn)等[3]。
鑒于這些研究方法的科學(xué)性、客觀性、準(zhǔn)確性和實(shí)用性,近年來已經(jīng)得到一定范圍的運(yùn)用,并取得一系列有意義的研究成果:如加拿大蒙特利爾大學(xué)的D.Robert教授等人曾于1997年完成了一份關(guān)于世界納米科技研究狀況的計(jì)量分析報(bào)告,該報(bào)告以加拿大NRC確定的79個(gè)納米科技關(guān)鍵詞為依據(jù),采用詞頻分析的方法,分析了全球范圍內(nèi)納米科技論文的產(chǎn)出和分布[3];2003年,河南師范大學(xué)的梁立明教授等人運(yùn)用詞頻分析法作了一項(xiàng)關(guān)于中國納米科技發(fā)展?fàn)顩r的補(bǔ)充性研究[4];同年,武漢大學(xué)的邱均平教授等人也運(yùn)用詞頻分析法,分析了2002年國內(nèi)外情報(bào)學(xué)研究的重點(diǎn)主題和發(fā)展動(dòng)向[5];2006年,武漢大學(xué)的馬費(fèi)成教授等人用詞頻分析的方法對比分析了國內(nèi)外知識管理研究的熱點(diǎn)、方法、學(xué)科分布和應(yīng)用領(lǐng)域[6]。我們完全可以將內(nèi)容分析法和以關(guān)鍵詞為基礎(chǔ)的詞頻分析法相結(jié)合,即基于詞頻統(tǒng)計(jì)的內(nèi)容分析法,研究數(shù)據(jù)挖掘技術(shù)在圖書情報(bào)領(lǐng)域中的應(yīng)用研究的基本狀況。
1.2 相關(guān)數(shù)據(jù)的收集整理
文獻(xiàn)計(jì)量的數(shù)據(jù)來源隨著時(shí)代的變化也有所變化,本文的數(shù)據(jù)來源以中國知網(wǎng)CNKI系列全文數(shù)據(jù)庫為主,統(tǒng)計(jì)相關(guān)文獻(xiàn)的特征信息。CNKI系列數(shù)據(jù)庫是目前世界上最大的綜合性中文數(shù)據(jù)庫,收錄了國內(nèi)多種類型的科技文獻(xiàn)全文,且收錄率很高,通常都在90%以上,以此作為統(tǒng)計(jì)分析對象,可保證研究結(jié)果的權(quán)威性和可靠性。文獻(xiàn)檢索年限定為1995-2007年,檢索方法為“分類=圖書情報(bào)與數(shù)字圖書館”AND“篇名=數(shù)據(jù)挖掘”(匹配方式=“模糊”),檢索結(jié)果如表1所示。
可以看出,數(shù)據(jù)挖掘技術(shù)在圖書情報(bào)領(lǐng)域中的應(yīng)用研究已經(jīng)有一定的成果和文獻(xiàn)積累。而從這些文獻(xiàn)的時(shí)間分布看,自1999年以來基本呈現(xiàn)出較高的增長態(tài)勢,說明此方面的研究規(guī)模不斷擴(kuò)大,正處于快速發(fā)展的時(shí)期(見圖1)。
2 詞頻分布及重點(diǎn)研究主題分析
2.1 詞頻統(tǒng)計(jì)結(jié)果及分布特征
246篇有關(guān)數(shù)據(jù)挖掘技術(shù)在圖書情報(bào)領(lǐng)域中的應(yīng)用研究的文獻(xiàn)共有關(guān)鍵詞近900個(gè)。在對這些關(guān)鍵詞作同義詞的處理后,選擇詞頻高達(dá)5次以上的關(guān)鍵詞進(jìn)入關(guān)鍵詞表,從而確定了共有18個(gè)關(guān)鍵詞的高頻詞表,其詞頻分布情況見表2。
可以看出,這些關(guān)鍵詞表現(xiàn)出較為明顯的類別特征:一類是具有技術(shù)屬性的關(guān)鍵詞,如數(shù)據(jù)挖掘、Web數(shù)據(jù)挖掘、知識庫、數(shù)據(jù)庫、數(shù)據(jù)倉庫、文本挖掘、信息挖掘、知識發(fā)現(xiàn)、關(guān)聯(lián)規(guī)則、可擴(kuò)展標(biāo)記語言等關(guān)鍵詞,具有較為明顯的技術(shù)特征,主要反映了被應(yīng)用的數(shù)據(jù)挖掘的具體技術(shù)、工具和方法;另一類是具有圖書情報(bào)學(xué)學(xué)科屬性的關(guān)鍵詞,這些關(guān)鍵詞中,少數(shù)表明了數(shù)據(jù)挖掘技術(shù)的應(yīng)用領(lǐng)域,如圖書館、高校圖書館、數(shù)字圖書館,多數(shù)則表征了圖書情報(bào)學(xué)科的研究主題和方向(見表2)。
2.2 重點(diǎn)研究主題分析
從以上關(guān)鍵詞的特征分析可以看出,具有圖書情報(bào)學(xué)學(xué)科屬性的關(guān)鍵詞不僅表征了數(shù)據(jù)挖掘技術(shù)在圖書情報(bào)中的應(yīng)用領(lǐng)域,而且高頻次表征研究研究方向的關(guān)鍵詞還體現(xiàn)了數(shù)據(jù)挖掘技術(shù)在圖書情報(bào)領(lǐng)域中應(yīng)用研究的重點(diǎn)主題和方向。這些關(guān)鍵詞表征的重點(diǎn)研究主題包括:信息服務(wù)(包括“個(gè)性化信息服務(wù)”、“信息服務(wù)”兩個(gè)關(guān)鍵詞)、信息檢索、知識管理、參考咨詢、競爭情報(bào)、決策支持。下面以這些關(guān)鍵詞對應(yīng)的文獻(xiàn)為基礎(chǔ),對這些重點(diǎn)研究主題的研究狀況作簡要分析概述。
2.2.1 信息服務(wù)
信息服務(wù)是圖書情報(bào)領(lǐng)域研究的重要內(nèi)容,而圖書情報(bào)部門信息服務(wù)的發(fā)展離不開信息技術(shù)方法的支持。此方面的研究主要包括基于數(shù)據(jù)挖掘技術(shù)的圖書館信息服務(wù)系統(tǒng)模型設(shè)計(jì)[7],Web數(shù)據(jù)挖掘?qū)崿F(xiàn)個(gè)性化信息服務(wù)的主要途徑[8],基于Web數(shù)據(jù)挖掘技術(shù)的用戶社區(qū)聚類方法和相關(guān)量化技術(shù)[9],Web日志數(shù)據(jù)和OPAC信息庫圖書借閱數(shù)據(jù)關(guān)聯(lián)挖掘分析與應(yīng)用[10],利用數(shù)據(jù)挖掘技術(shù)構(gòu)建數(shù)字圖書館個(gè)性化服務(wù)系統(tǒng)的方法[11],基于WEB信息空間或自動(dòng)化管理系統(tǒng)的知識服務(wù)[12],基于數(shù)據(jù)挖掘及數(shù)據(jù)倉庫技術(shù)的網(wǎng)絡(luò)信息服務(wù)模式[13]。
2.2.2 信息檢索
現(xiàn)代信息檢索研究與信息技術(shù)有較緊密的聯(lián)系,數(shù)據(jù)挖掘在信息檢索中的應(yīng)用研究主要關(guān)注網(wǎng)上信息進(jìn)行自動(dòng)提取及網(wǎng)上信息分類的實(shí)現(xiàn)途徑[14],利用詞頻矩陣和模糊相似矩陣的文本間相關(guān)性的計(jì)算方法[15],用戶訪問記錄、網(wǎng)絡(luò)數(shù)據(jù)流背后的知識關(guān)聯(lián)和知識發(fā)現(xiàn)[16],從網(wǎng)絡(luò)信息內(nèi)容的關(guān)聯(lián)智能檢索中的網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)[17],基于知識規(guī)則挖掘的分類方法及其應(yīng)用[18]等。
2.2.3 知識管理
知識管理是近年來圖書情報(bào)學(xué)術(shù)研究的熱點(diǎn)之一,數(shù)據(jù)挖掘應(yīng)用于圖書情報(bào)知識管理的研究主要涉及到數(shù)字特藏?cái)?shù)據(jù)挖掘支持專題數(shù)據(jù)庫資源的知識管理[19],數(shù)據(jù)挖掘技術(shù)在數(shù)字圖書館知識管理系統(tǒng)建設(shè)中的應(yīng)用[20],分布式數(shù)據(jù)挖掘解決元數(shù)據(jù)集中管理與對象數(shù)據(jù)分散的存取機(jī)制構(gòu)建[21],基于WEB信息空間或自動(dòng)化管理系統(tǒng)的知識服務(wù)[22],通過數(shù)據(jù)挖掘?qū)崿F(xiàn)圖書館信息價(jià)值最大化、保持圖書館競爭力和可持續(xù)發(fā)展的措施[23],智能信息處理中文本知識的發(fā)現(xiàn)[24]等方面。
2.2.4 參考咨詢
此方面的研究主要與近年來興起的數(shù)字參考咨詢相關(guān),內(nèi)容主要涉及基于挖掘技術(shù)的數(shù)字參考咨詢系統(tǒng)設(shè)計(jì)框及數(shù)據(jù)庫結(jié)構(gòu)設(shè)計(jì)[25],數(shù)據(jù)挖掘技術(shù)在基于呼叫中心的數(shù)字參考服務(wù)中的應(yīng)用[26],圖書的流通數(shù)據(jù)應(yīng)用關(guān)聯(lián)規(guī)則的挖掘分析方法[27],E-mail文本挖掘的具體過程及其在用戶參考咨詢需求定位中的應(yīng)用[28]。
2.2.5 競爭情報(bào)
主要研究基于數(shù)據(jù)挖掘的企業(yè)競爭情報(bào)智能采集模型構(gòu)建[29],集成環(huán)境中面向競爭情報(bào)系統(tǒng)的數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù)的應(yīng)用[30]等。
2.2.6 決策支持
主要包括讀者關(guān)系管理中應(yīng)用數(shù)據(jù)挖掘的條件和數(shù)據(jù)處理、構(gòu)建模型及模型評價(jià)等基本流程[31],分類、回歸分析、聚類、關(guān)聯(lián)規(guī)則、特征、變化和偏差分析、Web頁挖掘等數(shù)據(jù)挖掘技術(shù)在圖書館館藏管理、讀者管理及決策支持等方面的應(yīng)用[32]等。
3 結(jié) 語
綜上分析不難看出,以上主題的研究都與圖書情報(bào)學(xué)原有的研究領(lǐng)域或研究內(nèi)容有較大的相關(guān)性。但在對已有文獻(xiàn)的分析梳理的過程中筆者也發(fā)現(xiàn),目前圖書情報(bào)學(xué)術(shù)界對數(shù)據(jù)挖掘的應(yīng)用研究還存在以下兩方面的問題:一是研究內(nèi)容不夠深入。在已有的研究中,很大一部分都是普泛地介紹數(shù)據(jù)挖掘的相關(guān)技術(shù),并簡要分析其在圖書情報(bào)工作中應(yīng)用的意義和范圍等等,內(nèi)容比較膚淺,重復(fù)雷同嚴(yán)重;即便是一些專題性的研究,主要也是用數(shù)據(jù)挖掘的各種技術(shù)方法對圖書情報(bào)工作中的相關(guān)記錄數(shù)據(jù)和信息進(jìn)行簡單的套用和計(jì)算分析,還缺乏應(yīng)有的研究深度。二是研究力量比較分散。從筆者對檢出文獻(xiàn)的作者的考察結(jié)果看,絕大多數(shù)作者只發(fā)表過1篇相關(guān)文獻(xiàn),最多的也只發(fā)表過4篇相關(guān)文獻(xiàn),這說明目前對數(shù)據(jù)挖掘在圖書情報(bào)工作中的應(yīng)用研究還沒有形成穩(wěn)定的研究隊(duì)伍,研究工作還缺乏應(yīng)有的組織和引導(dǎo),絕大多數(shù)研究人員只是“偶然”地進(jìn)行此方面的研究,影響了研究的水平和深度。圖書情報(bào)學(xué)界應(yīng)針對這些問題,采取有效的對策措施,推動(dòng)研究工作走向深入。
參考文獻(xiàn)
[1]邱均平,鄒菲.關(guān)于內(nèi)容分析法的研究[J].中國圖書館學(xué)報(bào),2004,(2):1-4.
[2]王思哲.我國學(xué)術(shù)期刊關(guān)鍵詞標(biāo)引質(zhì)量探析[J].延安大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2001,(3):27-29.
[3]邱均平,蘇金燕.國內(nèi)信息資源管理研究綜述[J].圖書館論壇,2007,(6):56-60.
[4]梁立明,謝彩霞.詞頻分析法用于我國納米科技研究動(dòng)向分析[J].科學(xué)學(xué)研究,2003,(3):5-11.
[5]邱均平,趙蓉英,侯經(jīng)川.2002年國內(nèi)外情報(bào)學(xué)發(fā)展動(dòng)向研究[J].情報(bào)學(xué)報(bào),2003,(5):512-516.
[6]馬費(fèi)成,張勤.國內(nèi)外知識管理研究熱點(diǎn)——基于詞頻的統(tǒng)計(jì)分析[J].情報(bào)學(xué)報(bào),2006,(2):146-151.
[7]李璐璐.基于數(shù)據(jù)挖掘技術(shù)的信息服務(wù)研究及系統(tǒng)模型設(shè)計(jì)[J].大學(xué)圖書情報(bào)學(xué)刊,2008,(4):46-48.
[8]歐陽烽.Web數(shù)據(jù)挖掘與高校數(shù)字圖書館個(gè)性化服務(wù)[J].現(xiàn)代情報(bào),2008,(1):301-303.
[9]郝小花,鄧小昭.基于數(shù)據(jù)挖掘的可視化數(shù)字圖書館用戶社區(qū)聚類與特征分析[J].情報(bào)科學(xué),2008,(3):396-399.
[10]溫嶸生,邱春蘭.基于OPAC信息庫圖書借閱數(shù)據(jù)關(guān)聯(lián)挖掘分析與應(yīng)用[J].情報(bào)雜志,2007,(7):26-28.
[11]周軍.基于數(shù)據(jù)挖掘的數(shù)字圖書館個(gè)性化服務(wù)系統(tǒng)的構(gòu)建[J].圖書館學(xué)研究,2007,(3):15-17.
[12]黃蘭.數(shù)據(jù)挖掘技術(shù)在圖書館工作中的應(yīng)用[J].圖書館學(xué)研究,2005,(7):15-17.
[13]張艷英,朱婕.數(shù)據(jù)倉庫、數(shù)據(jù)挖掘及網(wǎng)絡(luò)信息服務(wù)[J].現(xiàn)代情報(bào),2003,(12):2-3.
[14]朱理達(dá).圖書館信息管理與數(shù)據(jù)挖掘技術(shù)[J].河南圖書館學(xué)刊,2002,(3):60-61.
[15]武勝良.數(shù)據(jù)挖掘中模糊聚類方法在信息檢索中的應(yīng)用[J].當(dāng)代經(jīng)理人,2006,(15):244-245.
[16]金燕,張玉峰.網(wǎng)絡(luò)數(shù)據(jù)挖掘及其在面向Web的知識檢索中的應(yīng)用[J].現(xiàn)代圖書情報(bào)技術(shù),2003,(6):55-57.
[17]晏創(chuàng)業(yè),張玉峰.智能檢索中的網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)探索[J].中國圖書館學(xué)報(bào),2002,(3):13-16.
[18]石冰,鄭燕峰.信息檢索中的數(shù)據(jù)挖掘技術(shù)[J].情報(bào)學(xué)報(bào),1999(S1):400-403.
[19]都平平,李明.專題數(shù)據(jù)庫的數(shù)據(jù)挖掘與知識管理——以《中國煤礦事故數(shù)據(jù)庫》為例[J].圖書館雜志,2006,(2):14-16.
[20]潘小楓.數(shù)據(jù)挖掘技術(shù)及其在數(shù)字圖書館建設(shè)中的運(yùn)用[J].圖書館理論與實(shí)踐,2006,(4):105-106.
[21]胡譽(yù)耀.數(shù)字圖書館的分布式數(shù)據(jù)挖掘[J].情報(bào)理論與實(shí)踐,2006,(3):853-855.
[22]黃蘭.數(shù)據(jù)挖掘技術(shù)在圖書館工作中的應(yīng)用[J].圖書館學(xué)研究,2005,(7):15-17.
[23]金中仁,陳振宇.知識管理與文獻(xiàn)信息數(shù)據(jù)挖掘[J].情報(bào)雜志,2004,(12):89-90.
[24]韓客松,王永成.文本挖掘、數(shù)據(jù)挖掘和知識管理——21世紀(jì)的智能信息處理[J].情報(bào)學(xué)報(bào),2001,(1):100-104.
[25]張軍麗.基于數(shù)據(jù)挖掘技術(shù)的圖書館參考咨詢[J].科技情報(bào)開發(fā)與經(jīng),2008,(20):50-51.
[26]劉秋梅,鄭耿忠.呼叫中心數(shù)據(jù)挖掘在數(shù)字參考服務(wù)中的應(yīng)用研究[J].情報(bào)雜志,2006,(5):68-70.
[27]魏育輝,潘潔.圖書流通數(shù)據(jù)的關(guān)聯(lián)挖掘量化分析方法[J].現(xiàn)代情報(bào),2005,(11):108-110.
[28]晁成春.參考咨詢服務(wù)中的E-mail文本數(shù)據(jù)挖掘[J].農(nóng)業(yè)圖書情報(bào)學(xué)刊,2005,(12):41-43.
[29]唐濤,張玉峰.基于數(shù)據(jù)挖掘的企業(yè)競爭情報(bào)智能采集模型研究[J].情報(bào)科學(xué),2007,(10):6750-6754.
[30]苗杰,倪波.面向集成競爭情報(bào)系統(tǒng)的數(shù)據(jù)挖掘應(yīng)用研究[J].情報(bào)學(xué)報(bào),2001,(4):443-450.
[31]楊春,劉樹新,樓康華.論數(shù)據(jù)挖掘在讀者關(guān)系管理中的應(yīng)用[J].河北建筑科技學(xué)院學(xué)報(bào):社會(huì)科學(xué)版,2006,(3):125-127.
[32]葉新友,晁成春.數(shù)據(jù)挖掘技術(shù)在高校圖書館中的應(yīng)用[J].新世紀(jì)圖書館,2005,(1):50-51.