蔣天民,王 英
(南通大學(xué),江蘇 南通 226019)
智慧圖書館是近幾年對(duì)圖書館未來發(fā)展方向提出的一個(gè)新概念,未來的圖書館將不拘泥于空間的限制并且可以被用戶切實(shí)的感知。這種感知指的是更廣泛的互聯(lián)互通以及在此基礎(chǔ)上的智慧化的管理和服務(wù),使用戶或讀者在這個(gè)體系之內(nèi)能夠體驗(yàn)更加貼心的個(gè)性化服務(wù)。日新月異的科技給網(wǎng)絡(luò)資源的容量帶來了幾何級(jí)的激增,如何從海量的信息中檢索到自己所需要的信息成為人們需要面臨的新的問題。智慧圖書館的策略就是通過技術(shù)的調(diào)整和改進(jìn)以及信息重組來為用戶提供“智慧”的信息服務(wù),以解決用戶的需求。這個(gè)技術(shù)調(diào)整和改進(jìn)以及信息重組的過程就是數(shù)據(jù)挖掘的過程[1]。
數(shù)據(jù)挖掘技術(shù)是結(jié)合了統(tǒng)計(jì)方法、計(jì)算機(jī)技術(shù)、人工智能等構(gòu)成的一種新興學(xué)科[2]。數(shù)據(jù)挖掘來源于統(tǒng)計(jì)分析,是統(tǒng)計(jì)分析方法的擴(kuò)展和延伸。大多數(shù)的統(tǒng)計(jì)分析技術(shù)都基于完善的數(shù)學(xué)理論和高超的技巧,其預(yù)測的準(zhǔn)確程度還是令人滿意的,但對(duì)于使用者的知識(shí)要求比較高。而隨著計(jì)算機(jī)能力的不斷發(fā)展,數(shù)據(jù)挖掘可以利用相對(duì)簡單和固定程序完成同樣的功能。新的計(jì)算算法的產(chǎn)生如神經(jīng)網(wǎng)絡(luò)、決策樹使人們不需了解到其內(nèi)部復(fù)雜的原理也可以通過這些方法獲得良好的分析和預(yù)測效果[3]。
數(shù)據(jù)挖掘的海量基礎(chǔ)數(shù)據(jù)來自各個(gè)應(yīng)用系統(tǒng)的數(shù)據(jù)庫數(shù)據(jù),這些應(yīng)用系統(tǒng)的數(shù)據(jù)庫必須具備高速的存儲(chǔ)技術(shù)以及高效的索引技術(shù),可以提供海量數(shù)據(jù)的高性能(并行)查詢,并且使用諸如分布式技術(shù)和爬蟲技術(shù),以快速抓取海量的網(wǎng)絡(luò)信息數(shù)據(jù)。與圖書館的發(fā)展相比較,數(shù)據(jù)挖掘技術(shù)從計(jì)算機(jī)科學(xué)發(fā)展至今已有十多年的歷史。從20世紀(jì)70年代開始,數(shù)據(jù)挖掘技術(shù)逐漸在圖書館中展開全方位的應(yīng)用。在國內(nèi),數(shù)字圖書館的誕生和發(fā)展得益于互聯(lián)網(wǎng)的高速發(fā)展[4]。隨著數(shù)字資源總量和數(shù)據(jù)庫數(shù)量的高速增長,數(shù)據(jù)庫自動(dòng)化管理系統(tǒng)隨之進(jìn)入高校圖書館。所以,數(shù)據(jù)挖掘技術(shù)應(yīng)用的基礎(chǔ)條件已基本具備,伴隨著數(shù)據(jù)挖掘技術(shù)應(yīng)用的不斷拓展,在高校圖書館信息管理和信息服務(wù)的水平也得到了巨大的提升。
目前,數(shù)據(jù)挖掘有許多種定義。簡要來說,數(shù)據(jù)挖掘就是從海量數(shù)據(jù)中提取或挖掘知識(shí)。通常數(shù)據(jù)挖掘系統(tǒng)包含圖1中所示的若干組件。
圖1 數(shù)據(jù)挖掘的組成
數(shù)據(jù)挖掘包括了以下這些學(xué)科和技術(shù):數(shù)據(jù)庫技術(shù)、機(jī)器學(xué)習(xí)、人工神經(jīng)網(wǎng)絡(luò)、模式識(shí)別、數(shù)據(jù)圖形化、空間數(shù)據(jù)分析、統(tǒng)計(jì)學(xué)、圖像和信號(hào)處理、知識(shí)抽取等。數(shù)據(jù)挖掘系統(tǒng)除了包括以上這些學(xué)科和技術(shù)之外,甚至還應(yīng)用到了心理學(xué)、經(jīng)濟(jì)學(xué)等。
數(shù)據(jù)挖掘是可以從數(shù)據(jù)庫中提取有趣的知識(shí)規(guī)律或深層信息來發(fā)現(xiàn)的知識(shí),可以用于決策,過程控制,信息管理,查詢處理。這些規(guī)律和知識(shí)可以應(yīng)用到零售業(yè)、制造業(yè)、財(cái)務(wù)金融保險(xiǎn)、通訊及醫(yī)療服務(wù)等領(lǐng)域。數(shù)據(jù)挖掘系統(tǒng)是用來研究和了解數(shù)據(jù)挖掘規(guī)律性的工具。作為一個(gè)多學(xué)科交叉的領(lǐng)域,數(shù)據(jù)挖掘被認(rèn)為是信息產(chǎn)業(yè)21世紀(jì)最有前途的學(xué)科。
數(shù)據(jù)挖掘是通過計(jì)算機(jī)處理、人工分析等方法進(jìn)行人機(jī)交互的過程,并且是完備且可迭代的,該過程主要包含了以下幾個(gè)步驟(如圖2所示):數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)篩選、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘、模型轉(zhuǎn)換和評(píng)估[5]。
圖2 數(shù)據(jù)挖掘過程
關(guān)聯(lián)規(guī)則指的是兩個(gè)或多個(gè)變量的相關(guān)性規(guī)則特征。數(shù)據(jù)庫中的數(shù)據(jù)之間通常不是孤立的存在,而是存在某種關(guān)聯(lián)。相關(guān)性分析是通過分析來發(fā)現(xiàn)數(shù)據(jù)之間的相關(guān)性特征,從而獲得數(shù)據(jù)之間的依賴,以便于今后的數(shù)據(jù)設(shè)計(jì)和分析。關(guān)聯(lián)規(guī)則主要由兩個(gè)階段組成:①分析數(shù)據(jù)并獲取數(shù)據(jù)集中的高頻名稱;②從這些高頻名稱中產(chǎn)生關(guān)聯(lián)規(guī)則。
通過從關(guān)聯(lián)規(guī)則中分析結(jié)果,并在個(gè)性化圖書館管理系統(tǒng)中采用關(guān)聯(lián)規(guī)則,可以幫助圖書館快速找到與當(dāng)前正在發(fā)生的問題的相關(guān)事件,還可以通過分析讀者的檢索內(nèi)容來獲得當(dāng)前讀者用戶的信息,以便將相關(guān)內(nèi)容更有效地推送給讀者[6]。
1993年R.Agrawal等人首次提出了挖掘顧客交易數(shù)據(jù)中項(xiàng)目集間的關(guān)聯(lián)規(guī)則問題,其核心是基于兩階段頻繁集思想的遞推算法。該關(guān)聯(lián)規(guī)則在分類上屬于單維、單層及布爾關(guān)聯(lián)規(guī)則,這就是經(jīng)典的Aprior算法。Aprior算法將發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的過程分為兩個(gè)步驟:第一步通過迭代,檢索出事務(wù)數(shù)據(jù)庫中的所有頻繁項(xiàng)集,即支持度不低于用戶設(shè)定的閾值的項(xiàng)集;第二步利用頻繁項(xiàng)集構(gòu)造出滿足用戶最小信任度的規(guī)則。其中,挖掘或識(shí)別出所有頻繁項(xiàng)集是該算法的核心,占整個(gè)計(jì)算量的大部分[7]。
Apriori算法思路簡單,使用一種稱作逐層搜索的迭代方法,k項(xiàng)集用于探索(k+1)項(xiàng)集。首先,通過掃描數(shù)據(jù)庫,累積每個(gè)項(xiàng)的計(jì)數(shù),并收集滿足最小支持度的項(xiàng),找出頻繁1項(xiàng)集的集合。該集合記作L1,然后,L1用于找頻繁2項(xiàng)集的集合L2,L2用于找L3,如此迭代,直到不能再找到頻繁k項(xiàng)集。找每個(gè)Lk需要一次數(shù)據(jù)庫全掃描。
算法下一步是基于頻繁項(xiàng)集挖掘關(guān)聯(lián)規(guī)則。置信度大于最小置信度的規(guī)則稱為頻繁關(guān)聯(lián)規(guī)則。在算法挖掘出的所有關(guān)聯(lián)規(guī)則中,既可能是頻繁關(guān)聯(lián)規(guī)則也可能是非頻繁關(guān)聯(lián)規(guī)則。然后,將挖掘出的規(guī)則的置信度與最小置信度進(jìn)行比較,大于最小置信度的關(guān)聯(lián)規(guī)則即為頻繁關(guān)聯(lián)規(guī)則[8]。
高校圖書館不僅是各種實(shí)體文獻(xiàn)資源和數(shù)字資源的存儲(chǔ)地,同時(shí),它還承擔(dān)了學(xué)術(shù)信息交流中心的角色,為廣大師生提供知識(shí)服務(wù)。智慧圖書館是一種數(shù)字化、網(wǎng)絡(luò)化、智能化的信息科學(xué)為基本手段的,有著更加高效和便利特點(diǎn)的一種圖書館運(yùn)行模式,它的最本真的追求就是用最綠色的方式和數(shù)字化的手段來實(shí)現(xiàn)閱讀。它是未來新型圖書館的發(fā)展模式,能實(shí)現(xiàn)廣闊的互聯(lián)以及共享,它以人為本,進(jìn)行智慧化的管理和服務(wù)。智慧圖書館提供的是智慧服務(wù),而智慧服務(wù)的最本質(zhì)特征就是完成實(shí)時(shí)的增值,讓知識(shí)服務(wù)的內(nèi)涵得以升華,這對(duì)于人類的可持續(xù)發(fā)展有著極其重要的意義[9]。
基于關(guān)聯(lián)規(guī)則挖掘的圖書館個(gè)性化服務(wù)模型(如圖3)包含3個(gè)功能模塊:數(shù)據(jù)處理、關(guān)聯(lián)規(guī)則挖掘、個(gè)性化服務(wù)。數(shù)據(jù)處理是第一步,包含了數(shù)據(jù)導(dǎo)入、數(shù)據(jù)整合、數(shù)據(jù)清洗、數(shù)據(jù)過濾、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)歸約。第一步過程對(duì)于后序關(guān)聯(lián)規(guī)則挖掘的效果將起到至關(guān)重要的作用。第二步,挖掘讀者與圖書關(guān)系的關(guān)聯(lián)規(guī)則以及圖書與讀者關(guān)系的關(guān)聯(lián)規(guī)則,建立讀者特征和借閱的圖書以及圖書和圖書之間的關(guān)聯(lián)模型。第三步,在讀者個(gè)性化服務(wù)中應(yīng)用前面挖掘到的關(guān)聯(lián)規(guī)則。
該模型主要實(shí)現(xiàn)了兩個(gè)功能:①關(guān)聯(lián)規(guī)則挖掘功能。通過挖掘讀者的借閱歷史來發(fā)現(xiàn)某些有價(jià)值的關(guān)聯(lián)規(guī)則,歸納出隱藏的規(guī)則。②個(gè)性化服務(wù)功能。將上一步中得到的關(guān)聯(lián)規(guī)則落實(shí)到具體的智慧圖書館的個(gè)性化推薦服務(wù)中去。平臺(tái)采用B/S模式,服務(wù)器操作系統(tǒng)選擇Windows Server 2008。開發(fā)環(huán)境使用Visual Studio 2010,開發(fā)語言選擇C#。讀者數(shù)據(jù)存儲(chǔ)工具選擇SQL Server 2008數(shù)據(jù)庫。關(guān)聯(lián)規(guī)則挖掘算法選擇Microsoft關(guān)聯(lián)算法[10]。
圖3 圖書館個(gè)性化服務(wù)模型
高校智慧圖書館管理系統(tǒng)是同時(shí)服務(wù)于讀者用戶和圖書館管理者的最重要的信息系統(tǒng),是圖書館管理工作中非常重要的一環(huán)。因此,高校智慧圖書館管理系統(tǒng)必須能為管理者和讀者提供及時(shí)又充分的信息。高校智慧圖書館常見的信息系統(tǒng)有:圖書管理系統(tǒng)、書刊流通系統(tǒng)、書刊查詢系統(tǒng)、讀者管理系統(tǒng)、費(fèi)用管理系統(tǒng)。因?yàn)槎际顷P(guān)系型數(shù)據(jù)庫,所以每個(gè)系統(tǒng)都由若干關(guān)系表組成。以上這么多信息系統(tǒng)中連接讀者(讀者借閱歷史)和書刊(書刊更新、借閱、歸還)之間關(guān)系最重要的一個(gè)信息系統(tǒng)就是書刊流通系統(tǒng)。筆者討論的數(shù)據(jù)挖掘都是基于這部分?jǐn)?shù)據(jù)的開發(fā)[11]。
通過對(duì)讀者借閱歷史(即圖書流通數(shù)據(jù))挖掘關(guān)聯(lián)規(guī)則的目的是通過分析關(guān)聯(lián)規(guī)則來歸納出諸如以下規(guī)律:①了解讀者的特點(diǎn)和他們借閱圖書的規(guī)律。調(diào)查讀者的性別、年齡、專業(yè)和其他影響借閱圖書的各種屬性,從中歸納出讀者更有借閱意向的圖書特征,可以更有針對(duì)性地向讀者薦閱圖書期刊,這對(duì)讀者和智慧圖書館的服務(wù)工作都具有重要意義。②通過發(fā)掘業(yè)務(wù)數(shù)據(jù)庫中借閱歷史之間的關(guān)聯(lián)可以分析出讀者的借閱習(xí)慣。舉例如下:通過挖掘關(guān)聯(lián)規(guī)則得到了圖書A和圖書B之間的某種借閱關(guān)系,即圖書A的讀者中有70%也借了圖書B。那么就可以將圖書B推薦給借了圖書A的讀者。合理安排優(yōu)秀的圖書可以增加借閱量和指導(dǎo)讀者購買。
利用原始數(shù)據(jù)來挖掘關(guān)聯(lián)規(guī)則的過程也有另一種更廣義的說法叫知識(shí)發(fā)現(xiàn)(KDD:Knowledge Discovery in Database)。圖4展示了知識(shí)發(fā)現(xiàn)的過程。知識(shí)發(fā)現(xiàn)可以歸為3個(gè)部分:知識(shí)預(yù)處理、數(shù)據(jù)挖掘、結(jié)果的解釋和評(píng)估(解釋和評(píng)估)。
圖4 知識(shí)發(fā)現(xiàn)過程
Microsoft 關(guān)聯(lián)規(guī)則算法是Apriori 算法的簡單實(shí)現(xiàn),該算法需要合理設(shè)定參數(shù),會(huì)極大地影響關(guān)聯(lián)規(guī)則挖掘的數(shù)量。和該算法密切相關(guān)的參數(shù)有以下幾方面。
2.3.1 支持度。 支持度是一個(gè)項(xiàng)集或者規(guī)則在所有事物中出現(xiàn)的頻率,確定規(guī)則可以用于給定數(shù)據(jù)集的頻繁程度。對(duì)生成規(guī)則無影響,對(duì)生成項(xiàng)集有影響。項(xiàng)集{A,B}的支持度是包含A和B的所有交易數(shù)總和。表達(dá)式為:
support(A?B)=p(A∪B)=NumbeofTransaction(A,B)
(1)
2.3.2 置信度。 一些文獻(xiàn)中也稱為概率或可信度。在發(fā)生事件A的條件下發(fā)生事件B的概率,該規(guī)則表達(dá)式如下:
probablity(A?B)=probablity(B|A)=p(A∪B)/p(A)=NumbeofTransaction(A,B)/TotalNumbeofTransaction
(2)
最小置信度是指,用戶只對(duì)滿足特定頻率的規(guī)則感興趣。它的值和最小支持度是相同的。置信度影響規(guī)則的生成,但不影響項(xiàng)集的生成。生成的規(guī)則數(shù)量取決于設(shè)置的最小置信度的值[12]。
2.3.3 增益。 一些文獻(xiàn)中也叫作興趣度分?jǐn)?shù)或重要性,對(duì)項(xiàng)集和規(guī)則的生成、項(xiàng)集的增益、規(guī)則的增益都有影響。項(xiàng)集的增益用以下公式定義:
importance(A?B)=p(B|A)/p(B)=[probablity(A,B)/probablity(A)*probablity(B)]
(3)
它描述了項(xiàng)集A對(duì)項(xiàng)集B的影響程度。它的值域是[0,∞]。如果增益等于1,代表事件A和事件B是相互獨(dú)立的。如果增益小于1,代表事件A和事件B是負(fù)相關(guān)的,如果發(fā)生了事件A就不可能發(fā)生事件B。如果增益大于1,代表事件A和事件B是正相關(guān)的,如果發(fā)生了事件A也有可能發(fā)生事件B。規(guī)則的重要性公式為:
importance(A?B)=log(P(B/A)/P(B/notA))
(4)
該公式表示:如果增益為0,代表事件A和事件B相互獨(dú)立。如果值為正代表事件A為真時(shí),事件B的概率會(huì)增加。如果值為負(fù)代表事件A為真時(shí),事件B的概率會(huì)減小。
筆者選取了南通大學(xué)圖書館的數(shù)據(jù)作為研究對(duì)象,挖掘關(guān)聯(lián)規(guī)則的數(shù)據(jù)來源于南通大學(xué)圖書館匯文管理系統(tǒng)中的讀者借閱記錄。選取了2014年1月1日~2018年12月31日之間分類號(hào)為TP(自動(dòng)化技術(shù)計(jì)算機(jī)技術(shù))的946 054條讀者借閱記錄作為數(shù)據(jù)集,統(tǒng)計(jì)如表1所示。每條記錄均包含以下屬性:校園卡號(hào)、讀者姓名、院系名稱、圖書題名、圖書分類號(hào)、借閱時(shí)間。
表1 讀者特征和借閱圖書的關(guān)系規(guī)則
數(shù)據(jù)挖掘和分析工具選擇SPSS的Clementine 8.1,期待能找到讀者的背景信息與借閱行為之間的關(guān)聯(lián)規(guī)則,以及找到圖書之間的關(guān)聯(lián)規(guī)則。
3.3.1 挖掘讀者特征和借閱圖書的關(guān)聯(lián)。圖書館使用的匯文管理系統(tǒng)是一個(gè)關(guān)系型數(shù)據(jù)庫,其中包含了多種維度的借閱記錄數(shù)據(jù),每條借閱記錄除了含有借閱圖書的相關(guān)信息,還包括了和讀者相關(guān)的信息,例如借閱時(shí)間、讀者年齡、讀者性別、讀者專業(yè)等。我們把以上屬性作為謂詞,開始挖掘關(guān)聯(lián)規(guī)則,把挖掘到的含有兩個(gè)以及兩個(gè)以上謂詞的關(guān)聯(lián)規(guī)則稱為多維關(guān)聯(lián)規(guī)則[13]。我們?cè)O(shè)置最低規(guī)則支持度為0.1,最低規(guī)則置信度為0.4,獲得了186條多維規(guī)則。實(shí)驗(yàn)結(jié)果如表2所示。
通過分析表2得到如下規(guī)則:①2014屆計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)大一學(xué)生,有10.3%的讀者借閱了網(wǎng)頁設(shè)計(jì)類圖書,12.6%借閱了多媒體方向的圖書,從大二開始,計(jì)算機(jī)系對(duì)學(xué)生的根據(jù)學(xué)生的興趣方向進(jìn)行重新分班,其中就包括了網(wǎng)頁設(shè)計(jì)方向班級(jí)和圖像處理方向,從挖掘結(jié)果可以發(fā)現(xiàn)這兩類的支持度和置信度都有所提升; ②計(jì)算機(jī)專業(yè)大三開始學(xué)習(xí)計(jì)算機(jī)網(wǎng)絡(luò)相關(guān)的課程,所以,有15.2%的學(xué)生借閱了計(jì)算機(jī)網(wǎng)絡(luò)相關(guān)的書籍; ③計(jì)算機(jī)專業(yè)的男生借閱計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)用和網(wǎng)絡(luò)互聯(lián)技術(shù)的圖書占比為20.1%和20.2%,從男生更偏向于借閱此類圖書很容易聯(lián)想到男生在專業(yè)選擇和個(gè)人興趣方面的偏好,可以利用這個(gè)規(guī)則向他們提供個(gè)性化服務(wù);④計(jì)算機(jī)專業(yè)的女生借閱網(wǎng)頁設(shè)計(jì)和圖像處理類別的圖書分別占比16.8%和18.1%,女生更偏向于選擇此類專業(yè)和興趣愛好的圖書,因此,可以利用這條規(guī)則向她們提供個(gè)性化服務(wù)。
通過上面的實(shí)驗(yàn)數(shù)據(jù),我們?cè)賮砜纯匆?guī)則數(shù)與最小支持度和最小置信度之間的關(guān)系。將支持度設(shè)定為0.05、0.1、0.15、0.2,將置信度設(shè)定為0.3、0.4、0.5、0.6,得出二者之間的關(guān)系如表2所示。
表2 讀者特征和借閱圖書的關(guān)系規(guī)則
表3 最小支持度、最小置信度、規(guī)則數(shù)的6組數(shù)據(jù)的關(guān)系
從表3的結(jié)果可以得出,挖掘到有效關(guān)聯(lián)規(guī)則的數(shù)量多少取決于最小支持度和最小置信度設(shè)置的具體值大小[14]。圖書館的業(yè)務(wù)應(yīng)用系統(tǒng)中包含了海量的讀者數(shù)據(jù)可用于挖掘,但是選取合適的支持度是個(gè)難以估算的難題。因此,最小支持度和最小置信度閾值可以根據(jù)生成規(guī)則的實(shí)際數(shù)量和預(yù)置目標(biāo)進(jìn)行合理調(diào)整。在挖掘關(guān)聯(lián)規(guī)則的過程中還發(fā)現(xiàn),最小支持度對(duì)規(guī)則數(shù)的影響非常敏感。如果最小支持度大于0.2,挖掘到的關(guān)聯(lián)規(guī)則數(shù)為零[15]。
3.3.2 挖掘圖書關(guān)聯(lián)。由于我們要分析各類圖書之間的關(guān)聯(lián)規(guī)則,所以我們選擇“Apriori”模型建立規(guī)則,然后將圖書類別字段的方向選項(xiàng)設(shè)置為“兩者”(輸入和輸出字段),其他字段設(shè)置為“無”。調(diào)整算法參數(shù)設(shè)置最小支持度為0.15,最小置信度為0.45,獲得了125條關(guān)聯(lián)規(guī)則。實(shí)驗(yàn)結(jié)果如表4所示。
表4 圖書借閱關(guān)聯(lián)規(guī)則
通過以上的圖書借閱關(guān)聯(lián)規(guī)則表可以得出以下規(guī)則。
規(guī)則1:既借閱了數(shù)據(jù)庫理論和系統(tǒng)又借閱了編程語言類圖書的讀者占比為15.1%。有47.6%的讀者在借閱了數(shù)據(jù)庫理論和系統(tǒng)類圖書的前提下,又借閱了編程語言類的圖書。
規(guī)則2:既借閱了圖像處理軟件又借閱了文本處理類圖書的讀者占比為15.2%。有54.8%的讀者在借閱了圖像處理軟件類圖書的前提下,又借閱了文本信息處理類的圖書。
規(guī)則3:既借閱了機(jī)器輔助技術(shù)又借閱了圖像處理方法類圖書的讀者占比為15.6%。有65.1%的讀者在借閱了機(jī)器輔助技術(shù)類圖書的前提下,又借閱了圖像處理方法類的圖書。
規(guī)則4:既借閱了計(jì)算機(jī)網(wǎng)絡(luò)安全又借閱了網(wǎng)絡(luò)操作系統(tǒng)類圖書的讀者占比為16.3%。有54.2%的讀者在借閱了計(jì)算機(jī)網(wǎng)絡(luò)安全類圖書的前提下,又借閱了網(wǎng)絡(luò)操作系統(tǒng)類的圖書。
規(guī)則5:既借閱了軟件工程又借閱了編程語言類圖書的讀者占比為18.4%。有46.9%的讀者在借閱了軟件工程類圖書的前提下,又借閱了編程語言類的圖書。
最終,將挖掘得到的關(guān)聯(lián)規(guī)則與高校圖書館實(shí)際工作以及讀者借閱情況的調(diào)研結(jié)果進(jìn)行了比較,發(fā)現(xiàn)二者非常相似,表明以上挖掘到的結(jié)果是真實(shí)可用的。無論如何,由于相對(duì)于全校學(xué)生來說,計(jì)算機(jī)系的學(xué)生數(shù)量較小,大多數(shù)學(xué)生借閱的圖書都是和本專業(yè)相關(guān)的,圖書館的藏書量是有限的,圖書更新期較長,這也會(huì)產(chǎn)生一些影響,導(dǎo)致挖掘出的關(guān)聯(lián)規(guī)則有一定的局限性。
個(gè)性化推薦服務(wù)是高校圖書館智慧服務(wù)建設(shè)中的關(guān)鍵內(nèi)容。筆者探討了在高校智慧圖書館的個(gè)性化信息服務(wù)中利用數(shù)據(jù)挖掘的相關(guān)技術(shù)來獲得關(guān)聯(lián)規(guī)則的案例,然后,將關(guān)聯(lián)規(guī)則應(yīng)用到圖書的智能查詢和個(gè)性化信息推送中去。①介紹了數(shù)據(jù)挖掘技術(shù)的相關(guān)概念,并以此為基礎(chǔ),研究了如何利用圖書館管理信息系統(tǒng)數(shù)據(jù)中的數(shù)據(jù),利用Apriori算法來挖掘借閱記錄等數(shù)據(jù),發(fā)現(xiàn)讀者對(duì)借閱文檔的相關(guān)性。發(fā)現(xiàn)如下規(guī)律:不同類型的圖書有不同類型的讀者。借閱的規(guī)律性是存在的,不同學(xué)科之間具有某種關(guān)聯(lián)等等。通過挖掘這些數(shù)據(jù)間的關(guān)系,圖書館員可以購買提供服務(wù)信息的圖書,有利于圖書館合理配置館藏資源,改善資源利用率,促進(jìn)圖書管理的良性循環(huán)。②以圖書管理系統(tǒng)為例,介紹了高校智慧圖書館個(gè)性化服務(wù)系統(tǒng)的結(jié)構(gòu)和業(yè)務(wù)流程。③介紹了Apriori算法并利用改進(jìn)的Apriori算法對(duì)圖書館數(shù)據(jù)庫中的借閱記錄等數(shù)據(jù)進(jìn)行挖掘。通過挖掘發(fā)現(xiàn),讀者借閱記錄存在某種關(guān)聯(lián),不同類型讀者的借閱記錄具有某種規(guī)則,不同學(xué)科也有某種關(guān)聯(lián)。通過分析借閱記錄中讀者和圖書的關(guān)系,發(fā)現(xiàn)這些數(shù)據(jù)間的關(guān)系,為圖書館管理員提供參考,有利于館藏資源的合理分配、提高資源利用率。同時(shí),也為該方面的其他應(yīng)用研究提供了一些思路。