摘要:為探討數(shù)據(jù)挖掘技術(shù)在高校圖書館個(gè)性化服務(wù)中的應(yīng)用,提高圖書館服務(wù)的針對(duì)性、主動(dòng)性、高效性,文章采用文獻(xiàn)分析法梳理研究思路,了解高校圖書館個(gè)性化服務(wù)中數(shù)據(jù)挖掘技術(shù)的應(yīng)用思路及具體技術(shù)并結(jié)合文獻(xiàn)梳理結(jié)果、工作實(shí)踐提出數(shù)據(jù)挖掘技術(shù)的應(yīng)用過程。研究結(jié)果表明:文章提出的高校圖書館個(gè)性化服務(wù)中的數(shù)據(jù)挖掘技術(shù)可向讀者推薦合適的圖書文獻(xiàn)信息并進(jìn)一步收集讀者的個(gè)人數(shù)據(jù)、借閱行為數(shù)據(jù)、檢索數(shù)據(jù)等,通過構(gòu)建關(guān)聯(lián)模型達(dá)到了提高讀者服務(wù)針對(duì)性、高效性的目的。
關(guān)鍵詞:高校圖書館;數(shù)據(jù)挖掘;個(gè)性化服務(wù)
中圖分類號(hào):TP311
文獻(xiàn)標(biāo)志碼:A
0 引言
隨著信息技術(shù)的不斷發(fā)展,高校的圖書館資源也越來(lái)越豐富。在海量的圖書資源中,如何讓用戶找到自己想看的書并將適合的書推薦給適合的讀者,是擺在高校圖書館面前的一個(gè)重要課題。高校圖書館利用數(shù)據(jù)挖掘技術(shù)可以分析讀者借閱行為背后的基本規(guī)律,根據(jù)讀者的喜好、實(shí)際需要提供個(gè)性化的推薦服務(wù),提高了圖書館服務(wù)的主動(dòng)性、針對(duì)性。
1 高校圖書館個(gè)性化服務(wù)技術(shù)思路
高校圖書館的服務(wù)對(duì)象是校內(nèi)的廣大師生,除了要提供常規(guī)的圖書借閱服務(wù)外,還須要針對(duì)師生的學(xué)術(shù)研究、日常工作與學(xué)習(xí)為師生提供更專業(yè)的文獻(xiàn)咨詢等服務(wù),這就需要高校圖書館的服務(wù)更具準(zhǔn)確性、專業(yè)性,能夠分析不同類型讀者的需求、使用行為、興趣特點(diǎn)等,主動(dòng)并精準(zhǔn)地向用戶推送文獻(xiàn)資料,提供更專業(yè)、更主動(dòng)、更精細(xì)的服務(wù)。傳統(tǒng)的圖書館個(gè)性化服務(wù)無(wú)法發(fā)現(xiàn)大數(shù)據(jù)下隱藏的價(jià)值信息,而信息技術(shù)的發(fā)展破解了這一難題。數(shù)據(jù)挖掘技術(shù)的應(yīng)用可揭示數(shù)據(jù)信息之間的相互關(guān)系;大數(shù)據(jù)技術(shù)的應(yīng)用可對(duì)數(shù)據(jù)信息進(jìn)行分析、檢索、加工,精準(zhǔn)地向用戶推送圖書信息;數(shù)據(jù)挖掘過程中會(huì)攜帶大量的其他信息,信息過濾技術(shù)可以過濾掉不必要的信息,留下能夠滿足用戶需求的少數(shù)關(guān)鍵信息,以提高個(gè)性化服務(wù)的準(zhǔn)確性、高效性。圖書館個(gè)性化服務(wù)還須要通過人工智能技術(shù)將自動(dòng)化與計(jì)算機(jī)技術(shù)聯(lián)系起來(lái),通過深度學(xué)習(xí)分析用戶的個(gè)性化需求,提高圖書館信息檢索效率,拓展圖書館服務(wù)范圍[1]。在高校圖書館個(gè)性化服務(wù)中,數(shù)據(jù)挖掘技術(shù)起到關(guān)鍵作用,基本步驟主要包括數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、結(jié)果評(píng)價(jià)3個(gè)部分,具體如圖1所示。
不同領(lǐng)域需要分析的問題不同,所采用的數(shù)據(jù)挖掘技術(shù)也有所不同。數(shù)據(jù)挖掘的步驟并非一成不變,所分析數(shù)據(jù)的完整度、數(shù)據(jù)分析人員的專業(yè)能力等也會(huì)對(duì)數(shù)據(jù)挖掘的具體步驟產(chǎn)生影響。
2 常用數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘過程中常用的技術(shù)包括聚類分析、協(xié)同過濾算法、FP-growth算法、關(guān)聯(lián)分析技術(shù)、爬蟲技術(shù)等。
2.1 聚類分析
數(shù)據(jù)挖掘過程中,聚類分析技術(shù)自動(dòng)尋找、建立分組規(guī)則的方法,判斷樣本之間的相似性,將相似樣本劃分在一個(gè)簇中,實(shí)現(xiàn)為有借閱行為的讀者推薦圖書的功能。很多高?,F(xiàn)有的圖書管理系統(tǒng)并不具備為讀者提供主動(dòng)服務(wù)的功能,聚類分析技術(shù)可以以讀者的借閱情況為簇中心點(diǎn),分析讀者的閱讀傾向、閱讀習(xí)慣。在聚類分析過程中,系統(tǒng)會(huì)設(shè)定最小相似度閾值,若收集到的借閱數(shù)據(jù)滿足該閾值,系統(tǒng)判斷這些借閱數(shù)據(jù)歸屬于同一個(gè)簇,再根據(jù)聚類分類結(jié)果向讀者精準(zhǔn)推薦圖書?;蛘咭阅愁悎D書為簇中心點(diǎn)進(jìn)行聚類分析,分析借閱該類圖書借閱者的讀者類型、偏好,針對(duì)性地向讀者推薦圖書。
2.2 協(xié)同過濾算法
協(xié)同過濾算法的中心思想是利用用戶之間、用品之間的相似性發(fā)現(xiàn)用戶可能的喜好、偏向,可用于向沒有借閱行為的讀者推薦圖書[2]。協(xié)同過濾算法根據(jù)用戶的興趣愛好將不同的用戶劃分為不同群組,比如低年級(jí)新生在圖書館中沒有借閱記錄,就可分析與其專業(yè)屬性相同的高年級(jí)學(xué)生的借閱行為,以同專業(yè)、高年級(jí)學(xué)生的借閱資料為參考向新生推薦圖書。
2.3 FP-growth算法
FP-growth算法主要通過構(gòu)造FP樹的數(shù)據(jù)結(jié)構(gòu),將數(shù)據(jù)存儲(chǔ)于FP樹中。該算法雖然屬于關(guān)聯(lián)分析的范疇,但是更高效、更經(jīng)典,只須掃描2次數(shù)據(jù)庫(kù)即可將計(jì)算機(jī)數(shù)據(jù)的關(guān)聯(lián)規(guī)則、頻繁項(xiàng)集高效計(jì)算出來(lái)。數(shù)據(jù)挖掘過程中,F(xiàn)P-growth算法利用篩選好的數(shù)據(jù)找出以搜索目標(biāo)為后綴的頻繁項(xiàng)集,讀者在利用圖書管理系統(tǒng)的搜索功能時(shí),系統(tǒng)就會(huì)將該頻繁項(xiàng)集反饋至讀者搜索頁(yè)面,以提高讀者搜索的精確性[3]。
2.4 關(guān)聯(lián)技術(shù)
圖書館在個(gè)性化服務(wù)中,可應(yīng)用關(guān)聯(lián)技術(shù)分析讀者專業(yè)背景與圖書借閱類別、數(shù)量的關(guān)系。在高校學(xué)生評(píng)價(jià)體系中,績(jī)點(diǎn)、平均分等指標(biāo)可體現(xiàn)學(xué)生的學(xué)習(xí)能力、學(xué)習(xí)態(tài)度。關(guān)聯(lián)技術(shù)可分析某個(gè)年級(jí)學(xué)生的成績(jī)數(shù)據(jù),再分析學(xué)生對(duì)應(yīng)的圖書借閱情況,即可得到學(xué)生績(jī)點(diǎn)與圖書類別、數(shù)量之間的關(guān)系。關(guān)聯(lián)規(guī)則主要是通過相關(guān)數(shù)據(jù)得到聚類結(jié)果,發(fā)現(xiàn)有序列模式關(guān)聯(lián)性的圖書書目,圖書管理員在設(shè)置圖書最大借閱天數(shù)、最大借閱圖書數(shù)量時(shí),可根據(jù)讀者的實(shí)際情況進(jìn)行個(gè)性化設(shè)置。
2.5 爬蟲技術(shù)
爬蟲技術(shù)主要是通過爬蟲程序?qū)崟r(shí)捉取相關(guān)書籍的基本信息,比如從豆瓣網(wǎng)捉取書籍的評(píng)論,從購(gòu)書網(wǎng)站捉取對(duì)應(yīng)圖書的價(jià)格等。該技術(shù)既能夠簡(jiǎn)化系統(tǒng)搜集信息的流程,又能夠降低讀者搜索的時(shí)間成本[4]。
3 數(shù)據(jù)挖掘技術(shù)在高校圖書館個(gè)性化服務(wù)中的具體應(yīng)用
高校圖書館個(gè)性化服務(wù)中,數(shù)據(jù)挖掘技術(shù)應(yīng)用的關(guān)鍵步驟主要包括以下幾個(gè)方面:
3.1 數(shù)據(jù)資源的獲取與處理
數(shù)據(jù)挖掘技術(shù)主要包括3個(gè)步驟,即數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘及結(jié)果評(píng)價(jià)。數(shù)據(jù)準(zhǔn)備階段須要獲取數(shù)據(jù)資源,然后對(duì)數(shù)據(jù)資源進(jìn)行優(yōu)質(zhì)化處理,清查冗余數(shù)據(jù),將不同格式的數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一格式并進(jìn)行集成化處理,以保證后續(xù)數(shù)據(jù)挖掘順利進(jìn)行。在高校圖書館服務(wù)過程中,原始數(shù)據(jù)資源主要來(lái)自圖書館本身館藏?cái)?shù)據(jù)、讀者的基本信息以及讀者通過圖書館借閱系統(tǒng)產(chǎn)生的行為數(shù)據(jù)等。館藏?cái)?shù)據(jù)主要包括圖書館的屬性信息、讀者信息除基本信息外,還包括借閱記錄、其他聚類分析數(shù)據(jù)等;借閱數(shù)據(jù)主要來(lái)自系統(tǒng)借閱業(yè)務(wù)數(shù)據(jù)庫(kù)等。館藏?cái)?shù)據(jù)、讀者數(shù)據(jù)、借閱數(shù)據(jù)是利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)個(gè)性化服務(wù)的基礎(chǔ)。圖書館獲取相關(guān)數(shù)據(jù)資源后,即對(duì)數(shù)據(jù)進(jìn)行空值數(shù)據(jù)處置、噪聲數(shù)據(jù)過濾等預(yù)處理,比如針對(duì)每本圖書設(shè)置獨(dú)立索引、補(bǔ)全讀者信息中的空白項(xiàng)等[5]。無(wú)法補(bǔ)全的或者重復(fù)的信息須要及時(shí)清除,以提高后續(xù)數(shù)據(jù)挖掘效率。預(yù)處理后的數(shù)據(jù)要進(jìn)行統(tǒng)一的格式轉(zhuǎn)換、數(shù)據(jù)集成,最終生成讀者基礎(chǔ)數(shù)據(jù)表、圖書信息基礎(chǔ)數(shù)據(jù)表、讀者借閱行為數(shù)據(jù)表等,為后續(xù)的數(shù)據(jù)挖掘打好基礎(chǔ)[6]。
3.2 數(shù)據(jù)挖掘過程
上述數(shù)據(jù)資源清理干凈后,即對(duì)處理好的數(shù)據(jù)進(jìn)行挖掘,主要包括以下2個(gè)部分。
3.2.1 讀者信息挖掘
讀者信息挖掘的主要步驟包括以下幾個(gè)方面:首先,設(shè)置聚類個(gè)數(shù)。采用聚類算法挖掘讀者的借閱信息,先對(duì)數(shù)據(jù)源進(jìn)行聚類解析,獲取讀者閱讀信息后,再利用K-means算法對(duì)讀者基礎(chǔ)數(shù)據(jù)表、讀者借閱行為數(shù)據(jù)表、圖書信息基礎(chǔ)數(shù)據(jù)表中的數(shù)據(jù)進(jìn)行聚類、挖掘。高校圖書館讀者可分為3種類型:活躍型、普通型和其他類型?;钴S型即借閱頻次較高,涉獵圖書范圍較廣的讀者;普通型則是借閱頻次及涉獵圖書范圍一般的讀者;其他類型則指能夠被圖書管理系統(tǒng)獲取信息較少的讀者。根據(jù)讀者類型,本研究將聚類k值設(shè)置為3并采用歐氏距離計(jì)算讀者信息與所屬分類的歐氏距離。歐氏距離計(jì)算公式如下[7]:
式中,x1、x2為2個(gè)陳述屬性,d(x1,x2)即二者之間的歐氏距離;x1k表示對(duì)應(yīng)x1的詳細(xì)選值,x2k表示對(duì)應(yīng)x2的詳細(xì)選值。根據(jù)該公式可計(jì)算出圖書館讀者信息與所屬分類的歐氏距離,基于聚類相關(guān)結(jié)構(gòu)重新設(shè)定k個(gè)簇,再利用誤差平方和評(píng)價(jià)簇子集的聚類特性。假設(shè)某個(gè)數(shù)據(jù)集中k個(gè)簇的子集分別為各個(gè)簇對(duì)應(yīng)的樣本數(shù)據(jù),可用下式計(jì)算該簇子集的誤差平方和[8]:
式中,p為簇個(gè)數(shù),m為簇樣本數(shù),E為誤差平方和。首先,按照新的中心將數(shù)據(jù)集中所有元素重新完成聚類,如計(jì)算出的誤差平方和未發(fā)生明顯變化,說(shuō)明聚類、收斂已完成。
其次,準(zhǔn)則函數(shù)是否收斂判斷完成后分類存儲(chǔ)讀者信息并可視化地展示出來(lái)。最后,設(shè)置讀者聚類挖掘行為有效值為k,k值會(huì)對(duì)讀者信息聚類效果產(chǎn)生直接影響,如k值選擇過小,聚類后簇族覆蓋范圍過大,不僅會(huì)影響挖掘效率,而且會(huì)影響挖掘結(jié)果;如k值選擇過大,則簇族覆蓋范圍過小,會(huì)由于聚類數(shù)據(jù)過于分散無(wú)法獲取關(guān)聯(lián)性較強(qiáng)的數(shù)值。一般情況下完成k的初步賦值后,須要對(duì)其進(jìn)行持續(xù)調(diào)節(jié)、優(yōu)化,獲得一個(gè)簇間距較小的有效區(qū)間,k值從該區(qū)間選擇。
3.2.2 讀者借閱信息挖掘
挖掘讀者借閱信息的主要目的是通過分析讀者的閱讀行為規(guī)律提高讀者與圖書的關(guān)聯(lián)度。系統(tǒng)可根據(jù)借閱信息設(shè)置借閱行為信度、支持度有效閾值等指標(biāo)。實(shí)際挖掘過程中,首先,將讀者借閱信息數(shù)據(jù)庫(kù)中的借閱記錄作為項(xiàng)數(shù)集合,通過項(xiàng)數(shù)集合可以分析讀者與圖書的關(guān)聯(lián)度;其次,分析讀者借閱信息行為支持度、有效置信度、行為提升潛在空間等變量參數(shù),挖掘讀者信息處理過程中的關(guān)聯(lián)規(guī)則并通過迭代優(yōu)化關(guān)聯(lián)規(guī)則,實(shí)現(xiàn)信息強(qiáng)關(guān)聯(lián)處理;最后,設(shè)置項(xiàng)集并集中展示關(guān)聯(lián)信息,無(wú)關(guān)信息須手動(dòng)篩查后清除,優(yōu)化挖掘成果[9]。
3.3 結(jié)果評(píng)價(jià)
上述數(shù)據(jù)挖掘步驟完成后即可實(shí)現(xiàn)高校圖書館的個(gè)性化服務(wù),既能夠?yàn)樽x者推薦合適的圖書文獻(xiàn)信息,又能夠幫助讀者檢索到相似度更高的信息。在此過程中,圖書館進(jìn)一步收集讀者的個(gè)人數(shù)據(jù)、借閱行為數(shù)據(jù)、檢索數(shù)據(jù)等,構(gòu)建關(guān)聯(lián)模型,提高讀者服務(wù)的針對(duì)性、高效性[10]。本研究中高校圖書館應(yīng)用數(shù)據(jù)挖掘技術(shù)獲得了更好的個(gè)性化服務(wù)效果,提高了圖書信息資源利用率。圖書館利用數(shù)據(jù)挖掘技術(shù)可分析讀者的借閱行為,比如選擇某高校碩士研究生的借閱圖書數(shù)據(jù),可分析現(xiàn)行圖書管理系統(tǒng)中所設(shè)定的研究生借閱權(quán)限是否滿足讀者需求,借閱冊(cè)數(shù)、借閱期限等是否合理。通過比較分析某個(gè)時(shí)間段內(nèi)碩士研究生讀者借閱冊(cè)數(shù)、續(xù)借本次、過期本次、預(yù)約本次、借閱本次數(shù)據(jù)比等可知,該校的50位碩士研究生中有借閱行為者49人,其中無(wú)續(xù)借、無(wú)過期記錄者7人,有續(xù)借無(wú)過期記錄者15人,有續(xù)借、有過期記錄者28人,無(wú)續(xù)借有過期記錄者2人。其中,有續(xù)借、有過期記錄者占比最高,說(shuō)明該高校的圖書借閱期限時(shí)間設(shè)置過短,無(wú)法滿足碩士研究生的借閱需求,因此,圖書館須要優(yōu)化圖書管理制度。此外,數(shù)據(jù)挖掘技術(shù)也提高了圖書采購(gòu)資金的使用效率。高校圖書館須要根據(jù)校內(nèi)師生的研究課題、項(xiàng)目采購(gòu)所需圖書資料,以提高圖書館文獻(xiàn)咨詢服務(wù)的全面性、針對(duì)性、有效性,因此,圖書館可利用數(shù)據(jù)挖掘技術(shù)提高圖書采購(gòu)資金的使用效率。在讀者借閱行為數(shù)據(jù)中,通過分析讀者的預(yù)約行為了解其對(duì)圖書資料需求的迫切程度,因此,圖書館可通過分析讀者的預(yù)約數(shù)據(jù)了解須要采購(gòu)的圖書類型。仍以上述高校為例,通過數(shù)據(jù)挖掘可知,該校50名研究生對(duì)工具類圖書的需求最大,其次為業(yè)余愛好類圖書,針對(duì)考試類圖書的需求反而最小,因此,圖書館采購(gòu)圖書時(shí)可提高工具類圖書的采購(gòu)比例,擴(kuò)大這類圖書的復(fù)本數(shù)。
4 結(jié)語(yǔ)
總之,數(shù)據(jù)挖掘技術(shù)將龐大數(shù)據(jù)中隱含的、有潛在價(jià)值的數(shù)據(jù)挖掘出來(lái),經(jīng)過總結(jié)、歸納、梳理得到概念化的結(jié)果,利用這一概念化結(jié)果可以表達(dá)數(shù)據(jù)庫(kù)海量數(shù)據(jù)之間的某種聯(lián)系,最終獲得更多更有價(jià)值的信息。因此,將數(shù)據(jù)挖掘技術(shù)應(yīng)用于高校圖書館,可向讀者提供個(gè)性化的推薦服務(wù),提高圖書館服務(wù)質(zhì)量。
參考文獻(xiàn)
[1]黃茂漢,邱瑾.基于區(qū)塊鏈技術(shù)的高校圖書館科學(xué)數(shù)據(jù)管理模型研究[J].圖書館工作與研究,2022(8):53-62.
[2]刁羽,薛紅.高校圖書館典型用戶群體電子資源行為數(shù)據(jù)分析實(shí)證研究:基于創(chuàng)文圖書館電子資源綜合管理與利用系統(tǒng)[J].新世紀(jì)圖書館,2022(7):59-64,71.
[3]陸穎,胡佳琪,史繼強(qiáng),等.面向科研數(shù)據(jù)管理的高校圖書館學(xué)科服務(wù)研究[J].圖書館工作與研究2021(3):41-48.
[4]劉敏.“雙一流”高校圖書館科學(xué)數(shù)據(jù)服務(wù)現(xiàn)狀及優(yōu)化策略[J].圖書館工作與研究,2020(11):15-24.
[5]王麗君,路一平.基于數(shù)據(jù)挖掘技術(shù)的數(shù)字圖書館交互服務(wù)系統(tǒng)開發(fā)研究[J].信息技術(shù)與信息化,2023(4):35-38.
[6]陳書光,何艷紅,封旭.面向數(shù)據(jù)挖掘的圖書館用戶引導(dǎo)技術(shù)研究[J].廣西民族大學(xué)學(xué)報(bào)(自然科學(xué)版),2020(3):87-90.
[7]王慧娜.數(shù)字圖書館個(gè)性化交互服務(wù)行為信息挖掘系統(tǒng)設(shè)計(jì)[J].現(xiàn)代電子技術(shù),2020(10):153-155,159.
[8]唐玖江,榮維東,薛相鋒.青少年課外閱讀推薦書目研究:基于中小學(xué)語(yǔ)文課程標(biāo)準(zhǔn)實(shí)施視角[J].圖書館雜志,2020(5):64-74.
[9]王會(huì)玲.高校圖書館閱讀書目推薦淺析:以武漢工程科技學(xué)院圖書館為例[J].河南圖書館學(xué)刊,2021(10):80-82.
[10]程全.基于情景感知的智慧圖書館閱讀推薦服務(wù)模型構(gòu)建與優(yōu)化策略[J].圖書館工作與研究,2021(10):119-128.
(編輯 王雪芬)
Application of data mining technology in the personalized service of university library
HU Dongyang
(Zhengzhou Institute of Industrial Application Technology, Xinzheng 451100, China)
Abstract:In order to explore the application of data mining technology in personalized services of university libraries, improve the pertinence, initiative, and efficiency of library services, this article uses literature analysis to sort out the research ideas, understand the application ideas and specific technologies of data mining technology in personalized services of university libraries, and propose the application process of data mining technology based on the results of literature review and work practice. The research results indicate that the data mining technology proposed in the article for personalized services in university libraries can recommend suitable book and literature information to readers and further collect readers’ personal data, borrowing behavior data, retrieval data, etc. By constructing an association model, the goal of improving the pertinence and efficiency of reader services can be achieved.
Key words:university library; data mining; personalized service