徐 瑩
(南京中醫(yī)藥大學(xué)翰林學(xué)院,江蘇 南京 225300)
隨著網(wǎng)絡(luò)信息技術(shù)的快速發(fā)展,現(xiàn)代圖書館朝著數(shù)字化、智能化方向發(fā)展,計(jì)算機(jī)技術(shù)在圖書館工作中的應(yīng)用,大大提高了工作效率與水平?,F(xiàn)階段,圖書館軟硬件設(shè)備持續(xù)完善,圖書館內(nèi)涵建設(shè)是圖書館發(fā)展建設(shè)中的熱點(diǎn)問題,個(gè)性化服務(wù)也是圖書館未來發(fā)展目標(biāo),而數(shù)據(jù)挖掘在圖書館個(gè)性化服務(wù)中發(fā)揮著不可替代的作用。接下來,談?wù)剬?duì)數(shù)據(jù)挖掘在圖書館個(gè)性化服務(wù)中應(yīng)用的幾點(diǎn)思考[1]。
數(shù)據(jù)挖掘技術(shù)是從海量隨機(jī)產(chǎn)生、模糊、不完善且有噪聲的數(shù)據(jù)中提出產(chǎn)生的,所提取的數(shù)據(jù)的潛力大、被理解接受、且新穎。利用數(shù)據(jù)挖掘技術(shù)對(duì)這些數(shù)據(jù)進(jìn)行抽取、分析與轉(zhuǎn)化處理,并從中篩選出能夠幫助決策的核心數(shù)據(jù)[2]。數(shù)據(jù)挖掘分為:(1)數(shù)值數(shù)據(jù)挖掘。具有預(yù)測(cè)和描述兩種任務(wù)。簡(jiǎn)單點(diǎn)說,挖掘功能涵蓋了發(fā)現(xiàn)概念類描述,分類、關(guān)聯(lián)、聚類、預(yù)測(cè)、類似性分析、偏差分析以及趨勢(shì)分析。(2)基于Web的數(shù)據(jù)挖掘。Web數(shù)據(jù)挖掘,具體來說就是針對(duì)Web頁面結(jié)構(gòu)、Web頁面內(nèi)容、電子商務(wù)信息、用戶訪問信息等數(shù)據(jù),技術(shù)人員通過數(shù)據(jù)挖掘方法來篩選出用用信息,進(jìn)而能夠完善站點(diǎn)設(shè)計(jì),提高電子商務(wù)質(zhì)量與水平。(3)文本數(shù)據(jù)挖掘。是基于文本信息進(jìn)行的數(shù)據(jù)挖掘。如果數(shù)據(jù)挖掘的目標(biāo)群眾全部都是文本類型構(gòu)成的,于是,運(yùn)用信息檢索以及數(shù)據(jù)挖掘算法,針對(duì)海量的文本信息實(shí)施自動(dòng)化信息分析和處理的過程,就是文本數(shù)據(jù)的挖掘過程。
從目前的圖書館建設(shè)來看,個(gè)性化推薦服務(wù)能夠?yàn)橛脩籼峁﹥?yōu)質(zhì)高效、針對(duì)性強(qiáng)的建議,為用戶根據(jù)自身需求選擇專利、文獻(xiàn)、圖書等資料提供輔助決策服務(wù)。如,在推薦圖書時(shí),推薦熱點(diǎn)書籍的技術(shù)難度系數(shù)很低,用戶轉(zhuǎn)化率較差,因此,應(yīng)提供個(gè)性化推薦。具體來說,國(guó)內(nèi)外有關(guān)個(gè)性化推薦的研究很多,而精確度是衡量推薦系統(tǒng)的核心指標(biāo)之一,關(guān)注度強(qiáng)。然而,如果只單純考慮精確度是不行的,良好的推薦結(jié)果同時(shí)還具備驚喜性、新穎性。如,學(xué)生想要從圖書館借閱《藝術(shù)鑒賞概論》,不管有沒有人推薦,他都會(huì)去借閱,推薦《藝術(shù)鑒賞概論》書籍的結(jié)果只是推薦了一本學(xué)生已經(jīng)準(zhǔn)備好借的書,毫無驚喜性、新穎性。所以,圖書館個(gè)性化服務(wù)不但需科學(xué)預(yù)測(cè)用戶的行為,更要具備開闊學(xué)生眼界、挖掘符合學(xué)生興趣的其他書籍文獻(xiàn)[3]。
文獻(xiàn)檢索是現(xiàn)代圖書館所提供的核心服務(wù)之一。檢索又分為精確檢索、模糊檢索兩種。在精確檢索時(shí),明確需要知道自己需要借的圖書的基本信息,而模糊檢索無須用戶掌握書籍名稱、作者姓名等具體信息,只需要對(duì)自己有用即可。檢索和推薦的共同點(diǎn)就在于他們都是用戶用于查找信息的一個(gè)工具,因此,它們需要處理的數(shù)據(jù)、反饋給用戶的信息的性質(zhì)都是相同的。但二者也存在較大的不同。推薦是滿足用戶需要的驚喜、新穎,檢索要的是精確、精準(zhǔn)。如,在圖書館檢索工具中輸入“高等數(shù)學(xué)”3個(gè)字時(shí),可見用戶需要找的是與高等數(shù)學(xué)有關(guān)的書籍,除了精準(zhǔn)性要求外,檢索還應(yīng)對(duì)檢索結(jié)果進(jìn)行排序。如,“高等數(shù)學(xué)”是大學(xué)數(shù)學(xué)專業(yè)核心課程,教材也有很多,用戶在檢索時(shí)輸入“高等數(shù)學(xué)”,返回檢索結(jié)果能夠根據(jù)用戶實(shí)際情況進(jìn)行排序。針對(duì)學(xué)生,可將基礎(chǔ)教材放在前排;針對(duì)專業(yè)教師,可將高級(jí)教材放在前排。隨著大數(shù)據(jù)技術(shù)的應(yīng)用,相比推薦,檢索的精確性要求更高,且圖書館的高級(jí)檢索功能也要進(jìn)行個(gè)性化。
文獻(xiàn)推送是當(dāng)下圖書館提供的又一個(gè)性化服務(wù),旨在通過現(xiàn)代技術(shù)推送給用戶他們可能感興趣、可能需要的信息,進(jìn)而提供個(gè)性化、自動(dòng)化服務(wù),為用戶提供良好的服務(wù)。推送系統(tǒng)時(shí)鐘秉承以用戶為中心的原則,調(diào)動(dòng)用戶借書積極性,并充分發(fā)揮各種文獻(xiàn)資源優(yōu)勢(shì)。要想發(fā)揮文獻(xiàn)推薦功能、檢索功能,需要為用戶建立檔案或者畫像,進(jìn)而能夠根據(jù)用戶的喜好、偏好來提供個(gè)性化推薦與檢索服務(wù)。從本質(zhì)上來看,文獻(xiàn)推薦和檢索都是推送的一部分,所以,圖書館個(gè)性化推薦和檢索的一些高級(jí)技術(shù)也同樣適用于推送系統(tǒng)。目前來看,推送系統(tǒng)需要開辟更多途徑,如,利用郵件、手機(jī)向用戶推送他們可能感興趣的文獻(xiàn)資料,但需要利用用戶畫像或者檔案來實(shí)現(xiàn)推送功能的實(shí)現(xiàn)。
第一,以內(nèi)容為基礎(chǔ)的推薦算法。具體來說,就是結(jié)合不同文獻(xiàn)間的相似性為用戶推薦,先利用數(shù)據(jù)挖掘技術(shù)對(duì)用戶已經(jīng)打分的文獻(xiàn)內(nèi)容進(jìn)行分析,并建檔,再?gòu)暮A课墨I(xiàn)中篩選出與用戶檔案記載相似的文獻(xiàn),并根據(jù)相關(guān)內(nèi)容篩選出一些滿足要求的文獻(xiàn)推薦給用戶。
第二,以關(guān)聯(lián)規(guī)則為基礎(chǔ)的推薦算法。當(dāng)下,關(guān)聯(lián)規(guī)則是運(yùn)用十分廣泛、頻繁的一種推薦技術(shù),關(guān)聯(lián)規(guī)則自身也是數(shù)據(jù)挖掘領(lǐng)域的核心技術(shù)之一。目前來看,關(guān)聯(lián)規(guī)則在零售行業(yè)購(gòu)物籃分析案例最為成功。將關(guān)聯(lián)規(guī)則運(yùn)用到圖書館個(gè)性化服務(wù)中,有利于分析用戶使用文獻(xiàn)間的聯(lián)系,并找到使用最頻繁的文獻(xiàn),進(jìn)而讓系統(tǒng)能夠在用戶瀏覽或者下載時(shí)向他們推薦更多有效的文獻(xiàn)。以關(guān)聯(lián)規(guī)則為基礎(chǔ)的推薦算法在運(yùn)用時(shí)主要是結(jié)合用戶的文獻(xiàn)使用數(shù)據(jù)來形成關(guān)聯(lián)規(guī)則,然后根據(jù)用戶當(dāng)下的查閱或者瀏覽情況進(jìn)行有針對(duì)性的推薦。如果用戶的文獻(xiàn)使用數(shù)據(jù)最終變成大數(shù)據(jù),那么要利用基于大數(shù)據(jù)分析的關(guān)聯(lián)規(guī)則重新挖掘有效算法。
第三,混合推薦算法。這種算法是統(tǒng)籌各種推薦技術(shù)形成的推薦成果,為用戶提供有針對(duì)性的推薦列表。有效消除了傳統(tǒng)單一推薦技術(shù)的弊端,充分發(fā)揮不同推薦技術(shù)的優(yōu)勢(shì),弱化它們的短處。模型加權(quán)融合、模型級(jí)聯(lián)融合是當(dāng)下最有效的推薦模型融合手段。其中,模型加權(quán)融合中,線性融合除外,剩下的算法都能夠用在模型融合中。
第四,協(xié)同過濾推薦算法。首先,以物品為基礎(chǔ)的協(xié)同過濾推薦。具體來說,就是利用不同物品間的相似度來做推薦預(yù)測(cè),在圖書館個(gè)性化服務(wù)過程中,主要通過對(duì)目標(biāo)用戶已經(jīng)評(píng)價(jià)和待評(píng)價(jià)文獻(xiàn)之間的相似度進(jìn)行有效計(jì)算,進(jìn)而得出待評(píng)價(jià)文獻(xiàn)的評(píng)價(jià)預(yù)測(cè)結(jié)果。其次,以用戶為基礎(chǔ)的協(xié)同過濾推薦。具體來說,基于用戶集中對(duì)文獻(xiàn)的評(píng)價(jià)日志來計(jì)算用戶間的相似度,基于相似度分?jǐn)?shù)的多少,選出相似度最高的多個(gè)鄰居用戶,并根據(jù)這些鄰居用戶的興趣愛好來給目標(biāo)用戶推薦。通過聚類挖掘能夠增加推薦結(jié)果的驚喜性,聚類能夠把物理、抽象對(duì)象集合分為由類似對(duì)象構(gòu)成的多個(gè)類。聚類算法產(chǎn)生的簇其實(shí)是一組數(shù)據(jù)對(duì)象的集合,相同簇中的對(duì)象存在明顯的相似點(diǎn),這與其他簇中的對(duì)象存在顯著差異。目前來看,網(wǎng)格聚類、密度聚類、劃分聚類等是當(dāng)下運(yùn)用最頻繁的聚類算法,有利于提高數(shù)據(jù)挖掘質(zhì)量與水平,提高推薦結(jié)果的驚喜性、新穎性。再者,以模型為基礎(chǔ)的協(xié)同過濾推薦。即以學(xué)習(xí)用戶的歷史圖書文獻(xiàn)評(píng)價(jià)信息來建立用戶模型,并基于此做好圖書評(píng)價(jià)預(yù)測(cè)工作。大數(shù)據(jù)技術(shù)下,多利用人工神經(jīng)網(wǎng)絡(luò)、概率模型來完成以模型為基礎(chǔ)的協(xié)同過濾過程,并利用數(shù)據(jù)挖掘算法來對(duì)歷史數(shù)據(jù)模型進(jìn)行懸鏈,并基于此向用戶推薦文獻(xiàn)資料。
大數(shù)據(jù)時(shí)代,圖書館個(gè)性化服務(wù),不僅要注重個(gè)性化推薦,也不可忽視個(gè)性化檢索與推送環(huán)節(jié)。在個(gè)性化檢索過程中,首先要利用數(shù)據(jù)挖掘技術(shù)來提高排序算法、鏈接分析的精確性,如,利用數(shù)據(jù)挖掘來對(duì)用戶查詢進(jìn)行分類。其次,在個(gè)性化推送過程中,多利用聚類對(duì)用戶進(jìn)行分組,并深入分析不同組別的特點(diǎn),進(jìn)而為不同組別的用戶有針對(duì)性地推薦文獻(xiàn)資料,提高用戶圖書館服務(wù)體驗(yàn),獲得自己需要的文獻(xiàn)資料。
綜上所述,隨著現(xiàn)代科技的發(fā)展,尤其是數(shù)據(jù)挖掘技術(shù)、數(shù)據(jù)庫(kù)技術(shù)等在圖書館建設(shè)中的應(yīng)用,對(duì)圖書館發(fā)展觀念的革新、用戶服務(wù)模式的優(yōu)化等產(chǎn)生巨大的推動(dòng)作用?;诖?,在圖書館數(shù)字化、智能化建設(shè)過程中,工作人員應(yīng)注重通過數(shù)據(jù)挖掘技術(shù)來為圖書館提供個(gè)性化推薦、個(gè)性化檢索和個(gè)性化推送服務(wù),一改傳統(tǒng)模式的弊端,為用戶提供更加優(yōu)質(zhì)高效的圖書館檢索、借閱等服務(wù)體驗(yàn),推動(dòng)圖書館又好又快發(fā)展。