周 欣 陸 康
(南京曉莊學院圖書館,江蘇南京211171)
基于圖書館數(shù)字資源訪問系統(tǒng)的讀者行為數(shù)據(jù)挖掘研究
周 欣 陸 康*
(南京曉莊學院圖書館,江蘇南京211171)
通過分析讀者在圖書館數(shù)字資源系統(tǒng)的行為日志數(shù)據(jù),可以準確的挖掘出讀者的真實需求,更好的為讀者提供個性化服務。文章先介紹了讀者行為分析在圖書館行業(yè)的研究現(xiàn)狀,以及對讀者行為挖掘的研究意義,然后介紹了對讀者在數(shù)字資源訪問系統(tǒng)中的訪問日志數(shù)據(jù)進行數(shù)據(jù)采集、數(shù)據(jù)挖掘的方法,構建了讀者行為分析系統(tǒng)模型。
圖書館;數(shù)字資源;數(shù)據(jù)挖掘;讀者行為;日志分析;聚類分析
信息時代的到來,傳統(tǒng)的圖書館向數(shù)字圖書館轉化,圖書館員的服務方式和內(nèi)容也在向信息化方向轉變,由傳統(tǒng)的借閱服務及信息咨詢服務,轉化為以網(wǎng)絡平臺為主的信息化服務[1]。圖書館的數(shù)字資源建設,其資源的利用率有多高,如何對數(shù)字資源進行評估,讀者的滿意度如何,讀者究竟需要什么樣的數(shù)字資源,如何為讀者提供更優(yōu)質的數(shù)字化服務?這些問題都是圖書館所需要關注的。
圖書館是文獻資源保障部門,是為讀者提供優(yōu)質文獻資源相關的服務。有學者指出,數(shù)字圖書館網(wǎng)站是否成功的關鍵之一是能否提供個性化的信息服務[2]。現(xiàn)在網(wǎng)站門戶的個性化服務已經(jīng)不能夠滿足讀者的需求,原因是多方面的,其中最主要的原因就是互聯(lián)網(wǎng)尤其是移動互聯(lián)網(wǎng)平臺的普及,每個讀者都有自己鐘愛的互聯(lián)網(wǎng)平臺,例如學科博客、微博、微信等。本文從讀者的資源行為入手,對讀者通過對數(shù)字資源訪問,得出讀者的資源需求信息,通過數(shù)據(jù)挖掘技術,從中提取出讀者服務與資源建設的相關的數(shù)據(jù)信息,分析讀者的學科訪問軌跡以及資源需求,從學科建設角度進行有針對性的向讀者提供個性化的推送服務,最終向讀者推薦對其有用的信息,提高讀者對圖書館的信息需求滿足率。
1.1 圖書館讀者行為分析
互聯(lián)網(wǎng)給讀者提供了資源獲取的多條途徑,讀者資源獲取的方式也呈現(xiàn)多元化。圖書館對讀者利用圖書館的行為需要重新進行評估。例如雖然讀者到館的人數(shù)逐漸降低,但是這種情況并不代表讀者都不利用圖書館,數(shù)字資源等其他方式也是利用圖書館的一種方式。在互聯(lián)網(wǎng)環(huán)境下,圖書館的服務模式和服務理念也需要進一步的更新。圖書館的資源建設與平臺建設急需重新評估,圖書館的個性化服務也必須通過對讀者的資源需求進行調(diào)整。讀者的資源行為信息的獲取是當前圖書館必須掌握的數(shù)據(jù)之一。
由于海量的讀者行為數(shù)據(jù)以不同形式存儲在不同的計算機中,同時不同的讀者行為數(shù)據(jù)都存在于不同的系統(tǒng)中。如果未建立統(tǒng)一的數(shù)據(jù)分析系統(tǒng),使蘊藏在其中的大量信息無法得到有效的利用,圖書館員無法為讀者提供高質量的服務。如何將這些數(shù)據(jù)信息轉化為知識表示,為學科建設提供更好的學科服務,為讀者提供更好的信息服務,將是圖書館的工作重點。近年來圖書館為了更好的為讀者服務,越來越多的學者開始研究讀者的行為分析,以“圖書館”和“行為分析”為關鍵詞在CNKI上面搜索,得到178條結果,其中碩博士論文23篇,期刊類論文155篇。論文發(fā)表的統(tǒng)計信息如圖1所示。從圖1中可以看出,在圖書館相關學者們對讀者行為分析的關注,呈逐年上升的趨勢。
圖1 CNKI關于“圖書館行為分析”的論文發(fā)表數(shù)量
有許多學者開始關注于面向讀者提出針對性的服務,例如,陳雅等學者提出利用Web日志分析技術來實現(xiàn)圖書館個性化[2],陳臣提出基于大數(shù)據(jù)的圖書館個性化服務用戶行為分析研究[5]。也有許多學者研究讀者行為的數(shù)據(jù)挖掘,例如,于徽提出數(shù)據(jù)挖掘在圖書館用戶行為分析中的應用研究[6],王偉提出基于數(shù)據(jù)挖掘的圖書館用戶行為分析與偏好研究[7],周偉等提出基于數(shù)據(jù)挖掘和讀者行為分析的圖書館薦書系統(tǒng)的研究與設計[8],但是這些研究大都是基于圖書館紙質館藏的讀者行為研究,本文是針對圖書館數(shù)字資源訪問系統(tǒng)的讀者行為數(shù)據(jù)挖掘研究。
1.2 商業(yè)行為分析的成熟應用
商業(yè)的訪客信息行為分析,已經(jīng)被廣泛運用到網(wǎng)上購物中,系統(tǒng)可以對用戶訪問網(wǎng)頁的頁面進行分析,向用戶進行相關內(nèi)容的廣告推送服務,例如:亞馬遜、淘寶、蘇寧易購等商業(yè)網(wǎng)站。商業(yè)網(wǎng)站的個性化商品推薦與圖書館對讀者的知識服務有相似的地方,表1展示了淘寶商品推薦與圖書館知識服務的相似之處。很多的購物網(wǎng)站為了吸引購買者的注意,都會將讀者近期的搜索主題詞記錄下來,以便于為購物者及時的推薦想要購買的東西,增強用戶的購物體驗。例如淘寶的“淘寶足跡”,將用戶瀏覽過的商品在手機客戶端或者網(wǎng)站頁面上進行展示。如何將這一功能加以開發(fā)利用,并運用到圖書館對讀者的知識服務上,將讀者的歷史搜索記錄展示給讀者,針對讀者的歷史訪問信息進行深層次的數(shù)據(jù)挖掘,有針對性的向不同類型的讀者周期性的推送學科信息或讀者感興趣的信息,是圖書館技術部門所需要考慮的問題。根據(jù)這個思路,建設相關的系統(tǒng)對讀者的行為進行分析,是提升圖書館服務的一個重要方法。
表1 淘寶商品推薦與圖書館知識服務的相似之處
1.3 對讀者行為研究的意義
高校圖書館在資源建設過程中,數(shù)字資源經(jīng)費的比例逐年提高,原因是多方面的,第一,資源的數(shù)字化程度越來越高,其價格也不斷增高;第二,讀者利用資源的方式逐步向數(shù)字資源轉變。高校圖書館對于資源建設費用的投入普遍很高,數(shù)字資源的經(jīng)費比例也逐年提高。傳統(tǒng)的圖書館管理信息系統(tǒng)暫時還不能對數(shù)字圖書館的資源有效管理,尤其是流通中讀者借閱的模塊只能統(tǒng)計出讀者對紙質圖書的需求,無法統(tǒng)計讀者對數(shù)字資源的需求。因此,分析讀者對數(shù)字資源的使用行為,挖掘讀者在數(shù)字資源訪問系統(tǒng)的行為信息,找出最頻繁出現(xiàn)的關鍵詞序列,發(fā)現(xiàn)不同類別用戶的閱讀愛好、學科方向,找出讀者的學科資源需求規(guī)律,以便運用智能推薦系統(tǒng),向讀者提供個性化的資源推薦提供依據(jù),或者找出具有相近需求的讀者后相互推薦資源的下載信息等。分析讀者的資源需求傾向,圖書館可以根據(jù)讀者資源需求,進行資源推送服務。
1.3.1 提升服務質量
通過定性分析和定量研究相結合,分析和預測讀者在數(shù)字資源平臺上行為,深化科研服務,為讀者提供針對性的信息推送,構建優(yōu)化的信息環(huán)境給讀者提供更好的服務。1.3.2 優(yōu)化數(shù)字資源建設
通過對讀者檢索及下載內(nèi)容的分析,結合學校重點學科發(fā)展的方向,來調(diào)整數(shù)字資源建設和采購的方向。根據(jù)讀者的下載行為來統(tǒng)計數(shù)字資源的利用率,可以優(yōu)化數(shù)字資源的建設方案,達到將資源經(jīng)費合理化應用的目的。
1.3.3 提高數(shù)字資源利用率
通過數(shù)字資源利用率信息,有針對性的對不同的數(shù)字資源進行宣傳和組織培訓,使廣大讀者充分了解和利用圖書館的數(shù)字資源。做到資源的合理化利用,提高資源的利用率,避免數(shù)字資源的浪費。
1.3.4 提升圖書館的智能化服務
分析讀者使用數(shù)字資源的行為,定期為學科院系提供統(tǒng)計信息或最新學科資訊,構建學科與圖書館之間默契的合作關系。
2.1 圖書館數(shù)字資源訪問系統(tǒng)
為了方便讀者的信息需求,很多高校圖書館都建設或者購買了圖書館電子資源訪問系統(tǒng),將圖書館所有的數(shù)字資源訪問匯集到一個系統(tǒng)或者平臺中管理,方便讀者訪問或下載。為了使讀者在校園網(wǎng)內(nèi)或校外都能方便快捷的訪問圖書館的數(shù)字資源,提高圖書館的服務水平以及數(shù)字資源的利用率,同時也更好的為教學和科研提供服務,各個圖書館都相繼開通了數(shù)字資源訪問系統(tǒng)。數(shù)字資源訪問系統(tǒng)的一般做法是校內(nèi)可以通過IP地址直接訪問,而校外需要安裝客戶端,或者與圖書館文獻服務系統(tǒng)進行接口對接,輸入用戶名和密碼,可以訪問圖書館的數(shù)字資源。很多高校的做法是與數(shù)字化校園的一卡通對接,實行讀者一卡通實名認證系統(tǒng),使用統(tǒng)一的入口來訪問圖書館的數(shù)字資源。
南京曉莊學院與匯文文獻系統(tǒng)相結合,數(shù)字資源訪問系統(tǒng)與OPAC對接,通過OPAC的用戶名和密碼進行校外資源的訪問。OPAC的數(shù)據(jù)信息同時與校園一卡通對接,每個校內(nèi)讀者訪問數(shù)字資源時都使用統(tǒng)一的一卡通賬號,賬號信息存儲讀者的院系、聯(lián)系方式等,方便數(shù)據(jù)的統(tǒng)計及消息推送。
由于讀者對圖書館數(shù)字資源的使用都集中在“電子資源訪問系統(tǒng)”的平臺上,因此,可以通過此系統(tǒng)服務器上的讀者訪問日志進行數(shù)據(jù)搜集和深層次的數(shù)據(jù)挖掘,獲取讀者在電子資源訪問系統(tǒng)的訪問檢索及下載信息。
2.2 構建模型思想
要想有針對性的向讀者推薦學科信息或知識信息,首先要對讀者在數(shù)字資源訪問系統(tǒng)上的海量搜索行為進行采集;存儲每個讀者的歷史搜索記錄,了解每位讀者的真實需求,為每位讀者建立獨有的讀者信息挖掘庫;然后根據(jù)這個信息庫對每位讀者的搜索記錄進行讀者行為分析,使用數(shù)據(jù)挖掘聚類算法,找到其合適的讀者類型,最終為讀者推薦合適的學科信息。
圖書館數(shù)字資源讀者行為分析數(shù)據(jù)挖掘系統(tǒng)建立在MySQL或者Oracle數(shù)據(jù)庫上。讀者通過一卡通賬戶登錄圖書館數(shù)字資源訪問系統(tǒng),進行數(shù)據(jù)檢索、瀏覽或下載行為,在服務器上生成讀者行為日志文件。本文的目的是對讀者訪問圖書館數(shù)字資源的行為進行分析,具體到讀者常用的數(shù)據(jù)庫、檢索關鍵字、下載的文章以及讀者的檢索行為習慣等。具體的系統(tǒng)結構模型如圖2所示。
對日志的處理和數(shù)據(jù)挖掘過程為:
(1)日志獲取,從圖書館數(shù)字資源訪問系統(tǒng)服務器上采集要分析的讀者日志文件;
(2)對日志文件進行預處理,如日志解析、日志清洗、日志過濾,處理過的逐句保存在日志分析系統(tǒng)服務器的MySQL數(shù)據(jù)庫中,形成讀者信息挖掘庫;
(3)對讀者信息挖掘庫的數(shù)據(jù)進行數(shù)據(jù)挖掘建模分析,采用聚類算法,并將分析結果保存在相應的數(shù)據(jù)表中;
(4)按照聚類分析的結果,將讀者分為不同的類型,根據(jù)結果生成各種形式的報表,將學科信息呈現(xiàn)給讀者,信息服務部門按照讀者類型針對不同的讀者有針對性的對其推送學科信息。
系統(tǒng)的設計思想,主要根據(jù)網(wǎng)絡數(shù)據(jù)的采集,即對讀者在各種系統(tǒng)中的行為日志進行采集,分析其資源行為的內(nèi)容,研究其學術動態(tài)。系統(tǒng)的主要工作是將讀者行為信息,通過技術手段采集,減少人為參與的因素,使得獲取的數(shù)據(jù)信息更加客觀公正,同時保證數(shù)據(jù)的全面性和完整性。
3.1 讀者行為的數(shù)據(jù)采集
本文的目的是對圖書館數(shù)字資源訪問系統(tǒng)的用戶進行行為分析,因此,要收集圖書館數(shù)字資源訪問系統(tǒng)的用戶訪問數(shù)據(jù)。獲取數(shù)據(jù)的方法有很多種,兩種主流的數(shù)據(jù)獲取方法是網(wǎng)絡爬蟲和開放API平臺。這兩種方法都可以通過計算機程序快速準確地得到所需數(shù)據(jù)[6]。本文是針對Web使用記錄挖掘,使用的方法是基于讀者訪問日志的用戶行為分析方法。
當用戶訪問圖書館的數(shù)字資源訪問系統(tǒng)時,系統(tǒng)會在后臺記錄下讀者的每一步操作日志。例如讀者選取的是哪個數(shù)據(jù)庫、輸入的檢索詞、點擊的鏈接、下載了文章或電子書等都可在讀者的訪問日志里面記錄下來。讀者的訪問日志客觀的記錄了讀者的各種行為操作,通過對這些日志內(nèi)容進行層次的挖掘,可以發(fā)掘出讀者的真實需求情況。
本文對讀者的行為采集是基于匯文公司構建的“南京曉莊學院電子資源授權訪問系統(tǒng)”,數(shù)據(jù)抓取采用直接對服務器上的訪問日志文件進行分析過濾。日志處理步驟如圖3所示。記錄讀者的日志信息包括:訪問數(shù)字資源的日志信息,訪問或者下載信息內(nèi)容,訪問URL內(nèi)容和訪問時間等。
圖2 圖書館數(shù)字資源讀者行為分析數(shù)據(jù)挖掘系統(tǒng)結構模型
圖3 讀者日志獲取
3.2 數(shù)據(jù)預處理
由于日志文件本身是一個非結構化的文本文件,而且數(shù)據(jù)量龐大,頁面復雜,缺乏統(tǒng)一的結構特點,因此,在數(shù)據(jù)分析之前有必要進行預處理,將從非結構化的數(shù)據(jù)中提取結構化的數(shù)據(jù)。數(shù)據(jù)預處理是根據(jù)挖掘的目的,對原始Web日志文件中的數(shù)據(jù)進行提取、分解、合并,最后轉化為適合進行數(shù)據(jù)挖掘的數(shù)據(jù)格式,并保存到關系型數(shù)據(jù)庫表或數(shù)據(jù)倉庫中,等待進一步處理[9]。傳統(tǒng)的數(shù)據(jù)預處理主要包括數(shù)據(jù)清洗、用戶識別、會話識別和路徑補充等幾個階段[10]。數(shù)據(jù)的預處理提高了數(shù)據(jù)挖掘模式的質量,可以降低算法實際運行所需要的時間。
從系統(tǒng)中抓取的讀者訪問日志包括用戶IP地址、用戶ID、用戶請求訪問的URL頁面、請求方法、訪問時間、傳輸協(xié)議、傳輸?shù)淖止?jié)數(shù)、錯誤代碼、用戶代理等屬性。電子資源訪問系統(tǒng)設計的日志文件同時也記錄了每個讀者的訪問頁面、訪問時間、檢索詞、檢索內(nèi)容、下載內(nèi)容等。實驗采用的是一個小型的日志解析工具,直接對日志文件進行解析,把解析到的數(shù)據(jù)存儲到MySQL或者Oracle數(shù)據(jù)庫中。數(shù)據(jù)庫中存儲的內(nèi)容包括訪問時間、原IP地址、目的IP地址、資源名稱、請求站點URL地址、下載內(nèi)容、檢索內(nèi)容、用戶ID等。
數(shù)字資源訪問日志文件主要記錄讀者的訪問、檢索、下載記錄等。數(shù)據(jù)呈現(xiàn)部分采用網(wǎng)頁調(diào)用模板進行數(shù)據(jù)統(tǒng)計和分析。數(shù)據(jù)庫存儲讀者訪問日志記錄如表2所示,包括訪問、檢索及下載信息。
表2 讀者訪問日志記錄表
3.3 數(shù)據(jù)挖掘——聚類分析
Web數(shù)據(jù)挖掘是對用戶訪問Web時的訪問記錄進行數(shù)據(jù)挖掘,當前的Web數(shù)據(jù)挖掘主要有分類、聚類、關聯(lián)規(guī)則和序列等Web日志挖掘算法[7]。聚類算法是一個將數(shù)據(jù)集劃分為若干組或類的過程,使得同一個組內(nèi)的數(shù)據(jù)對象具有較高的相似度,而不同組中的數(shù)據(jù)對象則不相似,即“物以類聚”。相似或不相似的度量是基于數(shù)據(jù)對象描述屬性的取值來確定的。
用聚類算法對圖書館讀者行為進行數(shù)據(jù)挖掘,發(fā)現(xiàn)讀者共同的愛好、興趣、規(guī)律和趨勢,對于圖書館個性化服務,數(shù)據(jù)對象的組織、存儲,信息資源的分布、分類、索引、檢索等有重要作用,聚類要經(jīng)過多次才能得到一個理想的結果[8]??梢詫⒆x者按照其在網(wǎng)站上檢索的關鍵字,將其分為不同的學科,以便圖書館員為不同學科的讀者進行個性化的服務,提高讀者的滿意度。
采用K-means算法用于Web用戶數(shù)據(jù)挖掘,可以快速發(fā)現(xiàn)網(wǎng)絡用戶的興趣特征,進而對群體用戶的興趣特征進行聚類分析,發(fā)現(xiàn)用戶的興趣所在,有助于后期有針對性的對用戶進行內(nèi)容推薦[11]。實驗模擬參照文獻[12]中第七章的一個案例中的部分思想,先對讀者活躍程度進行分析,將讀者按照活躍程度劃分為5個等級。針對活躍等級高的讀者,通過對讀者檢索詞及下載內(nèi)容的分析,希望從中獲取關于讀者的某種興趣愛好或學科方向。
實驗擬采用K-means算法對讀者群體進行聚類分析。假設訓練樣本集合為D:{x1,x2,…,xn},其中xi=(xi1,xi2,…,xir)是r維實數(shù)空間的向量,n表示數(shù)據(jù)點個數(shù)。KMeans聚類算法首先將訓練樣本集劃分為k個聚類,對于每個聚類中心以外的樣本點分別計算到各聚類中心的距離,將數(shù)據(jù)點劃分到最近的聚類中心所代表的簇中,然后重新計算每個聚類的聚類中心。這個過程講過多次重復迭代,直到滿足終止條件為止,算法的好壞在一定程度上依賴于初始聚類中心的選取。
表3 K-means算法描述
4.1 數(shù)字資源的統(tǒng)計分析
對讀者在圖書館數(shù)字資源訪問系統(tǒng)的訪問行為進行采集和預處理,可將數(shù)據(jù)直觀的通過報表呈現(xiàn)給圖書館員,服務人員可以統(tǒng)計到常用數(shù)據(jù)庫的訪問量、下載量排行等。圖4是南京曉莊學院某1個月內(nèi)數(shù)字資源的訪問情況。
有了讀者訪問數(shù)字資源的原始數(shù)據(jù),同樣可以統(tǒng)計到某一種資源的訪問趨勢、某個讀者的訪問趨勢以及數(shù)字資源的匯總統(tǒng)計等。對數(shù)字資源的訪問情況進行統(tǒng)計可以直觀的看出資源的利用率,以此可以優(yōu)化資源的采購方案,節(jié)省采購經(jīng)費。也可以根據(jù)資源的利用情況有針對性的對讀者開展培訓,提高數(shù)字資源的利用率。
圖4 某段時間內(nèi)數(shù)字資源下載量統(tǒng)計
從圖4中,可以分析出2015年6月份的數(shù)字資源訪問統(tǒng)計信息,例如CNKI的訪問量較高,其次是202.119.47.6,這是維普的IP地址,再次就是萬方數(shù)據(jù)的訪問等。數(shù)字資源訪問的統(tǒng)計分析,減少了人為因素對資源利用的參與,其結果具有較高的客觀性和準確性。
4.2 活躍讀者學科信息推送
通過系統(tǒng)可以直觀的看到讀者的檢索明細,以及下載明細,同樣也可以直觀的統(tǒng)計到讀者在某段時間內(nèi)的下載量排行(如圖5所示)。應用數(shù)據(jù)挖掘算法對讀者在圖書館資源管理系統(tǒng)上搜索或下載進行分析之后,將讀者按照興趣、偏好和學科方向分為不同的讀者類別。學科館員可以定期通過郵箱或者手機等其他途徑向讀者推送信息。由于此系統(tǒng)涉及到的功能較多,用到的聚類分析算法相關知識具有很強的理論性,本文的實驗暫時只對少量數(shù)據(jù)樣本進行處理。目前已經(jīng)完成的工作有對讀者行為數(shù)據(jù)的采集和處理,讀者行為信息的展示,及對讀者的日志查詢和簡單的分析。
4.3 讀者資源訪問數(shù)據(jù)展示
讀者訪問數(shù)據(jù)的展示,主要是讀者檢索內(nèi)容和下載內(nèi)容的??梢詫ψx者在數(shù)字圖書館的檢索內(nèi)容進行數(shù)據(jù)分析,其結果運用于資源建設和評估,如圖6所示。從中可以看出,讀者在各個時段的檢索內(nèi)容都可以準確獲取,將這些信息匯聚分析,可以得出讀者的研究內(nèi)容和方向,資源建設需要時刻了解這樣的數(shù)據(jù)信息,檢索內(nèi)容同時也反映了部分讀者的需求信息。系統(tǒng)可以獲取讀者資源行為數(shù)據(jù),其意義是智能化圖書館建設的一個組成部分。
圖5 某段時間內(nèi)活躍讀者下載量排行
系統(tǒng)的組成主要從技術角度,對讀者的資源行為進行分析,資源行為也反映了讀者的需求內(nèi)容。圖書館圍繞讀者服務,及原始數(shù)據(jù)的獲得,從技術角度獲取,減少人為參與的因素,是未來發(fā)展的趨勢,技術的手段可以減少人力資源投入,其結果更加公正客觀,同時資源建設工作也必須在技術手段的支持下進行不斷改進,圖書館的特色資源服務才能體現(xiàn)出其智能性。
圖6 讀者訪問檢索內(nèi)容獲取
本文對讀者行為數(shù)據(jù)挖掘研究的前提條件有兩個:一是圖書館先建立完善的數(shù)字資源整合系統(tǒng)或數(shù)字資源整合平臺,讀者訪問圖書館資源時都從同一個入口進行訪問。二是數(shù)字資源訪問系統(tǒng)與校園一卡通對接,而且系統(tǒng)中的讀者E-mail
或手機聯(lián)系方式要及時更新,讀者進行實名認證訪問,才能根據(jù)系統(tǒng)的訪問日志信息跟蹤到每一位讀者。由于筆者在人工智能的學習能力有限,數(shù)據(jù)挖掘算法還需要進一步商榷和完善。圖書館對讀者的用戶行為進行數(shù)據(jù)挖掘后,可以針對讀者開展多種多樣的個性化服務。例如,可以根據(jù)讀者的興趣、偏好和學科方向,對呈現(xiàn)給讀者的網(wǎng)頁內(nèi)容或結構布局進行個性化的調(diào)整,允許讀者自己添加感興趣模塊,或者對數(shù)據(jù)資源進行評價等。也可以將用戶在系統(tǒng)中的歷史記錄展示給讀者,給用戶提供相關的瀏覽提示和幫助。圖書館數(shù)據(jù)分析系統(tǒng),主要目的是建立讀者與圖書館之間的橋梁,使圖書館與讀者之間的信息對稱,讓圖書館時刻了解讀者所需,從而建立適合讀者的服務機制,使讀者更好的體驗到圖書館所提供的服務。
[1]陸康.基于媒體平臺效應的圖書館網(wǎng)絡服務研究[J].現(xiàn)代情報,2015,35(4):128-133.
[2]陳雅,譚華軍,鄭建明.圖書館個性化服務中的Web日志分析技術研究[J].圖書館雜志,2011,(7):43-46,54.
[3]陸康.網(wǎng)絡行為讀者需求分析運用探討[J].現(xiàn)代情報,2015,35(5):94-97,104.
[4]劉慧.基于網(wǎng)絡行為的圖書館數(shù)字資源評價方法研究[J].現(xiàn)代情報,2015,35(2):62-66.
[5]陳臣.基于大數(shù)據(jù)的圖書館個性化服務用戶行為分析研究[J].圖書館工作與研究,2015,(2):28-31.
[6]于徽.數(shù)據(jù)挖掘在圖書館用戶行為分析中的應用研究[D].北京:北方工業(yè)大學,2009.
[7]王偉.基于數(shù)據(jù)挖掘的圖書館用戶行為分析與偏好研究[J].情報科學,2012,(3):391-394,418.
[8]周偉,汪少華,楊云.基于數(shù)據(jù)挖掘和讀者行為分析的圖書館薦書系統(tǒng)的研究與設計[J].圖書情報研究,2014,(4):38-44.
[9]宋瑩,沈奇威,王晶.基于Hadoop的Web日志預處理的設計與實現(xiàn)[J].電信工程技術與標準化,2011,(11):84-89.
[10]馬瑞民,李向云.Web日志挖掘中數(shù)據(jù)預處理技術的研究[J].計算機工程與設計,2007,(10):2358-2360.
[11]羅森林,馬俊,潘麗敏.數(shù)據(jù)挖掘理論與技術[M].北京:電子工業(yè)出版社,2013.
[12]張良均.數(shù)據(jù)挖掘實用案例分析[M].北京:機械工業(yè)出版社,2013.
(本文責任編輯:孫國雷)
Data Mining on Reader Behaviors Based on Library Digital Resource System
Zhou Xin Lu Kang*
(Library,Nanjing Xiaozhuang University,Nanjing 211171,China)
The paper accurately achieved the actual acquirements of readers and provide better personalized service for readers by analyzing the behavior log data of library digital resource system.Firstly,the progress of the research on reader behaviors was introduced.Secondly,the meaning of the reader behavior data mining was described.Finally,the method for data acquisition and data mining in the digital resource system for readers in digital resource visiting system was introduced,and the reader behavior analysis system model was constructed.
library;digital library;data mining;reader behavior;log analysis;clustering analysis
10.3969/j.issn.1008-0821.2016.01.010
G250.71
A
1008-0821(2016)01-0051-06
2015-06-15
南京曉莊學院青年專項“基于信息覓食理論的數(shù)字圖書館學科服務模式研究”(項目編號:2013NXY84);南京曉莊學院圖書館科研創(chuàng)新團隊建設項目“圖書館數(shù)據(jù)分析機制與平臺建設”(項目編號:T201504)研究成果之一。
周 欣(1984-),女,助理館員,碩士,研究方向:圖書館系統(tǒng)應用與開發(fā)。
陸 康(1983-),男,系統(tǒng)技術部副主任,館員,碩士,研究方向:數(shù)字資源建設與評估,數(shù)字資源平臺應用與開發(fā),發(fā)表論文24篇。