周 偉 汪少華 楊 云
(1. 南京工程學院圖書館 南京 211167;2. 南京工程學院經(jīng)濟管理學院 南京 211167;3. 揚州大學信息工程學院 揚州 225009)
·信息技術·
基于數(shù)據(jù)挖掘和讀者行為分析的圖書館薦書系統(tǒng)的研究與設計
周 偉1汪少華2楊 云3
(1. 南京工程學院圖書館 南京 211167;2. 南京工程學院經(jīng)濟管理學院 南京 211167;3. 揚州大學信息工程學院 揚州 225009)
圖書館網(wǎng)上薦書是為了挖掘和了解讀者的興趣、愛好,發(fā)現(xiàn)讀者潛在的興趣和信息需求,更好地為讀者服務,提高館藏的利用率。在對推薦算法、數(shù)據(jù)挖掘技術與PDA模式分析的基礎上,結合目前高校的實際情況,探討數(shù)據(jù)挖掘技術和PDA模式在數(shù)字圖書館薦書系統(tǒng)中的應用,并給出利用數(shù)據(jù)挖掘技術、PDA模式、混合推薦算法在高校圖書館薦書系統(tǒng)的實現(xiàn)方法。
圖書館薦書 數(shù)據(jù)挖掘 讀者行為分析 指標體系 混合推薦
在圖書館的數(shù)字化集成系統(tǒng)中,每天都會產(chǎn)生大量的統(tǒng)計數(shù)據(jù)和表單,這些數(shù)據(jù)信息對圖書館的圖書管理、文獻采購、館藏建設等業(yè)務起著重要的指導作用。由于讀者需求和圖書館自身發(fā)展的需要,圖書館也在提供多樣性的服務以適應這種需求和發(fā)展。圖書館網(wǎng)上薦書正是為了挖掘了解讀者的興趣、愛好,發(fā)現(xiàn)讀者潛在的興趣和信息需求,為圖書館讀者的需求分析提供技術支持和決策管理支持。
作為薦書系統(tǒng)的重要組成部分,推薦算法決定了薦書系統(tǒng)的工作方式和薦書策略,其質(zhì)量直接影響到薦書系統(tǒng)的整體性能。按照薦書策略的不同,推薦算法可分為基于內(nèi)容的過濾算法、協(xié)作過濾算法和混合推薦算法[1]?;旌贤扑]算法是對協(xié)作過濾算法和基于內(nèi)容的過濾算法,通過不同的組合方式進行融合,融合可以在推薦的不同階段實現(xiàn)[2-3]?;旌贤扑]算法相對于基于內(nèi)容的、基于讀者群體行為或興趣的單一策略的推薦算法,能夠?qū)崿F(xiàn)更高的推薦質(zhì)量。
目前國內(nèi)圖書館所采用的網(wǎng)上推薦系統(tǒng)按來源可以分為4 種類型。一是引進網(wǎng)絡公司設計的圖書薦購系統(tǒng);二是使用大型圖書公司的推薦系統(tǒng);三是圖書館自行設計書刊薦購系統(tǒng);四是使用圖書館自動化集成系統(tǒng)自帶的模塊[4]。
圖書公司薦購系統(tǒng)售價較貴且功能模塊少,具有的查詢功能和書目列表功能僅能對圖書公司提供的圖書目錄進行推薦,可擴展性較差;圖書館自動化集成系統(tǒng)自帶的薦購模塊,雖人性化設計,但存在功能較少、性能不穩(wěn)定、平臺功能魯棒性差等缺點;大學圖書館自行設計的網(wǎng)上薦購系統(tǒng)的薦購功能基本上設計簡單、功能單一、薦書質(zhì)量不理想?,F(xiàn)有的系統(tǒng)功能、性能等方面都存在許多問題,尤其在新用戶問題、新書問題、推薦算法的薦書質(zhì)量等方面還需進一步完善。
2.1 數(shù)據(jù)挖掘技術
數(shù)據(jù)挖掘是一個從海量數(shù)據(jù)集中應用關聯(lián)規(guī)則,抽取挖掘未知的、有價值的模式或規(guī)律等知識的復雜過程,通過預測未來趨勢及行為,做出基于知識的決策。其知識發(fā)現(xiàn)過程是其最核心的部分。整個知識發(fā)現(xiàn)過程由數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)挖掘、模式評估和知識表示等若干個挖掘步驟組成[5]。數(shù)據(jù)挖掘的目標是從數(shù)據(jù)庫中發(fā)現(xiàn)隱含的、有意義的知識。概括起來,它主要有五大功能:自動預測趨勢和行為、關聯(lián)分析、聚類、概念描述和偏差檢測[6]。我們主要將數(shù)據(jù)挖掘技術中的Apriori算法應用于薦書系統(tǒng)的數(shù)據(jù)初始化。
2.2 PDA模式
PDA是Patron-driven Acquisition 的縮寫,它的含義是“讀者決策采購”,也稱“按需購買”,是目前國內(nèi)外圖書館界重點研究和推廣的一個技術。PDA源于利用館際之間的互借服務,促進或補充本館館藏建設,其主要思想是將讀者的閱讀需求進行指標量化,作為圖書館讀者薦書、文獻采購、館藏建設的決策根據(jù)。[7]
區(qū)別于傳統(tǒng)模式下圖書館先買下所有圖書、再開放給讀者閱讀,PDA是先依據(jù)圖書館的館藏政策,參照傳統(tǒng)的綱目購書或閱選計劃,設計購書范圍及每本圖書的預設文檔,將圖書供應商目錄導入圖書館的館藏檢索系統(tǒng)。此時圖書館僅僅是將這些書目展示給讀者,尚未向圖書供應商支付費用。而當讀者點擊直接閱讀了該書,并且達到了圖書館預設的次數(shù)、時間、人數(shù)等指標閾值后,系統(tǒng)就會自動觸發(fā)圖書館向圖書供應商租用或購買圖書的指令。
讀者決策采購實現(xiàn)了購買決策由讀者的需求驅(qū)動決定,而不是僅僅依據(jù)學科館員主觀設想、預測,極大地提高了館藏文獻利用率;圖書館和讀者不再局限于圖書供應商提供的文摘,而是實時地獲得了所需文獻的全文,沒有時滯;付費系統(tǒng)在后臺運行,因此讀者不可能覺察到自己的閱讀行為是否會觸發(fā)購買指令,而人為改變自己的閱讀需求。
圖1 PDA模式基本流程
為了對讀者薦書提供決策支持、對讀者薦書提供數(shù)據(jù)支撐,實現(xiàn)圖書采購的規(guī)范化、合理化,按照PDA的思想,必須首先建立“讀者信息指標體系”。
3.1 讀者信息數(shù)據(jù)準備
圖書館的基本業(yè)務數(shù)據(jù)主要源于“讀者基本信息庫”、“讀者借閱歷史庫”、“讀者檢索歷史庫”、“館藏書目庫”。
3.1.1 讀者基本信息庫 讀者基本信息庫中主要存儲讀者基本信息,它是高校圖書館的一項基本數(shù)據(jù)記錄,因而它是最重要的基礎數(shù)據(jù)。讀者基本信息主要有讀者編號、姓名、年齡、性別、專業(yè)、借閱等級等記錄,通過它可以為讀者分類、借閱行為、閱讀興趣聚類提供信息,如圖 2 所示。
圖2 讀者基本信息記錄解析圖
3.1.2 借閱歷史信息庫 讀者借閱歷史庫中主要存儲讀者借閱歷史信息記錄,它也是高校圖書館系統(tǒng)提供的重要數(shù)據(jù)之一,這部分數(shù)據(jù)是獲取圖書館文獻利用狀況信息的關鍵。對讀者借閱狀況指標進行統(tǒng)計分析,其主要指標包括借閱編號、書名、書目編號、排架號、讀者編號、借閱時間、歸還時間等。對這些指標進行分析、歸類、度量有助于了解書刊的使用率并進行預測分析,它是向讀者薦書的基礎。通過對“讀者借閱歷史記錄”的分析,最終可以得到“讀者閱讀行為記錄”,從而可以對讀者閱讀行為:學科分類、閱讀興趣、借閱時期等進行分析,為讀者薦書提供科學依據(jù)。如圖3所示。
圖3 讀者借閱歷史記錄解析圖
3.1.3 讀者檢索歷史庫 讀者檢索歷史記錄是了解讀者需求的重要途徑,但在圖書館系統(tǒng)中存在但并不完整,不同的系統(tǒng),其保存的讀者檢索數(shù)據(jù)規(guī)范程度和質(zhì)量不同。讀者檢索歷史庫中主要包括讀者編號、檢索字段、檢索時間、檢索書目、檢索數(shù)量等指標。通過對這部分指標進行度量,能夠發(fā)現(xiàn)讀者的信息需求。因為檢索頻繁地發(fā)生,規(guī)范化的檢索數(shù)據(jù)存儲、良好的檢索數(shù)據(jù)質(zhì)量必不可少,它直接影響到薦書系統(tǒng)的薦書質(zhì)量。如圖4所示。
圖4 讀者檢索歷史記錄解析圖
3.1.4 館藏書目庫 館藏書目信息是圖書館最常見的、最基本的數(shù)據(jù)集合,它主要根據(jù)中國圖書館圖書分類法進行編撰,是圖書信息化管理、讀者借閱圖書、檢索圖書的基礎。它一般包括書名、書目編號、排架號、作者、文摘、學科、圖書出版社、出版日期等[8]。通過館藏書目庫中的信息分析,可以獲取圖書館館藏及文獻利用情況。如圖5所示。
3.2 讀者信息數(shù)據(jù)融合
事實上,“讀者基本信息庫”、“讀者借閱歷史庫”、“讀者檢索歷史庫”、“館藏書目庫”四種數(shù)據(jù)庫中數(shù)據(jù)記錄是互相關聯(lián)的,其關聯(lián)如圖6所示。
圖5 館藏書目記錄解析圖
圖6 四種數(shù)據(jù)庫數(shù)據(jù)關聯(lián)圖
3.3 讀者信息指標體系結構
3.3.1 讀者信息評價指標 讀者信息評價指標體系由下列一級和二級指標構成,如表1所示。
將“讀者基本信息庫、讀者借閱歷史庫、讀者檢索歷史、館藏書目庫”中分散的各數(shù)據(jù)字段導入offices transaction 中,生成相應的讀者事務數(shù)據(jù)庫,如圖7所示。
3.3.2 讀者信息評價指標內(nèi)涵 (1)年齡層次:不同的年齡段,閱讀習慣會很不一樣,但同一個年齡段的人,一般閱讀習慣基本一樣。劃分原則按:少年、青年、中年和老年,在此基礎上再進行年齡段細分。針對不同年齡段的讀者,推薦不同類型的書籍。
(2)文化程度:文化程度是個抽象概念,它包含公共教育、繼續(xù)教育、環(huán)境影響、文化素質(zhì)等內(nèi)容。公共教育:學歷學位教育;繼續(xù)教育:閱歷、讀書、旅游;環(huán)境教育:工作單位、家庭、社會影響;文化素質(zhì):個人素質(zhì)、文學修養(yǎng)、價值取向、職業(yè)素養(yǎng)。文化程度不一樣,其閱讀圖書的類型、廣度和深度都不一樣。不同行業(yè)、不同專業(yè)、不同學位類型(如工科、理科等)其閱讀習慣也不一樣。
表1 讀者信息評價指標體系
(3)職稱:職稱反映了一個人的內(nèi)涵、專業(yè)水平和工作能力,從側(cè)面反映一個人的修養(yǎng)。從具體地職稱,可以了解到他的閱讀習慣。工程師一般閱讀和自己專業(yè)相關的技術書籍多些,教授一般閱讀和自己感興趣內(nèi)容相近理論研究書籍。
(4)工作單位:工作單位說明了單位性質(zhì),再結合職稱、職務,可以了解讀者的工作環(huán)境、業(yè)務環(huán)境,推薦相應的書籍。
(5)借閱數(shù)量:各類圖書借閱量統(tǒng)計,通過分類統(tǒng)計分析,可以了解讀者喜歡閱讀的圖書類型,同時了解讀者的閱讀興趣,在薦書時,對讀者推薦同類型或相關類型圖書。
(6)借閱圖書文獻種類:讀者檢索圖書統(tǒng)計,通過類型統(tǒng)計分析,可以了解讀者對哪類圖書感興趣,同時也可以了解讀者的閱讀需求,在薦書時,對讀者推薦同類型新到圖書。
(7)閱讀層次:層次含義是:同類型圖書中分為“普通類”、“技術類”、“理論類”三個層次。普通類包括:教輔類、工具類等圖書;技術類包括:工程技術類、文學藝術類等專業(yè)圖書;理論類包括:專著類、研究類等理論書籍。在薦書時,只推薦同層次或高一個層次的圖書。
(8)忠誠度:每次圖書的借閱量、按期還書率、預約圖書借閱悔約率,根據(jù)忠誠度薦書。
(9)圖書外表:書的封面、尺寸、頁數(shù)、裝訂形式等。
圖7 四種數(shù)據(jù)庫的數(shù)據(jù)融合
(10)圖書出版:書名、作者、出版社、出版日期、分類號、ISSN等。
(11)書評摘要:對圖書的評價、圖書摘要、精彩片段。
(12)適用范圍:書籍的適用年齡、與該書主題相關度較大其他書籍、與該書具有相同讀者群的書籍、可讀性指數(shù)和復雜性指數(shù)。
(13)分類號:圖書分類號,是圖書館對圖書進行科學管理的依據(jù),也是讀者檢索圖書的重要手段。
3.3.3 信息評價指標度量 (1)年齡層次:度量區(qū)間為:18歲以下、[19,35]、[36,55]、55歲以上。將[19,35]細分為:[19,20]、[21,22]、[22,25]、[26,28]、[29,35];將[36,55]細分為:[36,45]、[45,50]、[51,55],度量單位為:歲。
(2)文化程度:學歷度量為:高中或中專、高職或大專、本科、碩士、博士;學位度量為:工科、理科、文科。
(3)職稱:初級(助教、助理工程師、助理會計師等)、中級(工程師、講師、會計師等)、高級(高級工程師、副教授、高級會計師等)、教授級(教授級高級工程師、教授、注冊會計師)。
(4)工作單位:單位性質(zhì)分為:政府機關、事業(yè)單位、國營企業(yè)、民營企業(yè)。政府機關:公務員、人民銀行等;事業(yè)單位:教育行業(yè)、廣播電視等;國營企業(yè):央企、國有銀行等;民營企業(yè):私營企業(yè)、外資企業(yè)等。
(5)借閱習慣:對圖書借閱量進行統(tǒng)計,針對統(tǒng)計結果,按圖書分類號分析。
(6)讀者心理:對讀者檢索圖書的類型、分類號統(tǒng)計,確認讀者對哪類圖書感興趣,并了解讀者的閱讀需求。
(7)閱讀層次:結合年齡層次、文化程度、職稱、職業(yè),對借閱圖書分類號統(tǒng)計,通過統(tǒng)計分析,確定讀者的閱讀層次
(8)忠誠度:賦予“借閱量、還書率、悔約率”權重系數(shù),根據(jù)忠誠度參考薦書。
(9)分類號:參照中國圖書館圖書分類法,在基本大類和細分類下,結合各單位圖書館的特點可再進行細分。
4.1 智能圖書薦書系統(tǒng)
智能圖書薦書系統(tǒng)可以獨立使用,也可以嵌入在“圖書館自動化集成系統(tǒng)”中應用。當它獨立使用時,必須先對數(shù)據(jù)進行預處理,生成“讀者事務數(shù)據(jù)庫”。智能圖書薦書系統(tǒng)主要由三部分組成:讀者信息模塊、模型分析模塊、圖書推薦模塊。讀者信息模塊記錄讀者的基本信息和歷史信息;模型分析模塊的任務,是通過對讀者信息進行分析,建立合適的模型描述讀者的借閱信息,分析讀者潛在的借閱書籍;圖書推薦模塊是推薦系統(tǒng)的核心部分,通過后臺的推薦算法,實時地從館藏圖書中篩選出讀者可能感興趣的圖書進行推薦。
4.2 薦書系統(tǒng)功能模塊
圖8 薦書系統(tǒng)功能模塊
(1)數(shù)據(jù)預處理
讀者事務庫、讀者群中間庫是系統(tǒng)運行前建立的。讀者事務庫是根據(jù)“基本信息庫”、“借閱歷史庫”、“檢索歷史庫”和“館藏書目庫”生成;讀者群中間庫是按照“讀者信息評價指標體系”,確定讀者類型、借閱類型、閱讀類型,依據(jù)Apriori算法進行指標度量生成。
(2)讀者信息模塊
讀者登錄,若為老用戶,直接在讀者事務庫檢索讀者基本信息;若為新用戶,生成新的記錄加入到讀者事務庫中。文獻檢索用于接收用戶的圖書檢索請求,它包括:文獻名或分類號或關鍵字。
(3)模型分析
根據(jù)讀者事務庫中的讀者基本信息,按照“讀者信息評價指標體系”,確定讀者類型、借閱類型、閱讀類型,依據(jù)Apriori算法進行指標度量,加入到相應的讀者群中。
(4)圖書推薦
對于新用戶,若檢索文獻在庫,同時檢索同類(基本大類或細分類)新圖書條目,且條目相似;若檢索文獻不在庫,檢索同類(基本大類或細分類)圖書條目,且條目相似;生成薦書目錄。
對于老用戶,若檢索文獻在庫,同時檢索同細分類號新圖書條目,且條目相似;若檢索文獻不在庫,根據(jù)讀者群,檢索同細分類號圖書條目,且條目相似;生成薦書目錄。
薦書目錄由“檢索文獻”、“相似文獻”、“關注文獻”、“相同作者文獻”構成?!皺z索文獻”是符合用戶要求的文獻、“相似文獻”是和用戶檢索文獻條目相似的文獻、“關注文獻”是同群中興趣相同或檢索關鍵字至少有一個相同的文獻、“相同作者文獻”是同一個作者近期的其它類似文獻。
4.3 薦書目錄生成算法
(1)加入讀者群:根據(jù)讀者群中間庫,確定用戶所屬的讀者群;
(2)讀者群距離度量:群間相關性計算;
(3)計算讀者群興趣相似度:根據(jù)用戶對文獻資源的評分和用戶間的讀者群距離,計算目標用戶和其它用戶的讀者群興趣相似度,選出與目標用戶最相似的K個用戶;
(4)預測用戶興趣:根據(jù)步驟3選出的K個用戶對文獻資源的評價,預測目標用戶對其沒有評價過的資源的興趣程度;
(5)生成推薦書目:薦書目錄。
薦書系統(tǒng)中推薦算法是復雜的,許多學者都在進行研究和設計。目前的薦書推薦算法各有優(yōu)點缺點,它與各單位的圖書分類方法、館藏圖書量、圖書文獻條目、讀者數(shù)、關聯(lián)規(guī)則等有密切的關系。論文著重對現(xiàn)有的圖書館自動化集成系統(tǒng)中的薦書功能單一、推薦算法的薦書質(zhì)量進行改進,通過一些輔助信息解決“新用戶問題”、采用挖掘新書與已有同類書籍之間的內(nèi)容關聯(lián)解決“新書問題”、通過條目對條目混合推薦算法生成薦書目錄,提高推薦算法的薦書質(zhì)量。我們只是進行了初步的探索,在推薦服務等方面的一些想法和做法還需根據(jù)實際情況加以相應地改進,下一步工作是在較大規(guī)模的圖書館實現(xiàn)條目對條目混合推薦算法。
[1] 任 磊. 推薦系統(tǒng)關鍵技術研究[D]. 上海: 華東師范大學, 2012.
[2] 孟祥武. 上下文感知推薦系統(tǒng)若干關鍵技術研究[D]. 北京: 北京郵電大學,2012.
[3] 郭燕紅. 推薦系統(tǒng)的過濾協(xié)同算法與應用研究[D]. 大連: 大連理工大學,2008.
[4] 易中梅,趙 晶. 高校圖書館網(wǎng)上圖書薦購系統(tǒng)的比較與分析[J]. 中華醫(yī)學圖書情報雜志,2012,21(5): 13-14,17.
[5] 龔宇花,刑耐生. 數(shù)據(jù)挖掘技術在高校數(shù)字化圖書館中的應用[J]. 電腦知識與技術, 2008,4(7):1547-1548,1557.
[6] 張路路. 基于數(shù)據(jù)挖掘的高校圖書館藏推薦系統(tǒng)模型研究[D]. 淄博:山東理工大學,2012.
[7] 劉 華. “讀者決策采購”在美國大學圖書館的實踐及其對我國的啟示[J]. 大學圖書館學報,2012(1): 45-50.
(責任編校 田麗麗)
ResearchonandDesignoftheLibraryBookRecommendationSystemBasedonDataMiningandReaders’BehaviorAnalysis
Zhou Wei1, Wang Shaohua2, Yang Yun3
1. Libray of Nanjing Institute of Technology, Nanjing 211167, China;2. College of Economics and Management, Nanjing Institute of Technology, Nanjing 211167, China;3. Department of Information Engineering, Yangzhou University, Yangzhou 225009, China
Library online recommendation aims to learn about readers’ interest and preference, find their potential interest and information needs, enable the library to serve them better, and improve the utilization of library collections. Based on data mining technology and PDA (Patron-driven Acquisition) modes analysis and combined with the actual situation in colleges and universities, this article discusses the use of data mining technology and PDA modes in the digital library book recommendation system and offers some ways to employ data mining techniques, PDA mode and collaborative recommendation algorithm in the university library book recommendation system.
library book recommendation; data mining; readers’ behavior analysis; indication system; collaborative recommendation
本文系國家自然科學基金項目“帶星間鏈路轉(zhuǎn)發(fā)能力的衛(wèi)星網(wǎng)絡通信任務實時調(diào)度算法研究”(項目編號:610702101)、江蘇省自然科學基金項目“融合多域信息的二值文本圖像水印技術研究”(項目編號:BK2010683)的研究成果之一
TP391.4
周 偉,女,1968 年生,實習研究員,研究方向為個性化書籍推薦,發(fā)表論文3篇;汪少華,男,1992 年生,本科生;楊 云,男,1957 年生,教授,博士生導師,研究方向為協(xié)同推薦算法、大數(shù)據(jù)處理技術,主持省部級項目2項,參加國家自然科學基金3項(排名第3)、江蘇省自然科學基金6項(排名第2),曾獲國防科工委科技進步二等獎,發(fā)表論文50余篇。