[摘 要] 融合圖書(shū)館用戶數(shù)據(jù)、Web圖書(shū)數(shù)據(jù)的新型高校圖書(shū)館書(shū)目系統(tǒng)分為數(shù)據(jù)準(zhǔn)備和數(shù)據(jù)清洗、數(shù)據(jù)規(guī)范和數(shù)據(jù)集成、數(shù)據(jù)分析和結(jié)果呈現(xiàn)三個(gè)模塊;用戶數(shù)據(jù)源來(lái)自北京大學(xué)圖書(shū)館數(shù)據(jù)資源服務(wù)中心的用戶及其行為數(shù)據(jù)和館藏資源及其使用數(shù)據(jù),Web數(shù)據(jù)源包括豆瓣讀書(shū)數(shù)據(jù)、當(dāng)當(dāng)圖書(shū)數(shù)據(jù)、京東圖書(shū)數(shù)據(jù)以及中國(guó)知網(wǎng)引文數(shù)據(jù);數(shù)據(jù)處理方法包括數(shù)據(jù)清洗、數(shù)據(jù)規(guī)范和數(shù)據(jù)集成;系統(tǒng)實(shí)現(xiàn)的三個(gè)關(guān)鍵技術(shù)為融合用戶數(shù)據(jù)及內(nèi)容的圖書(shū)推薦方法、豆瓣讀書(shū)筆記的摘要和關(guān)鍵詞生成方法以及情感分析方法。該書(shū)目系統(tǒng)聚焦于解決書(shū)目信息單一的問(wèn)題,通過(guò)集成和分析圖書(shū)館用戶數(shù)據(jù)和Web圖書(shū)數(shù)據(jù),豐富書(shū)目信息的內(nèi)容,為下一代圖書(shū)館書(shū)目系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)提供了參考。
[關(guān)鍵詞] 高校圖書(shū)館 圖書(shū)館書(shū)目系統(tǒng) 用戶數(shù)據(jù) 網(wǎng)絡(luò)數(shù)據(jù) 圖書(shū)推薦
[中圖分類(lèi)號(hào)] G258.6;G250.7 [文獻(xiàn)標(biāo)志碼] A [ DOI ] 10.19764 / j.cnki.tsgjs.20221737
[本文引用格式] 王一博,張鵬翼.融合用戶數(shù)據(jù)的高校圖書(shū)館書(shū)目系統(tǒng)設(shè)計(jì)[J].圖書(shū)館建設(shè),2024(1):121-130,145.
Designing a University Library Bibliographic System Integrating User Data
Wang Yibo, Zhang Pengyi
[Abstract] The new university library bibliography system integrating library user data and e-commerce book purchase platform data is divided into three modules: data preparation and data cleansing, data specification and data integration, data analysis and result presentation. User data sources come from the user and their behavior data, as well as the collection resources and their usage data from the Data Resource Service Center of Peking University Library. Web data sources include Douban Reading Data, Dangdang Book Data, JD.com Book Data, and CNKI Citation Database. Data processing methods include data cleansing, data specification and data integration. The three key technologies implemented in the system are book recommendation methods that integrate user data and content, abstract and keyword generation methods for Douban reading notes, and sentiment analysis methods. This bibliographic system focuses on solving the problem of single bibliographic information. By integrating and analyzing library user data and web book data, it enriches the content of bibliographic information and provides a reference for the design and implementation of the next generation library bibliographic system.
[Keywords] University library; Library bibliographic system; User data; Web data; Book recommendation
0 引 言
隨著大數(shù)據(jù)、人工智能等技術(shù)的迅猛發(fā)展,各行各業(yè)都發(fā)生著深刻的變革。圖書(shū)館擁有豐富的館藏資源與數(shù)據(jù)庫(kù)商提供的海量信息資源,如何為用戶提供更優(yōu)質(zhì)的服務(wù)是圖書(shū)館管理和圖書(shū)館學(xué)研究共同關(guān)注的重要問(wèn)題之一。
圖書(shū)館集成管理系統(tǒng)既包含開(kāi)放給圖書(shū)館用戶進(jìn)行資源檢索的OPAC系統(tǒng),也包含對(duì)圖書(shū)館的各項(xiàng)業(yè)務(wù)進(jìn)行管理的業(yè)務(wù)管理系統(tǒng)。用戶最頻繁使用和直接交互的是其中的書(shū)目系統(tǒng),書(shū)目系統(tǒng)的設(shè)計(jì)在很大程度上決定了圖書(shū)館是否可以滿足用戶對(duì)于圖書(shū)館獲取書(shū)目資源和服務(wù)的基本需求,是用戶從多維度評(píng)價(jià)圖書(shū)館發(fā)展水平的重要指標(biāo)之一。目前,圖書(shū)館集成管理系統(tǒng)的提供商大都集中在英語(yǔ)國(guó)家,如美國(guó)、英國(guó)、加拿大、澳大利亞、新西蘭等國(guó)家的 120 多家廠商提供圖書(shū)館自動(dòng)化系統(tǒng)產(chǎn)品[1]。其中,商業(yè)自動(dòng)化系統(tǒng)有 Innovative Interfaces 公司的Millennium、Exlibris公司的Aleph 500和 Voyager系統(tǒng)、SirsiDynix 公司的 Symphony 系統(tǒng)等,開(kāi)源自動(dòng)化系統(tǒng)有 Folio、Evergreen、Koha 系統(tǒng)等。
盡管集成管理系統(tǒng)中的書(shū)目系統(tǒng)提供了基本的書(shū)目元數(shù)據(jù)檢索功能,但現(xiàn)有圖書(shū)館書(shū)目系統(tǒng)大多未綜合利用各類(lèi)用戶數(shù)據(jù),未能在圖書(shū)描述數(shù)據(jù)和用戶使用數(shù)據(jù)之間建立有效的關(guān)聯(lián)。本文旨在研究如何融合圖書(shū)館內(nèi)部用戶數(shù)據(jù)和Web用戶數(shù)據(jù),以更好地收集和豐富圖書(shū)元數(shù)據(jù),多維度反映圖書(shū)的內(nèi)容和特征,對(duì)高校圖書(shū)館書(shū)目系統(tǒng)的改進(jìn)提出一些建議。
本文設(shè)計(jì)的系統(tǒng)架構(gòu)分為3個(gè)主要模塊:數(shù)據(jù)準(zhǔn)備和數(shù)據(jù)清洗、數(shù)據(jù)規(guī)范與數(shù)據(jù)集成、數(shù)據(jù)分析與結(jié)果呈現(xiàn)。系統(tǒng)設(shè)計(jì)所用的技術(shù)涉及到Web數(shù)據(jù)采集、數(shù)據(jù)集成和數(shù)據(jù)挖掘,自然語(yǔ)言處理相關(guān)技術(shù)如中文分詞、詞頻統(tǒng)計(jì)等,數(shù)據(jù)庫(kù)查詢語(yǔ)言SQL,計(jì)算機(jī)系統(tǒng)設(shè)計(jì)等。
1 國(guó)內(nèi)外相關(guān)研究與實(shí)踐
1.1 圖書(shū)館書(shū)目系統(tǒng)發(fā)展歷程和功能
圖書(shū)館的發(fā)展經(jīng)歷了從以藏書(shū)為中心到突出開(kāi)放借閱,再到以人為本,注重人的需求、可接近性、開(kāi)放性、生態(tài)環(huán)境和資源融合的幾個(gè)階段[2]。圖書(shū)館書(shū)目系統(tǒng)作為用戶獲取圖書(shū)館館藏的重要渠道,其發(fā)展歷程也可以大致反映上述圖書(shū)館發(fā)展的階段。其中,第一階段(20世紀(jì)50年代至70年代)是圖書(shū)館系統(tǒng)發(fā)展的萌芽階段[3]。隨著計(jì)算機(jī)的出現(xiàn),紙質(zhì)的卡片目錄逐漸被機(jī)讀目錄所替代,圖書(shū)館系統(tǒng)開(kāi)始出現(xiàn)。第二階段(20世紀(jì)80年代到21世紀(jì)初)是圖書(shū)館系統(tǒng)的蓬勃發(fā)展階段[3]。這一時(shí)期圖書(shū)館的發(fā)展理念從以館藏資源為中心逐漸向以用戶為中心轉(zhuǎn)變。圖書(shū)編目不再成為系統(tǒng)中唯一重要的模塊,采編、流通、期刊管理、用戶管理等模塊也都陸續(xù)集成在系統(tǒng)中,圖書(shū)館的業(yè)務(wù)流程也得到了一定程度的優(yōu)化。第三階段(2010年左右至今)是圖書(shū)館系統(tǒng)發(fā)展的成熟階段[3]。商業(yè)化圖書(shū)館服務(wù)平臺(tái)(Library Service Platform,簡(jiǎn)稱(chēng)LSP)作為第三階段圖書(shū)館系統(tǒng)進(jìn)入公眾視野,受到越來(lái)越多的關(guān)注[4]。一些圖書(shū)館開(kāi)始積極研發(fā)基于FOLIO(The Future of Libraries is Open)的微服務(wù)架構(gòu)的圖書(shū)館書(shū)目系統(tǒng),這從一個(gè)側(cè)面說(shuō)明了圖書(shū)館系統(tǒng)由統(tǒng)一的集成書(shū)目系統(tǒng)向個(gè)性化開(kāi)發(fā)定制的方向轉(zhuǎn)變。
圖書(shū)館學(xué)研究十分注重對(duì)圖書(shū)館書(shū)目系統(tǒng)發(fā)展歷程和作用的分析和反思。例如,胡振寧[5]回顧并梳理了深圳大學(xué)圖書(shū)館系統(tǒng)30年的發(fā)展歷程。張志東等[6]運(yùn)用了文獻(xiàn)調(diào)研法和訪談法,對(duì)云南大學(xué)1988—2018年的圖書(shū)館系統(tǒng)建設(shè)歷程進(jìn)行了梳理?;艚返萚1]對(duì)國(guó)外較為成熟的圖書(shū)館系統(tǒng)市場(chǎng)格局進(jìn)行了分析,指出了商業(yè)化系統(tǒng)和開(kāi)源系統(tǒng)各自的優(yōu)劣勢(shì)、面臨的挑戰(zhàn)和未來(lái)的發(fā)展趨勢(shì)。
一些學(xué)者通過(guò)分析大量用戶搜索書(shū)目系統(tǒng)的數(shù)據(jù),從中發(fā)現(xiàn)了一些特征和規(guī)律。早在1993年,Millsap等[7]就發(fā)現(xiàn)在加州大學(xué)MELVYL圖書(shū)館系統(tǒng)中,30.2%的用戶只搜索了1次,62.2%的用戶進(jìn)行的是標(biāo)題檢索。Schultheiss等[8]研究了德國(guó)圖書(shū)館搜索系統(tǒng)超過(guò)420萬(wàn)次的搜索會(huì)話,發(fā)現(xiàn)用戶更傾向于使用簡(jiǎn)短的搜索語(yǔ)句,約有38%至57%的用戶在檢索前預(yù)先知道需要檢索的內(nèi)容,而且基本都只瀏覽檢索結(jié)果的首頁(yè)。
盡管圖書(shū)館書(shū)目系統(tǒng)經(jīng)過(guò)幾十年的發(fā)展已經(jīng)取得了很大的進(jìn)步和成就,但不可否認(rèn)的是,現(xiàn)有書(shū)目系統(tǒng)仍存在不足,直接影響了圖書(shū)館服務(wù)效能,并制約了年輕圖書(shū)館用戶群體的發(fā)展壯大。與網(wǎng)絡(luò)搜索引擎對(duì)檢索結(jié)果的優(yōu)化帶給用戶的體驗(yàn)相比,圖書(shū)館書(shū)目系統(tǒng)的檢索體驗(yàn)老舊而冗余;與此同時(shí),不少用戶寧愿花錢(qián)在圖書(shū)電商網(wǎng)站(如當(dāng)當(dāng)、京東等)購(gòu)買(mǎi)新的紙質(zhì)或電子圖書(shū),也不愿在圖書(shū)館書(shū)目系統(tǒng)費(fèi)力進(jìn)行檢索;與豆瓣、知乎等相關(guān)圖書(shū)愛(ài)好者建立的知識(shí)交流社區(qū)相比,現(xiàn)有圖書(shū)館書(shū)目系統(tǒng)也缺乏與用戶進(jìn)行相關(guān)交流的平臺(tái)。Moscoso等將OPAC系統(tǒng)的錯(cuò)誤分為4類(lèi):與OPAC系統(tǒng)連接操作相關(guān)的錯(cuò)誤消息,與OPAC搜索數(shù)據(jù)條目相關(guān)的錯(cuò)誤消息,與結(jié)果頁(yè)面訪問(wèn)相關(guān)的錯(cuò)誤消息,與結(jié)果導(dǎo)航任務(wù)相關(guān)的錯(cuò)誤消息[9]。Trivedi等[10]對(duì)印度不同大學(xué)圖書(shū)館的239名研究對(duì)象開(kāi)展了問(wèn)卷調(diào)查,結(jié)果表明OPAC系統(tǒng)在清晰地展現(xiàn)圖書(shū)館資源和可用資源、在線搜索館藏速度等方面尚有提升的空間。
1.2 書(shū)目數(shù)據(jù)與用戶數(shù)據(jù)融合相關(guān)研究
圖書(shū)館內(nèi)部用戶數(shù)據(jù)是指廣大用戶與圖書(shū)館交互不斷積累的各類(lèi)大數(shù)據(jù),如用戶進(jìn)出館數(shù)據(jù)、借還書(shū)數(shù)據(jù)、預(yù)約數(shù)據(jù)等。已有研究嘗試?yán)脙?nèi)部數(shù)據(jù)源對(duì)書(shū)目系統(tǒng)的用戶服務(wù)進(jìn)行擴(kuò)充。其中,何娟[11]使用了某院校圖書(shū)館2017 年全年的用戶借還書(shū)數(shù)據(jù),從書(shū)目數(shù)據(jù)和用戶數(shù)據(jù)兩個(gè)維度構(gòu)建了個(gè)人用戶畫(huà)像,利用向量空間模型計(jì)算用戶之間的相似度,使用K-means聚類(lèi)法對(duì)用戶聚類(lèi)形成群體用戶畫(huà)像,為圖書(shū)個(gè)性化推薦奠定了基礎(chǔ)。胡云飛[12]對(duì)某高校圖書(shū)館的用戶基本信息、館藏基本信息、用戶行為信息進(jìn)行了清洗和匯總,構(gòu)建了讀者行為庫(kù),并針對(duì)某一維度或多個(gè)維度組合后的用戶群體,利用自身提出的基于馬氏距離的二分 K-means 算法進(jìn)行聚類(lèi),最后設(shè)計(jì)和實(shí)現(xiàn)了一個(gè)高校圖書(shū)館用戶畫(huà)像系統(tǒng)。
與圖書(shū)館對(duì)用戶體驗(yàn)不夠重視相比,圖書(shū)電子商務(wù)網(wǎng)站(如京東、當(dāng)當(dāng)?shù)龋┩ㄟ^(guò)收集和分析用戶信息、建立不同群體用戶畫(huà)像做精準(zhǔn)營(yíng)銷(xiāo)。Web用戶數(shù)據(jù)是指用戶在多種知識(shí)社區(qū)、電子商務(wù)平臺(tái)以及微博等社交媒體平臺(tái)上的行為記錄,如對(duì)圖書(shū)的購(gòu)置、評(píng)價(jià)和其他與之相關(guān)的原創(chuàng)內(nèi)容生成行為。例如,中國(guó)知網(wǎng)引文數(shù)據(jù)庫(kù)中的圖書(shū)被引頻次,豆瓣讀書(shū)社區(qū)中的圖書(shū)評(píng)論數(shù)據(jù),以及京東和當(dāng)當(dāng)?shù)入娮由虅?wù)平臺(tái)上圖書(shū)的銷(xiāo)售與用戶評(píng)價(jià)數(shù)據(jù)等。在用戶行為建模中,已有大量研究提出了各種模型的構(gòu)建方法,如基于圖書(shū)內(nèi)容和借閱記錄的推薦模型,用戶書(shū)評(píng)的情感分析和摘要提取方法等。國(guó)內(nèi)外的學(xué)者們對(duì)此進(jìn)行了很多相關(guān)研究,Hu等[13]提出一種基于Word2Vec和TF-IDF融合的特征提取方法建立用戶畫(huà)像,并通過(guò)分析一段時(shí)間內(nèi)用戶的搜索日志,推斷出用戶的基本信息。Wang等[14]將用戶興趣分為固定類(lèi)別的興趣和動(dòng)態(tài)事件的興趣,并通過(guò)建立動(dòng)態(tài)模型捕捉用戶的興趣變化。Sharma等[15]為用戶查詢提供個(gè)性化結(jié)果,將查詢結(jié)果與用戶資料中的關(guān)鍵詞匹配,證明了方法的有效性。陳楊等[16]提出基于網(wǎng)絡(luò)數(shù)據(jù)采集建立的少兒圖書(shū)用戶畫(huà)像模型,該模型包含對(duì)用戶基本屬性、認(rèn)知興趣、認(rèn)知心理的角色定位,對(duì)用戶的圖書(shū)偏好和圖書(shū)瀏覽及購(gòu)買(mǎi)歷史的閱讀需求,以及對(duì)用戶消費(fèi)行為、忠誠(chéng)度及滿意度的行為屬性,可以實(shí)現(xiàn)用戶信息的標(biāo)簽化,進(jìn)而實(shí)現(xiàn)圖書(shū)圈層精準(zhǔn)營(yíng)銷(xiāo)目的。陳旭松[17]考慮到用戶動(dòng)態(tài)興趣的因素,將用戶一段時(shí)期內(nèi)購(gòu)買(mǎi)的物品按照時(shí)間排序,刻畫(huà)出用戶的長(zhǎng)短期興趣,以提升推薦精度。
有很多學(xué)者對(duì)圖書(shū)館書(shū)目系統(tǒng)的改進(jìn)提出了新的設(shè)計(jì)思路。Nahotko[18]分析研究了55所波蘭大學(xué)圖書(shū)館網(wǎng)站的內(nèi)容及其分面導(dǎo)航的OPAC,提出應(yīng)該增加MARC字段的搜索并提供“一框搜索”,而且可以在得到初步檢索結(jié)果的基礎(chǔ)上疊加一組類(lèi)別過(guò)濾器。林珍梅[19]將大數(shù)據(jù)時(shí)代的Hadoop技術(shù)與圖書(shū)館閱讀書(shū)目智慧推薦相結(jié)合,集成了多個(gè)不同來(lái)源的數(shù)據(jù),將整個(gè)系統(tǒng)設(shè)計(jì)分為網(wǎng)頁(yè)前端、數(shù)據(jù)存儲(chǔ)、分析推薦3部分,并采用調(diào)查問(wèn)卷等性能評(píng)估方法對(duì)系統(tǒng)的推薦效果開(kāi)展了評(píng)估。曹意[20]引用人工智能技術(shù)訓(xùn)練書(shū)目數(shù)據(jù)集,利用迭代函數(shù)通過(guò)多次迭代獲得最優(yōu)推薦集合,結(jié)合硬件設(shè)計(jì)和軟件設(shè)計(jì)完成圖書(shū)館書(shū)目推薦系統(tǒng)設(shè)計(jì)。唐樂(lè)等[21]通過(guò)采集、分析、處理西南交通大學(xué)圖書(shū)館OPAC日志數(shù)據(jù)的結(jié)構(gòu),設(shè)計(jì)了一個(gè)日志管理系統(tǒng),該系統(tǒng)可以自動(dòng)采集并分析用戶日志,識(shí)別用戶檢索行為,完成圖書(shū)推薦并將結(jié)果返回給用戶。
無(wú)論學(xué)者是應(yīng)用各類(lèi)數(shù)據(jù)挖掘方法對(duì)圖書(shū)館各類(lèi)流通數(shù)據(jù)分析挖掘方面的研究,還是對(duì)用戶在電商平臺(tái)上購(gòu)買(mǎi)、評(píng)論商品等行為的用戶畫(huà)像構(gòu)建,都為更好地改進(jìn)圖書(shū)館書(shū)目系統(tǒng),進(jìn)而更好地為用戶服務(wù)提供新的思路和方法。
2.3 用戶檢索與書(shū)目系統(tǒng)研究
信息行為研究發(fā)現(xiàn),用戶在檢索過(guò)程中無(wú)法精準(zhǔn)描述自身信息需求,Belkin[22]將這種狀態(tài)稱(chēng)為“知識(shí)非常態(tài)”(Anomalous State of Knowledge,簡(jiǎn)稱(chēng)ASK)模型。因此,需要深入到信息需求表達(dá)的背后,了解其信息查找行為的根源,即其欲利用信息解決的問(wèn)題[23]。在信息檢索領(lǐng)域,在系統(tǒng)設(shè)計(jì)中融入ASK模型,可以更有效匹配信息資源和用戶需求[24]。有研究通過(guò)“隱式相關(guān)性反饋”,基于用戶的點(diǎn)擊、瀏覽等行為,作為反映信息資源與用戶需求相關(guān)性的隱式指標(biāo)來(lái)更好地預(yù)測(cè)用戶的檢索意圖[25]。
用戶在使用書(shū)目數(shù)據(jù)進(jìn)行檢索的過(guò)程中,也存在檢索式表達(dá)和真實(shí)需求之間的差異。目前,高校圖書(shū)館書(shū)目系統(tǒng)大多存在的問(wèn)題包括:提供的檢索入口與用戶真實(shí)需求相關(guān)性差異大、檢索結(jié)果未包含電子資源、書(shū)目信息過(guò)于簡(jiǎn)單、缺少用戶互動(dòng)的知識(shí)社區(qū)等。例如,美國(guó)哈佛大學(xué)圖書(shū)館員Single[26]在研究16項(xiàng)圖書(shū)館門(mén)戶可用性測(cè)試成果的基礎(chǔ)上總結(jié)出圖書(shū)館門(mén)戶存在的6大問(wèn)題,包括專(zhuān)業(yè)術(shù)語(yǔ)的使用、用戶對(duì)搜索工具不理解、用戶對(duì)資源實(shí)體的誤用、外部鏈接的低效、全文獲取的障礙性及用戶對(duì)頁(yè)簽系統(tǒng)的忽視。與之類(lèi)似,北京大學(xué)圖書(shū)館采用的是1998年由SirsiDynix公司推出的Unicorn系統(tǒng)(已升級(jí)為Symphony系統(tǒng))。該系統(tǒng)在國(guó)內(nèi)多所高校圖書(shū)館(如蘭州大學(xué)圖書(shū)館、河南大學(xué)圖書(shū)館等)已有廣泛應(yīng)用,系統(tǒng)普遍面臨以下三類(lèi)問(wèn)題:首先,用戶輸入關(guān)鍵詞與檢索結(jié)果之間的關(guān)聯(lián)性不高,達(dá)不到用戶的心理預(yù)期;其次,書(shū)目信息展現(xiàn)過(guò)于簡(jiǎn)略;最后,系統(tǒng)缺乏用戶交互性的知識(shí)社區(qū)環(huán)境,限制了師生之間的知識(shí)傳播。
因此,構(gòu)建融合用戶數(shù)據(jù)的高校圖書(shū)館書(shū)目系統(tǒng)可以在一定程度上利用用戶的借閱、購(gòu)買(mǎi)、評(píng)論等行為數(shù)據(jù)進(jìn)行更精準(zhǔn)的推薦服務(wù),如同義詞、相關(guān)檢索詞的聯(lián)想和推薦等,并可以通過(guò)用戶在使用系統(tǒng)中的反饋進(jìn)一步完善系統(tǒng),形成用戶和系統(tǒng)之間的交互。
2 系統(tǒng)設(shè)計(jì)和主要模塊
本文在參照國(guó)內(nèi)外部分圖書(shū)館書(shū)目系統(tǒng)和電子商務(wù)系統(tǒng)的基礎(chǔ)上,設(shè)計(jì)了一個(gè)融合內(nèi)外部用戶數(shù)據(jù)的高校圖書(shū)館書(shū)目系統(tǒng)。信息系統(tǒng)開(kāi)發(fā)的規(guī)范流程主要分為4個(gè)步驟:需求分析、系統(tǒng)分析、系統(tǒng)設(shè)計(jì)、原型實(shí)現(xiàn)。本文遵循了一般信息系統(tǒng)開(kāi)發(fā)的流程,重點(diǎn)介紹系統(tǒng)分析、系統(tǒng)設(shè)計(jì)和原型實(shí)現(xiàn)。
系統(tǒng)的總體設(shè)計(jì)分為三個(gè)主要模塊:數(shù)據(jù)準(zhǔn)備和數(shù)據(jù)清洗、數(shù)據(jù)規(guī)范和數(shù)據(jù)集成、數(shù)據(jù)分析和結(jié)果呈現(xiàn)。本研究系統(tǒng)的總體架構(gòu)如圖1所示。
模塊一為數(shù)據(jù)準(zhǔn)備和數(shù)據(jù)清洗。為深入挖掘用戶在圖書(shū)館、互聯(lián)網(wǎng)知識(shí)社區(qū)、電子商務(wù)購(gòu)書(shū)平臺(tái)上的行為模式,本文的數(shù)據(jù)以北京大學(xué)圖書(shū)館的各類(lèi)數(shù)據(jù)為例,并引入Web圖書(shū)數(shù)據(jù)。不同數(shù)據(jù)的抽取方式存在很大差異,如北京大學(xué)圖書(shū)館的數(shù)據(jù)都是結(jié)構(gòu)化地存儲(chǔ)在數(shù)據(jù)庫(kù)中,因此只需要編寫(xiě)SQL語(yǔ)句就可以從數(shù)據(jù)庫(kù)中抽取出數(shù)據(jù);而京東等電商售書(shū)平臺(tái)的評(píng)論數(shù)據(jù)分散在不同網(wǎng)頁(yè)中,需要程序爬取后編寫(xiě)相關(guān)的正則表達(dá)式,去掉無(wú)關(guān)的網(wǎng)頁(yè)標(biāo)簽。
模塊二為數(shù)據(jù)規(guī)范和數(shù)據(jù)集成。圖書(shū)館用戶數(shù)據(jù)可分為用戶及其行為數(shù)據(jù)和館藏資源及其使用數(shù)據(jù)兩大類(lèi):用戶及其行為數(shù)據(jù)包含用戶基本信息和用戶行為,館藏資源及其使用數(shù)據(jù)包含館藏資源描述和館藏資源被使用情況。圖書(shū)館內(nèi)部用戶數(shù)據(jù)一般為結(jié)構(gòu)化數(shù)據(jù),其搜集方法通常是:根據(jù)特定需求,通過(guò)SQL語(yǔ)句從數(shù)據(jù)庫(kù)中查詢和導(dǎo)出。Web圖書(shū)數(shù)據(jù)又可分為用戶評(píng)價(jià)和書(shū)目補(bǔ)充數(shù)據(jù)、圖書(shū)銷(xiāo)售數(shù)據(jù)以及圖書(shū)被引數(shù)據(jù)三大類(lèi):用戶評(píng)價(jià)和書(shū)目補(bǔ)充數(shù)據(jù)包含豆瓣閱讀筆記、豆瓣評(píng)分與評(píng)價(jià),圖書(shū)銷(xiāo)售數(shù)據(jù)包含當(dāng)當(dāng)圖書(shū)銷(xiāo)售和京東圖書(shū)銷(xiāo)售數(shù)據(jù),圖書(shū)被引數(shù)據(jù)包含知網(wǎng)圖書(shū)被引數(shù)據(jù)。由于每一類(lèi)數(shù)據(jù)源的元數(shù)據(jù)格式、數(shù)據(jù)處理規(guī)則不同,數(shù)據(jù)清洗后的數(shù)據(jù)并不能直接用于數(shù)據(jù)分析,需要對(duì)數(shù)據(jù)進(jìn)行分類(lèi),并進(jìn)行人工審核和二次規(guī)范。數(shù)據(jù)規(guī)范完成后,再將各類(lèi)規(guī)范后的數(shù)據(jù)存放在數(shù)據(jù)庫(kù)表中,以備后續(xù)分析和使用,本文使用PostgreSQL關(guān)系型數(shù)據(jù)庫(kù)存儲(chǔ)數(shù)據(jù)。
模塊三為數(shù)據(jù)分析和結(jié)果呈現(xiàn)。本模塊在對(duì)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行分析與挖掘的基礎(chǔ)上,構(gòu)建用戶端的展示系統(tǒng),將最終分析結(jié)果呈現(xiàn)給用戶。該系統(tǒng)展示的內(nèi)容包括四類(lèi):圖書(shū)館藏信息、圖書(shū)補(bǔ)充信息、用戶借閱數(shù)據(jù)和Web用戶數(shù)據(jù)。尤其是用戶借閱數(shù)據(jù)和Web用戶數(shù)據(jù),可作為傳統(tǒng)書(shū)目系統(tǒng)數(shù)據(jù)的有效補(bǔ)充。例如,系統(tǒng)會(huì)根據(jù)用戶的檢索行為對(duì)用戶給予一定量的顯式反饋,如“查看更多館藏”“相似用戶推薦”等,數(shù)據(jù)管理員也可以通過(guò)瀏覽借閱日志分析發(fā)掘用戶的潛在需求。本系統(tǒng)后端采用Python下的網(wǎng)頁(yè)端框架Django,前端采用Vue.js用戶界面的漸進(jìn)式框架,結(jié)合Element桌面端組件庫(kù)共同搭建。
UML(Unified Modeling Language,統(tǒng)一建模語(yǔ)言)用例圖描述系統(tǒng)外部的執(zhí)行者與系統(tǒng)的用例之間的某種聯(lián)系,能夠較為確切和詳細(xì)地描述用戶的功能需求[27]。本系統(tǒng)主要包括三類(lèi)用戶:廣大讀者、數(shù)據(jù)管理員和系統(tǒng)管理員。對(duì)于讀者,可以查詢自己的個(gè)人信息,進(jìn)行圖書(shū)檢索、社群發(fā)現(xiàn),對(duì)系統(tǒng)進(jìn)行相關(guān)性反饋。數(shù)據(jù)管理員在日常工作中主要負(fù)責(zé)數(shù)據(jù)的管理與分析以及數(shù)據(jù)可視化展示,數(shù)據(jù)的管理與分析包括用戶借閱數(shù)據(jù)、Web用戶數(shù)據(jù)和圖書(shū)館藏?cái)?shù)據(jù)三個(gè)部分,每部分?jǐn)?shù)據(jù)都需要進(jìn)行查詢及添加、更新及刪除等;數(shù)據(jù)可視化展示包括對(duì)用戶借閱數(shù)據(jù)、Web用戶數(shù)據(jù)和圖書(shū)館藏?cái)?shù)據(jù)的可視化展示。系統(tǒng)管理員主要負(fù)責(zé)整個(gè)系統(tǒng)的運(yùn)轉(zhuǎn)和維護(hù),如系統(tǒng)界面和功能維護(hù)、后臺(tái)用戶增刪、用戶權(quán)限設(shè)定和系統(tǒng)日志維護(hù)等。用戶和用例的關(guān)系以及用例間關(guān)系如圖2所示。
3 數(shù)據(jù)源和數(shù)據(jù)處理方法
3.1 圖書(shū)館用戶數(shù)據(jù)源
北京大學(xué)圖書(shū)館內(nèi)部組織結(jié)構(gòu)調(diào)整后成立了國(guó)內(nèi)第一家高校圖書(shū)館數(shù)據(jù)中心——數(shù)據(jù)資源服務(wù)中心。該中心將所有數(shù)據(jù)分為:用戶及其行為數(shù)據(jù)、館藏資源及其使用數(shù)據(jù)、服務(wù)業(yè)務(wù)數(shù)據(jù)、財(cái)務(wù)數(shù)據(jù)、館員數(shù)據(jù)、科研類(lèi)數(shù)據(jù)、基礎(chǔ)數(shù)據(jù)、長(zhǎng)期保存數(shù)據(jù)8大類(lèi),進(jìn)一步劃分為94小類(lèi)數(shù)據(jù)。本文選擇的內(nèi)部數(shù)據(jù)源主要來(lái)自于用戶及其行為數(shù)據(jù)和館藏資源及其使用數(shù)據(jù)兩大類(lèi)。
用戶行為數(shù)據(jù)包含兩部分:一是描繪用戶基本信息的數(shù)據(jù),主要包含的數(shù)據(jù)項(xiàng)有用戶借閱證號(hào)、姓名、性別、身份、院系、學(xué)部、權(quán)限授予和到期時(shí)間等;二是描繪用戶在圖書(shū)館內(nèi)產(chǎn)生的進(jìn)館、借閱、預(yù)約、室內(nèi)閱覽等行為的數(shù)據(jù),以借閱數(shù)據(jù)為例,包含的數(shù)據(jù)項(xiàng)有借閱時(shí)間、借閱工作站編號(hào)、借閱館別、所借書(shū)條碼號(hào)、借閱用戶借閱證號(hào)等。
館藏資源及其使用數(shù)據(jù)也包含兩部分:一是描繪圖書(shū)館館藏資源的數(shù)據(jù),主要包含的數(shù)據(jù)項(xiàng)有機(jī)器可讀目錄MARC、圖書(shū)題名、作者、出版地、出版商、出版年、語(yǔ)種、分類(lèi)號(hào)、索書(shū)號(hào)等;二是描繪館藏資源被使用情況的數(shù)據(jù),主要包含的數(shù)據(jù)項(xiàng)有圖書(shū)編目時(shí)間、上架時(shí)間、外借時(shí)間、上一次借閱時(shí)間、當(dāng)前借閱狀態(tài)等。
3.2 Web圖書(shū)數(shù)據(jù)源
本文所選的Web數(shù)據(jù)源較為豐富,具體包括:豆瓣讀書(shū)數(shù)據(jù)、當(dāng)當(dāng)圖書(shū)數(shù)據(jù)、京東圖書(shū)數(shù)據(jù)以及中國(guó)知網(wǎng)引文數(shù)據(jù)庫(kù),以獲得書(shū)目基本信息之外的用戶評(píng)價(jià)與書(shū)目補(bǔ)充數(shù)據(jù)、圖書(shū)銷(xiāo)售數(shù)據(jù)和被引數(shù)據(jù)。
用戶評(píng)價(jià)與書(shū)目補(bǔ)充數(shù)據(jù):既包括用戶在閱讀某本圖書(shū)后留下的圖書(shū)摘要和評(píng)論,撰寫(xiě)的閱讀筆記、讀后感、相關(guān)圖書(shū)推薦等內(nèi)容,也包括反映用戶真實(shí)感受的情感值。豆瓣網(wǎng)是一個(gè)知識(shí)社區(qū)網(wǎng)站,用戶可以通過(guò)注冊(cè)的方式選擇自己感興趣的社區(qū)(包括豆瓣讀書(shū)、電影、音樂(lè)等),在所選社區(qū)中與其他用戶交流心得。以豆瓣讀書(shū)社區(qū)為例,每位用戶可以為感興趣的圖書(shū)打分、撰寫(xiě)評(píng)論、撰寫(xiě)讀書(shū)筆記等,其他用戶可以查看該圖書(shū)總得分、評(píng)價(jià)人數(shù)、評(píng)價(jià)星級(jí),從而對(duì)該書(shū)形成一個(gè)總體印象。據(jù)不完全統(tǒng)計(jì),豆瓣讀書(shū)每個(gè)月有800萬(wàn)的訪問(wèn)用戶數(shù)和上億的用戶訪問(wèn)量[28]。
圖書(shū)銷(xiāo)售數(shù)據(jù):截至2022年,我國(guó)各類(lèi)電商圖書(shū)零售碼洋規(guī)模占比為84.7%,實(shí)體店圖書(shū)零售碼洋規(guī)模占比為15.3%[29]。疊加疫情影響,線下銷(xiāo)售乏力的趨勢(shì)仍在持續(xù)。京東、當(dāng)當(dāng)為線上圖書(shū)銷(xiāo)量排行榜中前兩名的平臺(tái)。
圖書(shū)被引數(shù)據(jù):中國(guó)知網(wǎng)引文數(shù)據(jù)庫(kù)是依據(jù)中國(guó)知網(wǎng)收錄數(shù)據(jù)庫(kù)的文后參考文獻(xiàn)和文獻(xiàn)注釋為信息對(duì)象建立的具有特殊檢索功能的文獻(xiàn)數(shù)據(jù)庫(kù)[30],所提供的文獻(xiàn)資源引用數(shù)據(jù)包括期刊論文、博碩士學(xué)位論文、圖書(shū)、專(zhuān)利等。本文是以書(shū)目為研究對(duì)象,因而重點(diǎn)關(guān)注圖書(shū)被引這一數(shù)據(jù)指標(biāo)。
Web用戶數(shù)據(jù)一般為半結(jié)構(gòu)化或非結(jié)構(gòu)化的數(shù)據(jù),其搜集方法主要是通過(guò)編寫(xiě)程序自動(dòng)抓取,或者使用商業(yè)數(shù)據(jù)采集工具(如八爪魚(yú)等)進(jìn)行數(shù)據(jù)的抓取。本文通過(guò)python編寫(xiě)的爬蟲(chóng)和八爪魚(yú)工具相結(jié)合,采集了用戶評(píng)價(jià)與書(shū)目補(bǔ)充數(shù)據(jù)、圖書(shū)銷(xiāo)售數(shù)據(jù)和圖書(shū)被引數(shù)據(jù)。
3.3 數(shù)據(jù)處理方法
本文所用的數(shù)據(jù)處理方法包括:數(shù)據(jù)清洗、數(shù)據(jù)規(guī)范和數(shù)據(jù)集成。數(shù)據(jù)清洗所用的程序語(yǔ)言為Python編程語(yǔ)言,具體包括Numpy、Pandas等常用的數(shù)據(jù)清洗模塊;數(shù)據(jù)規(guī)范是指對(duì)每一大類(lèi)數(shù)據(jù),根據(jù)其元數(shù)據(jù)格式和數(shù)據(jù)處理規(guī)則不同,選擇合適的數(shù)據(jù)規(guī)范方法;數(shù)據(jù)集成是將規(guī)范的各類(lèi)數(shù)據(jù)集成到同一個(gè)數(shù)據(jù)庫(kù)的不同數(shù)據(jù)表中。其他的數(shù)據(jù)處理方法還包括中文分詞、英文詞干提取等。
4 系統(tǒng)實(shí)現(xiàn)的關(guān)鍵技術(shù)
4.1 融合用戶數(shù)據(jù)及內(nèi)容的圖書(shū)推薦方法
在圖書(shū)推薦方面,本文采用了結(jié)合圖書(shū)內(nèi)容、內(nèi)部數(shù)據(jù)源和Web數(shù)據(jù)源的綜合推薦算法,主要由以下三個(gè)步驟組成:首先,對(duì)當(dāng)當(dāng)購(gòu)書(shū)平臺(tái)、京東購(gòu)書(shū)平臺(tái)、豆瓣讀書(shū)平臺(tái)的圖書(shū)推薦列表,以及北京大學(xué)圖書(shū)館圖書(shū)借閱的共現(xiàn)圖書(shū)列表取并集,得到候選圖書(shū)列表;其次,依據(jù)內(nèi)部數(shù)據(jù)源和Web數(shù)據(jù)源中的數(shù)據(jù)及圖書(shū)的摘要內(nèi)容,對(duì)候選圖書(shū)列表中的每一本候選圖書(shū)進(jìn)行打分;最后,根據(jù)所有圖書(shū)得分,按照分值高低進(jìn)行排序,選擇分值最高的前n本圖書(shū)作為最終的推薦圖書(shū)列表。
4.2 摘要生成和關(guān)鍵詞提取方法
除圖書(shū)基本信息外,用戶評(píng)價(jià)及摘要數(shù)據(jù)是用戶在閱讀書(shū)目?jī)?nèi)容的基礎(chǔ)上,撰寫(xiě)的個(gè)人主觀感受,可以獨(dú)立于圖書(shū)著者的內(nèi)容簡(jiǎn)介,對(duì)這類(lèi)內(nèi)容的分析有助于加深其他用戶對(duì)該書(shū)的理解。
文本摘要是大至一本書(shū)、小至一段文字內(nèi)容的提煉和概括。隨著自然語(yǔ)言處理技術(shù)的不斷發(fā)展,生成式摘要和抽取式摘要均成為自動(dòng)摘要生成的主要方式[31]。自動(dòng)生成文本摘要的主要方法有:統(tǒng)計(jì)分析方法、主題模型方法、圖模型方法和機(jī)器學(xué)習(xí)方法等[32],這些方法已在實(shí)踐中有廣泛的應(yīng)用,如生成新聞?wù)?、學(xué)術(shù)報(bào)告摘要、法律文本摘要等。
與內(nèi)容概括式的摘要不同,用戶在閱讀平臺(tái)如豆瓣讀書(shū)等分享的內(nèi)容多種多樣,既包括對(duì)書(shū)內(nèi)容的概括、喜歡的章節(jié)摘抄,也包括讀后的感悟和思索。因此,對(duì)豆瓣讀書(shū)筆記的分析和挖掘,能夠補(bǔ)充傳統(tǒng)書(shū)目數(shù)據(jù)中內(nèi)容概括式摘要的不足,從提煉和分享用戶的閱讀體會(huì)出發(fā),貫徹“用戶中心”的理念。本文采用了TextRank算法對(duì)每本書(shū)的豆瓣評(píng)論文本進(jìn)行摘要生成與關(guān)鍵詞提取。其中,TextRank算法是一種基于圖的排序算法,主要用于文本的無(wú)監(jiān)督排序,其基本思想來(lái)源谷歌的PageRank算法。該算法通過(guò)構(gòu)建文本中的關(guān)鍵詞或句子之間的共現(xiàn)關(guān)系網(wǎng)絡(luò),評(píng)估每個(gè)關(guān)鍵詞或句子的重要性,進(jìn)而提取重要的關(guān)鍵詞或生成文本摘要。
4.3 情感分析方法
Web用戶評(píng)價(jià)及讀書(shū)筆記一般表達(dá)了撰寫(xiě)者的情感色彩和情感傾向性,如喜、怒、哀、樂(lè)、贊同、反對(duì)、中立等,其他用戶可以通過(guò)瀏覽這些內(nèi)容了解撰寫(xiě)者對(duì)于圖書(shū)的主觀感受,分析不同用戶的文本內(nèi)容能夠得出用戶對(duì)于圖書(shū)的情感值。
文本情感分析又稱(chēng)意見(jiàn)挖掘[33],主要研究如何從文本中發(fā)現(xiàn)或挖掘人們對(duì)于某種事物、產(chǎn)品或服務(wù)所表達(dá)出的情感、意見(jiàn)或情緒[34]。情感分析包括情感信息的抽取、情感信息的分類(lèi)以及情感信息的檢索與歸納[35],可以在篇章級(jí)、句子級(jí)和方面級(jí)三種粒度展開(kāi)[36]。
用戶的書(shū)目選擇和閱讀過(guò)程,既受到圖書(shū)主題和信息需求主題的相關(guān)性影響,也受到圖書(shū)所傳達(dá)的情緒和情感傾向的影響。用戶閱讀圖書(shū)特別是休閑閱讀的主要目的之一就包括尋求情感支持和情緒共鳴等。分析用戶分享的筆記文本的情感傾向,可以幫助其他用戶更好地判斷圖書(shū)所反映的情感特征是否符合其需求。本文在去除停用詞、中文分詞的基礎(chǔ)上,對(duì)每本書(shū)所有用戶的評(píng)價(jià)及讀書(shū)筆記調(diào)用SnowNLP①進(jìn)行情感分析,計(jì)算情感值得分。
5 原型系統(tǒng)展示
本文設(shè)計(jì)了一個(gè)“融合用戶數(shù)據(jù)的北京大學(xué)圖書(shū)館書(shū)目系統(tǒng)”,如圖3所示。
在圖3中,系統(tǒng)的主界面簡(jiǎn)要展示了第一頁(yè)共計(jì)10本書(shū)的基本信息,書(shū)目信息下方可選擇每頁(yè)顯示的數(shù)據(jù)數(shù)量和翻頁(yè)頁(yè)碼。每本書(shū)的具體信息包括:書(shū)名、作者、出版社、出版年、復(fù)本數(shù)、未借出復(fù)本數(shù)、索書(shū)號(hào)、館藏位置。點(diǎn)擊一本書(shū)后面的綠色“查看”按鈕,將會(huì)打開(kāi)該書(shū)的詳情界面,用戶可查看本書(shū)更為詳細(xì)的信息,管理員可進(jìn)行常規(guī)的增刪查改等操作,亦可完成批量導(dǎo)入導(dǎo)出等操作。
以一本書(shū)的詳情頁(yè)面為例,進(jìn)入這本書(shū)的詳情界面,首先可以看到圖書(shū)的題名和封面圖片,如圖4所示。
“圖書(shū)基本信息” 模塊與圖3所展示的系統(tǒng)主界面的內(nèi)容基本一致,包括書(shū)名、作者、出版社、出版年、復(fù)本數(shù)、未借出復(fù)本數(shù)、索書(shū)號(hào)和館藏位置(見(jiàn)圖5)。
“圖書(shū)補(bǔ)充信息”模塊包含這本書(shū)的內(nèi)容簡(jiǎn)介、作者簡(jiǎn)介、所屬學(xué)科和引用統(tǒng)計(jì)。其中,內(nèi)容簡(jiǎn)介、作者簡(jiǎn)介來(lái)自Web數(shù)據(jù)源當(dāng)當(dāng)圖書(shū)平臺(tái),所屬學(xué)科為教育部一級(jí)學(xué)科,引用統(tǒng)計(jì)為中國(guó)知網(wǎng)引文數(shù)據(jù)庫(kù)中的圖書(shū)被引次數(shù)(見(jiàn)圖6)。
“用戶借閱數(shù)據(jù)” 模塊反映了這本書(shū)在北京大學(xué)圖書(shū)館的借閱情況,具體包括:近五年總借閱量、 近五年本科生借閱量、近五年碩士研究生借閱量、近五年博士研究生借閱量、近五年教工借閱量、 近五年男性借閱量、 近五年女性借閱量、近五年借閱最多的學(xué)院和近五年借閱最多的學(xué)部。上述數(shù)據(jù)通過(guò)書(shū)目、借閱、用戶數(shù)據(jù)庫(kù)的SQL查詢得到,查詢結(jié)果如圖7所示。
“Web用戶數(shù)據(jù)” 模塊反映了這本書(shū)在豆瓣、當(dāng)當(dāng)、京東的評(píng)價(jià)和銷(xiāo)售情況,還包括對(duì)這些平臺(tái)的用戶評(píng)論、讀書(shū)筆記挖掘分析的結(jié)果。具體包括:豆瓣評(píng)分、評(píng)價(jià)人數(shù)、 5星占比、當(dāng)當(dāng)評(píng)價(jià)數(shù)、當(dāng)當(dāng)好評(píng)數(shù)、當(dāng)當(dāng)好評(píng)率、京東評(píng)價(jià)數(shù)、京東好評(píng)數(shù)、京東好評(píng)度、關(guān)鍵詞提取、情感值計(jì)算、文本摘要和圖書(shū)推薦(見(jiàn)圖8)。
6 結(jié)論與展望
信息技術(shù)的快速發(fā)展帶來(lái)了新的發(fā)展機(jī)遇。傳統(tǒng)的圖書(shū)館書(shū)目系統(tǒng)受到搜索引擎技術(shù)、電商平臺(tái)等的沖擊和挑戰(zhàn),用戶不再單純依賴書(shū)目系統(tǒng)進(jìn)行信息獲取和圖書(shū)借閱。這都為高校圖書(shū)館提升用戶獲取圖書(shū)的滿意度、更好履行信息提供者和用戶服務(wù)職能提出了更高的挑戰(zhàn)。
智慧圖書(shū)館是未來(lái)的發(fā)展方向,其體現(xiàn)之一就是要求圖書(shū)館系統(tǒng)能夠隨用戶需求的不斷提升而成長(zhǎng),不斷優(yōu)化圖書(shū)館的服務(wù)[4]。高校圖書(shū)館用戶在使用圖書(shū)館平臺(tái)時(shí),不僅需要館藏資源查詢、數(shù)據(jù)庫(kù)檢索等大多數(shù)圖書(shū)館平臺(tái)所具備的基本功能,還需要圖書(shū)推薦、用戶社群等更為豐富的交互、交流功能,這都要求圖書(shū)館相關(guān)學(xué)者和技術(shù)人員在充分考慮用戶需求的基礎(chǔ)上,不斷完善現(xiàn)有高校圖書(shū)館書(shū)目系統(tǒng)的功能。
本文旨在研究如何融合圖書(shū)館內(nèi)部用戶數(shù)據(jù)和Web用戶數(shù)據(jù),為高校圖書(shū)館書(shū)目系統(tǒng)的改進(jìn)提出設(shè)計(jì)方案,并實(shí)際搭建了原型系統(tǒng),主要研究?jī)?nèi)容如下:
(1)設(shè)計(jì)了一個(gè)融合用戶數(shù)據(jù)的高校圖書(shū)館書(shū)目系統(tǒng)的框架。系統(tǒng)的設(shè)計(jì)分為三個(gè)主要模塊:數(shù)據(jù)準(zhǔn)備和數(shù)據(jù)清洗、數(shù)據(jù)規(guī)范和數(shù)據(jù)集成、數(shù)據(jù)分析和結(jié)果呈現(xiàn)。
(2)闡述了圖書(shū)館用戶數(shù)據(jù)源和Web圖書(shū)數(shù)據(jù)源包含的內(nèi)容,以及數(shù)據(jù)處理方法,奠定了系統(tǒng)的基礎(chǔ)數(shù)據(jù)支撐。
(3)提出了系統(tǒng)實(shí)現(xiàn)的三個(gè)關(guān)鍵技術(shù):融合用戶數(shù)據(jù)及內(nèi)容的圖書(shū)推薦方法、豆瓣讀書(shū)筆記的摘要和關(guān)鍵詞生成方法以及情感分析方法。
(4)設(shè)計(jì)了一個(gè)融合用戶數(shù)據(jù)的北京大學(xué)圖書(shū)館書(shū)目系統(tǒng),對(duì)系統(tǒng)的界面和各個(gè)功能模塊進(jìn)行了展示。
圖書(shū)館書(shū)目系統(tǒng)是用戶與圖書(shū)館交互最多的系統(tǒng)之一,其易用性從很大程度上決定了是否可以滿足用戶最基本的需求。本研究主要聚焦于解決圖書(shū)館書(shū)目系統(tǒng)書(shū)目信息單一的問(wèn)題,通過(guò)集成和分析圖書(shū)館用戶數(shù)據(jù)和Web圖書(shū)數(shù)據(jù),豐富了書(shū)目信息的內(nèi)容,為下一代圖書(shū)館書(shū)目系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)提供了參考。
本文也存在一些研究不足:首先,本文僅選擇一所高校的圖書(shū)館數(shù)據(jù)作為內(nèi)部數(shù)據(jù)源,可能無(wú)法揭示各個(gè)圖書(shū)館用戶的總體特征,更無(wú)法反映我國(guó)各個(gè)地域(東部地區(qū)、中部地區(qū)、西部地區(qū))之間用戶使用資源的差異。其次,本文圖書(shū)推薦所用算法涉及權(quán)重的確定,不同專(zhuān)家間可能會(huì)存在一定程度的差異,該主觀因素會(huì)影響最終的推薦結(jié)果,可能不一定滿足用戶的實(shí)際需要。第三,系統(tǒng)未考慮相似用戶興趣的知識(shí)社群構(gòu)建。第四,未對(duì)系統(tǒng)進(jìn)行可用性評(píng)估。這些不足將會(huì)在今后的研究中不斷改進(jìn)完善。
隨著新一代圖書(shū)館系統(tǒng)的開(kāi)放性不斷增強(qiáng),圖書(shū)館開(kāi)源社區(qū)的技術(shù)水平不斷發(fā)展,相信在不遠(yuǎn)的未來(lái),高校圖書(shū)館書(shū)目系統(tǒng)將可以為用戶提供更好的個(gè)性化精準(zhǔn)服務(wù)。
參考文獻(xiàn):
[1] 霍建梅, 李書(shū)寧. 國(guó)外圖書(shū)館自動(dòng)化系統(tǒng)市場(chǎng)發(fā)展?fàn)顩r研究[J].大學(xué)圖書(shū)館學(xué)報(bào), 2012, 30 (4): 66-71.
[2] 吳建中. 走向第三代圖書(shū)館[J]. 圖書(shū)館雜志,2016,35(6): 4-9.
[3] 何珂.Folio框架下圖書(shū)館管理系統(tǒng)設(shè)計(jì)研究 [D]. 濟(jì)南:山東師范大學(xué), 2021.
[4] 王文清, 陳凌, 關(guān)濤. 融合發(fā)展的CALIS新一代圖書(shū)館服務(wù)平臺(tái)[J]. 數(shù)字圖書(shū)館論壇, 2020 (1): 2-10.
[5] 胡振寧. 上下求索 與時(shí)俱進(jìn)——深圳大學(xué)圖書(shū)館計(jì)算機(jī)管理集成系統(tǒng)(Sulcmis)發(fā)展歷程回顧(1985-2015)[J].圖書(shū)館論壇, 2017,37(6):36-44.
[6] 張志東,黃體楊,徐國(guó)英.云南大學(xué)圖書(shū)館自動(dòng)化管理系統(tǒng)發(fā)展歷程(1988-2018)[J].圖書(shū)館論壇,2019,39(9):12-18.
[7] MILLSAP L,F(xiàn)ERL T E.Search patterns of remote usersan analysis of OPAC transaction logs[J]. Information technology and libraries,1993,12(3):321-343.
[8] SCHULTHEISS S,LINHART A,BEHNERT C,et al. Known-item searches and search tactics in library search systems:results from four transaction log analysis studies[J/OL].[2022-04-15].https:// www.sciencedirect.com/science/article/abs/pii/ S0099133320301051.
[9] MOSCOSO P,GARCIA ORTIZ F M.Error and information messages in online public access catalogues[J].Revista espanola de documentacion cientifica,2008,31(1):52-65.
[10] TRIVEDI D,BHATT A,TRIVEDI M,et al.Assessment of e-service quality performance of university libraries[J]. Digital library perspectives,2021,37(4): 384-400.
[11] 何娟. 基于用戶個(gè)人及群體畫(huà)像相結(jié)合的圖書(shū)個(gè)性化推薦應(yīng)用研究[J].情報(bào)理論與實(shí)踐,2019,42(1):129-133,160.
[12] 胡云飛. 基于讀者行為分析和多視角聚類(lèi)算法的高校圖書(shū)館用戶畫(huà)像研究[D].杭州:浙江工業(yè)大學(xué),2019.
[13] HU J,JIN F,ZHANG G,et al.A user profile modeling method based on word2vec [C]// Proceedings of the IEEE International Conference on Software Quality,Reliability and Security (Companion Volume). Prague:IEEE,2017.
[14] WANG J,LI Z W,YAO J Y,et al.Adaptive user profile model and collaborative filtering for personalized news[M]//ZHOU X F, LI J Z,SHEN H,et al. Frontiers of WWW research and development-Apweb 2006.Harbin:8th Asia-Pacific Web Conference,2006:474-485.
[15] SHARMA S,RANA V.Web search personalization using semantic similarity measure[C]//Proceedings of the 2nd International Conference on Recent Innovations in Computing (ICRIC),Jammu:Springer International Publishing,2020.
[16] 陳楊,羅曉光.少兒圖書(shū)用戶畫(huà)像模型構(gòu)建及精準(zhǔn)營(yíng)銷(xiāo)分析——以分眾傳播理論為視角[J].中國(guó)出版,2019,(11): 50-53.
[17] 陳旭松.基于用戶行為序列建模的推薦算法研究[D].北京:中國(guó)科學(xué)技術(shù)大學(xué),2021.
[18] NAHOTKO M.Knowledge organization affordances in a faceted Online Public Access Catalog(Opac)[J]. Cataloging classification quarterly,2022,60(1):86-111.
[19] 林珍梅.基于Hadoop的高校圖書(shū)館閱讀書(shū)目智慧推薦系統(tǒng)設(shè)計(jì)[J].圖書(shū)館學(xué)研究,2020(23):91-101.
[20] 曹意.基于人工智能技術(shù)的圖書(shū)館書(shū)目協(xié)同推薦系統(tǒng)[J].現(xiàn)代電子技術(shù),2020, 43 (15):168-170,174.
[21] 唐樂(lè),李向前.基于用戶日志的OPAC推薦系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].數(shù)字圖書(shū)館論壇, 2019(1): 30-36.
[22] BELKIN N J.Anomalous states of knowledge as a basis for information retrieval[J].Canadian journal of information and library science,1980(5):133-143.
[23] 馬費(fèi)成,宋恩梅.信息管理學(xué)基礎(chǔ)[M].武漢:武漢大學(xué)出版社,2011:310-311.
[24] 喬歡.信息行為學(xué)[M].北京:北京師范大學(xué)出版社,2010: 168-169.
[25] KELLY D,TEEVAN J.Implicit feedback for inferring user preference:a bibliography[C]//Proceedings of the Acm Sigir Forum.New York:ACM,2003.
[26] 陳劍暉.美國(guó)圖書(shū)館門(mén)戶研究的啟示與思考[J].圖書(shū)館學(xué)研究,2015(3):89-92,101.
[27] 姚路,李靖,曾斌,等.管理信息系統(tǒng)[M].北京:國(guó)防工業(yè)出版社,2021:338-340.
[28] 2020年十大閱讀APP排行榜 古今中外文學(xué) 國(guó)外名著閱讀軟件[EB/OL].[2022-04-15].https://www.phb123. com/shenghuo/shuji/40525.html.
[29] 2022年圖書(shū)零售市場(chǎng)年度報(bào)告[EB/OL].[2023-09-02]. https://www.sohu.com/a/625857552_121124778.
[30] CNKI中國(guó)引文數(shù)據(jù)庫(kù)[EB/OL].[2022-04-15].http:// www.scaa.xhu.edu.cn/2c/1f/c2575a76831/page.htm.
[31] GAMBHIR M,GUPTA V.Recent automatic text summarization techniques:a survey[J].Artificial intelligence review,2017,47(1):1-66.
[32] 汪旭祥,韓斌,高瑞,等.基于改進(jìn)TextRank的文本摘要自動(dòng)提取[J].計(jì)算機(jī)應(yīng)用與軟件,2021,38(6):155-160.
[33] 周建,劉炎寶,劉佳佳.情感分析研究的知識(shí)結(jié)構(gòu)及熱點(diǎn)前沿探析[J].情報(bào)學(xué)報(bào),2020,39(1):111-124.
[34] MESSAOUDI C,GUESSOUM Z,BEN ROMDHANE L. Opinion mining in online social media:a survey[J].Social network analysis and mining,2022,12(1):25.
[35] 趙妍妍,秦兵,劉挺.文本情感分析[J].軟件學(xué)報(bào),2010, 21(8):1834-1848.
[36] 譚翠萍.文本細(xì)粒度情感分析研究綜述[J].大學(xué)圖書(shū)館學(xué)報(bào),2022,40(4):85-99,119.
[作者簡(jiǎn)介]
王一博 1992年,北京大學(xué)信息管理系博士生,北京大學(xué)圖書(shū)館館員,研究方向?yàn)橛脩粞芯?、?shù)據(jù)分析等。E-mail:wangyibo46@pku.edu.cn。
張鵬翼 1981年,北京大學(xué)信息管理系長(zhǎng)聘副教授,研究方向?yàn)橛脩粞芯?、信息組織等,本文通訊作者。E-mail:pengyi@pku.edu.cn。
①SnowNLP是一個(gè)python的類(lèi)庫(kù),可以應(yīng)用于中文文本數(shù)據(jù)的情感訓(xùn)練和預(yù)測(cè)。