康 娜,于 琦b,李 琳,賀 強(qiáng)
(山西醫(yī)科大學(xué) a.圖書館;b.管理學(xué)院,山西 晉中 030619)
隨著信息技術(shù)的不斷發(fā)展,圖書館正在從封閉、機(jī)械的服務(wù)方式向開放、智慧的服務(wù)方式轉(zhuǎn)變,如何存儲(chǔ)海量數(shù)據(jù)、如何從海量數(shù)據(jù)中挖掘出有價(jià)值的信息、如何培養(yǎng)出高水平的圖書館員是實(shí)現(xiàn)圖書館智慧服務(wù)的重點(diǎn)。2003年,芬蘭學(xué)者Aittola M提出“智慧圖書館”的概念,隨即成為圖書館的研究熱點(diǎn)。武漢大學(xué)信息資源研究中心陳遠(yuǎn)等提出,智慧服務(wù)包括智慧性技術(shù)服務(wù)和智慧性知識(shí)服務(wù)。智慧性技術(shù)服務(wù)是指通過使用智慧化設(shè)備幫助讀者實(shí)現(xiàn)知識(shí)的“易知易用”。例如Kiril Antevski等提出一種基于低功耗藍(lán)牙和Wi-Fi的混合定位系統(tǒng),用戶通過該系統(tǒng)在智慧圖書館中按照興趣創(chuàng)建學(xué)習(xí)群,在該群內(nèi)與興趣相同的人進(jìn)行學(xué)習(xí)和討論。智慧性知識(shí)服務(wù)指通過對(duì)圖書館海量數(shù)據(jù)進(jìn)行挖掘,最大限度地開發(fā)其價(jià)值,為圖書館智慧性知識(shí)服務(wù)提供建議。例如青島大學(xué)陳淑英等采用關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘技術(shù)對(duì)不同專業(yè)用戶群4年圖書借閱數(shù)據(jù)進(jìn)行分析,為圖書館提供有針對(duì)性的圖書推薦方法,提升圖書館智慧性知識(shí)服務(wù)能力。江蘇理工學(xué)院柳益君等提出圖書館智慧服務(wù)需求表現(xiàn)在四個(gè)方面:1)知識(shí)零空間共享,讓隱性知識(shí)顯性化,讓知識(shí)的傳播沒有障礙;2)個(gè)性化推薦,根據(jù)用戶需求,為用戶提供更有針對(duì)性的知識(shí)服務(wù);3)知識(shí)導(dǎo)航,將知識(shí)按主題劃分模塊,為用戶提供不同主題的知識(shí)模塊;4)圖書館業(yè)務(wù)優(yōu)化,優(yōu)化圖書館館藏、采購質(zhì)量、人員配備、信息安全等,并根據(jù)用戶需求安排閱讀推廣、講座等不同主題的活動(dòng)。目前,國內(nèi)圖書館智慧服務(wù)研究主要集中于智慧服務(wù)模式、發(fā)展策略和技術(shù)實(shí)踐這三個(gè)方面,其中關(guān)于技術(shù)實(shí)踐研究的論文較少。鑒于此,本文基于圖書館智慧服務(wù)需求提出基于Hadoop的圖書館智慧服務(wù)體系,探討圖書館智慧知識(shí)服務(wù),為圖書館采用大數(shù)據(jù)挖掘算法和技術(shù)實(shí)現(xiàn)智慧化知識(shí)服務(wù)提供參考。
隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,圖書館產(chǎn)生巨大的數(shù)據(jù)量,海量數(shù)據(jù)的挖掘成為圖書館實(shí)現(xiàn)智慧服務(wù)的關(guān)鍵問題。Hadoop是Apache開源組織的一個(gè)分布式計(jì)算開源框架,具有跨數(shù)據(jù)源分析、離線計(jì)算、對(duì)數(shù)據(jù)進(jìn)行二次加工等優(yōu)點(diǎn),Hadoop HDFS具備動(dòng)態(tài)擴(kuò)容和冗余化存儲(chǔ)的能力,滿足圖書館數(shù)據(jù)挖掘的需求。故本文構(gòu)建了基于Hadoop的圖書館大數(shù)據(jù)挖掘技術(shù)支撐體系,以支持圖書館的智慧服務(wù),如圖1所示。
圖1 基于Hadoop的技術(shù)支撐體系
2.2.1 用戶數(shù)據(jù)。用戶數(shù)據(jù)包括:1)顯性行為數(shù)據(jù),如讀者借閱數(shù)據(jù)、下載、收藏、打分等;2)隱性行為數(shù)據(jù),如讀者瀏覽記錄、點(diǎn)擊量等;3)個(gè)人信息數(shù)據(jù),如性別、年齡、專業(yè)等;4)社交數(shù)據(jù),如論壇、微博、微信等;5)終端感知數(shù)據(jù),如位置、時(shí)間、設(shè)備參數(shù)等。
2.2.2 知識(shí)資源。知識(shí)資源數(shù)據(jù)包括書目庫、專利庫、中外期刊文獻(xiàn)、電子資源等。
2.2.3 業(yè)務(wù)流程。業(yè)務(wù)流程數(shù)據(jù)包括各類咨詢、檢索查新、資源采購、館際互借、文獻(xiàn)傳遞、門禁、選座系統(tǒng)等。
用戶數(shù)據(jù)中的社交數(shù)據(jù)、終端感知數(shù)據(jù)、部分行為數(shù)據(jù)等屬于外部數(shù)據(jù),需要通過爬蟲技術(shù)從互聯(lián)網(wǎng)上采集,如Nutch、Heritrix等。知識(shí)資源、業(yè)務(wù)流程、讀者個(gè)人信息等屬于館內(nèi)數(shù)據(jù),可通過Cloudera的Flume系統(tǒng)、Facebook的Scribe系統(tǒng)、Apache的Chukwa系統(tǒng)等進(jìn)行采集,以供后續(xù)數(shù)據(jù)分析使用。Flume系統(tǒng)設(shè)計(jì)架構(gòu)巧妙,提供了豐富的agent和collector,用戶幾乎不必進(jìn)行任何額外開發(fā)即可使用。Scribe系統(tǒng)設(shè)計(jì)簡單,易于使用,但容錯(cuò)和負(fù)載均衡方面不夠好。Chukwa系統(tǒng)屬于Hadoop系列產(chǎn)品,直接支持Hadoop,但版本更新較快。
Hadoop的HDFS具備動(dòng)態(tài)擴(kuò)容和存儲(chǔ)多份數(shù)據(jù)的能力,是大數(shù)據(jù)存儲(chǔ)中最主流的解決方法之一,一般用于存儲(chǔ)處理要求不高的數(shù)據(jù),例如圖書情報(bào)界全年關(guān)于智慧服務(wù)的論文。MongoDB適用于實(shí)時(shí)的插入、更新與查詢的場景,例如讀者社交信息、讀者查詢記錄等。HBase適用于海量數(shù)據(jù)的存儲(chǔ)和高并發(fā)查詢的場景,例如圖書館電子資源訪問日志。Memcached和Redis為關(guān)系型數(shù)據(jù)庫提供了緩存機(jī)制,提升了系統(tǒng)響應(yīng)速度。
數(shù)據(jù)挖掘可以從海量數(shù)據(jù)中最大限度地挖掘出有價(jià)值的信息,為圖書館智慧服務(wù)提供依據(jù)。面對(duì)海量數(shù)據(jù)傳統(tǒng)的數(shù)據(jù)分析模型已經(jīng)無法應(yīng)付,基于Hadoop的MapReduce框架提供了解決方案,并得到充足的發(fā)展。然而,相較傳統(tǒng)Hadoop MapReduce框架法,SparkMLlib在運(yùn)行速度、易用性、通用性及容錯(cuò)性上都有更好的表現(xiàn),擁有更高更快更強(qiáng)的計(jì)算速度。故在數(shù)據(jù)挖掘?qū)硬捎肧parkMLlib機(jī)器學(xué)習(xí)庫,包括關(guān)聯(lián)規(guī)則、分類、時(shí)間序列等50多種常見的分布式模型訓(xùn)練算法。
2.3.1 關(guān)聯(lián)規(guī)則算法。關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘重要算法之一,其目的是分析和預(yù)測項(xiàng)目間的關(guān)聯(lián)強(qiáng)度。迄今為止,有很多高效的關(guān)聯(lián)規(guī)則算法被提出,其中最重要的是美國學(xué)者R.Agrawal于1993年提出的Apriori算法,以及J.Han等人于2000年提出的FP-tree算法。在圖書館智慧服務(wù)中,關(guān)聯(lián)規(guī)則算法使用范圍廣、頻率高,主要用于挖掘讀者借閱記錄和借閱日志建立分析模型,根據(jù)分析結(jié)果向讀者推薦強(qiáng)關(guān)聯(lián)圖書,實(shí)現(xiàn)圖書館智慧服務(wù),同時(shí)還可根據(jù)分析結(jié)果調(diào)整館藏布局,減少讀者找書的時(shí)間。北華大學(xué)李欣提出在圖書館集成管理系統(tǒng)的基礎(chǔ)上采用強(qiáng)關(guān)聯(lián)規(guī)則挖掘技術(shù)實(shí)現(xiàn)圖書精準(zhǔn)查詢和個(gè)性化推薦功能。
2.3.2 分類算法。分類算法的目的是將圖書館讀者群體按照專業(yè)、性別、年齡等因素進(jìn)行分類,找出各群體的特征、群體間的關(guān)聯(lián)、識(shí)別特殊群體等。根據(jù)群體特征圖書館可提供有針對(duì)性的服務(wù),從而提高圖書館的服務(wù)質(zhì)量,實(shí)現(xiàn)圖書館智慧化服務(wù)。常見的分類算法有貝葉斯分類、決策樹分類、神經(jīng)網(wǎng)絡(luò)、SVM等。電子科技大學(xué)圖書館員彭瑩采用C5.0決策樹對(duì)讀者借閱數(shù)據(jù)進(jìn)行分析,建立讀者借閱頻度決策樹分類模型,根據(jù)分析結(jié)果對(duì)圖書館的流通規(guī)則和采購策略提出優(yōu)化建議。
2.3.3 時(shí)間序列算法。時(shí)間序列研究的是該數(shù)列隨時(shí)間發(fā)展變化的規(guī)律,主要用于研究圖書館讀者、資源的流通規(guī)律,建立分析預(yù)測模型,預(yù)測未來某段時(shí)間圖書館的情況,為圖書館開展服務(wù)活動(dòng)、人員安排等方面提供支持。寧夏師范學(xué)院王建對(duì)寧夏師范學(xué)院圖書館2011—2016年圖書資源相關(guān)數(shù)據(jù)進(jìn)行短期預(yù)測分析,建立季節(jié)指數(shù)平滑模型,通過實(shí)驗(yàn)證明模型檢驗(yàn)效能較好。
在圖1的智慧服務(wù)應(yīng)用層中,Lucene是Apache支持和提供的一個(gè)開源的全文搜索引擎工具包,提供了完整的查詢引擎和索引引擎。Slor和Elasticsearch則是兩個(gè)基于Lucene的、有著豐富的查詢語言的全文搜索服務(wù)器,為檢索、推送、知識(shí)導(dǎo)航、知識(shí)問答等智慧服務(wù)應(yīng)用提供了技術(shù)支持。基于數(shù)據(jù)挖掘的智慧服務(wù)應(yīng)用主要體現(xiàn)在以下4個(gè)方面:1)用戶群挖掘。用戶社交數(shù)據(jù)包括科研成果、研究方向、學(xué)歷、專業(yè)等個(gè)人信息,以及微信、QQ等社交數(shù)據(jù),用戶群挖掘是對(duì)用戶社交數(shù)據(jù)采用關(guān)聯(lián)規(guī)則、聚類、時(shí)間序列等挖掘方法分析出用戶之間的關(guān)聯(lián),實(shí)現(xiàn)知識(shí)共享。2)用戶興趣挖掘。采用已有的數(shù)據(jù)挖掘技術(shù)對(duì)用戶興趣數(shù)據(jù)進(jìn)行挖掘,分析用戶需求,根據(jù)分析結(jié)果有針對(duì)性地向用戶推薦各類資源,實(shí)現(xiàn)智慧性知識(shí)推薦。3)學(xué)科和領(lǐng)域知識(shí)挖掘。采用數(shù)據(jù)挖掘方法對(duì)文獻(xiàn)、知識(shí)資源數(shù)據(jù)進(jìn)行挖掘,實(shí)現(xiàn)自動(dòng)知識(shí)導(dǎo)航。4)業(yè)務(wù)關(guān)聯(lián)挖掘。業(yè)務(wù)數(shù)據(jù)包括用戶咨詢數(shù)據(jù)、科技查新數(shù)據(jù)、資源采購數(shù)據(jù)、流通數(shù)據(jù)、用戶行為數(shù)據(jù)等,采用關(guān)聯(lián)規(guī)則、聚類、時(shí)間序列等分析方法對(duì)業(yè)務(wù)數(shù)據(jù)進(jìn)行挖掘,發(fā)現(xiàn)某時(shí)間段、某類用戶與某種業(yè)務(wù)之間的關(guān)聯(lián),發(fā)現(xiàn)進(jìn)館人數(shù)與天氣的關(guān)聯(lián),為圖書館開展服務(wù)活動(dòng)、資源采購、人員安排等方面提供支持。
建立符合自身機(jī)構(gòu)特色的智慧知識(shí)服務(wù)引擎是圖書館智慧服務(wù)方式之一,目的是為用戶提供有針對(duì)性的服務(wù),提高圖書館知識(shí)資源的利用率。本文提出一種智慧知識(shí)服務(wù)引擎體系,如圖2所示。
圖2 智慧知識(shí)服務(wù)引擎框架圖
智慧知識(shí)服務(wù)引擎包括知識(shí)源層、知識(shí)存儲(chǔ)層、知識(shí)表示層、知識(shí)處理層和知識(shí)反饋層4個(gè)部分。第1層是知識(shí)源層,即圖書館數(shù)據(jù)來源,只要能夠?yàn)橛脩籼峁┲腔鄯?wù)、滿足用戶知識(shí)需求的數(shù)據(jù)都可作為知識(shí)源,一般分為以下3類:1)館內(nèi)藏書、文獻(xiàn)、電子數(shù)據(jù)庫等靜態(tài)知識(shí)源;2)RFID、讀者借閱行為記錄、圖書館電子設(shè)備記錄數(shù)據(jù)等動(dòng)態(tài)知識(shí)源;3)館際互借數(shù)據(jù)、文獻(xiàn)傳遞等館外知識(shí)源。第2層是知識(shí)存儲(chǔ)層,根據(jù)數(shù)據(jù)大小、類型、更新頻率等特有性質(zhì)將知識(shí)分層動(dòng)態(tài)存儲(chǔ),方便隨時(shí)調(diào)用。第3層是知識(shí)表示層,將知識(shí)進(jìn)行統(tǒng)一標(biāo)識(shí),文章提出的引擎體系采用本體表示法,讓隱性知識(shí)變?yōu)轱@性知識(shí)。第4層是知識(shí)處理層,主要包括以下3個(gè)處理過程:1)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理和簡單的統(tǒng)計(jì)分析;2)根據(jù)數(shù)據(jù)特性采用相應(yīng)的數(shù)據(jù)挖掘方法,建立知識(shí)分析模型庫;3)對(duì)分析后的知識(shí)進(jìn)行信度與效度檢驗(yàn),通過檢驗(yàn)將其存入知識(shí)庫中,并將知識(shí)庫劃為學(xué)科庫、專題庫、知識(shí)導(dǎo)航庫、特色知識(shí)庫等。第五層是知識(shí)反饋層,根據(jù)第四層建立的知識(shí)庫建立索引庫和倒排檔,當(dāng)用戶輸入服務(wù)請(qǐng)求后系統(tǒng)經(jīng)過前四層的處理,最后在第五層的索引庫和倒排檔中進(jìn)行知識(shí)匹配,并將匹配結(jié)果按照匹配度大小輸出到交互界面。經(jīng)過以上五層知識(shí)處理,用戶在交互界面得到與請(qǐng)求相匹配的個(gè)性化檢索結(jié)果,實(shí)現(xiàn)圖書館個(gè)性化智慧服務(wù)。
在“互聯(lián)網(wǎng)+”背景下,信息技術(shù)不斷發(fā)展,圖書館的數(shù)據(jù)量激增,應(yīng)用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)圖書館的智慧服務(wù)是圖書館發(fā)展的必然趨勢。基于Hadoop的技術(shù)支撐體系實(shí)現(xiàn)了圖書館數(shù)據(jù)的集成、存儲(chǔ)、處理和應(yīng)用,數(shù)據(jù)處理是核心環(huán)節(jié),是實(shí)現(xiàn)圖書館知識(shí)共享、知識(shí)推薦、知識(shí)導(dǎo)航等智慧服務(wù)的關(guān)鍵技術(shù),基于數(shù)據(jù)挖掘的圖書館智慧知識(shí)服務(wù)成為圖書館服務(wù)新模式。本文的研究為圖書館應(yīng)用數(shù)據(jù)挖掘方法和技術(shù)實(shí)現(xiàn)圖書館智慧服務(wù)提供了參考,但仍存在一定的局限性和不足,未來可側(cè)重于研究如何應(yīng)用數(shù)據(jù)挖掘方法從海量圖書館數(shù)據(jù)中找到更有意義有價(jià)值的信息,從而使圖書館實(shí)現(xiàn)更精準(zhǔn)的智慧化服務(wù)。