呂娜娜
(廣州醫(yī)科大學 圖書館,廣東 廣州 511436)
21世紀大數據已經成為了不同研究領域,如生物醫(yī)學工程、計算智能、信息融合和人文社會科學的熱點問題.2012年3月,奧巴馬政府提出了“大數據研究和發(fā)展計劃”[1],其中將美國國家醫(yī)學圖書館作為計劃的重要組成部分,不僅重視圖書館中各類數據的收集、存儲、保護、管理和分析,而且提供大數據歸檔、保存、傳播以及其他數據的基礎設施服務.2015年,Saunders分析了63個高校圖書館的戰(zhàn)略計劃,發(fā)現40%的高校圖書館強調了數據服務[2].近年來,國內外圖書館已經將大數據技術應用于館藏資源建設及創(chuàng)新服務.通過運用不同的大數據框架,如Apache的Hadoop,將大數據技術和高效的機器學習算法相結合,建立以讀者決策為中心,將用戶數據進行存儲、分析與挖掘,為科研評價和重塑資源采購的館藏文獻資源新模式提供了決策性的幫助.開放的信息資源、評價指標的完善、科學的數據對重構圖書的文獻資源體系是難得的機遇[3].
圖書館管理系統(tǒng)是圖書館應用信息技術服務于讀者的支撐平臺,大多數的圖書館仍然使用集成自動化系統(tǒng),用于管理紙質資源和電子資源的編目.電子資源管理系統(tǒng)用來協(xié)助電子資源的選擇、訂購、訪問權限控制和購買預算等工作,或者將目錄和鏈接解析器合并到一個圖書館服務平臺的系統(tǒng)中,使這些不同的系統(tǒng)協(xié)同工作并保持更新同步.隨著數字化、網絡化、移動化技術以及大數據的產生,圖書館業(yè)務的外部技術環(huán)境和社會環(huán)境發(fā)生了根本性的變化,新出現了圖書館自動化服務平臺(Library Services Platform s,LSPs).它能在一個平臺上統(tǒng)一管理各種類型的文獻資源,實現圖書館所有資源的統(tǒng)一管理[4].
20世紀70年代以來圖書館廣泛使用機讀編目標準格式編制書目信息. MARC的相關記錄對于圖書館目錄來說是必不可少的,通常它由出版商提供,從而使目錄內容更易于被訪問.但是由美國國家信息標準組織(NISO)和UKSG共同發(fā)布的知識庫與相關工具(Knowledge Bases and Related Tools standard)也同樣重要.KBART是一種向鏈接解析器知識庫提交元數據的推薦格式,它可以從定制的數據包中獲得準確的書目信息.據NISO發(fā)布的消息稱,自第I階段實踐發(fā)布以來,超過75個出版社與內容供應商已簽署KBART,KBART第I階段實踐針對的是期刊,第II階段擴大到了開放獲取出版物、電子書和會議錄,并且特別針對提交聯盟訂購電子資源訂制包清單的方法作出了規(guī)定[5].
大數據不同于傳統(tǒng)數據, 它是數字化時代下產生的非結構化數據和半結構化數據.圖書館在文獻資源構建的過程中產生的大數據主要來源有以下幾種:(1)圖書館館藏文獻數據,如圖書館自身館藏資源、自建數據庫、固定資產、館舍情況等;(2)讀者行為數據,如讀者訪問數據庫的數據、借閱數據、讀者社交網絡數據、讀者需求為主導采購的數據等;(3)圖書館外部的數據,如館際互借數據、出版商數據等.
圖書館、出版商和學術交流社團需要共同協(xié)商建立一個正式標準的數據規(guī)范,通過采集到的大數據規(guī)范到圖書館采購文獻資源平臺系統(tǒng),利用大數據技術實現資源的匹配和分析,從而開發(fā)大數據的價值,以優(yōu)化現有的文獻資源管理體系,更好地為讀者服務.
圖書館在訂購館藏文獻資源時,需要重視本館的館藏發(fā)展建設政策制定的要求,結合所在院校學科發(fā)展的需求,完善館藏文獻資源的質量.不同類型的高等院校有不同的規(guī)劃館藏文獻資源建設發(fā)展的方向.醫(yī)學院校對于提供考試學習指南的資源非常感興趣,如醫(yī)療案例、圖片分析、課程與教師同步的課堂學習,同樣醫(yī)藥、化學等學科領域訂購的學術資源也很豐富,由視頻和多媒體資源組成的新醫(yī)療資源,絕對是讀者的需求.不同學科訂購的資源也有所差異,如STEM是最早采用電子資源的采購,主要側重于期刊內容,而人文社會科學學科主要購買的是紙質資源,因為它的電子資源更新較慢.
隨著信息時代的發(fā)展,圖書館不僅僅只是購買紙質和電子書刊,還包括了一些多媒體資源如遺傳學軟件工具、教學視頻、移動應用等.其中移動應用和多媒體平臺是電子資源的關鍵元素,許多圖書館員需要花費大量的時間跟出版商協(xié)商授權使用資源的許可和管理這些資源的訪問.這些新資源不在傳統(tǒng)的圖書館訂購的采購文檔中,但對于圖書館讀者而言是必不可少的,也是圖書館需要的一部分.
讀者決策采購(Patron-driven acquisition)簡稱PDA,是數字化時代圖書館采用的以讀者需求為主導,滿足讀者個性化、精細化服務的文獻資源建設新模式.近年來,國內外許多圖書館開展了PDA項目,例如加拿大安大略圖書館聯盟的PDA項目[6],加利福尼亞州立大學圖書館PDA項目[7],內蒙古圖書館“彩云服務”[8],江蘇大學與新華書店的PDA合作項目,廣州醫(yī)科大學“你選書、我買單”,等.
圖書館PDA項目自使用以來,已采集到大量的書目信息,讀者檢索偏好數據、讀者地理位置等結構化數據、半結構化數據和非結構化數據,通過運用大數據分析技術,可以更加有效地評估讀者對各種資源的閱讀偏好、學科需求、與圖書館的交互情況等,為PDA項目的經費額度、采購參數文檔的設定、讀者群體細分、重點學科建設、出版商的選擇等提供輔助決策,并能預測讀者新的知識服務需求,為文獻資源建設提供科學合理的薦購服務.
圖書館傳統(tǒng)的采購工作流程較為繁瑣,一本書從下單到上架與讀者見面,這一過程往往長達2-3個月,有時甚至更長.因此及時滿足讀者的需求,可以提高圖書館服務的效益.紙質資源的讀者決策采購可與書店合作,優(yōu)先將新書放置在圖書館新書借閱處,讀者識別身份后可以直接借閱,當圖書歸還后再進行數據的加工.例如佛山市圖書館[9]、江蘇大學的“新書借閱處”,內蒙古圖書館的“彩云服務計劃”.電子資源的讀者決策采購,即當讀者點擊瀏覽相關電子資源的鏈接,達到圖書館預設的瀏覽次數、試讀次數等量化指標后會自動觸發(fā)圖書館向出版商租用或購買.據調查,全美已實施PDA的圖書館大約占到了65%,且主要運用于電子資源的采購,香港中文大學、香港科技大學[10]也針對電子圖書展開了PDA實踐,實踐結果表明PDA模式可以有效補充館藏文獻資源的建設,降低館藏文獻采購成本,提高讀者的滿意度.
圖書館通過PDA項目的實施可以獲取讀者訪問數據庫的數據、借閱數據、感興趣的學科范圍以及讀者社交網絡數據等,從而充分利用電子資源使用統(tǒng)計和分析數據,例如COUNTER、大數據的統(tǒng)計分析挖掘功能、Google Analytics等,對讀者的行為數據進行統(tǒng)計以及分析其行為習慣和偏好,挖掘出潛在價值,對讀者推薦的文獻在指標和研究分析上通過影響因子、特征因子、Altmetrics等做資源評估.圖書館因此實現了個人化、個性化、精確化和智能化地向讀者推廣服務和推送及時消息,為改善圖書館的服務質量、資源優(yōu)化配置、學科服務、知識挖掘、資源評估等工作提供決策性的幫助.
讀者決策采購與大宗交易不同,PDA按點擊次數、按篇、按試讀量等方式進行采購,打破了以往的捆綁式和整庫采購方式.但是國內的中文電子書商如超星、中國知網、萬方等均采用整庫銷售的方式,圖書館在采購電子圖書時不能實現按冊或按種采購.但是當讀者決策采購模式出現后,圖書館可以跟當當網、中國亞馬遜、京東書城等零售商合作PDA項目,對傳統(tǒng)捆綁式的出版商形成一種壓迫,使其改變原有的銷售模式,積極開展電子資源的PDA項目.讀者決策采購可以在多媒體文獻資源的單個采購中發(fā)揮大用途.例如會計、醫(yī)學、外語、法律、建設工程等視頻庫、圖片資源庫和考試題庫等多媒體文獻資源,根據讀者的需求從而設定采購新模式.改變圖書館傳統(tǒng)的資源采購模式,以讀者為中心、讀者需求為驅動的PDA采購新模式可以提高采購文獻質量,加強館藏文獻檢索.
知識挖掘、資源優(yōu)化、數據分析等增值服務的需求已逐漸出現在用戶行為中,因此大數據應用在圖書館領域時,應加強圖書館與出版商、數據庫供應商、資源平臺、各聯盟之間的聯系,將讀者閱讀的偏好、資源使用情況、讀者需求等數據進行存儲、加工和管理,根據大數據的分析與挖掘將讀者群體細分化,最終為不同特征的讀者群體定制有針對性、個性化、精確化的推薦和推送消息.大數據挖掘圖書館的價值是以用戶需求為主導,有利于降低購買成本,發(fā)掘新的需求,提高服務質量,提高圖書館利用率.
大數據環(huán)境下構建PDA的文獻資源總體架構由大數據采集層、大數據預處理層、大數據存儲層、大數據分析層、讀者決策采購執(zhí)行層系統(tǒng)組成,如圖1所示.
圖1 大數據環(huán)境構建PDA文獻資源總體架構
圖書館大數據的采集是對圖書館的館藏資源數據、讀者行為數據、讀者社交網絡數據、出版商數據等實時接收.傳統(tǒng)數據主要來源于結構化數據,其中存儲、管理和分析數據量相對大數據而言較小,大多采用關系型數據庫和并行數據庫處理,而圖書館大數據是對所有類型數據的整合,所以數據采集采用一些通用分布式大數據工具.系統(tǒng)日志采集采用數據采集平臺Hadoop的Chukwa.它能夠滿足每秒數百兆的日志數據采集和傳輸需求.讀者社交網絡數據是讀者訪問移動圖書館、微博、微信、博客等平臺產生的數據,可以通過網絡爬蟲(crawler)或網站公開API等方式從網站上獲取數據信息.對于采購參數文檔、采購觸發(fā)參數、讀者權限數據、讀者學科研究數據等保密性要求較高的數據,可以通過與出版商、數據庫商、信息資源共享平臺等研究機構合作,使用特定系統(tǒng)接口等相關方式采集數據.
采集完成的數據集存在著數據屬性不一致、重復、不完整、含噪聲等問題,在導入數據前需要對這些數據進行預處理,去掉數據中的噪聲和無關數據,糾正不一致的數據,刪除重復數據等.通過Sqoop將多個數據源中的數據進行預處理,把原始數據轉換成適合數據分析挖掘的形式,并加載保存到HDFS分布式文件系統(tǒng)中,如圖2所示.圖書館大數據預處理過程要根據實施PDA項目計劃的需求,合理選擇數據中關聯字段,去除讀者觸發(fā)產生的重復數據,進而得到更精準的數據集.
在大數據時代,由于數據集變得更加龐大,傳統(tǒng)的數據倉庫已經不能滿足大數據的存儲需求.圖書館可以根據不同的數據類型選取不同的存儲方式.館藏文獻資源數據是結構化數據,可以用傳統(tǒng)關系型倉庫MYSQL進行存儲.讀者數據、圖書館外部網絡數據是半結構化數據和非結構化數據,可以用Hbase數據庫存儲,將Hbase中的所有數據文件都存儲在HDFS分布式文件系統(tǒng)上.
大數據處理、分析和挖掘是為了獲取海量數據潛在的知識內容.Hadoop是目前較為成熟的分布式處理開源框架.Hbase存儲的數據可以采用Hadoop的Mapreduce進行分布式并行運算.通過Mahout分析讀者的行為數據,將讀者群體進行細分,根據不同讀者的借閱行為、瀏覽記錄、觸發(fā)購買行為等數據進行關聯,挖掘不同讀者群體特征的偏好.依靠數據可視化的分析對讀者使用各種文獻資源和需求的程度,做出一些前瞻性的判斷,為以讀者為主導的圖書館資源采購提供精確的輔助性決策,更好地滿足讀者的需求.對于存儲于傳統(tǒng)關系型倉庫MYSQL數據,可以通過數據倉庫系統(tǒng)進行聯機分析處理(OLAP),如圖3所示.
圖3 數據分析與挖掘模塊
圖書館根據分析與挖掘的數據可以對讀者決策采購服務定制驗證,評估項目的實施成果.通過數據掌握學校重點學科的建設,對不同群體特征的讀者設置權限閾值,與出版商溝通調整提供的采購參數文檔,修改PDA采購觸發(fā)的參數,定期對PDA項目執(zhí)行過程進行數據監(jiān)控,保障預存經費有序合理利用,提高文獻的流通率.
圖2 大數據預處理模塊
大數據分析的內容和挖掘潛在的價值為圖書館服務提供了很好的方向.當前我國大數據產業(yè)正處于起步階段,用大數據實施PDA項目時面臨著大數據人才的缺乏、讀者隱私、大數據技術處理復雜等問題.
近年來我國大數據產業(yè)迅速發(fā)展,由于成熟的人才培訓體系尚未建立,直接導致各領域大數據人才短缺.大數據需要復合型的人才,其能夠對統(tǒng)計學、數據分析、數據挖掘可視化工具、自然語言處理等多方面知識綜合掌控.因此圖書館采用大數據技術實現PDA項目,需要一批數據館員,能夠具備開發(fā)分析應用程序模型的技能,實現依靠大數據重建圖書館的知識管理服務體系.
大數據信息安全問題主要是指大數據進行預處理、存儲、分析及預測時出現的用戶隱私泄露.圖書館利用大數據技術整合讀者數據,推斷讀者身份特征;通過社交網絡分析揭示讀者社交關系;利用語義分析推斷讀者的態(tài)度;讀者聚類分析發(fā)現讀者所在群體;分類分析,預測判別讀者偏好推薦消息等.實際上這些分析挖掘的數據已經侵犯到讀者的隱私,威脅到讀者的隱私安全.為了保護讀者的隱私,應建立健全法律法規(guī),加強行業(yè)自我管制,采取社交網絡匿名保護監(jiān)控等相關措施.
傳統(tǒng)的數據庫的算法已無法單獨分析、挖掘處理大數據的內容.以Hadoop為核心融合技術在大數據行業(yè)中被廣泛應用.大數據的架構比較復雜且在不斷的發(fā)展,其中MepReduce不適應實時應用的需求,Hadoop的工作流系統(tǒng)Oozie和數據傳輸系統(tǒng)Sqoop都需要單獨開發(fā)人員來部署,大數據技術本身內部的融合性與傳統(tǒng)數據倉庫技術的融合度也不是太好,如何用好大數據每項技術是個難題.
目前國內外使用大數據技術應用于PDA圖書館文獻資源采購模式的研究正處于初期階段,其中資料重組、資料標準化和數據建模需要做大量的工作,存儲和處理的數據也日益增長,圖書館數據的復雜性,給圖書館館員帶來了新的挑戰(zhàn).基于大數據技術搭建的PDA架構需要出版商、政府、圖書館界及廣大讀者等多方積極的參與和配合.如何搭建圖書館大數據PDA平臺,如何有效利用圖書館聯盟共享PDA服務帶來的效益,如何培訓數據館員,樹立大數據思維,加強數據素質,是日后圖書館發(fā)展需解決的問題.