劉桂鋒 盧章平 化 慧
圖書館大數(shù)據(jù)知識服務(wù)生態(tài)體系及其動力機制研究??
劉桂鋒盧章平化慧
大數(shù)據(jù)技術(shù)為圖書館知識服務(wù)帶來了發(fā)展機遇。基于信息生態(tài)鏈理論,闡述大數(shù)據(jù)管理系統(tǒng)和大數(shù)據(jù)服務(wù)體系,提出“服務(wù)3.0”的大數(shù)據(jù)服務(wù)理念,并構(gòu)建圖書館大數(shù)據(jù)知識服務(wù)生態(tài)體系模型,在此基礎(chǔ)上探討體系構(gòu)成要素及其動力機制,以期為圖書館更好地開展知識服務(wù)提供理論依據(jù)與實踐參考。圖4。表1。參考文獻28。
大數(shù)據(jù) 數(shù)據(jù)管理 數(shù)據(jù)服務(wù) 數(shù)據(jù)科學 數(shù)據(jù)館員
大數(shù)據(jù)技術(shù)為圖書館知識服務(wù)提供了前所未有的先決條件與發(fā)展機遇,引發(fā)了知識服務(wù)內(nèi)容(拓寬知識服務(wù)的內(nèi)涵與外延)和知識服務(wù)方式(數(shù)據(jù)清洗和知識咨詢服務(wù))的巨大變革[1]。大數(shù)據(jù)知識服務(wù)引起了國內(nèi)外諸多學者的濃厚興趣。當前,大數(shù)據(jù)知識服務(wù)研究一般集中在三個方面。一是基礎(chǔ)理論研究,主要包括大數(shù)據(jù)知識服務(wù)的概念、特征、模式、模型等。如,秦曉珠等[2]認為大數(shù)據(jù)知識服務(wù)概念模型包括數(shù)據(jù)、知識、資源、能力、服務(wù)、過程和任務(wù)七個元素;官思發(fā)[3]在深入分析大數(shù)據(jù)知識服務(wù)關(guān)鍵要素的基礎(chǔ)上構(gòu)建了大數(shù)據(jù)知識服務(wù)的概念模型;Begoli等[4]提出了包含數(shù)據(jù)收集與分析、系統(tǒng)組織、數(shù)據(jù)利用三個階段的基于大數(shù)據(jù)的數(shù)據(jù)發(fā)現(xiàn)系統(tǒng)設(shè)計原則。二是平臺技術(shù)研究,主要包括平臺體系結(jié)構(gòu)以及配套的關(guān)鍵技術(shù)等。如,李晨暉等[5]認為大數(shù)據(jù)平臺體系的關(guān)鍵技術(shù)有數(shù)據(jù)管理與處理技術(shù)、虛擬化接入技術(shù)、全生命周期管理技術(shù)、終端交互技術(shù)等;孫卓[6]構(gòu)建了涵蓋知識源與過濾層、知識存儲層、知識表示與標引層、知識處理與挖掘?qū)?、知識檢索與反饋層的圖書館知識服務(wù)引擎體系;Cai等[7]構(gòu)建了由數(shù)據(jù)收集、信息處理、知識檢索、決策支持四個部分組成的大數(shù)據(jù)知識服務(wù)平臺。三是應(yīng)用領(lǐng)域研究。如大數(shù)據(jù)知識服務(wù)在Google、Facebook、Twitter、LinkedIn等搜索引擎或社交媒體中的商業(yè)化應(yīng)用[8],其中Google是運用大數(shù)據(jù)技術(shù)最為成功的公司之一,通過對客戶檢索行為的大數(shù)據(jù)分析而推出目標廣告。除此之外,大數(shù)據(jù)知識服務(wù)還廣泛應(yīng)用于物理科學、醫(yī)療健康、人工智能、生物、文化、政治、司法鑒定、商業(yè)管理等各個領(lǐng)域。國內(nèi)外圖書館應(yīng)用大數(shù)據(jù)技術(shù)主要開展數(shù)據(jù)挖掘、數(shù)據(jù)分析工作,以及基于用戶數(shù)據(jù)的數(shù)據(jù)創(chuàng)意服務(wù)、文獻關(guān)聯(lián)推薦服務(wù)等[9]。以上研究成果分別從基礎(chǔ)理論、平臺體系與應(yīng)用領(lǐng)域的視角對大數(shù)據(jù)知識服務(wù)進行了初步的探索,而本研究則以信息生態(tài)鏈理論為基礎(chǔ)構(gòu)建圖書館大數(shù)據(jù)知識服務(wù)生態(tài)體系,并提出“服務(wù)3.0”理念,最后詳細分析了體系構(gòu)成要素及其動力機制,以便為圖書館進行大數(shù)據(jù)知識服務(wù)的理論研究和實踐探索提供參考。
1.1體系構(gòu)建的基本原理
德國學者于1989年提出“信息生態(tài)學”概念,由此開啟了該學科的發(fā)展歷程[10]。1999年,美國學者提出“信息生態(tài)系統(tǒng)”概念,認為信息生態(tài)系統(tǒng)是在特定環(huán)境里由人、實踐、技術(shù)和價值所構(gòu)成的系統(tǒng),占據(jù)核心地位的是技術(shù)支持下的信息主體人,而不是信息技術(shù)。信息主體人包括信息生產(chǎn)者、信息分配者、信息傳播者和信息分解者[11]。信息生態(tài)系統(tǒng)主要由信息子、信息素、信息場、信息鏈、信息網(wǎng)、信息域、信息圈等諸要素組成,其中信息鏈是通過信息的流動溝通無數(shù)信息場的通道,是信息生態(tài)系統(tǒng)的“靈魂”[12]。信息生態(tài)鏈包括信息、信息人和信息環(huán)境等基本要素,具有空間結(jié)構(gòu)、時序變動和管理等基本特征[13]。信息生態(tài)鏈的構(gòu)成主體是不同種類的信息人,其功能實質(zhì)是實現(xiàn)不同種類信息人之間的信息流轉(zhuǎn)[14]。
圖書館大數(shù)據(jù)知識服務(wù)系統(tǒng)是一個由信息、信息人和信息環(huán)境等要素構(gòu)成的特色鮮明的信息生態(tài)體系。信息指的是圖書館為讀者提供服務(wù)的過程中產(chǎn)生的各式各樣的數(shù)據(jù)。信息環(huán)境指的是直接或間接影響信息人的生存和發(fā)展的各種條件的總和,包括外部信息環(huán)境和內(nèi)部信息環(huán)境。信息人在圖書館大數(shù)據(jù)的產(chǎn)生、存儲、計算、分析和決策等環(huán)節(jié)中承擔著信息生產(chǎn)者、信息分解者、信息傳播者和信息消費者等不同角色,這四種角色對信息進行處理,并相互作用,環(huán)環(huán)相扣,構(gòu)成信息生態(tài)體系。研究圖書館大數(shù)據(jù)知識服務(wù)信息生態(tài)體系,有利于從微觀視角揭示其構(gòu)成要素與運行機制,有利于從宏觀視角提出圖書館面向讀者的大數(shù)據(jù)知識服務(wù)一體化解決方案,為圖書館服務(wù)在大數(shù)據(jù)時代的轉(zhuǎn)型發(fā)展提供理論基礎(chǔ)和實踐參考。
1.2大數(shù)據(jù)管理系統(tǒng)構(gòu)成
借鑒數(shù)據(jù)生命周期理論,并參考大數(shù)據(jù)管理架構(gòu)、系統(tǒng)與平臺[15-17]的相關(guān)文獻,筆者提出大數(shù)據(jù)管理系統(tǒng)主要由獲取、存儲、計算、分析和決策五個子系統(tǒng)組成,其中獲取是基礎(chǔ)條件,存儲、計算和分析是關(guān)鍵環(huán)節(jié),決策是最終目標。數(shù)據(jù)獲取是大數(shù)據(jù)管理的源頭,必須把好質(zhì)量關(guān),合理選取數(shù)據(jù)源以及數(shù)據(jù)采集、解析、清洗與自動修復、整合與演化的方法。數(shù)據(jù)質(zhì)量需要滿足精確性、一致性、完整性、同一性、實效性和真實性等條件。存儲系統(tǒng)主要解決數(shù)據(jù)的海量化、快增長問題,應(yīng)對不同格式的數(shù)據(jù)對存儲技術(shù)提出的挑戰(zhàn)。谷歌文件系統(tǒng)(GFS)和Hadoop分布式文件系統(tǒng)(HDFS)為大數(shù)據(jù)的存儲奠定了基礎(chǔ)。存儲系統(tǒng)的基本功能是滿足半結(jié)構(gòu)化、非結(jié)構(gòu)化和復雜結(jié)構(gòu)化的海量異構(gòu)數(shù)據(jù)的存儲。大數(shù)據(jù)計算是連接大數(shù)據(jù)技術(shù)與應(yīng)用的橋梁,屬于數(shù)據(jù)密集型計算,對數(shù)據(jù)吞吐率、性價比和擴展性要求極高。目前出現(xiàn)了多種典型的大數(shù)據(jù)計算模式以及與之相匹配的計算系統(tǒng)和工具[18]。大數(shù)據(jù)分析一般分為實時數(shù)據(jù)分析和離線數(shù)據(jù)分析,其中實時數(shù)據(jù)分析是主流和核心,主要采用流處理模式、批處理模式及兩者的結(jié)合。大數(shù)據(jù)分析方法主要有結(jié)構(gòu)化數(shù)據(jù)分析、文本分析、網(wǎng)絡(luò)分析、多媒體分析、社會網(wǎng)絡(luò)分析和移動分析[19]。決策系統(tǒng)主要是對大數(shù)據(jù)分析結(jié)果的利用與再利用,將分析結(jié)果轉(zhuǎn)換成適合目標用戶層次的知識服務(wù),為相關(guān)人員與機構(gòu)進行科學決策提供事實依據(jù),核心工作就是數(shù)據(jù)解釋。
大數(shù)據(jù)管理系統(tǒng)包括數(shù)據(jù)中心和服務(wù)器等硬件、數(shù)據(jù)存儲和數(shù)據(jù)庫等基礎(chǔ)軟件,以及大數(shù)據(jù)分析應(yīng)用軟件。云計算是大數(shù)據(jù)的基礎(chǔ)與支撐技術(shù)。Hadoop是目前最為流行的大數(shù)據(jù)處理平臺,主要包括文件系統(tǒng)、數(shù)據(jù)庫和數(shù)據(jù)處理等功能模塊,其它大數(shù)據(jù)的處理工具大部分是在Hadoop基礎(chǔ)上進行功能擴展或延伸。許多公司采用NoSQL非關(guān)系型數(shù)據(jù)庫進行網(wǎng)絡(luò)應(yīng)用開發(fā)。大數(shù)據(jù)管理系統(tǒng)面臨一系列技術(shù)挑戰(zhàn)[19]:一是對分散的、大量的異構(gòu)數(shù)據(jù)源的收集與整合;二是能夠滿足快速檢索、可擴展和隱私保護等功能和性能,保證數(shù)據(jù)集的存儲和管理;三是具備建模、可視化、預測和優(yōu)化功能并可對不同層次大數(shù)據(jù)進行實時挖掘分析。
1.3大數(shù)據(jù)知識服務(wù)體系
在大數(shù)據(jù)時代,圖書館服務(wù)呈現(xiàn)出個性化、差異化、人性化和智能化的特征。根據(jù)“web3.0”[20]和“情報3.0”[21]的基本理念以及圖書館數(shù)據(jù)來源和分析方法的不同,本文提出“服務(wù)3.0”的概念?!胺?wù)3.0”具有目標協(xié)同化、數(shù)據(jù)異構(gòu)化、方法多元化、技術(shù)專業(yè)化、服務(wù)智能化、結(jié)果科學化等特征。圖書館大數(shù)據(jù)服務(wù)體系(如圖1和表1所示)主要由以文獻信息服務(wù)為標志的“服務(wù)1.0”、以知識服務(wù)為標志的“服務(wù)2.0”和以智慧服務(wù)為標志的“服務(wù)3.0”組成。三者之間并不是孤立的,而是相互依賴、相互聯(lián)系的,如“服務(wù)3.0”以“服務(wù)1.0”和“服務(wù)2.0”為基礎(chǔ),具有包含關(guān)系。
“服務(wù)1.0”指的是基于讀者在接受服務(wù)過程中“被動”產(chǎn)生的書目數(shù)據(jù)、閘機數(shù)據(jù)和讀者借閱記錄數(shù)據(jù)而開展的外借、閱覽等文獻信息服務(wù),滿足讀者對圖書館所提供文獻信息的基本需求。書目數(shù)據(jù)主要是指圖書館訂購的紙質(zhì)圖書資料和電子資源等所有館藏資源的總目,能夠反映出圖書館館藏資源的數(shù)量、年度變化趨勢、紙質(zhì)與電子資源所占比例、文獻類型分布、學科文獻結(jié)構(gòu)等。閘機數(shù)據(jù)主要是指通過圖書館自動門禁閘機管理系統(tǒng)記錄的讀者入館數(shù)據(jù),可以反映入館的總?cè)藬?shù)、時間變化趨勢、讀者專業(yè)分布等,特別是能夠顯示讀者入館的高峰與低谷時間段,以便圖書館做好應(yīng)急對策。借閱數(shù)據(jù)主要是指讀者借閱館藏文獻的記錄,以及與之相關(guān)的借閱檢索、讀者薦購、書評等數(shù)據(jù)。通過借閱數(shù)據(jù)能夠了解借閱次數(shù)、熱門圖書資料、時間變化趨勢、學科類別分布、讀者專業(yè)分布與年級分布,反映讀者的借閱行為與閱讀規(guī)律,為目標讀者識別、個性化推薦、閱讀推廣奠定基礎(chǔ)?!胺?wù)1.0”的數(shù)據(jù)類型主要是結(jié)構(gòu)化數(shù)據(jù),因此可以采用Excel、Origin、SPSS等傳統(tǒng)軟件自帶的回歸分析、時間序列分析、圖表分析、因子分析、聚類分析和關(guān)聯(lián)分析等統(tǒng)計分析方法。
“服務(wù)2.0”指的是圖書館基于各類館藏科研數(shù)據(jù),采用合適的分析方法與工具,為解決用戶具體問題而提供的面向知識內(nèi)容的增值化知識服務(wù),滿足用戶在知識一體化戰(zhàn)略決策、技術(shù)研發(fā)、科學研究、學科建設(shè)等咨詢過程中的全方位、多層次信息需求。館藏科研數(shù)據(jù)主要是指圖書館收藏的科研人員對科研過程數(shù)據(jù)進行加工提煉并用于公開發(fā)表出版的以論文、圖書、專利、科技報告等多種形式存在的科研成果數(shù)據(jù),這些數(shù)據(jù)是科研人員在技術(shù)研發(fā)、科學研究過程中“主動”產(chǎn)生的。館藏科研數(shù)據(jù)主要以紙質(zhì)形式和數(shù)字形式存在,以一次文獻為主,二次文獻和三次文獻為輔,包括期刊論文、研究報告、專利說明書、會議論文、學位論文、技術(shù)標準等。圖書館通過對館藏科研數(shù)據(jù)的加工、提煉、融合,并進行深度知識挖掘,能夠面向用戶提供一體化解決方案的決策咨詢報告,如戰(zhàn)略咨詢、產(chǎn)業(yè)創(chuàng)新、技術(shù)創(chuàng)新、科技查新、成果評估、學科動態(tài)、專題定制等。“服務(wù)2.0”的數(shù)據(jù)類型主要是半結(jié)構(gòu)化數(shù)據(jù),需要在簡單統(tǒng)計分析的基礎(chǔ)上,充分深入到內(nèi)容單元層面,可以采用基于自然語言處理技術(shù)、機器學習(深度學習)的文本分析方法。
“服務(wù)3.0”指的是基于社交網(wǎng)絡(luò)、移動互聯(lián)網(wǎng)和傳感器的多源數(shù)據(jù)與專家智能相結(jié)合的智慧服務(wù),用以滿足讀者與圖書館之間互動式、體驗式、參與式的溝通交往的信息需求,多源數(shù)據(jù)是由讀者和圖書館員之間“互動”產(chǎn)生的數(shù)據(jù)。社交網(wǎng)絡(luò)數(shù)據(jù)是指讀者通過圖書館博客、微博、論壇、QQ交流群、郵件等方式產(chǎn)生的,是能夠反映與體現(xiàn)圖書館管理與服務(wù)等內(nèi)容的動態(tài)、互動記錄。通過社交網(wǎng)絡(luò)數(shù)據(jù)能夠了解讀者利用圖書館的總體概況、關(guān)注重點與熱點、用戶群體分布、讀者偏好行為,為圖書館的潛在讀者識別、讀者行為跟蹤、服務(wù)品牌鑄造、營銷體系構(gòu)建等提供保障。移動互聯(lián)網(wǎng)數(shù)據(jù)是指讀者通過手機等移動設(shè)備借助移動互聯(lián)網(wǎng)技術(shù)進行的圖書館信息查詢、瀏覽、下載、閱讀等行為的記錄,主要涉及手機圖書館網(wǎng)站、手機短信提醒、微信、App等方式,便于讀者隨時隨地接受個性化服務(wù),加強圖書館與讀者之間的溝通。傳感器數(shù)據(jù)是指通過有線或無線傳感器網(wǎng)絡(luò)技術(shù)對圖書館不同位置的環(huán)境和資源進行智能化感知的數(shù)據(jù),如書庫、機房、閱覽室的溫濕度、空氣質(zhì)量等環(huán)境監(jiān)測數(shù)據(jù),便于為讀者提供人性化的閱讀體驗以及圖書館的圖書保存和節(jié)能減排?!胺?wù)3.0”的數(shù)據(jù)類型主要是非結(jié)構(gòu)化數(shù)據(jù),首先應(yīng)針對不同來源渠道的數(shù)據(jù)選擇專門的方法,如互聯(lián)網(wǎng)數(shù)據(jù)的網(wǎng)絡(luò)分析方法、移動數(shù)據(jù)的移動分析方法、多媒體數(shù)據(jù)的多媒體分析方法、社交數(shù)據(jù)的社會網(wǎng)絡(luò)分析方法等,然后再在統(tǒng)計分析和文本分析方法的基礎(chǔ)上,采用具有知識發(fā)現(xiàn)、智能計算和專家推薦等高級功能的語義分析方法。
1.4 生態(tài)體系模型構(gòu)建
根據(jù)科學性、客觀性、有效性和實踐性等原則,以及信息生態(tài)鏈的基本原理和圖書館大數(shù)據(jù)知識服務(wù)體系,筆者構(gòu)建了圖書館大數(shù)據(jù)知識服務(wù)生態(tài)體系模型(如圖2所示)。生態(tài)體系是信息人與內(nèi)外部環(huán)境進行信息流轉(zhuǎn)的一個動態(tài)、持續(xù)、優(yōu)化和增值的過程,包括信息人自我完善的內(nèi)化過程和信息人與外部環(huán)境互動的外化過程。該體系是一個耗散結(jié)構(gòu)系統(tǒng)[22],主要具有開放性、遠離平衡態(tài)、漲落機制和非線性四個特征。開放性是指科研用戶、圖書館員不斷與外界進行信息、技術(shù)、文化、服務(wù)等方面的交流與聯(lián)系。整個體系在發(fā)展過程中也不是孤立的,會受到其它系統(tǒng)及外部環(huán)境的影響。遠離平衡態(tài)是指圖書館大數(shù)據(jù)知識服務(wù)生態(tài)體系的需求方和供給方之間難以達成一致,要么需求方要求過低而供給方輕松滿足其需求,要么需求方要求過高而供給方難以滿足其需求,造成雙方供需之間處于一種非平衡的狀態(tài)。漲落機制是指在圖書館大數(shù)據(jù)知識服務(wù)生態(tài)體系運行過程中,諸如用戶需求、信息環(huán)境、宏觀政策、技術(shù)革新等因素會對體系內(nèi)部信息資源配置的有效性產(chǎn)生影響,使其朝著健康有序的方向發(fā)展。非線性是指整個體系不是各個個體的簡單加和,而是一個螺旋上升、不斷增值的過程。圖書館員對圖書館產(chǎn)生的大數(shù)據(jù)通過收集、存儲、計算和分析,最后為用戶提供增值的知識服務(wù),為其決策提供保障。
由圖2可知,圖書館大數(shù)據(jù)知識服務(wù)生態(tài)體系模型主要由信息、信息人和信息環(huán)境三部分構(gòu)成。信息主要是指圖書館產(chǎn)生的各式各樣的大數(shù)據(jù),如書目數(shù)據(jù)、閘機數(shù)據(jù)、借閱數(shù)據(jù)等。信息環(huán)境主要指的是與大數(shù)據(jù)相關(guān)的自然、社會、政治、經(jīng)濟、制度、技術(shù)和文化等外部環(huán)境和內(nèi)部環(huán)境。信息人主要指的是參與圖書館大數(shù)據(jù)知識服務(wù)過程中的個人或組織。根據(jù)信息生態(tài)鏈理論[23],信息人可以是信息生產(chǎn)者、信息分解者、信息傳播者和信息消費者,信息人的角色和功能是動態(tài)變化的,在一定時期或階段內(nèi)是可以相互轉(zhuǎn)化的,一個信息人在不同時期可承擔不同角色。在該生態(tài)體系中,圖書館主要擔當信息分解者和信息傳播者的角色,并且在數(shù)據(jù)信息轉(zhuǎn)化為知識產(chǎn)品的過程中發(fā)揮著核心作用。數(shù)據(jù)館員基于大數(shù)據(jù)相關(guān)的數(shù)據(jù)科學基本理論,借助圖書館構(gòu)建的大數(shù)據(jù)知識服務(wù)系統(tǒng),選擇合適的數(shù)據(jù)分析方法,對數(shù)據(jù)進行采集、存儲、組織、計算、分析等處理,最后面向用戶提供個性化、定制化、智能化、決策化的數(shù)據(jù)服務(wù)。以科研成果數(shù)據(jù)中的論文數(shù)據(jù)為例,完成科研成果并撰寫論文的科研人員是信息生產(chǎn)者,論文進入圖書館的大數(shù)據(jù)系統(tǒng),經(jīng)過獲取、存儲、計算、分析等處理階段,轉(zhuǎn)變?yōu)橛袃r值的知識,最后為科研人員提供決策服務(wù),圖書館員擔當信息分解者和信息傳播者的角色,接收服務(wù)的科研人員角色變化為信息消費者,至此形成一個完整的信息生態(tài)鏈,當然還要受到內(nèi)外部信息環(huán)境的影響。信息生產(chǎn)者的主要功能是生產(chǎn)信息;信息分解者的主要任務(wù)是對信息進行知識層面上的加工,以便于利用;信息傳播者主要對信息產(chǎn)品進行推介與傳遞;信息消費者主要是對信息產(chǎn)品的再利用。在圖書館大數(shù)據(jù)知識服務(wù)生態(tài)體系中,信息是靈魂,信息環(huán)境是支撐,信息人是主體。
2.1構(gòu)成要素
大數(shù)據(jù)知識服務(wù)生態(tài)體系主要由人力資源、用戶需求、基本理論、數(shù)據(jù)來源、技術(shù)系統(tǒng)、方法應(yīng)用、服務(wù)決策7個要素組成(如圖3所示),各要素之間相互作用、相互聯(lián)系。
人力資源貫穿于生態(tài)體系的全過程,在體系設(shè)計、運行、監(jiān)管和評估等環(huán)節(jié)起著決定性作用,是決定體系運行成敗的關(guān)鍵性因素。大數(shù)據(jù)時代,數(shù)據(jù)館員需要具備扎實的基礎(chǔ)知識和過硬的基本技能,以保證在體系運行的各個環(huán)節(jié)做到游刃有余。因此,圖書館應(yīng)加強頂層設(shè)計,統(tǒng)籌規(guī)劃,制定《數(shù)據(jù)館員培訓制度》,力爭對數(shù)據(jù)館員的教育培訓做到常態(tài)化。
用戶需求是服務(wù)實現(xiàn)的入口,只有全面了解用戶需求的特點,才能提供有針對性和個性化的增值服務(wù)。大數(shù)據(jù)知識服務(wù)中對用戶需求的挖掘應(yīng)具有透明化特點,圖書館不能再像以前那樣僅采取調(diào)查問卷、訪談、觀察等直接手段了解用戶需求,而應(yīng)在實際調(diào)研的基礎(chǔ)上,通過大數(shù)據(jù)手段動態(tài)性、實時性地分析用戶的信息活動痕跡,理性地發(fā)現(xiàn)用戶需求及其行為規(guī)律。
基本理論是服務(wù)實現(xiàn)的源泉,用于指導服務(wù)實踐的合理實施。圖書館知識服務(wù)的基本理論體系主要由原理體系、技術(shù)體系、方法體系和應(yīng)用體系等部分組成。原理體系主要指大數(shù)據(jù)、數(shù)據(jù)管理、知識服務(wù)、數(shù)據(jù)生命周期等原理;技術(shù)體系主要指圖書館圍繞大數(shù)據(jù)的獲取、存儲、計算、分析及決策等階段的關(guān)鍵技術(shù)及階段之間的技術(shù)實現(xiàn);方法體系指的是圖書館采取的由統(tǒng)計分析、文本分析、語義分析等組成的數(shù)據(jù)分析方法;應(yīng)用體系指的是圖書館將大數(shù)據(jù)知識產(chǎn)品和服務(wù)應(yīng)用到不同領(lǐng)域。
數(shù)據(jù)來源是服務(wù)實現(xiàn)的基礎(chǔ),獲取與存儲全面、多樣和動態(tài)的數(shù)據(jù)具有極大的挑戰(zhàn)性。圖書館大數(shù)據(jù)來源具有典型的異構(gòu)化特點,包括了書目數(shù)據(jù)、閘機數(shù)據(jù)和讀者借閱記錄數(shù)據(jù)等結(jié)構(gòu)化數(shù)據(jù),教學數(shù)據(jù)、科研過程數(shù)據(jù)和科研成果數(shù)據(jù)等半結(jié)構(gòu)化數(shù)據(jù),以及社交網(wǎng)絡(luò)、移動互聯(lián)網(wǎng)和傳感器數(shù)據(jù)等非結(jié)構(gòu)化數(shù)據(jù)。異構(gòu)數(shù)據(jù)的獲取、清洗、解析、融合與存儲是至關(guān)重要的。
技術(shù)系統(tǒng)是服務(wù)實現(xiàn)的保障,是圖書館依據(jù)數(shù)據(jù)管理全生命周期面向知識服務(wù)的軟硬一體優(yōu)化集成的大數(shù)據(jù)技術(shù)解決方案。圖書館大數(shù)據(jù)知識服務(wù)技術(shù)系統(tǒng)具有融合化特點,即技術(shù)系統(tǒng)主要探討獲取、存儲、計算、分析及決策等階段的關(guān)鍵技術(shù)及階段之間的技術(shù)實現(xiàn)。圖書館需要借鑒云計算、物聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)等信息技術(shù),在學校機構(gòu)知識庫的基礎(chǔ)上,深化數(shù)據(jù)存儲功能,擴展數(shù)據(jù)獲取計算、分析及決策功能,應(yīng)用數(shù)據(jù)獲取技術(shù)、數(shù)據(jù)組織技術(shù)、數(shù)據(jù)存儲技術(shù)、智能分析技術(shù)和智能決策技術(shù),實現(xiàn)數(shù)據(jù)管理基礎(chǔ)設(shè)施等硬件和數(shù)據(jù)庫等軟件的高效整合與優(yōu)化。
方法應(yīng)用是服務(wù)實現(xiàn)的關(guān)鍵,是連接服務(wù)資源與服務(wù)產(chǎn)品的橋梁。圖書館大數(shù)據(jù)的計算與分析需要滿足實時、廣度、深度和多維度分析的要求,因此對分析方法提出了新的更高要求,統(tǒng)計分析、文本分析和社會網(wǎng)絡(luò)分析等傳統(tǒng)的分析方法逐漸向網(wǎng)絡(luò)分析、多媒體分析和移動分析等知識發(fā)現(xiàn)、智能計算、語義分析和專家推薦等高級分析方法轉(zhuǎn)變,以及多種方法之間的組合。數(shù)據(jù)館員需要對所有分析方法從方法類型、方法原理、方法組合、方法應(yīng)用等方面進行深度梳理,構(gòu)建適合不同數(shù)據(jù)類型的方法體系。
服務(wù)決策是圖書館為用戶提供的終端服務(wù)產(chǎn)品,是對知識服務(wù)效果的有效反饋和直接檢驗。圖書館大數(shù)據(jù)知識服務(wù)的方式、途徑、模式等發(fā)生了顛覆性的變化,數(shù)據(jù)館員需要針對用戶信息需求的個性化、人性化和動態(tài)化等特點,多層次、全方位、立體化地構(gòu)建智能化的大數(shù)據(jù)知識服務(wù)模式體系。該模式體系以用戶的個性化需求為中心,以圖書館大數(shù)據(jù)科學分析結(jié)果為依托,為用戶提供具備知識發(fā)現(xiàn)、創(chuàng)新預測、智能提升、科學決策等功能的個性化智能服務(wù)。
2.2動力機制
大數(shù)據(jù)知識服務(wù)生態(tài)體系運行機制主要有創(chuàng)新動力機制、需求導向機制、合作協(xié)調(diào)機制、機構(gòu)監(jiān)督機制、信息反饋機制、風險承擔機制等,其中創(chuàng)新動力機制是體系構(gòu)建與運行的原動力,并且起著基礎(chǔ)性的決定作用。動力機制主要源于“推動力”和“拉動力”兩種力量[24]?!巴苿恿Α笔菆D書館大數(shù)據(jù)知識服務(wù)發(fā)展的基礎(chǔ)與保證,“拉動力”是方向與目標。
“推動力”包括直接推動力的“行業(yè)競爭加劇”和間接推動力的“技術(shù)手段先進”?!靶袠I(yè)競爭加劇”主要是指受搜索引擎的影響,用戶產(chǎn)生信息需求時的第一反應(yīng)就是借助搜索引擎來解決問題,導致圖書館的文獻保障功能被削弱。因此,圖書館為應(yīng)對競爭,提出錯位發(fā)展的理念,積極利用搜索引擎的用戶瀏覽行為特征,為其提供有針對性、高附加值的知識服務(wù)。“技術(shù)手段先進”是指云計算、物聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)等信息技術(shù),Hadoop、MapReduce等大數(shù)據(jù)技術(shù),以及數(shù)據(jù)獲取、存儲、計算、分析及決策等數(shù)據(jù)管理技術(shù)發(fā)展迅速,為知識服務(wù)提供了強有力的技術(shù)保障。知識服務(wù)屬于智力密集型行業(yè),需要依賴先進技術(shù)手段進行大量數(shù)據(jù)的處理與分析。
“拉動力”包括內(nèi)在拉動力的“用戶需求提高”和外在拉動力的“先進經(jīng)驗示范”?!坝脩粜枨筇岣摺笔侵鸽S著網(wǎng)絡(luò)技術(shù)的發(fā)展以及用戶信息素養(yǎng)水平的提高,用戶信息需求的層次和水平不斷向個性化、專業(yè)化、集成化、精準化和高端化過渡,倒逼圖書館知識服務(wù)必須轉(zhuǎn)型升級才能跟得上時代要求。“典型經(jīng)驗示范”主要指大數(shù)據(jù)技術(shù)已經(jīng)被成功運用在電視媒體、社交網(wǎng)絡(luò)、醫(yī)療保險、體育比賽、電子郵件、零售行業(yè)等領(lǐng)域,如亞馬遜1/3的銷售額來自于個性化推薦系統(tǒng)[25]?;ヂ?lián)網(wǎng)公司在應(yīng)用大數(shù)據(jù)技術(shù)方面位居前列,如IBM開發(fā)了一套復雜的預測模型,完成了電動汽車動力與電力供應(yīng)系統(tǒng)的預測。這些典型案例的成功做法為圖書館提供了有益的啟示與借鑒。
因此,圖書館只有滿足用戶需求,借助典型經(jīng)驗,運用先進技術(shù),才能在激烈的行業(yè)競爭中搶得先機。圖書館只有不斷地進行技術(shù)創(chuàng)新、服務(wù)創(chuàng)新、管理創(chuàng)新和制度創(chuàng)新,大數(shù)據(jù)知識服務(wù)生態(tài)體系的運行才會朝著正確的方向不斷前進。
大數(shù)據(jù)時代,圖書館知識服務(wù)生態(tài)體系基本形成。數(shù)據(jù)是源頭,技術(shù)是保障,人員是關(guān)鍵,服務(wù)是目標。大數(shù)據(jù)時代圖書館的數(shù)據(jù)數(shù)量巨大、數(shù)據(jù)種類多元、數(shù)據(jù)速度加快、數(shù)據(jù)內(nèi)涵豐富;大數(shù)據(jù)技術(shù)以及云計算、物聯(lián)網(wǎng)、傳感網(wǎng)、移動互聯(lián)網(wǎng)等信息技術(shù)的蓬勃發(fā)展為圖書館知識服務(wù)生態(tài)圈的運行源源不斷地提供技術(shù)保障;人員不僅包括處于核心地位的圖書館員,還包括科研人員、期刊編輯人員、數(shù)據(jù)庫加工人員、信息技術(shù)人員、情報分析人員、科研管理人員等;面向不同信息需求的用戶提供人性化、個性化和智能化的服務(wù)是圖書館服務(wù)的最高目標。本文從信息生態(tài)鏈的視角出發(fā),構(gòu)建了大數(shù)據(jù)時代圖書館知識服務(wù)生態(tài)體系,并深入剖析了圖書館“服務(wù)3.0”的服務(wù)體系,最后論述了體系的構(gòu)成要素及其動力機制。雖然圖書館離真正的大數(shù)據(jù)分析服務(wù)還有一段距離,尤其是在數(shù)據(jù)源融合、技術(shù)體系構(gòu)建、分析方法選擇和服務(wù)結(jié)果決策等方面,但是圖書館進行大數(shù)據(jù)知識服務(wù)的理論基礎(chǔ)和實踐探索已經(jīng)開始。
“數(shù)據(jù)科學是理論根基、數(shù)據(jù)館員是核心角色、數(shù)據(jù)服務(wù)是實踐價值”的大數(shù)據(jù)科學觀是圖書館未來發(fā)展的主要方向,數(shù)據(jù)科學指導數(shù)據(jù)服務(wù),數(shù)據(jù)服務(wù)反哺數(shù)據(jù)科學,數(shù)據(jù)館員則是實現(xiàn)數(shù)據(jù)科學作用于數(shù)據(jù)服務(wù),數(shù)據(jù)服務(wù)反作用于數(shù)據(jù)科學的中間橋梁(如圖4所示)。
數(shù)據(jù)科學為數(shù)據(jù)館員開展數(shù)據(jù)服務(wù)提供強有力的理論源泉?!皵?shù)據(jù)科學”一詞早在上世紀60年代就已出現(xiàn)[26],2002年《數(shù)據(jù)科學》雜志創(chuàng)刊,而近來的大數(shù)據(jù)技術(shù)強有力地推動了數(shù)據(jù)科學的繁榮。大數(shù)據(jù)時代圖書館數(shù)據(jù)科學的基本原理、基本方法、應(yīng)用領(lǐng)域等雛形基本形成。數(shù)據(jù)科學是由數(shù)學、統(tǒng)計學、計算機科學、管理學和圖書情報學等多學科組成的綜合性學科,主要包括理論體系、技術(shù)體系、方法體系和應(yīng)用體系。理論體系涵蓋大數(shù)據(jù)理論、科研生命周期理論、信息生態(tài)理論、服務(wù)理論等。技術(shù)體系包含網(wǎng)絡(luò)技術(shù)、云計算技術(shù)、物聯(lián)網(wǎng)技術(shù)、傳感網(wǎng)技術(shù)、移動互聯(lián)網(wǎng)技術(shù)等信息技術(shù),以及涉及數(shù)據(jù)存儲、組織、共享、引用、分析、利用與再利用的數(shù)據(jù)管理技術(shù)。方法體系主要是由統(tǒng)計分析、預測分析、文本挖掘分析、多媒體分析、網(wǎng)絡(luò)分析、社會網(wǎng)絡(luò)可視化分析和移動分析等方法組合而成。應(yīng)用體系是數(shù)據(jù)科學理論在面向不同服務(wù)對象的個性化需求時圖書館“服務(wù)1.0”“服務(wù)2.0”和“服務(wù)3.0”等集成的領(lǐng)域。
數(shù)據(jù)館員在將數(shù)據(jù)科學運用到數(shù)據(jù)服務(wù)的過程中發(fā)揮著關(guān)鍵性作用,因此對其角色定位和職能實現(xiàn)提出了更高、更新的要求。數(shù)據(jù)館員是在原有學科館員基礎(chǔ)上的延伸和提升,因此只有不斷學習和實踐才能適應(yīng)崗位職責要求。國外主要通過數(shù)據(jù)監(jiān)管專業(yè)教育認證項目、數(shù)據(jù)監(jiān)管課程、數(shù)據(jù)監(jiān)管繼續(xù)教育等三種方式來培訓數(shù)據(jù)館員,以便勝任數(shù)據(jù)資源建設(shè)、數(shù)據(jù)管理服務(wù)與推廣等崗位的職責[27]。數(shù)據(jù)館員角色定位于基于數(shù)據(jù)生命周期的數(shù)據(jù)管理、數(shù)據(jù)管理咨詢和數(shù)據(jù)管理培訓,同時需要具備扎實的專業(yè)基礎(chǔ)知識、基本技能與專業(yè)技能等數(shù)據(jù)素養(yǎng)[28]。專業(yè)基礎(chǔ)知識是指要掌握與數(shù)據(jù)科學相關(guān)的所有背景資料,基本技能包括策劃與組織、領(lǐng)導與管理、合作與交際等能力,專業(yè)技能包括網(wǎng)絡(luò)信息技術(shù)、數(shù)據(jù)管理技術(shù)等工具的使用與開發(fā)。
數(shù)據(jù)服務(wù)是數(shù)據(jù)科學在圖書館服務(wù)領(lǐng)域的具體實踐,是大數(shù)據(jù)時代圖書館服務(wù)新的落腳點和生長點。數(shù)據(jù)服務(wù)的內(nèi)涵和外延非常豐富,而且一直處于動態(tài)更新中,包括服務(wù)原理、服務(wù)機制、服務(wù)內(nèi)容、服務(wù)模型、服務(wù)模式、服務(wù)體系、服務(wù)實踐、服務(wù)政策、服務(wù)評價等。歐美高校圖書館在數(shù)據(jù)管理服務(wù)方面的探索由來已久,并且在服務(wù)內(nèi)容與服務(wù)實踐等方面已經(jīng)取得一定成果,為我國圖書館數(shù)據(jù)服務(wù)的理論建設(shè)與實踐探索提供了借鑒與參考。
綜上所述,大數(shù)據(jù)時代圖書館知識服務(wù)的現(xiàn)實條件基本具備,只有數(shù)據(jù)科學作為肥沃的土壤,數(shù)據(jù)館員作為充足的水分、新鮮的空氣和溫暖的陽光,兩者為數(shù)據(jù)服務(wù)源源不斷地提供養(yǎng)料,數(shù)據(jù)服務(wù)這顆種子才能生根、發(fā)芽、開花、結(jié)果,大數(shù)據(jù)時代圖書館知識服務(wù)生態(tài)體系才能真正名副其實。
1東方.大數(shù)據(jù)影響下的知識服務(wù)應(yīng)用模式之變革[J].新世紀圖書館,2015(6).
2秦曉珠,等.大數(shù)據(jù)知識服務(wù)的內(nèi)涵,典型特征及概念模型[J].情報資料工作,2013(2).
3官思發(fā).大數(shù)據(jù)知識服務(wù)關(guān)鍵要素與實現(xiàn)模型研究[J].圖書館論壇,2015(6).
4Begoli E,Horey J.Design principles for effective knowledge discoveryfrombigdata[C]// Software Architecture(WICSA)and European Conference on Software Architecture(ECSA),2012 joint working IEEE/IFIP conference on IEEE.Washington:IEEE Computer Society,2012:215-218.
5李晨暉,等.大數(shù)據(jù)知識服務(wù)平臺構(gòu)建關(guān)鍵技術(shù)研究[J].情報資料工作,2013(2).
6孫卓.基于大數(shù)據(jù)構(gòu)建圖書館知識服務(wù)引擎研究[J].圖書館學研究,2013(18).
7Cai D,et al.The knowledge service project in the era of big data[C]//Big Data(BigData Congress),2013 IEEE International Congress on IEEE.Washington:IEEE Computer Society,2013:429-430.
8Kosala R,Kumaradjaja R.Big Data Analytics for Business[M]//Khosrow-Pour M(Ed.). Encyclopedia of Information Science and Technology.Hershey:IGI Global,2015:355-362.
9沈杰.大數(shù)據(jù)與圖書館信息服務(wù)工作的變革[J].圖書館,2015(9).
10Capurro R.Towardsaninformationecology[C]//Wormell.Information Quality,Definitions and Dimensions.London:Taylor Graham,1990:122-139.
11Nardi B A,O'Day V.Information ecologies:U-sing technology with heart[M].Cambridge:MIT Press,1999:1-262.
12李美娣.信息生態(tài)系統(tǒng)的剖析[J].情報雜志,1998(4).
13韓剛,覃正.信息生態(tài)鏈:一個理論框架[J].情報理論與實踐,2007(1).
14婁策群.信息生態(tài)鏈:概念,本質(zhì)和類型[J].圖書情報工作,2007(9).
15郭自寬,等.大數(shù)據(jù)生態(tài)系統(tǒng)在圖書館中的應(yīng)用[J].情報資料工作,2013(2).
16工業(yè)和信息化部電信研究院.大數(shù)據(jù)白皮書[R].北京:工業(yè)和信息化部電信研究院,2014:1-26.
17孟小峰,慈祥.大數(shù)據(jù)管理:概念,技術(shù)與挑戰(zhàn)[J].計算機研究與發(fā)展,2013(1).
18中國計算機學會大數(shù)據(jù)專家委員會.中國大數(shù)據(jù)技術(shù)與產(chǎn)業(yè)發(fā)展白皮書[R].北京:中國計算機學會大數(shù)據(jù)專家委員會,2013:1-114.
19Hu H,et al.Towards Scalable Systems for Big Data Analytics:A Technology Tutorial[J]. IEEE Access,2014(2):652-687.
20劉桂鋒.Web3.0及其在圖書館應(yīng)用的文獻綜合分析[J].圖書情報研究,2011(4).
21吳晨生,等.情報服務(wù)邁向3.0時代[J].情報理論與實踐,2015(9).
22吳嬋君.基于耗散結(jié)構(gòu)的中小企業(yè)金融服務(wù)體系運行機制研究[J].浙江樹人大學學報,2014(6).
23婁策群.信息生態(tài)位理論探討[J].圖書情報知識,2006(5).
24畢強,白云峰.金融領(lǐng)域信用信息服務(wù)作用機理與運行機制研究[J].情報資料工作,2011(3).
25中國大數(shù)據(jù)[DB/OL].[2015-10-23]. http://www.thebigdata.cn/.
26汪小帆.數(shù)據(jù)科學與社會網(wǎng)絡(luò):大數(shù)據(jù),小世界[J].科學與社會,2014(1).
27高珊,盧志國.國外數(shù)據(jù)館員的能力需求與職業(yè)教育研究[J].圖書館,2015(2).
28魏來,高希然.大數(shù)據(jù)背景下高校數(shù)據(jù)館員的角色定位[J].情報資料工作,2015(5).
(劉桂鋒 副研究館員 江蘇大學科技信息研究所,盧章平 教授 江蘇大學圖書館,化慧江蘇大學科技信息研究所圖書情報與檔案管理專業(yè)2013級碩士研究生)
Ecological System of Big Data Knowledge Service in the Library and its Dynamic Mechanism
Liu Guifeng Lu Zhangping Hua Hui
The emergence of big data technology provides development opportunities for knowledge service in the library.Based on the information ecochain theory,this paper elaborates the big data management system and service system,puts forward the concept of“service 3.0”of big data service,and builds the model of big data knowledge service system in the library.Finally,the components and dynamic mechanism of the system are well discussed in the paper,which will provide theoretical basis and practical reference for the library to carry out knowledge service.4 figs.1 tab.28 refs.
Big Data;Data Management;Data Service;Data Science;Data Librarians
?本文系江蘇省圖書館學會學術(shù)研究課題“大數(shù)據(jù)輪動的知識服務(wù)生態(tài)體系構(gòu)建研究”(項目編號:14YB34)和江蘇省博士后科研資助計劃“大數(shù)據(jù)輪動的圖書館學科服務(wù)創(chuàng)新研究”(項目編號:1402106C)的研究成果之一。
2015-10-27