摘 要:大數(shù)據(jù)時代的到來,使得“數(shù)據(jù)”成為了圖書館業(yè)務重構的中心和重點,也使得數(shù)字圖書館建設面臨著不小的挑戰(zhàn),在開放存取、語義出版的影響和大數(shù)據(jù)技術、用戶需求的驅動下實現(xiàn)向數(shù)據(jù)圖書館的服務范式轉變成為了趨勢。由于數(shù)據(jù)圖書館還是一個新生的概念而沒有一個權威的定義,但從圖書館用戶的需求發(fā)展趨勢來看,數(shù)據(jù)密集型知識服務系統(tǒng)將是數(shù)據(jù)圖書館的核心組成,并向用戶提供數(shù)據(jù)保存、數(shù)據(jù)挖掘、數(shù)據(jù)出版、數(shù)據(jù)管理與數(shù)據(jù)研究等服務。
關鍵詞:數(shù)字圖書館;數(shù)據(jù)圖書館;大數(shù)據(jù);服務范式
中圖分類號: G250 文獻標識碼: A DOI:10.11968/tsyqb.1003-6938.2016055
From Digital Library to Data Library
——The Change of Librarys Service Paradigm in the Era of Big Data
Abstract The arrival of the era of big data, making the “data” becomes a key point of library restructuring, but also making the digital library construction faced with big challenge. With the impact of open access and semantic publishing, and the drive of user requirement, it achieves data library services paradigm transformation has become a trend. Since the data library is still a new concept and there is no authoritative definition, from the point of users requirement, data-intensive knowledge services system will be composed of core data library, and will provide user data storage, data mining, data publishing, data management and data research services.
Key words digital library; data library; big data; service paradigm
近年來,以數(shù)字技術處理和存儲各種圖書并茂文獻的數(shù)字圖書館在縮小信息鴻溝、加速信息傳遞、促進資源共享等方面做出了積極的貢獻,且隨著國家數(shù)字圖書館推廣工程等國家、地方數(shù)字圖書館項目的立項,數(shù)字圖書館迎來了一個快速發(fā)展期。然而,隨著大數(shù)據(jù)時代的來臨和全社會對數(shù)據(jù)價值及應用的日益重視,加之出版界、信息界出現(xiàn)的開放存取運動、人工智能研究等熱潮,使得數(shù)字圖書館的發(fā)展面臨著極大的挑戰(zhàn)。實現(xiàn)從信息時代的數(shù)字圖書館到數(shù)據(jù)時代的數(shù)據(jù)圖書館服務范式轉變將是當前社會需求及用戶需求驅動的最終結果,因此,在這一服務范式轉變之際,去探討數(shù)字圖書館轉型發(fā)展的驅動因素、數(shù)據(jù)圖書館的構建組成及服務內容顯得尤為重要。
1 大數(shù)據(jù)時代數(shù)字圖書館發(fā)展面臨諸多挑戰(zhàn)
在信息時代,隨著人們對數(shù)字文獻獲取方法方式的日益豐富和對數(shù)字文獻內容要求的日益提高,數(shù)字圖書館建設過程中存在的標準不規(guī)范、文獻數(shù)字化水平較低、數(shù)字文獻的安全缺乏絕對保障等成為了人們經常討論的問題。開放存取運動的進一步深化發(fā)展和以語義、云計算等為代表的信息技術出現(xiàn),以及大數(shù)據(jù)時代的到來,則讓數(shù)字圖書館面臨著更多的挑戰(zhàn)。
1.1 信息時代遺留的問題未得到解決
數(shù)字圖書館在建設過程中,由于受技術所限、資金不足、標準不統(tǒng)一等限制,致使數(shù)字圖書館在信息時代就存在著諸如接口不統(tǒng)一、資源元數(shù)據(jù)描述不夠、檢索能力不足、文獻數(shù)據(jù)相互關聯(lián)性較差、互操作程度較低、資源發(fā)現(xiàn)和擴展能力低下等問題,讓數(shù)字圖書館成為了人們獲取信息的最后選擇。一份關于大學生對高校圖書館使用情況的調研報告則表明,72%的學生是通過網絡獲得信息,而通過圖書館獲得信息的學生只占18%[1]。另一項調查也顯示大學生訪問圖書館網站(數(shù)字圖書館)的只占28%,遠低于使用搜索引擎的使用比例,甚至有25.3%的大學生表示從沒有去訪問過圖書館網站(數(shù)字圖書館)[2]。這種現(xiàn)狀也引發(fā)了圖書館界的擔憂與思考,正如Rick所指出的一樣,圖書館到了必須給圖書館資助機構更好、更多的說服力來證明圖書館存在的價值時候[3]。然而對數(shù)字圖書館來說,雖然經過了持續(xù)的技術革新、系統(tǒng)升級和業(yè)務延伸后,特別是經過了國家數(shù)字圖書館、國家科技圖書文獻中心及其網絡服務系統(tǒng)、國家高等教育數(shù)字圖書館、國家科學數(shù)字圖書館、中共中央黨校數(shù)字圖書館、軍隊院校數(shù)字圖書館和中國社會科學院數(shù)字圖書館等七大國家級數(shù)字圖書館工程項目的建設與推廣,我國數(shù)字圖書館的建設在軟硬件設施、數(shù)字資源、信息服務、資源共享等方面有了長足的經驗積累,但系統(tǒng)間數(shù)據(jù)接口及共享、資源統(tǒng)籌采購等問題仍繼續(xù)存在,數(shù)字圖書館向社會、向民眾、向用戶及政府證明自己存在價值的力度和廣度也還不夠。
1.2 新問題隨著大數(shù)據(jù)時代的到來而到來
與大數(shù)據(jù)時代的到來相伴的是大數(shù)據(jù)操作技術的涌現(xiàn)和用戶思維、習慣與要求的改變,數(shù)據(jù)的抓取與存儲等問題也就隨之而來,最終使得努力迎合用戶需求的數(shù)字圖書館不得不面臨新的挑戰(zhàn)。
(1)多種出版模式為數(shù)字圖書館的出版服務帶來了挑戰(zhàn)。眾所周知,利用互聯(lián)網讓經過同行評審的學術研究論文得到免費、自由、開放的存放與獲取,提升了科學研究的公共利用程度、保障了科學信息的保存、提高了科學研究的效率的開放存?。∣A)出版模式改變了傳統(tǒng)的出版模式。根據(jù)布達佩斯開放存取計劃(Budapest Open Access Initiative,BOAI)于2011年公布的研究報告,認為10年后在世界上的任何國家、任何或地區(qū)、任何學科的同行評議學術論文均將實現(xiàn)開放存取[4]。其實,快速增長的不僅是開放存取的倉儲數(shù)據(jù)、期刊數(shù)量和論文數(shù)量,注重對開放存取數(shù)據(jù)質量和服務建設也是OA界最為倚重的。如設立于2003年5月,由瑞典Lund大學圖書館創(chuàng)建和維護、并由OSI、SPARC、EBSCO和瑞典圖書館學會等機構支持或協(xié)辦、目前全球收錄數(shù)量最大的OA期刊目錄系統(tǒng)DOAJ(Directory of Open Access Journals),不僅從2015年1月1日開始剔除了存在信息更新不及時、數(shù)據(jù)質量管控不嚴等問題的3300本期刊[5],還于2016年開始收集DOAJ收錄期刊的文章元數(shù)據(jù),以滿足DOAJ在2014年3月建立的旨在提高DOAJ的相關性和在開放出版上的重要性更高的檢索標準[6]。這些變革了傳統(tǒng)出版模式的開放存取、數(shù)據(jù)出版、語義出版等出版模式以及對數(shù)據(jù)質量監(jiān)控、資源元數(shù)據(jù)重視實踐,在讓圖書館的資源建設受益的同時,也對數(shù)字圖書館的出版服務、數(shù)據(jù)質量監(jiān)管等提出了新的挑戰(zhàn)。
(2)大數(shù)據(jù)技術為數(shù)字圖書館的技術應用帶來了挑戰(zhàn)。大數(shù)據(jù)技術不但在概率統(tǒng)計、趨勢預測、客戶研究等方面有著出色的應用,也在圖情領域的詞頻可視化、情報分析等方面都有著其它技術所無法比擬的優(yōu)勢。同時,語義技術、可視化技術等也在信息服務機構的知識庫建設、資源鏈接與描述、用戶分層與服務延伸等方面有著廣泛的應用。但對數(shù)字圖書館來說,目前在信息檢索互操作方面也主要有基于圖書館自動化系統(tǒng)的元數(shù)據(jù)互操作(如聯(lián)合目錄+OpenURL)和基于二代圖書館系統(tǒng)的基于系統(tǒng)的互操作(如MetaSearch+OpenURL)兩種方式,而結合了這兩種檢索互操作方式,解決了信息描述、組織與檢索能力不足問題的圖書館知識資源發(fā)現(xiàn)系統(tǒng)(如Primo、Summon等)盡管在圖書館已逐漸開始運用,但還是沒有將復雜數(shù)據(jù)環(huán)境(多源數(shù)據(jù)、多類型數(shù)據(jù))下的數(shù)據(jù)價值發(fā)現(xiàn)與圖書館知識服務相結合起來,加之目前還未將能夠處理異構、非結構化數(shù)據(jù)的Hadoop等大數(shù)據(jù)技術廣泛應用,數(shù)字圖書館還不能為用戶去真正的解答、解決問題。
(3)大數(shù)據(jù)思維為數(shù)字圖書館的用戶維護帶來了挑戰(zhàn)。大數(shù)據(jù)時代,數(shù)據(jù)將驅動社會的創(chuàng)新與發(fā)展,人們也將因為這種驅動方式的出現(xiàn)而形成有別于傳統(tǒng)思維方式的大數(shù)據(jù)思維方式。與傳統(tǒng)思維方式強調因果關系不同,大數(shù)據(jù)思維方式更強調相互關系、相關關系,人們將逐漸拋棄基于假想的易出錯方法,而采用基于數(shù)據(jù)挖掘的相關關系分析法去預測事件及概率[7]、為信息找人[8]。很顯然,數(shù)字圖書館在對組成數(shù)字圖書館最基本單元的文獻資源唯一標示、科學引用頻率統(tǒng)計、元數(shù)據(jù)描述標準統(tǒng)一、相似性關聯(lián)及鏈接實現(xiàn)等還都無法做到的情況下,實現(xiàn)這類基于海量數(shù)據(jù)挖掘的概率預測、為信息找用戶等服務就還需時日。
2 以數(shù)據(jù)為核心業(yè)務成為數(shù)字圖書館業(yè)務重構方向
ACRL(Association of College & Research Libraries,美國研究圖書館協(xié)會)于2012年發(fā)布的《2012 top ten trends in academic libraries》[9](2012學術圖書館發(fā)展趨勢)報告,就對“數(shù)據(jù)監(jiān)管”“數(shù)據(jù)保存”“新的出版與交流模式”等未來圖書館發(fā)展的趨勢進行了研究。在這份報告之后,ACRL研究、計劃與評價委員會于2014年6月發(fā)布的《高校圖書館發(fā)展大趨勢》[10]雖然把“更深度的合作”概括為當前美國高校圖書館總的發(fā)展趨勢,但也把“數(shù)據(jù)”列為四大關鍵詞之一。由上述兩份報告我們可以發(fā)現(xiàn),在全球圖書館享有較高研究水平聲譽的ACRL已經預見到了“數(shù)據(jù)”的價值,認為開展關于數(shù)據(jù)的收集、保存、開發(fā)與應用將是未來圖書館發(fā)展的趨勢。值得贅述的是,ACRL對于“數(shù)據(jù)”的追捧并未隨著時間的推移而減弱乃至消失,反而認為將有著明顯的專業(yè)化、精深化發(fā)展趨勢。在ACRL發(fā)布的《2016 top trends in academic libraries》[11](學術圖書館 2016 年 10 大發(fā)展趨勢)報告中,認為“研究數(shù)據(jù)服務”“數(shù)據(jù)發(fā)展政策與管理計劃”“基于館員專業(yè)化發(fā)展而提供研究數(shù)據(jù)服務”“數(shù)字化學術中心”是學術圖書館2016年發(fā)展的幾大趨勢??紤]到業(yè)界已經廣泛開展的數(shù)據(jù)素養(yǎng)教育和圖書館數(shù)據(jù)館員設置、大數(shù)據(jù)挖掘應用等實踐,可以說基于數(shù)據(jù)管理與應用的服務、建設已成為圖書館未來業(yè)務增長點,而實現(xiàn)對異構、海量數(shù)據(jù)的管理、應用與開發(fā)重任,無疑宜由現(xiàn)代技術應用最為廣泛的數(shù)字圖書館承擔。
3 數(shù)據(jù)圖書館是數(shù)字圖書館的發(fā)展方向
由于數(shù)據(jù)圖書館還是一個新生的圖書館存在形態(tài),故對其科學內涵、服務內容等還沒有一個權威定義。綜合上述對數(shù)字圖書館面臨的環(huán)境和挑戰(zhàn)分析,不難得出圍繞數(shù)據(jù)及數(shù)據(jù)業(yè)務去重構、重組數(shù)字圖書館的建設與服務,不但有著多環(huán)境影響因素,也有著多驅動因素。圍繞數(shù)據(jù),就是以數(shù)據(jù)為核心并進行數(shù)據(jù)的保存、處理和應用,進而形成具有數(shù)據(jù)服務、數(shù)據(jù)出版和數(shù)據(jù)增值服務的圖書館存在新形態(tài),即數(shù)據(jù)圖書館形態(tài)。結合當前已經形成的數(shù)據(jù)密集型科研環(huán)境和全社會以數(shù)據(jù)為中心的價值認同,筆者以為數(shù)據(jù)圖書館的核心組成內容就是數(shù)據(jù)密集型知識服務系統(tǒng),數(shù)據(jù)圖書館的服務就是基于數(shù)據(jù)挖掘的支撐服務,如決策支撐、發(fā)現(xiàn)支撐和融合支撐等。
3.1 數(shù)據(jù)密集型知識服務系統(tǒng)的框架構成
數(shù)據(jù)密集型知識服務系統(tǒng)主要由大數(shù)據(jù)層、計算融合層和用戶服務層構成(見圖1)。其中,大數(shù)據(jù)層主要承擔文獻大數(shù)據(jù)(期刊、會議、圖書、學位論文、科技報告、專利等)、用戶大數(shù)據(jù)(個人數(shù)據(jù)、生活數(shù)據(jù)、工作數(shù)據(jù)、學習數(shù)據(jù)等)和其它大數(shù)據(jù)(政府信息數(shù)據(jù)、社交媒體數(shù)據(jù)、科技創(chuàng)新數(shù)據(jù)等)的存儲職能,當然,這些數(shù)據(jù)并非均儲存于圖書館,而主要以云計算存儲、異地存儲、異構存儲為主;計算融合層主要就是通過構建一體化描述模型來實現(xiàn)對數(shù)據(jù)的采集、解析、清洗與保存,并通過數(shù)據(jù)標引、描述、分類與標注來實現(xiàn)基于用戶需求、基于信息發(fā)現(xiàn)的用戶服務;用戶服務層則主要是通過計算融合層向用戶提供基礎性數(shù)據(jù)服務(數(shù)據(jù)出版、數(shù)據(jù)管理與數(shù)據(jù)研究等)和發(fā)現(xiàn)性數(shù)據(jù)服務(態(tài)勢解析、追蹤與檢測、未來發(fā)現(xiàn)等)等支撐性服務。
3.2 關于數(shù)據(jù)圖書館的服務
由數(shù)據(jù)圖書館核心系統(tǒng)的框架構成可以看出,本研究所設計的數(shù)據(jù)圖書服務主要為支撐性服務,這是因為在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)圖書館盡管擁有豐富的文獻數(shù)據(jù),但用戶數(shù)據(jù)特別是產生于圖書館交互之外的工作數(shù)據(jù)、學習數(shù)據(jù)、生活數(shù)據(jù)并不易獲得,因此,基于這些非全部數(shù)據(jù)量和數(shù)據(jù)類型的數(shù)據(jù)服務產品還需進一步去辨別和研究;其次,大數(shù)據(jù)思維要求數(shù)據(jù)圖書館提供焦點問題發(fā)現(xiàn)、為信息找用戶等服務,即數(shù)據(jù)圖書館不再只是提供基于數(shù)據(jù)管理職能的數(shù)據(jù)保存、數(shù)據(jù)規(guī)劃等服務,而是必須從海量文獻數(shù)據(jù)中去找到可能影響用戶的焦點問題,進而通過數(shù)據(jù)圖書館的互操作來提示用戶,并將能夠解決用戶問題的數(shù)據(jù)推送給用戶,實現(xiàn)焦點問題發(fā)現(xiàn)與信息找用戶相加的發(fā)現(xiàn)性服務。
4 結語
大數(shù)據(jù)時代的到來已驅動著數(shù)字圖書館的轉型與發(fā)展,數(shù)據(jù)圖書館作為數(shù)字圖書館發(fā)展的未來形態(tài),也必然存在著諸如接口標準制定、數(shù)據(jù)保存算法設計、數(shù)據(jù)描述模型完善等研究性課題。本文僅限于對影響數(shù)字圖書館轉型發(fā)展的驅動因素和影響因素入手,對數(shù)據(jù)圖書館的核心系統(tǒng)框架進行了簡單設計,諸多存在的不足也還有待于進一步去深入研究。
參考文獻:
[1] 張穎.大學生圖書館使用情況調查與研究——以A校為例[J].青年文學家,2014(6):182.
[2] 關于圖書館利用狀況的調查報告[EB/OL].[2016-03-20].http://www.docin.com/p-570050019.html.
[3] Anderson?Rick. The Crisis in Research Librarianship[J].Journal of Academic Librarianship,2011,37(4):290.
[4] RJ It. Ten years on from the Budapest Open Access Initiative: setting the default to open (BOAI10, 2012) Dieci anni dopo la Budapest Open Access Initiative (BOAI1...0) [J].Jlis It,2012,3(2):20.
[5] 開放獲取期刊目錄DOAJ剔除近3300本期刊[EB/OL].[2016-06-12].http://blog.sina.com.cn/s/blog_12c7d197e0102wocp.html.
[6] DOAJ的開放獲取新進展[EB/OL].[2016-06-12]. http://blog.sciencenet.cn/blog-1035376-898149.html.
[7] 大數(shù)據(jù)時代,我們應該具有怎樣的思維方式?[EB/OL].[2016-03-20].http://mt.sohu.com/20160303/n439227782.shtml.
[8] 大數(shù)據(jù)思維的十大核心原理[EB/OL].[2016-06-12]. http://www.raincent.com/content-10-4235-7.html.
[9] ACRL.2012 top ten trends in academic librariesh[EB/OL].[2016-03-20].ttp://crln.acrl.org/content/73/6/311.full.
[10] ACRL.Top trends in academic libraries:A review of the trends and issues affecting academic libraries in higher education[J].College&Research; Libraries News,2014(6):294 -302.
[11] ACRL.2016 top ten trends in academic librariesh[EB/OL].[2016-06-10]. http://crln.acrl.org/content/77/6/274.full.
作者簡介:譚影虹(1978-),女,廣東江門新會景堂圖書館館員。