徐紅華
摘 要:目前許多圖書館都開展了數(shù)字圖書館業(yè)務,但是在大數(shù)據(jù)時代背景下,數(shù)字圖書館需要改變目前低端處境,轉而往數(shù)據(jù)圖書館的方向發(fā)展。本文首先指明了數(shù)字圖書館目前的處境,然后結合大數(shù)據(jù)的技術和思維,對數(shù)字圖書館應該怎么做出改變進行分析,文章最后對數(shù)字圖書館將來的發(fā)展前景進行了展望。
關鍵詞:數(shù)字圖書館 大數(shù)據(jù) 數(shù)據(jù)圖書館
中圖分類號:G25 文獻標識碼:A 文章編號:1003-9082(2017)11-00-02
引言
近日,隨著AlphaGo橫掃圍棋界,人類之前最后一塊堅守的智商高地被計算機攻下,這其實不僅是計算機的勝利,也是人類智商的勝利,更是大數(shù)據(jù)的勝利。眾所周知,人工智能是現(xiàn)在整個科技屆最炙手可熱的概念,而人工智能的核心就是機器學習(Machine Learning)。機器學習這一概念起源于20世紀50年代,中間經(jīng)過了很長的冰凍期,后來隨著SVM的提出,機器學習逐漸火熱起來。2012年隨著AlexNet網(wǎng)絡[13]的出現(xiàn),神經(jīng)網(wǎng)絡開始擊敗SVM成為機器學習乃至人工智能的主流,也推動了近五年來絕大部分人工智能成就的出現(xiàn)。而這三者從人工智能到機器學習,再到最核心的神經(jīng)網(wǎng)絡,它們成功的背后全部都是大數(shù)據(jù)的驅動,這證明現(xiàn)在是大數(shù)據(jù)[1]的時代,而圖書館作為社會的知識中心,在這股潮流中也要做出相應的改變,把大數(shù)據(jù)的概念與方法吸收進自身的未來發(fā)展中。
一、大數(shù)據(jù)定義
關于大數(shù)據(jù)的定義眾說紛紜,對大數(shù)據(jù)的理解取決于定義者的態(tài)度和學科背景[4],總的來說,我們可以從兩個角度來理解大數(shù)據(jù):把“大數(shù)據(jù)”看成形容詞,它描述的是研究的大數(shù)據(jù)的特點——數(shù)據(jù)量大至海量[2][3],完全超出了現(xiàn)有的計算機硬件水平;把“大數(shù)據(jù)”看成名詞,它指的是大數(shù)據(jù)的研究對象,即自然與社會兩個方面都會產(chǎn)生海量的數(shù)據(jù)[2][3]。
二、現(xiàn)在數(shù)字圖書館的境遇
1.互聯(lián)網(wǎng)對圖書館的沖擊
圖書館從功能上分為公共圖書館和高校圖書館,其中高校圖書館是以服務高校師生為宗旨的重要陣地,是高校文化服務體系的核心組成部分。高校圖書館目前仍然是以紙質藏書為主,并提供網(wǎng)上文獻下載服務,是學生和老師獲取知識的重要渠道。但是在大數(shù)據(jù)背景下,尤其是互聯(lián)網(wǎng)的沖擊下,學生和老師們獲取知識(尤其是文獻)的主要渠道變成了網(wǎng)絡,比如CNKI、Google Scholar、百度學術等等,這些網(wǎng)站目前成為了最新研究成果的聚集地,幾乎大部分社科類、自然科學類的研究成果都可以在上面找到,并且由于科研機構和教育機構都購買了資料,所以高校師生是可以在高校的IP內免費下載。這種情況下,圖書館的作用就遭到了弱化,如果高校圖書館不對自身做出改變,那么在互聯(lián)網(wǎng)和大數(shù)據(jù)的沖擊下,自身價值將會損失降低。
2.數(shù)字圖書館的缺陷
雖然目前的大多數(shù)高校圖書館都開放了數(shù)字圖書館服務,但是這些服務現(xiàn)在只停留在查詢館藏圖書,文獻下載等功能,功能單一,并且不完善。數(shù)字圖書館目前存在著標準不規(guī)范、文獻數(shù)字化水平低、數(shù)字文獻的安全缺乏絕對保障等問題。而開放存取運動的進一步深化發(fā)展和以語義、云計算為主等為代表的信息技術出現(xiàn),則讓圖書館面臨著巨大的挑戰(zhàn)。數(shù)字圖書館在建設過程中,由于受到技術所限、資金不足、標準不統(tǒng)一等限制,致使數(shù)字圖書館在剛出現(xiàn)的時代就存在諸如接口不統(tǒng)一、資源數(shù)據(jù)描述不足、檢索能力不足、文獻數(shù)據(jù)相互關聯(lián)性較差、互操作程度較低、資源發(fā)現(xiàn)和擴展能力不足等問題,而這些缺點使得數(shù)字圖書館成為人們獲取知識時所選擇的最后渠道。一份關于大學生對高校圖書館使用情況的調研報告則表明,72%的學生是通過網(wǎng)絡獲得信息,而通過圖書館獲得信息的學生只占18%。另一項調查也顯示大學生訪問圖書館網(wǎng)站(數(shù)字圖書館)的只占28%,遠低于使用搜索引擎的使用比例,甚至有25.3%的大學生表示從沒有去訪問過圖書館網(wǎng)站(數(shù)字圖書館)。這種現(xiàn)狀也引發(fā)了圖書館界的擔憂與思考,圖書館屆的有識之士指出,圖書館必須要提供更好的資金支持,并將之轉化為技術支持和服務手段,吸引師生回到圖書館來獲取知識,使得圖書館重新成為高校知識的集散地。
3.大數(shù)據(jù)潮流下圖書館的尷尬
目前在世界的高校以及科研企業(yè)的圈子里,Google Scholar已經(jīng)成為大家獲取第一手科研資料當仁不讓的來源。而具體到自然科學界,Arxiv更是每日必刷的文獻網(wǎng)站。圖書館在這種情況下應該通過資金爭取等手段和這些互聯(lián)網(wǎng)巨頭取得合作,獲取這些數(shù)據(jù)資源,并進行有機整合,使得所獲得的數(shù)據(jù)資源能更好的展現(xiàn)在師生面前,幫助師生進行科研活動。如果圖書館滿足于現(xiàn)狀,只是停留在紙質圖書和一些網(wǎng)絡資源的堆砌,那么圖書館將不再能滿足師生乃至公眾的需求,淪為昨日黃花。
三、大數(shù)據(jù)背景下的圖書館
1.大數(shù)據(jù)技術下圖書館的挑戰(zhàn)
人類最重要的技能是學習,學習很重要的就是能將紛繁復雜的信息進行歸類和抽象。對應到大數(shù)據(jù)層面,最主要的無非就是四個核心問題[3]:
①存儲,海量的數(shù)據(jù)怎樣進行存儲
②計算,海量的數(shù)據(jù)如何進行快速計算
③查詢,海量的數(shù)據(jù)如何進行查詢,并且快速查到想要的信息
④挖掘,海量的數(shù)據(jù)如何挖掘出隱藏的知識,即探索到數(shù)據(jù)之間的關系以及數(shù)據(jù)背后隱藏的結論。
當我們要把大數(shù)據(jù)的技術引入到圖書館建設中來的時候,就可以從這四個方面汲取經(jīng)驗,引他山之石可以攻玉。
首先是存儲。圖書館之所以被成為圖書館,最原始的含義就是藏書之地,而自從紙被發(fā)明出來的那一刻起,成百上千張紙裝訂成冊被稱之為的“書”就承擔了知識在空間和時間兩個維度流傳的功能。當書的數(shù)量成指數(shù)級增長的時候,普通人家就沒法裝下那么多書了,于是動用政府力量建立作為公共資源出現(xiàn)的圖書館就承擔起了這樣的功能。時過境遷,之前的兩千多年紙這種媒介一直是作為知識載體的不二選擇,而圖書館也只是完成藏書,借閱的功能;然而到了今天,隨著互聯(lián)網(wǎng)的發(fā)展,人們之間的交流與工作生活變得更加便捷,隨之而來的就是產(chǎn)生了海量的有意義的數(shù)據(jù),互聯(lián)網(wǎng)公司趁近水樓臺之勢,運用各種數(shù)學手段對其分析,取得了不錯的效果。圖書館這個機構有如此浩如煙海的資料,但是紙質的終究不便于查詢和挖掘,如何把它們轉化成電子數(shù)據(jù),這就是擺在圖書館面前的一個有意義的難題。對于計算機來說,傳統(tǒng)的文件系統(tǒng)存儲是單機的,不能橫跨機器。而大數(shù)據(jù)時代,HDFS(Hadoop Distributed File System)的出現(xiàn)解決了這一問題,它的出現(xiàn)使得大量的數(shù)據(jù)橫跨成百上千臺機器,但你看到的是一個文件系統(tǒng)而不是很多分散的文件系統(tǒng),當你要引用這些數(shù)據(jù)的時候,你不用管它們分布在哪些機器上,只需要提供一個文件路徑即可。類比之下,圖書館在未來需要做的也是把這些紙質藏書通過某些技術手段轉化成電子數(shù)據(jù)(比如給圖書拍照,然后把圖片轉化成文字),最后把這些文字的電子數(shù)據(jù)存儲到大型服務器上,方便讀者去查詢。endprint
接下來是計算和查詢,這兩者雖然對于計算機科學來說是截然不同的兩個方面,但是對于圖書館從業(yè)者不必要區(qū)分開。圖書館方面關心的是怎樣為讀者提供更好的服務,具體到這點上,就是怎樣把數(shù)據(jù)做更好的整合,符合人類的查詢思維,使得讀者更快更好的查到自己需要的信息。對于文獻總結歸納,傳統(tǒng)的方法自然是靠人去做,這就像我們中學時期的語文課一樣,由人去通讀全文,再靠自己的經(jīng)驗積累,總結出書本文字想要表達出的思想,然后再按一定之規(guī)則,把同類別的進行歸納總結,最后供給讀者查詢使用。但是現(xiàn)在在大數(shù)據(jù)的時代下,招募這么多人力去干這事已經(jīng)不太實際,所以如果能依靠機器完成初步的信息獲取,那就已經(jīng)是節(jié)省了大部分人力工作。從技術角度來說,MapReduce太慢,是因為它太通用,太強壯,太保守,而快捷的方式有Impala、Presto、Drill,這些輕巧簡便,能讓用戶更快的進行查詢,節(jié)省寶貴的時間。如果說MapReduce是大砍刀,砍啥都不怕,那么上面列舉的快捷方式的三個就是剔骨刀,靈巧鋒利,但是不能搞太大太硬的東西,否則會崩潰。
最后也是更深入的就是挖掘。我們都知道大數(shù)據(jù)的意義就是其背后隱藏的信息,怎么能把大數(shù)據(jù)背后的信息或者結論挖掘出來是我們所最終希望的。而圖書館作為大數(shù)據(jù)的擁有者之一,怎樣能不浪費資源,在現(xiàn)有大數(shù)據(jù)的基礎上挖掘出對自己有益的結論,以便更好的服務讀者。
要解決這個問題,就要引入當下最火熱的機器學習和深度學習技術,編程框架包括但不限于Tensorflow、Caffe、Caffe2、PyTorch等,數(shù)據(jù)挖掘模型包括RNN、LSTM、CNN等。由于圖書館的書大部分是以文字形式呈現(xiàn)的,而文字是一種靠前后順序以助于理解的媒介形式,這種情況下的問題適合用RNN(循環(huán)神經(jīng)網(wǎng)絡)和LSTM(長短時記憶網(wǎng)絡)來解決。這些工作可能應該交與公司和科研機構來解決。而圖書館方面的領導以及從業(yè)者可以從中汲取靈感,
比如在整理書籍被借閱記錄的時候,可以結合時間軸來考慮問題,評判一本書在時間這一維度上的受歡迎程度的曲線變化,最終來決定哪些圖書應該放在讀者更容易看見更容易借閱的地方,而把那些逐漸淡出讀者視野,不再跟得上時代要求的書籍轉移到稍微差一點的書架位置,用這種方法來提高圖書館書籍的借閱率。當然這只是舉了一個簡單的例子,在實際工作中,人們會遇到各種各樣復雜的問題,這種跨學科來汲取靈感解決問題的方式還是值得被我們所提倡的。
2.大數(shù)據(jù)思維下圖書館的挑戰(zhàn)
大數(shù)據(jù)時代,海量數(shù)據(jù)將驅動創(chuàng)新與發(fā)展,同時也將極大的改變人們的思維方式。與傳統(tǒng)思維方式強調因果關系不同,人們將逐漸接受數(shù)據(jù)分析,更加強調數(shù)據(jù)之間的相關關系、相互關系,人們逐漸拋棄基于假象然后去驗證的思維方式,而是根據(jù)海量數(shù)據(jù)自然而然的找尋結果,分析出原因以為人們所用。很顯然,目前的數(shù)字圖書館對組成數(shù)字圖書館的最基本單元的文獻資源的唯一標識、科學引用頻率統(tǒng)計、元數(shù)據(jù)描述標準統(tǒng)一、相似性關聯(lián)及鏈接等都還無法做到,那么這種境況下,要實現(xiàn)這類基于海量數(shù)據(jù)的挖掘預測、為信息找用戶等服務就還需假以時日,需要圖書館在以上敘述到的短板方面進行修改改進,以滿足大數(shù)據(jù)時代讀者思維下的需求。
四、圖書館未來展望
1.數(shù)字圖書館往數(shù)據(jù)圖書館的轉型
現(xiàn)有的數(shù)字圖書館只是把互聯(lián)網(wǎng)接入了圖書館,把原來只能到現(xiàn)場查閱的紙質圖書部分轉移到了網(wǎng)上變成可查閱的電子數(shù)據(jù),并且把原本就是網(wǎng)上的文獻等數(shù)據(jù)庫進行了版權購買操作,使得師生能夠從高校圖書館免費取得第一手文獻。雖然這樣的改變對傳統(tǒng)圖書館來說已經(jīng)算是一種進步了,但是在現(xiàn)在的大數(shù)據(jù)時代背景下,僅僅做到這樣還是遠遠不夠的,我們希望圖書館能完成從數(shù)字圖書館往數(shù)據(jù)圖書館的轉型,真正的契合大數(shù)據(jù)時代的潮流,完成自己的完美轉身。
關于什么是數(shù)據(jù)圖書館的定義,目前還沒有準確的說法,從時代背景來理解,就是從以前簡單的堆砌數(shù)據(jù)資料,變成從數(shù)據(jù)中提取出有價值的信息,使得數(shù)據(jù)排列放置更加得當,更加符合讀者需求。
數(shù)據(jù)圖書館從大體上來說應該圍繞兩點來建立,即數(shù)據(jù)和數(shù)據(jù)業(yè)務。圍繞數(shù)據(jù)就是要處理數(shù)據(jù)的存儲、計算、查詢和挖掘,這是一個很大的課題,單靠圖書館是不可能完成的,必須要依靠外部互聯(lián)網(wǎng)公司合作來完成,通過引進合作來形成具有數(shù)據(jù)服務、數(shù)據(jù)出版和數(shù)據(jù)增值服務的數(shù)據(jù)圖書館形態(tài)。圍繞數(shù)據(jù)業(yè)務,就是利用從數(shù)據(jù)中挖掘出的信息,如何契合讀者需求,構建一整套的服務體系
2.數(shù)據(jù)圖書館的體系架構
從圖書館的角度來說,可利用的大數(shù)據(jù)主要分為三類,即文獻大數(shù)據(jù)(紙質藏書、會議、期刊、專利)、用戶大數(shù)據(jù)(個人信息、借閱信息、瀏覽信息)和其他大數(shù)據(jù)(政府公告、社交媒體數(shù)據(jù)、科研機構數(shù)據(jù)),這三種大數(shù)據(jù)構成了大數(shù)據(jù)層,而在大數(shù)據(jù)層中,這么多數(shù)據(jù)的存儲當然不是存在圖書館一家,而是采用分布式存儲、云計算存儲、異地存儲和異構存儲,只要圖書館能通過某種路徑獲取數(shù)據(jù)即可達到要求[5]。在有了大數(shù)據(jù)層之后,我們要對大數(shù)據(jù)進行計算查詢挖掘,這一層正如前文提到的,要用到多種關鍵技術來實現(xiàn)對數(shù)據(jù)的計算、分析、清洗與保存,完成從浩如煙海的數(shù)據(jù)中挖掘出有意義信息的工作。接下來就是用戶層,在這一層中,要利用計算層挖掘出的信息,進行整合分析,反向去推算應該把最原始的數(shù)據(jù)如何有機的擺放整理,以完成對用戶基礎性服務(數(shù)據(jù)出版、數(shù)據(jù)管理和數(shù)據(jù)研究)和發(fā)現(xiàn)性數(shù)據(jù)服務(動態(tài)解析、追蹤與檢測和趨勢預測等)
五、結語
在大數(shù)據(jù)的時代背景下,數(shù)字圖書館需要擺脫目前只是搜索的低端處境,而應該借鑒大數(shù)據(jù)的技術和思維方式,轉而向數(shù)據(jù)圖書館做出改變發(fā)展,只有這樣才能滿足讀者的要求,做到與時俱進。
參考文獻
[1]黎建輝,沈志宏,孟小峰. 科學大數(shù)據(jù)管理:概念、技術與系統(tǒng)[J/OL]. 計算機研究與發(fā)展,2017,54(02):235-247.
[2]孟小峰,杜治娟. 大數(shù)據(jù)融合研究:問題與挑戰(zhàn)[J/OL]. 計算機研究與發(fā)展,2016,53(02):231-246.
[3]李國杰. 對大數(shù)據(jù)的再認識[J]. 大數(shù)據(jù),2015,1(01):8-16.
[4]程淑娥. 大數(shù)據(jù)環(huán)境下區(qū)域科技資源共享平臺云服務模式研究[D].哈爾濱理工大學,2017.
[5]顧立平.數(shù)據(jù)治理———圖書館事業(yè)的發(fā)展機遇[J].中國圖書館學報,2016(5):29-45endprint