孫海晶
摘? 要:隨著信息技術和互聯(lián)網技術的快速發(fā)展,大數(shù)據(jù)技術已普遍融入到了每一個行業(yè)之中,人們已步入了大數(shù)據(jù)時代。大數(shù)據(jù)技術的廣泛應用會使圖書館的知識管理體系進行重新構建。該文將大數(shù)據(jù)技術與圖書館的工作相結合,從各種不同的角度分析了大數(shù)據(jù)技術在圖書館中的應用,同時,也提出了大數(shù)據(jù)背景下,讀者隱私信息的安全問題及解決方法,以促進圖書館的建設和發(fā)展,實現(xiàn)對讀者的精準服務。
關鍵詞:大數(shù)據(jù)? 大數(shù)據(jù)技術? 圖書館? 應用
中圖分類號:G258.6;G251 ? ?文獻標識碼:A 文章編號:1672-3791(2020)01(b)-0174-03
提到“大數(shù)據(jù)”,每個人都不陌生。因為當我們在進行網絡購物時,會發(fā)現(xiàn)網站會根據(jù)我們?yōu)g覽或購買過的商品,個性化地向我們推薦類似的商品,甚至會在我們的電腦桌面間斷性地跳出相關廣告頁面。這就是典型的商業(yè)網站依據(jù)用戶的行為信息建立個性化的用戶行為模型,再對模型中存在的規(guī)則進行挖掘,在此基礎上為用戶提供個性化服務。而且一旦發(fā)現(xiàn)新的商品數(shù)據(jù)就向用戶及時通知。在此之外,還對用戶興趣的轉變及時跟蹤,根據(jù)用戶的最新需要及時推送[1]。這就是基于大數(shù)據(jù)技術的應用。目前大數(shù)據(jù)技術已滲透至每一個行業(yè),而且和我們的生活緊密相連。
如在醫(yī)療行業(yè):在加拿大多倫多的一家醫(yī)院,針對早產嬰兒,每秒鐘有超過3000次的數(shù)據(jù)讀取,通過這些數(shù)據(jù)分析,醫(yī)院能夠提前知道哪些早產兒出現(xiàn)問題并且有針對性地采取措施,避免早產兒夭折。現(xiàn)在,很多圖書館已經開始借鑒這種成功的實踐經驗,將其應用到圖書館建設和發(fā)展中,為讀者提供了個性化的精準服務。
1? 大數(shù)據(jù)的含義
目前,對大數(shù)據(jù)還沒有統(tǒng)一的定義。維克托·邁爾-舍恩伯格及肯尼斯·庫克耶對大數(shù)據(jù)的提出定義是:大數(shù)據(jù)(big data,mega data)或稱巨量資料,指的是需要新處理模式才能具有更強的決策力、洞察力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產。在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數(shù)據(jù)時代》中大數(shù)據(jù)指不用隨機分析法(抽樣調查)這樣的捷徑,而采用所有數(shù)據(jù)進行分析處理。維基百科對大數(shù)據(jù)的定義是:所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時間內達到擷取、管理、處理,并整理成為幫助企業(yè)經營決策更積極目的的資訊。
從這些解釋中,我們不難看出所謂大數(shù)據(jù),它是一種信息資產。這里的數(shù)據(jù)只有少數(shù)以儲存在數(shù)據(jù)庫中的結構化數(shù)據(jù)存在,90%是以郵件視頻、微博等產生的大量的半結構化和非結構化的數(shù)據(jù)存在。并且這些數(shù)據(jù)的價值不是存儲,而是獲取和應用。
2? 大數(shù)據(jù)技術在圖書館中的應用
2.1 服務理念的主動性增強
我們工作的目的是盡其所能地幫助讀者解決問題,而非做了多少數(shù)量的工作。即解決問題為主,基礎工作為輔。
在傳統(tǒng)模式的圖書館管理和服務中,管理員的工作內容主要集中在加工、整理紙質書籍、期刊、報紙等類型文獻,定期更新數(shù)據(jù)資源,舉辦各類讀者活動、線上線下課堂講座、網上咨詢等服務。通過資源共享的方式,在讀者提出問題的前提下,然后查找相應資源為其提供回復,為讀者提供所需要的信息,管理員處在被動模式。這種狀態(tài)已經很難適應現(xiàn)代社會信息化快速發(fā)展的需求。但如果采用大數(shù)據(jù)技術,可以利用收集讀者的相關信息,再把收集的信息進行整合處理成具備某些意義的電子信息,為讀者提供個性化的服務[2]。通過這種方式不僅大大提高了館藏資源的利用率,增強了管理員的服務主動性,對潛在需要服務的讀者群體也進行了有效的擴展。
2.2 更加精準地服務讀者
在圖書館的日常工作中,可以收集很多類型的數(shù)據(jù)信息,其中比較重要的數(shù)據(jù)有:圖書館在對讀者進行服務時產生的業(yè)務數(shù)據(jù);加工處理文獻產生的文獻數(shù)據(jù)以及讀者群體在自助式閱覽、借閱以及活動等方面產生的用戶數(shù)據(jù)。其中用戶使用數(shù)據(jù)是指用戶在使用圖書館信息資源或信息設施的過程中可以被計算機所記錄的用戶信息行為數(shù)據(jù),既包括網絡環(huán)境中的信息行為數(shù)據(jù),也包括物理空間中的信息行為數(shù)據(jù)。圖書館通過統(tǒng)計讀者的用戶數(shù)據(jù),分析出讀者的閱讀周期和規(guī)律,利用大數(shù)據(jù)技術為讀者提供精準、個性化的服務。
2.2.1 在文獻資源服務方面實現(xiàn)精準化
隨著信息技術和網絡的快速發(fā)展,文獻資源的數(shù)量和種類呈現(xiàn)冪級增長的趨勢,數(shù)量大到無法估量。但這些數(shù)據(jù)卻有很大的冗余度,價值密度極低。無論在時間上還是空間上都大大增加了讀者查閱的難度。為解決這個問題,我們可以通過對讀者借閱習慣、對館藏資源的點擊率、下載率甚至社交方式等數(shù)據(jù)的統(tǒng)計與分析,對館藏資源進行文獻信息的分類與排行,預測讀者喜好,有針對性地向不同類型的讀者實現(xiàn)精準推送,實現(xiàn)個性化的精準服務。
有些圖書館已經把讀者的年度閱讀情況以報告的形式向讀者開放。對于讀者而言,不僅使讀者從宏觀上定期地了解了自己的閱讀情況,而且有助于讀者進一步完善自身的知識體系,根據(jù)需要調整資源結構,提高了讀者的閱讀興趣;對于圖書館而言,不僅提高了圖書館工作者對信息處理的服務技能,合理地利用了圖書館的文獻資源,更增強了讀者對圖書館的好感度,推進了對讀者更好地進行精準服務。
2.2.2 在讀者活動方面實現(xiàn)精準化服務
現(xiàn)代圖書館為了營造社會文化氛圍,提高公民文化素養(yǎng),不斷提高館舍場地的利用率,已將各類展覽、專題講座、大眾培訓等多種服務內容納入到了其重要業(yè)務范疇。圖書館可以針對不同的讀者群體、不同的業(yè)務領域,將大數(shù)據(jù)的分析、預測功能,滲入到各項讀者活動中。圖書館可采用大數(shù)據(jù)技術對參加圖書館各類活動的讀者展開數(shù)據(jù)分析,這種分析結果將成為未來活動策劃的重要依據(jù)?,F(xiàn)場問答、讀者意見單等都可以為圖書館獲取有效數(shù)據(jù)提供支持,通過對這些數(shù)據(jù)的深層次挖掘和具體分析,我們可以從中獲取有價值的信息,這對圖書館各項讀者活動的發(fā)展方向、規(guī)模大小等都具有參考價值。
2.2.3 在資源采購方面實現(xiàn)精準化
通過大數(shù)據(jù)技術在圖書館系統(tǒng)中的運用,圖書館可以通過收集讀者的圖書借閱記錄、數(shù)據(jù)庫訪問、檢索、下載記錄、留言等信息,收集相關有用數(shù)據(jù),進而更加有效地了解與分析讀者對各種資源的使用情況,特別是通過挖掘用戶檢索日志,對那些多次被讀者檢索而本館又缺藏資源的采購提供了重要的信息。尤其在一些區(qū)域型中心館分館型圖書館中,通過網絡技術可以全面掌握整個區(qū)域讀者的需求情況,為圖書館文獻資源的采訪決策、優(yōu)化配置和數(shù)據(jù)庫的刪選調整提供科學的依據(jù),也為圖書館再造文獻采訪模式提供有力的保障。
2.3 利用大數(shù)據(jù)構建新型知識體系引擎
目前的公共圖書館中,幾乎都通過自己的查詢系統(tǒng)實現(xiàn)了館藏書目聯(lián)合檢索,但仍無法做到對本館資源整體的資源檢索。如讀者檢索某一知識點時,除了通過書目檢索系統(tǒng)檢索相關書目信息外,還需要通過不同數(shù)據(jù)庫的不同檢索引擎,經過多次檢索才能獲取此知識點相關的完整文獻信息。為避免這一問題,可以通過大數(shù)據(jù)處理技術的支撐構建動態(tài)的知識體系,以供讀者從多視角、全方面地瀏覽相關資源[3]。在這方面,谷歌知識圖譜、搜狗知立方、百度知識圖譜等搜索引擎的推出,為用戶的搜索關鍵詞返回多種媒體形式、多種知識點組成的知識關聯(lián)結果,大大擴展了用戶搜索的知識體系,值得圖書館界的學習和借鑒。
如“谷歌知識圖譜”:利用搜索引擎查找一詞多義的詞語,“維多利亞”,它既是一位前英國的女王,又是加拿大的一座城市,還是一部電影的名字。Google會在搜索結果的右側給出維多利亞女王的介紹,在更下面的位置,會給出維多利亞城市的簡介,還有維多利亞電影的簡介等。
借助知識圖譜,Google在搜索結果的右側將這些由同一個關鍵詞所表示的不同事物根據(jù)特定的優(yōu)先級算法羅列出來。用戶借助這種信息組織形式就能方便地縮小搜索范圍,快速找到真正關心的內容。
知識圖譜還可以根據(jù)相關度給用戶做出推薦,例如,當用戶搜索一本書時,知識圖譜知道這本書獲得哪些獎項,就會把同樣獲得這些獎項的圖書也推薦給用戶。當用戶搜索某個科學家時,知識圖譜會把和他同一個年代、同一個領域的科學家展示給用戶。除了回答用戶已提出的問題,還能根據(jù)其他人的搜索行為預測當前用戶接下來會問什么問題,直接把這些接下來用戶可能關心的問題答案擺放在“用戶還搜索了”下面。
3? 大數(shù)據(jù)背景下讀者信息的隱私安全問題
通過大數(shù)據(jù)技術在圖書館中的應用,可以給讀者帶來個性化的精準服務,但在服務的同時,由于圖書館對讀者各種信息數(shù)據(jù)的采集、數(shù)據(jù)挖掘、預測服務,以及與第三方增值服務合作等過程中,難免存在對讀者隱私數(shù)據(jù)的侵犯問題,這給讀者的信息安全帶來了隱患。據(jù)中國互聯(lián)網信息中心(CNNIC)提供的2013年《中國網民信息安全狀況研究報告》顯示,74.1%的網民在過去半年內遇到過信息安全問題。另據(jù)2012年的調查,絕大多數(shù)網民對個人信息安全處于無助狀態(tài),有近九成網民在信息泄露后無任何補救辦法。
3.1 圖書館與第三方增值服務運營商合作過程中出現(xiàn)的讀者信息泄露
圖書館在對讀者進行用戶注冊信息、讀者借閱數(shù)據(jù)、讀者活動數(shù)據(jù)、讀者社交數(shù)據(jù)等信息進行采集操作后,還需要與第三方增值服務運營商合作,為讀者在移動閱讀、用戶數(shù)據(jù)管理、個人圖書館等方面提供服務。而有些IT系統(tǒng)的規(guī)劃和建設過于注重功能性需求,卻忽略系統(tǒng)在安全、穩(wěn)定、可維護等方面的非功能性需求,致使大數(shù)據(jù)系統(tǒng)在安全方面防護能力不足,在系統(tǒng)設計、技術手段和運營管理等方面存在各種漏洞。還有的系統(tǒng)過于強調開放性和便利性,忽視對數(shù)據(jù)關鍵信息的保護。比如代理商可以直接訪問系統(tǒng)核心數(shù)據(jù)庫,調用客戶資料,查閱信息等。這都可能造成讀者隱私數(shù)據(jù)的泄露。
3.2 圖書館在對讀者管理和服務過程中出現(xiàn)的讀者信息泄露
圖書館為了給讀者提供精準的服務,首先要進行信息的收集,如姓名、性別、出生日期、文化程度、工作單位、聯(lián)系方式、職業(yè)等信息;讀者在參加圖書館的各項活動和社會培訓中,也會提交各種相關信息;讀者在圖書館的閱覽、借閱、上網瀏覽下載、定位、網絡社交等行為所產生的數(shù)據(jù)信息也會被在圖書館所記錄。這些讀者信息在收集的過程中難免存在安全漏洞,導致讀者信息的泄露。
3.3 圖書館自律不足會使讀者信息泄露
國內圖書館在某些方面對讀者信息保護措施還不夠健全,所以很多圖書館員在對讀者信息的處理問題上沒有準確的依據(jù)和范圍,不確定哪些信息需要保護、哪些信息可以公開,存在模糊與漏洞的狀態(tài)。一項針對我國151所各種類型圖書館的研究表明,制定并公布隱私權政策的圖書館僅占13.9%。所以在圖書館員的信息安全方面也存在一定的問題。
4? 大數(shù)據(jù)背景下圖書館對讀者隱私數(shù)據(jù)的保護措施
4.1 圖書館與第三合作方建立完善的責任機制
圖書館在與第三合作方達成協(xié)議前,應根據(jù)需要與其對信息安全方面達成書面責任制約協(xié)議。其內容可以包括法律規(guī)定、管理與服務需要把數(shù)據(jù)劃分為不同等級,嚴格設置訪問機制,對不同人群的訪問采取等級制度,從而達到保護讀者數(shù)據(jù)安全的目的。
4.2 按需求嚴格篩選讀者數(shù)據(jù)
大數(shù)據(jù)具有數(shù)據(jù)量大、冗余密度低的特點,針對這些缺點,在對讀者進行數(shù)據(jù)采集的過程中,應盡量避免多余、利用率低的數(shù)據(jù),只采集與讀者管理和相關服務有關的數(shù)據(jù)。在實現(xiàn)用戶個性化精準服務過程中,圖書館應交付用戶應有的數(shù)據(jù)知情權、擁有權、選擇權和使用權,不應過分強調個性化精準服務的質量而侵害用戶隱私。圖書館應實現(xiàn)用戶數(shù)據(jù)的透明采集,并明確告知讀者相關數(shù)據(jù)采集的內容、方式和使用方向。在利用傳感器、監(jiān)控設備和網頁搜集用戶數(shù)據(jù)時,應通過技術手段過濾掉讀者的姓名、住址、電話,閱讀終端類型、賬戶密碼、職業(yè)、身份、收入等隱私信息。
4.3 加強圖書館自律
圖書館工作人員負責采集讀者信息,在讀者的信息安全方面負有很大的責任。圖書館在隱私權法律知識方面進行普及,提高圖書館員和讀者對個人信息的自我保護意識。比如可以在定期的法律講堂或前臺服務處介紹相關的信息安全知識,對圖書館的特定崗位進行信息安全培訓,幫助讀者和館員理解法律法規(guī),學習圖書館隱私權政策,提高自我保護隱私的意識和能力。
5? 結語
在《奇葩大會》中,李開復說:“未來,人類有50%的工作將會被人工智能替代?!薄八械男袠I(yè)都會顛覆,而且很多的職業(yè)正在慢慢消失?!钡幕?、娛樂、文藝、考古學或者一些跨領域、深度的工作是機器所不能替代的。特別是服務者,在未來是非常有價值的。所以,我們這些圖書館的服務者,在看到自己的危機感的同時,更重要的是提升自身的服務質量。
參考文獻
[1] 王玫.大數(shù)據(jù)在圖書館的應用研究[J].管理縱橫,2016(10):49-50.
[2] 徐寅哲.大數(shù)據(jù)在圖書館管理與服務中的應用[J].科技資訊,2017,15(31):254-256.
[3] 陳國蘭.如何利用大數(shù)據(jù)構建圖書館新型知識服務體系[J].現(xiàn)代情報,2014,34(9):149-157.