亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        掘金大數(shù)據(jù):圖書館面臨的幾個(gè)問題探討*

        2014-07-09 01:26:26
        新世紀(jì)圖書館 2014年6期
        關(guān)鍵詞:圖書館分析

        姚 毅

        大數(shù)據(jù)是繼互聯(lián)網(wǎng)、Web2.0、云計(jì)算、數(shù)據(jù)挖掘之后,近兩年最為流行和最受關(guān)注的詞語(yǔ)之一。自從概念提出之后,其蘊(yùn)含的巨大價(jià)值逐漸為人們所認(rèn)知。美國(guó)等發(fā)達(dá)國(guó)家對(duì)大數(shù)據(jù)的研究極為重視,2012年,美國(guó)政府撥款2億美元啟動(dòng)“大數(shù)據(jù)研究和發(fā)展倡議”計(jì)劃,將大數(shù)據(jù)的研究提升至國(guó)家層面[1]。我國(guó)對(duì)大數(shù)據(jù)研究同樣重視,科技部發(fā)布的“十二五”國(guó)家科技計(jì)劃信息技術(shù)領(lǐng)域2013年度備選項(xiàng)目征集指南中,關(guān)于大數(shù)據(jù)的研究(存儲(chǔ)設(shè)備)排在第一位[2]。隨著 IT業(yè)巨頭如 IBM、Microsoft、Google、Oracle等跨國(guó)公司相繼投入資金,推動(dòng)大數(shù)據(jù)處理技術(shù)的快速發(fā)展,大數(shù)據(jù)的分析和研究在許多領(lǐng)域取得了巨大成功。在圖書館方面,國(guó)外的研究者進(jìn)行了“關(guān)聯(lián)開放數(shù)據(jù)”和“圖書館數(shù)據(jù)監(jiān)管”的研究項(xiàng)目[3];梵蒂岡圖書館將多達(dá)8萬(wàn)部古籍?dāng)?shù)字化后,放入存儲(chǔ)中,占用空間約2.8PB[4];清華大學(xué)利用元數(shù)據(jù)倉(cāng)儲(chǔ)進(jìn)行數(shù)據(jù)挖掘,建立可檢索多種數(shù)據(jù)源的檢索平臺(tái),并利用關(guān)鍵詞分析作者與合作者的關(guān)系,建立知識(shí)關(guān)聯(lián)網(wǎng)絡(luò)[5];2013年10月25日,北京大學(xué)圖書館承辦了“大數(shù)據(jù)時(shí)代數(shù)字圖書館的變革與創(chuàng)新”學(xué)術(shù)研討會(huì)[6]。大數(shù)據(jù)正在成為當(dāng)前圖書情報(bào)領(lǐng)域研究的熱點(diǎn)之一。然而,圖書館掘金大數(shù)據(jù)之路并不平坦,面臨著許多問題與挑戰(zhàn)。本文擬從大數(shù)據(jù)獲取與存儲(chǔ)、應(yīng)用研究、分析與挖掘技術(shù)三個(gè)方面,探討圖書館應(yīng)用大數(shù)據(jù)面臨的幾個(gè)問題。

        1 認(rèn)識(shí)圖書館大數(shù)據(jù)的價(jià)值

        1.1 什么是大數(shù)據(jù)

        關(guān)于大數(shù)據(jù),科學(xué)界給出的定義比較籠統(tǒng)。一般認(rèn)為,大數(shù)據(jù)是指用我們當(dāng)前的IT軟硬件技術(shù)和工具,在相當(dāng)長(zhǎng)的時(shí)間內(nèi),無(wú)法處理或者不能從數(shù)據(jù)集中獲得有用信息的數(shù)據(jù)。大數(shù)據(jù)有三個(gè)特點(diǎn),第一是數(shù)據(jù)體量巨大,一般的數(shù)據(jù)規(guī)模已從TB級(jí)升至PB級(jí)或更高的EB和ZB級(jí)。第二是數(shù)據(jù)類型種類多樣,來(lái)源廣泛,不僅包括結(jié)構(gòu)化數(shù)據(jù),也有半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),如來(lái)自互聯(lián)網(wǎng)社交網(wǎng)絡(luò)數(shù)據(jù)、網(wǎng)絡(luò)日志、多媒體數(shù)據(jù)、傳感器的數(shù)據(jù)信息、RFID數(shù)據(jù)、視頻信息、地理位置信息等。第三是數(shù)據(jù)價(jià)值巨大,但密度很低。即在海量的數(shù)據(jù)中,有巨大價(jià)值的信息非常少。也有學(xué)者認(rèn)為,與應(yīng)用密切相關(guān)的各類數(shù)據(jù)都屬于大數(shù)據(jù)范疇[7]。

        1.2 大數(shù)據(jù)在圖書館的作用

        大數(shù)據(jù)在經(jīng)濟(jì)和信息領(lǐng)域取得了成功。2012年,在瑞士達(dá)沃斯舉行“世界經(jīng)濟(jì)論壇”發(fā)表的報(bào)告顯示,美國(guó)利用大數(shù)據(jù)技術(shù),每年的零售業(yè)價(jià)值可增加3000億美元,凈利潤(rùn)增加60%,減少制造業(yè)開發(fā)和組裝成本50%[8];淘寶網(wǎng)通過數(shù)據(jù)的分析和挖掘,為公司戰(zhàn)略和決策提供依據(jù),為賣家提供更為精準(zhǔn)的營(yíng)銷服務(wù),也為買家提供更好的購(gòu)物體驗(yàn);Google的搜索服務(wù)利用大數(shù)據(jù)引擎,快速?gòu)娜蚝A康臄?shù)字信息中找出最可能的答案。這些案例表明:大數(shù)據(jù)有巨大價(jià)值,大數(shù)據(jù)可以被眾多行業(yè)所應(yīng)用,大數(shù)據(jù)可以為行業(yè)帶來(lái)新的發(fā)展機(jī)遇。

        大數(shù)據(jù)是IT業(yè)顛覆性的技術(shù)變革,必然會(huì)使圖書館的信息存儲(chǔ)、加工、組織、生產(chǎn)、利用發(fā)生很大的變化。大數(shù)據(jù)應(yīng)用于圖書館,有利于推動(dòng)建立全新的知識(shí)服務(wù)體系。大數(shù)據(jù)的作用主要表現(xiàn)在:(1)讀者大數(shù)據(jù)的分析和挖掘,將促進(jìn)個(gè)性化服務(wù)的全面實(shí)施。(2)利用大數(shù)據(jù)挖掘技術(shù),整合圖書館的各類信息資源。(3)提供智能輔助決策能力,為圖書館管理增加有效的手段。(4)幫助建立智慧型圖書館。RFID和各類傳感器將普遍應(yīng)用于未來(lái)的智慧型圖書館中。RFID和傳感器的數(shù)據(jù)分析,將依賴于大數(shù)據(jù)的分析技術(shù)。(5)促進(jìn)圖書館自動(dòng)化系統(tǒng)和數(shù)據(jù)庫(kù)服務(wù)商由傳統(tǒng)模式向云計(jì)算架構(gòu)或云服務(wù)方式轉(zhuǎn)化。如在CALIS的三期建設(shè)中,提出云戰(zhàn)略和數(shù)字圖書館云服務(wù)平臺(tái)[9];新版的知網(wǎng)數(shù)據(jù)庫(kù)是可以支持服務(wù)器集群的分布式數(shù)據(jù)庫(kù);以色列ExLibris(艾利貝斯有限公司)開發(fā)的Aleph系統(tǒng)(美國(guó)國(guó)會(huì)圖書館、中國(guó)國(guó)家圖書館等大型館均使用該系統(tǒng)),已推出新一代的云服務(wù)模式系統(tǒng)Alma[10],該系統(tǒng)已應(yīng)用于包括美國(guó)中央華盛頓大學(xué)圖書館的大學(xué)聯(lián)盟。(6)推動(dòng)圖書館云存儲(chǔ)系統(tǒng)的建設(shè)。大數(shù)據(jù)和圖書館數(shù)字資源的長(zhǎng)期保存都需要存儲(chǔ)提供支持,云存儲(chǔ)將是最佳方式。數(shù)據(jù)的爆發(fā)式增漲,將使圖書館云存儲(chǔ)的建設(shè)不斷增強(qiáng)。

        2 圖書館應(yīng)用大數(shù)據(jù)面臨的幾個(gè)問題

        中國(guó)工程院院士方濱興教授認(rèn)為:大數(shù)據(jù)的應(yīng)用有三個(gè)關(guān)鍵要素,擁有大數(shù)據(jù),清晰的大數(shù)據(jù)應(yīng)用需求和技術(shù)積累[8]。圖書館要利用大數(shù)據(jù)面臨的問題多種多樣,應(yīng)用需求各不相同,但都可以概括為這三個(gè)要素:即第一項(xiàng)對(duì)應(yīng)大數(shù)據(jù)的來(lái)源及獲??;第二項(xiàng)對(duì)應(yīng)大數(shù)據(jù)在圖書館的應(yīng)用研究;第三項(xiàng)對(duì)應(yīng)存儲(chǔ)技術(shù)和數(shù)據(jù)分析與挖掘。

        2.1 大數(shù)據(jù)的來(lái)源及獲取問題

        利用大數(shù)據(jù),關(guān)鍵要先擁有足夠多的數(shù)據(jù)。在大數(shù)據(jù)應(yīng)用上,走在前列的公司無(wú)不擁有超大數(shù)據(jù)量,如百度、騰訊、淘寶、中國(guó)移動(dòng)、中國(guó)聯(lián)通等。目前,圖書館應(yīng)用大數(shù)據(jù)成功的案例較少,除了資金和技術(shù)缺乏以外,缺少大數(shù)據(jù)是一個(gè)重要的原因。研究圖書館大數(shù)據(jù)潛在的來(lái)源及特點(diǎn),有助于我們更加有效地獲取和利用大數(shù)據(jù)。圖書館的大數(shù)據(jù),大致包括以下幾類:

        (1)圖書館傳統(tǒng)業(yè)務(wù)軟件內(nèi)的數(shù)據(jù)。主要是數(shù)據(jù)庫(kù)里的結(jié)構(gòu)化數(shù)據(jù),包括書目數(shù)據(jù)、讀者的身份信息、借還書的記錄、延時(shí)記錄、資金管理等。這類數(shù)據(jù)雖然不太符合大數(shù)據(jù)的特征,但可以融入與其他大數(shù)據(jù)的分析中,是圖書館大數(shù)據(jù)分析環(huán)節(jié)中的重要部分。這類數(shù)據(jù)也包括廣泛使用的條形碼和逐漸增多的二維條形碼數(shù)據(jù)。

        (2)Web數(shù)據(jù)。Web數(shù)據(jù)包括社交網(wǎng)絡(luò)交互數(shù)據(jù),如網(wǎng)站門戶、搜索引擎、社交網(wǎng)絡(luò)、鏈接、日志等。Web2.0正越來(lái)越多應(yīng)用到圖書館服務(wù)中,如應(yīng)用即時(shí)通訊、博客、微博、微信、維基、RSS,使讀者主動(dòng)參與到圖書館的知識(shí)服務(wù)中,在與讀者的交互過程中,會(huì)產(chǎn)生大量數(shù)據(jù)。這些數(shù)據(jù)記錄了讀者的信息需求、習(xí)慣、愛好等個(gè)性化信息。Web數(shù)據(jù)量大并且有很高的價(jià)值,是圖書館進(jìn)行個(gè)性化服務(wù)的依據(jù)。

        (3)移動(dòng)互聯(lián)數(shù)據(jù)。隨著手機(jī)、iPAD等智能終端的普及,2013年6月底,我國(guó)手機(jī)用戶已高達(dá)4.64億[11]。為了適應(yīng)時(shí)代的需求,移動(dòng)方式的服務(wù),如手機(jī)圖書館、微信等在圖書館的應(yīng)用也風(fēng)起云涌,并成為重要的知識(shí)服務(wù)方式。移動(dòng)設(shè)備與圖書館的交互數(shù)據(jù),將是大數(shù)據(jù)的重要來(lái)源。

        (4)文獻(xiàn)數(shù)據(jù)。文獻(xiàn)數(shù)據(jù)是各類數(shù)字化資源的總稱。隨著數(shù)字圖書館進(jìn)程的不斷加快,這類數(shù)據(jù)正呈現(xiàn)爆發(fā)式增長(zhǎng),是圖書館大數(shù)據(jù)的組成部分。但是這類數(shù)據(jù),由于來(lái)源廣泛,存在數(shù)據(jù)格式不兼容或不能離開供應(yīng)商的軟件讀取等問題,需要數(shù)據(jù)供應(yīng)商在一定的條件下,提供通用格式的數(shù)據(jù),以解決數(shù)據(jù)互操作的問題。

        (5)物聯(lián)網(wǎng)數(shù)據(jù),如RFID數(shù)據(jù)、各類智能傳感器數(shù)據(jù)等。在我國(guó)推進(jìn)圖書館智能型、智慧型建設(shè)是大勢(shì)所趨。智慧圖書館將大量使用各類智能設(shè)備,并利用互聯(lián)(物聯(lián))和智能技術(shù)管理圖書館。智能設(shè)備的傳感器不間斷地產(chǎn)生數(shù)據(jù),成為圖書館大數(shù)據(jù)的重要來(lái)源。但是由于傳感器各異,在數(shù)據(jù)收集、數(shù)據(jù)格式、存儲(chǔ)等方面有較大差別,異構(gòu)數(shù)據(jù)的共享問題成為圖書館研究者面臨的難題之一。

        獲取大數(shù)據(jù),還需要不斷完善圖書館的軟件系統(tǒng)。目前,不論是圖書館的應(yīng)用軟件還是Web形式的軟件,只有簡(jiǎn)單的日志記錄,沒有數(shù)據(jù)的采集功能,不能對(duì)讀者交互數(shù)據(jù)進(jìn)行抓取和存儲(chǔ)。需要軟件增加對(duì)應(yīng)的數(shù)據(jù)庫(kù)字段,將數(shù)據(jù)錄入數(shù)據(jù)庫(kù),為大數(shù)據(jù)的分析和挖掘提供數(shù)據(jù)源。

        2.2 大數(shù)據(jù)的存儲(chǔ)問題

        海量的數(shù)據(jù)資源對(duì)存儲(chǔ)系統(tǒng)提出了新的挑戰(zhàn),要求存儲(chǔ)系統(tǒng)具備足夠的存儲(chǔ)空間、靈活的可擴(kuò)展性和較低的使用成本。圖書館目前主要有三種存儲(chǔ)架構(gòu),第一種DAS方式,是服務(wù)器直接連接存儲(chǔ)設(shè)備。第二種NAS方式,是通過網(wǎng)絡(luò)方式連接存儲(chǔ)。第三種SAN,是通過專用的存儲(chǔ)網(wǎng)絡(luò)連接存儲(chǔ),以實(shí)現(xiàn)集中存儲(chǔ)集中管理。但三種方式都存在可擴(kuò)展性差的問題,難以適應(yīng)海量數(shù)據(jù)的存儲(chǔ)要求。對(duì)大數(shù)據(jù)而言,云存儲(chǔ)是較為理想的方式。云存儲(chǔ)系統(tǒng)具有很強(qiáng)的可擴(kuò)展性,它采用并行擴(kuò)容方式,當(dāng)容量不夠時(shí),只需增加具有一定容量的服務(wù)器,而且容量擴(kuò)展后,性能不會(huì)隨之下降。浙江大學(xué)圖書館的下一代PB級(jí)數(shù)字圖書館系統(tǒng),即CADAL項(xiàng)目二期建設(shè),采用EMC的Isilon系統(tǒng)作為存儲(chǔ),與云存儲(chǔ)相似,主要強(qiáng)調(diào)的也是高可擴(kuò)展性。

        南京圖書館的數(shù)字資源近幾年增長(zhǎng)迅速,除外購(gòu)數(shù)據(jù)庫(kù)的數(shù)量和數(shù)據(jù)量不斷上升外,自建的特色數(shù)據(jù)庫(kù)和古籍保護(hù)項(xiàng)目對(duì)存儲(chǔ)的需求量大增,館內(nèi)的存儲(chǔ)系統(tǒng)不堪重負(fù)。為了探索圖書館數(shù)字資源存儲(chǔ)的新途徑,在江蘇省文化科研基金的支持下,南京圖書館聯(lián)合南京郵電大學(xué)對(duì)云存儲(chǔ)系統(tǒng)進(jìn)行了初步研究和開發(fā)。利用開源軟件Hadoop,設(shè)計(jì)了分布式集群存儲(chǔ)系統(tǒng)(云存儲(chǔ))。采用Java語(yǔ)言設(shè)計(jì)客戶端程序,實(shí)現(xiàn)了通過Web方式對(duì)文件的存取。Hadoop系統(tǒng)建立在廉價(jià)的Linux服務(wù)器上,利用較高性價(jià)比的x86服務(wù)器實(shí)現(xiàn)集群化,無(wú)需購(gòu)買價(jià)格高昂的大型專有設(shè)備,極大地降低了圖書館的存儲(chǔ)使用成本。經(jīng)數(shù)據(jù)的上傳測(cè)試,基本達(dá)到了最初的設(shè)想,為我們存儲(chǔ)大數(shù)據(jù)奠定了基礎(chǔ)。目前該系統(tǒng)還只適合用于非聯(lián)機(jī)事物數(shù)據(jù)的處理,如存儲(chǔ)非結(jié)構(gòu)化數(shù)據(jù)、需要長(zhǎng)期保存的數(shù)據(jù)、近線或離線的備份數(shù)據(jù)等。

        2.3 大數(shù)據(jù)在圖書館的應(yīng)用研究

        圖書館的應(yīng)用研究,應(yīng)建立在業(yè)務(wù)需求的基礎(chǔ)上,致力于提高服務(wù)體系的組織水平,促進(jìn)圖書館事業(yè)與制度建設(shè)的創(chuàng)新發(fā)展。大數(shù)據(jù)在圖書館中的應(yīng)用將主要圍繞構(gòu)建新型知識(shí)服務(wù)體系和智能化管理上。以下列舉了大數(shù)據(jù)在構(gòu)建新型知識(shí)服務(wù)體系和智能化管理上的部分應(yīng)用,以期拋磚引玉。

        2.3.1 構(gòu)建新型知識(shí)服務(wù)體系的應(yīng)用

        利用大數(shù)據(jù)分析技術(shù),能夠揭示數(shù)據(jù)背后隱藏的讀者行為和信息需求,有利于改進(jìn)圖書館的服務(wù),優(yōu)化整合圖書館的資源,建立新型知識(shí)服務(wù)體系。大數(shù)據(jù)的應(yīng)用主要包括:

        (1)對(duì)讀者的信息和借閱行為的分析,主要包含:①分析文獻(xiàn)類型與讀者的性別、年齡、學(xué)歷、專業(yè)的關(guān)系。②分析各類文獻(xiàn)的利用情況。進(jìn)行文獻(xiàn)類別的借閱率排行,及時(shí)補(bǔ)充借閱率高的圖書,下架過時(shí)文獻(xiàn),為調(diào)整借閱文獻(xiàn)的品種和采訪提供科學(xué)依據(jù)和預(yù)測(cè)信息,以優(yōu)化館藏結(jié)構(gòu)。③個(gè)性化服務(wù)。分析讀者的活躍度、閱讀喜好、借閱方式、信息需求、行為習(xí)慣等數(shù)據(jù),圖書館可以有的放矢地向用戶提供符合其個(gè)性化需求的服務(wù),如新書推薦、同類書推薦、信息需求推送、個(gè)性化的圖書借閱、網(wǎng)上個(gè)性化門戶等。

        (2)社交網(wǎng)絡(luò)交互數(shù)據(jù)的分析。Web2.0的應(yīng)用,使讀者主動(dòng)參與到圖書館的知識(shí)服務(wù)中,通過數(shù)據(jù)分析可以發(fā)現(xiàn)讀者的信息需求、讀者的研究課題等,可以有針對(duì)性地向其推薦所需要的圖書、課題的論文資料、研究報(bào)告、專利文獻(xiàn)等。

        (3)圖書館信息資源的整合。面對(duì)海量信息,圖書館通過大數(shù)據(jù)處理,從各類資源中整合有用的知識(shí)和關(guān)聯(lián)關(guān)系。通過數(shù)據(jù)的加工整理,探索以數(shù)據(jù)為基礎(chǔ)的知識(shí)發(fā)現(xiàn)分析和數(shù)據(jù)的增值服務(wù)[12]。

        (4)建立全新的知識(shí)服務(wù)導(dǎo)航機(jī)制。利用大數(shù)據(jù)分析,可以建立用戶知識(shí)需求預(yù)測(cè)導(dǎo)航、多維數(shù)據(jù)資源的組織和分析導(dǎo)航、讀者信息行為分析導(dǎo)航、數(shù)據(jù)資源和學(xué)術(shù)資源的服務(wù)導(dǎo)航等[13]。

        (5)知識(shí)服務(wù)的智能輔助決策。根據(jù)讀者的借閱數(shù)據(jù),建立圖書館館藏資源的調(diào)整和預(yù)測(cè)機(jī)制,為圖書館管理增加有效的手段。

        2.3.2 智能化管理方面的應(yīng)用

        (1)閱覽室閱讀數(shù)據(jù)的統(tǒng)計(jì)預(yù)測(cè)。目前,圖書館閱覽室一般無(wú)法提供讀者閱讀書籍的數(shù)據(jù)。通過在一組書架中增加RFID識(shí)別設(shè)備,當(dāng)讀者取書閱讀時(shí)即可將數(shù)據(jù)傳至服務(wù)器中,經(jīng)過數(shù)據(jù)分析和挖掘可以對(duì)讀者的閱讀進(jìn)行統(tǒng)計(jì)和預(yù)測(cè)。根據(jù)書籍的閱讀率及時(shí)增加熱門圖書,剔除冷門圖書,有利于更好地調(diào)整閱覽室的文獻(xiàn)資源布局。

        (2)圖書館物業(yè)管理的智能分析和輔助決策。各類傳感器將普遍應(yīng)用于未來(lái)的智慧型圖書館中,通過對(duì)傳感器數(shù)據(jù)的多維度分析,實(shí)現(xiàn)物業(yè)管理的智能化。

        (3)圖書館對(duì)大數(shù)據(jù)的應(yīng)用研究還包括建立大數(shù)據(jù)分析的可視化模型,如借閱分析模型、統(tǒng)計(jì)分析模型、預(yù)測(cè)模型、風(fēng)險(xiǎn)評(píng)估模型等??梢暬瘜⒊蔀槲磥?lái)大數(shù)據(jù)分析的重要方式。

        2.4 大數(shù)據(jù)的分析與挖掘問題

        大數(shù)據(jù)時(shí)代,數(shù)據(jù)分析與挖掘和傳統(tǒng)的方法相比既有相似之處,也有一定的差別。相似的是:大數(shù)據(jù)的分析與挖掘基本上繼承了傳統(tǒng)分析與挖掘的方法和技術(shù)。如在數(shù)據(jù)分析方法上,都包括簡(jiǎn)單數(shù)學(xué)運(yùn)算、統(tǒng)計(jì)、快速傅里葉變換、平滑和濾波、基線和峰值分析。在數(shù)據(jù)挖掘上,都包括分類法、聚類法、關(guān)聯(lián)規(guī)則、回歸分析、復(fù)雜數(shù)據(jù)類型挖掘。不同之處是:傳統(tǒng)數(shù)據(jù)挖掘一般是基于結(jié)構(gòu)化數(shù)據(jù)庫(kù)的數(shù)據(jù),而大數(shù)據(jù)由于數(shù)據(jù)規(guī)模超出一般計(jì)算機(jī)系統(tǒng)的處理能力,只能基于NoSQL的非結(jié)構(gòu)化數(shù)據(jù)庫(kù),如Mongodb,Cassandra,Hbase等;傳統(tǒng)的分析基于抽樣研究,強(qiáng)調(diào)的是小樣本,而大數(shù)據(jù)時(shí)代強(qiáng)調(diào)全樣本。小樣本的分析,由于數(shù)據(jù)選取的偶然性,不同的樣本分析必然會(huì)使結(jié)果產(chǎn)生差異。全樣本分析的優(yōu)點(diǎn)是極大地減小了這種差異。

        Hadoop是目前處理大數(shù)據(jù)最為流行的分布式集群系統(tǒng)。基于Hadoop運(yùn)行的工具軟件中,Mahout是常用的數(shù)據(jù)分析與挖掘的工具之一,利用Mahout可以迅速有效地將大量數(shù)據(jù)轉(zhuǎn)化為可操作的信息。在實(shí)際應(yīng)用程序中,Mahout常用于三個(gè)領(lǐng)域:協(xié)作篩選、集群、分類。協(xié)作篩選通常利用網(wǎng)站收集用戶的各種信息,并建立一個(gè)推薦引擎,如在圖書館,可以設(shè)計(jì)一種根據(jù)讀者閱讀圖書、網(wǎng)頁(yè)點(diǎn)擊率、圖書評(píng)論等信息為讀者推薦相似度高的書籍和文獻(xiàn)的系統(tǒng)。集群通常用于將大型數(shù)據(jù)集中類似的項(xiàng)目自動(dòng)組織到一起,如將所有主題相同的文章自動(dòng)歸類到一起等。分類通常是根據(jù)設(shè)定的指標(biāo),將數(shù)據(jù)或文檔歸類不同的分組中。

        3 結(jié)語(yǔ)

        大數(shù)據(jù)時(shí)代,對(duì)于數(shù)據(jù)的分析和挖掘能力,將成為圖書館是否具備競(jìng)爭(zhēng)力的一項(xiàng)重要指標(biāo)。個(gè)性化服務(wù)、館藏優(yōu)化、資源整合、風(fēng)險(xiǎn)評(píng)估、發(fā)展策略的制定等將依賴于大數(shù)據(jù)的分析和預(yù)測(cè)。利用好大數(shù)據(jù),能夠提高圖書館的服務(wù)水平,構(gòu)建新型知識(shí)服務(wù)體系,推動(dòng)圖書館事業(yè)與制度建設(shè)的創(chuàng)新發(fā)展。

        然而,大數(shù)據(jù)的應(yīng)用具有較高的技術(shù)難度,也需要很高的成本。圖書館將面臨數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)分析挖掘技術(shù)、應(yīng)用研究、人才培養(yǎng)等各方面的挑戰(zhàn)。大數(shù)據(jù)應(yīng)用還存在安全和隱私保護(hù)問題,圖書館的讀者個(gè)人信息、數(shù)據(jù)資源不能因?yàn)榇髷?shù)據(jù)泄露,而被不法者所利用,需要對(duì)涉及數(shù)據(jù)的隱私加強(qiáng)保護(hù)。

        大數(shù)據(jù)作為一項(xiàng)新興技術(shù),在圖書館的應(yīng)用尚處于起步階段。良好的應(yīng)用前景和業(yè)務(wù)需求,必將促進(jìn)圖書館大數(shù)據(jù)應(yīng)用研究的不斷發(fā)展。

        參考資料:

        [1]掘金大數(shù)據(jù) 亟待國(guó)家戰(zhàn)略支持[EB/OL].[2014-03-05].http://finance.eastmoney.com/news/1355,20130122269535430.html.

        [2]“十二五”國(guó)家科技計(jì)劃信息技術(shù)領(lǐng)域2013年度備選項(xiàng)目征集指南 [EB/OL].[2014-03-06].http://www.most.gov.cn/tztg/201203/t20120329_93437.htm.

        [3]容春琳.公共圖書館應(yīng)用大數(shù)據(jù)的策略研究[J].圖書館建設(shè),2013(7):91-95.

        [4]梵蒂岡圖書館將其8萬(wàn)部古籍存儲(chǔ)到2.8PB數(shù)據(jù)空間中[EB/OL].[2014-03-06].http://www.cnbeta.com/articles/228881.htm.

        [5]鄧景康.大數(shù)據(jù)環(huán)境下清華大學(xué)圖書館的實(shí)踐[N].中國(guó)新聞出版報(bào),2013,8(29):5.

        [6]北京大學(xué)圖書館承辦“大數(shù)據(jù)時(shí)代數(shù)字圖書館的變革與創(chuàng)新”學(xué)術(shù)研討會(huì)[EB/OL].[2014-03-14].http://www.npopss-cn.gov.cn/n/2013/1114/c219468-23538446.html.

        [7]李戰(zhàn)懷,王國(guó)仁,周傲英.從數(shù)據(jù)庫(kù)視角解讀大數(shù)據(jù)的研究進(jìn)展與趨勢(shì)[J].計(jì)算機(jī)工程與科學(xué),2013,35(10):1-11.

        [8]馬梅若,方濱興.大數(shù)據(jù)不能包治百病[J].中國(guó)經(jīng)濟(jì)和信息化,2013(8):46-48.

        [9]王文清,陳凌.CALIS數(shù)字圖書館云服務(wù)平臺(tái)模型[J].大學(xué)圖書館學(xué)報(bào),2009(4):13-18.

        [10]exlibries alma FAQ[EB/OL].[2014-03-13].http://www.exlibrisgroup.com/files/Products/Alma/Alma-FAQ-Dec 2010.pdf.

        [11]郭全中.2014移動(dòng)互聯(lián)和大數(shù)據(jù)領(lǐng)域?qū)⒊刹①?gòu)主戰(zhàn)場(chǎng)[EB/OL].[2014-04-03].http://www.ce.cn/culture/gd/201402/08/t20140208_2259323.shtml.

        [12]朱靜薇,李紅艷.大數(shù)據(jù)時(shí)代下圖書館的挑戰(zhàn)及其應(yīng)對(duì)策略[J].現(xiàn)代情報(bào),2013,33(5):9-13.

        [13]樊偉紅,李晨暉,張興旺,等.圖書館需要怎樣的“大數(shù)據(jù)”[J].圖書館雜志,2012,31(11):63-68,77.

        猜你喜歡
        圖書館分析
        隱蔽失效適航要求符合性驗(yàn)證分析
        圖書館
        文苑(2019年20期)2019-11-16 08:52:12
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        時(shí)間重疊的圖書館
        文苑(2018年17期)2018-11-09 01:29:40
        圖書館
        電力系統(tǒng)及其自動(dòng)化發(fā)展趨勢(shì)分析
        飛躍圖書館
        中西醫(yī)結(jié)合治療抑郁癥100例分析
        去圖書館
        在線教育與MOOC的比較分析
        亚洲最黄视频一区二区| 区久久aaa片69亚洲| 久久久亚洲欧洲日产国产成人无码 | av色欲无码人妻中文字幕| 精品国产18久久久久久| 国内精品视频成人一区二区| 亚洲精品456在线播放狼人| 日韩视频在线观看| 亚洲一区二区三区中文字幕网| 少妇扒开毛茸茸的b自慰| 亚洲精品国精品久久99热一| 国产在视频线精品视频二代| 美女被内射中出在线观看| 亚洲成人中文字幕在线视频| 日韩中文字幕免费视频| 狠狠色狠狠色综合| 自拍视频在线观看成人| 久久久亚洲熟妇熟女av| 疯狂做受xxxx国产| 亚洲人成人77777网站| 日韩在线视频不卡一区二区三区| 男女啦啦啦视频在线观看| 国产高清在线视频一区二区三区| 欧美放荡的少妇| 百合av一区二区三区| 日本人妻av在线观看| 噜噜中文字幕一区二区| 在线成人一区二区| 欧洲中文字幕| 国产精品黑丝美女av| 人人妻人人添人人爽欧美一区| 最近2019年好看中文字幕视频| 99精品国产在热久久国产乱| 精品亚亚洲成av人片在线观看| 蜜桃av在线免费网站| 欧美巨大巨粗黑人性aaaaaa| 亚洲国产剧情在线精品视| 亚洲精品久久蜜桃av| 男女后进式猛烈xx00动态图片| 久久久精品久久日韩一区综合| 亚洲区偷拍自拍29p|