摘要:隨著圖書館數(shù)字化、網(wǎng)絡(luò)化的發(fā)展,數(shù)據(jù)挖掘及數(shù)據(jù)分析技術(shù)的層出不窮,通過對(duì)圖書館產(chǎn)生的大量的用戶行為信息記錄、資源信息和服務(wù)信息數(shù)據(jù)的分析和挖掘,為圖書館的發(fā)展提供了重要的依據(jù),本文針對(duì)圖書館各種軟件、系統(tǒng)及資源數(shù)據(jù)建設(shè)現(xiàn)狀,總結(jié)了大數(shù)據(jù)環(huán)境下圖書館可以采集的數(shù)據(jù),為大數(shù)據(jù)環(huán)境下圖書館數(shù)據(jù)分析與挖掘提供借鑒和參考。
關(guān)鍵詞: 圖書館; 數(shù)據(jù)采集; 數(shù)據(jù)分析; 數(shù)據(jù)挖掘
中圖分類號(hào): G250; TP391
文獻(xiàn)標(biāo)志碼: A
文章編號(hào): 2095-2163(2017)05-0140-02
Abstract: With the development of library digital network, data mining and data analysis technology is endless. Through the analysis and mining of a large number of user behavior information records, resource information and service information data produced in the library,laying the important foundation for the development of the library, therefore aiming at the current situation of library software、system and resource data construction,this paper summarizes the data that the library could collect in the large data environment, which provides the reference for the analysis and excavation of the library data in the large data environment.
Keywords: library; data collection; data analysis; data mining
0引言
圖書館大量的數(shù)據(jù)是圖書館館藏的最重要的組成部分,數(shù)據(jù)作為原始類的產(chǎn)品經(jīng)過加工、整理和分析可轉(zhuǎn)化為有意義的信息和知識(shí)。圖書館的數(shù)據(jù)是圖書館的珍貴典藏,這些數(shù)據(jù)信息真實(shí)地展示了圖書館的整個(gè)發(fā)展過程,同時(shí)也充分體現(xiàn)了圖書館的服務(wù)水平和發(fā)展方向。
本文主要針對(duì)大數(shù)據(jù)環(huán)境下圖書館的數(shù)據(jù)搜集途徑進(jìn)行了詳細(xì)地闡述,數(shù)據(jù)來源主要為用戶行為數(shù)據(jù)、圖書館建設(shè)數(shù)據(jù)及網(wǎng)絡(luò)數(shù)據(jù)等,而用戶行為記錄則是其中頗具規(guī)模的應(yīng)用組成內(nèi)容。圖書館的首要設(shè)置功能就是資源和服務(wù)。具體來說,服務(wù)數(shù)據(jù)來源如表1所示,資源數(shù)據(jù)來源如表2所示。
1服務(wù)
1.1流通借閱
流通借閱是圖書館服務(wù)的根本,也是圖書館原始數(shù)據(jù)的直觀展現(xiàn)。流通借閱系統(tǒng)后臺(tái)數(shù)據(jù)中存放了圖書館大量的圖書信息、用戶信息、用戶借書記錄、還書記錄、續(xù)借記錄等一系列流通歷史數(shù)據(jù),可通過對(duì)歷史數(shù)據(jù)分析研究得到用戶借閱規(guī)律、用戶借閱需求和閱讀傾向。
1.2信息咨詢服務(wù)
目前,圖書館的信息咨詢服務(wù)主要分為面對(duì)面咨詢、電話咨詢、QQ咨詢、平臺(tái)咨詢、微信咨詢等,涉及范圍大體上包括了業(yè)務(wù)咨詢、意見反饋、下載行為等方面,這些咨詢方式產(chǎn)生的咨詢記錄一定層面上展示了圖書館服務(wù)的不足,指明了服務(wù)的改進(jìn)方向,為制定更好的決策提供幫助。
1.3圖書館門禁系統(tǒng)
門禁系統(tǒng)是一款已廣泛應(yīng)用于圖書館通道安全管理的軟件,根據(jù)門禁系統(tǒng)形式不同分為密碼門禁、刷卡門禁和生物識(shí)別門禁系統(tǒng),也有許多高校使用混合驗(yàn)證方式(即指紋+密碼+卡驗(yàn)證)來保障高級(jí)別的安全環(huán)境,無論哪種形式的門禁系統(tǒng)都可以詳細(xì)記錄圖書館的到訪人員信息、到館時(shí)間、在館時(shí)長、離館時(shí)間等。通過對(duì)圖書館門禁系統(tǒng)數(shù)據(jù)的搜集和統(tǒng)計(jì),可以求得圖書館空間利用率,為改善圖書館服務(wù)積累更多的實(shí)施依據(jù)。
1.4圖書館座位管理系統(tǒng)
圖書館座位管理系統(tǒng)是用來管理圖書館座位空間的一款軟件,可以保證圖書館座位空間的合理利用。用戶可以利用該系統(tǒng)進(jìn)行座位選擇、續(xù)約座位、放棄座位等。可以通過搜集該系統(tǒng)中的用戶信息、用戶使用座位信息、使用時(shí)長等,進(jìn)行圖書館座位空間使用率的分析,也可以與門禁系統(tǒng)、流通借閱系統(tǒng)數(shù)據(jù)相結(jié)合,有效展開各類專用數(shù)據(jù)分析。
1.5圖書館電子閱覽室上機(jī)系統(tǒng)
圖書館電子閱覽室上機(jī)系統(tǒng)是用來管理圖書館電子計(jì)算機(jī)合理利用的一款軟件,用戶可以使用該系統(tǒng)進(jìn)行刷卡上機(jī)和刷卡下機(jī)。通過搜集該系統(tǒng)中的用戶信息、用戶使用計(jì)算機(jī)的時(shí)間及使用時(shí)長等,對(duì)圖書館電子計(jì)算機(jī)的使用率而建立推理演繹及分析,對(duì)館內(nèi)各個(gè)閱讀空間內(nèi)的計(jì)算機(jī)實(shí)現(xiàn)合理配置。
1.6圖書館網(wǎng)站
圖書館網(wǎng)站也是圖書館配設(shè)中的一種服務(wù),圖書館網(wǎng)站展示功能通常包括圖書館基本概況、服務(wù)、資源、咨詢、新聞更新、資源動(dòng)態(tài)等,這些信息是圖書館功能的開放式設(shè)計(jì)屬性。通過采集圖書館網(wǎng)站的新聞動(dòng)態(tài)、資源動(dòng)態(tài)、資源種類變化等動(dòng)態(tài)信息可以發(fā)現(xiàn)圖書館一段時(shí)間內(nèi)的資源更新規(guī)律,通過總結(jié)多個(gè)圖書館網(wǎng)站發(fā)布數(shù)據(jù),并進(jìn)行對(duì)比分析,可以為改進(jìn)服務(wù)功能發(fā)揮至關(guān)重要的參考價(jià)值作用。
1.7圖書館微信公眾平臺(tái)
近年來,隨著微信用戶使用量的增加,圖書館微信公眾平臺(tái)已經(jīng)發(fā)展成為圖書館中堪稱現(xiàn)代高效的自媒體活動(dòng)的宣傳手段,通過微信公眾平臺(tái)發(fā)布消息快捷、方便、直接且涉及范圍較廣。微信公眾平臺(tái)的定制開發(fā)功能可以與圖書館其它系統(tǒng)和平臺(tái)進(jìn)行對(duì)接,方便用戶使用。通過微信公眾平臺(tái)推送的新聞動(dòng)態(tài)之后,用戶可以對(duì)動(dòng)態(tài)新聞信息進(jìn)行反饋,這些反饋信息以及教師與學(xué)生在公眾平臺(tái)實(shí)現(xiàn)的咨詢互動(dòng)過程都可采集到大量的數(shù)據(jù)資源,因而成為現(xiàn)代化圖書館建設(shè)的又一重要數(shù)據(jù)來源。endprint
2資源
2.1數(shù)字圖書館
數(shù)字圖書館是圖書館現(xiàn)代化、智能化、網(wǎng)絡(luò)化的必然選擇,承載著各種文獻(xiàn)(圖書、資料、文獻(xiàn)、雜志)、各種印刷型文本(含古籍、珍本、善本)、地圖、縮微資料、視聽資料等的數(shù)字化內(nèi)容。用戶通過平臺(tái)進(jìn)行檢索、瀏覽和下載文獻(xiàn),通過長時(shí)間瀏覽量、檢索次數(shù)以及下載次數(shù)的匯總分析,可以對(duì)資源的使用情況進(jìn)行統(tǒng)計(jì),作為評(píng)價(jià)資源的重要標(biāo)準(zhǔn)。
2.2圖書館遠(yuǎn)程訪問系統(tǒng)
圖書館遠(yuǎn)程訪問系統(tǒng)是一種針對(duì)使用者由于受到IP的限制而無法訪問內(nèi)部資源的一種解決方案,用戶可以通過遠(yuǎn)程訪問系統(tǒng)隨時(shí)隨地地聯(lián)入資源的訪問,系統(tǒng)可以記載資源的信息、資源的使用量和下載量,還可以通過系統(tǒng)提交意見反饋,同2.4節(jié)結(jié)合來評(píng)估數(shù)字資源,并記錄反饋結(jié)果。
2.3文獻(xiàn)傳遞
文獻(xiàn)傳遞是將用戶所需的文獻(xiàn)復(fù)制品以有效的方式和合理的費(fèi)用,直接或間接傳遞給用戶的一種非返還式的文獻(xiàn)提供服務(wù),國內(nèi)5個(gè)比較重要的文獻(xiàn)傳遞服務(wù)系統(tǒng):CASHL、CALIS、NSTL、LCAS和中國國家圖書館基本上能夠滿足國內(nèi)各高校及研究院所的文獻(xiàn)需求,提高對(duì)文獻(xiàn)傳遞信息的處理能力,可以主動(dòng)掌握讀者文獻(xiàn)信息需求變化,從而利于生成有效的資源整合機(jī)制,構(gòu)建知識(shí)資源導(dǎo)航體系。
2.4匯文系統(tǒng)
匯文系統(tǒng)中除了1.1節(jié)中的流通借還功能,還有圖書加工、到書分類統(tǒng)計(jì)、采訪經(jīng)費(fèi)統(tǒng)計(jì)、各類圖書比例是否合理等功能,充分利用系統(tǒng)中的數(shù)據(jù)的分析可以更好地推進(jìn)采訪工作,改善采購服務(wù),提高工作效率。
3數(shù)據(jù)采集
3.1系統(tǒng)數(shù)據(jù)
綜上論述可知,圖書館大部分?jǐn)?shù)據(jù)都存儲(chǔ)在圖書館管理系統(tǒng)的數(shù)據(jù)庫中,涉及到的數(shù)據(jù)種類也比較多,如:MySql、SqlServer、Oracle等。若要使用這些數(shù)據(jù),就需將有用的數(shù)據(jù)信息導(dǎo)出到一個(gè)固定格式文件或?qū)氲揭粋€(gè)統(tǒng)一的數(shù)據(jù)庫中,經(jīng)過字段格式處理,將多個(gè)數(shù)據(jù)庫中的數(shù)據(jù)結(jié)合起來,再去除冗余數(shù)據(jù),經(jīng)過清洗、加工等轉(zhuǎn)換成可以送入數(shù)據(jù)分析與挖掘處理的數(shù)據(jù)源。
3.2網(wǎng)絡(luò)數(shù)據(jù)
由于網(wǎng)絡(luò)數(shù)據(jù)量跡近龐大,如果不利用一些工具和程序?qū)o法及時(shí)捕捉到有用信息,時(shí)下常用的網(wǎng)頁信息采集器有八爪魚采集器、火車采集器等,而且還可依據(jù)需要采集的網(wǎng)絡(luò)數(shù)據(jù)的特點(diǎn)自行定制開發(fā)爬蟲軟件。
3.3數(shù)字化信息
圖書館在信息化建設(shè)之前,存留了很多紙質(zhì)數(shù)據(jù),如咨詢單、文獻(xiàn)傳遞單等等,這些數(shù)據(jù)未經(jīng)整理,需要通過一定的數(shù)字化手段把這些紙質(zhì)數(shù)據(jù)轉(zhuǎn)換成可以長久保存且有助于數(shù)字分析和挖掘的電子數(shù)據(jù)。
4結(jié)束語
圖書館大數(shù)據(jù)研究是一類復(fù)雜課題,圖書館數(shù)據(jù)的采集、存儲(chǔ)及標(biāo)準(zhǔn)化也是一項(xiàng)繁瑣艱巨的技術(shù)任務(wù),隨著圖書館數(shù)字化發(fā)展性能的綜合推進(jìn),可以采集數(shù)據(jù)的渠道會(huì)越來越多,圖書館需要明確全面需求,明確服務(wù)方向,正確處理各種結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù),從數(shù)據(jù)開始,創(chuàng)建圖書館服務(wù)發(fā)展的新進(jìn)程。
段春樂.大數(shù)據(jù)技術(shù)在圖書館中的應(yīng)用[J]. 黑龍江科技信息,2015(18):192-193.
[2] 杜璟.大數(shù)據(jù)時(shí)代的文獻(xiàn)傳遞服務(wù)[J]. 圖書館學(xué)刊,2014(1):75-77.
[3] 白文秀,孫慧,張桂杰.數(shù)據(jù)挖掘技術(shù)在圖書館遠(yuǎn)程訪問系統(tǒng)中的應(yīng)用研究[J].吉林師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2015(4): 149-152.
[4] 陳傳夫,錢鷗,代鈺珠.大數(shù)據(jù)時(shí)代的數(shù)字圖書館建設(shè)研究[J].圖書情報(bào)工作,2014,58(7): 40-45.
[5]王春華,李維,文庭孝.我國圖書情報(bào)領(lǐng)域大數(shù)據(jù)研究熱點(diǎn)分析[J].圖書情報(bào)知識(shí),2015 (4):82-89.
[6] 陳廉芳.大數(shù)據(jù)環(huán)境下圖書館用戶小數(shù)據(jù)的采集、分析與應(yīng)用[J].國家圖書館學(xué)刊,2016 (3):69-74.
[7] 嵇婷,吳政.公共文化服務(wù)大數(shù)據(jù)的來源、采集與分析研究[J]. 圖書館建設(shè),2015 (11):21-24.endprint