高曉東 周建(江蘇工程職業(yè)技術學院圖文信息中心,江蘇南通226001)
?
高職院校圖書館大數(shù)據(jù)在學業(yè)預警中的應用
高曉東周建
(江蘇工程職業(yè)技術學院圖文信息中心,江蘇南通226001)
[摘要]基于對圖書館入館統(tǒng)計分析報表的研究,發(fā)現(xiàn)并證實了圖書館大數(shù)據(jù)在學業(yè)預警平臺中的重要作用。圍繞圖書館大數(shù)據(jù)應用的探索和實踐,用好自身資源對于圖書館迎接大數(shù)據(jù)時代的到來具有深遠的意義。
[關鍵詞]圖書館大數(shù)據(jù)學業(yè)預警
[分類號]G250.7
近年來“大數(shù)據(jù)”革命開始爆發(fā),從洛杉磯警察局和加利福尼亞大學合作利用大數(shù)據(jù)預測犯罪的發(fā)生到Google流感趨勢(Google Flu Trends)利用搜索關鍵詞預測禽流感的散布,體現(xiàn)了大數(shù)據(jù)巨大的應用價值和商業(yè)價值。在圖書館學界,提高文獻數(shù)據(jù)處理能力,搜尋新的數(shù)據(jù)計算、探索圖書館大數(shù)據(jù)新的應用途徑也逐漸成為研究熱點[1]。高職院校圖書館既有數(shù)據(jù)收集、存儲的基礎條件,也有大數(shù)據(jù)分析、利用的技術條件。一方面,圖書館書目種類多、數(shù)量大,各類電子資源豐富形成了大量的結構化數(shù)據(jù)記錄;另一方面在日常服務過程中,讀者基本信息、借閱信息、入館信息、資源檢索信息等非結構化數(shù)據(jù)也在不斷高速增長。長期以來這些數(shù)據(jù)只做了簡單的存儲而沒有被重視和利用,通過大數(shù)據(jù)分析工具以及其他技術手段挖掘其背后蘊含的深刻含義,是提升圖書館服務水平和能力的重要途徑,也是為學校其他業(yè)務部門提供決策的重要依據(jù)和支撐。
職業(yè)教育的蓬勃發(fā)展,使得高職院校招生規(guī)模逐年擴大,而高職學生學習的主觀能動性和實踐能力卻有所下降,進而讓人擔憂學生的就業(yè)率。同時通過對圖書館入館統(tǒng)計報表的分析,發(fā)現(xiàn)圖書館紙質(zhì)圖書的借閱量逐年減少,人均入館次數(shù)也明顯降低。造成當前局面的主要因素包括:①學生的自身素質(zhì)和讀書熱情不高;②任課教師對學生的參考書籍閱讀重視程度不夠;③圖書館的服務能力和服務水平還有待提升。
鑒于此,首先,學生自主學習能力的培養(yǎng)應該納入教育教學考核體系,并且作為學生綜合素質(zhì)測評的一個重要指標;其次,圖書館要與二級教學單位密切溝通聯(lián)系,分析原因,尋找解決問題的途徑,因地制宜采取措施激發(fā)學生讀書、學習的熱情;再次,教育職能作為高校圖書館的三大職能之一,圖書館有義務培養(yǎng)學生學習的主觀能動性和學習興趣,也有必要通過各種信息化手段,通過預警信息的發(fā)布和推送來促進和幫助學生提高學業(yè)水平。
2.1大數(shù)據(jù)概述
大數(shù)據(jù)(big data),或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法通過目前主流軟件工具,在合理時間內(nèi)達到擷取、管理、處理并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊。大數(shù)據(jù)可分成大數(shù)據(jù)技術、大數(shù)據(jù)工程、大數(shù)據(jù)科學和大數(shù)據(jù)應用等領域。目前人們談論最多的是大數(shù)據(jù)技術和大數(shù)據(jù)應用。工程和科學問題尚未被重視。大數(shù)據(jù)工程指大數(shù)據(jù)的規(guī)劃建設運營管理的系統(tǒng)工程;大數(shù)據(jù)科學關注大數(shù)據(jù)網(wǎng)絡發(fā)展和運營過程中發(fā)現(xiàn)和驗證大數(shù)據(jù)的規(guī)律及其與自然和社會活動之間的關系[2]。
2.2學業(yè)預警機制
預警機制是指在預測出事件將要產(chǎn)生或可能產(chǎn)生不良后果時能及時發(fā)出警告,從而主動防范以減少不必要損失的工作制度。它具有主動性、超前性、針對性和及時性的特點,能夠在預測范圍內(nèi)把風險與損失降至最低。學業(yè)預警是一種學校主動管理、學生自我管理、家長積極參與的多方協(xié)作管理模式[3]?!皩W業(yè)預警”制度最初由江西理工大學實施,分為期初預警、期中預警和期末預警3個階段。學校主要通過對不同學習階段的學生動態(tài)加以密切關注,對缺課達到一定數(shù)量的學生采取提醒、教育等預先警示方式給予指出并責令改正。學分制下高職院校的學生學業(yè)預警機制,是對學生學習過程的監(jiān)控,通過學校、社會、家長、學生之間多方面溝通與協(xié)作,對學生在學習中即將發(fā)生的問題與困難進行提示[4]。
目前,學業(yè)預警體系還不夠完善,學生檔案信息還不健全,判定學業(yè)水平的參數(shù)來源比較單一,對學生全方位跟蹤的能力還不夠。實際上,學業(yè)預警系統(tǒng)目前的數(shù)據(jù)主要來源于教務管理系統(tǒng),而作為學業(yè)預警體系,其龐大的數(shù)據(jù)來源應該是多方面的,如圖書館利用數(shù)據(jù)、一卡通流水甚至各種視頻監(jiān)控數(shù)據(jù),進而構建完整的學業(yè)預警體系。
圖1 圖書館學生入館統(tǒng)計
3.1圖書館入館統(tǒng)計分析
針對圖書館紙質(zhì)圖書借閱量下降以及入館人數(shù)偏少等諸多現(xiàn)狀,根據(jù)圖書館現(xiàn)有的管理系統(tǒng)進行入館數(shù)據(jù)統(tǒng)計分析,統(tǒng)計報表的樣式如圖1所示。統(tǒng)計報表的數(shù)據(jù)來源主要是門禁系統(tǒng)數(shù)據(jù)、圖書館自動化管理系統(tǒng)數(shù)據(jù)、一卡通數(shù)據(jù)等。
本報表以學生為個體,以其所屬的二級教學單位為分組進行研究。主要參數(shù)包括所屬二級教學單位、二級教學單位在校生人數(shù)、二級教學單位在校班級數(shù)、到館人次、到館人數(shù)、借閱冊數(shù)、到館率、人均到館率、人均到館次數(shù)、Top100到館次數(shù)占比、Top100借閱冊數(shù)占比。其中到館人次是在統(tǒng)計周期內(nèi)重復統(tǒng)計同一個讀者多次入館的總次數(shù);到館人數(shù)是指統(tǒng)計周期內(nèi)一個讀者多次入館只統(tǒng)計一次;到館率=到館人數(shù)/在校學生數(shù)×100%;人均到館率=到館人次/在校學生數(shù)×100%;Top100到館次數(shù)占比是指該二級教學單位在統(tǒng)計周期內(nèi)到館次數(shù)最多的前100名學生所占的人數(shù);Top100借閱冊數(shù)占比是指該二級教學單位在統(tǒng)計周期內(nèi)到館借閱圖書最多的前100名學生所占的人數(shù)。
從報表數(shù)據(jù)來看,不難得出以下結論:①各二級教學單位的入館人次分布不均,除個別二級教學單位入館人次較少外,大部分二級教學單位入館人次相當。一方面說明了二級教學單位對學生入館學習的重視程度不同,另一方面說明了圖書館對不同專業(yè)能有效提供參考文獻的服務能力不夠。②到館人次和到館人數(shù)明顯存在差異,Top100到館次數(shù)占比發(fā)布不均。這說明同一個學生在統(tǒng)計周期內(nèi)多次到館,而大部分同學很少入館學習或者根本沒有入館,即存在少部分主觀學習能動性較高的學生,但大部分學生需要通過一定的監(jiān)督和促進手段來培養(yǎng)其學習興趣。③Top100借閱圖書冊數(shù)發(fā)布不均。學生入館后可能去了電子閱覽室查閱電子圖書和數(shù)據(jù)庫,也可能進入閱覽室完成功課,但是沒有借閱紙質(zhì)圖書。從某種方面說明了傳統(tǒng)的紙質(zhì)圖書與現(xiàn)代電子圖書相比,其弱勢凸顯,這需要結合電子圖書和數(shù)據(jù)庫的檢索和下載記錄來分析。從一張簡單的入館統(tǒng)計分析報表中,還可得出其他更多的信息,如學生入館次數(shù)、借閱紙質(zhì)圖書冊數(shù)與其學業(yè)水平的關系,這是圖書館大數(shù)據(jù)利用的意義體現(xiàn)。
3.2圖書館大數(shù)據(jù)支持學業(yè)預警
3.2.1圖書館大數(shù)據(jù)來源
目前,高職院校圖書館的信息化管理水平相對較高,在長期的服務過程中產(chǎn)生了大量的半結構化和非結構化數(shù)據(jù)。結構化數(shù)據(jù)包括圖書館管理系統(tǒng)中記錄的讀者基本信息、借閱記錄、超期違章等,這些數(shù)據(jù)具有較強的邏輯性。在圖書館服務過程中產(chǎn)生的沒有明顯因果關系的大量數(shù)據(jù),如讀者流量的電子資源、對文獻的咨詢、書目信息的檢索等則是非結構化數(shù)據(jù),其具有隨時、海量與彈性的基本特征。非結構化數(shù)據(jù)每時每刻都在不斷增長。
圖書館大數(shù)據(jù)的應用首先取決于大數(shù)據(jù)源的獲取。圖書館具有獨立的服務器和存儲設備,電子資源以及相關管理系統(tǒng)均已經(jīng)本地化部署。通過數(shù)據(jù)庫客戶端工具可以方便地查詢和獲取相關字段,這為圖書館大數(shù)據(jù)獲取提供了便利。圖書館大數(shù)據(jù)源包括:①門禁系統(tǒng)。高職院校圖書館基本上已經(jīng)擁有了先進的門禁系統(tǒng)。學生入館需要刷卡進入通道機,系統(tǒng)實時調(diào)取學生的基本信息并記錄入館時間。從該系統(tǒng)記錄的數(shù)據(jù)可以分析出入館學生所屬年級分布狀況、入館高峰時段、入館時長等信息。②OPAC系統(tǒng)。OPAC系統(tǒng)是圖書館自動化管理系統(tǒng)的Web服務方式,OPAC系統(tǒng)可以為學生提供書目查詢、新書通報、借閱歷史、預期催還等服務。該數(shù)據(jù)系統(tǒng)可以分析出學生的圖書檢索記錄、熱門檢索詞、超期催還率等。③圖書館自動化管理系統(tǒng)。借出率、借到率、年借閱量、熱門圖書、逾期催還、優(yōu)秀讀者年級分布等。④電子資源。圖書館電子資源服務常見的有CNKI、讀秀、超星數(shù)字圖書館等。相關電子資源數(shù)據(jù)庫對讀者的檢索記錄、下載記錄、熱門檢索均做了存儲。⑤電子閱覽室管理系統(tǒng)。通過一卡通機房管理系統(tǒng),可以對上機時長、高峰時段、人員分布甚至上機瀏覽內(nèi)容進行分析。其次,構建大數(shù)據(jù)應用環(huán)境。圖書館海量數(shù)據(jù)預處理是關鍵,即對數(shù)據(jù)進行篩選、過濾、分類、關聯(lián)等初加工和清洗,使原始數(shù)據(jù)存儲有序化以提高數(shù)據(jù)的應用效率。
3.2.2圖書館大數(shù)據(jù)分析
圖書館大數(shù)據(jù)分析借助于BDA(Big Data Analysis)實現(xiàn)。BDA是將先進的分析技術用于大數(shù)據(jù)集,從而實現(xiàn)從數(shù)據(jù)到有價值信息的轉換。它關注兩個方面:一是大數(shù)據(jù)本身及分析技術;二是二者的結合實現(xiàn)從大數(shù)據(jù)提取有價值的信息。BDA的分析過程采用各種平臺和工具,如阿帕奇Ha?doop。Hadoop是一個開源的系統(tǒng),主要包括兩部分,一是分布文件系統(tǒng)(HDFS),二是分布計算系統(tǒng)(MapReduce)[5]。HDFS是一個分布文件管理系統(tǒng),呈主/從結構,一個主節(jié)點稱為名字節(jié)點(Namenode),其余的計算機是從節(jié)點,稱為數(shù)據(jù)節(jié)點(Datanode)。主節(jié)點管理元數(shù)據(jù),從節(jié)點存放和管理應用數(shù)據(jù)。一個HDFS系統(tǒng)可以支持巨大的分布文件系統(tǒng),為了進一步支持大數(shù)據(jù),在HDFS上構建了一個NoSQL數(shù)據(jù)庫系統(tǒng)。除此以外,Hadoop在HBase上還提供了一個數(shù)據(jù)倉庫/數(shù)據(jù)挖掘軟件Hivi以及面向機器學習軟件包Mahout。
以Hadoop技術與平臺實現(xiàn)圖書館大數(shù)據(jù)分析,實施流程與常用的OODA環(huán)即(觀察、定位、決策、行動)類似,包括圖書館大數(shù)據(jù)訪問(大數(shù)據(jù)聚集(大數(shù)據(jù)分析(決策(人在環(huán)路或人不在環(huán)路))))。圖書館多源大數(shù)據(jù)的分析主要解決多源信息的集成、復雜數(shù)據(jù)的索引與檢索以及異構數(shù)據(jù)庫聯(lián)合。借助Objectivity公司開發(fā)的Objectivity/DB可以實現(xiàn)多源數(shù)據(jù)的集成以及采用一種并行搜索引擎快速確定可能包含所查詢對象的“數(shù)據(jù)容器”,并利用線程迭代找到目標數(shù)據(jù)容器。
由圖書館大數(shù)據(jù)實現(xiàn)學業(yè)預警信息轉換,首先要依據(jù)學校相關學業(yè)制度,其次要科學設定評判學生圖書館利用率的閾值。如一學期內(nèi)學生從未到圖書館或者到了圖書館但文獻資源的檢索和借閱為零,則至少表明該學生對專業(yè)學習的興趣不高。從這些方面可以找到學生學業(yè)水平不高的原因,是學業(yè)預警系統(tǒng)決策的重要支撐依據(jù)。在圖書館異構數(shù)據(jù)庫,Objectivity/DB則采用單一邏輯視圖方法處理。Objectivi?ty/DB不僅能管理和構造所有數(shù)據(jù)庫還能通過ODBC或中間件增加傳統(tǒng)數(shù)據(jù)庫的管理系統(tǒng)網(wǎng)關。圖書館大數(shù)據(jù)通過構建協(xié)同工作環(huán)境的分析流程如圖2所示。
圖2 Objectivity /DB圖書館大數(shù)據(jù)分析流程
3.2.3學業(yè)預警信息的推送方式
基于BDA,看似雜亂無章的數(shù)據(jù)將形成“某某同學,您近期借閱圖書偏少”或者“某某同學,您近期未到圖書館”等智慧信息。這些智慧信息通過多種途徑和手段,如手機短信推送、即時通訊工具、學生一體化信息平臺與學生進行交互,最終成為支持學業(yè)預警的有效依據(jù),便于學生、二級教學單位、學生管理業(yè)務部門能夠在第一時間掌握學生學業(yè)動態(tài)。
由數(shù)據(jù)得到信息,由信息督促學生提升學業(yè)水平。近幾年來,通過高職院校圖書館與二級教學單位共同努力,學生入館數(shù)據(jù)明顯發(fā)生變化:學生讀書學習的熱情提高,學生學習的主觀能動性得以發(fā)揮,學業(yè)水平也有所提升。
高職院校圖書館開發(fā)和利用大數(shù)據(jù)不僅是圖書館服務模式轉變的重要途徑,同時對于教育教學研究的決策具有重要支持作用。筆者探討了高職院校圖書館大數(shù)據(jù)應用于學生學業(yè)預警平臺的積極意義,以及為學工等部門提供的決策依據(jù),旨在拋磚引玉。但在大數(shù)據(jù)時代,高職院校圖書館大數(shù)據(jù)所提供服務的深度和廣度還有待進一步探索和實踐。
參考文獻:
[1]韓翠峰.大數(shù)據(jù)時代圖書館的服務創(chuàng)新與發(fā)展[J].圖書館,2013(1):121-122.
[2]百度百科[EB/OL].[2014-07-02].http://baike.baidu.com/ view/6954399.htm?fr=aladdin.
[3]華金秋.大學生畢業(yè)預警機制研究[J].氣象教育與科技,2007(3):137-138.
[4]陳欽華.構建學分制下高校學生學業(yè)預警機制的探索[J].廣西師范學院學報,2007(S2):63-65.
[5]百度百科[EB/OL].[2014-07-02].http://baike.baidu.com/ view/908354.htm?fr=Aladdin.
高曉東男,1981年生。碩士,館員。研究方向:知識管理、計算技術。
周建男,1965年生。圖文信息中心副教授,主任。研究方向:計算機應用及現(xiàn)代教育技術。
收稿日期:(2014-09-01;責編:王天泥。)