董素芬,蔡金金,高 媛
(1.河北農(nóng)業(yè)大學 信息科學與技術學院,河北 保定071001;2.河北農(nóng)業(yè)大學 機電工程學院,河北 保定071001)
目前高校中已經(jīng)普及應用了一些比較完善的系統(tǒng)如教務處應用的教務管理子系統(tǒng),科技處應用的科研管理子系統(tǒng)等,雖然這些系統(tǒng)中都記錄有學生的基本信息,但是由于其后臺數(shù)據(jù)庫都是獨立維護的,使得數(shù)據(jù)的更新很難保持一致性,比如,要想統(tǒng)計目前在校研究生的人數(shù),可能在學籍管理系統(tǒng)中,某學生已經(jīng)退學了,但在教務系統(tǒng)中還有該學生的記錄,這就導致不同系統(tǒng)中統(tǒng)計的人數(shù)不同,即便是簡單的統(tǒng)計在校研究生的人數(shù)都很難得到一個精確地答案,更別說想從這些已有的數(shù)據(jù)中總結對學校決策者有用的決策支持信息了,也就是說,目前的系統(tǒng)中存在的海量數(shù)據(jù),雖然數(shù)據(jù)量龐大,但是,由于沒有渠道很好的利用這些數(shù)據(jù),使得這些數(shù)據(jù)后期應用價值很低,成為了無用數(shù)據(jù),以上數(shù)據(jù)所反映出的問題實質就是:急切地需要獲得一種有效的方法[1],很好地利用這些“大數(shù)據(jù)”,利用非傳統(tǒng)的數(shù)據(jù)篩選工具挖掘出潛存與數(shù)據(jù)中的學生的行為習慣與個人愛好,在凌亂紛繁的數(shù)據(jù)背后發(fā)掘出更符合學生興趣和習慣的信息,并且有針對性地對這些信息調整和優(yōu)化,這就是“大數(shù)據(jù)”帶給學校決策者的最有價值的信息。
大數(shù)據(jù)作為時代的產(chǎn)物應運而生,它是一種現(xiàn)象而并非是一種前沿的技術,最早洞見大數(shù)據(jù)時代趨勢的數(shù)據(jù)科學家之一的維克托·邁爾-舍恩伯格在《Big Data:A Revolution That Will Transform How We Live,Work,and Think》一書中明確指出大數(shù)據(jù)帶來的信息風暴正在變革我們的生活、工作和思維,大數(shù)據(jù)開啟了一次重大的時代轉型[2],根據(jù)大數(shù)據(jù)的的性質將其特點歸納為4個“V”:Volume—數(shù)據(jù)體量大,從TB級升級到PB乃至ZB級別;Variety—數(shù)據(jù)類型多樣化,從傳統(tǒng)結構化的數(shù)據(jù),拓展到文本、電子郵件、Web頁面、博客以及音頻、視頻文件等半結構化和非結構化的數(shù)據(jù)[3];Value—密度低、價值高;Velocity—在存取和共享數(shù)據(jù)時的速度比較快。
各種各樣的數(shù)據(jù)匯集在一起,從而產(chǎn)生了大數(shù)據(jù),例如,查詢某一年研究生畢業(yè)人數(shù),可能只有3 000條數(shù)據(jù),但是對過去二十年的畢業(yè)研究生人數(shù)的查詢就構成了大數(shù)據(jù),分析大數(shù)據(jù)不再是探求其中難以捉摸的因果關系——“為什么”會是這樣?而是發(fā)現(xiàn)探究其中的相關性關系,從而能夠達到預測未來“是什么”的目的[4],通過對數(shù)據(jù)的查詢統(tǒng)計分析,可以發(fā)現(xiàn)潛藏在其中的規(guī)律,為學校管理者提供決策支持信息。
研究生管理智能決策支持系統(tǒng)的平臺是建立在大數(shù)據(jù)思想浪潮的推動下,順應了時代的發(fā)展需求,其功能全面,涵蓋了目前已有辦公系統(tǒng)的各個功能模塊,研究生管理智能決策支持系統(tǒng)中主要包括兩部分內容,第一部分是研究生的管理模塊,其中包括研究生的招生,培養(yǎng)方案的制定,宿舍管理,學籍管理,研究生論文中期考核,研究生論文送審,論文答辯等研究生在校期間的各個階段的管理;第二部分是研究生創(chuàng)新平臺,這個平臺中有智能檢索,學術交流,知識共享和科研管理模塊,在科研管理模塊中可以對研究生在校期間跟隨導師做科研的情況和進度進行實時管理。導師可以對課題組成員,項目、課題進度、發(fā)表文章、科技著作、科研項目、專利成果、獲獎成果、其他標志性成果等進行管理,研究生也可以通過科研論壇發(fā)表自己在科研過程中的心得體會和遇到的問題,并通過大家的在線討論得到最佳答案??蒲袆?chuàng)新平臺可以解決在科研過程中,由于學科限制導致的科研滯后,有些科研項目涉及多個學科,以中藥創(chuàng)制決策支持系統(tǒng)的研究為例,中藥創(chuàng)制決策支持系統(tǒng)既涵蓋了計算機知識,又涵蓋了中醫(yī)藥學知識,要想在該領域取得科研成果就必須使得研究者同時具備中醫(yī)藥學知識和計算機系統(tǒng)理論知識,但是這樣的人才幾乎不存在,因此,需要將多學科的專業(yè)人才匯集才可能完成這一課題的研究,這就需要通過科技創(chuàng)新平臺,匯集各學科專家的領域知識。
傳統(tǒng)的數(shù)據(jù)庫以結構化數(shù)據(jù)查詢語言為基礎,數(shù)據(jù)的范圍限定在結構化數(shù)據(jù)范疇以內,而且,不能支持高級別的數(shù)據(jù)分析和TB級的數(shù)據(jù)處理,為了滿足大數(shù)據(jù)量的快速存取與數(shù)據(jù)共享[5],系統(tǒng)將采用面向列的Hbase分布式數(shù)據(jù)庫技術建立非結構化數(shù)據(jù)庫;Hadoop與傳統(tǒng)的數(shù)據(jù)方式最大的不同就是,它能夠在廉價的基礎上,有能力處理好結構化和非結構化的大數(shù)據(jù)[6],數(shù)據(jù)首先被存儲在Hadoop分布式文件系統(tǒng)(Hadoop distributed file system HDFS)中[7];HBase的目標就是快速在行數(shù)據(jù)中定位所需的數(shù)據(jù)并訪問這些數(shù)據(jù);對于數(shù)據(jù)庫內部的海量數(shù)據(jù)的處理則采用分布式計算機模型 MapReduce來實現(xiàn)[4]。
研究生管理系統(tǒng)涵蓋了研究生從培養(yǎng)到論文答辯的全過程,這里面不僅僅包含傳統(tǒng)的結構化數(shù)據(jù),還包括文本,web頁面,圖像,視頻,音頻等一些非結構化或半結構化的數(shù)據(jù)[3]。而這些數(shù)據(jù)的采集可以從通過整合現(xiàn)有數(shù)據(jù)庫中的數(shù)據(jù)得到,目前可以應用的比較成熟的技術方案有三種:即數(shù)據(jù)上報技術、數(shù)據(jù)鏡像技術和數(shù)據(jù)泵技術,現(xiàn)將三種技術的優(yōu)缺點進行比較[8]:一,數(shù)據(jù)上報技術:該技術需要更改系統(tǒng)的業(yè)務邏輯模塊和數(shù)據(jù)訪問模塊,對系統(tǒng)的改變較大,并且不支持數(shù)據(jù)一致性檢查,斬斷了數(shù)據(jù)的對應關系;二,數(shù)據(jù)泵技術:該技術不用改變已有的業(yè)務邏輯模塊,但是對系統(tǒng)性能影響較大,對數(shù)據(jù)庫的處理能力消耗極大;三,數(shù)據(jù)鏡像技術:是指通過日志分析,將指定端口的數(shù)據(jù)復制到目標端口,它需要在系統(tǒng)上部署日志分析模塊,只針對日志文件進行讀取和分析,對業(yè)務邏輯和數(shù)據(jù)庫不產(chǎn)生壓力,并且支持數(shù)據(jù)的一致性檢查;通過以上分析可以看出,研究生管理智能決策支持平臺的后臺數(shù)據(jù)庫建設可以應用數(shù)據(jù)鏡像容災技術,它可以通過日志分析,復制分布在各個部門的信息系統(tǒng)中的數(shù)據(jù),從而將這些數(shù)據(jù)集中到系統(tǒng)的后臺數(shù)據(jù)中心中來。
隨著大數(shù)據(jù)的浪潮蜂擁而至,業(yè)務需求不斷地發(fā)生變化,基于大數(shù)據(jù)的研究生管理智能決策支持系統(tǒng)的研究,在充分研究各部門后臺數(shù)據(jù)庫協(xié)作關系的基礎上[9],完成了符合系統(tǒng)平臺要求的后臺大數(shù)據(jù)庫建設,它可以支持PB級海量數(shù)據(jù)的處理和管理[10],為基于大數(shù)據(jù)的研究生管理的進一步開發(fā)和應用提供了良好的基礎。系統(tǒng)比較全面地完成了辦公需求和學生管理的各個功能模塊,經(jīng)投入試用,該系統(tǒng)在某校各個部門得到了廣泛的應用,它可以很好地實現(xiàn)數(shù)據(jù)的查詢和分析,能有效地為學校管理層提供必要的決策支持信息。
[1]萬澤春.大數(shù)據(jù)的應用和解決方案淺析[J].電腦知識與技術,2013,9(27):6217-6219.
[2]維克托·邁爾·舍恩伯格.大數(shù)據(jù)時代[M].杭州:浙江人民出版社,2012:12.
[3]葉明,谷晨霞.“大數(shù)據(jù)”時代決策支持系統(tǒng)新發(fā)展[J].信息安全與技術,2013(8):6-8.
[4]郭鑫.大數(shù)據(jù)教學資源共享系統(tǒng)的研究[J].電腦知識與技術,2014,10(3):446-447.
[5]彭細,張盼,許野.基于大數(shù)據(jù)的工程機械遠程監(jiān)控系統(tǒng)研究[J].物聯(lián)網(wǎng)技術,2014(1):23-26.
[6]福布斯:Hadoop——你不得不了解的大數(shù)據(jù)工具[EB/OL].[2015-02-03].http://www.csdn.net/article/2012-02-20/312061.
[7]陳麗,基于大數(shù)據(jù)的應用系統(tǒng)架構研究與應用[J].軟件產(chǎn)業(yè)與工程,2014(5):33-38.
[8]陳大川,張寶山.大數(shù)據(jù)技術在住房信息系統(tǒng)中的應用[J].信息通信技術,2012(5):6-11.
[9]董素芬,蔡金金,滕桂法.基于B/S的研究生管理信息系統(tǒng)[J].河北農(nóng)業(yè)大學學報,2010,33(4):109-111.
[10]黃曉斌,鐘輝新.基于大數(shù)據(jù)的企業(yè)競爭情報系統(tǒng)模型[J].情報雜志,2013,32(3):37-43.