亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于大數(shù)據(jù)挖掘的高校知識(shí)管理系統(tǒng)①

        2017-09-15 07:19:00李景奇卞藝杰
        關(guān)鍵詞:數(shù)據(jù)挖掘管理系統(tǒng)數(shù)據(jù)庫

        李景奇,卞藝杰,2

        1(河海大學(xué) 商學(xué)院,南京 210098)2(江蘇省“世界水谷”與水生態(tài)文明協(xié)同創(chuàng)新中心,南京 211100)

        基于大數(shù)據(jù)挖掘的高校知識(shí)管理系統(tǒng)①

        李景奇1,卞藝杰1,2

        1(河海大學(xué) 商學(xué)院,南京 210098)2(江蘇省“世界水谷”與水生態(tài)文明協(xié)同創(chuàng)新中心,南京 211100)

        當(dāng)前高校大數(shù)據(jù)應(yīng)用面臨數(shù)據(jù)集成困難、成果難以應(yīng)用、知識(shí)難以管理等問題,急需加以解決.本文結(jié)合知識(shí)管理與軟件工程方法,首先設(shè)計(jì)了基于CRISP-DM的高校大數(shù)據(jù)挖掘流程;在此基礎(chǔ)上,設(shè)計(jì)了高校知識(shí)管理系統(tǒng)的總體架構(gòu)和功能模型;然后對(duì)主要功能模型進(jìn)行了詳細(xì)設(shè)計(jì),并對(duì)其關(guān)鍵技術(shù)——數(shù)據(jù)集成方法、大數(shù)據(jù)挖掘技術(shù)進(jìn)行了分析和設(shè)計(jì);最后給出了該系統(tǒng)的開發(fā)環(huán)境及測(cè)試情況.該系統(tǒng)設(shè)計(jì)方案對(duì)高校大數(shù)據(jù)應(yīng)用提供了參考和借鑒.

        大數(shù)據(jù)挖掘;知識(shí)管理;高校知識(shí)管理系統(tǒng);數(shù)據(jù)集成;知識(shí)審核

        1 引言

        1.1 高校大數(shù)據(jù)應(yīng)用及其不足

        隨著高校數(shù)字校園的建設(shè),業(yè)務(wù)管理信息系統(tǒng)日益增多,使用日益頻繁,產(chǎn)生的業(yè)務(wù)數(shù)據(jù)及日志數(shù)據(jù)指數(shù)級(jí)增加.另一方面,大數(shù)據(jù)技術(shù)在社會(huì)經(jīng)濟(jì)各領(lǐng)域取得的成果顯示出其巨大的應(yīng)用價(jià)值.如何應(yīng)用大數(shù)據(jù)技術(shù),分析高校數(shù)字校園中產(chǎn)生的巨量數(shù)據(jù),發(fā)現(xiàn)其中蘊(yùn)藏的規(guī)律,服務(wù)于廣大的師生,成為高校大數(shù)據(jù)應(yīng)用的主要問題.

        大數(shù)據(jù)技術(shù)在高校中有很多的應(yīng)用場(chǎng)景,無論高校管理者還是信息管理部門,亦或是普通教師和學(xué)生,都希望能夠及時(shí)從數(shù)據(jù)中獲取到更加精細(xì)、更加準(zhǔn)確的決策信息.但后前來看,高校大數(shù)據(jù)應(yīng)用存在著許多不足,主要表現(xiàn)在:

        (1)數(shù)據(jù)集成困難.高校大數(shù)據(jù)存在于各個(gè)業(yè)務(wù)系統(tǒng)之中,在管理上,各部門之間數(shù)據(jù)管理各自為政,共享困難;在技術(shù)上,數(shù)據(jù)集成要處理各種各樣的數(shù)據(jù)接口,這些接口或?yàn)閿?shù)據(jù)庫接口、或?yàn)橄?不一而足.

        (2)成果難以應(yīng)用.大數(shù)據(jù)挖掘的成果如何應(yīng)用,如何把成果傳遞給更多的校內(nèi)用戶,如何評(píng)價(jià)應(yīng)用效果,這些都是高校大數(shù)據(jù)應(yīng)用面臨的最直接的問題.

        (3)知識(shí)難以管理.大數(shù)據(jù)挖掘產(chǎn)生的知識(shí)如果不能直接應(yīng)用于高校工作實(shí)踐中,如何進(jìn)行保存和管理,誰來負(fù)責(zé),放在哪里.這些問題都需要加以解決.

        因此,數(shù)據(jù)集成、知識(shí)管理及應(yīng)用是高校大數(shù)據(jù)應(yīng)用的關(guān)鍵.高校大數(shù)據(jù)應(yīng)用需要從知識(shí)管理的角度,從知識(shí)發(fā)現(xiàn)、知識(shí)存儲(chǔ)、知識(shí)遷移、知識(shí)應(yīng)用四個(gè)方面,結(jié)合大數(shù)據(jù)技術(shù),來實(shí)現(xiàn)對(duì)高校大數(shù)據(jù)的挖掘和應(yīng)用.

        1.2 知識(shí)管理系統(tǒng)及其應(yīng)用

        知識(shí)管理系統(tǒng)有許多定義,美國(guó)學(xué)者阿肖克基于一種集成的觀點(diǎn),認(rèn)為用于管理機(jī)構(gòu)知識(shí)流程的系統(tǒng)稱為知識(shí)管理系統(tǒng)(Knowledge Management System,KMS)[1],KMS支持機(jī)構(gòu)流程包括知識(shí)創(chuàng)造、知識(shí)存儲(chǔ)/檢索、知識(shí)轉(zhuǎn)移和知識(shí)應(yīng)用.組織中的知識(shí)管理系統(tǒng)的核心驅(qū)動(dòng)力來源于那些與改善質(zhì)量管理過程相關(guān)聯(lián)的組織獲取、分享和運(yùn)用知識(shí)的能力.

        知識(shí)管理系統(tǒng)在社會(huì)組織中的應(yīng)用非常廣泛.Witold Staniszkis等[2]為歐盟構(gòu)建了“結(jié)構(gòu)化基金項(xiàng)后知識(shí)門戶”.該知識(shí)門戶的目標(biāo)是支持組織和個(gè)人參與到項(xiàng)后建議書的起草過程中,以獲得盡可能多的符合歐洲委員會(huì)標(biāo)準(zhǔn)的高質(zhì)量的合格建議書.該門戶支持并實(shí)現(xiàn)專家交互的部分自動(dòng)化功能,同時(shí)提供對(duì)項(xiàng)后建議書的起草過程中產(chǎn)生的知識(shí)進(jìn)行記錄、檢驗(yàn)和傳播的工具.Hind Benbya 等[3]認(rèn)為企業(yè)門戶最重要的功能是支持知識(shí)管理應(yīng)用.在門戶技術(shù)的支持下,再結(jié)合社會(huì)文化和管理方法,才能取得知識(shí)管理在企業(yè)中應(yīng)用的成功.楊曉明等[4]從知識(shí)管理的過程出發(fā)提出了學(xué)校教育知識(shí)管理模型,認(rèn)為用戶可以從教育資源、實(shí)踐知識(shí)或經(jīng)驗(yàn)知識(shí)中獲得知識(shí),并借助一定的工具技術(shù)進(jìn)行開發(fā)挖掘,使知識(shí)存儲(chǔ)到知識(shí)庫中,然后再借助共享平臺(tái)(如實(shí)時(shí)交流、知識(shí)評(píng)估、微博、博客和論壇等)使知識(shí)得到共享應(yīng)用,最后運(yùn)用激勵(lì)機(jī)制,借助知識(shí)整合系統(tǒng)進(jìn)行知識(shí)創(chuàng)新.

        高校是一個(gè)復(fù)雜的社會(huì)運(yùn)行組織,知識(shí)是其最核心的基因.科研是知識(shí)的創(chuàng)造,教學(xué)是知識(shí)的傳承,管理和社會(huì)服務(wù)是知識(shí)的應(yīng)用.因此知識(shí)管理系統(tǒng)在高校中具有特殊的意義.但在實(shí)踐中,由于知識(shí)的定義過于廣泛,在高校中所需要管理的知識(shí)遠(yuǎn)遠(yuǎn)大于其管理能力.正因?yàn)槿绱?大數(shù)據(jù)技術(shù)為高校的知識(shí)管理帶來了新的動(dòng)力.

        基于大數(shù)據(jù)挖掘的高校知識(shí)管理系統(tǒng)(Big data mining-based University Knowledge Management System,BUKMS)是基于大數(shù)據(jù)技術(shù),集成各種數(shù)據(jù)挖掘算法,通過數(shù)據(jù)挖掘項(xiàng)后管理,支持高校知識(shí)管理的信息系統(tǒng).該系統(tǒng)基于CRISP-DM(Cross-Industry Standard Process for Data Mining)數(shù)據(jù)挖掘過程模型,通過J2EE技術(shù)實(shí)現(xiàn).該系統(tǒng)能夠供高校教育管理人員、教師及教育研究人員直接使用,提供實(shí)時(shí)或離線大數(shù)據(jù)挖掘服務(wù).

        2 高校知識(shí)管理系統(tǒng)設(shè)計(jì)

        2.1 BUKMS流程設(shè)計(jì)

        在數(shù)據(jù)挖掘領(lǐng)域,CRISP-DM是應(yīng)用最廣泛的、事實(shí)上的工業(yè)標(biāo)準(zhǔn)[5].CRISP-DM模型提供了一個(gè)數(shù)據(jù)挖掘項(xiàng)后的生命周期的總體描述.它描述了一個(gè)項(xiàng)后的各個(gè)階段、各階段的任務(wù)以及這些任務(wù)之間的關(guān)系.它把數(shù)據(jù)挖掘項(xiàng)后的生命周期分為六個(gè)階段組成,分別為業(yè)務(wù)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、建模、評(píng)價(jià)和部署[6].

        基于CRISP-DM模型,高校大數(shù)據(jù)挖掘流程根據(jù)業(yè)務(wù)功能分為四個(gè)階段:背景評(píng)估、數(shù)據(jù)采集、模型探究、知識(shí)應(yīng)用.每一階段都有相應(yīng)的功能模塊來實(shí)現(xiàn).具體業(yè)務(wù)功能流程如圖1所示.

        背景評(píng)估主要包括價(jià)值描述、目標(biāo)設(shè)定、數(shù)據(jù)來源和算法分析.價(jià)值描述用于確定項(xiàng)后本身的應(yīng)用價(jià)值;目標(biāo)設(shè)定確定大數(shù)據(jù)挖掘目標(biāo);數(shù)據(jù)來源分析數(shù)據(jù)可能從何處獲得;算法分析則確定為實(shí)現(xiàn)目標(biāo)所需要使用的算法.

        數(shù)據(jù)采集包括三種方式:人工采集、數(shù)據(jù)集成、Web數(shù)據(jù).人工采集的方式包括問卷調(diào)查、檔案調(diào)查以及文獻(xiàn)調(diào)研.數(shù)據(jù)集成方式則是從關(guān)系型數(shù)據(jù)庫中獲取數(shù)據(jù).Web數(shù)據(jù)則是從管理系統(tǒng)、網(wǎng)絡(luò)平臺(tái)及系統(tǒng)日志中主動(dòng)下載或抓取數(shù)據(jù).

        模型探究時(shí),首先選擇算法,對(duì)數(shù)據(jù)進(jìn)行處理、建模,得出相應(yīng)的結(jié)論,然后進(jìn)行評(píng)估,如果不滿意,就要重新選擇算法,直至得到滿意的結(jié)果.

        圖1 BUKMS 業(yè)務(wù)功能流程圖

        知識(shí)應(yīng)用主要包括知識(shí)展示、知識(shí)審核、知識(shí)入庫、管理流程優(yōu)化、管理流程再造、教學(xué)改進(jìn).知識(shí)應(yīng)用根據(jù)輸出結(jié)果,進(jìn)行意義描述,并以知識(shí)的形式展示出來,或存儲(chǔ)于知識(shí)管理系統(tǒng)中,供他人利用;或直接應(yīng)用于高校管理業(yè)務(wù)流程中;或直接應(yīng)用于教學(xué)設(shè)計(jì)之中,發(fā)揮其作用.然后根據(jù)應(yīng)用效果,作進(jìn)一步的數(shù)據(jù)挖掘.

        2.2 BUKMS總體架構(gòu)

        BUKMS以大數(shù)據(jù)挖掘平臺(tái)為基礎(chǔ),以知識(shí)門戶為核心,搭建支持高校核心業(yè)務(wù)的綜合型知識(shí)管理系統(tǒng).其總體架構(gòu)主要包括高校知識(shí)門戶、大數(shù)據(jù)挖掘平臺(tái)、高校知識(shí)庫和知識(shí)管理服務(wù).具體如圖2所示.

        在總體架構(gòu)中,大數(shù)據(jù)挖掘平臺(tái)是高校知識(shí)管理系統(tǒng)的數(shù)據(jù)處理基礎(chǔ)平臺(tái).它有三個(gè)數(shù)據(jù)來源,即業(yè)務(wù)數(shù)據(jù)庫、數(shù)據(jù)倉庫和日志文檔.業(yè)務(wù)數(shù)據(jù)庫存放的是各個(gè)管理業(yè)務(wù)系統(tǒng)數(shù)據(jù),可以通過接口協(xié)議直接連接.數(shù)據(jù)倉庫則是依據(jù)時(shí)間線建立的主題式數(shù)據(jù)庫,用于存儲(chǔ)各類統(tǒng)計(jì)性數(shù)據(jù).日志文檔包括應(yīng)用服務(wù)器、網(wǎng)絡(luò)服務(wù)器、系統(tǒng)服務(wù)器、業(yè)務(wù)系統(tǒng)的運(yùn)行和訪問日志.

        大數(shù)據(jù)挖掘平臺(tái)包括六個(gè)模塊:數(shù)據(jù)挖掘工具、數(shù)據(jù)挖掘模型、數(shù)據(jù)挖掘算法、數(shù)據(jù)挖掘項(xiàng)后管理、數(shù)據(jù)集成工具、Hadoop軟件系統(tǒng).各個(gè)模塊相互獨(dú)立,數(shù)據(jù)項(xiàng)后管理對(duì)其余模塊進(jìn)行管理.數(shù)據(jù)集成工具、數(shù)據(jù)挖掘工具、模型、算法既可以自主開發(fā),也可以選擇既有產(chǎn)品.Hadoop軟件系統(tǒng)是大數(shù)據(jù)處理平臺(tái),可以通過自主編程,實(shí)現(xiàn)對(duì)大數(shù)據(jù)的分布式處理.

        圖2 BUKMS 系統(tǒng)總體架構(gòu)圖

        大數(shù)據(jù)挖掘平臺(tái)的輸出結(jié)果轉(zhuǎn)化為知識(shí),與外部知識(shí)一起支撐了上層知識(shí)庫,知識(shí)庫向外提供知識(shí)門戶服務(wù).知識(shí)門戶在高校知識(shí)庫的支撐下,提供知識(shí)操作臺(tái)和知識(shí)服務(wù)臺(tái).

        知識(shí)操作臺(tái)是對(duì)知識(shí)的審核及入庫提供功能支撐,包括知識(shí)審核、知識(shí)分類、知識(shí)入庫等功能.知識(shí)操作臺(tái)的知識(shí)來源是大數(shù)據(jù)挖掘平臺(tái)以及外部知識(shí),外部知識(shí)分為三類:結(jié)構(gòu)化知識(shí)、陳述性知識(shí)、程序性知識(shí).結(jié)構(gòu)化知識(shí)是指各類知識(shí)模型,能夠表達(dá)相互因果關(guān)系,能夠?qū)I(yè)務(wù)進(jìn)行決策支持的知識(shí).陳述性知識(shí)是指規(guī)則、規(guī)范類文檔,用于說明業(yè)務(wù)的類型、功能等.程序性知識(shí)是對(duì)業(yè)務(wù)過程的解釋,包括業(yè)務(wù)流程、設(shè)計(jì)案例等.

        知識(shí)服務(wù)臺(tái)向用戶提供知識(shí)管理服務(wù),包括業(yè)務(wù)流程優(yōu)化分析、教學(xué)過程優(yōu)化分析、學(xué)習(xí)效果優(yōu)化分析、辦事效率分析、學(xué)生選課建議、學(xué)生就業(yè)建議等個(gè)性化知識(shí)、業(yè)務(wù)知識(shí)和教學(xué)知識(shí).

        2.3 BUKMS功能模型

        BUKMS功能目標(biāo)包括兩個(gè)方面的內(nèi)容:大數(shù)據(jù)挖掘與知識(shí)管理.大數(shù)據(jù)挖掘可以看作是知識(shí)管理過程中的知識(shí)發(fā)現(xiàn)過程,但在大數(shù)據(jù)時(shí)代,大數(shù)據(jù)挖掘的地位日益重要.因此系統(tǒng)設(shè)計(jì)的核心是實(shí)現(xiàn)大數(shù)據(jù)挖掘,并在此基礎(chǔ)上推進(jìn)知識(shí)存儲(chǔ)、轉(zhuǎn)移與應(yīng)用.BUKMS包括系統(tǒng)管理、知識(shí)發(fā)現(xiàn)、知識(shí)存儲(chǔ)、知識(shí)呈現(xiàn)、知識(shí)應(yīng)用五大模塊.其業(yè)務(wù)功能結(jié)構(gòu)如圖3所示.

        圖3 BUKMS 平臺(tái)業(yè)務(wù)功能結(jié)構(gòu)圖

        系統(tǒng)管理包括用戶管理、角色管理、元數(shù)據(jù)管理、日志管理等功能.主要任務(wù)是平臺(tái)系統(tǒng)功能的支持及用戶管理.

        知識(shí)發(fā)現(xiàn)包括背景評(píng)估、數(shù)據(jù)采集、模型探究、知識(shí)輸出、數(shù)據(jù)挖掘向?qū)У裙δ?這一部分功能是該平臺(tái)的核心.知識(shí)發(fā)現(xiàn)模塊實(shí)現(xiàn)大數(shù)據(jù)挖掘的全過程.從功能上來看,知識(shí)發(fā)現(xiàn)模塊實(shí)現(xiàn)大數(shù)據(jù)挖掘項(xiàng)后管理的全過程,即對(duì)于一個(gè)高校大數(shù)據(jù)挖掘項(xiàng)后,從背景評(píng)估一直到知識(shí)應(yīng)用這一整個(gè)流程,平臺(tái)提供一個(gè)向?qū)缘墓芾砉δ?用戶通過這一向?qū)Чδ?實(shí)現(xiàn)對(duì)自己所采集的數(shù)據(jù)進(jìn)行挖掘分析工作.

        知識(shí)存儲(chǔ)包括審核人管理、審核任務(wù)分配、知識(shí)審核、自動(dòng)審核配置、知識(shí)分類等功能.其主要任務(wù)是實(shí)現(xiàn)知識(shí)入庫,能夠判斷知識(shí),并以良好的分類形式保存起來.知識(shí)存儲(chǔ)是高校知識(shí)管理系統(tǒng)的重要功能,其核心是構(gòu)建知識(shí)庫,圍繞知識(shí)庫的入庫、出庫管理,實(shí)現(xiàn)知識(shí)的有效存儲(chǔ).

        知識(shí)呈現(xiàn)包括知識(shí)查詢、個(gè)性化知識(shí)、知識(shí)圖表、儀表盤、知識(shí)分析等功能.其主要任務(wù)是為用戶提供個(gè)性化的查詢界面,使用戶很方便地管理數(shù)據(jù)、執(zhí)行數(shù)據(jù)挖掘、查看結(jié)果.知識(shí)呈現(xiàn)以知識(shí)門戶的形式,將與用戶相關(guān)的知識(shí)自動(dòng)集中到用戶界面,幫助用戶確定數(shù)據(jù)所包含的知識(shí)內(nèi)涵,也為其提供相關(guān)的知識(shí),供其決策參考.

        知識(shí)應(yīng)用是高校知識(shí)管理系統(tǒng)的主要模塊.如何把大數(shù)據(jù)挖掘成果應(yīng)用于高校各項(xiàng)管理和教學(xué)工作中,是其根本的價(jià)值所在.在高校大數(shù)據(jù)挖掘中,知識(shí)應(yīng)用主要包括業(yè)務(wù)流程管理、學(xué)習(xí)型組織管理和教學(xué)設(shè)計(jì)管理等功能.業(yè)務(wù)流程管理支持用戶建立業(yè)務(wù)流程,管理流程中存在的問題.學(xué)習(xí)型組織管理支持用戶管理學(xué)習(xí)型組織,分析組織問題.教學(xué)設(shè)計(jì)管理功能則支持教師在教學(xué)過程中發(fā)現(xiàn)教學(xué)問題,加以分析,并形成新的教學(xué)策略.

        3 知識(shí)應(yīng)用模塊功能設(shè)計(jì)

        3.1 業(yè)務(wù)流程管理

        業(yè)務(wù)流程管理包括業(yè)務(wù)流程圖展示、業(yè)務(wù)流程圖管理、業(yè)務(wù)流程跟蹤、業(yè)務(wù)庫管理功能.業(yè)務(wù)流程圖展示將高校中的各個(gè)業(yè)務(wù)流程以圖形化的方式展現(xiàn)出來,便于管理和理解.業(yè)務(wù)流程圖中各個(gè)業(yè)務(wù)均來源于業(yè)務(wù)庫.業(yè)務(wù)流程跟蹤功能則根據(jù)業(yè)務(wù)功能所對(duì)應(yīng)的數(shù)據(jù)庫及服務(wù)器,通過調(diào)用大數(shù)據(jù)挖掘服務(wù)從業(yè)務(wù)數(shù)據(jù)庫中提取數(shù)據(jù),分析處理,為業(yè)務(wù)流程的再造和優(yōu)化提供數(shù)據(jù)支持.業(yè)務(wù)庫管理則是把各個(gè)細(xì)分業(yè)務(wù)添加保存到業(yè)務(wù)庫中,供業(yè)務(wù)流程圖構(gòu)建時(shí)使用,如圖4所示.

        圖4 業(yè)務(wù)流程管理模型功能結(jié)構(gòu)圖

        3.2 學(xué)習(xí)型組織管理

        學(xué)習(xí)型組織管理功能主要包括學(xué)習(xí)型組織建設(shè)、組織問題定義、問題決策支持、以及問題基模管理.

        David A.Garvin[7]提出了“學(xué)習(xí)型組織”的快速判定標(biāo)準(zhǔn).這一判定標(biāo)準(zhǔn)以5個(gè)問題的形式出現(xiàn),用以識(shí)別不同的行為.(1)組織有沒有明確的學(xué)習(xí)行動(dòng)計(jì)劃? (2)組織能否自由地討論不和諧的信息? (3)組織能否避免不犯同樣的錯(cuò)誤? (4)當(dāng)關(guān)鍵員工離開時(shí),組織是否失去了重要的知識(shí)? (5)組織是否基于自己的知識(shí)采取行動(dòng)?

        因此一個(gè)學(xué)習(xí)型組織可以歸納為5方面的要求:學(xué)習(xí)行動(dòng)計(jì)劃、組織保障制度、知識(shí)管理制度、經(jīng)驗(yàn)交流制度、知識(shí)轉(zhuǎn)化制度.學(xué)習(xí)行動(dòng)計(jì)劃用于描述組織當(dāng)前的知識(shí)基礎(chǔ)以及學(xué)習(xí)的目標(biāo);組織保障制度則是要保障組織能夠自由地討論各種信息,包括不利信息;經(jīng)驗(yàn)交流制度則有利于使組織能夠?qū)Τ晒Φ慕?jīng)驗(yàn)和失敗的教訓(xùn)進(jìn)行總結(jié)討論,使其成為組織記憶的一部分,從而避免同樣錯(cuò)誤的發(fā)生;知識(shí)管理制度則有利于隨時(shí)收集關(guān)鍵員工的知識(shí),避免因員工流失造成的知識(shí)流失;知識(shí)轉(zhuǎn)化制度則應(yīng)鼓勵(lì)員工應(yīng)用知識(shí)采取行動(dòng),提高工作效率.

        因此學(xué)習(xí)型組織建設(shè)主要是圍繞學(xué)習(xí)型組織的五個(gè)方面進(jìn)行.組織問題定義就是要把組織中存在的問題歸納出來,并將其歸為某類問題基模.問題基模是依據(jù)彼得·圣吉所定義的八種基模為基礎(chǔ),并可以自定義添加.問題決策支持是根據(jù)預(yù)先定義好的問題基模分析步驟,通過調(diào)用大數(shù)據(jù)挖掘程序,對(duì)相關(guān)數(shù)據(jù)進(jìn)行挖掘分析,以支持更好的解決問題.如圖5所示.

        圖5 學(xué)習(xí)型組織管理功能結(jié)構(gòu)圖

        3.3 教學(xué)設(shè)計(jì)管理

        教學(xué)設(shè)計(jì)管理的任務(wù)是對(duì)數(shù)據(jù)挖掘知識(shí)在教學(xué)過程中加以應(yīng)用.教學(xué)設(shè)計(jì)管理從教學(xué)模式出發(fā),通過構(gòu)建教學(xué)模式庫,提供對(duì)教學(xué)的支持.教師在教學(xué)中,通過參考相應(yīng)的教學(xué)模式,可以構(gòu)建自己獨(dú)特的教學(xué)過程模型.同時(shí),通過教學(xué)過程跟蹤,收集學(xué)生網(wǎng)上學(xué)習(xí)行為,然后對(duì)此進(jìn)行大數(shù)據(jù)挖掘,則能發(fā)現(xiàn)學(xué)習(xí)問題和學(xué)習(xí)規(guī)律,協(xié)調(diào)雙方行為,提高教學(xué)效果.具體如圖6所示.

        圖6 教學(xué)設(shè)計(jì)管理功能結(jié)構(gòu)圖

        4 關(guān)鍵技術(shù)

        4.1 數(shù)據(jù)集成技術(shù)

        高校大數(shù)據(jù)來源復(fù)雜,如何能夠?qū)Ω鞣N數(shù)據(jù)進(jìn)行有效集成,將大數(shù)據(jù)挖掘所需要數(shù)據(jù)歸集到系統(tǒng)中來,是高校知識(shí)管理系統(tǒng)所面臨的基本問題.數(shù)據(jù)集成的關(guān)鍵是其易用性,能夠很方便地使用集成各種數(shù)據(jù).基于此,必須對(duì)數(shù)據(jù)集成進(jìn)行分類設(shè)計(jì).首先,對(duì)于用戶缺乏相關(guān)數(shù)據(jù),可以提供網(wǎng)絡(luò)調(diào)查工具,通過網(wǎng)絡(luò)問卷的形式,收集數(shù)據(jù);其次,對(duì)于文件型數(shù)據(jù),可以通過文件導(dǎo)入方式,直接將數(shù)據(jù)導(dǎo)入到系統(tǒng)數(shù)據(jù)庫中,然后進(jìn)行分析;再次,對(duì)于能夠提供數(shù)據(jù)庫接口,則通過 ETL工具(如ODI/kettle)或java/nodejs等程序設(shè)計(jì)語言,實(shí)現(xiàn)數(shù)據(jù)集成.特別是nodejs,能夠使用戶簡(jiǎn)單地通過第三方組件庫,很方便地實(shí)現(xiàn)數(shù)據(jù)庫之間的數(shù)據(jù)交換,也能實(shí)現(xiàn)數(shù)據(jù)文件的讀寫.最后,對(duì)于需要通過Hadoop大數(shù)據(jù)平臺(tái)進(jìn)行處理的,則可以通過sqoop工具將關(guān)系型數(shù)據(jù)庫(如MySQL,Oracle等)中的數(shù)據(jù)導(dǎo)入到Hadoop的HDFS中,也可以將HDFS的數(shù)據(jù)導(dǎo)出到關(guān)系型數(shù)據(jù)庫中.

        通過調(diào)研,當(dāng)前數(shù)據(jù)集成的主流工具包括以下產(chǎn)品:ODI、KETTLE、Sqoop、Nodejs[8-11].

        ODI能夠?qū)崿F(xiàn)關(guān)系型數(shù)據(jù)庫的實(shí)時(shí)及定時(shí)集成操作,能夠進(jìn)行全量集成及增量集成,數(shù)據(jù)集成效率高,處理數(shù)據(jù)量大,常用于基于Oracle數(shù)據(jù)庫的數(shù)據(jù)集成.但數(shù)據(jù)轉(zhuǎn)換過程中對(duì)復(fù)雜業(yè)務(wù)較難實(shí)現(xiàn).Kettle是一款開源數(shù)據(jù)集成工具,能夠?qū)崿F(xiàn)關(guān)系數(shù)據(jù)庫的實(shí)時(shí)及定時(shí)集成操作,能夠在不同類型數(shù)據(jù)庫間實(shí)現(xiàn)數(shù)據(jù)共享,數(shù)據(jù)集成高效穩(wěn)定.但同樣它在數(shù)據(jù)轉(zhuǎn)換過程中也難以實(shí)現(xiàn)復(fù)雜業(yè)務(wù).Sqoop是基于 Hadoop平臺(tái),實(shí)現(xiàn)Hadoop平臺(tái)與關(guān)系數(shù)據(jù)庫的數(shù)據(jù)交換的開源工具,但不適用于關(guān)系數(shù)據(jù)庫之間數(shù)據(jù)共享.Nodejs是基于Chrome V8 擎的 JavaScript運(yùn)行環(huán)境和工具,基于擴(kuò)展庫,nodejs可以輕松實(shí)現(xiàn)數(shù)據(jù)庫及文件之間的數(shù)據(jù)共享.通過簡(jiǎn)單編程,可以插入復(fù)雜業(yè)務(wù),能夠?qū)崿F(xiàn)數(shù)據(jù)集成過程的可視化.但其性能不太穩(wěn)定,對(duì)大批量數(shù)據(jù)處理不夠理想.

        基于高校大數(shù)據(jù)挖掘平臺(tái)的數(shù)據(jù)集成需求,通過對(duì)數(shù)據(jù)集成工具的分析,這些工具均可在實(shí)際中應(yīng)用.具體數(shù)據(jù)集成方式的選擇示意圖如圖7.

        圖7 數(shù)據(jù)集成工具選擇示意圖

        4.2 大數(shù)據(jù)挖掘技術(shù)

        對(duì)于大數(shù)據(jù)挖掘,該系統(tǒng)采用在線和離線兩種方式.在線方式中,用戶在提交數(shù)據(jù)文件后,系統(tǒng)自動(dòng)調(diào)用大數(shù)據(jù)挖掘方法,完成數(shù)據(jù)挖掘工作,返回?cái)?shù)據(jù)挖掘結(jié)果.離線方式下,需要在系統(tǒng)中提交相關(guān)項(xiàng)后資料,而在線下利用大數(shù)據(jù)挖掘工具來完成數(shù)據(jù)挖掘工作.后前的大數(shù)據(jù)挖掘平臺(tái)主要包括兩大類平臺(tái):Hadoop與Spark.

        Hadoop平臺(tái)生態(tài)完善,支持資源豐富.不足之處在于數(shù)據(jù)處理編程復(fù)雜,并且大數(shù)據(jù)的算法、呈現(xiàn)都需要基于Hadoop的第三方軟件支持.Spark包括四大模塊:Spark SQL-RDD(數(shù)據(jù)執(zhí)行的基本單元)、MLlib(機(jī)器學(xué)習(xí))、Graphx(圖計(jì)算)、Spark Streaming(實(shí)時(shí)處理)[12].Spark是基于內(nèi)存的編程模型,它可以把中間的迭代過程不放在磁盤中,數(shù)據(jù)直接在內(nèi)存中執(zhí)行,極大地提高了執(zhí)行速度.但它沒有底層數(shù)據(jù)存儲(chǔ)平臺(tái),一般仍要基于Hadoop平臺(tái)來實(shí)現(xiàn).

        通過簡(jiǎn)單對(duì)比,可以發(fā)現(xiàn)Hadoop生態(tài)較Spark為完整,并且可用資源較多,有利于編程人員開發(fā)構(gòu)建.不過Spark近年來發(fā)展也很快,可以視需要在Hadoop平臺(tái)上進(jìn)一步擴(kuò)展.

        BUKMS系統(tǒng)基于Hadoop平臺(tái)進(jìn)行開發(fā)部署,具體技術(shù)架構(gòu)如圖8所示.BUKMS系統(tǒng)技術(shù)架構(gòu)可以分為五個(gè)層次,分別為展示層、業(yè)務(wù)層、數(shù)據(jù)建模層、數(shù)據(jù)處理層和數(shù)據(jù)存儲(chǔ)層.

        圖8 BUKMS 系統(tǒng)技術(shù)架構(gòu)圖

        數(shù)據(jù)存儲(chǔ)層負(fù)責(zé)數(shù)據(jù)的底層存儲(chǔ),存儲(chǔ)采用關(guān)系數(shù)據(jù)庫和NoSQL數(shù)據(jù)庫兩種類型,分別用于處理不同的業(yè)務(wù)需求.數(shù)據(jù)存儲(chǔ)層包括多種存儲(chǔ)技術(shù),主要有HDFS、Hbase、Oracle 以及 Mysql.HDFS 是 Hadoop平臺(tái)的文件存儲(chǔ)系統(tǒng),Hbase主要用于存儲(chǔ)大規(guī)模的日志數(shù)據(jù).Oracle 用于業(yè)務(wù)數(shù)據(jù)存儲(chǔ).Mysql用于構(gòu)建J2EE平臺(tái),承擔(dān)BUKMS系統(tǒng)的數(shù)據(jù)管理.

        數(shù)據(jù)處理層是負(fù)責(zé)所有數(shù)據(jù)的持久存儲(chǔ)、處理.它從各個(gè)數(shù)據(jù)源獲取數(shù)據(jù),數(shù)據(jù)經(jīng)過抽取、清洗、加載等轉(zhuǎn)換操作后,進(jìn)入數(shù)據(jù)倉庫.該層包括Hadoop、Pig、Sqoop、Hive、ETL、Data Warehouse 等支撐軟件.

        數(shù)據(jù)建模層的任務(wù)是執(zhí)行挖掘算法進(jìn)行數(shù)據(jù)挖掘.數(shù)據(jù)建模任務(wù)主要包括聚類、分類、關(guān)聯(lián)規(guī)則與預(yù)測(cè)四種.

        業(yè)務(wù)層負(fù)責(zé)具體的事務(wù)處理.業(yè)務(wù)層主要包括大數(shù)據(jù)挖掘項(xiàng)后的業(yè)務(wù)處理過程,根據(jù)大數(shù)據(jù)處理業(yè)務(wù)處理流程來進(jìn)行.

        展示層是將數(shù)據(jù)挖掘結(jié)果以圖形、報(bào)表等形式進(jìn)行展示的功能.展示層主要從數(shù)據(jù)展現(xiàn)上,為用戶提供詳細(xì)的、個(gè)性化的、可視化的數(shù)據(jù)分析信息,使用戶能夠容易地理解數(shù)據(jù)挖掘所帶來的成果.

        5 系統(tǒng)開發(fā)環(huán)境及測(cè)試

        5.1 系統(tǒng)開發(fā)環(huán)境

        該研究基于IBM V7000 存儲(chǔ)及VMWARE5.1軟件,搭建了如圖9所示的大數(shù)據(jù)挖掘平臺(tái).WEB服務(wù)器提供J2EE知識(shí)管理門戶服務(wù),Hadoop集群提供大數(shù)據(jù)處理環(huán)境.WEB服務(wù)器使用windows2008 R2系統(tǒng),mysql5.0數(shù)據(jù)庫.Hadoop集群采用一主三輔架構(gòu),即一臺(tái)MASTER命名節(jié)點(diǎn),三臺(tái)SLAVE數(shù)據(jù)節(jié)點(diǎn),通過 MASTER,分配 Map-Reduce 任務(wù),由 SLAVE 數(shù)據(jù)節(jié)點(diǎn)執(zhí)行.四臺(tái)服務(wù)器均采用centOS6.0 64位系統(tǒng),4G內(nèi)存,100G硬盤空間.數(shù)據(jù)庫服務(wù)器提供數(shù)據(jù)倉庫支持,其它業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫通過ETL工具集成到數(shù)據(jù)庫服務(wù)器中.行為日志服務(wù)器用于存儲(chǔ)業(yè)務(wù)服務(wù)器的日志文件,通過工具將文件調(diào)入到大數(shù)據(jù)平臺(tái)中.

        圖9 BUKMS 系統(tǒng)硬件平臺(tái)結(jié)構(gòu)圖

        5.2 實(shí)驗(yàn)案例:遠(yuǎn)程教育管理信息系統(tǒng)訪問次數(shù)與校外學(xué)習(xí)點(diǎn)應(yīng)用情況分析

        該實(shí)驗(yàn)基于遠(yuǎn)程教育管理信息系統(tǒng)進(jìn)行,通過分析其訪問數(shù)據(jù),獲取訪問量較大的地區(qū)信息,然后有針對(duì)性地對(duì)該地區(qū)學(xué)習(xí)點(diǎn)進(jìn)行培訓(xùn)和意見征集,改進(jìn)遠(yuǎn)程教育線上管理流程.

        首先,在知識(shí)管理門戶中,建立遠(yuǎn)程教育管理流程,主要包括學(xué)藉管理和教學(xué)管理兩大類.學(xué)籍管理主要包括學(xué)生錄取信息、注冊(cè)信息、學(xué)籍信息、學(xué)籍異動(dòng)信息的管理.教學(xué)管理主要包括課程信息和成績(jī)信息的管理.這些管理流程都與學(xué)習(xí)點(diǎn)有著直接關(guān)系.

        然后,根據(jù)業(yè)務(wù)流程問題,建立大數(shù)據(jù)挖掘項(xiàng)后.根據(jù)大數(shù)據(jù)挖掘流程,從背景評(píng)估、數(shù)據(jù)采集、模型探究、知識(shí)應(yīng)用四個(gè)方面進(jìn)行設(shè)計(jì)和實(shí)施.

        5.2.1 背景評(píng)估

        (1)項(xiàng)后價(jià)值:希望通過本項(xiàng)后,從中可以發(fā)現(xiàn)各地區(qū)管理員及學(xué)生的訪問特征,以針對(duì)性地進(jìn)行調(diào)研,改進(jìn)遠(yuǎn)程教育管理流程.

        (2)項(xiàng)后目標(biāo):根據(jù)應(yīng)用服務(wù)器日志,發(fā)現(xiàn)各地區(qū)學(xué)習(xí)點(diǎn)的訪問特征.

        (3)數(shù)據(jù)來源:從應(yīng)用服務(wù)器中獲取日志文件.

        (4)算法選擇:K-MEANS.

        (5)工具選擇:Hadoop 集群,WEKA3.6.

        5.2.2 數(shù)據(jù)采集

        本例從應(yīng)用服務(wù)器中獲取日志文件,該日志文件大小 660 M,日志記錄為 620 萬條,記錄了該系統(tǒng)自2011年11月至2014年11月近3年的訪問記錄.

        5.2.3 模型探究

        步驟 1.數(shù)據(jù)預(yù)處理.將日志文件傳輸?shù)紿adoop 集群,然后執(zhí)行 map-reduce 過程,統(tǒng)計(jì)每個(gè)IP地址的訪問數(shù)量,輸出到MYSQL數(shù)據(jù)庫,共統(tǒng)計(jì)出44152個(gè)IP地址,最高訪問數(shù)量127961,最低為1.然后再通過程序?qū)P地址對(duì)應(yīng)的地區(qū)查詢出來,輸出到對(duì)應(yīng)的字段.數(shù)據(jù)表結(jié)構(gòu)包括訪問IP、訪問數(shù)量、所在地區(qū)(即IP登記地址).然后按地區(qū)進(jìn)行分類匯總,共獲得有效記錄1476條,地區(qū)訪問量最高為361479,最低為10.

        步驟2.選擇算法.使用k-means算法進(jìn)行聚類.

        步驟3.設(shè)置聚類參數(shù)numClusters分別為2、3、5、10,參數(shù)形式如:

        weka.clusterers.SimpleKMeans -N 2-A "weka.core.EuclideanDistance -R first-last" -I 500 -S 100.

        步驟 4.執(zhí)行算法.結(jié)果(聚為 10類時(shí))如圖 10所示.

        圖10 訪問次數(shù)聚類結(jié)果圖

        5.2.4 知識(shí)應(yīng)用

        (1)知識(shí)展示:根據(jù)實(shí)驗(yàn)情況,形成實(shí)驗(yàn)報(bào)告,并在知識(shí)管理門戶中可以查看.

        (2)知識(shí)評(píng)估:從本次挖掘結(jié)果看,聚為 10 類實(shí)例分布較為合理,對(duì)于學(xué)習(xí)點(diǎn)的選擇有一定的參考價(jià)值.

        (3)管理流程優(yōu)化建議:選取訪問次數(shù)在2789次以上(即前7類)的地區(qū)學(xué)習(xí)點(diǎn)進(jìn)行應(yīng)用系統(tǒng)的使用意見和建議征集,而加強(qiáng)在cluster8與cluster9中的學(xué)習(xí)點(diǎn)進(jìn)行應(yīng)用系統(tǒng)使用培訓(xùn).

        6 結(jié)語

        基于大數(shù)據(jù)挖掘的高校知識(shí)管理系統(tǒng)將大數(shù)據(jù)技術(shù)與高校知識(shí)管理有效地結(jié)合起來,解決了高校數(shù)據(jù)集成困難、成果難以應(yīng)用、知識(shí)難以管理的問題.這些問題的解決有利于提高高校知識(shí)發(fā)現(xiàn)能力和知識(shí)應(yīng)用水平,提高校園管理和教學(xué)的智慧化水平.在應(yīng)用層面,它有效地結(jié)合了業(yè)務(wù)流程管理、學(xué)習(xí)型組織管理、教學(xué)設(shè)計(jì)管理等高校核心業(yè)務(wù)應(yīng)用,具體而針對(duì)性地提出了問題解決方案,為高校的管理人員和教師利用大數(shù)據(jù)挖掘帶來便利,使他們能夠自主挖掘數(shù)據(jù)信息,提高管理水平,提高教學(xué)效率.阿肖克·賈夏帕拉.知識(shí)管理:一種集成方法.安小米譯.北

        1 京:中國(guó)人民大學(xué)出版社,2013:222–226.

        2 Staniszkis W,Staniszkis E.Intelligent agent-based expert interactions in a knowledge management portal.Traunmüller R.Electronic Government.Berlin,Heidelberg,Germany.Springer.2003.296–299.

        3 Benbya H,Passiante G,Belbaly N A.Corporate portal:A tool for knowledge management synchronization.International Journal of Information Management,2004,24(3):201–220.[doi:10.1016/j.ijinfomgt.2003.12.012]

        4 楊曉明,李小聰,王時(shí)進(jìn).學(xué)校教育知識(shí)管理系統(tǒng)框架設(shè)計(jì)及其實(shí)現(xiàn)思路.中國(guó)教育信息化·高教職教,2010,(6):47–49.

        5 Shearer C.The CRISP-DM model:The new blueprint for data mining.Journal of Data Warehousing,2000,5(4):13–22.

        6 Azevedo A,Santos MF.KDD,semma and CRISP-DM:A parallel overview.IADIS European Conference Data Mining 2008.Amsterdam,the Netherlands.2008.182–185.

        7 戴維 A.加爾文.學(xué)習(xí)型組織行動(dòng)綱領(lǐng).邱昭良譯.北京:機(jī)械工業(yè)出版社,2004.

        8 崔有文,周金海.基于 KETTLE 的數(shù)據(jù)集成研究.計(jì)算機(jī)技術(shù)與發(fā)展,2015,25(4):153–157.

        9 于金良,朱志祥,梁小江.一種基于 Sqoop 的數(shù)據(jù)交換系統(tǒng).物聯(lián)網(wǎng)技術(shù),2016,6(3):35–37.

        10 林瑤.web 實(shí)時(shí)數(shù)據(jù)同步研究[碩士學(xué)位論文].北京:北京郵電大學(xué),2015.

        11 孫瑋.基于ODI技術(shù)搭建高校數(shù)字化校園公共數(shù)據(jù)平臺(tái).軟件工程師,2014,17(7):56–57,44.

        12 李文棟.基于Spark的大數(shù)據(jù)挖掘技術(shù)的研究與實(shí)現(xiàn)[碩士學(xué)位論文].濟(jì)南:山東大學(xué),2015.

        Big Data Mining-Based University Knowledge Management System

        LI Jing-Qi1,BIAN Yi-Jie1,2

        1(Business School,Hohai University,Nanjing 210098,China)2(Jiangsu Provincial Collaborative Innovation Center of World Water Valley and Water Ecological civilization,Nanjing 211100,China)

        The current application of big data in universities is facing many problems such as difficulties in data integration,results application and knowledge management,which need to be resolved urgently.Combined with the method of knowledge management and software engineering,this paper firstly designs the process of university big data mining based on CRISP-DM.On this basis,it designs the overall structure of the university knowledge management system and the function models,and then it designs the main function models in detail.Next,it analyzes the key technologies of data integration and big data mining.Finally,it gives the development environment and test of the system.The design scheme of the system provides a reference for the application of big data in universities.

        big data mining;knowledge management;university knowledge management system;data integration;knowledge audit

        李景奇,卞藝杰.基于大數(shù)據(jù)挖掘的高校知識(shí)管理系統(tǒng).計(jì)算機(jī)系統(tǒng)應(yīng)用,2017,26(9):54–61.http://www.c-s-a.org.cn/1003-3254/5984.html

        ①基金項(xiàng)后:河海大學(xué)高等教育科學(xué)研究項(xiàng)后(201612010)

        2017-01-03;采用時(shí)間:2017-02-15

        猜你喜歡
        數(shù)據(jù)挖掘管理系統(tǒng)數(shù)據(jù)庫
        基于James的院內(nèi)郵件管理系統(tǒng)的實(shí)現(xiàn)
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        基于LED聯(lián)動(dòng)顯示的違停管理系統(tǒng)
        海盾壓載水管理系統(tǒng)
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        數(shù)據(jù)庫
        數(shù)據(jù)庫
        數(shù)據(jù)庫
        數(shù)據(jù)庫
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        亚洲中文无码av永久| 亚洲女同系列高清在线观看 | 97精品国产手机| 亚洲第一无码精品久久| 日本加勒比一区二区在线观看| 日本一区二区三区在线观看免费| 亚洲国产精品悠悠久久琪琪| 不卡一区二区视频日本| 狠狠躁18三区二区一区| 久久99久久99精品免观看| 人妻精品久久中文字幕| 亚洲一区二区日韩精品| 色狠狠色狠狠综合天天| 伊人久久大香线蕉综合网站| 亚洲AⅤ无码日韩AV中文AV伦| 亚洲天堂色婷婷一区二区| 天堂网日韩av在线播放一区 | 久久国产综合精品欧美| 亚洲天堂av在线免费播放| 欧美亚洲精品suv| 人妻有码中文字幕| 波多野结衣在线播放一区| 白色橄榄树在线阅读免费| 国产av一区二区三区性入口| 无码视频在线观看| 99re6热在线精品视频播放6| 午夜视频福利一区二区三区| 久久精品亚州中文字幕| 高潮又爽又无遮挡又免费| 亚洲熟妇无码av不卡在线播放| 国产一区二区三区视频大全| 少妇一区二区三区久久| 亚洲国产精品日韩av不卡在线| 天堂网www在线资源| 天堂女人av一区二区| 自拍偷自拍亚洲精品第按摩| 国産精品久久久久久久| 国产精品黄色片在线观看| 亚洲中文字幕一区二区在线| 精人妻无码一区二区三区| 失禁大喷潮在线播放|