亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)據(jù)挖掘技術(shù)在資源共享課程建設(shè)中的研究

        2014-11-29 04:31:54范洪軍FANHongjun
        價值工程 2014年31期
        關(guān)鍵詞:數(shù)據(jù)挖掘資源課程

        范洪軍FAN Hong-jun

        (海南經(jīng)貿(mào)職業(yè)技術(shù)學(xué)院,海口 571127)

        (Hainan College of Economics and Business,Haikou 571127,China)

        0 引言

        我們已經(jīng)步入信息化的時代,大量的資源給人們帶來方便的同時,由于缺乏相應(yīng)的挖掘分析手段,造成了資源的大量重復(fù)和無意義相關(guān),從而難以有效利用。在資源共享課程建設(shè)中,如何避免信息的重復(fù)繁雜,提高資源共享課程教學(xué)的針對性,規(guī)范課程教學(xué)資源的合理分布成為資源共享課程教學(xué)系統(tǒng)研究的重要課題。數(shù)據(jù)挖掘技術(shù)的產(chǎn)生,為資源共享課程教學(xué)系統(tǒng)的智能化研究提供了有效手段。

        1 問題的提出

        根據(jù)我國目前大部分資源共享課程信息化教育的實際狀況來看,教師建設(shè)網(wǎng)絡(luò)資源共享課程的主要目的不是開展遠(yuǎn)程教育,而是利用課程管理系統(tǒng)(CMS)幫助教師和學(xué)生組織教與學(xué)的資源和活動,為師生提供信息化共享的學(xué)習(xí)環(huán)境,促進(jìn)高質(zhì)量教學(xué)[1]。

        國內(nèi)外對課程管理系統(tǒng)(CMS)的研究非常多,但涉及到智能化的研究并不多。信息化條件下,信息量在不斷增加,通過常規(guī)數(shù)據(jù)挖掘技術(shù)的搜索,分類,標(biāo)記功能只能找到表層的關(guān)聯(lián)信息。通常在獲得的大量文檔中,只有很少一部分與目標(biāo)接近,有很高的價值,大部分只是無意義相關(guān)。由于不能根據(jù)每一個學(xué)生的具體情況,給出最有效的資源,在某一篇文章、教學(xué)、課件、或者其他資源上傳到系統(tǒng)中時,我們并不能準(zhǔn)確地知道它的價值,因此無法量化它產(chǎn)生的效益,當(dāng)然就更不能讓資源跟蹤用戶。教師除了手工方式,無法知道學(xué)生之間的內(nèi)部關(guān)聯(lián),無法有效地為他們提供個性服務(wù)。

        2 數(shù)據(jù)挖掘的需求與功能分析

        數(shù)據(jù)挖掘技術(shù)的智能化就是要把系統(tǒng)中的每一個資源進(jìn)行系統(tǒng)的分析,自動而非人為找到資源之間的內(nèi)在聯(lián)系,形成有價值的信息,從而減少人的工作量,提高系統(tǒng)的服務(wù)效率。通常一個資源共享課程數(shù)據(jù)挖掘技術(shù)的應(yīng)用離不開三大主體:教師、學(xué)生、管理員[2]。在智能化的資源共享課程數(shù)據(jù)挖掘技術(shù)中,管理員的角色被系統(tǒng)所取代,大部分工作由系統(tǒng)完成,一些功能分給了教師與學(xué)生。

        智能化資源共享課程數(shù)據(jù)挖掘技術(shù)可以對師生進(jìn)行有效的服務(wù),教師可以在上面開設(shè)課程,設(shè)置課程,布局批改作業(yè),對學(xué)生進(jìn)行分組,評價學(xué)生學(xué)習(xí)。學(xué)生注冊進(jìn)入課程,進(jìn)行課程學(xué)習(xí),完成作業(yè),查找和評論資源。教師和學(xué)生都可以上傳各自的教學(xué)資源,學(xué)習(xí)心得,并相互討論。系統(tǒng)要完成的工作除正常的資源管理之外,增加了數(shù)據(jù)的智能化分析,主要包括三方面:

        2.1 預(yù)處理階段 分析各種資源的文本信息,對非文本資源如視頻、音樂等需要備注相關(guān)的文本信息,以便分析。在資源進(jìn)入系統(tǒng)時即進(jìn)行相似度的計算,找到資源與資源的關(guān)聯(lián)度,并將信息存入相應(yīng)的數(shù)據(jù)倉庫中,以備進(jìn)一步分析使用。根據(jù)詞頻與逆文檔頻率(TF-IDF)分析,給用戶一個資源上傳的評估,告訴此資源對系統(tǒng)的價值相關(guān)。

        2.2 挖掘分析階段 運用數(shù)據(jù)挖掘技術(shù)創(chuàng)建一個模型,用以發(fā)現(xiàn)和總結(jié)當(dāng)前有價值的信息。當(dāng)教師或?qū)W生在使用系統(tǒng)時,如查看課程信息、搜索關(guān)鍵詞、或者提出問題時,通過模型可以有效找到與當(dāng)前操作相關(guān)度最高的資源,以提高系統(tǒng)的有效性。

        2.3 評估階段 使用者可以對通過模型的結(jié)果進(jìn)行打分,打分的結(jié)果系統(tǒng)分存入相應(yīng)數(shù)據(jù)庫中,供以后的信息價值評估。系統(tǒng)會根據(jù)學(xué)生的操作記錄,學(xué)習(xí)過程,學(xué)習(xí)結(jié)果等信息進(jìn)行聚類分析,從而分析學(xué)生的內(nèi)部關(guān)聯(lián),形成結(jié)果,供管理員和教師參考。

        3 數(shù)據(jù)挖掘技術(shù)平臺架構(gòu)

        一個網(wǎng)站性能總是受到CPU、內(nèi)存、磁盤I/O、網(wǎng)絡(luò)帶寬等硬件資源的影響。提升網(wǎng)站性能除了進(jìn)行硬件升級外,架構(gòu)方面優(yōu)化設(shè)計往往可以達(dá)到事半功倍的效果[3]。本系統(tǒng)采用B/S(browser/ server)系統(tǒng)架構(gòu),這種結(jié)構(gòu)的好處是:客戶端不用安裝特別的軟件,直接使用瀏覽器即可,同時也方便系統(tǒng)的升級。系統(tǒng)采用Visual Studio 2005 作開發(fā)平臺,C#作編程語言,SQL Server 2005 作數(shù)據(jù)庫管理系統(tǒng)。

        本系統(tǒng)采用USL、BLL、DAL 三層架構(gòu)進(jìn)行設(shè)計。其中USL 即用戶界面表示層,采用ASPX 擴(kuò)展名的WEB 訪問,主要完成用戶的請求以及數(shù)據(jù)的返回;BLL 即業(yè)務(wù)邏輯層,對數(shù)據(jù)業(yè)務(wù)邏輯處理,將用戶傳來響應(yīng)給數(shù)據(jù)層,并將結(jié)果返回給表示層的瀏覽器;DAL 是數(shù)據(jù)訪問層,以便為USL 和BLL 層提供更豐富的數(shù)據(jù)服務(wù)。基于數(shù)據(jù)挖掘的三層系統(tǒng)架構(gòu)如圖1 所示。

        圖1 基于數(shù)據(jù)挖掘的三層系統(tǒng)架構(gòu)

        4 數(shù)據(jù)挖掘技術(shù)在資源共享課程建設(shè)中的應(yīng)用

        4.1 數(shù)據(jù)倉庫的設(shè)計 根據(jù)Bill Inmon 在1991 出版的Building the Data Warehouse 一書中是這樣解釋數(shù)據(jù)倉庫的:它是一個面向主題的(Subject Oriented)、集成的(Integrate)、相對穩(wěn)定的(Non-Volatile)、反映歷史變化的(Time Variant)數(shù)據(jù)集合,用于支持管理決策。數(shù)據(jù)倉庫中的數(shù)據(jù)含基本數(shù)據(jù),歷史數(shù)據(jù),綜合數(shù)據(jù)和元數(shù)據(jù)。

        為了在數(shù)據(jù)分析中排除不需要的、不完整的、不一致的數(shù)據(jù)噪聲,本數(shù)據(jù)挖掘技術(shù)在常用數(shù)據(jù)庫之外,還建立了一個方便進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)倉庫。

        數(shù)據(jù)倉庫采用更新驅(qū)動方法而不是傳統(tǒng)數(shù)據(jù)庫中的查詢驅(qū)動方法,將資源共享課程教學(xué)系統(tǒng)獲取的、教師和學(xué)生的上傳的數(shù)據(jù)進(jìn)行清理、集成、變換,并重新組織到一個語義的數(shù)據(jù)庫中,以便提供直接的查詢和分析。通過數(shù)據(jù)倉庫處理數(shù)據(jù)既可以提高數(shù)據(jù)的分析效率,又不會影響到數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)庫中的數(shù)據(jù)源。

        操作數(shù)據(jù)庫經(jīng)過清理、集成、變換形成數(shù)據(jù)倉庫,數(shù)據(jù)倉庫再供,如圖2 是一個三層數(shù)據(jù)倉庫結(jié)構(gòu)圖。

        4.2 關(guān)聯(lián)計算和數(shù)據(jù)預(yù)處理 關(guān)聯(lián)分析是指如果兩個或多個事物之間存在一定的關(guān)聯(lián),那么其中一個事物就能通過其他事物進(jìn)行預(yù)測。它的目的是為了挖掘隱藏在數(shù)據(jù)間的相互關(guān)系。在智能化的資源共享課程教學(xué)系統(tǒng)中,常常需要關(guān)聯(lián)計算對學(xué)生、素材進(jìn)行預(yù)處理,從而建立相應(yīng)的數(shù)據(jù)倉庫。例如對某學(xué)生登陸系統(tǒng)的次數(shù),以及登陸系統(tǒng)的時間進(jìn)行關(guān)聯(lián)分析,從而分析出該學(xué)生學(xué)習(xí)積極性。通過學(xué)生的作業(yè)完成情況與作業(yè)得分情況的關(guān)聯(lián)分析,可以測知學(xué)生學(xué)習(xí)的認(rèn)真度。當(dāng)學(xué)生在系統(tǒng)中使用相關(guān)素材時,根據(jù)學(xué)生對素材的瀏覽使用次數(shù)來判斷素材的價值,再結(jié)合聚類分析的應(yīng)用,將素材價值與學(xué)生的分類進(jìn)行關(guān)系,得出素材對學(xué)生類別的價值關(guān)聯(lián)。將這些信息以一個二維表的形式存儲在數(shù)據(jù)倉庫中。

        圖2 三層數(shù)據(jù)倉庫結(jié)構(gòu)圖

        這里以系統(tǒng)判斷學(xué)生的學(xué)習(xí)的積極性為例,設(shè)學(xué)生p的學(xué)習(xí)積極性為Ip,影響Ip的元素一般認(rèn)為有登陸次數(shù)n,以及登陸的時長t,以及系統(tǒng)操作o。一般認(rèn)為一個學(xué)生登陸系統(tǒng)的次數(shù)越多,時間越長,系統(tǒng)操作越積極,那么p的積極性就越高,即Ip的值越高,即Ip=Δ×n×t×o,Δ 的作用是將值域約束到設(shè)定范圍。但是事實上,這只是最表層的意思,我們可以設(shè)想因意外,如網(wǎng)絡(luò)故障,客戶端不穩(wěn)定等等,導(dǎo)致學(xué)生的登陸后掉線,利用瀏覽器的cookies 功能導(dǎo)致頻繁登陸,從而造成n 的干擾。如果學(xué)生在學(xué)習(xí)中,因故離開而沒有退出系統(tǒng),那么t 就會增加。這些都會造成Ip提高的假象,還有的學(xué)生在操作中頻繁點擊,無意義的操作都可以造成o 的大量重復(fù)操作。要解決這些問題,可以利用基于密度的離群點檢測(局部離群點要素LOF技術(shù)),通過以下5 步判斷哪些是學(xué)生異常登陸系統(tǒng)的情況:

        ①計算每個對象與其他對象的歐幾里得距離;②對歐幾里得距離進(jìn)行排序,計算第k 距離以及第K 領(lǐng)域;③計算每個對象的可達(dá)密度;④計算每個對象的局部離群點因子;⑤對每個點的局部離群點因子進(jìn)行排序,輸出。

        根據(jù)輸出將一些可疑數(shù)據(jù)(即離群較遠(yuǎn)的點)排除出去,最后將數(shù)據(jù)進(jìn)行變換后存儲到數(shù)據(jù)倉庫中,經(jīng)過優(yōu)化和改進(jìn)后的數(shù)據(jù)可以很好地解決教學(xué)系統(tǒng)以外的意外帶來的影響。

        4.3 聚類分析的應(yīng)用 在利用數(shù)據(jù)挖掘技術(shù)解決實際問題時,樣本的類別往往是未知的、或者即便可以獲得,其獲取過程也是非常困難的,運用聚類算法就能較好地解決這一問題。

        在教學(xué)系統(tǒng)中,經(jīng)常根據(jù)一定的條件把學(xué)生,或者教學(xué)資料進(jìn)行一定的劃分,這樣有助于指導(dǎo)教學(xué)開展。本系統(tǒng)用數(shù)據(jù)矩陣來分析數(shù)據(jù),用P 個變量表示N 個對象,如用年齡,性別,本課程的成績,興趣愛好等來描述學(xué)生。需要指出的是,興趣愛好不是一個具體的數(shù)字,所以可以事先做一些標(biāo)記,如a 代表喜歡計算機(jī)組裝,b 代表網(wǎng)頁制作,c 代表動畫制作…z 代表其他。

        使用K 均值和K 中心點對學(xué)生進(jìn)行聚類分析。首先,隨機(jī)地選擇K 個對象,每個對象代表一類的初始值。對剩余的每一個對象每個算出它與類均值的距離,從而決定它屬于哪一類,然后再計算每個類的新均值。這個過程不斷重復(fù)直到分類穩(wěn)定,即使重復(fù)計算也不會再有變化。聚類運算采用平方誤差準(zhǔn)則,其定義如下:

        4.4 TF-IDF 的應(yīng)用 TF-IDF(term frequency-inverse document frequency)是一種用于資訊檢索與資訊探勘的常用加權(quán)技術(shù)。TF-IDF 是一種統(tǒng)計方法,用以評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。

        關(guān)于TF-IDF 算法如下:

        freq(d,t)是指詞t 在文檔d 中出現(xiàn)的次數(shù)。通俗地說就是如果一個詞在本篇文檔中出現(xiàn)的次數(shù)很多,而在系統(tǒng)其他文檔中出現(xiàn)的次數(shù)很少,則就可以認(rèn)為這個詞的區(qū)分度很高,那么這個詞對本文檔的作用就大。通過TF-IDF算法,就可以找出每篇文章的重要詞,也就是關(guān)鍵詞,這些關(guān)鍵詞無需要上傳者手工標(biāo)注,而是由系統(tǒng)計算得到。比較這些關(guān)鍵詞就能計算出文檔與文檔之間的距離,即相似性。文檔,或者其他材料(需要以文本的方式進(jìn)行說明)上傳時,系統(tǒng)都可以智能地計算出它與其他資料的相似性。在使用某些資源時,系統(tǒng)就可以將事先計算好的相似度高的文檔同時推薦給用戶,讓用戶不必去找資源,而是讓資源自動找到用戶。文檔相似度的計算主要應(yīng)用于系統(tǒng)對相關(guān)資料的推薦,可以讓學(xué)生在系統(tǒng)中減少搜索有價值信息的時間,并且給教師提供資料的整體決策幫助。從而幫助使用者優(yōu)化系統(tǒng)資源。

        5 結(jié)束語

        智能化的數(shù)據(jù)挖掘技術(shù)通過關(guān)聯(lián)數(shù)據(jù)挖掘技術(shù),建立一個數(shù)據(jù)倉庫,數(shù)據(jù)倉庫將教學(xué)系統(tǒng)獲取的、教師和學(xué)生的上傳的數(shù)據(jù)進(jìn)行篩選、復(fù)制、預(yù)處理、集成、注釋、匯總,并重新組織到一個語義的數(shù)據(jù)庫中,以便提供直接的查詢和分析。在傳統(tǒng)的網(wǎng)絡(luò)課程和資源共享課程系統(tǒng)基礎(chǔ)上,運用關(guān)聯(lián)計算、聚類分析、TF-IDF 等數(shù)據(jù)挖掘技術(shù)真正實現(xiàn)數(shù)據(jù)挖掘技術(shù)的智能化。無論教師還是學(xué)生,可以更加有效地地從系統(tǒng)中獲取自己的可用信息,幫助教學(xué)的決策和學(xué)習(xí)的指導(dǎo)。

        [1]黎加厚,趙怡.課程管理系統(tǒng)(CMS)及其選擇[J].現(xiàn)代教育技術(shù),2008(9):64-75.

        [2]Kang Dong,Chen Juntao,Zhan Jinmei,Xing Haihua*,Wu,Shulei.Design of university teacher's files management system[C].CPS(Conference Publishing Services),Guangzhou.China.2012,11.

        [3]陳仁章,孟小華.大型網(wǎng)絡(luò)教學(xué)平臺架構(gòu)設(shè)計及實現(xiàn)(大型網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)架構(gòu)設(shè)計及實現(xiàn))[J].計算機(jī)工程與設(shè)計,2012,31(11):2455-2469.

        [4]陳步英.數(shù)據(jù)倉庫和數(shù)據(jù)挖掘在蔬菜病蟲害預(yù)測中的應(yīng)用[J].農(nóng)機(jī)化研究,2013(1):217-219,223.

        [5]Wang Guoxun.DATA MINING MODEL SELECTION BASED ON MULTIPLE CRITERIA DECISION MAKING [D].Doctoral Dissertation.School of Management and Economics,2013,9.

        猜你喜歡
        數(shù)據(jù)挖掘資源課程
        基礎(chǔ)教育資源展示
        數(shù)字圖像處理課程混合式教學(xué)改革與探索
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        軟件設(shè)計與開發(fā)實踐課程探索與實踐
        一樣的資源,不一樣的收獲
        為什么要學(xué)習(xí)HAA課程?
        資源回收
        資源再生 歡迎訂閱
        資源再生(2017年3期)2017-06-01 12:20:59
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        国产不卡视频一区二区三区| 久久九九国产精品怡红院| 后入内射欧美99二区视频| 依依成人影视国产精品| 免费观看久久精品日本视频| av在线网站一区二区| 女色av少妇一区二区三区| 人人色在线视频播放| 人妻精品动漫h无码网站| 国产精品入口牛牛影视| 久久精品国产视频在热| 亚洲毛片在线观看免费| 亚洲人成色7777在线观看不卡 | 国产人妻无码一区二区三区免费| av色综合网站| 日韩中文字幕一区在线| 最新欧美精品一区二区三区| 国产成人午夜精华液| 精品无人区无码乱码大片国产| 亚洲性感毛片在线视频| 337p粉嫩日本欧洲亚洲大胆| 97无码人妻福利免费公开在线视频| 国产亚洲欧美另类第一页| 国产精品自拍午夜伦理福利| 无码人妻一区二区三区兔费| 麻豆国产人妻欲求不满| 亚洲国产精品成人久久av| 亚洲国产精品久久婷婷| 国产精品伦一区二区三级视频| 亚洲天堂中文| 高清少妇一区二区三区| 妺妺窝人体色777777| 无码精品国产va在线观看| 国产丝袜免费精品一区二区| 亚洲精品一区二区在线免费观看 | 国产精品视频免费播放| 亚洲欧美日韩国产色另类| 亚洲va在线va天堂va四虎| 日韩一本之道一区中文字幕| 中文字幕无线码免费人妻| 久久艹影院|