亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于數(shù)據(jù)挖掘的學生成績預警建模研究

        2023-11-24 20:27:09李艷麗
        現(xiàn)代信息科技 2023年18期
        關鍵詞:數(shù)據(jù)挖掘大數(shù)據(jù)

        摘? 要:隨著信息化技術的不斷發(fā)展,智慧校園數(shù)據(jù)庫系統(tǒng)中積累了大量的數(shù)據(jù),而如何從這些數(shù)據(jù)中挖掘提取出有價值的、未知的信息,將對提高教學管理質量具有重要意義。文章以高校智慧校園數(shù)據(jù)庫系統(tǒng)中存儲各類數(shù)據(jù)為數(shù)據(jù)源,提出建立一種交互可視化的學生成績預警模型,并利用數(shù)據(jù)挖掘的關聯(lián)規(guī)則技術對現(xiàn)有的教學歷史數(shù)據(jù)進行分析和挖掘,為加強教學過程中的指導性,提高教學質量,為同學們合理調整學習計劃、分配學習時間提供了科學的參考依據(jù)。

        關鍵詞:數(shù)據(jù)挖掘;關聯(lián)規(guī)則;成績預警;大數(shù)據(jù)

        中圖分類號:TP391? 文獻標識碼:A? 文章編號:2096-4706(2023)18-0181-04

        Research on Student Achievement Early Warning Modeling Based on Data Mining

        LI Yanli

        (Ordos Vocational College, Ordos? 017000, China)

        Abstract: With the continuous development of information technology, there is a large amount of data accumulated in the smart campus database system. How to extract valuable and unknown information from the data will be of great significance for improving the quality of teaching management. This paper uses various types of data stored in the smart campus database system as the data source, proposes to establish an interactive and visual student achievement early warning model, and uses the association rule technology of data mining to analyze and mine existing teaching historical data. It provides a scientific reference basis for strengthening guidance in the teaching process, improving teaching quality, and providing students with a reasonable adjustment of learning plans and allocation of learning time.

        Keywords: data mining; association rule; achievement early warning; Big Data

        0? 引? 言

        近年來,學院教務管理系統(tǒng)堆放了海量的學生信息數(shù)據(jù)和學生成績數(shù)據(jù),一卡通系統(tǒng)中堆放了各類的消費數(shù)據(jù)、圖書借閱數(shù)據(jù),以及校園網(wǎng)使用等日志數(shù)據(jù),目前上述的數(shù)據(jù)一般被用于記錄和查詢,或者較簡單的統(tǒng)計分析,而它們隱藏的未知的價值信息還有待于提取和挖掘。本文提出建立一種利用數(shù)據(jù)挖掘技術挖掘基于智慧校園數(shù)據(jù)庫的學生成績預警模型,重點嘗試應用數(shù)據(jù)挖掘中的經(jīng)典關聯(lián)規(guī)則技術對現(xiàn)存的教務數(shù)據(jù)庫數(shù)據(jù)進行分析和挖掘。

        1? 學生成績預警模型

        本文所研究的成績預警模型將被分成數(shù)據(jù)采集處理階段、訓練階段、測試階段以及預警階段四個階段,如圖1所示。

        數(shù)據(jù)采集處理階段:數(shù)據(jù)采集階段將采用ETL 工具采集各類數(shù)據(jù),包括有學生教務系統(tǒng)數(shù)據(jù)、一卡通消費數(shù)據(jù)、圖書館借閱數(shù)據(jù)以及校園網(wǎng)日志數(shù)據(jù),數(shù)據(jù)處理階段從上述數(shù)據(jù)庫中依次提取學生的行為特征,包括科目成績高低、圖書借閱行為次數(shù)、食堂超市消費次數(shù)、上網(wǎng)流量和時長等,并利用數(shù)據(jù)挖掘技術對提取到的這些特征與學生的成績間的相關性分析,提取出影響學生科目成績的關鍵因素。

        訓練階段:預警模型接受學生成績訓練數(shù)據(jù)以及用戶設置的約束項參數(shù)值(支持度、置信度、興趣度),輸出成績預警規(guī)則庫;

        測試階段:輸入學生成績測試數(shù)據(jù),測試成績預警規(guī)則集的準確率,用戶根據(jù)準確率高低,判斷返回訓練階段重新導出規(guī)則庫,或者進入下一步;

        預警階段:用戶通過主觀興趣度約束,選擇目標課程,預警模型從已有規(guī)則庫中篩選出感興趣的規(guī)則集,發(fā)布預警信息。并且預警信息使用具體科目名稱替換了訓練階段的代碼表示,即使普通用戶也能理解。

        1.1? 數(shù)據(jù)采集處理階段

        1.1.1? 數(shù)據(jù)采集

        本預警平臺處理的數(shù)據(jù)來源有一卡通數(shù)據(jù)庫系統(tǒng)、圖書館借閱數(shù)據(jù)庫系統(tǒng)、校園網(wǎng)日志數(shù)據(jù)庫系統(tǒng)以及教務系統(tǒng)成績數(shù)據(jù)庫系統(tǒng)。上述四個數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù)又稱為多源數(shù)據(jù),需進行整合。本文建議采用數(shù)據(jù)倉庫ETL(Extract-Transform-Load)技術進行采集。同時,為了保護學生的個人信息,本文建議使用MD5 加密技術對學生的學號進行加密。數(shù)據(jù)采集階段的主要設計思路如下:

        教務系統(tǒng)的采集字段:學號、性別、年齡、科目、成績;

        一卡通消費數(shù)據(jù)的采集字段:學號、交易金額、交易類型、交易時間;

        圖書借閱數(shù)據(jù)的采集字段:學號、圖書名、圖書ID、借閱日期;

        網(wǎng)絡數(shù)據(jù)采集字段:學號、上線時間、下線時間、流量。

        目前經(jīng)典關聯(lián)規(guī)則的研究對象起源于交易型數(shù)據(jù)庫,挖掘對象屬性需為布爾型數(shù)據(jù)。

        1.1.2? 數(shù)據(jù)處理

        通過ETL技術的應用,已收集到所需的學生各類數(shù)據(jù)信息,不過這些原始數(shù)據(jù)大多都是記錄型數(shù)據(jù),無法直接被利用。需要對原始數(shù)據(jù)進行行為特征的提取,然后再利用機器學習的模型對提取到的特征數(shù)據(jù)信息進行數(shù)據(jù)分析和挖掘,從而得到有價值的數(shù)據(jù)信息。

        目前,教務系統(tǒng)數(shù)據(jù)庫中的成績數(shù)據(jù)一般是數(shù)值數(shù)據(jù)(百分制)或者類別數(shù)據(jù)(五分制)。為滿足挖掘需求,需將成績數(shù)據(jù)轉換為可挖掘的對象。建議可將五分制成績轉換為數(shù)值數(shù)據(jù),再將數(shù)值數(shù)據(jù)統(tǒng)一劃分到對應區(qū)間,即對應類別。通常,這種轉換和統(tǒng)一劃分可能需要涉及科目缺考處理、同一科目多次成績處理、數(shù)據(jù)離散化處理、分制轉換處理以及數(shù)據(jù)集成與更迭處理等過程。最后可將成績劃分為低分、中分、高分三個區(qū)間,如0—75(L),76—85(M),86—100(H)。

        圖書館的價值是學生可借閱或現(xiàn)場閱覽書籍或在圖書館進行自習,由于系統(tǒng)中主要記錄的是借閱圖書信息,現(xiàn)場閱覽信息沒有采集,本文將重點關注以學期為單位的借閱次數(shù),并將借閱頻繁度分為低、中、高三個區(qū)間,作為一個行為特征。

        校園一卡通數(shù)據(jù)庫系統(tǒng)中記錄了學生的各類消費數(shù)據(jù),如食堂吃飯消費、超市消費、打水消費等,這些消費記錄是學生在校生活的記錄。對于該消費數(shù)據(jù),本文將以學期為單位統(tǒng)計學生一學期的食堂消費總金額、超市消費總金額(然后把消費金額轉化為相應的區(qū)間段)和學期總消費次數(shù),作為關注的行為特征。另外,據(jù)觀察,學生是否吃早餐將影響其學習效果,也可將學期內(nèi)的早餐次數(shù)作為一個關注的行為特征。

        校園網(wǎng)日志數(shù)據(jù)中,可將學生的上網(wǎng)時長以及上網(wǎng)流量(需將記錄型數(shù)據(jù)進行離散化處理)作為關注的兩個行為特征。

        1.2? 訓練階段

        作為預警模型最重要的模塊,預警規(guī)則挖掘模塊的具體流程如圖2所示,其中生成頻繁項目集的過程采用了經(jīng)典的Apriori算法。

        支持度、置信度的設置和使用同經(jīng)典的Apriori算法,但在實際使用過程中,我們發(fā)現(xiàn)僅僅使用支持度和置信度作為衡量標準,有時會產(chǎn)生無意義的規(guī)則、規(guī)則集,為避免該情況,本文引入了客觀興趣度約束。目前對于客觀興趣度的度量算法有許多研究,比如Gini指標(Gini Index)、PS公式以及確信度(Conviction)等。本文引入的客觀興趣度RI的計算方法如下:

        RI = (confidence ( X=>Y ) - support ( Y ) )/

        max{confidence ( X=>Y ),support ( Y ) }

        RI計算結果基于挖掘數(shù)據(jù)集中關聯(lián)規(guī)則X=>Y的客觀興趣度,其計算結果在-1和1之間。如果某條規(guī)則RI小于0,則該規(guī)則無意義;如果某條規(guī)則RI大于0,則該規(guī)則有意義,RI值越接近于1,則該規(guī)則的實際使用意義就越大。

        1.3? 測試階段

        測試階段預警規(guī)則準確率判斷標準:

        把采集處理過的數(shù)據(jù)集分為訓練數(shù)據(jù)集(DTraning)和測試數(shù)據(jù)集(DTest)兩部分,R = {r1, r2, …, rn}為預警規(guī)則挖掘模塊計算出的強規(guī)則集。

        測試階段,預警準確率計算方法如下:

        PR (r) = {T:X ∪ Y ? T,T ? DTest}/

        {T:X ? T,T ? DTest}×100%

        其中,PR (r)表示某條關聯(lián)規(guī)則r(X≥Y)的預警準確率,PR (R)表示強規(guī)則集R(R = {r1, r2, …, rn})的預警準確率。

        1.4? 預警階段

        預警階段,本文為進一步精準挖掘對象,把挖掘對象分成有意義的、無意義的兩大類,引入了主觀興趣度約束。具體實施中,本文采用模板匹配的方式來精準尋找用戶感興趣的規(guī)則或規(guī)則集。

        強規(guī)則樣式:x1,x2,x3…=>y1,y2,y3…

        模板樣式:X1,X2,X3…=>Y1,Y2,Y3…

        如果強規(guī)則是模板樣式的實例,則匹配成功;反之則匹配失敗。

        主觀興趣度約束首選選取感興趣的課程,然后逐條檢測規(guī)則X=>Y中是否包含選取的課程(X、Y都需檢測),如果包含則符合條件,反之則舍棄。例如主觀興趣度約束中選用了課程Q1和Q2,那么將產(chǎn)生如下4個模板有待匹配:

        Q1,*=>*;*=>Q1,*;Q2,*=>*;*=>Q2,*(*表示任意一門課程或者包含該課程的組合體)

        在算法實施過程之中,為了提升挖掘效率,規(guī)避規(guī)則的重復挖掘,將對挖掘出的強規(guī)則集逐條匹配生成的模板,匹配模板成功,則導出該規(guī)則,然后開始下一條規(guī)則的匹配;匹配模板失敗,則繼續(xù)匹配下一個模板,若所有模板都匹配失敗,則丟棄該規(guī)則,實施下一條規(guī)則的匹配。

        2? 模型設計與實現(xiàn)

        在模型的實際實現(xiàn)過程中,由于一卡通等數(shù)據(jù)的保密性要求,本文集中采集某學院某系部某級的學生成績,其中一部分作為訓練數(shù)據(jù)集,在訓練階段基于支持度、置信度、客觀興趣度約束的設置挖掘出有意義的強規(guī)則集;另一部分數(shù)據(jù)作為測試數(shù)據(jù)集,對訓練階段挖掘出的強規(guī)則集進行測試,判斷預警模型的準確率高低,驗證該模型的可行性。最后選擇待預警課程,輸出預警信息。圖3為采用VC和SQL server設計并生成的系統(tǒng)主界面,以及通過相應設置生成的預警信息。

        2.1? 規(guī)則數(shù)與準確率分析

        在訓練階段,分別設置minsupp為0.2、0.25、0.3和0.35,設置minconf為0.7、0.8、0.9、0.95,設置RI大于0,表1列舉了在各參數(shù)條件下提取出的強規(guī)則數(shù)目以及基于客觀興趣度約束的規(guī)則數(shù)和相應的準確率。觀察得到,強規(guī)則數(shù)目以及基于RI的規(guī)則數(shù)隨著minsupp、minconf設置的增加而不斷減少,minconf增加到0.9以上后,挖掘出的強規(guī)則集都滿足客觀興趣度約束。

        從表1可以得到,本文所研究的預警模型在上述測試和訓練數(shù)據(jù)源上的預警準確率大于70%。而隨著支持度、置信度設置的不斷提升,最后的準確率可達到92%。觀察又可得到,支持度的設置對預警準確率的影響并不線性,而隨著置信度的不斷提升,預警準確率則呈總體上升趨勢。分析判斷本文在訓練階段挖掘的強規(guī)則集,在測試階段雖然支持度較低,但置信度偏高。

        2.2? 興趣度分析

        圖4是在minsupport = 0.2,minconfidence = 0.7,RI>0時導出的基于興趣度的規(guī)則集,此時minsupport,minconfidence設置均較小,導出的規(guī)則集相對較全面。觀察可發(fā)現(xiàn)興趣度的分布較集中,主要集中于0.1~0.2,其中只有個別規(guī)則達到了0.6。

        因此論文只分析了客觀興趣度大于零的情況,沒有分析其具體變化對規(guī)則集、預警準確率的影響。客觀興趣度代表了規(guī)則前項與規(guī)則后項的相關性,是一種統(tǒng)計意義上的規(guī)則。用戶可以在最后的預警信息發(fā)布階段重點關注興趣度相對較高的規(guī)則集。

        2.3? 體育課程分析

        設置minsupport = 0.2,minconfidence = 0.7,RI>0,由表1可知其預警規(guī)則數(shù)為22,預警準確率為73.1%,并在預警階段只選擇一門課程,圖5是預警課程選擇體育時,最后產(chǎn)生的預警信息。

        觀察此預警信息,我們可以發(fā)現(xiàn)體育的預警信息集中于中間(Middle)成績段,這是因為體育成績的分布較集中,兩端成績較少。一個更重要的發(fā)現(xiàn)是體育相關規(guī)則集的置信度都很低,只有一條規(guī)則的置信度大于80%,而同樣的參數(shù)設置下,其他科目都有達到90%以上甚至100%的置信度。這說明體育與其他科目的相關性都較低,這是由于體育是學生身體素質的體現(xiàn),而其他科目成績是學生的思維、頭腦、學習能力、學習方法等方面的體現(xiàn)。

        3? 結? 論

        本文面向現(xiàn)實需求,提出建立一種利用數(shù)據(jù)挖掘技術挖掘基于智慧校園數(shù)據(jù)庫的學生成績預警模型,重點嘗試應用數(shù)據(jù)挖掘中的經(jīng)典關聯(lián)規(guī)則技術對現(xiàn)存的教務數(shù)據(jù)庫數(shù)據(jù)進行分析和挖掘。根據(jù)實驗所得,文所研究的預警模型在測試和訓練數(shù)據(jù)源上的預警準確率大于70%。而隨著支持度、置信度設置的不斷提升,警準確最高可達到92%。本文重點分析了三種類型的預警規(guī)則,還有很多信息有待挖掘與分析。利用挖掘得到的規(guī)則,找到各學科間的隱藏相關性,從而通過合理安排教學計劃和課程內(nèi)容,達到課程安排合理化,相關學科共同促進、共同提高的目的;通過利用各科目間的相關性、學習知識間的相關性以及學習興趣的可遷移性,促使學生從優(yōu)勢學科著手,提升稍遜一籌的科目,最終達到優(yōu)勢互補、均衡發(fā)展的目的,輔助學院制定更加科學的人才培養(yǎng)方案,改善課程結構,優(yōu)化教學體系,提升學院的人才培養(yǎng)質量。

        不過在實驗過程中也發(fā)現(xiàn),本文挖掘出的預警規(guī)則有時只是一種統(tǒng)計學概念上的規(guī)律,而有些研究者認為明顯不相關的課程卻存在較強的相關性,剖析其根由,或許是上述課程間在思維邏輯、教學方式、自學方法等方面存在相似性??偟亩裕撃P图捌浞椒ㄔ趯嵺`上是有效的。

        參考文獻:

        [1] 蘇新寧,楊建林.數(shù)據(jù)倉庫和數(shù)據(jù)挖掘 [M].北京:清華大學出版社,2006:149.

        [2] 尹茂竹.基于大數(shù)據(jù)的高校學生學業(yè)成績預警分析 [D].天津:天津商業(yè)大學,2018.

        [3] 郭鵬.基于校園一卡通數(shù)據(jù)的學生消費行為與成績的關聯(lián)性研究 [D].楊凌:西北農(nóng)林科技大學,2019.

        [4] 劉云久,徐丹,孫超,等.基于機器學習的水電趨勢預警系統(tǒng)設計 [J].水電站機電技術,2021,44(3):11-13+19+119.

        [5] DATTA S,BOSE S. Mining and ranking association rules in support,confidence,correlation,and dissociation framework [C]//Proceedings of the 4th International Conference on Frontiers in Intelligent Computing:Theory and Applications(FICTA).Springer,2015:141-152.

        作者簡介:李艷麗(1985.12—),女,漢族,湖北鐘祥人,講師,碩士,研究方向:數(shù)據(jù)挖掘、計算機網(wǎng)絡。

        猜你喜歡
        數(shù)據(jù)挖掘大數(shù)據(jù)
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
        電力與能源(2017年6期)2017-05-14 06:19:37
        數(shù)據(jù)挖掘技術在中醫(yī)診療數(shù)據(jù)分析中的應用
        大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉型思路
        新聞世界(2016年10期)2016-10-11 20:13:53
        基于大數(shù)據(jù)背景下的智慧城市建設研究
        科技視界(2016年20期)2016-09-29 10:53:22
        數(shù)據(jù)+輿情:南方報業(yè)創(chuàng)新轉型提高服務能力的探索
        中國記者(2016年6期)2016-08-26 12:36:20
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
        數(shù)據(jù)挖掘的分析與探索
        河南科技(2014年23期)2014-02-27 14:18:43
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        亚洲中文字幕av天堂| 日本免费a一区二区三区| 白白色视频这里只有精品| 豆国产96在线 | 亚洲| 国产精品亚洲二区在线观看| av中文字幕不卡无码| 女同成片av免费观看| 自拍成人免费在线视频| 国产在线精品一区二区三区直播| 伴郎粗大的内捧猛烈进出视频观看| 人妻精品一区二区三区视频| 免费人成网站在线观看| 久久久99精品成人片| 国产精品无码a∨精品影院| 久久99国产亚洲高清| 亚洲人妻av综合久久| 97色伦图片97综合影院| 亚洲av永久无码天堂网小说区| 欧美熟妇色ⅹxxx欧美妇| 一区二区三区内射视频在线观看| 亚洲欧洲日产国码无码av野外| 日韩中文字幕熟女人妻| 国产乱人对白| 狠狠躁夜夜躁无码中文字幕| 亚洲AV秘 无码一区二区在线| 黑人玩弄极品人妻系列视频| 内射人妻少妇无码一本一道| 国产精品厕所| 久久久精品亚洲懂色av| 国产精品一区二区av不卡| 亚洲国产成人片在线观看无码 | 色偷偷av一区二区三区| 麻豆精品久久久久久久99蜜桃| 台湾佬中文偷拍亚洲综合| 丝袜美腿亚洲综合久久| 蜜芽亚洲av无码精品色午夜| 丰满少妇被粗大的猛烈进出视频 | 无码人妻精品一区二区三区夜夜嗨 | 亚洲av不卡一区二区三区| 7878成人国产在线观看| 亚洲无码美韩综合|