付榮華
摘要:通過數(shù)據(jù)挖掘技術(shù)分析各個領(lǐng)域大量數(shù)據(jù)之間的關(guān)系,可以發(fā)現(xiàn)這些記錄中隱藏的學(xué)生學(xué)習(xí)和生活狀態(tài)。該研究開發(fā)了一個綜合分析系統(tǒng),其系統(tǒng)引入了數(shù)據(jù)挖掘技術(shù),包括決策樹算法和關(guān)聯(lián)規(guī)則挖掘算法。通過分析來自農(nóng)村的大學(xué)生圖書館記錄和消費記錄以及農(nóng)村學(xué)生完成的課程成績和心理測試數(shù)據(jù)可以看出,該系統(tǒng)可以挖掘農(nóng)村學(xué)生的生活和學(xué)習(xí)狀態(tài)及其關(guān)聯(lián)性,并將結(jié)果展示出來,可以讓學(xué)?;蚶蠋熂皶r清晰地了解其狀態(tài),有助于更好的教學(xué)。
關(guān)鍵詞:數(shù)據(jù)挖掘;決策樹算法;關(guān)聯(lián)規(guī)則挖掘算法;數(shù)據(jù)庫應(yīng)用
中圖分類號:TP311.13 ? ? ? ? 文獻(xiàn)標(biāo)識碼:A
文章編號:0439-8114(2020)10-0150-004
DOI:10.14088/j.cnki.issn0439-8114.2020.10.035 ? ? ? ? ? 開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):
Absrtact: By using data mining technology to analyze the relationship between these data, The hidden students' learning and living conditions in these records were founded. A comprehensive analysis system was developed, which introduces data mining technology, including decision tree algorithm and association rule mining algorithm. By analyzing the records of college students' libraries and consumption from the countryside, as well as the data of curriculum achievements and psychological tests completed by rural students, the system can excavate the life and learning status of rural students and their correlation, and display the results, so that schools or teachers can understand their status in time and clearly, which is help fulfor better teaching.
Key words: data mining; decision tree algorithm; association rule mining algorithm; database application
數(shù)據(jù)挖掘是數(shù)據(jù)庫中最重要的領(lǐng)域之一,可以從數(shù)據(jù)庫的大量數(shù)據(jù)中揭示出隱含的、先前未知的并且有價值的信息,從而為使用者提供決策幫助[1]。高等教育狀況在很大程度上代表著國家教育的發(fā)展,合理、有效地幫助大學(xué)生完成學(xué)業(yè),對高校教育有著至關(guān)重要的意義。目前,大學(xué)校園都采用校園卡系統(tǒng)進(jìn)行電子化管理,產(chǎn)生大量學(xué)生相關(guān)的學(xué)習(xí)、生活等數(shù)據(jù)[2]。因此,運用數(shù)據(jù)挖掘技術(shù),對大學(xué)生的學(xué)習(xí)、生活等數(shù)據(jù)記錄進(jìn)行分析和挖掘,為學(xué)校管理提供決策輔助,進(jìn)而有效管理大學(xué)生,是當(dāng)前高校教育的一個重要研究方向[3]。
部分研究人員已經(jīng)研究了學(xué)生數(shù)據(jù)之間的部分關(guān)系[4,5],但未從農(nóng)村大學(xué)生這一特殊群體的不同方面進(jìn)行分析,其研究功能模塊是分散的,沒有挖掘?qū)W生的相關(guān)數(shù)據(jù)中存在的關(guān)系,無法發(fā)現(xiàn)學(xué)生(以下學(xué)生特指農(nóng)村大學(xué)生)的學(xué)習(xí)、生活等行為狀態(tài)之間的潛在關(guān)聯(lián)。高校管理系統(tǒng)數(shù)據(jù)庫中的學(xué)生數(shù)據(jù)是全面的,但在研究過程中,研究人員并沒有注意它們之間的關(guān)系。因此,當(dāng)選擇優(yōu)秀的學(xué)生、優(yōu)秀的班長、研究生推薦或貧困學(xué)生時,學(xué)校通常習(xí)慣于手工分析。此外,由于學(xué)業(yè)壓力等問題,部分大學(xué)生容易出現(xiàn)心理問題,學(xué)校老師往往不能及時發(fā)現(xiàn),直到這些學(xué)生發(fā)生嚴(yán)重事件時才能發(fā)覺,從而造成嚴(yán)重的后果。
根據(jù)目前存在的這些缺陷,本研究設(shè)計并實現(xiàn)了一個綜合分析系統(tǒng),該系統(tǒng)記錄了學(xué)生的活動,包括校園購物、餐廳用餐、課程學(xué)習(xí)、圖書館記錄等數(shù)據(jù)。同時,該系統(tǒng)使用決策樹算法和關(guān)聯(lián)規(guī)則挖掘算法來分析系統(tǒng)數(shù)據(jù)庫中的大量數(shù)據(jù),挖掘不同數(shù)據(jù)之間的關(guān)系,發(fā)現(xiàn)其中隱含的有價值信息,為高校管理提供決策支持,從而使得學(xué)??梢愿臃奖?、及時、合理地管理學(xué)生,幫助學(xué)生順利完成學(xué)業(yè)。
1 ?方法論
1.1 ?決策樹算法
決策樹算法是一種近似離散函數(shù)值的方法,基于樹結(jié)構(gòu)來進(jìn)行決策,常用于分類問題[6]。C4.5算法[7]是機(jī)器學(xué)習(xí)中一種重要的分類決策樹算法,是對ID3算法的一種改進(jìn),能夠處理連續(xù)型和離散型數(shù)據(jù)[8-13]。因此,在該系統(tǒng)中,使用C4.5算法分析大學(xué)生的成績得分、心理狀態(tài)和消費情況,構(gòu)建了學(xué)生綜合評價的決策樹。
該算法分類標(biāo)準(zhǔn)基于成績平均分,分為>90分、80~90分、70~80分、60~70分和<60分5個等級。首先,計算學(xué)生成績樣本的信息熵[14],信息熵用于計算信息的期望,如式(1)所示。
式中,Ci代表來自X的信號源,Tj代表來自Y的信號源,P(Ci|Tj)表示Y為Tj且X為Ci時的概率。
H(X)和H(X|Y)的關(guān)系可由式(3)的信息增益給出[15]。
Gain(X|Y)=H(X)-H(X|Y) ?(3)
1.2 ?關(guān)聯(lián)規(guī)則挖掘算法
在該系統(tǒng)中,使用Apriori關(guān)聯(lián)規(guī)則挖掘算法,挖掘數(shù)據(jù)之間的隱含關(guān)聯(lián)[10-12]。該算法引入兩個重要度量,分別為支持度和置信度,支持度表示項目集在數(shù)據(jù)庫中的出現(xiàn)頻率,置信度用來衡量規(guī)則的可信程度。該綜合評價系統(tǒng)的評價結(jié)果根據(jù)這兩個標(biāo)準(zhǔn)給出,由式(4)計算支持度,P(X)表示X出現(xiàn)在D中的概率。
支持度(X)=發(fā)生(X)/計數(shù)(D)=P(X) (4)
然后根據(jù)式(5)計算置信度,P(X|Y)反映了X和Y之間的相關(guān)關(guān)系。
置信度(X→Y)=支持度(X∪Y)/支持度(X)=P(X|Y) ? (5)
2 ?實例應(yīng)用
該系統(tǒng)包括4個功能模塊,分別為得分分析模型、消費分析模型、心理狀態(tài)測試模型、綜合分析模型。得分分析模型用于分析學(xué)生不同學(xué)年的課程得分,消費分析系統(tǒng)記錄學(xué)生的消費情況,心理狀態(tài)測試模型用于分析學(xué)生的心理狀態(tài)變化,綜合分析模型挖掘?qū)W生所有數(shù)據(jù)(課程成績、消費記錄、心理測試)之間的關(guān)聯(lián),發(fā)掘有價值的信息。整體分析系統(tǒng)框架如圖1所示。
運用決策樹算法對學(xué)生的得分、消費屬性和心理狀態(tài)進(jìn)行不同程度的分類;運用關(guān)聯(lián)規(guī)則挖掘算法,發(fā)現(xiàn)數(shù)據(jù)中隱含的信息。通過調(diào)整算法輸入數(shù)據(jù)的屬性、規(guī)模等,兩種算法結(jié)合使用,進(jìn)行多次訓(xùn)練來規(guī)范評估結(jié)果。
2.1 ?決策樹算法在系統(tǒng)中的應(yīng)用
第一個功能模型是得分分析,如圖2所示,它對每個學(xué)生的所有課程分?jǐn)?shù)進(jìn)行分析,使用決策樹算法構(gòu)建分類模型,并在一個學(xué)生的不同課程中獲得規(guī)律性。例如,如果一個學(xué)生擅長操作系統(tǒng),那么他有很大可能也擅長數(shù)據(jù)庫理論;如果一個學(xué)生在第一年、第二年和第三年表現(xiàn)良好,那么其畢業(yè)設(shè)計也會表現(xiàn)良好。從數(shù)據(jù)庫中根據(jù)需求抽取數(shù)據(jù)集合,計算每個學(xué)生X的信息熵H(X),其度量X的不確定性;然后計算條件熵H(X|Y),其度量Y在以后X剩下的不確定性;最后根據(jù)信息熵和條件熵計算信息增益,其度量X在Y以后不確定性的減少程度。根據(jù)信息增益來判斷當(dāng)前節(jié)點應(yīng)該選取什么特征來構(gòu)建決策樹,信息增益越大,越適合用于分類。
決策樹以表示樣本的單個節(jié)點開始,構(gòu)建決策樹的算法過程如下:
①如果樣本已存在于同一類別中,則此節(jié)點是標(biāo)記為此類別的葉節(jié)點。
②否則,它將自動生成節(jié)點,該節(jié)點選擇占據(jù)大部分屬性的節(jié)點。
③經(jīng)過分析和總結(jié),樣本信息分為多個組。每個分支節(jié)點都可以獲取其子集的值,每個子集對應(yīng)一個分支。對于最后一步的每個子集,重復(fù)該過程;然后,它將為每個樣本生成一個決策樹。
④一旦某種屬性出現(xiàn)在一個節(jié)點中,就不需要考慮它的后代。
當(dāng)滿足以下條件時,該算法將停止:
①節(jié)點的所有樣本屬于同一類別。
②沒有用于劃分的左側(cè)屬性。在這種情況下,樹的節(jié)點將在分析和結(jié)束后更新,并且它可以自動生成標(biāo)記有具有最多元素的類別的葉節(jié)點。
③如果一個分支沒有滿足這個現(xiàn)有類別的樣本,它將構(gòu)建一個葉子節(jié)點,其中樣本具有多數(shù)類。
2.2 ?關(guān)聯(lián)規(guī)則算法在系統(tǒng)中的應(yīng)用
使用關(guān)聯(lián)規(guī)則算法,首先找出所有頻繁項集,采用支持度作為衡量標(biāo)準(zhǔn);然后由頻繁項集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則,采用置信度作為衡量標(biāo)準(zhǔn);最后,根據(jù)關(guān)聯(lián)規(guī)則來支持系統(tǒng)在選擇優(yōu)秀學(xué)生、優(yōu)秀班長、研究生推薦和貧困學(xué)生時的決策?;贏priori[13]算法,實現(xiàn)方法如下:
①在數(shù)據(jù)庫中構(gòu)建學(xué)生分?jǐn)?shù)、消費情況、心理測試狀態(tài)和圖書館記錄的初始化集合。
②計算不同數(shù)據(jù)集合下的置信度,并給出在規(guī)則庫中構(gòu)建的關(guān)聯(lián)規(guī)則。
③如果學(xué)生的置信度滿足設(shè)置的閾值,那么該學(xué)生將成為候選人。
整體實現(xiàn)思路如圖3所示。
2.3 ?兩種算法的融合
這兩種算法都有解決特定問題的優(yōu)點,將它們引入本系統(tǒng)中,利用各自的優(yōu)勢。分析學(xué)生得分時,使用決策樹算法構(gòu)建分類模型;然后,結(jié)合關(guān)聯(lián)規(guī)則算法分析學(xué)生的消費情況和心理狀態(tài),發(fā)現(xiàn)關(guān)聯(lián)信息,分析過程如圖4所示。
式中,i.score(X)表示學(xué)生X的課程i的得分,
H(X)反映學(xué)生X得分的穩(wěn)定性,M(X)表示平均表型值。如果該學(xué)生只是一個新生,則將平均表型值M(X)根據(jù)式(6)計算;如果該學(xué)生是二年級學(xué)生,則按照式(7)計算;以類似的方式,如果該學(xué)生是三年級學(xué)生,將使用式(8)計算;只有當(dāng)該學(xué)生是畢業(yè)年級學(xué)生時才會采用式(9)。
因此,根據(jù)學(xué)生X的H(X)可以掌握學(xué)生X的學(xué)習(xí)狀態(tài)。如果H(X)變低,則可以使用第二個核心模型——心理狀態(tài)測試模型,通過心理測試分析,可以得知學(xué)生得分不佳的原因。
2.3.2 ?心理狀態(tài)測試模型分析 ? 該模型包括8個部分,每個部分都有許多測試主題,這些主題由系統(tǒng)從問題數(shù)據(jù)庫自動生成(圖5)。這個問題數(shù)據(jù)庫由權(quán)威健康心理問題構(gòu)成,并能夠及時更新[14]。選擇Highcharts[9,15]技術(shù)顯示來自學(xué)生測試的結(jié)果,包括直線圖、柱狀圖、餅狀圖等圖表類型,可以根據(jù)需要選擇合適的圖表,來清晰、準(zhǔn)確地展示測試分析結(jié)果。根據(jù)式(10)計算分析結(jié)果總值。
Zx=w1Z1+w2Z2+w3Z3+…+w8Z8 ?(10)
式中,wi表示分別來自8個部分的受試者的數(shù)量,Zi表示受試者所占的比例。通過測試分析,可以掌握學(xué)生的動態(tài)心理。如果學(xué)生出現(xiàn)一些嚴(yán)重的心理疾病,如抑郁癥,根據(jù)分析結(jié)果,學(xué)?;蚶蠋熆梢约皶r發(fā)現(xiàn),并給予幫助。如果學(xué)生的心理狀態(tài)是正確的,還可以檢查他進(jìn)出圖書館的記錄。如有必要,也可以檢查其消費記錄。
2.3.3 ?優(yōu)秀學(xué)生選拔算法 ?該模型包括選拔優(yōu)秀學(xué)生、優(yōu)秀班長、研究生推薦和貧困學(xué)生。首先,建立模型需要的標(biāo)準(zhǔn)值,并從分?jǐn)?shù)數(shù)據(jù)庫中獲得平均表型值、消費價值和心理健康價值數(shù)據(jù)。然后,將數(shù)據(jù)源構(gòu)建為(Y)數(shù)據(jù)集合(表1)。在綜合分析系統(tǒng)中,該部分的每個功能模型都有各自的規(guī)則。因此,做不同選擇時應(yīng)該使用不同的規(guī)則算法。
選擇優(yōu)秀學(xué)生時,應(yīng)考慮兩個因素,包括一個學(xué)生的平均表型值和得分信息熵;選擇優(yōu)秀班長及他或她是否是班長時,將需要考慮額外的因素;選擇貧困學(xué)生,授予貧困學(xué)生獎學(xué)金時,同時需要參考消費價值、心理健康價值和圖書館地位信心價值數(shù)據(jù),進(jìn)行綜合分析;同時,該算法也適用于研究生推薦的選擇。算法過程如下。
1)優(yōu)秀學(xué)生選拔算法。輸入:每個學(xué)生的(X)和Hi(X),i取值1到n;輸出:學(xué)生設(shè)置Z1。
①過濾數(shù)據(jù), 篩選同一班級中每個學(xué)生的Hi(X)和Mi(X);
②將所有學(xué)生的M(X)組從大到小排序;
③如果不止一個學(xué)生的相同值等于Mi(X),則這些具有相同價值的學(xué)生Mi(X)屬于一組S(X);
④將S(X)中所有學(xué)生的Hi(X)從小到大排序; 隊列的頂部屬于Z1。
2) 貧困學(xué)生的選擇算法。輸入:Hi(X)、Mi(X)、PS(X)、C(X)和S(X);輸出:學(xué)生設(shè)置Z3。
①為Mi(X)設(shè)置閾值T,如75,根據(jù)T過濾學(xué)生;
②通過基于Hi(X)和Mi(X)的上述算法,得到隊列 Z1′;
③對Z1′中所有學(xué)生的數(shù)據(jù)C(X)進(jìn)行排序,然后按照從小到大的順序存儲在隊列R1中;
④為C(X)設(shè)置閾值C,根據(jù)Z1′過濾學(xué)生,小于C的學(xué)生分類為Z2′;
⑤對Z2′中所有學(xué)生的數(shù)據(jù)PS(X)進(jìn)行排序,然后按順序從大到小存儲在隊列R2中;
⑥對Z2′中所有學(xué)生的數(shù)據(jù)S(X)進(jìn)行排序,然后按照從大到小的順序存儲在隊列R3中;
⑦對Z2′中所有學(xué)生的數(shù)據(jù)H((PS(X),S(X))|(C(X),M(X),H(X))進(jìn)行排序,然后按從小到大順序存儲在Z3中。
3 ?小結(jié)
本研究提出了一種高等教育學(xué)校選擇特殊學(xué)生,輔助教育管理的特征選擇方法,并實現(xiàn)了一個綜合分析系統(tǒng)。首先,將數(shù)據(jù)庫中數(shù)據(jù)進(jìn)行預(yù)處理,根據(jù)需求將數(shù)據(jù)抽取為指定格式。然后,通過決策樹算法和關(guān)聯(lián)規(guī)則算法進(jìn)行挖掘分析,發(fā)現(xiàn)數(shù)據(jù)中潛在關(guān)聯(lián)和有價值信息,并將分析結(jié)果通過圖表展示出來,清晰地提供給學(xué)?;蚶蠋?。系統(tǒng)實施后表明,該系統(tǒng)對大學(xué)生管理和學(xué)習(xí)生活的重大改進(jìn)提供了極大幫助。學(xué)校或老師可以掌握每個學(xué)生的學(xué)習(xí)狀態(tài)、心理活動等信息。如,如果某個學(xué)生的研究被拒絕,可以得到該學(xué)生的圖書館記錄和信息熵,以了解他是否變得懶散;或者該學(xué)生是否存在過多娛樂性的消費記錄;通過心理健康測試分析,了解該學(xué)生是否出現(xiàn)心理方面的消極變化。綜上可知,該系統(tǒng)可以發(fā)掘?qū)W生學(xué)習(xí)、生活、活動的潛在關(guān)聯(lián),輔助學(xué)校或老師的管理決策,從而更加有效、合理地管理學(xué)生的學(xué)習(xí)和生活。
參考文獻(xiàn):
[1] 楊茂青,謝健民,秦 ?琴,等.基于RF算法的突發(fā)事件網(wǎng)絡(luò)輿情演化預(yù)測分析[J].情報科學(xué),2019,37(7):95-100.
[2] 吳 ?蓓.基于決策樹算法的成績預(yù)測模型研究及應(yīng)用[D].西安:西安理工大學(xué),2019.
[3] 尹 ?儒,門昌騫,王文劍.一種模型決策森林算法[J].計算機(jī)科學(xué)與探索,2020,14(1):108-116.
[4] 胡明明.決策樹算法在學(xué)生課程成績分析中的應(yīng)用研究[D].哈爾濱:哈爾濱師范大學(xué),2019.
[5] 謝霖銓,徐 ?浩,陳希邦,等.基于PCA的決策樹優(yōu)化算法[J].軟件導(dǎo)刊,2019(9):75-77,82.
[6] 張小奇.基于決策樹算法的教學(xué)管理數(shù)據(jù)分析[J].青島大學(xué)學(xué)報(自然科學(xué)版),2019,32(2):86-94.
[7] 劉 ?亮.基于數(shù)據(jù)挖掘的銀行客戶評級系統(tǒng)設(shè)計與實現(xiàn)[D].石家莊:河北科技大學(xué),2019.
[8] 南小琴,張 ?澤,印彩霞,等.基于決策樹算法的棉花產(chǎn)量預(yù)測研究[J].農(nóng)村科技,2019(1):29-35.
[9] 李 ?云.大數(shù)據(jù)分析技術(shù)及其在貧困生幫扶工作中的應(yīng)用研究[D].貴陽:貴州大學(xué),2018.
[10] 武善鋒,陸 ?霞.基于決策樹算法的體育課程分析與管理系統(tǒng) ? ? 設(shè)計[J].現(xiàn)代電子技術(shù),2019,42(3):131-133,138.
[11] 潘 ?燕.決策樹算法在高職院校課程關(guān)聯(lián)分析中的應(yīng)用研究[J].現(xiàn)代信息科技,2019,3(2):151-153.
[12] 卜 ?陽.數(shù)據(jù)挖掘決策樹技術(shù)在高職教學(xué)質(zhì)量評價中的應(yīng)用[J].湖北開放職業(yè)學(xué)院學(xué)報,2018,31(21):32-34.
[13] 尹 ?儒,門昌騫,王文劍,等.模型決策樹:一種決策樹加速算法[J].模式識別與人工智能,2018,31(7):643-652.
[14] 陰亞芳,孫朝陽.決策樹算法在實踐教學(xué)中的應(yīng)用研究[J].計算機(jī)與數(shù)字工程,2018,46(6):1078-1082,1088.
[15] 朱瑞瑞.基于改進(jìn)決策樹算法的績效測評應(yīng)用研究[D].合肥:安徽大學(xué),2018.