馬艷麗,曹燕燕,董蓓蓓,鄭 偉
(1.河北北方學(xué)院信息科學(xué)與工程學(xué)院,河北張家口075000;2.河北北方學(xué)院理學(xué)院,河北張家口075000)
大學(xué)培養(yǎng)的人才,應(yīng)是新知識(shí)的創(chuàng)造者、新技術(shù)的發(fā)明者、新學(xué)科的創(chuàng)建者.然而隨著高等教育規(guī)模的快速擴(kuò)大,大學(xué)生間的差異也越來(lái)越大,在學(xué)習(xí)方面的表現(xiàn)尤其明顯.不少學(xué)生已形成了漠視學(xué)習(xí)、被動(dòng)學(xué)習(xí)、機(jī)械學(xué)習(xí)等不良習(xí)慣,致使學(xué)習(xí)成績(jī)每況愈下.因此,通過(guò)對(duì)學(xué)生的成績(jī)進(jìn)行分析及更近一步的數(shù)據(jù)挖掘[1],找出影響學(xué)生學(xué)習(xí)的因素,提出解決策略,才能更好地進(jìn)行教學(xué)和培養(yǎng)出合格人才.目前,對(duì)影響學(xué)生成績(jī)因素分析的方法基本上是基于抽樣問(wèn)卷調(diào)查與數(shù)據(jù)簡(jiǎn)單統(tǒng)計(jì)[2,3]、概率統(tǒng)計(jì)學(xué)分析法[4-6],前者方法比較簡(jiǎn)單,不能挖掘出數(shù)據(jù)之間的聯(lián)系;后者方法需要一些數(shù)據(jù)附加信息或者先驗(yàn)知識(shí),而這些知識(shí)又不容易得到,指標(biāo)體系過(guò)于繁瑣,很多數(shù)據(jù)難以收集,因此推廣應(yīng)用較困難.本文提出了一種基于粗糙集數(shù)據(jù)信息處理的影響學(xué)習(xí)因素分析方法.此項(xiàng)研究是粗糙集理論在學(xué)生成績(jī)數(shù)據(jù)處理中的一種應(yīng)用,目的是更快更好地做出選擇與決策,對(duì)提高大學(xué)生學(xué)習(xí)質(zhì)量具有很大的實(shí)際意義.
粗糙集理論已經(jīng)應(yīng)用到了教學(xué)領(lǐng)域[7,8],基于粗糙集理論的優(yōu)勢(shì),把這項(xiàng)技術(shù)應(yīng)用到教學(xué)改革中,所做的工作的不同點(diǎn)在于 (1)采用的基于屬性重要度的屬性分析比較方式區(qū)別于規(guī)則提取;(2)決策表中的屬性值為3值.采用問(wèn)卷調(diào)查的方法,結(jié)合學(xué)生人數(shù)按百分比進(jìn)行調(diào)研,分別對(duì)河北北方學(xué)院物理學(xué)專(zhuān)業(yè)4個(gè)年級(jí)的學(xué)生進(jìn)行了問(wèn)卷調(diào)查,學(xué)生的選取原則是取成績(jī)排名居前和居后各5名,發(fā)放調(diào)查問(wèn)卷40份,回收有效問(wèn)卷40份,回收率為100%.根據(jù)收集到的眾多相關(guān)信息,建立了學(xué)習(xí)質(zhì)量與影響因素映射系統(tǒng),利用粗糙集屬性重要度約簡(jiǎn)找出影響學(xué)習(xí)效果的關(guān)鍵因素,具體步驟包括:
對(duì)不同年級(jí)物理學(xué)專(zhuān)業(yè)的40個(gè)大學(xué)生進(jìn)行問(wèn)卷調(diào)查,將影響因素和學(xué)生類(lèi)別看成屬性時(shí),即得到一個(gè)知識(shí)庫(kù),用賦權(quán)值來(lái)描述屬性,對(duì)大學(xué)生學(xué)習(xí)成績(jī)的影響較大的因素賦權(quán)值為2,對(duì)認(rèn)為大學(xué)生學(xué)習(xí)成績(jī)影響一般的因素賦權(quán)值為1,對(duì)大學(xué)生學(xué)習(xí)成績(jī)沒(méi)有影響的因素賦權(quán)值為0,這樣就形成了原始數(shù)據(jù)的一種知識(shí)庫(kù)表達(dá).T1,T2,…,T10為知識(shí)庫(kù)的條件屬性,在條件屬性的選取中我們借鑒了其他學(xué)者文章的一些經(jīng)驗(yàn)、成果[3,9],同時(shí)根據(jù)教師在教學(xué)過(guò)程中收到的學(xué)生信息反饋,確定了 T1-T10,其分別代表學(xué)習(xí)興趣、努力程度、學(xué)習(xí)方法、智力因素、性格興趣因素、基礎(chǔ)知識(shí)、教師水平及教學(xué)方法、學(xué)習(xí)氛圍、所處學(xué)校軟硬件條件、家庭經(jīng)濟(jì)因素.D為知識(shí)庫(kù)的決策屬性,即大學(xué)生學(xué)習(xí)成績(jī)的高低,以學(xué)生綜合成績(jī)排名為標(biāo)準(zhǔn),分別取前五名及后五名進(jìn)行調(diào)研,成績(jī)相對(duì)較好的用類(lèi)別符號(hào)1表示,成績(jī)相對(duì)較差的用類(lèi)別符號(hào)2表示.將每一類(lèi)中的所有實(shí)例的集合作為論域,每個(gè)實(shí)例作為論域中的對(duì)象,成績(jī)影響因素集作為條件屬性集,即各影響因素為條件屬性,學(xué)生成績(jī)作為決策屬性,決策屬性值受成績(jī)好壞的決定.這樣就得到如表1所示的決策表.
表1 決策表
對(duì)屬性重要性標(biāo)定指的是在減去該屬性后觀察分類(lèi)的變化,若變化大則說(shuō)明該屬性重要.反之則說(shuō)明該屬性的重要性低,具體的標(biāo)定步驟如下[10]:
1)計(jì)算出二維決策表中決策屬性D相對(duì)于條件屬性C的正域Posc(D):
決策屬性D相對(duì)于條件屬性C的正域表示的是:根據(jù)分類(lèi)信息U/C的信息可以準(zhǔn)確地劃分到?jīng)Q策屬性D的等價(jià)類(lèi)中的實(shí)例集合.如果劃分完全的話(huà),應(yīng)該是整個(gè)實(shí)例集.
3)根據(jù)粗糙集中的依賴(lài)度函數(shù):
card指求集合的基數(shù).K=1,說(shuō)明決策屬性D完全依賴(lài)于條件屬性C;K<1,說(shuō)明決策屬性D部分依賴(lài)于條件屬性C;K=0.說(shuō)明決策屬性D完全不依賴(lài)于條件屬性C.將這個(gè)公式運(yùn)用到我們的條件屬性計(jì)算中,可以知道決策屬性D對(duì)條件屬性C的依賴(lài)程度是U中所有根據(jù)分類(lèi)C的信息可以準(zhǔn)確地劃分到?jīng)Q策屬性D的等價(jià)類(lèi)中的實(shí)例個(gè)數(shù)與整個(gè)實(shí)例集的個(gè)數(shù)之比,理想情況下應(yīng)該是1.
4)對(duì)于二維決策表中每一個(gè)屬性ti,我們可以計(jì)算出它對(duì)決策屬性D的重要性 IMti(D):IMti(D)=rc(D)-rc-{ti}(D)
rc(D)表示決策屬性D對(duì)條件屬性C的依賴(lài)程度,rc-{ti}(D)指在條件屬性C中去掉屬性ti后,決策屬性D對(duì)條件屬性C的依賴(lài)程度.IMti(D)的值越大,說(shuō)明屬性ti對(duì)分類(lèi)的重要性越大,如IMti(D)=0則說(shuō)明屬性ti對(duì)分類(lèi)不起作用,應(yīng)刪除.
在上面對(duì)屬性重要性標(biāo)定的基礎(chǔ)上,生成一個(gè)屬性及其重要性的二元組向量:
I=((t1,IMt1),(t2,IMt2),……….(tn,IMtn))
對(duì)屬性的約簡(jiǎn)可以通過(guò)以下兩步實(shí)現(xiàn):[11]
1)將這個(gè)二元組按照IMti進(jìn)行排序,刪除IMti=0的屬性.因?yàn)樗鼘?duì)文本分類(lèi)不起作用.
2)設(shè)定一個(gè)δ值,刪除IMti<δ的所有屬性.主要目的是刪除一些對(duì)分類(lèi)不大重要的屬性.從而減少了樣本訓(xùn)練階段產(chǎn)生規(guī)則的時(shí)間.在本文實(shí)驗(yàn)中設(shè)δ=0.由于本文對(duì)數(shù)據(jù)處理無(wú)需離散化,于是屬性約簡(jiǎn)的實(shí)現(xiàn)借助了基于Java語(yǔ)言的跨平臺(tái)粗糙集平臺(tái)分析工具M(jìn) yRS[11],如下圖:
圖1 實(shí)驗(yàn)過(guò)程及結(jié)果部分截圖
通過(guò)計(jì)算得到十個(gè)條件屬性的屬性重要度:
attribute5=0.149999999999,attribute9=0.149999999999,attribute2=0.0499999999999,attribute4=0.0499999999999,attribute7=0.0499999999999,attribute6=0.0,attribute8=0.0,attribute10=0.0,attribute1=0.0,attribute3=0.0,
經(jīng)過(guò)排序得到:5=9>2=4=7>1=3=6=8=10
由以上結(jié)果可知,性格興趣因素以及學(xué)校的軟硬件條件對(duì)被調(diào)查學(xué)生的學(xué)習(xí)有較大的影響,家庭經(jīng)濟(jì)因素、基礎(chǔ)知識(shí)、教師水平等基本無(wú)影響或影響不大.由此分析,對(duì)于此年齡段的學(xué)生應(yīng)該將學(xué)習(xí)的動(dòng)機(jī)建立在個(gè)人興趣的基礎(chǔ)上,因此應(yīng)當(dāng)加強(qiáng)思想引導(dǎo),繼續(xù)并深入進(jìn)行職業(yè)生涯規(guī)劃,讓學(xué)生明確自己興趣、愛(ài)好的優(yōu)劣勢(shì),在學(xué)習(xí)上做到有的放矢;在教育者方面,分析的結(jié)果說(shuō)明學(xué)生的學(xué)習(xí)較大地受到了學(xué)校教學(xué)條件的促進(jìn)或限制.所以,對(duì)教學(xué)條件的提高工作仍需加強(qiáng),如加大專(zhuān)項(xiàng)資金投入和落實(shí),加強(qiáng)校園文化建設(shè).
粗糙集理論在數(shù)據(jù)挖掘和屬性約簡(jiǎn)中起著重要作用,已經(jīng)應(yīng)用到了教學(xué)領(lǐng)域,下一步將擴(kuò)大問(wèn)卷調(diào)查學(xué)生的人數(shù),實(shí)現(xiàn)多學(xué)院的數(shù)據(jù)統(tǒng)計(jì),繼續(xù)收集影響學(xué)生學(xué)習(xí)成績(jī)的因素,利用該屬性約簡(jiǎn)技術(shù)找到影響學(xué)生成績(jī)的核心因素,更好地推進(jìn)學(xué)校的教學(xué)改革工作,為社會(huì)培養(yǎng)更多的合格人才.
[1] 張文修,吳偉志,梁吉業(yè),等.粗糙集理論與方法 [M].北京:科學(xué)出版社,2001:2-25
[2] 郭秋蘭,許衛(wèi)軍.影響學(xué)生學(xué)習(xí)成績(jī)自身因素的調(diào)查與分析 [J].衛(wèi)生職業(yè)教育,2004,22(3):84-85
[3] 滕文芳.家庭因素對(duì)學(xué)生學(xué)習(xí)成績(jī)的影響 [J].時(shí)代人物·理論探討,2008,(5):157-159
[4] 王俊紅,樊順厚,鄧一泉.影響學(xué)生學(xué)習(xí)成績(jī)因素的探究與分析 [J].天津工業(yè)大學(xué)學(xué)報(bào),2007,26(6):86-88
[5] 金秀巖.應(yīng)用統(tǒng)計(jì)分析評(píng)價(jià)影響學(xué)生學(xué)習(xí)成績(jī)的諸因素 [J].武漢科技學(xué)院學(xué)報(bào),2007,26(6):86-88
[6] 申正一.影響學(xué)生學(xué)習(xí)成績(jī)諸因素之統(tǒng)計(jì)分析 [J].延邊教育學(xué)院學(xué)院,2005,19(3):7-10
[7] 薛軍,施雨辰.大學(xué)生學(xué)習(xí)效果影響因素的粗糙集分析 [J].上海應(yīng)用技術(shù)學(xué)院學(xué)報(bào),2007,7(3):76-178
[8] 高麗紅.基于粗糙集理論的大學(xué)生學(xué)習(xí)成績(jī)影響因素分析 [J].科學(xué)技術(shù)與工程,2007,7(4):521-524
[9] 馬永紅,趙雪梅.大學(xué)生專(zhuān)業(yè)學(xué)習(xí)興趣激發(fā)的探討 [J].遼寧工業(yè)大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2008,10(6):99-101
[10] 鄭偉,馬艷麗.一種基于粗糙集理論的特征選擇方法 [J].河北北方學(xué)院學(xué)報(bào):自然科學(xué)版,2009,25(1):56-59
[11] 王杰亮.粗糙集工具M(jìn) yRS的設(shè)計(jì)與實(shí)現(xiàn) [J].北京師范大學(xué)學(xué)報(bào):自然科學(xué)版,2007,43(5):505-507
河北北方學(xué)院學(xué)報(bào)(自然科學(xué)版)2011年4期