摘要:大學(xué)生困難等級(jí)認(rèn)定是教育扶貧中的一個(gè)重要環(huán)節(jié),為避免認(rèn)定過(guò)程過(guò)于主觀而缺乏科學(xué)性,將模糊C均值聚類(lèi)算法應(yīng)用于學(xué)生信息數(shù)據(jù)的分析.首先對(duì)實(shí)驗(yàn)數(shù)據(jù)規(guī)格化,結(jié)合5個(gè)評(píng)定指標(biāo),建立模糊相似矩陣;然后采用模糊聚類(lèi)分析的方法計(jì)算其傳遞閉包,得到模糊等價(jià)矩陣;最后按照等級(jí)認(rèn)定要求加經(jīng)驗(yàn)法檢查分類(lèi)結(jié)果的有效性.結(jié)果表明:使用模糊C均值聚類(lèi)在完成大學(xué)生困難等級(jí)認(rèn)定是可行的,能為實(shí)現(xiàn)教育精準(zhǔn)扶貧提供參考依據(jù).
關(guān)鍵詞:困難認(rèn)定;模糊聚類(lèi);隸屬度;聚類(lèi)分析;FCM算法;聚類(lèi)有效性
中圖分類(lèi)號(hào):TP31 文獻(xiàn)標(biāo)志碼:A
Application of Fuzzy C-Means Clustering Algorithmin Identification of Student Poverty Level
LIU Xiao-na WANG Kai XU Yan-qiang
(1.School of Digital Media, Lanzhou University of Arts and Science, Lanzhou 730000, China;2.Audit Office, Lanzhou University of Arts and Science, Lanzhou 730000, China;
3.Department of Computer Science, Lanzhou Institute of Technology, Lanzhou 730050, China)
Abstract:The identification of college students’ poverty level is an important part of education poverty alleviation. In order to avoid the subjective and unscientific identification process, the fuzzy C-means clustering algorithm is applied to the analysis of student information data. Firstly, the experimental data are normalized. Secondly, the fuzzy similarity matrix is established by combining five evaluation indexes. Then the fuzzy cluster analysis method is used to calculate the transitive closure, and the fuzzy equivalent matrix is obtained. Finally, the validity of the classification results is checked by the empirical method according to the grade identification requirements. The results show that the use of fuzzy C-means clustering in the completion of college students’ poverty level identification of ten stars can provide a reference for the realization of targeted poverty alleviation in education.
Key words:poverty identification; fuzzy clustering; subordinate degree; cluster analysis; FCM algorithm; clustering validity
經(jīng)過(guò)全黨、全國(guó)各族人民共同努力,在2021年全國(guó)脫貧攻堅(jiān)總結(jié)表彰會(huì)議上,我國(guó)已正式宣布完成了消除絕對(duì)貧困的艱巨任務(wù)[1].在脫貧攻堅(jiān)任務(wù)中,教育脫貧攻堅(jiān)是非常重要的一個(gè)方面,在今后需要進(jìn)一步借助各種可行的信息技術(shù)手段,繼續(xù)鞏固好脫貧攻堅(jiān)成果.各高校對(duì)困難同學(xué)的幫扶金額和資助人數(shù)在逐年增加,如何用好這筆經(jīng)費(fèi),如何讓資金發(fā)放到真正生活困難的同學(xué),就需要做好家庭經(jīng)濟(jì)困難學(xué)生的認(rèn)定.
目前,在校大學(xué)生經(jīng)濟(jì)困難認(rèn)定的主要依據(jù)是大學(xué)生在校期間的校園消費(fèi)情況、學(xué)生填報(bào)的家庭經(jīng)濟(jì)狀況信息以及相關(guān)貧困證明.整個(gè)過(guò)程存在著較大的人為因素,并且評(píng)定數(shù)據(jù)全公開(kāi),會(huì)造成學(xué)生的隱私泄露,也容易造成評(píng)定人員與被認(rèn)定學(xué)生之間的矛盾,評(píng)定過(guò)程缺乏科學(xué)性、合理性.選取恰當(dāng)、高效、可行的算法,可采用信息手段,對(duì)高校生的困難信息進(jìn)行定量分析,減少人工干預(yù),對(duì)于建立科學(xué)合理的精準(zhǔn)資助管理體系具有重要作用.
當(dāng)前已經(jīng)有較多的算法模型來(lái)評(píng)估學(xué)生的經(jīng)濟(jì)水平.王澤原等采用隨機(jī)樹(shù)來(lái)對(duì)判定和分析經(jīng)濟(jì)困難學(xué)生的貧困等級(jí)[3],李斌等提出改進(jìn)的貝葉斯算法來(lái)進(jìn)行優(yōu)化分類(lèi)[4].上述研究主要對(duì)困難學(xué)生進(jìn)行了定性判斷,適用于數(shù)據(jù)值差別比較大的情況,且能達(dá)到較好的分類(lèi)效果.但在西北高校中,大部分學(xué)生均來(lái)自于經(jīng)濟(jì)不發(fā)達(dá)地區(qū),某些數(shù)據(jù)如家庭收入和負(fù)擔(dān)人口數(shù)取值比較接近,數(shù)值差別不大,上述算法就不適用.因此,本文采用FCM(Fuzzy C-Means),即模糊C-均值聚類(lèi)算法,對(duì)學(xué)生的家庭困難程度進(jìn)行評(píng)價(jià).在考慮簇內(nèi)緊湊度的基礎(chǔ)上,利用歐幾里得距離,采用方差的方式擴(kuò)大簇間的分離度,同時(shí)還結(jié)合經(jīng)典的有效性指標(biāo),考慮數(shù)據(jù)樣本簇之間的樣本結(jié)合問(wèn)題.最后對(duì)評(píng)價(jià)結(jié)果進(jìn)行了經(jīng)濟(jì)困難層級(jí)分析,并對(duì)認(rèn)定級(jí)別進(jìn)行了可用性研究.
1 模糊聚類(lèi)分析方法
2 基于模糊聚類(lèi)分析的困難等級(jí)認(rèn)定過(guò)程
選擇合適的隱私保護(hù)技術(shù),可以有效衡量和評(píng)價(jià)對(duì)隱私信息的保護(hù)程度,可對(duì)資助學(xué)生信息表中數(shù)據(jù)按特征和應(yīng)用需求來(lái)使用.一般按照2個(gè)條件對(duì)數(shù)據(jù)進(jìn)行選擇:①簇內(nèi)數(shù)據(jù)的相異度最小,達(dá)到聚類(lèi)的目標(biāo)函數(shù);②所選數(shù)據(jù)帶來(lái)的信息丟失量最小[6].
2.1 困難認(rèn)定數(shù)據(jù)的獲取
高校的大學(xué)生生活困難等級(jí)認(rèn)定工作必須要堅(jiān)持政策性,其一表現(xiàn)在確定等級(jí)時(shí)必須堅(jiān)持公開(kāi)、公平、公正的原則;其二表現(xiàn)在需要同時(shí)考慮堅(jiān)持原則與重點(diǎn)幫扶指標(biāo)的有機(jī)結(jié)合,如當(dāng)年發(fā)生洪災(zāi)、泥石流等重大突發(fā)災(zāi)害的情況,需要提升認(rèn)定等級(jí),以實(shí)現(xiàn)困難認(rèn)定的扶困、助急特性[7].
在聚類(lèi)分析中,大學(xué)生生活困難水平的認(rèn)定,本質(zhì)上就是一種聚類(lèi)排名的工作.模糊C-均值聚類(lèi)算法的排名就是在數(shù)據(jù)集中虛設(shè)一個(gè)初始值M,對(duì)數(shù)據(jù)集中的每個(gè)數(shù)據(jù)來(lái)說(shuō),按照與該虛擬初始值聚為一類(lèi)的先后次序即可確定排名次序[8].越先聚為一類(lèi),則其困難等級(jí)越高,其等級(jí)通常分為特別困難、困難和一般困難3類(lèi),對(duì)不同等級(jí),采用不同的幫扶政策來(lái)實(shí)現(xiàn)精準(zhǔn)幫扶.
3 基于模糊C-[KG-*3]均值聚類(lèi)方法的數(shù)據(jù)分析
3.1 數(shù)據(jù)結(jié)果分析
3.2 實(shí)驗(yàn)效率分析
當(dāng)數(shù)據(jù)量增大時(shí),按照本文需求,對(duì)集群內(nèi)隨機(jī)100個(gè)節(jié)點(diǎn)進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)軟件采用MATLAB,操作系統(tǒng)為Win10,硬件中內(nèi)存大小為4G,處理器為CPUi7.最終對(duì)于本次數(shù)據(jù)認(rèn)定算法結(jié)果如圖2所示,運(yùn)行時(shí)間如圖3所示.從圖中可以看出,采用模糊C-均值算法對(duì)于當(dāng)前數(shù)據(jù)的分類(lèi),得到的結(jié)果邊界清晰、預(yù)判穩(wěn)定,算法識(shí)別正確率為95%,運(yùn)行時(shí)間可控制在0.39秒左右,運(yùn)行速度較快,整體性能均衡.[FL)]
4 結(jié)論
本文綜合考慮學(xué)生在校消費(fèi)的數(shù)據(jù)和學(xué)生申報(bào)家庭情況信息,運(yùn)用模糊C-均值的聚類(lèi)分析方法對(duì)家庭經(jīng)濟(jì)困難的學(xué)生數(shù)據(jù)進(jìn)行研究,根據(jù)各項(xiàng)指標(biāo)得分,將其聚集成不同的類(lèi),每類(lèi)都有其突出特點(diǎn).C-均值聚類(lèi)算法為軟聚類(lèi),分級(jí)數(shù)目可以根據(jù)實(shí)際需要做出調(diào)整;其次,該聚類(lèi)方法既考慮了總分相同的學(xué)生,也考慮了各項(xiàng)均比較困難的因素,相比簡(jiǎn)單求和的方法更為精確;最后,該種算法可使用貪婪算法和遺傳算法來(lái)實(shí)現(xiàn),運(yùn)行速度較快,極大地節(jié)約了評(píng)價(jià)數(shù)據(jù)分析的時(shí)間成本.運(yùn)用模糊聚類(lèi)分析法評(píng)估學(xué)生的經(jīng)濟(jì)困難程度,能更好地對(duì)信息數(shù)據(jù)作定性判斷,為信息反饋提供了依據(jù),能更好提高對(duì)大學(xué)生精準(zhǔn)扶貧的質(zhì)量.
參考文獻(xiàn):
[1]趙志升.大數(shù)據(jù)挖掘[M].北京:清華大學(xué)出版社, 2018.
[2] 王延軍.基于模糊聚類(lèi)分析的教學(xué)評(píng)估[J].甘肅高師學(xué)報(bào)(自然科學(xué)版),2022, 27(5):34-36.
[3] 嚴(yán)帆,劉曉蘭,毛文卉,等.基于校園卡消費(fèi)數(shù)據(jù)的學(xué)生經(jīng)濟(jì)困難程度的綜合評(píng)價(jià)指標(biāo)體系的構(gòu)建[J].電腦知識(shí)與技術(shù),2022,18(33):100-103.
[4] 岳光華.模糊聚類(lèi)分析在粗集料分類(lèi)選擇中的應(yīng)用[J].江蘇大學(xué)學(xué)報(bào)(自然科學(xué)版),2022,43(4),453-457.
[5] 宋海娜.數(shù)據(jù)收集與發(fā)布中的分級(jí)隱私保護(hù)關(guān)鍵技術(shù)研究[D].北京:北京郵電大學(xué),2021.
[6] 吳辰文,李壯,梁雨欣,等.基于Canopy的KFCM 聚類(lèi)優(yōu)化算法[J].西北大學(xué)學(xué)報(bào)(自然科學(xué)版),2022,52(3),444-451.
[7] 嚴(yán)加展,陳華,李陽(yáng),等.改進(jìn)的模糊C-均值聚類(lèi)有效性指標(biāo)[J].計(jì)算機(jī)工程與應(yīng)用,2020,56(9):156-161.
[8] 祖志文.關(guān)于馬氏距離模糊聚類(lèi)的有效性指標(biāo)研究[J].陜西理工大學(xué)學(xué)報(bào),2018,34(2):33-38.
[9] 馬守明,鄭武,程晨,等.應(yīng)用型高校教學(xué)質(zhì)量的灰色聚類(lèi)分析方法[J].高教學(xué)刊,2020(13):77-79,85.
[責(zé)任編輯:李 嵐]