◆馮愛平
數(shù)據(jù)挖掘技術在中職學生信息系統(tǒng)中的研究與實踐
◆馮愛平
(甘肅省定西市渭源縣職業(yè)中等專業(yè)學校 甘肅 748200)
計算機網(wǎng)絡技術、數(shù)據(jù)庫的發(fā)展,都較好地適應了人們數(shù)據(jù)采集的客觀需求。海量數(shù)據(jù)中的知識、規(guī)律等,成為了指導生產(chǎn)生活的重要潛在資源,推動了數(shù)據(jù)挖掘技術的產(chǎn)生。數(shù)據(jù)挖掘技術與中職學生信息系統(tǒng)的結合,成為學校爭取高質量生源、維護學校發(fā)展的重要手段,為教育主管部門制定決策的重要參考依據(jù)。本文主要分析了數(shù)據(jù)挖掘概況、中職學生特點、挖掘學生信息的積極作用、數(shù)據(jù)挖掘學生信息方法,希望能夠為相關工作提供借鑒。
數(shù)據(jù)挖掘技術;中職學生;信息系統(tǒng);研究;實踐
數(shù)據(jù)挖掘,是集中人工智能、數(shù)據(jù)庫、統(tǒng)計學、機器學習等學科的專業(yè)優(yōu)勢后,發(fā)展成的新型技術,數(shù)據(jù)采掘、數(shù)據(jù)發(fā)掘都代表了相同的技術;同時存在數(shù)據(jù)分析、模式分析、決策支持、知識抽取等相近術語。數(shù)據(jù)挖掘,是以數(shù)據(jù)倉庫、數(shù)據(jù)庫、各類信息庫為基礎,充分挖掘大量數(shù)據(jù)中的有趣知識的這一具體過程。數(shù)據(jù)挖掘從狹義上,只代表了KDD中的基本步驟;而廣義上,數(shù)據(jù)挖掘即揭示數(shù)據(jù)庫信息全過程,隱含的、未知的、潛在的信息內(nèi)容都包含在內(nèi)。
數(shù)據(jù)挖掘具體分為確定對象和目的、準備數(shù)據(jù)、挖掘數(shù)據(jù)、分析結果四個環(huán)節(jié),其中數(shù)據(jù)挖掘的對象、目的是關鍵性環(huán)節(jié),盡管存在挖掘結果的未知性,但是需要首先明確挖掘對象和目的。準備數(shù)據(jù)包含三大過程,數(shù)據(jù)選擇、預處理、轉換。數(shù)據(jù)選擇,是篩選挖掘對象中的數(shù)據(jù)信息,從中找出關系到挖掘目標的數(shù)據(jù)集。數(shù)據(jù)預處理,就是篩查數(shù)據(jù)挖掘的全過程。數(shù)據(jù)轉換,是針對數(shù)據(jù)集處理后的數(shù)據(jù)集,經(jīng)過挖掘算法轉換后,出現(xiàn)的可識別數(shù)據(jù)格式。數(shù)據(jù)挖掘,是以挖掘算法為對象,深入剖析已有數(shù)據(jù),任務類型確定、選定算法、數(shù)據(jù)運算屬于基本環(huán)節(jié)。結果分析,即分析、詮釋數(shù)據(jù)挖掘結果,以適應用戶的理解、應用需求。
決策樹、遺傳算法、人工神經(jīng)網(wǎng)絡,都是數(shù)據(jù)挖掘技術現(xiàn)階段的主要類別。一是決策樹,即具備判定作用的算法構成的樹形結構,ID3、C4.5、CART屬于幾種常用算法。
一般情況下,樹的生成、剪枝是決策樹的兩個具體表現(xiàn)。決策樹的生成,是“if…then”分類規(guī)則、歸納循環(huán)兩種方法的應用過程,通過劃分內(nèi)部節(jié)點屬性,在左子樹中依次體現(xiàn)屬性值,其中左子樹歸納有需要屬性,右子樹為其他。決策樹以根結點為基礎循環(huán),以左子樹不再增加葉結點而結束;而剪枝就是減除噪聲數(shù)據(jù)。
遺傳算法基于達爾文進化論,以交叉、變異、復制為手段,對求解算法進行優(yōu)化,具有強大搜索力、最優(yōu)解能力,問題最優(yōu)解已經(jīng)無關于初始條件。
人工神經(jīng)網(wǎng)絡,基于生物神經(jīng)元特點,以人類思維為參照,在分析、歸納、推理過程中,構建并行處理網(wǎng)絡。數(shù)據(jù)處理,是以內(nèi)部神經(jīng)元為基礎,完成計算和調整。人工神經(jīng)網(wǎng)絡,在容錯、分布存儲、自學習、并行處理方面具有一定的獨立性。
C4.5算法是以信息增益率為標準確定分支屬性,需要以屬性增益率的計算結果為基礎來比較分析,其中的最大屬性,成為分支決策屬性,通過合理取值來構建節(jié)點。信息增益率,是有分支下有用信息的實際占比,在增益率值增大時,表示分支中包含更多的有用信息。信息增益率優(yōu)于信息增益,已經(jīng)得到實踐證明,能夠在ID3算法應用過程中,測試屬性即其中的值多屬性。
C4.5算法屬于遞歸過程,以新節(jié)點不再出現(xiàn)為結束,能夠較好地處理連接數(shù)值屬性,也能夠分裂定性屬性,在定量屬性發(fā)生多次分裂后,如果發(fā)生數(shù)據(jù)缺失問題,缺失值產(chǎn)生。而節(jié)點測試,需要對節(jié)點中所含多余參數(shù)提前刪減。C4.5算法具有明顯的簡單、高效、可靠性優(yōu)勢。
中職學生的實際狀況直接關系到教育效果。中職學生的成長過程易受到以下因素的影響。一是家庭結構的健全程度,直接關系到學生身心健康狀況,單親家庭下子女缺失父愛或母愛,易形成孤僻、暴躁的性格,渴望建立良好的同學、師生、朋友關系,但又懷有懷疑的態(tài)度。二是家庭教育。留守兒童處于隔代教育之下,教育效果遠不及父母教育,存在明顯缺失。三是家庭經(jīng)濟條件,會直接影響到學生自信心,貧困學生很難建立起較強的自信息,容易自卑、敏感、情緒低落。四是家長文化,決定了家長的教育方式,能夠在知識認知方面直接影響到孩子。文化程度低、家庭富裕子女,易產(chǎn)生知識無用論,過分看重社會關系。五是性格因素。性格開朗時,朋友多、善于溝通;性格內(nèi)向時,好靜、自覺性強、不善溝通、易被忽視。六是學校教育?;谥新殞W生中等偏下的初中學歷,很難達到重點高中錄取線,初中階段的學習過程往往不受重視,受教育程度偏低。七是社會偏見。中職生只能擔任簡單、復雜工種的普遍認知,導致親戚朋友、周邊的人輕視職業(yè)學校,嚴重影響到學生自信心的建立和積極生活態(tài)度的養(yǎng)成。八是學生的心理健康狀態(tài),與他們對周邊人和事所有的態(tài)度息息相關,進而影響到學生的受歡迎度和價值觀念的形成。
影響中職生成長的因素,會產(chǎn)生不同程度的作用,必須經(jīng)過綜合分析。心理健康、性格屬于固態(tài)因素,可在青少年階段進行塑造,能夠以發(fā)展的觀念作為數(shù)據(jù)分析學生現(xiàn)狀的基本原則,體現(xiàn)出教育決策過程中的前瞻性與實時性。綜合分析,可以教育效果的相關聯(lián)系,確定數(shù)據(jù)挖掘變量因子,例如性格、家長文化程度、家庭教育等。
海量學生數(shù)據(jù),必然蘊含大量的學生教育信息,數(shù)據(jù)挖掘技術能夠從中提取有用信息,同時結合教育學、心理學,合理制定相應的教育策略,以便于采取合理的海量數(shù)據(jù)處理方法,多維度、多角度地分析數(shù)據(jù)關系和內(nèi)在規(guī)律,全面提升大量信息的有效利用率,以此轉化海量數(shù)據(jù)為信息資源,以便于在決策過程中提供數(shù)據(jù)支撐。
中職學生的現(xiàn)狀分析,要求以收集新生入學信息為首要環(huán)節(jié),信息登記表、性格測試表等都可作為重要參考資源;以數(shù)據(jù)挖掘目標為基礎,篩選、變換原始數(shù)據(jù),根據(jù)其與教育效果的關聯(lián)性,合力構建學生現(xiàn)狀分析數(shù)據(jù)庫;數(shù)據(jù)庫分析過程,需要以數(shù)據(jù)挖掘軟件為工具;最后以分析結果為基礎,確定中職學生的特點、規(guī)律,以此采取相應的教育策略。
本次以2018年重慶市輕工業(yè)學校1000名新生入學時的登記表作為數(shù)據(jù)挖掘對象,經(jīng)過SPSS數(shù)據(jù)挖掘軟件后,聚類分析學生信息。
聚類分析,是“物以類聚,人以群分”理念應用于數(shù)據(jù)挖掘的一種方法,是在相似性原則之下,得出樣本的具體間距。如果間距數(shù)值較小,可以直接歸于同類,或是一簇。劃分算法,屬于聚類分析,需要首先完成k個劃分的創(chuàng)建,k表示劃分個數(shù);循環(huán)定位技術,是一個劃分向另一劃分轉移過程中,可借助的質量劃分改善方法;質量或準則函數(shù),能夠在求解優(yōu)劣方面發(fā)揮作用。準則函數(shù)的應用,能夠在聚類結果中獲取最優(yōu)解。
平方誤差較為常用,可用于質點距離的平方和計算。
解的較多數(shù)量,可能會有組合爆炸的產(chǎn)生,能夠借助簡單方法檢驗含k個簇的所有集合,S(n,k)次檢驗后得出結果;
在n各對象、元組數(shù)據(jù)庫確定后,需要通過劃分算法,得出數(shù)據(jù)劃分的具體數(shù)值k,以簇表示每一個劃分,k≤k。
挖掘工具能夠在相似性原則之下劃分1000名新生的現(xiàn)狀為四類,如表1。
依據(jù)挖掘結果,可以得出第一類學生的占比數(shù)為54.7%,即超過半數(shù)的學生住在偏遠地區(qū)、父母文化程度低且外出打工,以留守子女狀態(tài)形成內(nèi)向的性格,但心理健康、缺失家庭教育,是教育決策的重點考慮對象。第二類學生的占比數(shù)為15.3%,以家庭結構完整、條件良好、近郊居住、父母文化程度高且嚴格要求子女的基本情況,形成學生開朗的性格,心理健康。第三類學生的占比數(shù)為10.2%,是在不佳的家庭環(huán)境、父母一般的文化程度和嚴格教育下,形成開朗的性格。第四類學生以20%的較大比重,近郊區(qū)縣、父母離異且外出打工,導致學生的安全感喪失,容易自卑,需要教育工作者重點關注??傊?,偏遠地區(qū)的打工子女占到所有中職生的大部分,父母離異數(shù)量較高,普遍存在隔代教育,文化程度低,家庭貧困,家庭教育相對缺失。這種情況下,中職生不能建立起自信心,內(nèi)向安靜。
數(shù)據(jù)挖掘技術是現(xiàn)代科技進步的大環(huán)境下出現(xiàn)的新興技術,具有一定的應用條件,適應了大數(shù)據(jù)時代海量信息的應用、分析和管理。而中職學生信息系統(tǒng)與數(shù)據(jù)挖掘的結合,能夠以分析對象、合理算法為基礎,依據(jù)影響中職生教育效果的具體因素,將數(shù)據(jù)挖掘得出的數(shù)據(jù)結果應用于教育領域發(fā)揮,以其明顯的功能優(yōu)勢,順應了現(xiàn)階段的客觀形勢,以便在中職學校教育決策過程中提供重要的信息數(shù)據(jù),提高每一項決策內(nèi)容的科學、合理性。
[1]王軍,何旭.基于數(shù)據(jù)挖掘的高職學生行為分析模型構建與研究[J].現(xiàn)代信息科技,2020,4(18):119-121.
[2]鄧連瑾.基于數(shù)據(jù)挖掘技術的高職信息資源獲取研究[J].天津職業(yè)院校聯(lián)合學報,2019,18(4):99-105.
[3]陸濤.數(shù)據(jù)挖掘技術在高職學生信息系統(tǒng)中的研究與實踐[J].信息系統(tǒng)工程,2018(5):149.
[4]陳燕純.數(shù)據(jù)挖掘技術在高職院校就業(yè)信息分析的應用研究[J].科技展望,2017(11):24-25.
[5]李亞東.數(shù)據(jù)挖掘技術在高職院校學生就業(yè)指導中的應用研究[J].創(chuàng)新創(chuàng)業(yè)理論研究與實踐,2019,2(17):149-150.
[6]張佳.探析關聯(lián)規(guī)則數(shù)據(jù)挖掘在學生信息管理中的應用[J].電腦編程技巧與維護,2018(8):89-90,102.