蔣永旺 江蘇護理職業(yè)學院
所謂數(shù)據(jù)挖掘,是指目的性從大量數(shù)據(jù)中搜索、尋找數(shù)據(jù)信息的過程,在這項技術中,需將驗證驅(qū)動法作用于數(shù)據(jù)中,并默認想要搜尋的信息是存在的。在高校管理中,由于辦學規(guī)模的擴大,學生數(shù)量不斷增長,學校教務管理系統(tǒng)中,累積了大量學生數(shù)據(jù)資源,數(shù)據(jù)挖掘技術的應用,對于提升高校教育管理水平有著積極意義。在素質(zhì)教育背景下,雖然不提倡以成績論英雄的理念,但是成績在一定程度上反映出學生對于專業(yè)知識和技能的理解掌握程度,可作為學校教育水平評估的主要依據(jù),應用數(shù)據(jù)挖掘技術,展開學生成績的分析,根據(jù)分析結(jié)果,展開教學改革,優(yōu)化教學理念,轉(zhuǎn)變教學方法,對于高校的可持續(xù)發(fā)展有著積極意義。
1.1 概念
數(shù)據(jù)挖掘是從數(shù)量大、種類繁雜的海量數(shù)據(jù)資源中,根據(jù)需求尋找相對應數(shù)據(jù)信息的過程。數(shù)據(jù)挖掘是按照業(yè)務需求理解、數(shù)據(jù)理解、數(shù)據(jù)搜集、建模、模型測評、部署的流程展開的,而且這一流程是迭代式進行的。在這項技術中,工作人員會將分類后的幾個樣本作為模板,來制作模型,并將未分類數(shù)據(jù)按照規(guī)定數(shù)目進行分類,建模后,進行數(shù)據(jù)挖掘,分類輸出值是非連續(xù)的,然后,再尋找不同數(shù)據(jù)間的聯(lián)系,對數(shù)據(jù)進行分組,將相似數(shù)據(jù)分在同一組。
1.2 常用算法
目前,在數(shù)據(jù)挖掘技術應用過程中,常用的算法有以下三種:①貝葉斯算法(Bayes)。這是一種典型的不確定性知識的表示、推理方法,在這個原理中,先假設一個先驗概率,在這個假設下觀察不同數(shù)據(jù)的概率;②決策樹算法(Decision Tree)。這是一種與流程圖相似的樹結(jié)構,在這種算法中,根據(jù)變量對于數(shù)據(jù)對象的影響,會顯示為不同的樹枝形狀,以此來進行數(shù)據(jù)分析預測,以目標變量所產(chǎn)生的影響,制定差異化的分類規(guī)則,適用于探測式的知識發(fā)現(xiàn),展現(xiàn)形式直觀形象,被應用于各個領域;③線性回歸算法(Linear Regression)。所謂回歸分析,就是用一個或多個變量的變化,去解釋另一變量變化的方式,萬物都是相關聯(lián)的,很多參數(shù)都存在相關性,諸如人類的年齡與身高,商品的成本與生產(chǎn)數(shù)量,商品的銷售額與廣告費,家庭的收入與支出等,這些參數(shù)存在相關性,但是相關關系是不確定的,可采用線性回歸算法分析。
近年來,隨著計算機、互聯(lián)網(wǎng)等技術在高校管理中的應用,教務管理基本實現(xiàn)信息化,在學校的教務管理系統(tǒng)數(shù)據(jù)庫中,可查詢到學生的各類信息,現(xiàn)階段,這些信息的價值并沒有被充分挖掘出來,信息利用僅停留在查詢、統(tǒng)計、制作報表等淺顯階段。以高校學生成績?yōu)槔?,成績的查詢、打印等,只是最基本的利用途徑,如若能夠構建成績?shù)據(jù)庫,利用現(xiàn)代化技術從中挖掘有效信息,用以評估學生的學習態(tài)度、學習效果,評估教學成果,無論對于學生的提升,還是學校的發(fā)展,都有著重要作用。在利用數(shù)據(jù)挖掘技術,展開學生成績分析時,需歷經(jīng)以下幾個階段:
(1)數(shù)據(jù)準備。在數(shù)據(jù)準備階段,應該先提取出可直接處理分析的數(shù)據(jù)信息,在此過程中,技術人員需根據(jù)所選數(shù)據(jù)挖掘算法的信息使用需求,集成、篩選、處理信息,為接下來的數(shù)據(jù)挖掘工作做好準備,以提升分析結(jié)果的可信度。值得注意的是,在整個高校學生成績分析過程中,準備階段需花費較多的時間。首先,在分析學生成績時,所提供的數(shù)據(jù)信息,應該盡量覆蓋多個學科,構建多個數(shù)據(jù)庫,提升數(shù)據(jù)量,然后再展開數(shù)據(jù)的整理分析,消除數(shù)據(jù)源與源之間的語義模糊性,消除數(shù)據(jù)信息存在的缺陷,將之整理為統(tǒng)一規(guī)范的數(shù)據(jù)格式;其次,由多種源數(shù)據(jù)匯集而成的數(shù)據(jù)合集中,存在大量的無關數(shù)據(jù),這些數(shù)據(jù)無法提升分析結(jié)果的可靠性,反而會增加數(shù)據(jù)挖掘工作量,需要篩選出去,確保留下來的數(shù)據(jù)都是相關的數(shù)據(jù);最后,數(shù)據(jù)經(jīng)篩選后,可能存在噪聲問題、不完整問題、數(shù)據(jù)不一致等問題,因此,技術人員需對數(shù)據(jù)進行預處理,完善補充分析庫內(nèi)的數(shù)據(jù)結(jié)構,提升分析結(jié)果的可信度和可靠性,而且,為了方便計算,需要將數(shù)據(jù)庫中屬性字段的信息轉(zhuǎn)換為可識別、可處理的編碼數(shù)據(jù)。
(2)數(shù)據(jù)挖掘。經(jīng)歷長期的數(shù)據(jù)準備工作后,即可采取多種數(shù)據(jù)挖掘算法,處理分析數(shù)據(jù)庫中的數(shù)據(jù)信息,發(fā)掘出數(shù)據(jù)間的內(nèi)在聯(lián)系,構建知識圖譜。在此過程中,首先,技術人員應該確定數(shù)據(jù)挖掘的目標,找準工作定位,然后根據(jù)工作任務選擇合適的數(shù)據(jù)挖掘算法,構建數(shù)據(jù)模型,確定需分析的參數(shù),利用模型挖掘數(shù)據(jù)庫中的相關參數(shù),尋找目標關聯(lián)規(guī)則、數(shù)據(jù)回歸結(jié)構,找出可用于評估與分析的模式表達式?,F(xiàn)階段,數(shù)據(jù)挖掘技術相關軟件已較成熟,在選擇好數(shù)據(jù)挖掘算法后,后續(xù)工作可自動化完成。以利用數(shù)據(jù)挖掘技術對學生的成績進行挖掘為例,需采集學生的基本額信息,比如姓名、學號、性別、專業(yè)、班級等;然后,在成績方面,通過成績數(shù)據(jù)庫,納入學生的平時成績、考試成績以及總評成績;對于此數(shù)據(jù)庫,則由教師基于教學過程所產(chǎn)生;通過挖掘?qū)W生的各方面成績,了解學生的綜合素養(yǎng)與薄弱知識點,為后續(xù)有針對性、分層教學提供有效依據(jù)。
(3)結(jié)果評估與解釋。數(shù)據(jù)挖掘工作完成后,管理人員可根據(jù)所獲得的分析結(jié)果,或者是模式表達式,來評估、判斷其是否有效,是否與學生成績分析需求相符合,如若對挖掘結(jié)果不滿意,可更改算法后重新展開數(shù)據(jù)挖掘。值得注意的是,在學生成績分析挖掘過程中,需采取數(shù)據(jù)轉(zhuǎn)換的方式,比如將學生的成績分為三個等級:85-100分;65-84分;0-64分;對這三個等級的學生分數(shù),可轉(zhuǎn)換成:優(yōu)、良、差三種轉(zhuǎn)換方式,然后以深直方圖的形式了解各個等級學生的分布及比重,為后續(xù)展開有針對性的教學工作提供客觀科學的參考依據(jù)??傊趯W生成績數(shù)據(jù)挖掘分析過程中,為了直觀、形象地了解整體學生的學習情況,需進行數(shù)據(jù)轉(zhuǎn)換。
綜上所述,所謂大數(shù)據(jù),就是通過常用計算機軟件無法實現(xiàn)高效信息處理、管理的巨量數(shù)據(jù)信息集合。數(shù)據(jù)是一種沒有實際形態(tài)的東西,看不見也摸不著,但是作為一種信息載體,廣泛分布在人們的日常生活及社會的生產(chǎn)活動中,在這個信息爆炸的時代,采用大數(shù)據(jù)技術,展開數(shù)據(jù)的收集、儲存、分析、挖掘、應用,能夠更好地發(fā)揮信息的利用價值。而數(shù)據(jù)挖掘技術,則能夠讓人們在海量信息中,挖掘出目標信息,應用于高校學生成績分析中,能夠讓學校管理者通過成績這些海量數(shù)據(jù),看到各班級、專業(yè)、院校的教學水平,再制定教學策略,提升辦學水平。