陳國彬
摘 要:數(shù)據(jù)挖掘與分析是近幾年本科專業(yè)中,成為新工科的強勢專業(yè)。能夠引導很多專業(yè)建設與之交叉應用,具有很大的發(fā)展空間和應用前景。在本科教學中,數(shù)據(jù)挖掘與分析知識體系結構與人才培養(yǎng)的目標要一致,特別是面向企業(yè)中應用,能夠適應企業(yè)的用人需求。這樣才能培養(yǎng)出適應新工科的學生培養(yǎng)目標,實現(xiàn)對現(xiàn)代企業(yè)的人才需求高度吻合。
關鍵詞:數(shù)據(jù)挖掘與分析;新工科;交叉應用;本科教學
1、引言
隨著國家人才政策調整和國家經濟發(fā)展轉型,對生產技術提出更高的要求。人才培養(yǎng)是大學教育的重要環(huán)節(jié),能夠培養(yǎng)出適應我國現(xiàn)階段的人才是實現(xiàn)我國家經濟發(fā)展的重要保障。然而現(xiàn)階段本科高等學校對數(shù)據(jù)挖掘與分析課程體系建設不足,存在知識點過舊,傳統(tǒng)的體系結構已經不適應現(xiàn)在科學等問題。要對數(shù)據(jù)挖掘與分析課程進行相關改革和應用,文獻[1]從培養(yǎng)數(shù)據(jù)意識、加強理論體系、創(chuàng)新教學方法和深入科學研究等4個方面來探索如何設計高校數(shù)據(jù)挖掘課程,以解決大數(shù)據(jù)時代背景下數(shù)據(jù)挖掘課程因抽象而帶來的問題;文獻[2]針對大數(shù)據(jù)的特點,以構建課程核心知識體系為主題,采用案例教學法,改革傳統(tǒng)的教學評價方式,理論結合實踐進行研究生數(shù)據(jù)挖掘課程教學創(chuàng)新嘗試,教學達到了預期效果,受到學生好評;文獻[3]結合大數(shù)據(jù)的特點,對大數(shù)據(jù)時代數(shù)據(jù)存儲與挖掘算法的教學改革進行分析,對后續(xù)研究提供了參考;文獻[4]對數(shù)據(jù)挖掘課程的特點和應用領域、數(shù)據(jù)預處理方法和關鍵的四項技術、Web 挖掘與個性化推薦以及算法實現(xiàn)及應用上做了分析,對應用型本科生開設數(shù)據(jù)挖掘課程做了嘗試;文獻[5]提出通過建設開放數(shù)據(jù)挖掘實踐教學資源庫來提升教學效果。
2、課程體系存在的問題
2.1 知識點過舊
很多知識都是對傳統(tǒng)的一些基本算法和結構進行講解,知識點基本是采用10年左右知識點,從理論創(chuàng)新性來講已經失去了價值。從課程體系上分析,課程采用的知識結構大概如下:認識數(shù)據(jù)、數(shù)據(jù)預處理、數(shù)據(jù)倉庫、挖掘頻繁模式、關聯(lián)和相關性、分類與預測、聚類分析、離群點檢測等知識點。這些知識點采用很強的理論方法與形式化方法進行理論推導與證明。
2.2 課程體系結構存在的問題
傳統(tǒng)課程體系上采用不同知識的融于整課程教學體系,而后面幾個章節(jié)中,例如:分類與預測、聚類分析等兩個知識講解中,會使很多同學感覺到在大量的數(shù)據(jù)面前,不知道如何運用這些知識點進行運用。課程體系上存在不足,對運用知識點不能夠正確的應用。要能課程體系進行統(tǒng)一規(guī)劃,能夠把知識一環(huán)扣一環(huán)地進行講解。從同一個數(shù)據(jù)采用不同方法得到不同結果,來分析這些理論的真正意義。
2.3 實踐性不強
這些知識點都是注重理論上講解,從公式推導一步一步實現(xiàn)最終的結果。然而,如何采用計算機能夠操作語言來進行運用,存在較大的差異,采用什么語言和算法對結果都存在差異。對于課程中基本無可操作性代碼,對實現(xiàn)過程不注重算法實現(xiàn)。
2.4 課程與其它課程交叉應用不足
數(shù)據(jù)挖掘與分析一般是針對其它領域中的應用研究,一般能夠服務其它行業(yè)。它實際是一個實踐工具,對其它課程或專業(yè)進行有效地結合,能夠起解決其它專業(yè)的很多實際應用問題。然而,課程體系中并沒有用足夠的章節(jié)來對專業(yè)交叉應用進行講解,而是一直講知識點本身的理論來源與證明過程。
3 數(shù)據(jù)挖掘課程體系幾點建議
3.1 知識進行實時更新
數(shù)據(jù)挖掘知識除了對分類與預測、聚類分析、關聯(lián)和相關性等知識講解外,能夠注重數(shù)據(jù)處理過程。在不同教學過程中,對教學內容注重實踐性和現(xiàn)在主流技術講解。對其它知識點要進行補充:回歸分析、數(shù)據(jù)挖掘工具、知識發(fā)現(xiàn)過程、中文文本挖掘、Web挖掘等知識點進行學習。
3.2 運用語言進行實踐
數(shù)據(jù)挖掘課程是理論和實踐性都比較強的課程,能夠運用計算機語言實現(xiàn)各類數(shù)據(jù)算法進行實現(xiàn)。目前比較理想的語言Python,能夠提供各種算法的包,不斷更新和下載等服務。
3.3 教學實踐內容增強
對于課程中存在大量的理論知識點,很多都沒有通過實踐形式來實現(xiàn)知識點的應用價值,為了能夠實現(xiàn)應用于本科教學中實踐內容,本論文提出對以下知識點內容進行實踐教學,其內容如下表所示:
知識點 實踐內容
分類 ID3判斷性別、神經網(wǎng)絡實現(xiàn)判斷葡萄酒偽劣品,基于分類技術對某零售商產品精準廣告投放營銷,采用樸素貝葉斯分類模型和KNN分類模型、決策樹分類、神經網(wǎng)絡分類幾種分類算法在同一組數(shù)據(jù)進行實現(xiàn),分別體會差異性。
回歸分析 多元線性回歸實踐、邏輯回歸模型實踐、基于線性回歸技術預測某社區(qū)新客戶的熱燃油用量、基于邏輯回歸技術預測心臟病二次發(fā)作率。
聚類分析 k-means實踐,基于聚類分析方法的患冠心病率狀況實踐。
文本挖掘 中文文本挖掘實踐、基于文本挖掘技術對垃圾短信、郵件精準檢測、基于協(xié)同過濾算法的電影推薦。
上述知識點的實踐,都是對算法設計和程序設計要求比較高,通過這種實踐教學,能夠大大提高學生實踐應用能力和技術水平。
4 結論
本科教學中,在數(shù)據(jù)挖掘與分析課程建設中存在很多問題,通過相關問題的深入解讀和調整,能夠把學生的實踐應用能力提高,再是解決學生與企業(yè)之間的障礙。讓整個課程體系得到一個正常地發(fā)展,也能面向現(xiàn)代技術進步帶來的挑戰(zhàn)。
參考文獻
[1] 李海林. 大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘課程教學探索[J]. 計算機時代, 2014(2): 54-55.
[2] 張艷. 大數(shù)據(jù)背景下的數(shù)據(jù)挖掘課程教學新思考[J]. 計算機時代, 2014(4): 59-61.
[3] 黃艷梅. 大數(shù)據(jù)存儲與挖掘算法的教學改革分析[J]. 電腦迷, 2016(11): 69-69.
[4] 徐金寶. 對應用型本科生開設數(shù)據(jù)挖掘課程的嘗試[J]. 計算機教育; 2007(14): 27-29.
[5] 黃嵐. 數(shù)據(jù)挖掘課程實踐教學資源庫建設[J]. 計算機教育, 2014(12): 89-92.