趙玥
摘要:自20世紀80年代末起,數據挖掘概念首次出現并作為人工智能和數據庫領域研究的熱點問題一直延續(xù)至今。本文介紹了幾種數據挖掘的主要技術,并對數據挖掘在線上教育平臺上的應用進行總結,最后指出其在線上教育平臺的發(fā)展趨勢。
關鍵詞:數據挖掘;線上教育平臺;計算機;大數據
在信息技術飛速發(fā)展的基礎上,同時受今年新型冠狀病毒疫情影響,線上教育商業(yè)發(fā)展趨勢呈大規(guī)模增長,線上教育平臺競爭激烈,各個線上教育平臺都積累了以不同形式存儲的海量數據資料。在大量的資料中,隱藏著許多有用信息,但這些信息很難有效被人們獲得,僅依靠傳統(tǒng)的數據檢索或者統(tǒng)計學方法很難做到。想要利用好這些難得的大數據資源,就需要人們探索和開發(fā)更多方法技術,比如數據挖掘(Data Mining,DM)技術。
數據挖掘(Data Mining,DM)技術,通常又稱為數據庫中的知識發(fā)現(Knowledge Discovery in Databases),是從大量的、有噪聲的、不完全的、模糊的、隨機的實際應用數據中提取有效的、新穎的、潛在有用的知識的非平凡過程。它融合了數據庫技術、人工智能、機器學習、統(tǒng)計學、知識工程、信息檢索等最新的技術研究成果。數據挖掘技術在非常多的領域都可以用得到,只要是有分析價值的數據庫,都可以利用數據挖掘工具為決策者獲得有效信息提供幫助。
線上教育平臺數據是有分析價值的大數據資源
首先,線上教育平臺數據類型極其繁多,可分類為結構化數據、半結構化數據和非結構化數據,它們的組織形式、形態(tài)結構、類型格式呈多樣化特征。
其次,除今年疫情影響外,云計算、移動線上、社交網絡、移動設備APP的應用等也推進了線上教育平臺流量的迅速增長。這些數據時效性強,要想有效其價值,必須及時處理和分析,而數據挖掘技術是最有效及時的方式之一。
幾種數據挖掘的主要方法
利用數據挖掘進行數據分析常用的方法主要有分類、回歸分析、聚類、關聯(lián)規(guī)則、特征、變化和偏差分析、Web頁挖掘等。在這里,本文主要介紹3種數據挖掘技術在線上教育平臺的應用。
分類是找出數據庫中一組數據對象的共同特點,并按照分類模式將其劃分為不同的類,其目的是通過分類模型,將數據庫中的數據項映射到某個給定的類別。其重要技術有:決策樹、貝葉斯網絡、神經網絡、支持向量機、深度學習等。
分類在線上教育平臺中可以應用到學生的分類,學生的屬性和特征分析、學生的需求預測等。例如,將學生選擇的課程按內容分類,根據學習者的背景、以往活動日志、學習路徑等預測其新的學習需求,為學生推送符合需要的學習課程。
關聯(lián)規(guī)則是描述數據庫中數據項之間所存在的關系的規(guī)則,即根據一個事務中某些項的出現可導出另一些項在同一事務中也出現,即隱藏在數據間的關聯(lián)或相互關系。在大數據背景下的教育教學資源中,關聯(lián)性是其重要的特征之一。
在線上教育教學中,學生和教師會因為興趣和需求建立實時或非實時的討論小組,進行討論及交流協(xié)作。同時在內容、主題等方面,教學資源也具有關聯(lián)性。因此,在學習者之間、教學資源和學習者之間、教學資源之間產生了豐富的關聯(lián)關系。通過關聯(lián)分析,可以為學習者推送相關聯(lián)的學習內容,設定相關聯(lián)的主題,提供個性化學習服務。
聚類分析是把一組數據按照相似性和差異性分為幾個類別,其目的是使得屬于同一類別的數據間的相似性盡可能大,不同類別中的數據間的相似性盡可能小。聚類可幫人們掌握事物內部規(guī)律。
數據挖掘在線上教育平臺的應用
構建學習者特征模型。依據學習者不同的特征參數,根據學習者經常訪問的URL,跟蹤統(tǒng)計學生訪問次數、總停留時間、訪問課程數、網站某時間段訪問次數、參與討論情況、學習偏好等,對學生學習活動進行全面跟蹤和記錄,再通過數據挖掘的去噪和模式發(fā)現模塊,得到學習者的學習特征風格,建立和完善學習者學習模型,建立學習者個性數據庫,作為后期學習者學習策略的制定奠定基礎。數據庫建立后,可為學習者調整學習資源,過濾無關信息。還可利用統(tǒng)計分析技術,預測學習者行為。
以個性化學習指導為導向。學習者作為個體,在個人學習能力、興趣及學習習慣、原有基礎及努力程度上都有不同,且這些屬性是持續(xù)變化的。數據挖掘可用來挖掘學習者使用數據日志,分析其瀏覽趨勢,以預測未來的訪問模式。將有利于解決線上教育中針對各層次學生因材施教的問題。以個性化學習指導為導向,就是動態(tài)地獲取學習者當前學習過程信息,在學習界面上反饋挖掘處理后的信息,給學習者以適合的、個性化的學習指導。
改進系統(tǒng)性能。對于線上教育平臺來講,學習者的滿意程度和服務質量是關鍵。在解決系統(tǒng)安全性及穩(wěn)定性方面,web的使用挖掘提供了網站構架的信息及用戶使用信息,管理員可以根據站點流量信息,控制web緩存、負載平衡和網絡構架等問題。
數據挖掘在線上教育中的發(fā)展趨勢及存在問題
隨著線上教育的不斷普及和拓展,數據挖掘技術也越來越受到研究者的重視。線上教育帶著其特殊的性質將大數據帶入了教學應用中,讓學生更了解自己,有了自適應的學習模型;教師更易于掌握學生學習情況,隨時可隨數據調整;教學資源更豐富多樣。目前數據挖掘逐漸從高端研究轉向常用的數據分析,很多教育領域的數據分析已經成功采用了數據挖掘技術來輔助決策。盡管如此,數據挖掘技術依然面臨許多問題和挑戰(zhàn),如規(guī)模過大過于集中的數據挖掘效率有待提高,需要開發(fā)適應于多數據類型、容噪的挖掘方法,動態(tài)數據和知識的數據挖掘等。
參考文獻
陳娜.數據挖掘技術的研究現狀及發(fā)展方向[J].電腦與信息技術,2006(02):46-49.
胡侃,夏紹瑋.基于大型數據倉庫的數據采掘:研究綜述[J].軟件學報,1998(09):53-63.
HAN Jiawei , KAMBER M..范明,孟小峰,譯.數據挖掘:概念與技術[M]北京:機械工業(yè)出版社,2001.
李施,李艷華,趙慧瓊.教育大數據挖掘技術與應用案例分析[J].中國教育網絡,2017(05):60-62
鄭倩倩.數據挖掘技術在網絡教學平臺中的應用研究[J].通訊世界,2016(03):193-194