盧盛繼
遼寧水利職業(yè)學(xué)院
大數(shù)據(jù)時代下數(shù)據(jù)挖掘技術(shù)與應(yīng)用
盧盛繼
遼寧水利職業(yè)學(xué)院
人類進入信息化時代以后,短短的數(shù)年時間,積累了大量的數(shù)據(jù),步入了大數(shù)據(jù)時代,數(shù)據(jù)技術(shù)也就應(yīng)運而生,成為了一種新的主流技術(shù)。而研究數(shù)據(jù)挖掘技術(shù)的理念、方法以及應(yīng)用領(lǐng)域,將對我國各個領(lǐng)域的未來帶來更多的機遇和挑戰(zhàn)。本文就大數(shù)據(jù)時代下數(shù)據(jù)挖掘技術(shù)與應(yīng)用進行探究。
大數(shù)據(jù) 數(shù)據(jù)挖掘 互聯(lián)網(wǎng)
數(shù)據(jù)挖掘是一門新興的學(xué)科,它誕生于20世紀(jì)80年代,主要面向商業(yè)應(yīng)用的人工只能研究領(lǐng)域。從技術(shù)角度來看,數(shù)據(jù)挖掘就是從大量的復(fù)雜的、不規(guī)則的、隨機的、模糊的數(shù)據(jù)中獲取隱含的、人們事先沒有發(fā)覺的、有潛在價值和知識的過程。
分析方法是數(shù)據(jù)挖掘的核心工作,通過科學(xué)可靠的算法才能實現(xiàn)數(shù)據(jù)的挖掘,找出數(shù)據(jù)中潛在的規(guī)律,通過不同的分析方法,將解決不同類型的問題。目前常用的方法有聚類分析、特征數(shù)據(jù)分析法、關(guān)聯(lián)性分析等。
1.1 聚類分析法
簡單來說聚類分析就是通過將數(shù)據(jù)對象進行聚類分組,然后形成板塊,將毫無邏輯的數(shù)據(jù)變成了有聯(lián)系性的分組數(shù)據(jù),然后從其中獲取具有一定價值的數(shù)據(jù)內(nèi)容進行進一步的利用。由于這種分析方法不能夠較好的就數(shù)據(jù)類別、屬性進行分類,所以聚類分析法一般都運用心理學(xué)、統(tǒng)計學(xué)、數(shù)據(jù)識別等方面。
1.2 特征性數(shù)據(jù)分析法
網(wǎng)絡(luò)數(shù)據(jù)隨著信息時代的到來變成了數(shù)據(jù)爆炸式,其數(shù)據(jù)資源十分廣泛并且得到了一定的普及,如何就網(wǎng)絡(luò)爆炸式數(shù)據(jù)進行關(guān)于特性的分類就成為了當(dāng)下數(shù)據(jù)整理分類的主要內(nèi)容。此外還有很多方法都是通過計算機來進行虛擬數(shù)據(jù)的分類,尋找數(shù)據(jù)之間存在的普遍規(guī)律性完成數(shù)據(jù)的特性分析從而進行進一步分類。
1.3 關(guān)聯(lián)性分析法
有時數(shù)據(jù)本身存在一定的隱蔽性使得很難通過普通的數(shù)據(jù)分析法進行數(shù)據(jù)挖掘和利用,這就需要通過關(guān)聯(lián)性分析法完成對于數(shù)據(jù)信息的關(guān)聯(lián)性識別,來幫助人力完成對于數(shù)據(jù)分辨的任務(wù),這種數(shù)據(jù)分析方法通常是帶著某種目的性進行的,因此比較適用于對數(shù)據(jù)精準(zhǔn)度相對較高的信息管理工作。
數(shù)據(jù)挖掘技術(shù)的具體流程就是先通過對于海量數(shù)據(jù)的保存,然后就已有數(shù)據(jù)中進行分析、整理、選擇、轉(zhuǎn)換等,數(shù)據(jù)的準(zhǔn)備工作是數(shù)據(jù)挖掘技術(shù)的前提,也是決定數(shù)據(jù)挖掘技術(shù)效率及質(zhì)量的主要因素。在完成數(shù)據(jù)準(zhǔn)備工作后進一步對數(shù)據(jù)進行挖掘,然后對數(shù)據(jù)進行評估,最后實現(xiàn)運用。因此,數(shù)據(jù)挖掘能夠運用到很多方面。通過數(shù)據(jù)挖掘技術(shù)將大數(shù)據(jù)融合在各種社會應(yīng)用中,數(shù)據(jù)挖掘的結(jié)果參與到政府、企業(yè)、個人的決策中,發(fā)揮數(shù)據(jù)挖掘的社會價值,改變?nèi)藗兊纳罘绞?,最大化?shù)據(jù)挖掘的積極作用。
2.1 在高校管理中的應(yīng)用
數(shù)據(jù)挖掘技術(shù)在高校管理的內(nèi)容主要包括:高校招生錄取工作、貧困生選定以及優(yōu)秀生評定等。高校每年的招生工作是學(xué)校可持續(xù)發(fā)展的重要環(huán)節(jié),直接影響到高校教學(xué)質(zhì)量以及發(fā)展情況。比如數(shù)據(jù)挖掘技術(shù)在高校管理中的應(yīng)用主要是對學(xué)生高考成績、志愿填報、以及生源來源地等多方面信息進行整理分類匯總。具體步驟是通過進行數(shù)據(jù)的收集和預(yù)處理,建立相關(guān)數(shù)據(jù)模型,采用分類算法,提取和挖掘?qū)τ脩粲杏玫男畔?,然后進行數(shù)據(jù)挖掘的數(shù)據(jù)存儲形式。
2.2 在高校課堂教學(xué)評價中的應(yīng)用
數(shù)據(jù)挖掘技術(shù)在高校課堂教學(xué)評價系統(tǒng)中的應(yīng)用主要也是利用關(guān)聯(lián)分析法。首先先對數(shù)據(jù)進行預(yù)處理工作,數(shù)據(jù)的預(yù)處理是數(shù)據(jù)挖掘技術(shù)的關(guān)鍵步驟,并且直接影響著數(shù)據(jù)挖掘技術(shù)的應(yīng)用效率。數(shù)據(jù)預(yù)處中要將教師的基本信息、教師教授課程以及教師的職稱、學(xué)歷、學(xué)生信息以及學(xué)生課表相關(guān)信息進行數(shù)據(jù)初始記錄。
2.3 在高校學(xué)生信息管理系統(tǒng)中的應(yīng)用
高校學(xué)生信息管理系統(tǒng)中管理要素主要是學(xué)校的領(lǐng)導(dǎo)、任課教師、學(xué)生以及家長。系統(tǒng)的功能要包括:對不同的用戶設(shè)置不同的使用權(quán)限;對學(xué)生的基本信息以及學(xué)生瀏覽管理網(wǎng)站的記錄要做到明確記錄;各個學(xué)院不同專業(yè)的學(xué)生課程要能準(zhǔn)確公布并允許學(xué)生根據(jù)實際情況修改;成績管理要能實現(xiàn)大批量添加及修改;還有比如評優(yōu)活動、黨務(wù)管理等具體功能。數(shù)據(jù)挖掘技術(shù)在高校學(xué)生信息管理系統(tǒng)中的應(yīng)用主要是利用決策樹的方法。
2.4 高校圖書館信息系統(tǒng)中的應(yīng)用
數(shù)據(jù)挖掘技術(shù)最基本的應(yīng)用就是通過對現(xiàn)有的數(shù)據(jù)進行分析來了解學(xué)校圖書館現(xiàn)有資源利用情況,為圖書館的未來建設(shè)提供可靠數(shù)據(jù)。數(shù)據(jù)挖掘技術(shù)能夠使圖書館資源得到極大程度的優(yōu)化整合。
數(shù)據(jù)挖掘技術(shù)是近幾年新產(chǎn)生的網(wǎng)絡(luò)技術(shù),可是它的廣泛應(yīng)用性受到了很多公司以及研究人員的喜愛。這些年來,伴隨著時間的推移以及網(wǎng)絡(luò)技術(shù)的不斷發(fā)展大數(shù)據(jù)挖掘技術(shù)不斷的被更新,開發(fā),而且在金融、管理、教學(xué)等行業(yè)中都得到了廣泛的應(yīng)用。我相信隨著網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,大數(shù)據(jù)挖掘技術(shù)的應(yīng)用面將會越來越廣。
[1]董彩云,曲守寧.數(shù)據(jù)挖掘及其在高校教學(xué)系統(tǒng)中的應(yīng)用[J].濟南大學(xué)學(xué)報(自然科學(xué)版),2004
[2]陸川,王靜靜.數(shù)據(jù)挖掘技術(shù)在高校教學(xué)管理中的應(yīng)用研究[J].北京:電腦開發(fā)與應(yīng)用,2009,3
[3]中國電子科學(xué)研究院學(xué)報 編輯部.大數(shù)據(jù)時代[J].中國電子科技研究院學(xué)報,2013