摘要:本文對數據挖掘以及分類算法的內涵進行闡述,對數據挖掘中常用的分數算法技術改善策略進行分析,旨在推動我國數據分類算法技術的高速發(fā)展。
關鍵詞:大數據挖掘;分類算法技術;大數據分析
引言
在數字化辦公環(huán)境下,我國各個行業(yè)領域開始選擇應用大數據挖掘概念技術,給我國計算機產業(yè)的發(fā)展帶來了發(fā)展機遇,促進了各式分類技術以及算法技術的高速發(fā)展。
一、數據挖掘
大數據本身是并不存在有效的價值意義,是需要對大數據進行有效處理才能讓大數據產生實質性價值意義,為此大數據分析、大數據挖掘處理工作極為重要。大數據挖掘主要是指需要從海量、模糊性高、隨機性高的數據信息中提取人們不曾了解,但十分有價值的信息過程。數據挖掘對象相對廣泛,不僅能夠對數據庫進行數據挖掘,同時也能對文本數據資源進行數據挖掘。
二、分類算法技術
分類算法技術則是對已知類別的數據進行分析,對于其中存在的分類規(guī)律進行總結,以此為基礎對新的數據類別進行預測。分類算法技術的本質就是將位置樣本分布到已存類別的過程,分類過程實現可具體分為兩個方面,一方面是以已知訓練數據集為依托,構建用于描述預定數據類集的全新模型,另一方面則是在新型構建模型的基礎上,對未知的數據進行分類,實現對相關數據的有效處理。
三、大數據挖掘分類算法技術改善策略分析
大數據挖掘技術就是從大量數據信息中尋找能夠應用價值數據信息,數據挖掘技術是互聯網技術發(fā)展下的產物,涉及到數據庫、統(tǒng)計學以及電子學等多個智能領域。大數據挖掘中常用的分類算法技術主要分為三種,分別為決策樹分類算法、神經網絡分類算法以及樸素貝葉斯分類算法。
(一)決策樹分類算法
決策樹分類算法是以數據集為基礎,對并沒有規(guī)則順序的樣本數據信息進行推算,繼而得出具體分類規(guī)則的算法,是歸納學習算法類型之一,同時也是組成決策方案的重要元素。決策樹分類算法能夠以樹式圖形式表現出來,實現對系統(tǒng)決策方案的選擇,由于其展示形式較為形象直觀,能夠將不同決策時期的決策類問題進行顯示,決策類問題以清晰的邏輯展現,將其構建成為直觀形象的樹形模型。決策樹算法中包含的種類相對校對,像ID3算法、C4算法以及C5算法等都是常用的算法,與其他類型的分類算法技術相比較而言,決策樹分類算法具備便于理解、實現的應用優(yōu)勢,對于數據挖掘技術人員而言,決策樹分類算法的容易理解屬性能夠讓其快速將決策樹算法應用至實際分類之中。決策樹分類算法具備運行速度相對較快的特征,這是由于決策樹分類算法的工作量要小于其他類型分類算法的工作量,因此決策樹分類算法的總計算應用時間相對較短。決策樹分類算法同時也具備算法精準性相對較高的優(yōu)勢,將決策時分類算法應用至數據挖掘工作中,能夠幫助工作人員快速、準確的根據分類規(guī)則進行數據分類,以樹式圖形式清晰直觀的展示重點字節(jié)。
決策樹分類算法雖然具備多種應用優(yōu)勢,同時也不可避免存在一系列的應用問題,如決策樹分類算法在應用過程中需要對連續(xù)性數據信息進行離散化處理,只有這樣才能進行分類學習,對于已經具備時間順序的數據,需要提前對其進行大規(guī)模性質的加工處理,同時若分類類別過多,存在決策樹分類算法發(fā)生錯誤分類的問題。為此需要對決策樹分類算法進行改善,可將監(jiān)督學習任務算法應用至決策樹分類算法之中,在決策樹形成的初期階段進行應用,能夠隨著決策樹分類算法記錄數量的提升,借助預排序方式實現對決策樹分類算法的有效改善。
(二)神經網絡分類算法
神經網絡分類算法中神經網絡主要是指人工神經網絡,神經網絡算法通過對生物大腦結構以及生物工作狀態(tài)進行模擬,進而形成動態(tài)化、靈活化的信息處理模型。神經網絡分類算法的具體應用原理為,一個神經網絡就是一個計算單位,一個單位是由多層神經元組成,一個多層神經元包含三個層次,即“輸入層次”、“輸出層次”以及“隱含層次”。神經網絡分類算法的具備精度相對較高以及較強的魯棒性優(yōu)勢,神經網絡分類算法具備一定的自我學習能力以及記憶能力,能夠有效解答部分較為復雜的問題,由于人工審計網絡具備非線性擬合功能,因此能夠在不具備條件背景下利用變量進行線性組合后,將其轉變?yōu)榉蔷€性組合,因此神經網絡分類算法具備映射較為復雜非線性內容的優(yōu)勢。
神經網絡分類算法同樣也具備相應的分類算法缺陷,最為典型的缺陷就是神經網絡建設問題,通常情況下建立先進、完整的神經網絡是需要花費大量的時間精力,對于技術人員的技術要求也相對較高,因此可利用提取規(guī)則對神經網絡實施剪枝策略,將神經網絡中分類準確程度影響相對較小進行去除,不能對分類結果造成影響的神經元進行去除,進行簡化神經網絡的構建。
(三)樸素貝葉斯分類算法
樸素貝葉斯分類算法是以統(tǒng)計學為基礎開展的數據分類算法,樸素貝葉斯分類算法的應用實質為借助概率形式展現數據信息的不確定性。樸素貝葉斯分類算法的應用優(yōu)勢在于對于空間以及時間的應用開銷相對較低,因此占用的系統(tǒng)資源相對較少,分類算法的運行速度也相對較快,同時樸素貝葉斯分類算法也具備邏輯思維簡單明確的優(yōu)勢,大大增加樸素貝葉斯分類算法的可操作性。
樸素貝葉斯分類算法的應用缺點在于,該分類算法應用需要立足于獨立性的假設前提,這一應用場景是無法在現實情況下得到有效滿足,導致樸素貝葉斯分類算法的分類準確性降低,為此需要對樸素貝葉斯分類算法進行再次升級創(chuàng)新,可應用選擇貝葉斯算法進行數據分類。
結語
總而言之,為了能夠有效應對大量數據的分類統(tǒng)計分析,相關領域對數據分類算法技術的應用程度不斷加強,需要對大數據挖掘中應用的數據分類算法技術進行完善,加強對相關數據的有效處理。
參考文獻:
[1]李金召.數據挖掘技術在軟件工程中的應用與研究[J].計算機產品與流通,2020(05):30.
[2]謝盛嘉.大數據時代背景下數據挖掘技術的應用研究[J].計算機產品與流通,2020(05):128.
[3]臧玉魏,謝連科,張永,張國英,吳健,白曉春.基于電力營銷聚類分析的數據挖掘算法研究[J].信息技術,2020,44(04):56-59+64.
作者簡介:
余薇(1992)女.漢族.黑龍江大慶.本科 大慶油田信息技術公司 163000 中級工程師 軟件開發(fā)