郭東峰
摘 ?要:眾所周知,大數(shù)據(jù)已經(jīng)成為現(xiàn)代社會發(fā)展的重要推動力量之一,大數(shù)據(jù)具有信息量大、種類多元等特點(diǎn),這就使得我們在利用大數(shù)據(jù)的過程中一定要高度關(guān)注數(shù)據(jù)處理的時效和速度,確保數(shù)據(jù)的實(shí)時性和準(zhǔn)確性。數(shù)據(jù)分析挖掘技術(shù)便是要從海量的數(shù)據(jù)信息當(dāng)中尋找到隱藏其中的有效信息,進(jìn)而確保大數(shù)據(jù)應(yīng)用的價值和作用。該文將就數(shù)據(jù)分析挖掘技術(shù)進(jìn)行深入的分析和探究。
關(guān)鍵詞:大數(shù)據(jù) ?分析挖掘技術(shù) ?應(yīng)用分析 ?創(chuàng)新突破
中圖分類號:TP311 ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識碼:A ? ? ? ? ? ? ? ? ? 文章編號:1672-3791(2020)10(a)-0017-03
Abstract: As we all know, big data has become one of the important driving forces for the development of modern society. Big data has the characteristics of large amounts of information and diverse types, which makes us pay attention to the timeliness and speed of data processing in the process of using big data to ensure the real-time and accuracy of data. Data analysis and mining technology is to find the hidden effective information from the massive data information, so as to ensure the value and role of big data application. In this paper, data analysis and mining technology will be in-depth analysis and exploration.
Key Words: Big data; Analysis and mining technology; Application analysis; Innovation and breakthrough
伴隨著社會的發(fā)展與時代的進(jìn)步,大數(shù)據(jù)已經(jīng)滲透到了我們工作和生活的方方面面,并且呈現(xiàn)出非常重要的應(yīng)用價值,而掌握大數(shù)據(jù)分析和挖掘技術(shù)則是高效應(yīng)用大數(shù)據(jù)的重要前提。以下是筆者結(jié)合自己多年相關(guān)工作經(jīng)驗(yàn),就此議題提出自己的幾點(diǎn)看法和建議。
1 ?大數(shù)據(jù)分析和挖掘技術(shù)的概念
1.1 大數(shù)據(jù)分析技術(shù)
何為大數(shù)據(jù)分析技術(shù),其從理論層面來解釋,指的就是對現(xiàn)有數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的改進(jìn)技術(shù),開發(fā)數(shù)據(jù)網(wǎng)絡(luò)挖掘技術(shù)、特異群組挖掘技術(shù)、圖挖掘技術(shù)等新型數(shù)據(jù)挖掘技術(shù)。突破用戶興趣分析、網(wǎng)絡(luò)行為分析、情感語義分析等大數(shù)據(jù)挖掘技術(shù)。
1.2 大數(shù)據(jù)挖掘技術(shù)
何為大數(shù)據(jù)挖掘技術(shù),顧名思義,其指的就是從海量、有噪聲、模糊、不完全、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)當(dāng)中去提取隱含在其背后不為人所熟知和了解,但是有具備應(yīng)用價值的潛在信息和知識的過程。
2 ?大數(shù)據(jù)挖掘技術(shù)的分類
根據(jù)筆者的調(diào)查和研究,發(fā)現(xiàn)當(dāng)前在大數(shù)據(jù)挖掘技術(shù)領(lǐng)域當(dāng)中,所涉及的大數(shù)據(jù)挖掘技術(shù)的分類方法有很多種,根據(jù)不同的分類標(biāo)準(zhǔn),大數(shù)據(jù)挖掘技術(shù)可以分為以下幾種類型。
(1)按照挖掘任務(wù)分類。大數(shù)據(jù)挖掘技術(shù)可以分為分類或預(yù)測模型發(fā)現(xiàn)、數(shù)據(jù)總結(jié)、聚類、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、依賴關(guān)系或者依賴模型發(fā)現(xiàn)、異常和趨勢發(fā)現(xiàn)等。
(2)按照挖掘方法分類。大數(shù)據(jù)挖掘技術(shù)可以分為機(jī)器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法、統(tǒng)計方法和數(shù)據(jù)庫方法。
(3)按照挖掘?qū)ο蠓诸?。大?shù)據(jù)挖掘技術(shù)可以分為面向?qū)ο髷?shù)據(jù)庫、關(guān)系數(shù)據(jù)庫、空間數(shù)據(jù)庫、文本數(shù)據(jù)源、時態(tài)數(shù)據(jù)庫、多媒體數(shù)據(jù)庫和異質(zhì)數(shù)據(jù)庫、遺產(chǎn)數(shù)據(jù)庫和環(huán)球網(wǎng)Web。
3 ?當(dāng)前比較具有代表性的幾類數(shù)據(jù)挖掘技術(shù)以及具體應(yīng)用分析
3.1 關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則的模式其實(shí)相對比較簡單直接,其是讓兩個或者兩個以上項(xiàng)之間建立起關(guān)聯(lián)并確定項(xiàng)與項(xiàng)之間的關(guān)系。關(guān)聯(lián)規(guī)則在現(xiàn)實(shí)中的應(yīng)用主要體現(xiàn)銷售系統(tǒng)當(dāng)中,即確定產(chǎn)品與產(chǎn)品之間的關(guān)聯(lián)性,考慮產(chǎn)品之間的共同趨勢。比如,一般消費(fèi)者在超市購物時,購買了各種生吃蔬菜之后會選擇購買沙拉醬或者千島醬,用于制作蔬菜沙拉。還有,消費(fèi)者在購買衣服的時候,選擇了上衣之后也會考慮到褲子或者鞋子的搭配等,這就是關(guān)聯(lián)規(guī)則的實(shí)際應(yīng)用。其實(shí),關(guān)聯(lián)規(guī)則是一個非常簡單的方法,但是關(guān)聯(lián)規(guī)則背后蘊(yùn)藏著是人們的智慧,是人們對于大數(shù)據(jù)的洞察與應(yīng)用?,F(xiàn)代社會中有越來越多的企業(yè)選擇應(yīng)用關(guān)聯(lián)規(guī)則來搜集信息和制定營銷方案,其在增加企業(yè)經(jīng)濟(jì)效益中發(fā)揮著非常重要的作用。目前,關(guān)于關(guān)聯(lián)規(guī)則的主要應(yīng)用領(lǐng)域集中在市場營銷、產(chǎn)品交叉或者搭配銷售以及實(shí)物擺放組織等諸多方面。
3.2 聚類
聚類,顧名思義,就是將各種數(shù)據(jù)信息記錄組合在一起的方式,聚類可以幫助用戶加深對數(shù)據(jù)庫中所發(fā)生事情的認(rèn)知程度,幫助用戶做出更加正確的選擇。
關(guān)于聚類的具體應(yīng)用,其中比較具有代表性的便是企業(yè)對市場的劃分。根據(jù)聚類方式,企業(yè)可以通過查看各個對象分組的情況來將市場細(xì)化分為多個客戶子集,也就是對市場進(jìn)行細(xì)分,然后根據(jù)每一個子集即細(xì)分后市場的情況來制定出具有針對性的營銷策略,這樣一來,企業(yè)的營銷效果必然會得到很大的提升。
3.3 分類
分類即實(shí)現(xiàn)對各項(xiàng)的分門別類。我們會就特定類別的項(xiàng)標(biāo)記清楚各自的屬性,然后按照標(biāo)記的屬性將其劃分到各個類別當(dāng)中去,根據(jù)類別來預(yù)測其未來的發(fā)展方向和形式,進(jìn)而提高預(yù)測的準(zhǔn)確程度。
以信貸公司為例來對分類這一方式進(jìn)行說明:信貸公司會制定出符合市場形勢的分類標(biāo)準(zhǔn),公司員工會按照既定的分類標(biāo)準(zhǔn)對全部貸款申請人的實(shí)際情況進(jìn)行審核,在審核過后,將貸款申請人劃分為高信用風(fēng)險、中信用風(fēng)險和低信用風(fēng)險3類等級當(dāng)中去,然后根據(jù)不同風(fēng)險等級的服務(wù)內(nèi)容和標(biāo)準(zhǔn)來為貸款申請人提供信貸服務(wù),這就有效保障了信貸業(yè)務(wù)的安全性,對于維護(hù)信貸公司的利益有著非常大的幫助作用。
3.4 決策樹
決策樹的價值主要在于對數(shù)據(jù)進(jìn)行分類和預(yù)測,從一個問題開始,通過決策樹我們可能得到多個答案,而每一個答案背后又會繼續(xù)出現(xiàn)更深一步的問題,而隨后出現(xiàn)的這些問題又會被用于分類和識別,便形成了決策樹的形式。
在具體應(yīng)用中,手機(jī)供應(yīng)商通過會選擇通過決策樹的形式來對流失的客戶或者不更新收集的客戶進(jìn)行分類,其會將數(shù)據(jù)分成多個葉結(jié)點(diǎn),所有葉結(jié)點(diǎn)的數(shù)據(jù)記錄數(shù)的和等于輸入數(shù)據(jù)的記錄總數(shù),也就是兩個或者兩個以上子結(jié)點(diǎn)中所包含的數(shù)據(jù)記錄的總和等于上一級父結(jié)點(diǎn)中的數(shù)據(jù)記錄總數(shù)。手機(jī)供應(yīng)商需要在及時存儲決策樹出現(xiàn)上下移動過程中的客戶數(shù)量變化,通過數(shù)據(jù)的變化來分析客戶的流失情況。
3.5 序列模式
何為序列模式,其主要是根據(jù)序列來對發(fā)生的相似事件的趨勢以及發(fā)生同樣情況的可能性進(jìn)行識別。序列模式在實(shí)際生產(chǎn)生活中有著非常廣泛的應(yīng)用,生產(chǎn)商和經(jīng)銷商主要是利用序列模式這一數(shù)據(jù)挖掘技術(shù)來理解和評估廣大消費(fèi)者的購買行為,也會通過數(shù)據(jù)和序列模式來做出產(chǎn)品展示的決策。比如,序列模式可以幫助產(chǎn)品供應(yīng)商識別固定時間段內(nèi)客戶們在不同時間購買同一類產(chǎn)品的幾何,也可以使用序列模式來根據(jù)瀏覽頻率和過去購買歷史記錄來對客戶下一次做出購買商品行為的預(yù)測,提前將商品推薦給客戶或者直接將商品添加到客戶的購物車當(dāng)中去。
4 ?數(shù)據(jù)分析挖掘技術(shù)的創(chuàng)新與突破
4.1 可視化分析
數(shù)據(jù)的可視化屬于基礎(chǔ)功能,數(shù)據(jù)可視化,不管是對數(shù)據(jù)分析領(lǐng)域的專家還是對普通用戶而言,都是通過圖像的形式呈現(xiàn)出來,讓數(shù)據(jù)透過圖像的形式來說話,這樣數(shù)據(jù)分析專家和普通用戶都可以得到最直接的結(jié)果。
4.2 預(yù)測性分析
預(yù)測性分析是數(shù)據(jù)分析挖掘技術(shù)的重要價值體現(xiàn)之一,數(shù)據(jù)分析人員可以通過分析圖像,也可以對數(shù)據(jù)挖掘結(jié)果進(jìn)行分析,進(jìn)而對未來的方向和可能出現(xiàn)的結(jié)果做出前瞻性判斷和預(yù)測,而且預(yù)測的結(jié)果準(zhǔn)確性也比較高。
4.3 數(shù)據(jù)挖掘算法
如果說圖像是機(jī)器語言翻譯的重要途徑和結(jié)果,那么,數(shù)據(jù)挖掘就相當(dāng)于是機(jī)器中的母語。我們可以通過各種各樣的分析和計算方式來實(shí)現(xiàn)對數(shù)據(jù)的挖掘和精煉,比如分割、集群、孤立點(diǎn)分析等,提煉數(shù)據(jù)背后所隱藏著的有效信息。數(shù)據(jù)挖掘算法不僅要保證能夠應(yīng)對海量的數(shù)據(jù),同時也要追求處理的速度和效率。
5 ?結(jié)語
綜上所述,大數(shù)據(jù)時代已然來臨,我們需要借助和利用大數(shù)據(jù)去解決現(xiàn)實(shí)工作和生活中存在的各種問題,大數(shù)據(jù)終將成為我們最得力的解決工具。大數(shù)據(jù)分析挖掘技術(shù)可以幫助我們從海量的數(shù)據(jù)信息當(dāng)中分析和挖掘出對我們有利、有效的信息資源,其為各行各業(yè)的發(fā)展與決策提供重要的參考依據(jù),未來伴隨著大數(shù)據(jù)分析挖掘技術(shù)的不斷創(chuàng)新與升級,大數(shù)據(jù)在我們現(xiàn)實(shí)生活中所發(fā)揮的作用將會越來越強(qiáng)大。
參考文獻(xiàn)
[1] 劉政宇.大數(shù)據(jù)分析挖掘技術(shù)及其決策應(yīng)用研究[J].科學(xué)技術(shù)創(chuàng)新,2019(23):84-85.
[2] 李加慶,原士棟.數(shù)據(jù)挖掘關(guān)鍵技術(shù)分析探索[J].計算機(jī)產(chǎn)品與流通,2020(3):81.
[3] 林翔,賈璐,吳小勇.大數(shù)據(jù)技術(shù)在裝備體系仿真實(shí)驗(yàn)中的應(yīng)用模式及難點(diǎn)分析[J].兵工自動化,2019,38(7):26-29.
[4] 李希堯.基于數(shù)據(jù)挖掘技術(shù)的股票數(shù)據(jù)分析研究[D].電子科技大學(xué),2020.
[5] 會淵凱.基于數(shù)據(jù)挖掘技術(shù)的NBA金州勇士隊(duì)取勝的影響因素分析[D].燕山大學(xué),2019.
[6] 王者.基于數(shù)據(jù)挖掘技術(shù)的變電站巡檢機(jī)器人故障分析與自主特巡系統(tǒng)[D].山東大學(xué),2019.
[7] 楊林芬.基于大數(shù)據(jù)分析技術(shù)的名老中醫(yī)醫(yī)案價值挖掘研究[D].云南大學(xué),2019.
[8] 劉宇.基于數(shù)據(jù)挖掘技術(shù)的廣東省2005—2016年預(yù)防接種異常反應(yīng)分析[D].南方醫(yī)科大學(xué),2019.