亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        云計算技術下海量數據挖掘的實現機制

        2019-04-26 08:26:48崔辰
        微型電腦應用 2019年4期
        關鍵詞:數據挖掘用戶信息

        崔辰

        (川慶鉆探工程有限公司 長慶鉆井總公司, 西安 710018)

        0 引言

        在現代云計算、社交網絡、移動通信互聯網及數據自動收集技術不斷發(fā)展的過程中,人類社會也出現了一定的變化,其中的數據量也呈爆發(fā)式的增長。美國互聯網數據中心通過研究表示,目前世界中所產生的數據大概呈著50%左右的速度增長,每隔兩年翻一倍,并且大部分數據都是最近幾年所產生的,大數據時代已經到來。數據屬于現代社會中尤為重要的資產,擁有的信息量已經成為制約并且決定社會發(fā)展的主要因素,人們急需要從數據中將具有價值并且寶貴的信息進行有效的挖掘,從而促進企業(yè)實現正確決策。云計算數據挖掘平臺能夠滿足海量數據挖掘需求,此平臺能夠實現資源的動態(tài)分配及調度,并且具有較高的可靠性及虛擬化特點。

        1 云計算和數據挖掘分析

        1.1 云計算

        目前對于并沒有統(tǒng)一定義,客戶端利用網絡自助將運算任務為服務端發(fā)送,服務器運算之后將運算結果對客戶端進行發(fā)送,此過程就是云計算。云計算的主要形式包括:

        其一,軟件即服務(SaaS)。軟件即服務包括客戶和服務供應商,應用軟件在服務供應商服務器端統(tǒng)一部署,在客戶對軟件具有使用需求的時候,就可以對供應商購買應用軟件,并且利用瀏覽器實現接收。此種模式的優(yōu)勢為:客戶在具備軟件使用需求的時候,不需要投入大量資金在軟件、硬件及相應維護中;服務供應商能夠實現應用額元件實現統(tǒng)一管理及維護[1]。

        其二,平臺即服務(PaaS)。在此種模式中,服務供應商提供服務屬于平臺,也就是對客戶提供多種服務器資源、硬件資源及開發(fā)環(huán)境。用戶在供應商所提供的平臺中實現滿足自身需求應用程序的開發(fā),并且通過互聯網和相關服務器對客戶進行傳遞。根據此模式,用戶能夠實現相應數據庫管理軟件、應用程序的開發(fā)。

        其三,基礎設備服務(IaaS)。此服務模式主要是以托管型為基礎的硬件方式,用戶在支付費用之后,就能夠使用服務供應商中的虛擬服務器及資源等[2]。

        1.2 數據挖掘

        數據挖掘指的是從大量數據中實現關聯、變化、有意義及異常結構抽取的過程,此數據大部分都具有噪音,并且不完全,而且隨機、模糊。以此表示,數據挖掘技術涉及了人工智能、統(tǒng)計學、模式識別、機器學習等。目前,數據技術已經被廣泛應用到金融、典型、科學研究及互聯網等多領域中,比如實現商品銷售量預測、銀行分析客戶分銷使用渠道等。傳統(tǒng)數據挖掘技術是以數據倉庫及關系數據庫為基礎實現數據計算、統(tǒng)計及分析,尋找其中的關系,從而使挖掘理論價值得到提高,此過程會消耗大量存儲及計算資源。

        在移動互聯網不斷發(fā)展的過程中,數據規(guī)模從傳統(tǒng)TB級發(fā)展為ZB級,并且還在持續(xù)增加, 從而使傳統(tǒng)數據挖掘系統(tǒng)無法滿足此需求,主要為:挖掘效率較低;軟件及硬件的成本較高,以此消耗大量資源及空間;體系架構較為薄弱,傳統(tǒng)數據挖掘技術都是通過單一算法作為主體,沒有適應普遍性[3]。數據挖掘的邏輯結構,在實現數據挖掘過程中,首先要對數據進行前處理,之后實現數據挖掘,通過相應算法得到結果評價及表達,之后將其中有價值的信息進行提取,如圖1所示。

        2 數據挖掘中云計算的優(yōu)勢

        在數據挖掘中使用云計算,是因為云計算自身具備海量存儲能力及分布式的并行處理能力。具體來說,云計算在數據挖掘中使用的主要優(yōu)勢為:

        其一,云計算具備高效且實時的分布式并行數據挖掘能力。在面對海量數據實現挖掘的過程中,能夠更加展現出其優(yōu)越性。另外,云計算服務業(yè)能夠為不同規(guī)模組織提供優(yōu)質服務,并且使計算成本降低,實現大型數據快速處理,提高企業(yè)效益,還能夠避免企業(yè)過于依賴大型高端機。

        其二,對大部分用戶來說,不需要重視使用云計算技術實現數據挖掘過程中地層實現的過程。在數據塊劃分、計算任務調度及加載節(jié)點的時候,都是通過系統(tǒng)實現自動分配[4]。

        其三,云計算技術數據的挖掘門檻比較低,大眾用戶利用云計算服務平臺就能夠根據自身需求服務,為需求量較大的網絡用戶提供一定的個性化信息服務。

        其四,基于并行化,云計算具備結點動態(tài)增刪的能力,充分使用原本的設備添加結點,使海量數據處理速度及能力得到有效提高,并且使設備生命力和使用率得到有效提高[5]。

        3 云計算海量數據挖掘的實現

        3.1 云計算下的海量數據挖掘模型

        在海量數據挖掘中使用云計算技術,能夠充分展現云計算中的大容量存儲及并行處理的能力,并且還能夠有效解決目前海量數據挖掘過程中的難點內容。云計算下海量數據挖掘的模型。如圖2所示。

        通過圖2可以看出來,基于云計算技術的海量數據挖掘模型主要包括三層,分別為云服務層、數據運算層及用戶層。其中云服務層屬于最基層,其主要目的就是實現海量數據的存儲,并且具備分布并行數據的處理。云計算環(huán)境不僅要保證數據實用性,還要保證數據安全性及可靠性。在數據存儲過程中,云計算技術使用分布存儲方式,具備數據副本冗余存儲功能,保證如果數據丟失,用戶還能夠正常的運轉。目前,普遍使用功能的云計算數據存儲技術包括開源HDFS與非開源GFS兩種。另外,云計算數據充分實現數據并行處理的挖掘,能夠基于多用戶指令,對用戶進行及時回復,還能夠提供數據挖掘服務[6]。

        圖2 云計算下海量數據挖掘的模型

        數據挖掘運算層屬于第二層,其主要目的就是實現數據預處理及挖掘算法并行處理。數據預處理指的是對大量沒有規(guī)則數據實現預先處理,以云計算并行運算模式開展的數據挖掘,一般實現數據預處理過程中主要使用數據分類、轉化、約束及抽調等。實現數據預處理,能夠提高數據挖掘質量,并且提高海量數據挖掘的快速性及實時性。

        用戶層屬于最頂層,其是直接面向用戶的,主要目的就是對用戶請求進行有效接收,并且使數據對下一層進行傳遞,使數據挖掘運算結果對用戶進行反饋。另外,用戶還能夠利用可視化界面對任務的進度進行控制和監(jiān)督,并且對任務執(zhí)行結果進行實時的查看[7]。

        云計算中海量數據挖掘實現的流程為:用戶在輸入模塊中發(fā)送數據挖掘指令,并且對系統(tǒng)服務器進行傳遞,服務器就能夠自動根據用戶挖掘指令通過數據庫實現數據的調出,并且在算法庫中實現最優(yōu)挖掘算法的調出,在實現數據預處理以后,到運算模塊中傳遞,實現數據的深入挖掘,最后將挖掘結果對可視化界面進行反饋,從而便于用戶的查看及了解[8]。

        3.2 海量數據挖掘實現算法

        3.2.1 SPRINT算法

        SPRINT算法主要包括數創(chuàng)建及剪枝過程,因為在實現決策樹創(chuàng)建過程中要實現多次數據遍歷,但是剪枝不需要此過程。那么,對于樹剪枝時間只是創(chuàng)建數的百分之一。所以,重點就是創(chuàng)建樹。SPRINT算法能夠將數據特征充分的展現出來,使用直方圖及屬性表兩種數據結構。直方圖是以屬性表為基礎,屬性表在節(jié)點劃分過程中分裂。其會根據不同屬性性質展現出針對性的展現形式。屬性表屬于屬性值,記錄索引和類標記創(chuàng)建三元組,其能夠在除了內存以外介質中停留。直方圖能夠將節(jié)點屬性類分布的情況進行充分的展現,在屬性術連續(xù)數值型的時候,節(jié)點就與兩個直方圖相關,其中Cbelow指的是已經處理樣本的類型分布,Cabove指的是沒有處理的樣本,其能夠利用不間斷刷新尋找最佳分裂點。在屬性屬于離散型的時候,要只是需要直方圖,其中具有此屬性值的類分布信息,只需要對計數矩陣統(tǒng)計圖進行維護[9]。

        3.2.2 算法并行設計

        算法并行與傳統(tǒng)算法多加入了哈希表,從而對每次節(jié)點分裂以后子節(jié)點數據信息進行存儲,利用此子節(jié)點信息記錄,將其作為節(jié)點并行分割的基礎。其中的哈希表主要包括兩種信息,第一種為決策時候節(jié)點號碼,使用TreeNodeID表示;第二種為目前樹節(jié)點子節(jié)點號,使用ChildNodeID表示。

        在算法移植的過程中,只要是實現算法MapReduce化,利用Map及Reduce函數開展。函數的N-S圖,如圖3與圖4所示。

        圖3 Map函數的N-S圖

        圖4 Reduce函數的N-S圖

        在以上處理結束之后,屬性表就已經到相應葉子節(jié)點中發(fā)送,這個時候決策樹的創(chuàng)建已經全部結束,目前節(jié)點相關文件都已經到分布式文件系統(tǒng)中存儲,表1為節(jié)點信息的保存格式。不管是葉子節(jié)點,或者是非葉子節(jié)點,都通過N進行表示。其中fleaf表示非葉子節(jié)點,tleaf表示葉子節(jié)點。使用此種方法,能夠有效提取決策樹結果,如表1所示。

        表1 節(jié)點信息的保存格式

        3.3 實驗結果

        本文實驗是使用駕車風險高低預測公用數據及作為本文的訓練集,其能夠將參保車險車主的信息進行記錄,決策樹創(chuàng)建中的節(jié)點信息,如圖5所示。

        圖5 決策樹創(chuàng)建中的節(jié)點信息

        為了能夠對算法挖掘模式的正確性進行判斷,所以在實際操作過程中要將所有樣本集分割成為5個沒有交集的組,從而對精準性進行測試,(此方面預測的正確數量較多,表示預測正確率較高,算法精準。)如表2所示。

        表2 算法測試結果

        通過測算結果表示,算法的精準率為89.25%。以此可以看出來,本文所設計的挖掘算法具有較高的精準性,實驗成功,能夠實現有效分類挖掘[10]。

        4 總結

        目前云存儲平臺中的數據量在不斷的增加,傳統(tǒng)數據挖掘模式已經無法和現代社會相互匹配,并且也無法實現數據中內在信息的有效挖掘。所以,其對于數據挖掘工作提出了更加全面的需求,在實現云計算和處理系統(tǒng)過程中,要求具備對海量信息存儲及變化的能力,從而實現資源的內在有效挖掘,并且對大量數據進行有效的處理。本文所設計的數據挖掘算法挖掘進度較高,其中的用戶數據性及安全性需要進一步的加強。

        猜你喜歡
        數據挖掘用戶信息
        探討人工智能與數據挖掘發(fā)展趨勢
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        基于并行計算的大數據挖掘在電網中的應用
        電力與能源(2017年6期)2017-05-14 06:19:37
        關注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        一種基于Hadoop的大數據挖掘云服務及應用
        如何獲取一億海外用戶
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        基于GPGPU的離散數據挖掘研究
        老熟妇高潮av一区二区三区啪啪| 女人扒开屁股爽桶30分钟| 亚洲一区二区三区国产精华液| 骚片av蜜桃精品一区| 国产精品自产拍av在线| 成人av片在线观看免费| 精品国产乱码久久久久久1区2区| 中文字幕第八页| 国产成版人性视频免费版| 日本人妻伦理在线播放| 99精品国产一区二区三区| 在线欧美精品二区三区| 一本色道久久88综合亚洲精品| 婷婷色国产精品视频二区 | 久久中文字幕亚洲精品最新| 日韩免费一区二区三区在线 | 无码综合天天久久综合网| 亚洲日韩中文字幕在线播放| 女同重口味一区二区在线| 曰韩内射六十七十老熟女影视 | 国内自拍视频在线观看h| 麻豆精品一区二区综合av| 午夜视频在线在免费| 欧美视频第一页| 黄片亚洲精品在线观看| 人妻无码第一区二区三区| 国产人与禽zoz0性伦| 大屁股少妇一区二区无码| 日本黄色影院一区二区免费看| 97日日碰曰曰摸日日澡| 999国产一区在线观看| 极品美女销魂一区二区三| 亚洲av不卡一区男人天堂| 欧美人与物videos另类| 日韩精品欧美激情亚洲综合| 久久国产精品亚洲我射av大全| 大ji巴好深好爽又大又粗视频| 久久天天躁狠狠躁夜夜爽| 中文字幕一区二区三区.| 国产人成精品免费久久久| 伊伊人成亚洲综合人网香|