亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        試析基于云計(jì)算環(huán)境的web數(shù)據(jù)挖掘

        2020-06-24 12:56:02田笑
        錦繡·中旬刊 2020年3期
        關(guān)鍵詞:云計(jì)算數(shù)據(jù)挖掘

        摘 要:本文針對基于云計(jì)算環(huán)境的web數(shù)據(jù)挖掘,結(jié)合理論實(shí)踐,在簡要闡述云計(jì)算特性的基礎(chǔ)上,分析云計(jì)算環(huán)境下web數(shù)據(jù)挖掘的流程,并提出web數(shù)據(jù)挖掘的關(guān)鍵技術(shù)。希望對提升云計(jì)算環(huán)境下,web數(shù)據(jù)挖掘的準(zhǔn)確性、速度等有一定的參考和幫助。

        關(guān)鍵詞:云計(jì)算;web;數(shù)據(jù)挖掘;數(shù)據(jù)預(yù)處理

        引言

        在云計(jì)算環(huán)境下,web數(shù)據(jù)挖掘的方法發(fā)生了較大概念。云計(jì)算為web數(shù)據(jù)挖掘提供動態(tài)化資源和高可用行的計(jì)算平臺,為開發(fā)高性能的數(shù)據(jù)挖掘平臺提供技術(shù)支持。但web數(shù)據(jù)量大,而且具有較大的噪音,對挖掘算法的要求比高。而基于云計(jì)算環(huán)境的web數(shù)據(jù)挖掘,可有效降低運(yùn)營在數(shù)據(jù)挖掘技術(shù)上的投入,加快web數(shù)據(jù)挖掘速度,縮短產(chǎn)品研發(fā)周期?;诖耍_展基于云計(jì)算環(huán)境的web數(shù)據(jù)挖掘的分析研究就顯得尤為必要。

        一、云計(jì)算的特性

        (一)虛擬化

        云計(jì)算是一種全新的技術(shù),用戶可以在任何位置、任何時間來獲取各種終端的應(yīng)用程序。并且請求的數(shù)據(jù)和資源全部來自于云環(huán)境,并非固定的實(shí)體,可為用戶提供便捷的服務(wù)。

        (二)通用性

        云計(jì)算和其他技術(shù)相比,并不是針對特定的應(yīng)用,可以在云支撐下,滿足用戶不同的需求,一個云同時服務(wù)于多個應(yīng)用平臺和系統(tǒng)。

        (三)高可擴(kuò)展性和超大規(guī)模性

        云可以實(shí)現(xiàn)動態(tài)化擴(kuò)展,并且此種擴(kuò)展對用戶來說幾乎的透明的,并不會影響用戶的使用情況。此外,云的動態(tài)化擴(kuò)展是超大規(guī)模的,比如:微軟、亞馬遜等云計(jì)算,有上百萬臺 服務(wù)器。

        二、云計(jì)算環(huán)境下web數(shù)據(jù)挖掘的流程

        在云計(jì)算環(huán)境下,可實(shí)心web數(shù)據(jù)挖掘技術(shù)的全面優(yōu)化,云計(jì)算高強(qiáng)的并行處理能力和海量存儲能力,可有效解決web數(shù)據(jù)挖掘海量數(shù)據(jù)的問題。web數(shù)據(jù)挖掘的流程包括以下三個步驟:

        第一步,web數(shù)據(jù)收集。web數(shù)據(jù)挖掘的主要對象是日志信息,也就是用戶在應(yīng)用web系統(tǒng)式留下的日志數(shù)據(jù),這些日志數(shù)據(jù)并存子在web系統(tǒng)的數(shù)據(jù)庫中。一旦數(shù)據(jù)庫發(fā)生問題,存儲在數(shù)據(jù)庫的數(shù)據(jù)也會發(fā)生丟失或者破壞。因此,為保證數(shù)據(jù)的安全性,需要將數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行篩選、轉(zhuǎn)換、統(tǒng)一處理,形成半結(jié)構(gòu)化的XML文件,保存在分布式文件中。此種做法既能優(yōu)化數(shù)據(jù)收集方法,也可以避免數(shù)據(jù)庫中存儲的數(shù)據(jù)因?yàn)樵O(shè)備發(fā)生損失[1]。在云計(jì)算環(huán)境下,web數(shù)據(jù)挖掘可有效保證數(shù)據(jù)的共享性,降低web數(shù)據(jù)應(yīng)用門檻,保證數(shù)據(jù)庫中各項(xiàng)有價值、有用的數(shù)據(jù)能夠被充分利用。

        第二步,數(shù)據(jù)預(yù)處理。通過數(shù)據(jù)預(yù)處理可為web數(shù)據(jù)挖掘提供良好條件。主要目的是對采集到的數(shù)據(jù)進(jìn)行凈化處理,以刪除無用的數(shù)據(jù)。從日志數(shù)據(jù)中識別出多個用戶,以確定哪些信息同一個用戶留下的。再講相同用戶訪問記錄按照不同的訪問時間區(qū)分開來。區(qū)分完成之后再進(jìn)行格式化處理,轉(zhuǎn)換成符合web數(shù)據(jù)挖掘算法要求的格式存儲起來,以便后期挖掘使用。

        第三步,數(shù)據(jù)分析。通過一系列web數(shù)據(jù)挖掘算法,對預(yù)處理后的數(shù)據(jù)進(jìn)行分析,進(jìn)而發(fā)現(xiàn)其中隱藏的有價值的數(shù)據(jù)。數(shù)據(jù)使用的目的不同,采用數(shù)據(jù)挖掘算法也不相同。比如:統(tǒng)計(jì)分析算法,通常應(yīng)用在日志數(shù)據(jù)統(tǒng)計(jì)中。關(guān)聯(lián)規(guī)則算法,多應(yīng)用在挖掘用戶之間或者頁面之間的潛在關(guān)系上等。

        三、云計(jì)算環(huán)境下web數(shù)據(jù)挖掘的關(guān)鍵技術(shù)

        (一)云計(jì)算技術(shù)

        分布式計(jì)算是云計(jì)算技術(shù)的關(guān)鍵,主要作用是解決海量數(shù)據(jù)挖掘的難度,提升數(shù)據(jù)挖掘的精度和效率。分布式計(jì)算涉及到兩方面內(nèi)容,其一是分布式存儲,其二是并行計(jì)算。云技術(shù)環(huán)境既能提供數(shù)據(jù)的分布式存數(shù),也可以滿足并行計(jì)算的能力,為web數(shù)據(jù)挖掘提供良好的環(huán)境。在web數(shù)據(jù)挖掘中,分布式并行計(jì)算是高效完善數(shù)據(jù)計(jì)算和挖掘任務(wù)的基礎(chǔ),可對一些技術(shù)細(xì)節(jié)進(jìn)行封裝處理,包括:數(shù)據(jù)分布處理、任務(wù)并行處理、任務(wù)調(diào)度處理、負(fù)載平衡處理等。在用于在應(yīng)用時,無需考慮這些內(nèi)容,只要考慮web數(shù)據(jù)挖掘任務(wù)之間的邏輯關(guān)系即可。從而提升研發(fā)效率,降低系統(tǒng)維護(hù)成本。

        (二)數(shù)據(jù)匯集調(diào)度

        通過數(shù)據(jù)匯集調(diào)度,可有效解決不同數(shù)據(jù)之間的規(guī)約問題,而且支持不同格式的數(shù)據(jù),無論是OLTP數(shù)據(jù)、OLAP數(shù)據(jù),還是日志數(shù)據(jù)、爬蟲數(shù)據(jù),都需要提供數(shù)據(jù)同步的方式,如:數(shù)據(jù)庫同步、socket消息同步、文件傳輸協(xié)議同步等。云計(jì)算環(huán)境中數(shù)據(jù)匯集調(diào)度多采用模板化設(shè)計(jì)技術(shù),以滿足新數(shù)據(jù)的模板和元數(shù)據(jù)配置的統(tǒng)一收集及規(guī)約,提升web數(shù)據(jù)挖掘的效率。

        (三)挖掘算法并行化技術(shù)

        web數(shù)據(jù)挖掘中的并行化是云計(jì)算平臺的基礎(chǔ)能力之一,在web數(shù)據(jù)挖掘中國并行化技術(shù)是否科學(xué)合理性,直接關(guān)系到web數(shù)據(jù)挖掘算法是否并行,并行策略是否有效等。常用的并行化算法是K-means算法,其核心思想是基于使聚類性能指標(biāo)最小化[2]。具體應(yīng)用流程為:線隨機(jī)選擇k個web數(shù)據(jù)挖掘?qū)ο?,每個對象都可看做是一個簇的初始均值和中心;然后對剩余的對象,按照每個的均值距離,指派到最相似的簇中;最后通過平方誤差準(zhǔn)則,來計(jì)算每個簇的新均值,此環(huán)節(jié)可不斷重復(fù),直到準(zhǔn)則函數(shù)完成收斂為止。具體表達(dá)公式如下:

        此公式中,E表示數(shù)據(jù)集中所有對象的平方誤差和;p表示空間中的點(diǎn),也就是給定的對象;mi表示簇Ci的均值,在web數(shù)據(jù)挖掘中,先求出對象到其簇中心均值的平方,再求和,從而挖掘出數(shù)據(jù)庫中的有價值的全部信息。

        四、結(jié)束語

        綜上所述,本文結(jié)合理論實(shí)踐,分析了基于云計(jì)算環(huán)境的web數(shù)據(jù)挖掘,分析結(jié)果表明,云計(jì)算環(huán)境下,對web數(shù)據(jù)挖掘提出了更高的要求,數(shù)據(jù)量越來越多,種類更加繁雜。加強(qiáng)對云計(jì)算技術(shù)、數(shù)據(jù)匯集調(diào)度、挖掘算法并行化技術(shù)的創(chuàng)新研究,有助于提升web數(shù)據(jù)挖掘的效率和精度,促進(jìn)我國數(shù)據(jù)挖掘水平不斷提升。

        參考文獻(xiàn)

        [1]王建明.云計(jì)算環(huán)境下對Web數(shù)據(jù)挖掘技術(shù)的研究[J].現(xiàn)代信息科技,2019,3(05):108-109+112.

        [2]張珍.云計(jì)算環(huán)境下的數(shù)據(jù)挖掘算法探究[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2019,221(05):61-62.

        作者簡介:

        田笑(1999-),女? 漢族 河南省開封人 河南大學(xué) 軟件學(xué)院 2017級本科生在讀 ,研究方向:軟件工程

        猜你喜歡
        云計(jì)算數(shù)據(jù)挖掘
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
        志愿服務(wù)與“互聯(lián)網(wǎng)+”結(jié)合模式探究
        云計(jì)算與虛擬化
        基于云計(jì)算的移動學(xué)習(xí)平臺的設(shè)計(jì)
        實(shí)驗(yàn)云:理論教學(xué)與實(shí)驗(yàn)教學(xué)深度融合的助推器
        云計(jì)算中的存儲虛擬化技術(shù)應(yīng)用
        科技視界(2016年20期)2016-09-29 13:34:06
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        數(shù)據(jù)挖掘的分析與探索
        河南科技(2014年23期)2014-02-27 14:18:43
        亚洲av综合日韩精品久久| 中文字幕乱码熟妇五十中出| 中文字字幕在线精品乱码| 成人黄色网址| 国产国拍亚洲精品午夜不卡17| 中文字幕久久人妻av| 操风骚人妻沉沦中文字幕| 人人妻人人澡人人爽欧美精品| 国产成年无码V片在线| 亚洲黄色官网在线观看| 日本一区二区精品高清| 九九热线有精品视频86| 精品四虎免费观看国产高清| 日本成人在线不卡一区二区三区 | 人人爽人人爱| 思思久久96热在精品不卡| 国产在线视频一区二区三区| 日日摸夜夜添夜夜添高潮喷水| 国产乱人伦av在线a| 91国际视频| 亚洲高清av一区二区| 国产激情视频免费在线观看| 国产精品无码成人午夜电影| 亚洲精品中文字幕不卡在线| 丝袜美腿一区在线观看| 玩弄白嫩少妇xxxxx性| 中文在线天堂网www| 久久久亚洲日本精品一区| 国产精品妇女一区二区三区| 国产福利一区二区三区在线观看| 岛国熟女一区二区三区| 蜜臀av一区二区三区| 好吊妞无缓冲视频观看| 无码不卡高清毛片免费| 亚洲精品女同在线观看| 夫妻免费无码v看片| 久久精品国产亚洲av忘忧草18 | 日韩手机在线免费视频| 美女草逼视频免费播放| 欧洲美女熟乱av| 国产一在线精品一区在线观看|