亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        云計算背景下的web數(shù)據(jù)挖掘技術(shù)分析

        2014-12-31 00:00:00王妤姝
        計算機光盤軟件與應(yīng)用 2014年16期

        摘 要:在計算機技術(shù)不斷完善與創(chuàng)新得背景下,web數(shù)據(jù)挖掘技術(shù)得到得廣泛得運用。近年來,云計算得迅速發(fā)展使得在數(shù)據(jù)存儲方面的性能方面具有明顯提升。因此在云計算背景下研究web數(shù)據(jù)挖掘技術(shù)具有重要意義,在對云計算的應(yīng)用與特征,web技術(shù)進行分析后,對兩者的結(jié)合進行了進一步分析與闡述。

        關(guān)鍵詞:云計算;數(shù)據(jù)挖掘;web

        中圖分類號:TP311.13

        在軟件技術(shù),網(wǎng)絡(luò)技術(shù)以及并行計算技術(shù)多方面高速發(fā)展的背景下,產(chǎn)生了云計算技術(shù)。在較短的時間內(nèi),云計算技術(shù)無論在科研價值還是在商業(yè)價值方面都得到了肯定,而在云計算技術(shù)當中對于web的價值也給予很大的肯定,因此對基于云計算背景下的web數(shù)據(jù)挖掘技術(shù)對于未來發(fā)展的趨勢具有重要意義。

        1 云計算的應(yīng)用與技術(shù)特征

        1.1 云計算的應(yīng)用現(xiàn)狀

        自上世紀末以來,伴隨著網(wǎng)站、業(yè)務(wù)系統(tǒng)等業(yè)務(wù)量逐漸增多,給予web2.0帶來了更多的機遇與挑戰(zhàn)。特別是針對一些觀看視頻和共享照片的網(wǎng)站來說,對于用戶的數(shù)據(jù)具有較大的需求。在云計算到達本土后,截止到現(xiàn)在中國已經(jīng)成為了全球范圍內(nèi)最大的應(yīng)用市場,同時中國還擁有全世界規(guī)模最大,覆蓋范圍最廣的設(shè)備。當前運用云計算技術(shù)的軟件日益增多,例如亞馬遜的EC2、S3以及SQS等,除此之外還有谷歌的GFS、Bigtable、以及App Engine等。

        1.2 云計算的技術(shù)分析

        作為一種超級計算,云計算在計算方式方面與其他類型存在著較大的差異,云計算是以數(shù)據(jù)為核心而進行管理。與一般的計算技術(shù)不同的是,無論在數(shù)據(jù)存儲和管理,還是在數(shù)據(jù)的編程方式上都具有眾多優(yōu)點,具體主要包含以下幾方面:(1)大量分布式存儲技術(shù)。作為云計算技術(shù)的核心,大量分布式存儲技術(shù)具有效率高,準確率高以及性價比高等特征。特別是在硬件方面往往會存在一定的漏洞,那么通過大量分布式存儲技術(shù)對其精準性方面進行了完善,除此之外在實用性方面也占有較大的優(yōu)勢。(2)數(shù)據(jù)管理技術(shù)。在數(shù)據(jù)管理技術(shù)方面,云計算背景下的數(shù)據(jù)管理可以對大數(shù)據(jù)進行隨時監(jiān)控與跟蹤,并且可以在需要的時候?qū)?shù)據(jù)進行處理,進而達到高效云計算的特征。此外還可以在云計算的數(shù)據(jù)庫中對想要搜尋的信息迅速查找??傊谠朴嬎惚尘跋?,數(shù)據(jù)管理技術(shù)占據(jù)重要地位。(3)并行編程模式。在后臺編程控制方面,是整個云計算系統(tǒng)的重要支柱,那么在對云計算技術(shù)實施的過程中,需要進行合理的操作后才可以促進云計算技術(shù)在互聯(lián)網(wǎng)中盡情的施展與發(fā)揮,同時從用戶的角度考慮也可以更方便與快捷的訪問數(shù)據(jù)。當前較為流行的編程模式是Map-Reduce,其具體流程是設(shè)計之前形成樹枝狀的結(jié)構(gòu),并且在分支當中,運用Map和Reduce等方式來執(zhí)行。(4)虛擬化技術(shù)。作為云計算的核心技術(shù),它得主要得功能是對計算機中得資源進行合理分配,虛擬化技術(shù)可以將不同類別得軟件,硬件,存儲,數(shù)據(jù)以及網(wǎng)絡(luò)等方面獨立,最終達到對系統(tǒng)內(nèi)部得服務(wù)器,存儲系統(tǒng)以及數(shù)據(jù)庫進行分解,形成一種穩(wěn)定得,動態(tài)得體系結(jié)構(gòu)。在虛擬化技術(shù)得背景下,可對云計算所使用得無力資源和虛擬資源合理分配??傊?,在云計算當中虛擬化技術(shù)不但融合了其他體系結(jié)構(gòu)得靈活性,更重要得是具有很好得彈性,進而在節(jié)約部分開支得過程中,合理避開云計算所面臨得風險。

        2 web數(shù)據(jù)挖掘的發(fā)展現(xiàn)狀

        2.1 web數(shù)據(jù)挖掘的概念及流程

        所謂web數(shù)據(jù)挖掘,就是指通過數(shù)據(jù)挖掘技術(shù)從web文檔中的信息提取,或者是對一些信息未來的發(fā)展趨勢進行預(yù)測與分析。但值得注意的是web挖掘技術(shù)雖然采用了眾多技術(shù),而不是單一的采取某項應(yīng)用。

        關(guān)于web數(shù)據(jù)挖掘技術(shù)的流程,主要包含以下幾個方面:由于web數(shù)據(jù)挖掘技術(shù)是整體的過程,但是想要將數(shù)據(jù)挖掘技術(shù)融入到web網(wǎng)頁當中,還需要不斷的完善與改進。當前web數(shù)據(jù)挖掘技術(shù)的流程包含查找資源,信息選擇和預(yù)處理以及模式發(fā)現(xiàn)三個過程。在查找資源階段,其核心是在web文檔中的數(shù)據(jù)進行分析,但是web的文檔中并不可以包含所有的數(shù)據(jù),除此之外還有電子文檔,新聞組以及網(wǎng)站中所包含的日志等。在信息選擇和預(yù)處理階段,其目標所在web資源中的信息進行篩選,將一些沒有必要或者沒用的信息進行刪除,例如對web中的多余鏈接和廣告刪除。最后,在模式發(fā)現(xiàn)階段,作為web數(shù)據(jù)挖掘的最后階段,主要功能是自動進行篩選與發(fā)現(xiàn)。此階段的實施除了機器自動完成外,還可以通過人工的方式來進行驗證。

        2.2 web數(shù)據(jù)挖掘的分類

        當前根據(jù)興趣類別不同來進行區(qū)分,主要可以包含三個類別,分別是web結(jié)構(gòu)挖掘,web內(nèi)容挖掘以及web用法挖掘等三個方面。在web結(jié)構(gòu)挖掘方面,其原理是從網(wǎng)站當中的頁面結(jié)構(gòu)和組織結(jié)構(gòu)中包含的內(nèi)容,并且在對web頁面中的結(jié)構(gòu)進行挖掘,并且在結(jié)構(gòu)中的數(shù)據(jù)鏈中的分類,聚類進行分析,最終達到對搜索引擎進行改進的目標。在web內(nèi)容挖掘方面,主要包含圖像,文本,視頻以及音頻等方面的數(shù)據(jù),從文本角度來區(qū)分包含文本挖掘和多媒體挖掘。最后,在web用法挖掘當中,通過對web中的日志記錄進行解析,通過日志記錄中的信息,對用戶的類別進行分析,最終可根據(jù)用戶的分類來發(fā)現(xiàn)潛在的用戶。

        3 云計算背景下的web數(shù)據(jù)挖掘技術(shù)分析

        通過對云計算技術(shù)和數(shù)據(jù)挖掘技術(shù)進行分析后,可以看出web數(shù)據(jù)挖掘技術(shù)已經(jīng)廣泛的應(yīng)用于云計算技術(shù)當中。具體來說,在搜索引擎,電子商務(wù)以及網(wǎng)絡(luò)安全等方面也取得了技術(shù)人員與用戶的認可。特別的,基于云計算技術(shù)的背景下,運用比較廣泛的有服務(wù)型計算密集型的應(yīng)用程序,服務(wù)型的網(wǎng)絡(luò)業(yè)務(wù)以及服務(wù)型的web2.0的應(yīng)用程序。以上技術(shù)與傳統(tǒng)的挖掘技術(shù)存在較大的差別,也包含一些相同之處,例如在云計算背景下的數(shù)據(jù)挖掘也需要進行數(shù)據(jù)的預(yù)處理、挖掘、分析以及對結(jié)果的評估等內(nèi)容都是必不可少的??傊?,在云計算背景下的web數(shù)據(jù)挖掘技術(shù)與傳統(tǒng)的挖掘技術(shù)在數(shù)據(jù)庫方面沒有較大的改變。在云計算背景下的web數(shù)據(jù)挖掘技術(shù)主要需兩個步驟:

        3.1 數(shù)據(jù)的收集和處理

        數(shù)據(jù)的收集和處理主要的任務(wù)是對用戶所訪問的數(shù)據(jù)和web的訪問相關(guān)數(shù)據(jù)進行剖析。在云計算背景下,以網(wǎng)絡(luò)為基礎(chǔ)的數(shù)據(jù)分析,篩選以及整合等內(nèi)容進行完善。同時還可以將web中所包含的數(shù)據(jù)轉(zhuǎn)換為xml文件,最終將其保存到分布式文件的整體當中。正如前文所說,前段時間谷歌企業(yè)推出的Map-Reduce新型并行編程技術(shù),通過該技術(shù)將數(shù)據(jù)的流程可分為兩個階段,分別是Map階段和Reduce階段。通過Map-Reduce技術(shù)可以搜尋到更完善的數(shù)據(jù),并且通過窗口技術(shù)對數(shù)據(jù)進行分離后,并且將滿足條件的動態(tài)數(shù)據(jù)進行連續(xù)性的靜態(tài)狀況呈現(xiàn)于窗口內(nèi)。但是值得注意的是,該系統(tǒng)并不具有數(shù)據(jù)收集與存儲等功能,甚至還會牽扯到一些歷史統(tǒng)計的數(shù)據(jù),對系統(tǒng)存在一定的影響。

        3.2 數(shù)據(jù)存儲

        在對數(shù)據(jù)的收集和處理后,需要對數(shù)據(jù)進行存儲以便于后期的使用,在存儲的過程中,需要具有高效的云計算技術(shù)作為支撐,并且在存儲的過程中還需要注意存儲中節(jié)點的實效,具體可以通過冗余的方式來對數(shù)據(jù)的穩(wěn)定性和可靠性進一步完善。當前以云計算為基礎(chǔ)的數(shù)據(jù)存儲的范圍內(nèi),其中非開源系統(tǒng)中具有影響力的是谷歌旗下的gfs,而開源系統(tǒng)中具有影響力的是hadoop企業(yè)所開發(fā)的hdfs系統(tǒng)??傊?,在計算機技術(shù)不斷發(fā)展的背景下,基于云計算的web數(shù)據(jù)挖掘技術(shù)已經(jīng)得到了廣泛的運用,在提升搜索效率的同時,使得數(shù)據(jù)處理的效率也明顯的提升。

        4 結(jié)束語

        通過對云計算技術(shù)與web挖掘技術(shù)進行剖析后,認為在云計算背景下的web數(shù)據(jù)挖掘技術(shù)具有很好的發(fā)展空間,在以后的工作中應(yīng)加大web數(shù)據(jù)挖掘技術(shù)的研究力度,為云計算的發(fā)展做出貢獻。

        參考文獻:

        [1]曹步文,陳娟,喻旭東.XML與面向Web的數(shù)據(jù)挖掘技術(shù)[J].微計算機信息,2010(24).

        [2]李凱,常征.基于云計算的并行數(shù)據(jù)挖掘系統(tǒng)設(shè)計與實現(xiàn)[J].微計算機信息,2011(06).

        [3]張誠,郭毅.數(shù)據(jù)挖掘與云計算——專訪中國科學院計算技術(shù)研究所何清博士[J].數(shù)字通信,2011(03).

        作者單位:四川行政學院,成都 610041

        黑丝美女喷水在线观看| 日韩人妻一区二区三区蜜桃视频| 国产亚洲2021成人乱码| 97影院在线午夜| 国产精品国产午夜免费福利看| 亚洲av一二三四又爽又色又色| 东风日产车是不是国产的| 无遮挡1000部拍拍拍免费| 东京热人妻无码一区二区av | 国产色视频一区二区三区不卡 | 午夜爽爽爽男女免费观看影院| 免费无遮挡禁18污污网站| 一本到在线观看视频| 中国少妇×xxxx性裸交| 特级无码毛片免费视频尤物| 四虎成人精品无码永久在线| 性感人妻中文字幕在线| 日本免费看片一区二区三区| 女人高潮久久久叫人喷水| 国产成人av片在线观看| 国产精品亚洲片夜色在线 | 超高清丝袜美腿视频在线| 久久久精品国产三级精品| 精品无码av一区二区三区不卡| 国产成人精品综合在线观看| 国产极品美女高潮抽搐免费网站| 亚洲区福利视频免费看| 美艳善良的丝袜高跟美腿| 黑人巨茎大战俄罗斯美女| 久久久久久久久888| 麻豆国产成人AV网| 日本三区在线观看视频| 日韩大片高清播放器大全| 国产熟女露脸大叫高潮| 精品国产精品久久一区免费式| AV在线中出| 91久久精品一区二区| 私人vps一夜爽毛片免费| 免费观看黄网站| 亚州五十路伊人网| 精品国产乱子伦一区二区三|