姜學(xué)文
(鄂州職業(yè)大學(xué)培訓(xùn)鑒定中心,湖北 鄂州 436000)
基于云計(jì)算環(huán)境的Web數(shù)據(jù)挖掘算法分析
姜學(xué)文
(鄂州職業(yè)大學(xué)培訓(xùn)鑒定中心,湖北 鄂州 436000)
本文對(duì)Web數(shù)據(jù)挖掘算法分析進(jìn)行了研究,首先簡述了云計(jì)算關(guān)鍵技術(shù),提出了如何在海量信息中提取出有用信息的重要性,其次指出了在云計(jì)算環(huán)境中進(jìn)行Web數(shù)據(jù)挖掘提供更多數(shù)據(jù)挖掘的解決方案,最后對(duì)云計(jì)算環(huán)境下Web數(shù)據(jù)挖掘常用算法進(jìn)行了探討。
云計(jì)算;Web;數(shù)據(jù)挖掘;算法
在Web網(wǎng)頁中存儲(chǔ)了眾多重要的數(shù)據(jù),如何在海量Web數(shù)據(jù)中挖掘到有用信息至關(guān)重要。在互聯(lián)網(wǎng)迅速發(fā)展的背景下,Web數(shù)據(jù)信息呈現(xiàn)大爆炸的趨勢(shì),網(wǎng)絡(luò)環(huán)境也日趨復(fù)雜,傳統(tǒng)的Web數(shù)據(jù)挖掘算法難以實(shí)現(xiàn)有效的數(shù)據(jù)挖掘。云計(jì)算能夠?qū)崿F(xiàn)海量數(shù)據(jù)的處理和計(jì)算,可以為Web數(shù)據(jù)挖掘提供多種解決方案。
2.1 云計(jì)算概念
云計(jì)算技術(shù)是在分布式計(jì)算、并行計(jì)算以及網(wǎng)絡(luò)計(jì)算基礎(chǔ)上新提出的一種共享型編程結(jié)構(gòu)方法。云計(jì)算以互聯(lián)網(wǎng)為依托,能夠?yàn)橛脩籼峁┯布?wù)、軟件服務(wù)、存儲(chǔ)服務(wù)和計(jì)算服務(wù),用戶可以利用遠(yuǎn)程服務(wù)器來根據(jù)任務(wù)需求訪問計(jì)算機(jī)存儲(chǔ)系統(tǒng),可以有效提升計(jì)算機(jī)軟硬件資源的利用效率。云計(jì)算是網(wǎng)絡(luò)技術(shù)和傳統(tǒng)計(jì)算機(jī)計(jì)算方法結(jié)合的產(chǎn)物,其擴(kuò)展性較強(qiáng),能夠?qū)崿F(xiàn)對(duì)海量數(shù)據(jù)的有效處理,而在網(wǎng)絡(luò)迅速發(fā)展的背景下,Web數(shù)據(jù)量逐漸增多,這就給Web數(shù)據(jù)挖掘計(jì)算帶來了困難,而在云計(jì)算環(huán)境下,Web數(shù)據(jù)挖掘計(jì)算復(fù)雜的問題可以迎刃而解。
2.2 云計(jì)算關(guān)鍵技術(shù)
2.2.1 分布式存儲(chǔ)技術(shù)
在云計(jì)算環(huán)境中,通過分布式存儲(chǔ)方式來進(jìn)行數(shù)據(jù)存儲(chǔ),通過冗余存儲(chǔ)能夠有效保證數(shù)據(jù)存儲(chǔ)的可靠性,通過軟件的可靠性來彌補(bǔ)硬件存在的不足,這就有效保證了數(shù)據(jù)存儲(chǔ)的經(jīng)濟(jì)性。
2.2.2 數(shù)據(jù)管理技術(shù)
云計(jì)算環(huán)境中需要對(duì)大數(shù)據(jù)集進(jìn)行分析處理,以此來保證服務(wù)的高效性,這就對(duì)數(shù)據(jù)管理提出了更高的要求,云計(jì)算的數(shù)據(jù)管理技術(shù)能夠有效處理海量數(shù)據(jù),能夠?qū)崿F(xiàn)在海量數(shù)據(jù)中尋找到特定數(shù)據(jù)的功能。
2.2.3 虛擬化技術(shù)
云計(jì)算虛擬化技術(shù)隔離應(yīng)用系統(tǒng)的硬件、網(wǎng)絡(luò)、軟件、數(shù)據(jù)等各個(gè)層面,保證架構(gòu)的動(dòng)態(tài)化,實(shí)現(xiàn)對(duì)計(jì)算資源的集中管理和調(diào)配,其不僅能夠?qū)ξ锪Y源進(jìn)行管理,還能夠?qū)μ摂M資源進(jìn)行管理,有效提升了結(jié)構(gòu)彈性,降低了計(jì)算資源管理成本,對(duì)于保證服務(wù)質(zhì)量有著重要的意義[1]。
2.2.4 并行編程技術(shù)
云計(jì)算資源的高效利用是保證用戶更方便享受云計(jì)算服務(wù)的基礎(chǔ),這就對(duì)編程模型提出了更高的要求,編程模型要能夠在后臺(tái)進(jìn)行并行執(zhí)行,實(shí)現(xiàn)后臺(tái)對(duì)任務(wù)進(jìn)行調(diào)度,且編程模型要對(duì)編程人員和用戶透明化。云計(jì)算采用編程模式為MapReduce,實(shí)現(xiàn)對(duì)任務(wù)的劃分,其編程主要分為兩個(gè)步驟,分別是Map步驟和Reduce步驟,這兩個(gè)步驟能夠?qū)澐值淖尤蝿?wù)分配到系統(tǒng)大量的計(jì)算節(jié)點(diǎn)中,這就實(shí)現(xiàn)了對(duì)任務(wù)的有效調(diào)度和分配,保證了云計(jì)算資源的高效利用,從而能夠提供給用戶更加方便、快捷的云計(jì)算服務(wù)。
3.1 Web數(shù)據(jù)挖掘概述
數(shù)據(jù)挖掘就是從海量信息中提取對(duì)人們有用信息的過程,這些有用的信息是隱含的,可能是用戶事先不知道的,有用信息的形式是多樣化的,可能是概念信息、規(guī)則信息,也可能是規(guī)律信息、模式信息。數(shù)據(jù)挖掘過程中涉及到對(duì)數(shù)據(jù)及數(shù)據(jù)關(guān)系的考察和建模,涉及到許多數(shù)據(jù)或數(shù)據(jù)關(guān)系的計(jì)算,將大容量數(shù)據(jù)轉(zhuǎn)化為有用信息[2]。
Web數(shù)據(jù)挖掘是指的是從文檔結(jié)構(gòu)和使用結(jié)構(gòu)中挖掘有用信息的過程,其涉及到的技術(shù)涵蓋多個(gè)領(lǐng)域,例如數(shù)據(jù)庫領(lǐng)域、統(tǒng)計(jì)學(xué)領(lǐng)域、神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)領(lǐng)域等。
3.2 Web數(shù)據(jù)特點(diǎn)
Web數(shù)據(jù)有著自身的特點(diǎn),具體來說體現(xiàn)在以下幾個(gè)方面:①異構(gòu)數(shù)據(jù)庫環(huán)境:在Web中,每一個(gè)站點(diǎn)都可能產(chǎn)生數(shù)據(jù),都相當(dāng)于一個(gè)數(shù)據(jù)源,這些數(shù)據(jù)源都是異構(gòu)的,其信息和組織都存在著差異性,從而構(gòu)成了異構(gòu)數(shù)據(jù)庫環(huán)境;②分布式特點(diǎn):Web以互聯(lián)網(wǎng)為基礎(chǔ),其頁面能夠分布在世界各地的Web服務(wù)器之上,這就決定了數(shù)據(jù)源的分布式特點(diǎn);③半結(jié)構(gòu)化:Web上的數(shù)據(jù)異常復(fù)雜,沒有一個(gè)統(tǒng)一的模型來對(duì)數(shù)據(jù)進(jìn)行描述,其結(jié)構(gòu)化不完全,常常呈現(xiàn)出半結(jié)構(gòu)化數(shù)據(jù)的形式化[3];④動(dòng)態(tài)性:Web各個(gè)站點(diǎn)的動(dòng)態(tài)性較強(qiáng),每一個(gè)站點(diǎn)的鏈接信息、訪問記錄信息等信息的更新是十分快速和頻繁的;⑤復(fù)雜性:Web包含的數(shù)據(jù)和信息形式是多樣的、復(fù)雜的,有文本信息、圖表信息、圖像信息、超文本信息、音頻信息、視頻信息等多種復(fù)雜的多媒體數(shù)據(jù)信息。
3.3 Web數(shù)據(jù)挖掘分類
3.3.1 內(nèi)容挖掘
Web內(nèi)容挖掘就是從大量的Web頁面、頁面鏈接所指向內(nèi)容及數(shù)據(jù)庫中數(shù)據(jù)發(fā)現(xiàn)并提取有用信息的過程。Web內(nèi)容挖掘可以分為文本挖掘和多媒體挖掘兩種形式,這兩種內(nèi)容挖掘形式在數(shù)據(jù)信息提取特征上有著一定的差異性。而從具體的挖掘方法上來看,Web內(nèi)容挖掘主要可以分為信息抽取方法和數(shù)據(jù)庫方法,數(shù)據(jù)庫方法能夠從數(shù)據(jù)庫中數(shù)據(jù)來搜索信息、發(fā)現(xiàn)信息,通過信息抽取方法能夠?qū)?shù)據(jù)庫中的有用信息進(jìn)行抽取,從而實(shí)現(xiàn)有用數(shù)據(jù)的挖掘。
3.3.2 結(jié)構(gòu)挖掘
Web結(jié)構(gòu)挖掘就是從Web結(jié)構(gòu)中挖掘有用信息的過程,Web結(jié)構(gòu)主要可以分為組織結(jié)構(gòu)、文檔結(jié)構(gòu)以及Web鏈接關(guān)系結(jié)構(gòu)等,具體來說,在分析Web結(jié)構(gòu)的過程中,能夠?qū)撁娼Y(jié)構(gòu)和鏈接關(guān)系進(jìn)行分析,在二者之間能夠發(fā)現(xiàn)隱含的有用模式,同時(shí)可以實(shí)現(xiàn)對(duì)鏈接以及鏈接頁面的分類,從中發(fā)現(xiàn)并挖掘出權(quán)威頁面,這就是Web結(jié)構(gòu)挖掘的主要過程。
3.3.3 使用挖掘
Web使用挖掘指的是對(duì)用戶訪問模式挖掘的過程,其依賴于數(shù)據(jù)挖掘技術(shù),能夠有效提升網(wǎng)絡(luò)信息服務(wù)質(zhì)量,對(duì)于改進(jìn)Web服務(wù)器性能也有著重要的作用。
近年來,互聯(lián)網(wǎng)技術(shù)的發(fā)展迅猛,在Web結(jié)構(gòu)信息中隱藏著眾多的信息,這就需要尋找高效率的算法來從海量的信息中尋找并選擇有效的信息,下面本文簡要介紹兩種云計(jì)算環(huán)境下Web數(shù)據(jù)挖掘的常用算法。
4.1 PageRank算法
PageRank算法是拉里·佩奇提出的Web結(jié)構(gòu)挖掘經(jīng)典算法,在谷歌搜索引擎中有著重要的應(yīng)用,且取得了重大的成果。PageRank算法的核心思想是對(duì)網(wǎng)頁進(jìn)行評(píng)價(jià),之后對(duì)每一個(gè)網(wǎng)頁進(jìn)行合理的權(quán)值分配,這樣每一個(gè)網(wǎng)頁都有著不同的權(quán)值,最后根據(jù)權(quán)值的大小和高低來對(duì)網(wǎng)頁進(jìn)行排序,這樣網(wǎng)頁就能夠根據(jù)權(quán)值的高低確定一個(gè)顯示順序,權(quán)值越高的網(wǎng)頁越優(yōu)先被顯示出來。在確定權(quán)值的過程中,入鏈頁面和出鏈頁面共同決定權(quán)值,具體來說,其算法可以進(jìn)行如下描述:①網(wǎng)頁之間的權(quán)值可以通過入鏈網(wǎng)頁的方式進(jìn)行傳遞,這里的權(quán)值指的就是PageRank值,也就是說,如果一個(gè)網(wǎng)頁的入鏈頁面越多,則此網(wǎng)頁的權(quán)值就越大,說明此網(wǎng)頁的重要性越大[4];②如果一個(gè)權(quán)值較大的網(wǎng)頁是(設(shè)為網(wǎng)頁i)另一個(gè)網(wǎng)頁(設(shè)為網(wǎng)頁j)的入鏈網(wǎng)頁,那么則說明網(wǎng)頁j比網(wǎng)頁i的權(quán)值更大,網(wǎng)頁j的重要性更大。
網(wǎng)頁的PageRank值不僅受到其入鏈網(wǎng)頁P(yáng)ageRank值的影響,同時(shí)也會(huì)受到其出鏈網(wǎng)頁數(shù)目的影響,如果一個(gè)網(wǎng)頁是其他多個(gè)網(wǎng)頁的入鏈網(wǎng)頁,則其他多個(gè)網(wǎng)頁會(huì)平均分配這個(gè)網(wǎng)頁的PageRank值。其初始定義公式如下:
在公式中,R(i)表示i網(wǎng)頁的PageRank值,R(j)表示j網(wǎng)頁的PageRank值,b(i)表示所有i的入鏈網(wǎng)頁,N(j)表示j網(wǎng)頁的超鏈接數(shù),而C則是常數(shù)項(xiàng)。
互聯(lián)網(wǎng)超鏈接結(jié)構(gòu)有著一定的特殊性,其冪法的收斂受到封閉情況的影響,如果出現(xiàn)封閉,則冪法的收斂將受到限制,不能收斂,其中封閉指的是網(wǎng)頁之間互相為對(duì)方的入鏈網(wǎng)頁,但不是其他的入鏈網(wǎng)頁,這樣一來冪法將不會(huì)收斂,在進(jìn)行網(wǎng)頁P(yáng)ageRank值計(jì)算的過程中會(huì)出現(xiàn)不斷累加的情況,結(jié)果收斂受到限制,在點(diǎn)擊網(wǎng)頁的過程中,如果沿著鏈接點(diǎn)進(jìn)行點(diǎn)擊,則不會(huì)轉(zhuǎn)換到其他網(wǎng)頁中,而是在互為入鏈網(wǎng)頁的幾個(gè)網(wǎng)頁中徘徊,這就對(duì)PageRank值算法提出了更高的要求,為了避免這種情況出現(xiàn),需要對(duì)上述公式進(jìn)行改進(jìn),增加一個(gè)逃脫因子,以此來保證冪法能夠收斂,保證在點(diǎn)擊網(wǎng)頁的過程中能夠跳轉(zhuǎn)到除了互為入鏈網(wǎng)頁的幾個(gè)網(wǎng)頁之外的其他網(wǎng)頁中[5]。改進(jìn)之后的公式如下:
4.2 MapReduce算法
從本質(zhì)上來講,MapReduce是在云計(jì)算環(huán)境下的歸并算法,是一種編程的模型,在計(jì)算的過程中應(yīng)用了函數(shù)式的編程語言,在編程的過程中,編程人員能夠很方便地將自己編寫的程序在分布式系統(tǒng)中運(yùn)行,計(jì)算過程主要分為兩個(gè)步驟:第一個(gè)步驟是映射計(jì)算過程,第二個(gè)步驟是歸并計(jì)算過程,實(shí)現(xiàn)對(duì)數(shù)據(jù)信息的拆分,數(shù)據(jù)信息拆分之后會(huì)轉(zhuǎn)化為鍵值,之后就能夠?qū)崿F(xiàn)對(duì)數(shù)據(jù)的傳遞。而在數(shù)據(jù)信息傳遞的過程中,涉及到系統(tǒng)的架構(gòu),具體來說如下:
4.2.1 服務(wù)層
服務(wù)層對(duì)應(yīng)著客戶端,其主要功能是對(duì)客戶端的任務(wù)要求進(jìn)行接收,并將數(shù)據(jù)挖掘結(jié)果傳遞給客戶端。
4.2.2 控制層
控制層對(duì)應(yīng)著主控節(jié)點(diǎn),在Web數(shù)據(jù)挖掘的過程中,主控節(jié)點(diǎn)控制所有的挖掘,控制層是整個(gè)數(shù)據(jù)挖掘系統(tǒng)最為關(guān)鍵的部分,客戶端的任務(wù)要求經(jīng)過服務(wù)層來傳遞給控制層的主控節(jié)點(diǎn),主控節(jié)點(diǎn)根據(jù)具體的任務(wù)要求來選擇數(shù)據(jù)挖掘算法,選擇的算法會(huì)由算法節(jié)點(diǎn)發(fā)送至存儲(chǔ)原數(shù)據(jù)的存儲(chǔ)器中,在數(shù)據(jù)挖掘完成之后,計(jì)算結(jié)果會(huì)傳送至客戶端。
4.2.3 數(shù)據(jù)挖掘?qū)?/p>
數(shù)據(jù)挖掘?qū)訉?duì)應(yīng)著算法節(jié)點(diǎn)和服務(wù)節(jié)點(diǎn),各種云計(jì)算環(huán)境下的數(shù)據(jù)挖掘算法都存儲(chǔ)在數(shù)據(jù)挖掘?qū)又?,主控?jié)點(diǎn)就是在數(shù)據(jù)挖掘?qū)又衼磉x擇合適算法的。
4.2.4 存儲(chǔ)層
存儲(chǔ)層對(duì)應(yīng)著存儲(chǔ)節(jié)點(diǎn),Web會(huì)收集到各種類型的文件,而存儲(chǔ)層的主要功能就是將這些文件進(jìn)行解析,從而變?yōu)閄ML文件,系統(tǒng)的癱瘓會(huì)導(dǎo)致數(shù)據(jù)的癱瘓,為了避免數(shù)據(jù)癱瘓所造成的數(shù)據(jù)丟失,存儲(chǔ)層還有著對(duì)XML文件復(fù)制的功能[6]??蛻舳嗽紨?shù)據(jù)以及挖掘計(jì)算后的結(jié)果都存儲(chǔ)在存儲(chǔ)層中,如果系統(tǒng)出現(xiàn)崩潰等問題,數(shù)據(jù)也能夠在緩存中存儲(chǔ),能夠有效地實(shí)現(xiàn)文件恢復(fù),避免了數(shù)據(jù)丟失。
隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,Web數(shù)據(jù)信息量日漸增多,Web網(wǎng)頁中存儲(chǔ)著大量的重要數(shù)據(jù)信息,如何在海量信息中提取出有用的信息至關(guān)重要,這就對(duì)Web數(shù)據(jù)挖掘提出了更高的要求。PageRank算法適用于統(tǒng)計(jì)Web文檔中的字段出現(xiàn)次數(shù),計(jì)算網(wǎng)站的平均響應(yīng)時(shí)間;MapReduce算法適用于根據(jù)關(guān)鍵字key構(gòu)建網(wǎng)站的索引排序。這兩個(gè)算法是Web數(shù)據(jù)挖掘算法中常用的算法,可以幫助使用者在云環(huán)境中更快地查找到相應(yīng)的數(shù)據(jù)信息。
[1]張?chǎng)危甒EB數(shù)據(jù)挖掘在云計(jì)算環(huán)境下的研究[J].?dāng)?shù)字技術(shù)與應(yīng)用,2013(03):92.
[2]王勃,徐靜.基于云計(jì)算的Web數(shù)據(jù)挖掘Map/Reduce算法的研究[J].計(jì)算機(jī)與數(shù)字工程,2014(07):1157-1159+1164.
[3]李悅,高晶,雷鳴.基于云計(jì)算技術(shù)的Web數(shù)據(jù)挖掘的算法研究[J].科技資訊,2014(18):17.
[4]黃佳倩,何明昌,盛麗芬,等.基于云計(jì)算的移動(dòng)學(xué)習(xí)平臺(tái)[J].2015(3):40-43.
[5]劉輝.基于云計(jì)算的網(wǎng)絡(luò)學(xué)習(xí)資源共建共享關(guān)鍵技術(shù)研究[J].電腦與電信,2015(6):19-20.
Analysis of Web Data MiningAlgorithm Based on cloud computing
Jiang Xuewen
(Ezhou Polytechnic,Ezhou 436000,Hubei)
In this paper the Web data mining analysis algorithm is studied.At first,this paper introduces the cloud computing key technology,proposed how the mass of information extract useful information of importance,followed by that of the in cloud computing environment for Web data mining provides more data mining solutions.Finally,on cloud computing environment Web Data Mining algorithms commonly used are discussed.
cloud computing;Web;data mining;algorithm
TP311.13
A
1008-6609(2016)05-0051-03
姜學(xué)文,男,湖北鄂州人,大學(xué)本科,講師,研究方向:軟件工程、數(shù)據(jù)庫等。