古險峰 王志
摘要:Web數(shù)據(jù)挖掘技術隨著互聯(lián)網(wǎng)的發(fā)展而不斷進步,并獲得了廣泛運用,而云計算技術則能夠促進數(shù)據(jù)存儲安全性與效率的提升.因此,本文將對云計算技術進行分析,并詳細探究云計算環(huán)境下的Web數(shù)據(jù)挖掘技術,希望可以為相關工作者的研究提供一些幫助.
關鍵詞:云計算環(huán)境;Web;數(shù)據(jù)挖掘;云計算技術
中圖分類號:TP311.14? 文獻標識碼:A? 文章編號:1673-260X(2019)09-0056-03
進入新時代后,隨著科學技術的發(fā)展,互聯(lián)網(wǎng)數(shù)據(jù)量逐漸增加,有效提取出海量數(shù)據(jù)中蘊含的有價值數(shù)據(jù)并運用于實際生活中具有重要意義,在這一過程中,Web數(shù)據(jù)挖掘技術發(fā)揮著關鍵作用.因此,必須了解云計算技術與數(shù)據(jù)挖掘特點、分類,并在云計算環(huán)境下,詳細分析Web數(shù)據(jù)挖掘算法,提高數(shù)據(jù)挖掘的準確性、有效性,從而為我國互聯(lián)網(wǎng)健康發(fā)展奠定基礎.
1 云計算技術分析
云計算是指以互聯(lián)網(wǎng)為基礎的服務增加、運用以及交互模式,一般會涉及通過互聯(lián)網(wǎng)來對具有動態(tài)、虛擬化以及易擴展等特點的資源進行提供[1].通常情況下,云計算主要包含兩種技術,即虛擬技術與并行編程技術.一方面,虛擬技術.對云計算而言,虛擬技術屬于一種重要技術,其能夠促進計算機資源抽象化邏輯與統(tǒng)一化表達的實現(xiàn),并且有利于信息利用率的提升,即不但能夠加大存儲容量,還可以對資源分配流程進行簡化,實現(xiàn)資源靈活分配.同時,這一技術還能夠為單個CPU對多個CPU并行處理進行模擬提供幫助,也就是可以通過一個服務器在同時間處理眾多任務,并且軟件程序還能夠在空間中運行,有利于計算機運行效率的提升.另一方面,并行編程技術.這一技術屬于同時編程新技術,相較于串行編程,主要區(qū)別就是在實際運用過程時選擇的是結構編程還是過程編程.并行編程技術就是在對程序進行編寫時,開發(fā)人員在實現(xiàn)程序并行運行的基礎上,促進各模塊通訊的實現(xiàn),在一定程度上能夠促進Web數(shù)據(jù)挖掘效率的提高.在云計算環(huán)境下,這一技術針對的是網(wǎng)絡信息較為密集的程序,也就是需要在各個節(jié)點中分布海量數(shù)據(jù),促進計算機并行處理的實現(xiàn),并利用眾多計算機,以此來提高數(shù)據(jù)挖掘質(zhì)量與效率.
2 云計算環(huán)境下的Web數(shù)據(jù)挖掘技術
2.1 Web數(shù)據(jù)挖掘特點與分類
2.1.1 特點
通過分析可知,Web數(shù)據(jù)的特點主要表現(xiàn)雜以下幾方面:首先,異構性.Web相當于數(shù)據(jù)源,其中全部節(jié)點都可以產(chǎn)生數(shù)據(jù),并且信息在結構與內(nèi)容方面都存在一定不同,并最終促進數(shù)據(jù)庫異構環(huán)境的形成.其次,動態(tài)靈活.對Web而言,其各節(jié)點的數(shù)據(jù)都呈現(xiàn)出動態(tài)靈活特點,并且節(jié)點信息的更新速度十分頻繁.同時,Web數(shù)據(jù)還表現(xiàn)出了復雜性特點,即其數(shù)據(jù)形式十分多元,主要涉及超鏈接、視頻、圖像以及文本等多種類型信息.再次,半結構化.由于Web數(shù)據(jù)有著較大復雜性,并且不具備統(tǒng)一描述模型,因此,整體結構主要呈現(xiàn)出來的是半結構化狀態(tài).最后,分布存儲.對Web而言,其是以網(wǎng)絡為基礎的,并且頁面能夠在各種計算機服務器中分布存儲,有利于數(shù)據(jù)分布存儲的實現(xiàn)[2].
2.1.2 分類
Web數(shù)據(jù)挖掘主要存在三種類型:首先,結構挖掘.這一挖掘是指對頁面結構中價值較高的信息進行挖掘,具體能夠被分成鏈接關系結構、內(nèi)容結構以及組織結構等.總而言之,結構挖掘主要流程就是在對Web結構進行挖掘時,詳細分析鏈接關系與頁面結構,找出其中有用信息,并做好鏈接及關系分類工作,從而明確權威頁面.其次,內(nèi)容挖掘.這一挖掘就是在海量的網(wǎng)頁或者是鏈接數(shù)據(jù)庫中對有價值信息進行提取的一個過程.在內(nèi)容類型方面,這一挖掘可以被分成兩種,即多媒體挖掘與文本挖掘,而二者之間最突出的不同就是數(shù)據(jù)提取特點;而在數(shù)據(jù)挖掘方式方面,內(nèi)容挖掘則可以被細分成數(shù)據(jù)庫挖掘與數(shù)據(jù)抽取挖掘,其中,數(shù)據(jù)庫挖掘是指在數(shù)據(jù)庫中對有價值信息進行挖掘,而抽取挖掘則針對的是已經(jīng)挖掘過的信息,通過抽取方式進一步挖掘價值較高的信息.最后,利用挖掘.這一挖掘主要就是挖掘分析用戶登錄訪問,即利用數(shù)據(jù)挖掘技術,促進網(wǎng)絡信息服務質(zhì)量與效率的大幅度提升,在Web服務器的性能參數(shù)完善方面發(fā)揮著重要作用.
2.2 以云計算為基礎的Web數(shù)據(jù)挖掘
2.2.1 數(shù)據(jù)挖掘體系
Web數(shù)據(jù)挖掘能夠被分成眾多節(jié)點,并且通過對云計算技術的利用,能夠進一步加強這一體系中各節(jié)點聯(lián)系,促進完善數(shù)據(jù)挖掘體系的形成.其中,主控節(jié)點主要是對各節(jié)點和客戶端進行連接;數(shù)據(jù)節(jié)點的作用是存儲數(shù)據(jù);算法節(jié)點則可以將有效算法支撐提供給數(shù)據(jù)挖掘,在一定程度上,能夠把其當作算法倉庫;而服務節(jié)點的作用就是對主控發(fā)布的任務進行執(zhí)行,并把計算結果反饋出來.基于這一挖掘體系功能,可以詳細劃分體系層面,即服務層、控制層、數(shù)據(jù)存儲層以及業(yè)務處理層等.首先,服務層就是利用這一體系對數(shù)據(jù)進行詳細挖掘,并向用戶呈現(xiàn)具體結果;其次,控制層中的主控節(jié)點需要做好用戶反饋結果的分析工作,明確最佳算法,以此來促進高效數(shù)據(jù)挖掘的實現(xiàn);再次,算法與存儲層主要工作就是對反饋回來的數(shù)據(jù)與算法進行存儲,其存儲的數(shù)據(jù)不但包含原始數(shù)據(jù),還涉及挖掘結果,有利于避免出現(xiàn)算法或者是數(shù)據(jù)丟失問題,即使系統(tǒng)發(fā)生了故障,也能夠通過對存儲區(qū)的利用及時獲得丟失數(shù)據(jù),并展開數(shù)據(jù)恢復工作;最后,業(yè)務處理層的作用就是挖掘存儲層中的數(shù)據(jù),并經(jīng)由主控點重新分配數(shù)據(jù),之后再通過服務節(jié)點重新回到主控節(jié)點中[3].
2.2.2 數(shù)據(jù)挖掘算法
Web數(shù)據(jù)挖掘技術就是在連接、網(wǎng)頁以及日志中對需要數(shù)據(jù)信息進行尋找的一種技術,而WebGraph則是重要數(shù)據(jù)結構之一,其能夠有效描述Web信息,在社交網(wǎng)絡、搜索結果排序以及網(wǎng)絡爬蟲等方面得到了廣泛運用,并發(fā)揮著重要作用.因此,本文研究的重點就是Graph算法,詳細探究了其數(shù)據(jù)結構,并分析了以云計算為基礎的Graph數(shù)據(jù)獲取方案,即加強對Hadoop這一份不是基礎框架的利用.Java是這一框架主要的語言,因此,本文將通過這一語言來對挖掘算法進行描述,這也就使得必須選擇相應數(shù)據(jù)模型,做好真實網(wǎng)絡鏈接關系的抽象描述.同時,由于WebGraph與Web鏈接分析都是以圖論算法為基礎的,因此,把其抽象成圖形分析能夠為數(shù)據(jù)處理分析提供較大便利[4].
首先,算法數(shù)據(jù)結構.Webgraph算法在分析數(shù)據(jù)時,必須借助相應數(shù)據(jù)描述方法.本文研究主要采取的是矩陣法來對數(shù)據(jù)進行描述,只需要嚴格遵循行列方式,做好各節(jié)點數(shù)據(jù)排列工作,就能夠促進網(wǎng)絡矩陣的形成,而矩陣階數(shù)則是網(wǎng)絡的節(jié)點數(shù).若這一算法是對網(wǎng)頁的鏈接關系模型進行描述,那么其邏輯關系則可以通過矩陣描述出來.對矩陣而言,其元素的作用就是判斷并表示出行、列標號節(jié)點之間是不是存在相應聯(lián)系.在取值方面,矩陣元素可以出現(xiàn)差異,主要目的就是對和各個節(jié)點存在各種程度的Graph進行表述,還可以通過對Graph的利用,將社交網(wǎng)絡中用戶關系充分表現(xiàn)出來.通常情況下,在社交網(wǎng)絡中,用戶關系屬于雙向的,也就是用戶只有互相認可,才能加為好友,這也就為通過對稱矩陣的利用來表述用戶關系數(shù)據(jù)結構提供了可能.另外,在高級語言中,還能夠通過二維數(shù)組對矩陣進行表述,因此,若需要采取高級語言來促進Graph處理算法的實現(xiàn),則可以把矩陣當作數(shù)據(jù)結構.
其次,數(shù)據(jù)存儲方式.本文分析的GraphML屬于具有穩(wěn)定性、長期性特點的信息存儲方案,并且以XML語言為基礎的GraphML則是對圖進行描述的一種通用文件格式.相較于其他專有文件格式,這一格式能夠完全由XML表示出來,并且大部分開發(fā)語言都可以對GraphML進行解析.在這一背景下,其在Graph生成、處理以及存儲等方面得到了廣泛運用.同時,GraphML還具有簡便、直觀等特點,可以為開發(fā)人員理解提供便利,并且在數(shù)據(jù)修改與分析方面,其還降低了一定難度,不但可以幫助開發(fā)人員修改,還能夠為程序開發(fā)奠定良好基礎[5].當前,常見Graph數(shù)據(jù)結構主要有分級圖、有向圖、圖形顯示、輕量級的語法分析器、超圖、有向無向共存圖、特定屬性數(shù)據(jù)以及無向圖等,而上述數(shù)據(jù)結構都能夠做好描述工作.
最后,數(shù)據(jù)抓取.以WebGraph算法為基礎的數(shù)據(jù)挖掘技術主要是利用頁面爬取方式來得到需要的頁面信息,之后再詳細分析其中的Web連接,并最終促進Graph結構的形成.運算量大是這一挖掘算法的突出特點,尤其是在對以文本為基礎的頁面鏈接任務進行分析時,必須會消耗眾多計算資源,而除Web頁面關聯(lián)之外,還可以通過對Graph結構的利用,完成顯示常見事物關聯(lián)的描述,也就是社交網(wǎng)絡用戶.在當前技術快速發(fā)展情況下,多樣化在線社交網(wǎng)絡得到了人們的重視,并滲入其日常生活.以Facebook為例,其注冊用戶遠遠大于20億,這也就使得其中蘊含著大量用戶關系,與挖掘算法研究對象需求相符.因此,本文研究將把Facebook用戶關系數(shù)據(jù)當作研究對象,詳細分析以云計算為基礎的Web數(shù)據(jù)挖掘技術.
一方面,應用程序創(chuàng)建.本文研究設計出了以Facebook為基礎的應用,其目的就是獲得相應的用戶關系.這一社交網(wǎng)站可以對程序編程的接口進行提供,能夠為研究人員程序開發(fā)提供便利,并使程序在Facebook上更好運行.而要想實現(xiàn)這一目的,則必須先獲得相應接口密鑰,即研發(fā)人員應該在Get Started這一站點得到相應開發(fā)資料,做好資料填寫與申請等流程,這樣,就能夠獲得相應的ID與密鑰,而在后續(xù)程序開發(fā)中,這些密鑰則占據(jù)著核心地位,發(fā)揮著重要作用.目前,F(xiàn)acebook官方已經(jīng)不再支持Java開發(fā)接口,這使得開發(fā)人員必須選擇第三方接口,但Google Code則創(chuàng)建了相應項目,其目的就是為失去支持的代碼庫提供維護與擴展,并將優(yōu)秀API提供給開發(fā)人員,從而進一步開發(fā)應用程序.另一方面,用戶關系獲取.要想促進用戶交互的實現(xiàn),就必須加強對Java Servlet的利用,完成和瀏覽器之間的通信.這也就意味著需要對Servlet類進行自定義,通常情況下,其與常規(guī)Web項目之間沒有不同,只需要將初始化的參數(shù)添加到相應的文件中.同時,為了準確獲取用戶關系數(shù)據(jù),必須先得到其好友數(shù)據(jù),當前,API將三種用戶好友列表登錄方式提供給了開發(fā)者,這三種方式的作用相同,僅在返回格式方式存在差異,主要有XML、JSON以及JAXB.因此,在具體研究過程中,本文只需要通過對堆棧結構的利用,做好大量用戶訪問工作,得到其關聯(lián)并存儲,就可以促進數(shù)據(jù)挖掘的實現(xiàn)[6].
3 結論
綜上所述,做好基于云計算環(huán)境的Web數(shù)據(jù)挖掘技術分析已經(jīng)成為一項重要工作.因此,必須掌握虛擬技術與并行編程技術等云計算技術,了解Web數(shù)據(jù)挖掘的異構性、動態(tài)靈活、分布存儲等特點與結構、內(nèi)容以及利用等類型,建立健全數(shù)據(jù)挖掘體系,并從算法數(shù)據(jù)結構、數(shù)據(jù)存儲方式以及數(shù)據(jù)抓取等方面入手,促進數(shù)據(jù)挖掘質(zhì)量與效率的提升.
——————————
參考文獻:
〔1〕朱娜.基于云計算技術的數(shù)據(jù)挖掘平臺設計與實現(xiàn)[J].信息記錄材料,2018,19(06):79-81.
〔2〕葛曉玢,劉杰.基于云計算的數(shù)據(jù)挖掘平臺架構及其關鍵技術研究[J].景德鎮(zhèn)學院學報,2017,32(03):26-29.
〔3〕薛醫(yī)貴.云計算在WEB數(shù)據(jù)挖掘技術中的應用研究[J].自動化與儀器儀表,2017(05):156-157+161.
〔4〕張耀東,張嫻靜.數(shù)據(jù)加密技術在計算機網(wǎng)絡通信安全中的應用分析[J].赤峰學院學報,2018(05):42-43.
〔5〕葛曉玢,劉杰.基于云計算的數(shù)據(jù)挖掘平臺架構及其關鍵技術研究[J].景德鎮(zhèn)學院學報,2017(03):26-29.
〔6〕陳磊.基于云計算的數(shù)據(jù)挖掘平臺架構及其關鍵技術研究[J].電腦編程技巧與維護,2017(06):64-65.