陳 霄
(廣州體育職業(yè)技術學院,廣東 廣州 510650)
基于云計算數據庫的數據挖掘方法分析
陳 霄
(廣州體育職業(yè)技術學院,廣東 廣州 510650)
隨著互聯網的不斷發(fā)展,云計算數據庫成為人們使用最多的一個平臺。云計算數據庫主要用于存儲海量數據,為了保證云計算數據庫的穩(wěn)定性,需要對其進行調節(jié)。人們在利用傳統方法對云計算數據庫進行訪問時,常會出現數據挖掘性能差的情況,為了解決這一問題,需要建立全新的數據挖掘方法,比如建立云計算數據庫的多層自回歸矢量空間模型,分析數據的特點。文章主要闡述云計算的概念及特點,分析云計算數據庫的數據挖掘方法,提出基于云計算數據庫的數據挖掘策略。
云計算;數據庫;數據挖掘
1.1 云計算的概念
對于云計算的定義有很多,其中最具有代表性的是:一些具有虛擬的資源的負載量是不一樣的,云計算可以把這些資源的不同量進行新的配置,是一個具有大量虛擬資源的承載盤。云計算的用戶可以根據自己的需要去獲取資源,但是在使用的過程中由于對云計算的了解不夠全面,很容易出現一些問題導致計算機超載使整個系統崩潰。硬件設施都是固定的,為了解決這一問題就需要利用軟件來彌補這一不足。由于計算機的存儲空間是有限的,用戶可以通過云計算的自主檢測系統來提高存儲空間,保證計算機可以高效地運轉,給用戶帶來高質量的服務。
1.2 云計算的特點
云計算系統具有以下幾個特點:(1)透明化。云計算對用戶是透明的,用戶可以不需要過多地了解云計算,直接使用進而得到自己想要的服務。(2)海量的數據處理功能。云計算能夠對數據進行搜集,將這些數據進行分析、匯總,讓用戶可以隨時隨地地使用。計算機本身具有很多數據,隨著用戶需求量的增多,給計算機會帶來一定的負擔,為了解決這一問題,就可以通過軟件替代的方式,把一些具有大數據的資源傳輸進去,提高了計算機的存儲空間。(3)可用性較高。云計算具有排出失效節(jié)點的功能,在使用過程中不會影響到整個系統的運行。通過高性能的計算能力搜集數據,把這些數據進行存儲,提高云計算的整體質量。(4)用戶可以自行編寫程序。云計算本身的程序編寫不繁雜,用戶可以通過學習自己編寫程序,在完成之后可以在云系統上進行使用,在一定程度上能夠給用戶提供個性化的服務。
數據挖掘是通過對數量多、隨機出現、粗糙的歷史數據中找出一些具有潛在價值的不被人們所挖掘出規(guī)律的信息的過程。早在20世紀80年代,國際上就有人提出了對數據庫進行知識發(fā)現,用于解決數據庫空間不足知識貧乏的問題,要想挖掘數據,就需要人們通過多階段的運行找到云計算數據挖掘的方法。
2.1 建立云計算數據庫的多層矢量空間模型
要想分析云計算數據庫的數據挖掘方法,就需要建立預估模型,通過對模型的分類和預估,分析數據集合,找出數據中的一些規(guī)律和特點。對預估模型進行分類,也就是把數據進行有規(guī)律的排序,將一些分離出的數據進行集合和記錄,并利用這些規(guī)律把對象放在定義的分類中,通過這一分類能夠預估出可能會發(fā)生的事情。預估就是通過建立預估模型把記錄數據相互聯系,對利潤和預估方式進行分析。
把數據庫作為基本的數據管理單元并入云計算環(huán)境,讓其能夠在云計算應用程序中訪問調動,在這一過程中會產生海量的數據,這些數據能夠通過數據信息映射到多層量自回歸空間中,為了實現海量數據目標優(yōu)化探測和識別,就需要建立云計算數據庫多層矢量空間模型,在多層矢量空間模型中實現云計算數據庫中海量數據挖掘。這一模型能夠讓人們有效地認識數據、分析數據,找出使用數據的方法,通過對海量數據的挖掘進而提高對云計算數據庫的訪問能力,以此達到對這些數據的提取。
2.2 云計算數據庫的海量數據特征聚類
云計算數據庫的聚類是指把一個較大的數據集分割成多個聚類,這些被分割的聚類內部都有很多相同的特征。聚類實際上就是數據集中的一個組成部分,聚類的差異與數據集內部相對比會發(fā)現,聚類差異比較小。對聚類進行分析能夠找出簇內的相似度,同時每個簇之間的類似度比較低,所以簇只能是一個對象類,具有一定的屬性。在聚類的劃分上主要有3點:(1)K均值聚類,這要求挖掘者要先確定聚類的數目K,然后明確K的中心點,把聚類進行分解,并把i個數據進行歸類形成新的聚類,再根據個體到中心點的聚類對其進行再次歸類;(2)統計學聚類,在這一聚類中主要是對一些具有分類變量的數據進行分析,通過記錄和原數據挖掘出新的聚類,通過統計看記錄中的數據是否可以歸為一類,然后重復直到聚類不再發(fā)生變化;(3)神經網絡聚類,主要是通過特征映射的方式,通過拓撲映射使其靠近輸出單元,這一聚類具有隨機性,在輸入時在鄰近處會出現減少的現象,最開始輸出單元不斷地更新,到后來更新的量就會減少,直至形成獲勝單元。
為了實現云計算數據庫海量數據的高效挖掘,就需要在云計算數據庫的海量數據特征提取的基礎上,對這些需要處理的數據進行聚類,在云計算數據庫信息流特征構建的多層矢量自回歸空間中,可以采用多層空間模糊減法聚類,進而實現數據的挖掘。主要的步驟如下:在提取的云計算數據庫的海量數據特征中,要先對海量數據特征進行假設,然后獲得空間坐標模型,把數據帶入到相應的公式中,利用模糊減法聚類算法獲取云計算數據庫海量數據特征聚類的目標函數。根據聚類中心的變化,分析整個聚類不再更新的時間,然后利用公式獲得全新的海量數據聚類中心。
2.3 異構數據挖掘
找出數據模板中通過合作具有異構的,但是存在一定關聯的數據。比如,移動公司在對用戶的短信和彩信使用記錄進行分析時,就可以通過該方式進而得出用戶的消費傾向,在制作套餐時就可以利用該數據進行參考。把這些數據進行集中處理,挖掘出全新的數據方法,能夠給人們提供便捷、高效的渠道。
3.1 加強數據管理技術
為了給用戶提供更加便捷的渠道,就需要快速地對數據進行分析與處理。云計算系統雖然有了快速、高效的分析能力,但是在存儲數據上還需要進一步加強。隨著網絡的發(fā)展,各種信息良莠不齊,用戶對于信息的需求也各不一樣。這就需要用戶可以利用現代技術學會管理自己的數據,比如Big Table技術,該技術具有管理數據的能力,能夠把這些數據進行結構化,還可以通過擴展形成大規(guī)模的數據,讓其能夠存儲在系統中。
3.2 建立全面的存儲空間
隨著網絡的發(fā)展,大量的數據出現給計算機帶來了一定的壓力。為了保證云計算系統能夠存儲大量的數據,就需要利用云計算系統存儲的功能。通過分析可知,云計算系統在存儲方面具有一定的經濟性、可靠性和實用性,采用冗余存儲的方式保證數據存儲的可靠性,但是由于一些硬件設備跟不上系統的步伐,就需要利用堅實可靠的軟件系統來完成。在數據的存儲方面,需要保證數據存儲技術要體現出傳輸率與吞吐率,通過這樣的方式云計算才能夠給用戶提供服務,滿足大部分用戶的需求。
3.3 利用Web進行數據挖掘
Web數據挖掘就是從云計算系統的存儲空間中,對在網絡中存在的文檔進行分析與提取。利用網絡可以把計算機中大量的數據進行收集,用戶可以通過連接服務器獲取自身需要的資源。在Web數據挖掘中主要分為以下幾個方面:(1)通過人為地在Web上對內容進行挖掘,用戶可以通過利用關鍵詞的方式查找數據,然后分析該數據是否滿足其自身的需求;(2)可以通過挖掘網站中的相關數據和日志文件等發(fā)現網站中瀏覽者的行為,進而分析獲得自己所需的數據;(3)通過結構挖掘,用戶可以通過人為行為在文檔中獲得有用的知識,通過這樣的方式能夠讓用戶在數據庫中高效地找到適合自己的信息,利用網絡的先進性加強對云計算數據庫的處理。
3.4 建立分層云計算數據庫
隨著網絡大環(huán)境的發(fā)展,越來越多的數據存在于網絡中,為了更好地篩選云計算數據庫中的數據,就需要網絡人員建立分層云計算數據庫。把其中絕大多數的數據通過分層的方式進行整理歸類,這樣能夠便于用戶通過搜索關鍵詞來獲取數據。比如,用戶想要查找一些有關文學類的常識,云計算數據庫本身就對這些文學類知識進行了一個總的劃分,然后再根據朝代、作者等細化的成分對其進行歸類。用戶可以通過關鍵詞搜索得出自己想要的數據,在一定程度上能夠更快速地找到信息,進而完成數據的使用。
在云計算數據庫的使用中,傳統的方法多是利用云計算數據庫來存儲海量的數據,挖掘數據方法能夠提高云計算數據量的調節(jié)能力,利用傳統方法采用云計算數據庫訪問信道屬性權重分配方法進行數據挖掘,在性能上比較差,這就需要人們通過建立全新的方法來對云計算數據庫進行挖掘。通過加強數據管理技術,建立全面的存儲空間,利用Web進行數據挖掘,建立分層云計算數據庫等策略,不斷優(yōu)化海量數據庫,通過云計算數據庫進行數據挖掘,提高數據的聚集性,排除一些不具有效力的數據,改善和調節(jié)數據的能力。
[1]張兵.一種用于云計算數據庫的數據挖掘方法研究[J].控制工程,2016(6):956-960.
[2]吳永琢.用于云計算數據庫的數據挖掘方法分析[J].工程技術(全文版),2016(9):296.
[3]李穎.基于云計算的非連續(xù)層次數據挖掘方法[J].西安工程大學學報,2016(4):498-503.
[4]甘櫪元.基于云計算的數據挖掘算法的研究[J].電子技術與軟件工程,2015(7):195.
[5]王彬菁,李明東.基于云計算的數據處理及數據挖掘方法[J].軟件導刊,2015(3):148-149.
[6]王永.基于云計算的數據挖掘平臺架構及其關鍵技術探討[J].中國新通信,2015(10):69.
Analysis of data mining methods based on cloud computing database
Chen Xiao
(Guangzhou Polytechnic of Sports, Guangzhou 510650, China)
With the continuous development of the Internet, cloud computing database has become a platform for people to use. Most of the cloud computing database is mainly used to store large amounts of data, in order to ensure the stability of cloud computing database need to adjust it. People in the use of traditional methods of cloud computing access database, data mining often has poor performance.In order to solve this problem, we need to establish a new method for data mining, such as the establishment of cloud computing database multi-layer autoregressive vector space model, to analysis the data characteristics. This paper mainly expounds the concept and characteristics of cloud computing, analysis the data mining method of cloud computing database, and puts forward the data mining strategy based on cloud computing database.
cloud computing; database; data mining
廣東省高等學校優(yōu)秀青年教師培養(yǎng)計劃項目;項目編號:YQ2015204。
陳霄(1980— ),女,廣東紫金,博士,講師;研究方向:領域為數據庫,數據挖掘。