亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Spark的大數(shù)據(jù)挖掘技術(shù)分析

        2019-01-30 02:25:58于晶
        智富時代 2019年12期
        關(guān)鍵詞:大數(shù)據(jù)

        于晶

        【摘 要】文章主要介紹了以Spark為基礎(chǔ)的大數(shù)據(jù)挖掘,首先分析了以Spark為基礎(chǔ)的大數(shù)據(jù)生態(tài)系統(tǒng),其次介紹了分布式集群與開發(fā)環(huán)境構(gòu)建,再次介紹了Apriori算法實現(xiàn),最后分析了以Spark為基礎(chǔ)的分布協(xié)同過濾推薦。

        【關(guān)鍵詞】Spark;大數(shù)據(jù);挖掘技術(shù)

        因為大數(shù)據(jù)具有多樣性、數(shù)據(jù)量大等特點,所以在大數(shù)據(jù)分析過程中,對于數(shù)據(jù)處理效率、速度以及實時性擁有較高要求。數(shù)據(jù)挖掘主要是以海量信息為目標(biāo),通過建模算法,找到隱藏的有用信息,充分發(fā)揮大數(shù)據(jù)價值。Spark體系主屬于一種低延遲分布系統(tǒng),以大范圍數(shù)據(jù)集合為對象進行計算分析等操作。

        一、以Spark為基礎(chǔ)的大數(shù)據(jù)系統(tǒng)

        (一)Spark Runtime

        Spark Core中的相關(guān)功能包括內(nèi)存管理和任務(wù)調(diào)度等內(nèi)容,內(nèi)含故障修復(fù)和存儲交互相關(guān)子元素。通過RDD結(jié)構(gòu)在Spark中傳送數(shù)據(jù)包的過程中,應(yīng)該率先掌握Spark處理關(guān)鍵數(shù)據(jù)的操作流程,相關(guān)數(shù)據(jù)信息和對象概念之間較為相似。首先全部的數(shù)據(jù)集都被分成數(shù)個子集,而每個子集還能夠被傳輸至集群相關(guān)節(jié)點當(dāng)中進行有效處理分析。其次,能夠妥善保存計算得到的中間結(jié)果,基于可靠性對問題進行詳細(xì)思考,能夠收獲相同的計算結(jié)果,并在子集節(jié)點相關(guān)文件內(nèi)進行備份儲存。最后進行計算解析時,如在處理數(shù)據(jù)子集過程中產(chǎn)生錯誤,則需要對子集進行重新整理,促進容錯機制的有效落實[1]。

        (二)Graph X

        在Spark中,Graph X是重要的子項目,為此應(yīng)該以Spark為基礎(chǔ)進行創(chuàng)建,對大規(guī)模圖進行準(zhǔn)確計算的基礎(chǔ)上,融入Graph X,同時添加其他組件,實施系統(tǒng)融合,能夠提升整體數(shù)據(jù)處理能力,其中Graph X的主要功能為幫助采集運輸計算過程中所需要的數(shù)據(jù)圖形運行符號,由于類庫存在諸多定義,通過隱性SCALE語言對特征進行合理轉(zhuǎn)換的過程中,能夠控制調(diào)節(jié)Graph OPS操作符。而Graph X內(nèi),需要對相關(guān)算法進行深入優(yōu)化,從而為后期針對圖集實施綜合處理提供便利條件。Graph X主要優(yōu)勢便是能夠進一步擴大數(shù)據(jù)規(guī)模,強化數(shù)據(jù)吸收力度。

        (三)Spark Streaming

        Spark即分布式的Spark Streaming數(shù)據(jù)處理的結(jié)構(gòu)系統(tǒng),對Spark原有數(shù)據(jù)處理能力進行優(yōu)化拓展的基礎(chǔ)上,使Spark Streaming能夠結(jié)合相應(yīng)的操作階段對單位進行準(zhǔn)確分割,從而構(gòu)成一種RDD,通過短小的時間間隔對流式數(shù)據(jù)進行有效處理,因為受到處理延時問題的影響,從某一程度而言,還能夠?qū)⑵淇醋魇菍嵤┨幚斫Y(jié)構(gòu)。Spark Streaming屬于一種容錯結(jié)構(gòu)形式,其錯誤恢復(fù)和錯誤處理水平極高,為此在錯誤處理方面擁有較為突出的應(yīng)用優(yōu)勢。此外,Spark Streaming還能和Spark的生態(tài)模式實施有效對接,為此在協(xié)同處理完數(shù)據(jù)流之后,還可以對各種復(fù)雜現(xiàn)象進行有效處理。

        二、以Spark為基礎(chǔ)的分布式集群和開發(fā)環(huán)境構(gòu)建

        (一)硬件系統(tǒng)條件

        入想進一步提高系統(tǒng)的運行效果和兼容性,在創(chuàng)建Spark集群的過程中,所應(yīng)用的物理主機應(yīng)該選擇LINUX系統(tǒng)。通過三臺虛擬設(shè)備和一個主機設(shè)備實施環(huán)境測試,以此為基礎(chǔ)構(gòu)建分布式集群,具體包括MASTER節(jié)點和WORKER節(jié)點兩個。而MASTER的核心工作任務(wù)便是對分布式Spark應(yīng)用程序進行單機編制,并進行合理調(diào)節(jié),其配置要求較高。MASTER節(jié)點區(qū)域裝置設(shè)備應(yīng)該配置四核處理器以及4G的內(nèi)存,而WORKER節(jié)點可以配置2G的內(nèi)存。每個節(jié)點的相關(guān)硬件都是在PCIE的條件下創(chuàng)建固態(tài)硬盤,擁有較高的讀寫效率,能夠進一步提升工作質(zhì)量和運行速度。集群的操作形式不但可以進一步縮減運行成本,同時還可以結(jié)合現(xiàn)實需求適當(dāng)調(diào)整節(jié)點數(shù)量,進行適當(dāng)?shù)臏p少或增加。

        (二)構(gòu)建Spark分布式集群

        設(shè)置SCALA語言,同時把各個虛擬機裝置中的SLAVES文件中的相關(guān)內(nèi)容修改為集群內(nèi)WORKER節(jié)點主機名,此外還應(yīng)該針對各個節(jié)點中的Spark安裝目錄,即Spark-ENV.SH文件進行修改。其中,環(huán)境變量JDK對系統(tǒng)進行配置,SCALA-HOME這一安裝路徑會修改系統(tǒng)。MASTER內(nèi)部相關(guān)各種節(jié)點主機名稱和IP選擇Spark_Master_IP相關(guān)屬性值,剩余內(nèi)容則設(shè)置為默認(rèn)值,此外還需要確保集群內(nèi)的各個節(jié)點文件Spark-env.sh能夠始終和文件SLAVES的內(nèi)容維持良好的一致性,在結(jié)束相關(guān)配置工作后,利用JPS命令對集群的啟動狀態(tài)進行詳細(xì)查看[2]。

        (三)配置IDE開發(fā)環(huán)境

        SCALA語言在進行設(shè)計研發(fā)過程中,需要以IDEA為核心條件,同時也是重要的基礎(chǔ)條件,因此可以將其作為對Spark結(jié)構(gòu)程序進行設(shè)計、編程的基礎(chǔ)環(huán)境。如果想要IDEA實際應(yīng)用中縮減緩存數(shù)量,擴大I/O資源應(yīng)用,占據(jù)有效空間,應(yīng)該利用SSD硬盤對相關(guān)有用信息進行合理存儲,提高系統(tǒng)整體應(yīng)用性能。結(jié)束IDEA的配置工作后,繼續(xù)檢測Spark程序,提高程序的實效性。

        三、以Spark為基礎(chǔ)的Apriori算法實現(xiàn)

        (一)概述

        Apriori算法的中心思想是結(jié)合Apriori特性,針對頻繁項集實施深入挖掘,具體包括下面兩種環(huán)節(jié):第一是對最小支持度進行定義,并將全部的頻繁項集全部篩選出來,第二是結(jié)合置信度生成關(guān)聯(lián)規(guī)則[3]。

        頻繁項主要是在一塊物品中頻繁出現(xiàn)的集合,至于關(guān)聯(lián)規(guī)則主要指兩種物品之間存在較為明顯的關(guān)系。而Apriori算法的核心任務(wù)便是查詢頻繁項集。

        (二)Apriori算法實現(xiàn)

        Apriori算法以Spark平臺為基礎(chǔ)的分布式集群,其算法主要思路如下:第一是生成頻繁項集,把事務(wù)集利用RDD形式廣泛分布到不同機器當(dāng)中,不斷積累項目數(shù)量,維持高于支持度的項集。第二是針對頻繁項集所衍生出來的頻繁項集,項集之間自動連接,轉(zhuǎn)化為Ck+1,隨后對數(shù)據(jù)庫進行掃描,并以Ck+1為基礎(chǔ)構(gòu)建頻繁項集。

        Apriori算法的實現(xiàn)環(huán)境主要是以Spark on YARN集群為主。單機Apriori算法選擇集群內(nèi)的MASTER節(jié)點作為測試環(huán)境。在算法操作中,還需要按順序?qū)?shù)據(jù)集路徑以及文件夾輸出路徑輸入進去。Apriori在解析數(shù)據(jù)集時,Spark集群內(nèi)的全部節(jié)點全部呈現(xiàn)出一種打開狀態(tài),其消耗時間也遠(yuǎn)遠(yuǎn)比單機模式要低,或僅有MASTER或WORKER單一節(jié)點打開過程所消耗的時間,具體原因是隨著集群內(nèi)工作節(jié)點的不斷增加,集群整體配置水平的提升,其處理速度也將進一步加快。Spark自身所帶有的支持伸縮計算功能,也進一步提升了大數(shù)據(jù)集整體效率。通過實踐發(fā)現(xiàn),使用不同編程語言,會對最終的算法結(jié)果產(chǎn)生不同程度的影響,導(dǎo)致運行結(jié)果之間產(chǎn)生巨大差異,具體原因是Spark結(jié)構(gòu)形式可以準(zhǔn)確計算系統(tǒng)呢內(nèi)存狀況,將相關(guān)算法融入到內(nèi)存計算當(dāng)中,使Apriori相關(guān)計算效率能夠得到有效提升,這是Spark結(jié)構(gòu)優(yōu)勢之一。但以Spark為基礎(chǔ)促進分布式算法和Apriori算法的協(xié)同運行,最終的運行效率小于單機運行效率。主要原因是Spark體系結(jié)構(gòu)對數(shù)據(jù)集進行處理過程中,會和HFDS實施交互作用,從而針對數(shù)據(jù)實施封裝和FDD分塊處理,同時還包含DAG恢復(fù)相關(guān)任務(wù)。由此能夠看出Spark集群模式較為適合對各種大型數(shù)據(jù)集實施處理操作。

        四、以Spark為基礎(chǔ)的分布協(xié)同過濾推薦

        (一)MLIiB算法庫

        由于機器算法整個操作流程較為復(fù)雜,為此在實施迭代計算的過程中,需要把計算全部融入到磁盤內(nèi),等待啟動任務(wù),但如此一來便會出現(xiàn)大量的CPU消耗。針對該種狀況,可以在應(yīng)用Spark的過程中,可以直接于內(nèi)存中運行處理部分任務(wù)工作,將迭代計算內(nèi)容之間轉(zhuǎn)移到內(nèi)存當(dāng)中進行處理,進一步提升迭代計算綜合實力和運算效率,同時在需要的條件下,還可以實施網(wǎng)絡(luò)運行和磁盤操作。Spark應(yīng)用到迭代計算方面擁有極高優(yōu)勢,同時還可以不斷擴展,變?yōu)榉植际綄W(xué)習(xí)平臺。從通信角度出發(fā)進行深入思考,能夠發(fā)現(xiàn)Spark十分高效,且十分出色,擁有極高的通訊效率。分布式算法學(xué)習(xí)過程中,相關(guān)資源主要在集群節(jié)點當(dāng)中聚集[4]。

        (二)協(xié)同過濾算法

        協(xié)同算法即人們應(yīng)用過程中,選擇比較合理的想法,并將真實想法傳遞給用戶。第一是系統(tǒng)過濾。通過面向全部用戶選擇擁有相同興趣愛好的用戶,充分結(jié)合用戶的真實喜好,合理選擇所需要的物品,將其組織起來,構(gòu)建全新的序列與集合。用戶還可以簡單定義為鄰居,但在操作過程中,需要解決的核心問題是針對存在聘問的用戶以及滿足具體條件標(biāo)準(zhǔn)的用戶實施針對性組織和有效利用。

        第二是協(xié)同過濾的中心思想。想要促進協(xié)同過濾中心思想的有效落實,應(yīng)該進通過三種環(huán)節(jié)實施,采集用戶喜好,認(rèn)真分析用戶應(yīng)用物品過程中的相似性,結(jié)合最終的計算結(jié)果進行推薦。對用戶愛好興趣的處理分析質(zhì)量能夠影響系統(tǒng)推薦效果,由于不同用戶各自的喜好方式之間也存在巨大的差異,同時還會被不同場景所影響。在一般的場景環(huán)境下,需要挑選出一種用戶系統(tǒng),隨后充分結(jié)合用戶需求,劃分成不同的小組,具體包括兩種分組方式:第一是結(jié)合用戶的行為差異,將用戶的行為特點作為基礎(chǔ)參考依據(jù)實施分組操作。第二是針對不同行為,針對用戶愛好興趣實施分組,并實施加權(quán)處理,對數(shù)據(jù)行為進行有效采集之后,針對數(shù)據(jù)實施預(yù)處理操作。以此為基礎(chǔ),充分聯(lián)系用戶的愛好興趣,為用戶推薦其所需要的物品。選擇恰當(dāng)?shù)耐扑]方式,將協(xié)同過濾分成以物品為基礎(chǔ)的兩種類型,分別是基礎(chǔ)用戶和協(xié)同用戶。實施推薦操作中,選擇恰當(dāng)?shù)泥従?,?dāng)下比較常用的形式是對鄰居相似程度進行規(guī)定和明確鄰居數(shù)量。

        五、結(jié)語

        綜上所述,在分布式集群中結(jié)合MLIib和Spark構(gòu)建協(xié)同過濾推薦的運行方案,同時利用大數(shù)據(jù)集進行驗證,能夠?qū)⑵湓谕扑]系統(tǒng)中廣泛推廣開來。同時以Spark為基礎(chǔ)的Apriori分布式算法,能夠進一步彌補MLIib關(guān)聯(lián)分析算法中的故障缺陷,并輔助大數(shù)據(jù)進行關(guān)聯(lián)分析。

        【參考文獻】

        [1]梁凡,趙麗.基于中智模糊關(guān)聯(lián)規(guī)則生成的大數(shù)據(jù)挖掘分析算法[J].計算機應(yīng)用與軟件,2019(10):285-292+298.

        [2]陳春謀.大數(shù)據(jù)環(huán)境下的檔案管理系統(tǒng)信息檢索及挖掘技術(shù)分析[J].電子測試,2019(14):92-94.

        [3]李明東,陳小明.基于軌跡大數(shù)據(jù)技術(shù)的行為模式挖掘技術(shù)分析[J].宜春學(xué)院學(xué)報,2019,41(06):34-36+101.

        [4]梁彥.基于分布式平臺Spark和YARN的數(shù)據(jù)挖掘算法的并行化研究[D].中山大學(xué),2014.

        猜你喜歡
        大數(shù)據(jù)
        基于在線教育的大數(shù)據(jù)研究
        中國市場(2016年36期)2016-10-19 04:41:16
        “互聯(lián)網(wǎng)+”農(nóng)產(chǎn)品物流業(yè)的大數(shù)據(jù)策略研究
        中國市場(2016年36期)2016-10-19 03:31:48
        基于大數(shù)據(jù)的小微電商授信評估研究
        中國市場(2016年35期)2016-10-19 01:30:59
        大數(shù)據(jù)時代新聞的新變化探究
        商(2016年27期)2016-10-17 06:26:00
        淺談大數(shù)據(jù)在出版業(yè)的應(yīng)用
        今傳媒(2016年9期)2016-10-15 23:35:12
        “互聯(lián)網(wǎng)+”對傳統(tǒng)圖書出版的影響和推動作用
        今傳媒(2016年9期)2016-10-15 22:09:11
        大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
        新聞世界(2016年10期)2016-10-11 20:13:53
        基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
        科技視界(2016年20期)2016-09-29 10:53:22
        數(shù)據(jù)+輿情:南方報業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
        中國記者(2016年6期)2016-08-26 12:36:20
        日本特黄a级高清免费大片| 中文无码人妻有码人妻中文字幕| 国产超碰人人做人人爽av大片| 精品无码国产自产野外拍在线| 自拍欧美日韩| 免费无遮挡毛片中文字幕| 国产啪精品视频网站丝袜| 美女被射视频在线观看91| 国产内射视频在线播放| 蜜桃激情视频一区二区| 国产精品激情自拍视频| 国产av无码专区亚洲av蜜芽| 亚洲精品成人网久久久久久| 97久久综合区小说区图片专区 | 国产综合久久久久| 中国一级毛片在线观看| 最新亚洲无码网站| 国产精品自拍视频在线| 免费网站内射红桃视频| 性生交大全免费看| 久久亚洲精品成人| 日本精品人妻一区二区三区 | 亚洲av综合av国产av中文| 久久精品国产自清天天线| 日韩久久无码免费看A| 美女视频在线观看一区二区三区| 成年人一区二区三区在线观看视频| 女人色熟女乱| 国产成人av 综合 亚洲| 国产成人午夜福利在线小电影| 99久久久精品免费| 日本中文字幕有码在线播放| 扒开腿狂躁女人爽出白浆| 囯产精品一品二区三区| 中文字幕在线久热精品| h视频在线观看视频在线| 91九色免费视频网站| 国产成人a人亚洲精品无码| 久久精品国产亚洲AⅤ无码| 一区二区三区观看在线视频| 无套内内射视频网站|