亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于云平臺(tái)的大數(shù)據(jù)資源挖掘技術(shù)研究

        2018-01-05 01:01:18周延懷王曉蘭
        計(jì)算機(jī)測(cè)量與控制 2017年12期
        關(guān)鍵詞:鄰接矩陣關(guān)聯(lián)性數(shù)據(jù)挖掘

        薛 蓓,周延懷,王曉蘭

        (南京師范大學(xué) 泰州學(xué)院,江蘇 泰州 225300)

        基于云平臺(tái)的大數(shù)據(jù)資源挖掘技術(shù)研究

        薛 蓓,周延懷,王曉蘭

        (南京師范大學(xué) 泰州學(xué)院,江蘇 泰州 225300)

        針對(duì)云平臺(tái)下大數(shù)據(jù)資源挖掘過程準(zhǔn)確率低、耗時(shí)長(zhǎng)等問題,對(duì)大數(shù)據(jù)資源挖掘技術(shù)進(jìn)行改進(jìn)研究;利用MST聚類法對(duì)云平臺(tái)數(shù)據(jù)集進(jìn)行預(yù)處理,根據(jù)數(shù)據(jù)間的關(guān)聯(lián)性來增強(qiáng)檢測(cè)結(jié)果,并提高數(shù)據(jù)索引效率,將數(shù)據(jù)間的鄰接矩陣作為邊的權(quán)值,生成全圖的MST,獲取評(píng)價(jià)數(shù)據(jù)資源挖掘準(zhǔn)確度的標(biāo)準(zhǔn),并得到k個(gè)最小生成子樹,其中的一個(gè)子樹就是數(shù)據(jù)集最優(yōu)聚類結(jié)果;實(shí)驗(yàn)結(jié)果表明,所提方法有效提高了大數(shù)據(jù)挖掘準(zhǔn)確性,使得數(shù)據(jù)資源得到了更高效的利用。

        云平臺(tái);數(shù)據(jù)資源;挖掘;技術(shù)改進(jìn)

        0 引言

        當(dāng)今世界的科學(xué)技術(shù)發(fā)展迅速,已然成為了各國發(fā)展的經(jīng)濟(jì)支撐,科技創(chuàng)新的地位也越來越重要[1]??萍紕?chuàng)新服務(wù)平臺(tái)是經(jīng)濟(jì)社會(huì)中新的形式,可以根據(jù)資源整合來提升科技資源利用率,并加強(qiáng)“產(chǎn)學(xué)研”聯(lián)合和發(fā)揮科技中介作用,促進(jìn)科技成果轉(zhuǎn)換,是國家科技創(chuàng)新結(jié)構(gòu)中的重要構(gòu)成部分[2]。依據(jù)當(dāng)前的形式而言,對(duì)科技創(chuàng)新服務(wù)平臺(tái)建設(shè)的力度加大,是適應(yīng)科技迅速發(fā)展的必然趨勢(shì),同時(shí)也是推動(dòng)科技社會(huì)迅猛前進(jìn)的主要?jiǎng)恿3]。

        目前人類正處于瞬息萬變的環(huán)境中,經(jīng)濟(jì)發(fā)展與科技創(chuàng)新均發(fā)生了重大且深遠(yuǎn)的變革[4]??茖W(xué)技術(shù)作為第一生產(chǎn)力,每個(gè)國家或者地區(qū)科技綜合競(jìng)爭(zhēng)力強(qiáng)弱,主要表現(xiàn)于科技資源整合水平、科技利用率和科技創(chuàng)新等方面[5]。每個(gè)國家或者地區(qū)總體的科技創(chuàng)新服務(wù)平臺(tái)是國家重要的組成部分,科技創(chuàng)新服務(wù)平臺(tái)的構(gòu)建作為國家科技比較基礎(chǔ)的條件平臺(tái),依據(jù)本地區(qū)或本國的實(shí)際情況構(gòu)建科技創(chuàng)新服務(wù)平臺(tái),該問題是實(shí)現(xiàn)國家科技進(jìn)步的關(guān)鍵,也是落實(shí)中央制度的具體行動(dòng)[6]。

        綜上所述,對(duì)科技創(chuàng)新服務(wù)平臺(tái)中的數(shù)據(jù)利用云平臺(tái)進(jìn)行存儲(chǔ),并實(shí)現(xiàn)數(shù)據(jù)資源的高效利用,需要對(duì)云平臺(tái)數(shù)據(jù)的大數(shù)據(jù)資源進(jìn)行挖掘[7]。

        1 大數(shù)據(jù)資源挖掘技術(shù)原理

        在對(duì)云平臺(tái)的大數(shù)據(jù)資源挖掘技術(shù)進(jìn)行研究之前,首先對(duì)大數(shù)據(jù)資源挖掘技術(shù)原理進(jìn)行分析。大數(shù)據(jù)資源挖掘技術(shù)原理主要包括新科技創(chuàng)新服務(wù)平臺(tái)結(jié)構(gòu)體系和大數(shù)據(jù)資源挖掘依據(jù)兩部分。新科技創(chuàng)新服務(wù)平臺(tái)結(jié)構(gòu)體系是對(duì)數(shù)據(jù)資源進(jìn)行挖掘的平臺(tái)環(huán)境,對(duì)平臺(tái)環(huán)境加以介紹,在充分掌握平臺(tái)結(jié)構(gòu)體系之后,能夠更加準(zhǔn)確地制定出數(shù)據(jù)資源挖掘技術(shù)的改進(jìn)方案。大數(shù)據(jù)資源挖掘依據(jù)為數(shù)據(jù)資源挖掘技術(shù)的改進(jìn)方案提供依據(jù),并給出了數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)的流程。

        1.1 科技創(chuàng)新服務(wù)平臺(tái)結(jié)構(gòu)體系

        科技創(chuàng)新服務(wù)平臺(tái)結(jié)構(gòu)如圖1所示,其中主要分為:用戶層,網(wǎng)絡(luò)層,資源層,運(yùn)輸層和數(shù)據(jù)層[8]。用戶層為平臺(tái)的使用者,其中包含獲取有關(guān)科技服務(wù)與資源的客戶,還包含提供科技服務(wù)和資源,進(jìn)而受益的供應(yīng)商;網(wǎng)絡(luò)層是平臺(tái)的窗口,是其他層的線上媒介,展示供需信息的時(shí),提供線上的交易平臺(tái);資源層將運(yùn)營層當(dāng)作中介,為用戶層供給科技資源與服務(wù),其中包括有形資產(chǎn)、無形資產(chǎn)持有者、專業(yè)技術(shù)服務(wù)執(zhí)行者;運(yùn)營層是平臺(tái)核心,根據(jù)線下運(yùn)營者,線下的服務(wù)執(zhí)行者以及線上網(wǎng)站建設(shè)的維護(hù)者組成;數(shù)據(jù)層將云平臺(tái)當(dāng)作載體,實(shí)現(xiàn)后臺(tái)數(shù)據(jù)資源的挖掘分析,跟蹤并完善客戶的需求,進(jìn)而完成數(shù)據(jù)的推送和資源配置[9]。

        圖1 科技創(chuàng)新服務(wù)平臺(tái)結(jié)構(gòu)體系

        1.2 大數(shù)據(jù)資源挖掘依據(jù)

        根據(jù)科技創(chuàng)新服務(wù)平臺(tái)結(jié)構(gòu)體系中數(shù)據(jù)層中的大數(shù)據(jù)挖掘和分析需求,利用圖2中的數(shù)據(jù)挖掘原理實(shí)現(xiàn)數(shù)據(jù)資源的挖掘。

        圖2 大數(shù)據(jù)資源挖掘原理

        由圖2可知,首先對(duì)大數(shù)據(jù)資源進(jìn)行獲取,將獲取的大數(shù)據(jù)資源分為兩部分,一部分進(jìn)行數(shù)據(jù)預(yù)處理備用,另一部分通過數(shù)據(jù)處理函數(shù)等的綜合計(jì)算,對(duì)數(shù)據(jù)進(jìn)行充分分析,再將分析好的數(shù)據(jù)進(jìn)行分類,最終實(shí)現(xiàn)數(shù)據(jù)資源的挖掘。

        2 云平臺(tái)下大數(shù)據(jù)資源挖掘技術(shù)改進(jìn)研究

        要使云平臺(tái)中的數(shù)據(jù)利用率達(dá)到最大,通過圖2的大數(shù)據(jù)資源萃取原理,利用MST聚類法實(shí)現(xiàn)云平臺(tái)的大數(shù)據(jù)資源高效挖掘。通過MST聚類法的大數(shù)據(jù)聚類分析以高維大數(shù)據(jù)作為背景,于圖論的基礎(chǔ)上,對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理,根據(jù)量化各數(shù)據(jù)對(duì)象間的關(guān)聯(lián)性組建鄰接矩陣,將數(shù)據(jù)點(diǎn)當(dāng)作頂點(diǎn),各個(gè)數(shù)據(jù)間的鄰接矩陣作為邊的權(quán)值,組建一個(gè)全圖,并生成此全圖的MST,依據(jù)實(shí)際的問題以及數(shù)據(jù)分布的狀態(tài),按照邊權(quán)值由大到小分割MST的邊,獲得k個(gè)最小的生成樹子樹,其中的一個(gè)子樹就是數(shù)據(jù)集中最優(yōu)的聚類結(jié)果。詳細(xì)過程如下:

        2.1 數(shù)據(jù)鄰接矩陣的建立

        所謂的鄰接矩陣就是根據(jù)數(shù)據(jù)組表示數(shù)據(jù)點(diǎn)間關(guān)聯(lián)的數(shù)據(jù)矩陣[10],假設(shè)圖G代表賦權(quán)網(wǎng)絡(luò)圖,則能夠?qū)⑵涠x為:

        (1)

        式中,wij代表邊的權(quán)值,圖3和圖4展現(xiàn)了從圖生成為鄰接矩陣全過程:

        圖3 無權(quán)全圖所生成的鄰接矩陣

        圖4 賦權(quán)全圖所生成的鄰接矩陣

        根據(jù)圖3和圖4可得知,網(wǎng)絡(luò)圖鄰接矩陣是對(duì)稱矩陣,其中矩陣中的第i行第j列個(gè)元素就是賦權(quán)圖內(nèi)的頂點(diǎn)vi和頂點(diǎn)vj關(guān)聯(lián)距離wij。根據(jù)該矩陣可增強(qiáng)數(shù)據(jù)關(guān)聯(lián)性檢測(cè)效果,促使數(shù)據(jù)分類形狀多樣化。

        2.2 大數(shù)據(jù)資源聚類

        在這里把數(shù)據(jù)對(duì)象點(diǎn)間距離的關(guān)聯(lián)性當(dāng)作權(quán)值對(duì)兩點(diǎn)間相關(guān)性賦權(quán),組建出數(shù)據(jù)對(duì)象點(diǎn)間的鄰接矩陣,獲得鄰接矩陣表示的全圖,根據(jù)生成最小樹法獲得此權(quán)值全圖中的一個(gè)MST,并按MST邊賦值大小分割最小樹邊,獲得若干最小樹子樹,各子樹就是一個(gè)最優(yōu)Cluster(簇),詳細(xì)過程如下。

        將數(shù)據(jù)集點(diǎn)進(jìn)行初始化:

        初始化就是將指標(biāo)變量量綱相異或者數(shù)量級(jí)差別比較大的數(shù)據(jù)對(duì)象標(biāo)準(zhǔn)化,并統(tǒng)一數(shù)據(jù)對(duì)象類型以及單位,使該數(shù)據(jù)對(duì)象可以進(jìn)行比較與計(jì)算。

        則所有獲得的生成樹權(quán)值與W最小的就是MST,也就是滿足:

        (2)

        圖5 賦權(quán)全圖MST

        由大至小切割MST賦值邊,獲得MST若干子樹,也就是將MST中最大的賦權(quán)邊em切割移除,em滿足下列條件:em=max{W(vp,vq)}=max{d(vp,vq)}。

        圖6 切割最小的生成樹中最大兩條邊之后獲得三個(gè)子樹

        經(jīng)過切割,所獲得的各子樹邊就是全局最優(yōu)的一個(gè)類簇,假設(shè)在切割k條最大的邊之后,會(huì)獲得k+1個(gè)類的最優(yōu)類簇,照比傳統(tǒng)的數(shù)據(jù)挖掘方法,得到的聚類結(jié)果更加準(zhǔn)確。

        3 實(shí)驗(yàn)結(jié)果分析

        為了驗(yàn)證基于云平臺(tái)的大數(shù)據(jù)資源挖掘技術(shù)的有效性和可行性,實(shí)驗(yàn)針對(duì)改進(jìn)技術(shù)的數(shù)據(jù)關(guān)聯(lián)性、聚類召回率、聚類時(shí)所出現(xiàn)的形狀、數(shù)據(jù)索引效率及挖掘精度五項(xiàng)指標(biāo)進(jìn)行測(cè)試。首先給出實(shí)驗(yàn)數(shù)據(jù)的由來及實(shí)驗(yàn)平臺(tái)環(huán)境,通過實(shí)驗(yàn)?zāi)M制定實(shí)驗(yàn)方案,執(zhí)行實(shí)驗(yàn)操作,對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析。

        并對(duì)分析所得結(jié)果進(jìn)行總結(jié),具體實(shí)驗(yàn)描述如下:

        3.1 實(shí)驗(yàn)數(shù)據(jù)的由來

        實(shí)驗(yàn)中,采用加利福尼亞的機(jī)器學(xué)習(xí)數(shù)據(jù)集,將兩種不同的數(shù)據(jù)集劃分為四組不同數(shù)量的數(shù)據(jù)集,并分別與本地的云平臺(tái)進(jìn)行連接,本地的實(shí)驗(yàn)環(huán)境是Google App Engine SDK、AMD雙核1.6、2 G內(nèi)存。將Average-Linkage聚類法、K-Means聚類法以及SOM聚類法應(yīng)用MATLAB軟件完成實(shí)驗(yàn)?zāi)M,將MST聚類法利用LINGO軟件實(shí)現(xiàn)模擬分析。

        3.2 實(shí)驗(yàn)?zāi)M

        進(jìn)行實(shí)驗(yàn)?zāi)M時(shí),將類簇劃分為3個(gè),可獲得下列聚類效果如圖7所示。

        圖7 不同技術(shù)聚類效果對(duì)比

        觀察圖7可知,圖7(a)~圖7(d)分別是采用Average-Linkage聚類法、K-Means聚類法、SOM聚類法及MST聚類法對(duì)數(shù)據(jù)進(jìn)行聚類的效果圖,前三種聚類法的聚類效果較為相似,最后一種聚類法的聚類效果比較特殊。Average-Linkage聚類法的聚類精度較低,在3個(gè)數(shù)據(jù)集中,存在數(shù)據(jù)混雜的現(xiàn)象,且聚類數(shù)據(jù)量少。K-Means聚類法的聚類精度相對(duì)較高一些,由圖7(b)可以看出,3個(gè)數(shù)據(jù)集中沒有混雜數(shù)據(jù),但是聚類的數(shù)據(jù)量依然較少。觀察圖7(c)可知,SOM聚類法的聚類精度較前兩種方法高,聚類的數(shù)據(jù)量也明顯增多。采用MST聚類法進(jìn)行數(shù)據(jù)的聚類,由圖7(d)可看出,它能夠?qū)?種數(shù)據(jù)集按照不同類別進(jìn)行無縫聚類,不僅聚類精度高,聚類數(shù)據(jù)量大,且聚類密度高,有效節(jié)省了聚類空間。對(duì)比4種不同聚類方法的數(shù)據(jù)聚類效果,MST聚類效果遠(yuǎn)遠(yuǎn)優(yōu)于其他3種聚類方法,改進(jìn)的云平臺(tái)大數(shù)據(jù)資源挖掘技術(shù)正是應(yīng)用這個(gè)方法對(duì)數(shù)據(jù)進(jìn)行聚類,充分說明改進(jìn)技術(shù)聚類效果更好,驗(yàn)證了改進(jìn)技術(shù)的有效性。

        將實(shí)驗(yàn)數(shù)據(jù)導(dǎo)至網(wǎng)格中,網(wǎng)格分為橫縱坐標(biāo),縱坐標(biāo)代表數(shù)據(jù)量,橫坐標(biāo)代表時(shí)間,觀察改進(jìn)技術(shù)數(shù)據(jù)關(guān)聯(lián)性檢測(cè)效果。

        根據(jù)圖7分析圖8,由圖7已經(jīng)得知不同聚類方法的數(shù)據(jù)聚類效果是不同的。據(jù)經(jīng)驗(yàn)Average-Linkage聚類法并不需要先確定k值,不過數(shù)據(jù)挖掘程序一旦運(yùn)行,就無法更正了,這也就影響了數(shù)據(jù)聚類的正確性;K-Means聚類法的參數(shù)k值為隨機(jī)給定的,由此致使聚類結(jié)果不一致,導(dǎo)致數(shù)據(jù)聚類的效果不理想;SOM聚類法具有比較高的聚類準(zhǔn)確度,不過查閱資料可知,該聚類法是基于歐式距離且處于反復(fù)的循環(huán)過程,這使得數(shù)據(jù)的維度越高,其數(shù)據(jù)聚類的收縮速度就越慢,嚴(yán)重耗時(shí);改進(jìn)技術(shù)的數(shù)據(jù)關(guān)聯(lián)性檢測(cè)效果與聚類效果直接相關(guān),由圖8可知,改進(jìn)技術(shù)的數(shù)據(jù)關(guān)聯(lián)性檢測(cè)效果隨著時(shí)間變化越來越顯著,當(dāng)實(shí)驗(yàn)時(shí)間為40 s時(shí),數(shù)據(jù)庫資源達(dá)到最高值為78萬個(gè),檢測(cè)出改進(jìn)技術(shù)的數(shù)據(jù)關(guān)聯(lián)性較高。產(chǎn)生這種情況主要是因?yàn)楦倪M(jìn)技術(shù)通過量化各數(shù)據(jù)對(duì)象間的關(guān)聯(lián)性組建鄰接矩陣,以此增強(qiáng)了數(shù)據(jù)關(guān)聯(lián)性檢測(cè)效果,并依據(jù)實(shí)際的問題以及數(shù)據(jù)分布的狀態(tài),按照邊權(quán)值由大到小分割MST的邊,將其作為評(píng)價(jià)數(shù)據(jù)資源挖掘準(zhǔn)確度的標(biāo)準(zhǔn),提高了數(shù)據(jù)聚類正確性,進(jìn)而提高改進(jìn)技術(shù)數(shù)據(jù)關(guān)聯(lián)性,實(shí)驗(yàn)結(jié)果表明,改進(jìn)技術(shù)的數(shù)據(jù)關(guān)聯(lián)性高。

        圖8 改進(jìn)技術(shù)數(shù)據(jù)關(guān)聯(lián)性檢測(cè)效果

        根據(jù)上述召回率公式,利用軟件完成聚類程序之前,在程序的最前面和程序的最后面,分別添加一時(shí)間函數(shù),獲得的時(shí)間差就是該聚類法執(zhí)行聚類時(shí)的時(shí)間效率,聚類期間所出現(xiàn)的形狀表達(dá)的就是數(shù)據(jù)挖掘方法所展現(xiàn)出的聚類樣式是否多變。表1、表2和表3分別代表數(shù)據(jù)聚類錯(cuò)誤的召回率、聚類時(shí)所出現(xiàn)的形狀以及經(jīng)過挖掘之后的數(shù)據(jù)索引效率。并以此為依據(jù)檢驗(yàn)改進(jìn)技術(shù)的整體效果。

        表1 不同技術(shù)召回率對(duì)比

        分析表1可知,應(yīng)用Average-Linkage聚類法的數(shù)據(jù)挖掘技術(shù),其數(shù)據(jù)聚類錯(cuò)誤召回率為75.9%;應(yīng)用K-Means聚類法的數(shù)據(jù)挖掘技術(shù),其數(shù)據(jù)聚類錯(cuò)誤召回率為84.5%;應(yīng)用SOM聚類法的數(shù)據(jù)挖掘技術(shù),其數(shù)據(jù)聚類錯(cuò)誤召回率為91.2%;改進(jìn)技術(shù)采用MST聚類法,其數(shù)據(jù)聚類錯(cuò)誤召回率為99.8%。對(duì)比4種引入不同聚類方法的數(shù)據(jù)挖掘技術(shù)的實(shí)驗(yàn)結(jié)果,明顯看出改進(jìn)技術(shù)的數(shù)據(jù)聚類錯(cuò)誤召回率最高,近乎接近了100%,改進(jìn)技術(shù)建立了數(shù)據(jù)對(duì)象間的關(guān)聯(lián)性量化后產(chǎn)生的鄰接矩陣,并對(duì)數(shù)據(jù)的均值、標(biāo)準(zhǔn)差、極差等項(xiàng)進(jìn)行了計(jì)算,由此提高了數(shù)據(jù)聚類的召回率,實(shí)驗(yàn)結(jié)果驗(yàn)證了改進(jìn)技術(shù)的有效性。

        表2 不同技術(shù)聚類時(shí)所出現(xiàn)的形狀

        分析表2可知,應(yīng)用Average-Linkage聚類法的數(shù)據(jù)挖掘技術(shù),其聚類時(shí)所出現(xiàn)的形狀為球形;應(yīng)用K-Means聚類法的數(shù)據(jù)挖掘技術(shù),其聚類時(shí)所出現(xiàn)的形狀為凸形;應(yīng)用SOM聚類法的數(shù)據(jù)挖掘技術(shù),其聚類時(shí)所出現(xiàn)的形狀為球形或凸形;改進(jìn)技術(shù)采用MST聚類法,其聚類時(shí)所出現(xiàn)的形狀為任何形狀。對(duì)比4種引入不同聚類方法的數(shù)據(jù)挖掘技術(shù),其聚類時(shí)所出現(xiàn)的形狀,明顯看出改進(jìn)技術(shù)聚類時(shí)出現(xiàn)的形狀沒有局限性,可對(duì)任意形狀進(jìn)行聚類,聚類范圍廣,提高了改進(jìn)技術(shù)的數(shù)據(jù)聚類精度,改進(jìn)技術(shù)對(duì)所生成的鄰接矩陣進(jìn)行了賦權(quán),在增強(qiáng)數(shù)據(jù)關(guān)聯(lián)性檢測(cè)效果的同時(shí),也使改進(jìn)技術(shù)聚類時(shí)所出現(xiàn)的形狀變得多樣化,充分說明改進(jìn)技術(shù)更優(yōu)良。

        表3 不同技術(shù)挖掘后的數(shù)據(jù)索引效率

        在索引字?jǐn)?shù)量為2個(gè)的情況下,對(duì)4種引入不同聚類方法的數(shù)據(jù)挖掘技術(shù)的索引效率進(jìn)行測(cè)試,分析表3可知,應(yīng)用Average-Linkage聚類法的數(shù)據(jù)挖掘技術(shù),其索引時(shí)間為0.5 s;應(yīng)用K-Means聚類法的數(shù)據(jù)挖掘技術(shù),其索引時(shí)間為0.4 s;應(yīng)用SOM聚類法的數(shù)據(jù)挖掘技術(shù),其索引時(shí)間為0.6 s;改進(jìn)技術(shù)采用MST聚類法,其索引時(shí)間為0.1 s。對(duì)比4種引入不同聚類方法的數(shù)據(jù)挖掘技術(shù)的實(shí)驗(yàn)結(jié)果,明顯看出改進(jìn)技術(shù)的數(shù)據(jù)索引效率最高,近乎是其他三種數(shù)據(jù)挖掘技術(shù)索引效率的五分之一,索引效率大幅度提升,這是因?yàn)楦倪M(jìn)技術(shù)依據(jù)實(shí)際問題及數(shù)據(jù)分布狀態(tài),按照邊權(quán)值由大到小分割MST的邊,從而實(shí)現(xiàn)挖掘后的數(shù)據(jù)索引效率的提升,實(shí)驗(yàn)結(jié)果驗(yàn)證了改進(jìn)技術(shù)的實(shí)用性。

        為了驗(yàn)證改進(jìn)技術(shù)能夠高精度地對(duì)大數(shù)據(jù)資源進(jìn)行挖掘,以傳統(tǒng)技術(shù)作為對(duì)照組,實(shí)驗(yàn)共進(jìn)行6次,記錄每次試驗(yàn)的不同技術(shù)數(shù)據(jù)資源挖掘情況,并計(jì)算其精度。挖掘精度對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如下:

        觀察圖9可知,經(jīng)過6次對(duì)比實(shí)驗(yàn),采用文獻(xiàn)[7]技術(shù)對(duì)數(shù)據(jù)進(jìn)行挖掘,其數(shù)據(jù)挖掘精度隨實(shí)驗(yàn)次數(shù)的增大逐漸減小,但減小的幅度并不大,曲線基本保持平穩(wěn)狀態(tài),其平均數(shù)據(jù)挖掘精度為35%,精度較低。采用文獻(xiàn)[8]技術(shù)對(duì)數(shù)據(jù)進(jìn)行挖掘,其數(shù)據(jù)挖掘精度隨實(shí)驗(yàn)次數(shù)的增大基本保持不變,曲線十分平穩(wěn),平均數(shù)據(jù)挖掘精度為18%。采用改進(jìn)技術(shù)對(duì)數(shù)據(jù)進(jìn)行挖掘,其數(shù)據(jù)挖掘精度初始值就已達(dá)到80%,且曲線十分穩(wěn)定,只有在第4次實(shí)驗(yàn)時(shí),出現(xiàn)了挖掘精度最低值為75%,在第6次實(shí)驗(yàn)時(shí),出現(xiàn)了最大挖掘精度為85%。對(duì)比文獻(xiàn)[7]技術(shù)、文獻(xiàn)[8]技術(shù)及改進(jìn)技術(shù)可以明顯看出,改進(jìn)技術(shù)的數(shù)據(jù)資源挖掘精度遠(yuǎn)遠(yuǎn)高于文獻(xiàn)[7]技術(shù)、文獻(xiàn)[8]技術(shù)的數(shù)據(jù)資源挖掘精度,且通過每一次實(shí)驗(yàn)結(jié)果的對(duì)比,可以看出改進(jìn)技術(shù)不僅挖掘精度較高,且均能穩(wěn)定在80%左右,充分說明改進(jìn)技術(shù)的穩(wěn)定性更好,實(shí)用性更強(qiáng)。

        圖9 不同技術(shù)數(shù)據(jù)資源挖掘精度對(duì)比

        綜合以上實(shí)驗(yàn)結(jié)果可知,改進(jìn)的云平臺(tái)大數(shù)據(jù)資源挖掘技術(shù)通過引進(jìn)MST聚類方法,其數(shù)據(jù)關(guān)聯(lián)性好,數(shù)據(jù)聚類錯(cuò)誤召回率高,聚類時(shí)出現(xiàn)形狀多樣化,數(shù)據(jù)索引效率高,且挖掘精度高,具有一定的有效性和實(shí)用性。

        4 結(jié)論

        根據(jù)互聯(lián)網(wǎng)+的科技創(chuàng)新服務(wù)平臺(tái),通過O2O模式把科技服務(wù)當(dāng)作一種商品,并充當(dāng)科研機(jī)構(gòu)以及企業(yè)間的中介與橋梁,能夠有效地滿足企業(yè)創(chuàng)新服務(wù)需求,同時(shí)也激發(fā)了企業(yè)創(chuàng)新的活力,大大提升了平臺(tái)的效能,不過在市場(chǎng)推動(dòng)機(jī)制還未完全建立時(shí),存在平臺(tái)發(fā)展后勁亟待加強(qiáng)等問題,要保障平臺(tái)穩(wěn)定發(fā)展,就需要對(duì)其中的云平臺(tái)中大數(shù)據(jù)資源進(jìn)行挖掘。

        提出一種MST數(shù)據(jù)聚類挖掘法,根據(jù)圖論理論,利用數(shù)據(jù)間的關(guān)聯(lián)性分析建立鄰接矩陣,采用各個(gè)數(shù)據(jù)間鄰接矩陣邊的權(quán)值建立全圖,并產(chǎn)生全圖的MST,按邊權(quán)值大小對(duì)MST進(jìn)行切割,直到獲得最優(yōu)簇。并通過實(shí)驗(yàn)證明,該方法具有可行性。

        目前大眾對(duì)大數(shù)據(jù)的連接以及運(yùn)用只是停留在初期,云平臺(tái)大數(shù)據(jù)越來越呈現(xiàn)出迅猛增長(zhǎng)的趨勢(shì),由此該文未來會(huì)在更加高頻以及高維復(fù)雜的數(shù)據(jù)挖掘上作進(jìn)一步地研究和分析。

        [1] 吳曉英, 明均仁. 基于數(shù)據(jù)挖掘的大數(shù)據(jù)管理模型研究[J]. 情報(bào)科學(xué), 2015, 32(11):131-134.

        [2] 歐陽秋梅, 吳 超. 從大數(shù)據(jù)和小數(shù)據(jù)中挖掘安全規(guī)律的方法比較[J]. 中國安全科學(xué)學(xué)報(bào), 2016, 26(7):1-6.

        [3] 郜凱英, 楊宜勇. 中國互聯(lián)網(wǎng)+社會(huì)保障信息系統(tǒng)構(gòu)建——基于大數(shù)據(jù)挖掘視角[J]. 經(jīng)濟(jì)與管理研究, 2016, 37(5):83-89.

        [4] 馬昱欣, 曹震東, 陳 為. 可視化驅(qū)動(dòng)的交互式數(shù)據(jù)挖掘方法綜述[J]. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào), 2016, 28(1):1-8.

        [5] 申 琢, 譚章祿. 基于數(shù)據(jù)挖掘的煤礦大數(shù)據(jù)可視化管理平臺(tái)研究[J]. 中國煤炭, 2016, 42(12):86-89.

        [6] 張繼榮, 王向陽. 基于XML數(shù)據(jù)挖掘的Apriori算法的研究與改進(jìn)[J]. 計(jì)算機(jī)測(cè)量與控制, 2016, 24(6):178-180.

        [7] 董本清, 彭健鈞. 復(fù)雜網(wǎng)絡(luò)數(shù)據(jù)流中的異常數(shù)據(jù)挖掘算法仿真[J]. 計(jì)算機(jī)仿真, 2016, 33(1):434-437.

        [8] 王 琰. 一種多層安全相關(guān)屬性標(biāo)定偏好數(shù)據(jù)挖掘模型[J]. 科技通報(bào), 2015, 31(12):176-178.

        [9] 任高舉, 白亞男. 多媒體智能教學(xué)系統(tǒng)中特定數(shù)據(jù)挖掘方法研究[J]. 電子設(shè)計(jì)工程, 2016, 24(11):4-7.

        [10] 梁鳳蘭. 基于數(shù)據(jù)挖掘的農(nóng)產(chǎn)品質(zhì)量特性波動(dòng)溯源方法[J]. 科學(xué)技術(shù)與工程, 2017, 17(3):268-272.

        Research on Large Data Resource Mining Technology Based on Cloud Platform

        Xue Bei,Zhou Yanhuai,Wang Xiaolan

        (Taizhou College, Nanjing Normal University,Taizhou 225300,China)

        In order to solve the problem of low precision and long time consuming in mining large data resources under the cloud platform, the mining technology of large data resources is improved. Preprocessing of the cloud platform data sets using MST clustering method to enhance the detection results according to the relevance between data and data, improve the efficiency of the index, the adjacency matrix data as edge weights, generating graph MST, obtain evaluation data mining accuracy standard, and get k a minimum spanning tree. The results of the optimal clustering a sub tree, which is the data set. Experimental results show that the proposed method effectively improves the accuracy of large data mining, and makes data resources more efficient.

        cloud platform; data resources; excavate; technical improvement

        2017-10-14;

        2017-10-24。

        2015年泰州市軟科學(xué)研究計(jì)劃項(xiàng)目(RKX201529)。

        薛 蓓(1985-),女,江蘇泰興人,碩士,助理研究員,主要從事計(jì)算機(jī)技術(shù),教育管理方向的研究。

        周延懷(1954-),男,江蘇鎮(zhèn)江人,大學(xué),教授,主要從事物理學(xué)方向的研究。

        1671-4598(2017)12-0275-04

        10.16526/j.cnki.11-4762/tp.2017.12.071

        TP311

        A

        猜你喜歡
        鄰接矩陣關(guān)聯(lián)性數(shù)據(jù)挖掘
        輪圖的平衡性
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        四物湯有效成分的關(guān)聯(lián)性分析
        中成藥(2017年3期)2017-05-17 06:09:05
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        如何準(zhǔn)確認(rèn)定排污行為和環(huán)境損害之間的關(guān)聯(lián)性
        基于鄰接矩陣變型的K分網(wǎng)絡(luò)社團(tuán)算法
        CRP檢測(cè)與新生兒感染的關(guān)聯(lián)性
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        一種判定的無向圖連通性的快速Warshall算法
        Inverse of Adjacency Matrix of a Graph with Matrix Weights
        在线免费观看黄色国产强暴av | 国产日产综合| 91精品一区国产高清在线gif| 精品深夜av无码一区二区老年| 日日鲁鲁鲁夜夜爽爽狠狠视频97| 亚洲欧美日韩中文v在线| 偷拍熟女露出喷水在线91| 亚洲国产天堂久久综合网| 国产福利永久在线视频无毒不卡| 无码人妻久久一区二区三区不卡| 国产一级毛片卡| 国产自拍伦理在线观看| 日韩精品视频在线观看无| 麻豆av一区二区三区| 手机在线看永久av片免费| 国产最新在线视频| 午夜国产小视频在线观看黄| 一本久道久久丁香狠狠躁| 久久久国产精品无码免费专区| 亚洲a∨无码男人的天堂| 欧美老妇与zozoz0交| 在线观看精品国产福利片87| 人妻系列中文字幕av| 免费av片在线观看网址| 日韩成人大屁股内射喷水| 亚洲av日韩片在线观看| 网址视频在线成人亚洲| 日本最新一区二区三区视频观看| 国产成人精品123区免费视频| 中文字幕av在线一二三区| 欧美1区二区三区公司| 日本一区二区在线播放视频 | 91久久国产香蕉熟女线看 | 丁字裤少妇露黑毛| 免费99视频| 国产超碰在线91观看| 欧美成人www在线观看| 玖玖资源站无码专区| 久久这里只有精品黄色| 美女扒开内裤让我捅的视频| 日韩中文字幕免费视频|