亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于高速無(wú)線網(wǎng)絡(luò)的云計(jì)算平臺(tái)上的增量和協(xié)同技術(shù)研究

        2015-04-29 00:00:00王遠(yuǎn)張儒劍張?jiān)<?/span>
        中國(guó)新通信 2015年13期

        【摘要】 本文針對(duì)云計(jì)算提出了增量更新和協(xié)同工作的一種較為新型的數(shù)據(jù)挖掘更新方式,文章著重介紹了增量更新中基于網(wǎng)絡(luò)的表格化數(shù)據(jù)存儲(chǔ)和更新方式,以及對(duì)一般協(xié)同工作算法的稍加修改,通過(guò)這種新的數(shù)據(jù)方式實(shí)現(xiàn)避免掃描原始數(shù)據(jù)庫(kù),來(lái)實(shí)現(xiàn)數(shù)據(jù)的快速挖掘和更新。

        【關(guān)鍵字】 網(wǎng)絡(luò)遍歷 數(shù)據(jù)挖據(jù) 最小閾值 協(xié)同工作

        一、問(wèn)題的提出

        近年來(lái),隨著網(wǎng)絡(luò)的快速發(fā)展以及信息技術(shù)的廣泛植入,提出了對(duì)信息處理能力更高的要求。在這種背景下,數(shù)據(jù)挖掘領(lǐng)域中的增量網(wǎng)絡(luò)遍歷技術(shù)應(yīng)運(yùn)而生,網(wǎng)絡(luò)遍歷挖掘是數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)信息處理中的應(yīng)用。網(wǎng)絡(luò)遍歷挖掘是從大量訓(xùn)練樣本的基礎(chǔ)上得到數(shù)據(jù)對(duì)象間的內(nèi)在特征,并以此為依據(jù)進(jìn)行有目的的信息提取。但是以上的研究都是以假設(shè)數(shù)據(jù)庫(kù)為靜態(tài)的前提的。而事實(shí)上,在網(wǎng)絡(luò)中基本上所有類型的數(shù)據(jù)庫(kù)都處在不斷的更新(增加、刪除、修改)中,所有的支持度閾值也會(huì)不斷改變,并且動(dòng)態(tài)數(shù)據(jù)胡往往要求對(duì)用戶的查詢指令做出快速的反應(yīng)。因此,在網(wǎng)絡(luò)中,如何提高動(dòng)態(tài)數(shù)據(jù)庫(kù)的關(guān)聯(lián)規(guī)則,和其遍歷的效率成了個(gè)重要的問(wèn)題。

        二、關(guān)鍵技術(shù)

        2.1增量查找技術(shù)---網(wǎng)絡(luò)表格遍歷

        為了增量的交互的挖掘 Web 訪問(wèn)序列模式,我們通過(guò)利用先前的挖掘結(jié)果發(fā)現(xiàn)新的模式來(lái)達(dá)到節(jié)省挖掘時(shí)間的目的,選擇一個(gè)好的存儲(chǔ)結(jié)構(gòu)來(lái)儲(chǔ)存先前的 挖掘結(jié)果很重要。于是我們選擇用網(wǎng)格結(jié)構(gòu)來(lái)保存先前挖掘結(jié)果。圖(1)給出了描述了一個(gè)含有ABC, ABD,CDA的簡(jiǎn)單數(shù)據(jù)庫(kù)的網(wǎng)格結(jié)構(gòu)。

        通過(guò)圖(1)我們可以很清楚的觀察到,如果該數(shù)據(jù)庫(kù)的任何一個(gè)數(shù)據(jù)發(fā)生了變化,通過(guò)該網(wǎng)絡(luò)表格的存儲(chǔ)方式,都可以很快的發(fā)現(xiàn), 避免了完全遍歷整個(gè)數(shù)據(jù)庫(kù)的過(guò)程,僅需要根據(jù)反饋,遍歷部分支路。

        本文的算法按照自下而上的順序由網(wǎng)格結(jié)構(gòu)的第一層向最后一層逐層挖掘來(lái)發(fā)現(xiàn)。對(duì)于任意層 k(k≥1),產(chǎn)生所有的訪問(wèn)模式。每個(gè)層 k 中有兩個(gè)主要步驟:

        第一步,當(dāng)舊的數(shù)據(jù)從數(shù)據(jù)庫(kù)中刪除時(shí),相應(yīng)的網(wǎng)格結(jié)構(gòu)中從每個(gè) k 層節(jié)點(diǎn)刪除已刪除的數(shù)據(jù)的相關(guān)數(shù)據(jù),如果出現(xiàn)該節(jié)點(diǎn)包含要?jiǎng)h除的子數(shù)據(jù),則減少該節(jié)點(diǎn)支持度。

        第二步,當(dāng)新的數(shù)據(jù)向數(shù)據(jù)庫(kù)中插入時(shí)。相應(yīng)的網(wǎng)格結(jié)構(gòu)中對(duì)于每個(gè)插入數(shù)據(jù) u,把 u 分解成長(zhǎng)度為 k 的訪問(wèn)序列,即產(chǎn)生的數(shù)據(jù) u 的所有長(zhǎng)度為 k 的子序列。參照網(wǎng)站結(jié)構(gòu),刪除子序列中不合格的 k-子序列。檢查更新網(wǎng)格結(jié)構(gòu),如果節(jié)點(diǎn)的支持計(jì)數(shù)為 0,那么將該節(jié)點(diǎn)和所有與該節(jié)點(diǎn)相關(guān)的連接從網(wǎng)格結(jié)構(gòu)中刪除。

        2.2協(xié)同工作計(jì)算最小閾值

        我們通過(guò)MapReduce來(lái)對(duì)分布式數(shù)據(jù)進(jìn)行處理和計(jì)算,通過(guò)Map(映射)和Reduce(簡(jiǎn)化)的方式實(shí)現(xiàn)數(shù)據(jù)的并行計(jì)算。在云計(jì)算的環(huán)境下,數(shù)據(jù)儲(chǔ)存和管理都是分布式的,應(yīng)用系統(tǒng)中的數(shù)據(jù)庫(kù)服務(wù)器稱為數(shù)據(jù)庫(kù)節(jié)點(diǎn),每一個(gè)數(shù)據(jù)庫(kù)節(jié)點(diǎn)都具備數(shù)據(jù)儲(chǔ)存、管理和協(xié)調(diào)作用,能夠在每一個(gè)節(jié)點(diǎn)完成對(duì)分布式數(shù)據(jù)的存取和管理。采用的是基本的分布式數(shù)據(jù)協(xié)同處理方式,分布式數(shù)據(jù)協(xié)同管理的實(shí)現(xiàn)機(jī)制可以分為協(xié)同管理、執(zhí)行和數(shù)據(jù)管理三個(gè)層次。本文章通過(guò)調(diào)用簡(jiǎn)單的分布式數(shù)據(jù)處理以及添加相應(yīng)的代碼對(duì)數(shù)據(jù)在傳輸?shù)倪^(guò)程中進(jìn)行分析和計(jì)算,如圖(2)所示,指令核心內(nèi)容是對(duì)最小閾值a的計(jì)算

        三、研究過(guò)程以及數(shù)據(jù)收集

        A:未添加增量算法

        B:添加了算法

        對(duì)于新提出的增量算法我們進(jìn)行了仿真,并且與未添加增量算法的更新方式進(jìn)行了對(duì)比,如下圖(3)表所示。

        我們?cè)O(shè)定了傳輸數(shù)據(jù)是20M/s,在不考慮其他因素的影響下,我們針對(duì)數(shù)據(jù)的傳輸進(jìn)行了初步仿真,并且初始設(shè)定最小閾值為68%,并且圖(3)中的五組數(shù)據(jù)都是統(tǒng)一的txt文件格式,其中每組數(shù)據(jù)變量都為50%,我們不難看出,隨著數(shù)據(jù)的增大,通過(guò)網(wǎng)絡(luò)表格存儲(chǔ)方式,來(lái)尋找變量的增量算法時(shí)間遠(yuǎn)遠(yuǎn)小于一般的數(shù)據(jù)傳輸所需要的時(shí)間。

        對(duì)于初始最小閾值68%,是我們通多多次試驗(yàn)仿真的結(jié)果,如下圖我們對(duì)于20G的對(duì)象,并且數(shù)據(jù)變量為50%的不同閾值仿真得到的圖。

        從圖 (4)中我們可以發(fā)現(xiàn)在閾值為65%-70%左邊,隨著閾值的增大到數(shù)據(jù)傳輸?shù)臅r(shí)間是減少的,然后當(dāng)閾值從70%增長(zhǎng)到80%,我們發(fā)現(xiàn)時(shí)間增長(zhǎng),甚至?xí)谐^(guò)了原本的傳輸時(shí)間,這是因?yàn)樵陂撝档陀?5%左右時(shí),增量挖掘算法可以較快的在數(shù)據(jù)庫(kù)中找到遍量,并且快速的對(duì)其進(jìn)行更新,而當(dāng)閾值越來(lái)越大時(shí),挖掘和數(shù)據(jù)遍歷的時(shí)間都需要增加,因此未必比直接覆蓋更新更加高效。

        圖(5)為30G時(shí)的不同閾值的仿真,從圖(4)(5)中我們可以發(fā)現(xiàn)對(duì)于三種不同的數(shù)據(jù)類型,相同的,所需要的數(shù)據(jù)傳輸時(shí)間也有較大的差別,于是我們添加了協(xié)同算法。

        在本文章中,我們協(xié)同的核心算法是:

        {if 遍歷數(shù)據(jù)是發(fā)現(xiàn)變量為txt文件,閾值減少2.5%;

        if 遍歷數(shù)據(jù)是發(fā)現(xiàn)變量為word文件,閾值減少2%;

        if 遍歷數(shù)據(jù)是發(fā)現(xiàn)變量為excel文件,閾值減少1%;

        閾值初始為70%}

        最終得出的a為最小閾值。

        注:從(4)(5)我們可以發(fā)現(xiàn)excel文件傳輸時(shí)間閾值改變的影響最大,而txt文件受閾值改變的影響最想,而最合理的閾值是在65%-70%之間,因此我們做出了如上的核心算法中閾值的推測(cè)。

        圖(6)是本文章提出算法的完整仿真,仿真對(duì)象是 20G的數(shù)據(jù),其中txt,word,excel的比例為33%,33%,34%。

        A: 變量為txt;B:變量為word;C:變量為excel。

        我們?cè)诒敬畏抡嬷薪y(tǒng)一數(shù)據(jù)的變量為50%,如果同時(shí)出現(xiàn)2中數(shù)據(jù)類型的變量,則變量均勻分布。例如,同時(shí)出現(xiàn)數(shù)據(jù)類型為txt和word 的變量,則30%位txt變量,30%為word變量。

        圖(6)為我們所有的仿真數(shù)據(jù)的統(tǒng)計(jì),我們可以發(fā)現(xiàn)基本上,最合適的最小閾值基本滿足與核心算法相對(duì)應(yīng),例如只有txt變量,最小閾值得為67.5%,由圖(6)我們可以觀察得出,時(shí)間最少的在67%-68%之間,誤差不大。

        四、目前存在的問(wèn)題

        到如今,我們的研究結(jié)果還存在兩個(gè)問(wèn)題,

        1、核心算法包括的數(shù)據(jù)類型太片面,未包含視頻等其他格式的文件。目前打算,是在今后繼續(xù)深入的進(jìn)行數(shù)據(jù)收集,將更多的數(shù)據(jù)類型能夠添加到算法中,如果可以的話,可以將不同的數(shù)據(jù)在導(dǎo)讀數(shù)據(jù)庫(kù)是統(tǒng)一進(jìn)行轉(zhuǎn)碼,并且打上節(jié)點(diǎn),考慮到該技術(shù)實(shí)現(xiàn)的復(fù)雜性,本文章并沒(méi)有涉及到數(shù)據(jù)庫(kù)不同數(shù)據(jù)的轉(zhuǎn)碼方式,并且由于核心算法涉及到協(xié)同工作分析數(shù)據(jù)的效率,所以不能一味地添加條件,具體的還需要今后通過(guò)更多的仿真來(lái)改進(jìn)。

        2、算法的應(yīng)用性。對(duì)于算法的可實(shí)現(xiàn)性,我們已經(jīng)進(jìn)行的分析和仿真,問(wèn)題不是很大,但是在后期數(shù)據(jù)整理的過(guò)程中,我們發(fā)現(xiàn)如果我們完全貼合現(xiàn)在的數(shù)據(jù)傳輸能力,8M/s的傳輸能力,傳輸?shù)膶?duì)象一般1G到10G不等,我們也做了一個(gè)仿真,其中變化的數(shù)據(jù)依舊是50%。

        注:A:添加完整算法;B:未添加。

        我們可以發(fā)現(xiàn),如果結(jié)合實(shí)際中的具體情況,本文章提出的算法不適用于過(guò)小的數(shù)據(jù)增量更新,這是由于協(xié)同工作的服務(wù)器分析數(shù)據(jù),調(diào)用數(shù)據(jù)是需要一定的時(shí)間,并且增量更新在進(jìn)行數(shù)據(jù)遍歷的時(shí)候也是需要一部分時(shí)間的。因此,本文章具體的應(yīng)用方向主要在云計(jì)算的大數(shù)據(jù)處理,在面對(duì)小型的數(shù)據(jù)處理時(shí)有一些累贅。

        參 考 文 獻(xiàn)

        [1]戴炳榮,宋俊典等《云計(jì)算環(huán)境下式數(shù)據(jù)處理協(xié)同機(jī)制的研究》

        [2]基于云計(jì)算的Web數(shù)據(jù)挖掘.計(jì)算機(jī)科學(xué).2011,38

        [3] Han J,Kamber M.Data Minng Concepts and techniques. Morgan Kaufmann. San Francisco,2006

        中文无码一区二区三区在线观看| 午夜国产小视频在线观看黄| 视频国产自拍在线观看| 18国产精品白浆在线观看免费| 久久久午夜精品福利内容| 国产精品区一区二区三在线播放 | 日产精品久久久久久久| 婷婷激情五月综合在线观看| 国产91会所女技师在线观看 | 亚洲色www成人永久网址| 亚洲人妻无缓冲av不卡| 精品午夜中文字幕熟女| 亚洲欧洲免费无码| 成人妇女免费播放久久久| 视频国产精品| 日本久久久精品免费免费理论| 欧美伦费免费全部午夜最新| 精品久久人人妻人人做精品| 精精国产xxxx视频在线播放器| 亚洲黄色精品在线播放| 大学生高潮无套内谢视频| 国产午夜激无码av毛片| 成人特黄特色毛片免费看| 亚洲国产精品区在线观看| 亚洲va中文字幕无码毛片| 久久久久这里只有精品网| 日本岛国一区二区三区| 久久精品国产亚洲av麻豆瑜伽| 亚洲色丰满少妇高潮18p| 黑人巨大精品欧美在线观看| av网站免费观看入口| 日本高清视频wwww色| 国产成人精品日本亚洲18| 激情一区二区三区视频| 精品一二三四区中文字幕| 亚洲aⅴ天堂av天堂无码麻豆| 青青草视频华人绿色在线| av免费在线国语对白| 久久婷婷人人澡人人爽人人爱| 国产一国产一级新婚之夜| 亚洲大胆视频在线观看|