亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于高速無(wú)線網(wǎng)絡(luò)的云計(jì)算平臺(tái)上的增量和協(xié)同技術(shù)研究

2015-04-29 00:00:00王遠(yuǎn)張儒劍張?jiān)＜?/span>

中國(guó)新通信 2015年13期

【摘要】本文針對(duì)云計(jì)算提出了增量更新和協(xié)同工作的一種較為新型的數(shù)據(jù)挖掘更新方式，文章著重介紹了增量更新中基于網(wǎng)絡(luò)的表格化數(shù)據(jù)存儲(chǔ)和更新方式，以及對(duì)一般協(xié)同工作算法的稍加修改，通過(guò)這種新的數(shù)據(jù)方式實(shí)現(xiàn)避免掃描原始數(shù)據(jù)庫(kù)，來(lái)實(shí)現(xiàn)數(shù)據(jù)的快速挖掘和更新。

【關(guān)鍵字】網(wǎng)絡(luò)遍歷數(shù)據(jù)挖據(jù) 最小閾值協(xié)同工作

一、問(wèn)題的提出

近年來(lái)，隨著網(wǎng)絡(luò)的快速發(fā)展以及信息技術(shù)的廣泛植入，提出了對(duì)信息處理能力更高的要求。在這種背景下，數(shù)據(jù)挖掘領(lǐng)域中的增量網(wǎng)絡(luò)遍歷技術(shù)應(yīng)運(yùn)而生，網(wǎng)絡(luò)遍歷挖掘是數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)信息處理中的應(yīng)用。網(wǎng)絡(luò)遍歷挖掘是從大量訓(xùn)練樣本的基礎(chǔ)上得到數(shù)據(jù)對(duì)象間的內(nèi)在特征，并以此為依據(jù)進(jìn)行有目的的信息提取。但是以上的研究都是以假設(shè)數(shù)據(jù)庫(kù)為靜態(tài)的前提的。而事實(shí)上，在網(wǎng)絡(luò)中基本上所有類型的數(shù)據(jù)庫(kù)都處在不斷的更新（增加、刪除、修改）中，所有的支持度閾值也會(huì)不斷改變，并且動(dòng)態(tài)數(shù)據(jù)胡往往要求對(duì)用戶的查詢指令做出快速的反應(yīng)。因此，在網(wǎng)絡(luò)中，如何提高動(dòng)態(tài)數(shù)據(jù)庫(kù)的關(guān)聯(lián)規(guī)則，和其遍歷的效率成了個(gè)重要的問(wèn)題。

二、關(guān)鍵技術(shù)

2.1增量查找技術(shù)---網(wǎng)絡(luò)表格遍歷

為了增量的交互的挖掘 Web 訪問(wèn)序列模式，我們通過(guò)利用先前的挖掘結(jié)果發(fā)現(xiàn)新的模式來(lái)達(dá)到節(jié)省挖掘時(shí)間的目的，選擇一個(gè)好的存儲(chǔ)結(jié)構(gòu)來(lái)儲(chǔ)存先前的挖掘結(jié)果很重要。于是我們選擇用網(wǎng)格結(jié)構(gòu)來(lái)保存先前挖掘結(jié)果。圖（1）給出了描述了一個(gè)含有ABC， ABD，CDA的簡(jiǎn)單數(shù)據(jù)庫(kù)的網(wǎng)格結(jié)構(gòu)。

通過(guò)圖（1）我們可以很清楚的觀察到，如果該數(shù)據(jù)庫(kù)的任何一個(gè)數(shù)據(jù)發(fā)生了變化，通過(guò)該網(wǎng)絡(luò)表格的存儲(chǔ)方式，都可以很快的發(fā)現(xiàn)，避免了完全遍歷整個(gè)數(shù)據(jù)庫(kù)的過(guò)程，僅需要根據(jù)反饋，遍歷部分支路。

本文的算法按照自下而上的順序由網(wǎng)格結(jié)構(gòu)的第一層向最后一層逐層挖掘來(lái)發(fā)現(xiàn)。對(duì)于任意層 k（k≥1），產(chǎn)生所有的訪問(wèn)模式。每個(gè)層 k 中有兩個(gè)主要步驟：

第一步，當(dāng)舊的數(shù)據(jù)從數(shù)據(jù)庫(kù)中刪除時(shí)，相應(yīng)的網(wǎng)格結(jié)構(gòu)中從每個(gè) k 層節(jié)點(diǎn)刪除已刪除的數(shù)據(jù)的相關(guān)數(shù)據(jù)，如果出現(xiàn)該節(jié)點(diǎn)包含要?jiǎng)h除的子數(shù)據(jù)，則減少該節(jié)點(diǎn)支持度。

第二步，當(dāng)新的數(shù)據(jù)向數(shù)據(jù)庫(kù)中插入時(shí)。相應(yīng)的網(wǎng)格結(jié)構(gòu)中對(duì)于每個(gè)插入數(shù)據(jù) u，把 u 分解成長(zhǎng)度為 k 的訪問(wèn)序列，即產(chǎn)生的數(shù)據(jù) u 的所有長(zhǎng)度為 k 的子序列。參照網(wǎng)站結(jié)構(gòu)，刪除子序列中不合格的 k-子序列。檢查更新網(wǎng)格結(jié)構(gòu)，如果節(jié)點(diǎn)的支持計(jì)數(shù)為 0，那么將該節(jié)點(diǎn)和所有與該節(jié)點(diǎn)相關(guān)的連接從網(wǎng)格結(jié)構(gòu)中刪除。

2.2協(xié)同工作計(jì)算最小閾值

我們通過(guò)MapReduce來(lái)對(duì)分布式數(shù)據(jù)進(jìn)行處理和計(jì)算，通過(guò)Map（映射）和Reduce（簡(jiǎn)化）的方式實(shí)現(xiàn)數(shù)據(jù)的并行計(jì)算。在云計(jì)算的環(huán)境下，數(shù)據(jù)儲(chǔ)存和管理都是分布式的，應(yīng)用系統(tǒng)中的數(shù)據(jù)庫(kù)服務(wù)器稱為數(shù)據(jù)庫(kù)節(jié)點(diǎn)，每一個(gè)數(shù)據(jù)庫(kù)節(jié)點(diǎn)都具備數(shù)據(jù)儲(chǔ)存、管理和協(xié)調(diào)作用，能夠在每一個(gè)節(jié)點(diǎn)完成對(duì)分布式數(shù)據(jù)的存取和管理。采用的是基本的分布式數(shù)據(jù)協(xié)同處理方式，分布式數(shù)據(jù)協(xié)同管理的實(shí)現(xiàn)機(jī)制可以分為協(xié)同管理、執(zhí)行和數(shù)據(jù)管理三個(gè)層次。本文章通過(guò)調(diào)用簡(jiǎn)單的分布式數(shù)據(jù)處理以及添加相應(yīng)的代碼對(duì)數(shù)據(jù)在傳輸?shù)倪^(guò)程中進(jìn)行分析和計(jì)算，如圖（2）所示，指令核心內(nèi)容是對(duì)最小閾值a的計(jì)算

三、研究過(guò)程以及數(shù)據(jù)收集

A：未添加增量算法

B：添加了算法

對(duì)于新提出的增量算法我們進(jìn)行了仿真，并且與未添加增量算法的更新方式進(jìn)行了對(duì)比，如下圖（3）表所示。

我們?cè)O(shè)定了傳輸數(shù)據(jù)是20M/s，在不考慮其他因素的影響下，我們針對(duì)數(shù)據(jù)的傳輸進(jìn)行了初步仿真，并且初始設(shè)定最小閾值為68%，并且圖（3）中的五組數(shù)據(jù)都是統(tǒng)一的txt文件格式，其中每組數(shù)據(jù)變量都為50%，我們不難看出，隨著數(shù)據(jù)的增大，通過(guò)網(wǎng)絡(luò)表格存儲(chǔ)方式，來(lái)尋找變量的增量算法時(shí)間遠(yuǎn)遠(yuǎn)小于一般的數(shù)據(jù)傳輸所需要的時(shí)間。

對(duì)于初始最小閾值68%，是我們通多多次試驗(yàn)仿真的結(jié)果，如下圖我們對(duì)于20G的對(duì)象，并且數(shù)據(jù)變量為50%的不同閾值仿真得到的圖。

從圖（4）中我們可以發(fā)現(xiàn)在閾值為65%-70%左邊，隨著閾值的增大到數(shù)據(jù)傳輸?shù)臅r(shí)間是減少的，然后當(dāng)閾值從70%增長(zhǎng)到80%，我們發(fā)現(xiàn)時(shí)間增長(zhǎng)，甚至?xí)谐^(guò)了原本的傳輸時(shí)間，這是因?yàn)樵陂撝档陀?5%左右時(shí)，增量挖掘算法可以較快的在數(shù)據(jù)庫(kù)中找到遍量，并且快速的對(duì)其進(jìn)行更新，而當(dāng)閾值越來(lái)越大時(shí)，挖掘和數(shù)據(jù)遍歷的時(shí)間都需要增加，因此未必比直接覆蓋更新更加高效。

圖（5）為30G時(shí)的不同閾值的仿真，從圖（4）（5）中我們可以發(fā)現(xiàn)對(duì)于三種不同的數(shù)據(jù)類型，相同的，所需要的數(shù)據(jù)傳輸時(shí)間也有較大的差別，于是我們添加了協(xié)同算法。

在本文章中，我們協(xié)同的核心算法是：

{if 遍歷數(shù)據(jù)是發(fā)現(xiàn)變量為txt文件，閾值減少2.5%；

if 遍歷數(shù)據(jù)是發(fā)現(xiàn)變量為word文件，閾值減少2%；

if 遍歷數(shù)據(jù)是發(fā)現(xiàn)變量為excel文件，閾值減少1%；

閾值初始為70%}

最終得出的a為最小閾值。

注：從（4）（5）我們可以發(fā)現(xiàn)excel文件傳輸時(shí)間閾值改變的影響最大，而txt文件受閾值改變的影響最想，而最合理的閾值是在65%-70%之間，因此我們做出了如上的核心算法中閾值的推測(cè)。

圖（6）是本文章提出算法的完整仿真，仿真對(duì)象是 20G的數(shù)據(jù)，其中txt，word，excel的比例為33%，33%，34%。

A：變量為txt；B：變量為word；C：變量為excel。

我們?cè)诒敬畏抡嬷薪y(tǒng)一數(shù)據(jù)的變量為50%，如果同時(shí)出現(xiàn)2中數(shù)據(jù)類型的變量，則變量均勻分布。例如，同時(shí)出現(xiàn)數(shù)據(jù)類型為txt和word 的變量，則30%位txt變量，30%為word變量。

圖（6）為我們所有的仿真數(shù)據(jù)的統(tǒng)計(jì)，我們可以發(fā)現(xiàn)基本上，最合適的最小閾值基本滿足與核心算法相對(duì)應(yīng)，例如只有txt變量，最小閾值得為67.5%，由圖（6）我們可以觀察得出，時(shí)間最少的在67%-68%之間，誤差不大。

四、目前存在的問(wèn)題

到如今，我們的研究結(jié)果還存在兩個(gè)問(wèn)題，

1、核心算法包括的數(shù)據(jù)類型太片面，未包含視頻等其他格式的文件。目前打算，是在今后繼續(xù)深入的進(jìn)行數(shù)據(jù)收集，將更多的數(shù)據(jù)類型能夠添加到算法中，如果可以的話，可以將不同的數(shù)據(jù)在導(dǎo)讀數(shù)據(jù)庫(kù)是統(tǒng)一進(jìn)行轉(zhuǎn)碼，并且打上節(jié)點(diǎn)，考慮到該技術(shù)實(shí)現(xiàn)的復(fù)雜性，本文章并沒(méi)有涉及到數(shù)據(jù)庫(kù)不同數(shù)據(jù)的轉(zhuǎn)碼方式，并且由于核心算法涉及到協(xié)同工作分析數(shù)據(jù)的效率，所以不能一味地添加條件，具體的還需要今后通過(guò)更多的仿真來(lái)改進(jìn)。

2、算法的應(yīng)用性。對(duì)于算法的可實(shí)現(xiàn)性，我們已經(jīng)進(jìn)行的分析和仿真，問(wèn)題不是很大，但是在后期數(shù)據(jù)整理的過(guò)程中，我們發(fā)現(xiàn)如果我們完全貼合現(xiàn)在的數(shù)據(jù)傳輸能力，8M/s的傳輸能力，傳輸?shù)膶?duì)象一般1G到10G不等，我們也做了一個(gè)仿真，其中變化的數(shù)據(jù)依舊是50%。

注：A：添加完整算法；B：未添加。

我們可以發(fā)現(xiàn)，如果結(jié)合實(shí)際中的具體情況，本文章提出的算法不適用于過(guò)小的數(shù)據(jù)增量更新，這是由于協(xié)同工作的服務(wù)器分析數(shù)據(jù)，調(diào)用數(shù)據(jù)是需要一定的時(shí)間，并且增量更新在進(jìn)行數(shù)據(jù)遍歷的時(shí)候也是需要一部分時(shí)間的。因此，本文章具體的應(yīng)用方向主要在云計(jì)算的大數(shù)據(jù)處理，在面對(duì)小型的數(shù)據(jù)處理時(shí)有一些累贅。

參考文獻(xiàn)

[1]戴炳榮，宋俊典等《云計(jì)算環(huán)境下式數(shù)據(jù)處理協(xié)同機(jī)制的研究》

[2]基于云計(jì)算的Web數(shù)據(jù)挖掘.計(jì)算機(jī)科學(xué).2011，38

[3] Han J，Kamber M.Data Minng Concepts and techniques. Morgan Kaufmann. San Francisco，2006

中國(guó)新通信2015年13期

中國(guó)新通信的其它文章: 試析電磁兼容在無(wú)線網(wǎng)絡(luò)設(shè)計(jì)的應(yīng)用; 混合接入技術(shù)組網(wǎng)在大客戶業(yè)務(wù)中的應(yīng)用; 解決邢臺(tái)-邯鄲微波電路阻擋; 探究非線性編輯系統(tǒng)在電視節(jié)目制作中的應(yīng)用; 唐山電力行政軟交換系統(tǒng)的應(yīng)用; 信息化建設(shè)對(duì)文博行業(yè)的影響