亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        云計(jì)算下小樣本數(shù)據(jù)庫(kù)間差異消除方法研究

        2022-04-19 00:46:34趙有俊
        計(jì)算機(jī)仿真 2022年3期
        關(guān)鍵詞:數(shù)據(jù)庫(kù)差異方法

        陳 虹,趙有俊

        (景德鎮(zhèn)陶瓷大學(xué),江西 景德鎮(zhèn) 333001)

        1 引言

        小樣本數(shù)據(jù)庫(kù)是目前常見(jiàn)的數(shù)據(jù)儲(chǔ)存形式之一[1]。數(shù)據(jù)質(zhì)量將直接影響小樣本數(shù)據(jù)庫(kù)的工作效率[2]。特別是小樣本數(shù)據(jù)庫(kù)中的差異數(shù)據(jù),會(huì)在很大程度上降低小空間存儲(chǔ)信息的質(zhì)量。

        王桌芳等人提出一種基于興趣度度量的多類差異數(shù)據(jù)挖掘消除方法[3],利用興趣度度量方法檢測(cè)大規(guī)模差分?jǐn)?shù)據(jù)庫(kù),計(jì)算數(shù)據(jù)簇之間距離后獲取隱藏文本數(shù)據(jù)特征,然后根據(jù)數(shù)據(jù)過(guò)濾算法流程對(duì)數(shù)據(jù)進(jìn)行處理,從而檢測(cè)并剔除數(shù)據(jù)庫(kù)內(nèi)的差異數(shù)據(jù)。朱贊生等人提出一種基于B樣條曲線的異常數(shù)據(jù)剔除方法[4],在構(gòu)造初始擬合數(shù)據(jù)的基礎(chǔ)上,然后利用B樣條曲線構(gòu)造遞推模型,并基于樣條平滑方法判斷門(mén)限,從而判定數(shù)據(jù)是否異常,并對(duì)于異常數(shù)據(jù)及時(shí)剔除。

        但上述兩種方法對(duì)差異數(shù)據(jù)的消除率還有待提高。為此,本文基于云計(jì)算技術(shù)設(shè)計(jì)了小樣本數(shù)據(jù)庫(kù)間差異消除方法。根據(jù)差異數(shù)據(jù)相關(guān)特征確定異常數(shù)據(jù)的偏差函數(shù),再在時(shí)間序列內(nèi)去掉差異數(shù)據(jù)點(diǎn),最終實(shí)現(xiàn)對(duì)小樣本數(shù)據(jù)庫(kù)中差異數(shù)據(jù)的消除。與傳統(tǒng)方法相比,本文方法對(duì)差異數(shù)據(jù)的消除率更高,從而提升了小樣本數(shù)據(jù)庫(kù)的信息儲(chǔ)存質(zhì)量。

        2 云計(jì)算數(shù)據(jù)庫(kù)系統(tǒng)

        云計(jì)算數(shù)據(jù)庫(kù)是現(xiàn)階段較常使用的數(shù)據(jù)庫(kù)之一,其中涵蓋大量不同種類的數(shù)據(jù)信息,能夠根據(jù)要求構(gòu)建多種多樣的小樣本數(shù)據(jù)庫(kù),具有很高的實(shí)時(shí)性、有效性和快速性。云計(jì)算數(shù)據(jù)庫(kù)通過(guò)集群應(yīng)用網(wǎng)格技術(shù)或分布式文件系統(tǒng)的功能,將網(wǎng)絡(luò)中大量不同類型的存儲(chǔ)設(shè)備通過(guò)應(yīng)用軟件組合在一起,共同對(duì)外提供數(shù)據(jù)存儲(chǔ)和業(yè)務(wù)訪問(wèn)功能。

        云計(jì)算數(shù)據(jù)庫(kù)體系結(jié)構(gòu)如圖1所示。頂層為應(yīng)用層,主要為用戶提供對(duì)接服務(wù);中間層為服務(wù)層,分為應(yīng)用服務(wù)層和分布式服務(wù)層,由中間件相連,主要為應(yīng)用層提供服務(wù);底層為節(jié)點(diǎn)存儲(chǔ)層,主要為節(jié)點(diǎn)數(shù)據(jù)提供物理存儲(chǔ),從而形成完整的數(shù)據(jù)信息庫(kù)。

        利用云計(jì)算平臺(tái)將數(shù)據(jù)存儲(chǔ)在如圖1所示的數(shù)據(jù)庫(kù)中,結(jié)合差異數(shù)據(jù)消除方法,可以有效保證不同類型的云數(shù)據(jù)庫(kù)不存在重復(fù)數(shù)據(jù),避免數(shù)據(jù)異構(gòu)性等差異,有效降低構(gòu)建的小樣本數(shù)據(jù)庫(kù)間差異性,從根本上提升數(shù)據(jù)庫(kù)儲(chǔ)存的實(shí)時(shí)性、快速性和可靠性。

        3 數(shù)據(jù)庫(kù)間差異數(shù)據(jù)消除方法

        一般來(lái)說(shuō),為了增強(qiáng)實(shí)驗(yàn)的有效性,需要利用不同樣本對(duì)象進(jìn)行多次迭代操作,幫助所設(shè)計(jì)的方法在最真實(shí)環(huán)境下獲得最優(yōu)結(jié)果,以便更好地進(jìn)行改進(jìn)或優(yōu)化。同時(shí),在本文方法設(shè)計(jì)過(guò)程中,為了提高運(yùn)算速度,目標(biāo)數(shù)據(jù)節(jié)點(diǎn)不僅要將源數(shù)據(jù)節(jié)點(diǎn)上的數(shù)據(jù)集成到目標(biāo)節(jié)點(diǎn)上,還要能夠在一定時(shí)間內(nèi)與源數(shù)據(jù)節(jié)點(diǎn)上的集成數(shù)據(jù)保持同步。當(dāng)目標(biāo)數(shù)據(jù)節(jié)點(diǎn)和源數(shù)據(jù)節(jié)點(diǎn)同步數(shù)據(jù)時(shí),數(shù)據(jù)長(zhǎng)度要盡可能短,盡可能少地使用傳輸帶寬來(lái)完成對(duì)不同性質(zhì)差異數(shù)據(jù)消除。

        3.1 差異數(shù)據(jù)特征提取

        假設(shè)當(dāng)局部空間為線性時(shí),每個(gè)小樣本數(shù)據(jù)庫(kù)中的數(shù)據(jù)采樣點(diǎn)總是處于高維空間映射的低維空間中的相應(yīng)位置。因此,在分析差異數(shù)據(jù)特征時(shí),需以性質(zhì)相同的數(shù)據(jù)為基礎(chǔ),提取相關(guān)特征量。假設(shè)初始差分樣本集為f(x,y),其中,x=0,1…,p-1,y=0,1…q-1,可得出空間相關(guān)函數(shù)表達(dá)式為

        (1)

        式(1)中,a和b均為正整數(shù)。充分結(jié)合空間保護(hù)的特點(diǎn),可獲得差異數(shù)據(jù)庫(kù)中數(shù)據(jù)的自適應(yīng)分布函數(shù),其表達(dá)公式為

        (2)

        式(2)中:N代表差異數(shù)據(jù)庫(kù)中的數(shù)據(jù)對(duì)象數(shù)量,rn代表距數(shù)據(jù)的有效距離,C(xn)代表數(shù)據(jù)特征量,k代表數(shù)據(jù)調(diào)整因子[5]。

        (3)

        式(3)中,ζ代表樣本數(shù)據(jù)特征提取誤差個(gè)數(shù),σ代表懲罰因子,P(X)代表數(shù)據(jù)分布函數(shù),l代表任意兩數(shù)據(jù)見(jiàn)的平均間距[6]。通過(guò)上述處理,完成了差異數(shù)據(jù)特征的有效提取。

        3.2 差異數(shù)據(jù)檢測(cè)

        檢測(cè)不同小樣本數(shù)據(jù)庫(kù)中存在的差異數(shù)據(jù),是保證有效消除差異數(shù)據(jù)的重要基礎(chǔ)。本研究在設(shè)定閾值的基礎(chǔ)上,以模式識(shí)別的方式完成對(duì)差異數(shù)據(jù)的檢測(cè)[7]。具體過(guò)程如下所示:

        如果使用不同類型的數(shù)據(jù)庫(kù)進(jìn)行屬性匹配操作,數(shù)據(jù)中存在的性質(zhì)差異將會(huì)嚴(yán)重影響結(jié)果的準(zhǔn)確性。因此,可通過(guò)判斷數(shù)據(jù)庫(kù)間可能為相同屬性數(shù)據(jù)間的相似程度,用以去除差異數(shù)據(jù),從而保證檢測(cè)和消除結(jié)果的質(zhì)量。

        在非線性檢測(cè)理論的基礎(chǔ)上,通過(guò)Duffing混沌振子判斷小樣本數(shù)據(jù)庫(kù)間差異數(shù)據(jù),其混沌模型可以描述為下式

        (4)

        式(4)中,αd+β代表數(shù)據(jù)庫(kù)的非線性恢復(fù)力。當(dāng)αd+β的數(shù)值不變時(shí),那么相關(guān)振子系統(tǒng)變化趨勢(shì)取決于策動(dòng)力。當(dāng)γ=0時(shí),所對(duì)應(yīng)點(diǎn)必須在(0,0)或(+1,0)上。若γ值持續(xù)增大時(shí),混沌狀態(tài)將轉(zhuǎn)變?yōu)榇蟪叨戎芷跔顟B(tài)。在此過(guò)程中,平臺(tái)將展現(xiàn)較強(qiáng)的抗干擾能力。

        在檢測(cè)過(guò)程中,需要獲得合適的參數(shù)和策略動(dòng)態(tài)系數(shù),使系統(tǒng)始終處于由混沌狀態(tài)到大尺度周期過(guò)渡的臨界狀態(tài)。如果設(shè)置擾動(dòng)力φ,且使其與驅(qū)動(dòng)力之間存在小的頻率差Δω,那么總驅(qū)動(dòng)力的表達(dá)式為

        A(φ)=(γcos(x′+y′)+cos(Δω))×t

        (5)

        式(5)中,t代表時(shí)間窗口。由此可知,小頻差會(huì)嚴(yán)重影響系統(tǒng)的總策略功率,需令系統(tǒng)始終保持混沌與最大尺度周期間的過(guò)渡。經(jīng)過(guò)運(yùn)算得出過(guò)度過(guò)程的狀態(tài)為

        (6)

        3.3 差異數(shù)據(jù)的偏差函數(shù)

        (7)

        在此基礎(chǔ)上,設(shè)置B代表集合X的分段數(shù),HB代表分段集,可得出整個(gè)時(shí)間序列的誤差集,其表達(dá)式如下

        (8)

        若時(shí)間序列中的第i段由bi代表,g?bi可代表偏差集,則從上述分析來(lái)看,如果bi時(shí)間序列中的偏差點(diǎn)數(shù)為z,那么其均方偏差表達(dá)式如下

        (9)

        (10)

        式(10)中,u表示偏差點(diǎn)數(shù)。

        3.4 確定差異數(shù)據(jù)點(diǎn)及消除

        在小樣本數(shù)據(jù)庫(kù)中,選擇一些數(shù)據(jù)樣本并對(duì)這些數(shù)據(jù)的屬性展開(kāi)分類,將每個(gè)數(shù)據(jù)屬性的屬性特征作為一維數(shù)據(jù),對(duì)數(shù)據(jù)屬性特征實(shí)施聚類。確定數(shù)據(jù)差異點(diǎn)集的主要原因是運(yùn)算出偏差函數(shù)的最小值[9-10]。

        根據(jù)相關(guān)原理,上文構(gòu)造了偏差函數(shù)W,在此基礎(chǔ)上,構(gòu)造偏差函數(shù)W的遞推表達(dá)式VW如下

        (11)

        分段數(shù)為r的時(shí)間序列是x1…xr計(jì)算了最小均方差的最優(yōu)策略,獲得其均方偏差計(jì)算過(guò)程為E(i,j,r)。可以看出,用E(i,j-1,r)代表時(shí)間序列j-1的最優(yōu)策略x1…xr。當(dāng)分段數(shù)為j-1時(shí),此時(shí)存在r個(gè)偏差[11]。

        結(jié)合上述過(guò)程,若e代表差異數(shù)據(jù)點(diǎn),那么需要在時(shí)間序列內(nèi)去掉它,并且偏差函數(shù)W的參數(shù)需要實(shí)時(shí)更新。如果e是正常數(shù)據(jù)點(diǎn),那么需要添加新的λ變量以更新偏差函數(shù)W。因此,需要將e和λ分別進(jìn)行更新,過(guò)程如下

        (12)

        (13)

        通過(guò)式(12)和式(13)可知,可通過(guò)下式完成對(duì)偏差函數(shù)W的更新

        (14)

        通過(guò)確定云計(jì)算下小樣本數(shù)據(jù)庫(kù)間差異數(shù)據(jù)點(diǎn)以及偏差函數(shù),可實(shí)現(xiàn)對(duì)差異數(shù)據(jù)的檢測(cè),在此基礎(chǔ)上,可實(shí)現(xiàn)對(duì)小樣本數(shù)據(jù)庫(kù)間差異的消除。同時(shí)為了最大程度減少樣本自身信息干擾,需要利用種群算法對(duì)不同樣本對(duì)象進(jìn)行多次迭代操作,幫助所設(shè)計(jì)的方法在最真實(shí)環(huán)境下獲得最優(yōu)結(jié)果,因此,需要進(jìn)行個(gè)體選擇。當(dāng)子代中大多數(shù)個(gè)體的適應(yīng)度不如父代時(shí),用父代中最好的個(gè)體代替子代中最差的個(gè)體,這樣可以保證消除結(jié)果的收斂性[12]。

        為了建立一個(gè)穩(wěn)定的差異數(shù)據(jù)選擇、消除過(guò)程,防止超級(jí)個(gè)體在種群中過(guò)大,需根據(jù)個(gè)體適應(yīng)度的順序確定選擇概率,使個(gè)體選擇在個(gè)體間適應(yīng)度差距較小時(shí)也能夠順利完成。具體過(guò)程如下:

        第一步:計(jì)算組內(nèi)所有個(gè)體的適應(yīng)度值ηn,同時(shí)按降序排列,數(shù)n代表個(gè)體;

        (15)

        結(jié)合式(15),利用差異備份來(lái)對(duì)差異數(shù)據(jù)備份文件和差異指示文件進(jìn)行保存,并完成消除。

        差異數(shù)據(jù)備份文件用G一元組標(biāo)記。其中,n代表兩個(gè)差異備份文件或增量備份文件之間的差異數(shù)據(jù)。差異指示文件用I三元組標(biāo)記,其中d表示數(shù)據(jù)標(biāo)志位,w表示指示標(biāo)志位,兩者的數(shù)值取值為1或0。h表示指向數(shù)據(jù),作為正整數(shù)數(shù)據(jù)。當(dāng)d=0,h作為匹配數(shù)據(jù)在差異基準(zhǔn)數(shù)據(jù)內(nèi)對(duì)應(yīng)的序號(hào)。當(dāng)d=1且w=0時(shí),h作為匹配數(shù)據(jù)在G中所對(duì)應(yīng)的的序號(hào)。當(dāng)目標(biāo)數(shù)據(jù)節(jié)點(diǎn)和源數(shù)據(jù)節(jié)點(diǎn)同步時(shí),占用盡可能少的傳輸帶寬來(lái)儲(chǔ)存數(shù)據(jù)庫(kù)內(nèi)的有效數(shù)據(jù)。

        4 實(shí)驗(yàn)結(jié)果與分析

        為驗(yàn)證本研究設(shè)計(jì)的云計(jì)算下小樣本數(shù)據(jù)庫(kù)間差異消除方法的有效性,設(shè)計(jì)如下仿真加以驗(yàn)證。

        實(shí)驗(yàn)通過(guò)2000行以上的C++代碼構(gòu)建差異數(shù)據(jù)消除引擎模塊,并為單機(jī)服務(wù)器配置2.53GHz英特爾酷睿2雙核處理器,存儲(chǔ)池采用4TB內(nèi)存容量,250GB SAS硬盤(pán),通過(guò)千兆以太網(wǎng)(西部數(shù)字160gbwd1600 aajsata)和1個(gè)固態(tài)硬盤(pán)(金斯敦64gbssd-nov100series 2.5〃sataii)RAID 0磁盤(pán)陣列系統(tǒng)連接一個(gè)硬盤(pán)和兩個(gè)硬盤(pán)。為了避免本次實(shí)驗(yàn)結(jié)果過(guò)于單一、缺乏對(duì)比性,將文獻(xiàn)[3]中的基于興趣度度量的多類差異數(shù)據(jù)挖掘提出方法和文獻(xiàn)[4]中的基于B樣條曲線的異常數(shù)據(jù)剔除方法作為對(duì)比方法,使用本文方法、文獻(xiàn)[3]方法和文獻(xiàn)[4]方法對(duì)實(shí)驗(yàn)環(huán)境中的差異數(shù)據(jù)進(jìn)行消除。繼而檢驗(yàn)不同方法的應(yīng)用性能。

        為了增強(qiáng)實(shí)驗(yàn)的有效性,根據(jù)數(shù)據(jù)的不同性質(zhì)將其劃分為DOC數(shù)據(jù)、TXT數(shù)據(jù)、PPT數(shù)據(jù)、VMDK數(shù)據(jù)、EXE數(shù)據(jù)、PDF數(shù)據(jù)六種,在此基礎(chǔ)上,測(cè)試本文方法的消除效果,結(jié)果如圖2所示。圖2中,左縱坐標(biāo)代表不同性質(zhì)文件數(shù)據(jù)的大小,水平橫坐標(biāo)代表六種不同屬性的數(shù)據(jù),右縱坐標(biāo)代表差異數(shù)據(jù)消除率的大小。

        圖2 差異消除效果對(duì)比圖

        分析圖2可知,僅僅在處理DOC文件時(shí),本文方法對(duì)差異數(shù)據(jù)的去除率略小于90%,在處理其余5種類型數(shù)據(jù)時(shí),本文方法對(duì)差異數(shù)據(jù)的去除率均在90%以上。證明本文方法能夠有效去除差異數(shù)據(jù),縮小數(shù)據(jù)量,具有較高的差異去除率。

        為了進(jìn)一步突出本文算法的應(yīng)用優(yōu)勢(shì),將本文方法與文獻(xiàn)[3]方法和文獻(xiàn)[4]方法對(duì)差異數(shù)據(jù)的消除效果進(jìn)行比較分析,具體對(duì)比結(jié)果如圖3所示。圖3中,縱坐標(biāo)為對(duì)差異復(fù)數(shù)據(jù)消除率,橫坐標(biāo)為六種不同的數(shù)據(jù)屬性。

        圖3 不同方法的消除效果對(duì)比

        通過(guò)圖3能清晰地反映出三種不同方法對(duì)差異數(shù)據(jù)的消除效果。其中,本文方法對(duì)差異數(shù)據(jù)的消除率相對(duì)最高。文獻(xiàn)[3]方法對(duì)差異數(shù)據(jù)的消除率整體呈上升態(tài)勢(shì),但總體消除率小于本文方法。文獻(xiàn)[4]方法對(duì)差異數(shù)據(jù)的消除率相對(duì)最小,始終處于85%以下。由此可知,相比于兩種對(duì)比方法,本文方法的消除效果更高,能夠有效去除小樣本數(shù)據(jù)庫(kù)中的差異數(shù)據(jù),具有高效性和廣泛應(yīng)用性。

        5 結(jié)束語(yǔ)

        本文提出了一種云計(jì)算下小樣本數(shù)據(jù)庫(kù)間差異消除方法,并利用六種不同屬性的數(shù)據(jù)設(shè)計(jì)對(duì)比實(shí)驗(yàn),檢測(cè)小樣本數(shù)據(jù)庫(kù)間差異數(shù)據(jù)消除率,從而驗(yàn)證了本文方法的高效性。

        在研究中,為提高對(duì)差異數(shù)據(jù)的消除速度,需將源數(shù)據(jù)節(jié)點(diǎn)上的數(shù)據(jù)集成到同一個(gè)目標(biāo)節(jié)點(diǎn)上,不同來(lái)源的集成數(shù)據(jù)需保持同步,且數(shù)據(jù)長(zhǎng)度要盡可能短,從而減少傳輸帶寬的影響。

        在接下來(lái)的研究中,將著重于去除數(shù)據(jù)庫(kù)內(nèi)的冗余數(shù)據(jù),進(jìn)一步提高云計(jì)算數(shù)據(jù)庫(kù)數(shù)據(jù)質(zhì)量。

        猜你喜歡
        數(shù)據(jù)庫(kù)差異方法
        相似與差異
        找句子差異
        生物為什么會(huì)有差異?
        數(shù)據(jù)庫(kù)
        可能是方法不對(duì)
        數(shù)據(jù)庫(kù)
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        數(shù)據(jù)庫(kù)
        數(shù)據(jù)庫(kù)
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        在线观看国产成人av片| 国产色婷婷久久又粗又爽| 久久精品国产字幕高潮| 亚洲一线二线三线写真 | 亚洲中文字幕一区二区三区多人| 精品香蕉99久久久久网站| 无码人妻精品一区二区三区不卡| 国产成人户外露出视频在线| 亚洲一区二区三区在线更新| 美女视频在线观看亚洲色图| 无码一区二区三区亚洲人妻| 美女啪啪国产| 精品亚洲乱码一区二区三区| 在线视频观看国产色网| 免费观看激色视频网站| 日本一区二区啪啪视频| 国产av精品一区二区三区视频| 人人超碰人人爱超碰国产| 欧洲成人午夜精品无码区久久| 国产美女裸身网站免费观看视频| 五月婷婷丁香视频在线观看 | 亚洲AV综合久久九九| 青青草视频在线免费视频| 日本道色综合久久影院| 亚洲国产精品日韩av专区| 日韩精品一区二区三区四区| 精品人妻av中文字幕乱| 色欲网天天无码av| 国内精品一区二区三区| 女优av福利在线观看| av中文字幕一区不卡| 狠狠色噜噜狠狠狠888米奇视频 | 免费无码av片在线观看| 久久精品视频中文字幕无码| 精品人妻av一区二区三区麻豆 | 美女大量吞精在线观看456| 无遮挡很爽视频在线观看| 亚洲综合日韩一二三区| 日日摸天天摸人人看| 国产女奸网站在线观看| 中文字幕亚洲精品专区|