亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

試論大數(shù)據(jù)庫(kù)的相似記錄檢測(cè)方法

2019-03-30 04:01:30王艷喜

中國(guó)新通信 2019年21期

王艷喜

【摘要】? ? 在現(xiàn)階段的大數(shù)據(jù)庫(kù)相似記錄檢測(cè)中，存在著誤差相對(duì)較大的問題。基于此，本文對(duì)二次模糊評(píng)判進(jìn)行了改進(jìn)，并提出了一種優(yōu)化后的大數(shù)據(jù)庫(kù)相似記錄檢測(cè)方法。經(jīng)過與基于決定屬性值聚類算法的大數(shù)據(jù)庫(kù)相似記錄檢測(cè)方法的實(shí)驗(yàn)對(duì)比，證實(shí)了該檢測(cè)方法的優(yōu)越性。

【關(guān)鍵詞】? ? 大數(shù)據(jù)庫(kù)? ? 相似記錄檢測(cè)方法? ? 二次模糊評(píng)判

引言：

現(xiàn)階段，大數(shù)據(jù)庫(kù)被廣泛應(yīng)用于各個(gè)行業(yè)領(lǐng)域匯中，在決策型形成、總結(jié)與分析等方面發(fā)發(fā)揮著重要作用。但是，在大數(shù)據(jù)庫(kù)的實(shí)際使用中，常存在相似或重復(fù)記錄，造成數(shù)據(jù)冗余，導(dǎo)致了數(shù)據(jù)存儲(chǔ)空間的浪費(fèi)。基于這樣的情況，開發(fā)一種大數(shù)據(jù)庫(kù)相似記錄檢測(cè)方法極為重要。

一、大數(shù)據(jù)庫(kù)相似記錄檢測(cè)方法的原理分析

在進(jìn)行大數(shù)據(jù)庫(kù)相似記錄檢測(cè)時(shí)，需要完成部分記錄對(duì)的采集，并提取記錄字段相似的特征函數(shù)，形成訓(xùn)練樣本集，最終構(gòu)建起該大數(shù)據(jù)庫(kù)的相似記錄檢測(cè)模型。在該模型的支持下，能夠完成數(shù)據(jù)庫(kù)中記錄相似度的計(jì)算，并確定一個(gè)閾值。通過比較記錄相似度數(shù)值與閾值，實(shí)現(xiàn)了該大數(shù)據(jù)庫(kù)相似記錄的檢測(cè)[1]。

但是，在該方法中，難以消除大數(shù)據(jù)庫(kù)中的非常重要數(shù)，導(dǎo)致相似記錄檢測(cè)的實(shí)際效率降低?；谶@樣的情況，筆者對(duì)二次模糊評(píng)判進(jìn)行改進(jìn)，提出了一種優(yōu)化后的大數(shù)據(jù)庫(kù)相似記錄檢測(cè)方法。

二、大數(shù)據(jù)庫(kù)相似記錄檢測(cè)方法的優(yōu)化探究

2.1數(shù)據(jù)屬性的二次模糊評(píng)判

在大數(shù)據(jù)庫(kù)中，不同的記錄均對(duì)應(yīng)著一個(gè)重要程度存在差異的實(shí)體屬性。這就需要利用用戶對(duì)記錄中不同屬性展開模糊的綜合評(píng)價(jià)，對(duì)部分非重要屬性記性消除，確定重要屬性向量集，并搭建起屬性評(píng)價(jià)因素表。同時(shí)，結(jié)合用戶的自身經(jīng)驗(yàn)，完成該屬性評(píng)價(jià)因素表的二次評(píng)價(jià)，形成用戶屬性因素評(píng)價(jià)表，完成大數(shù)據(jù)庫(kù)中不同記錄重要屬性權(quán)值的確定[2]。

此時(shí)，利用公式能夠完成屬性因素最終重要等級(jí)值的確定，其中，N為用戶數(shù)量、k為大數(shù)據(jù)庫(kù)中數(shù)據(jù)集的屬性數(shù)量、G為屬性等級(jí)集合。此時(shí)，主要從屬性類型、語義、寬度、排列位置完成數(shù)據(jù)庫(kù)中數(shù)據(jù)屬性的評(píng)價(jià)，利用公式能夠完成比重向量的計(jì)算，其中，p為所有屬性中重要屬性的占比、F`為依照Ti形成的重要屬性向量集。需要多個(gè)用戶完成保留重要屬性的二次評(píng)價(jià)，利用公式能夠完成用戶對(duì)重要屬性中某因素的評(píng)判結(jié)果計(jì)算，其中，（1～m）為各個(gè)屬性等級(jí);1為評(píng)價(jià)重要性最低;m為評(píng)價(jià)重要性最高、pij為某用戶（j）對(duì)重要屬性的第i個(gè)評(píng)價(jià)因素的評(píng)價(jià)等級(jí)。

利用表達(dá)式能夠完成某屬性的用戶評(píng)價(jià)等級(jí)的計(jì)算，其中，f為屬性因素類型、p為用戶對(duì)屬性x的評(píng)價(jià)等級(jí)。使用公式能夠完數(shù)據(jù)屬性評(píng)價(jià)結(jié)果的均衡，其中，Pj為客觀屬性取值種類數(shù)的向量。

完成上述計(jì)算后，需要將該數(shù)據(jù)庫(kù)中的所有數(shù)據(jù)集內(nèi)部的各個(gè)屬性重要性等級(jí)展開統(tǒng)一的轉(zhuǎn)換，完成權(quán)值確定。

此時(shí)，使用公式能夠權(quán)值的計(jì)算。使用公式可以實(shí)現(xiàn)記錄屬性權(quán)值的重新賦值。使用公式能夠?qū)崿F(xiàn)對(duì)數(shù)據(jù)庫(kù)中所有數(shù)據(jù)記錄屬性的分組。其中，ξ為最終生成屬性取值種類數(shù)的向量、θ`為所有數(shù)據(jù)的主觀等級(jí)向量。

總體來說，在大數(shù)據(jù)庫(kù)相似記錄優(yōu)化檢測(cè)的過程中，需要先完成數(shù)據(jù)庫(kù)中所有數(shù)據(jù)屬性的一次評(píng)判，對(duì)數(shù)據(jù)庫(kù)中的非重要數(shù)據(jù)屬性展開消除，并落實(shí)其余數(shù)據(jù)的二次模糊評(píng)判，獲取數(shù)據(jù)屬性的評(píng)判結(jié)果。同時(shí)，以此為基礎(chǔ)，完成所有數(shù)據(jù)屬性的分組，為相似檢測(cè)提供支持。

2.2特征向量指導(dǎo)下的數(shù)據(jù)庫(kù)相似記錄檢測(cè)

對(duì)于大數(shù)據(jù)庫(kù)中的相似記錄來說，其差異主要是由字符串造成的。所以，在進(jìn)行大數(shù)據(jù)庫(kù)相似記錄檢測(cè)的過程中，需要重點(diǎn)完成記錄字段的相似度計(jì)算。在這一過程中，可以將完成分組后的數(shù)據(jù)記錄屬性作為基礎(chǔ)，結(jié)合隨意兩個(gè)記錄之間的共有字符順序、數(shù)量，完成兩個(gè)記錄之間的字符相似度計(jì)算，實(shí)現(xiàn)對(duì)相似度特征向量的提取。

在這一過程中，可以使用公式完成記錄之間字符相似度的計(jì)算;完成權(quán)值V（w，s`）的確定后，可以使用完成字符間匹配窗口的計(jì)算，其中，當(dāng)字符相似度小于等于該數(shù)值，則能夠說明兩記錄字符相似。利用公式以及，能夠?qū)崿F(xiàn)全部記錄字段相似度特征向量的確定。以此為基礎(chǔ)，能夠構(gòu)建起大數(shù)據(jù)庫(kù)中相似記錄的檢測(cè)模型，并完成相似記錄分析。

2.3仿真結(jié)果分析

為了保證本研究的科學(xué)性以及該模型的合理性，筆者進(jìn)一步展開了仿真分析。在這一過程中，主要使用了基于決定屬性值聚類算法的大數(shù)據(jù)庫(kù)相似記錄檢測(cè)方法與該方法進(jìn)行實(shí)驗(yàn)對(duì)比。主要依照結(jié)果的查全率、查準(zhǔn)率、運(yùn)行時(shí)間完成判定。實(shí)驗(yàn)結(jié)果顯示，本文提出的相似記錄檢測(cè)方法查全率、查準(zhǔn)率明顯高于對(duì)比方法，運(yùn)行時(shí)間約為對(duì)比方法的二分之一。由此能夠證實(shí)，該方法整體有效，具備較高的使用價(jià)值與科學(xué)性。

三、總結(jié)

綜上所述，本文對(duì)二次模糊評(píng)判進(jìn)行改進(jìn)，提出了一種優(yōu)化后的大數(shù)據(jù)庫(kù)相似記錄檢測(cè)方法。經(jīng)過仿真對(duì)比實(shí)驗(yàn)顯示，優(yōu)化后的檢測(cè)方法在查全率、查準(zhǔn)率方面明顯優(yōu)于傳統(tǒng)方法，且運(yùn)行時(shí)間更短，具備實(shí)用性與科學(xué)性。

參? 考? 文? 獻(xiàn)

[1]李莉，張曉雯.基于劃分的海量數(shù)據(jù)相似重復(fù)記錄檢測(cè)[J].計(jì)算機(jī)系統(tǒng)應(yīng)用， 2019， 28（03）：172-178.

[2]涂靜文.大數(shù)據(jù)庫(kù)的相似記錄檢測(cè)方法研究[J].計(jì)算機(jī)仿真， 2017，34（03）：410-413.

中國(guó)新通信2019年21期

中國(guó)新通信的其它文章: 建筑弱電工程施工中常見問題分析; 水聲聲管測(cè)試中背襯對(duì)吸聲結(jié)構(gòu)性能的影響; 關(guān)于電能計(jì)量的采集與運(yùn)維工作的若干思考; 高速公路收費(fèi)站入口治超方案探討; 新生兒疾病編碼常見問題與處理; 如何加強(qiáng)用電檢查反竊電工作的建議