亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)據(jù)預(yù)處理技術(shù)在異構(gòu)數(shù)據(jù)中的應(yīng)用

        2020-07-10 15:51:50羅長(zhǎng)銀陳學(xué)斌宋尚文
        軟件 2020年5期
        關(guān)鍵詞:規(guī)約約簡(jiǎn)原始數(shù)據(jù)

        羅長(zhǎng)銀,陳學(xué)斌*,宋尚文,劉 洋

        (1. 華北理工大學(xué)理學(xué)院,唐山 06300;2. 河北省數(shù)據(jù)科學(xué)與應(yīng)用重點(diǎn)實(shí)驗(yàn)室,唐山 06300;3. 唐山市數(shù)據(jù)科學(xué)實(shí)驗(yàn)室,唐山 06300)

        0 引言

        隨著大數(shù)據(jù)時(shí)代的到來(lái),隱藏在大數(shù)據(jù)下面的價(jià)值信息成為人們對(duì)數(shù)據(jù)進(jìn)行操作的源動(dòng)力。根據(jù)實(shí)際的需求中,可以總結(jié)為三個(gè)方面:要全體不要抽樣;要效率以及各方準(zhǔn)確度良好不要絕對(duì)的精確,要相關(guān)不要因果[1]。近年來(lái),數(shù)據(jù)儲(chǔ)量從原來(lái)4.4ZB到現(xiàn)在的 44ZB,海量數(shù)據(jù)使得人們?cè)谔幚韱栴}時(shí)也將面臨巨大的挑戰(zhàn),但同時(shí)也必須要面臨更加復(fù)雜的數(shù)據(jù)環(huán)境。數(shù)據(jù)預(yù)處理作為數(shù)據(jù)挖掘、數(shù)據(jù)分析、數(shù)據(jù)安全等研究前的重要一環(huán),對(duì)數(shù)據(jù)進(jìn)行合理有效的預(yù)處理操作可以使得數(shù)據(jù)在存貯、計(jì)算等方面都會(huì)減少相應(yīng)的復(fù)雜度,文獻(xiàn)[2]對(duì)醫(yī)院日志文件中的數(shù)據(jù)進(jìn)行過(guò)濾及填充,使模型的準(zhǔn)確度得到提升。文獻(xiàn)[4]通過(guò)構(gòu)建規(guī)則庫(kù)和樣本庫(kù),達(dá)到相應(yīng)的數(shù)據(jù)預(yù)處理方法進(jìn)行自動(dòng)化的數(shù)據(jù)預(yù)處理,可以提升模型的準(zhǔn)確度,但沒有考慮數(shù)據(jù)的安全性與有效性,本文主要從數(shù)據(jù)清洗、數(shù)據(jù)歸約兩部分對(duì)數(shù)據(jù)進(jìn)行處理,使其能夠在安全的前提下,實(shí)現(xiàn)對(duì)數(shù)據(jù)的高效利用。

        1 相關(guān)定義

        大數(shù)據(jù)的環(huán)境下,使得數(shù)據(jù)預(yù)處理成為數(shù)據(jù)挖掘等技術(shù)發(fā)展的不可或缺的一環(huán),數(shù)據(jù)預(yù)處理技術(shù)包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)規(guī)約、數(shù)據(jù)變換四個(gè)部分[3],其中數(shù)據(jù)清洗包括重復(fù)數(shù)據(jù)的清洗[5]、缺失值的填充[6]、以及對(duì)一些異常值的處理[7],本文只針對(duì)數(shù)據(jù)清洗和數(shù)據(jù)規(guī)約對(duì)數(shù)據(jù)做了相應(yīng)的預(yù)處理,經(jīng)實(shí)驗(yàn)對(duì)比,經(jīng)過(guò)處理后的數(shù)據(jù)既能滿足數(shù)據(jù)挖掘的需求,同時(shí)也降低了復(fù)雜度和成本。

        數(shù)據(jù)清洗[8-10]是完成格式的標(biāo)準(zhǔn)化、對(duì)空缺值進(jìn)行處理、清除重復(fù)的數(shù)據(jù)以及對(duì)異常數(shù)據(jù)進(jìn)行錯(cuò)誤糾正和清除等操作。

        數(shù)據(jù)規(guī)約[11-14]:數(shù)據(jù)規(guī)約是針對(duì)原始數(shù)據(jù)集中地屬性和記錄,實(shí)現(xiàn)有效的數(shù)據(jù)采集和對(duì)應(yīng)的屬性選擇,盡可能的降低數(shù)據(jù)規(guī)模,可以在有效的解決問題的同時(shí)減少時(shí)間復(fù)雜度與空間復(fù)雜度,可以通過(guò)聚類、屬性約簡(jiǎn)、以及數(shù)據(jù)欠采樣以及將冗余特征值刪除等方式,在最大限度地保證數(shù)據(jù)的原有特征的基礎(chǔ)上,實(shí)現(xiàn)對(duì)數(shù)據(jù)量的有效精簡(jiǎn)。數(shù)據(jù)規(guī)約是在保證原有數(shù)據(jù)的完整性和有效性的基礎(chǔ)上,在數(shù)據(jù)庫(kù)以及數(shù)據(jù)表中提取出特征性的數(shù)據(jù)集合的基礎(chǔ)上進(jìn)行的。

        Jaccardx相似系數(shù)[15]:用于比較有限樣本集之間的相似性與差異性。Jaccard系數(shù)值越大,樣本相似度越高,用Jaccard(A,B)表示。與Jaccard系數(shù)相關(guān)的指標(biāo)叫做Jaccard距離,用于描述集合之間的不相似度。Jaccard距離越大,樣本相似度越低,用

        數(shù)據(jù)約簡(jiǎn)[16]:數(shù)據(jù)約簡(jiǎn)包括兩個(gè)方面:基于特征選擇約簡(jiǎn)和基于實(shí)例選擇約簡(jiǎn)?;谔卣鬟x擇的數(shù)據(jù)約簡(jiǎn)是指在所有特征中選擇某些重要的、有代表性的特征,去除對(duì)處理結(jié)果小甚至無(wú)影響的特征,已達(dá)到提取主要特征的目的。如主成分分析法等。基于實(shí)例選擇的數(shù)據(jù)約簡(jiǎn)是從原始數(shù)據(jù)集中選擇具有代表性的實(shí)例,去除冗余的和相似性較大的數(shù)據(jù),得到相對(duì)較小的約簡(jiǎn)數(shù)據(jù)集,已達(dá)到減少數(shù)據(jù)量和改變數(shù)據(jù)分布的目的。如基于樣本距離等數(shù)據(jù)約簡(jiǎn)方法。

        牛頓插值法[17]:每增加一個(gè)點(diǎn),不會(huì)導(dǎo)致之前的重新計(jì)算,只需要算和新增點(diǎn)有關(guān)的即可,牛頓插值法為:

        馬氏距離[18]:表示數(shù)據(jù)的協(xié)方差距離,與歐氏距離不同的是它考慮到各種特性之間的聯(lián)系,并且是尺度無(wú)關(guān)的,即獨(dú)立于測(cè)量尺度。對(duì)于一個(gè)均值為

        協(xié)方差矩陣為∑ 的多變量矢量:

        其馬氏距離為:

        2 數(shù)據(jù)清洗

        因其數(shù)據(jù)量的增加使得數(shù)據(jù)冗余、錯(cuò)誤等情況的發(fā)生也在不斷的增加,利用各種清洗技術(shù),得到其“有效”的數(shù)據(jù)集合。本文的數(shù)據(jù)清洗技術(shù)將從重復(fù)數(shù)據(jù)的處理與填充缺失值以及在處理異常值三個(gè)方面對(duì)數(shù)據(jù)進(jìn)行合理操作,使得數(shù)據(jù)在滿足基本安全的情況下能夠使得減少數(shù)據(jù)量增大所帶來(lái)的復(fù)雜度。

        2.1 重復(fù)數(shù)據(jù)的清洗

        為了提升數(shù)據(jù)挖掘的速度和準(zhǔn)確度,去除數(shù)據(jù)中的重復(fù)記錄是很有必要的。常見的數(shù)據(jù)類型為數(shù)值型數(shù)據(jù)以及字符型數(shù)據(jù)和符號(hào)型數(shù)據(jù),對(duì)于數(shù)值型數(shù)據(jù),我們采用Jaccard系數(shù)來(lái)度量數(shù)值型數(shù)據(jù)的相似性,Jaccard系數(shù)定義如(1)所示:

        其中,X,Y均為每一個(gè)數(shù)值型數(shù)據(jù)所構(gòu)成的集合。當(dāng)Jaccardt>時(shí)可以說(shuō)兩個(gè)數(shù)值型數(shù)據(jù)的相似程度高,當(dāng)Jaccardt≤時(shí),說(shuō)明二者數(shù)據(jù)的相似程度比較低。

        對(duì)于字符型數(shù)據(jù)來(lái)說(shuō),利用文獻(xiàn)[2]中其改進(jìn)的字段匹配算法對(duì)字符型數(shù)據(jù)計(jì)算其分詞匹配度與權(quán)值匹配度,本文對(duì)其分詞匹配度的計(jì)算方法進(jìn)行改進(jìn),提出了相對(duì)匹配度(R ppd- )的算法,如下公式所示:

        K為兩個(gè)字符串的相同的字?jǐn)?shù),當(dāng)A中的字符匹配B中的字符時(shí),則分母為B字符串中的字符的個(gè)數(shù),即為|B|,當(dāng)B中的字符匹配A中的字符時(shí),則分母為|A|字符串中的字符的個(gè)數(shù),即為|A|。當(dāng)相對(duì)匹配度的值大于0.8時(shí),則說(shuō)明,字符串A相對(duì)字符串B來(lái)說(shuō),為高度的相似,這時(shí)需要對(duì)兩個(gè)數(shù)據(jù)進(jìn)行仔細(xì)的比對(duì),看是否為重復(fù)數(shù)據(jù),當(dāng)此字符串完全相同時(shí),還需進(jìn)一步的比對(duì)此樣本的其他屬性信息,例如:名字可能存在相同,生日不同的情況,但如果生日也相同,此概率相對(duì)較小,即使最終結(jié)果為不同,也可能損失了時(shí)間以及效率復(fù)雜度。

        2.2 缺失值數(shù)據(jù)

        在數(shù)據(jù)集中,缺失值是經(jīng)常出現(xiàn)的,對(duì)于不同的樣本來(lái)說(shuō),可能缺失的是一個(gè)屬性值數(shù)據(jù),也可能缺失的是一個(gè)樣本中的多個(gè)屬性值數(shù)據(jù),本文只對(duì)缺失值少于4個(gè)以下的數(shù)據(jù)缺失值進(jìn)行補(bǔ)充,對(duì)于同一樣本中缺失的屬性值數(shù)據(jù)在2個(gè)(含2個(gè))以下時(shí),采用拉普拉斯分布中的數(shù)值來(lái)填充缺失值,在不會(huì)對(duì)原始數(shù)據(jù)產(chǎn)生大的影響的同時(shí),添加此缺失值,也對(duì)數(shù)據(jù)提供了一定的安全性,對(duì)于同一樣本中缺失的屬性值數(shù)據(jù)大于4個(gè)的,將對(duì)其采用傳統(tǒng)的方法,對(duì)其刪除此樣本,同時(shí)也可以減少數(shù)據(jù)量,減少計(jì)算復(fù)雜度。

        對(duì)于缺失的屬性值的數(shù)據(jù)來(lái)說(shuō),本文采用牛頓插值法來(lái)填充缺失的數(shù)據(jù)值,可用均方誤差來(lái)檢驗(yàn)填充數(shù)值的誤差,公式為:

        2.3 去除異常值

        對(duì)于任何的數(shù)據(jù)集來(lái)說(shuō),異常值的數(shù)據(jù)沒有太多的研究?jī)r(jià)值,故必須去除數(shù)據(jù)集中所存在的孤立點(diǎn),本文基于馬式距離的公式來(lái)計(jì)算數(shù)據(jù)集中的某一點(diǎn)與其他各個(gè)點(diǎn)之間的距離,并計(jì)算其協(xié)方差矩陣,根據(jù)協(xié)方差矩陣來(lái)判定那些數(shù)據(jù)導(dǎo)致協(xié)方差矢量變大,將協(xié)方差矩陣中數(shù)值較大的值所對(duì)應(yīng)的數(shù)據(jù)刪除即可,公式如下所示:

        3 數(shù)據(jù)規(guī)約

        對(duì)于目前的數(shù)據(jù)存儲(chǔ)量來(lái)說(shuō),在保證原有數(shù)據(jù)的完整性與有效性的基礎(chǔ)上,采用聚類以及將冗余屬性刪除等形式,將降低數(shù)據(jù)規(guī)模,以此達(dá)到精簡(jiǎn)數(shù)據(jù)量的目的。本文采用數(shù)據(jù)約簡(jiǎn)的方法,在減少數(shù)據(jù)庫(kù)中數(shù)據(jù)表的同時(shí)減少冗余的屬性。

        數(shù)據(jù)約簡(jiǎn)包括樣例約簡(jiǎn)和屬性約簡(jiǎn),對(duì)于樣例約簡(jiǎn),本文采用文獻(xiàn)[19]中的數(shù)據(jù)欠采樣的方法,基本思想為:先對(duì)數(shù)據(jù)集進(jìn)行聚類,得到聚類簇集合Q = { Q1, Q2,… ,Qn},然后根據(jù)聚類后的不平衡比例系數(shù)確定采樣倍率 N,并對(duì)每個(gè)聚類簇進(jìn)行數(shù)據(jù)抽樣,最后得到欠采樣后的數(shù)據(jù)集,欠采樣倍率N的計(jì)算方法如下:

        其中,i表示將連續(xù)值的數(shù)據(jù)離散成n個(gè),m表示為在某個(gè)區(qū)間范圍內(nèi)對(duì)數(shù)據(jù)集聚成的個(gè)數(shù)。而屬性約簡(jiǎn)的方法為:通過(guò)計(jì)算各個(gè)屬性之間的距離,將距離較遠(yuǎn)的屬性去除,在計(jì)算其對(duì)整個(gè)數(shù)據(jù)集的影響,如果影響較小或無(wú)影響,則可以刪除此屬性,可以達(dá)到減少數(shù)據(jù)量的目的,采用主成分分析法(PCA)[20]來(lái)實(shí)現(xiàn)對(duì)屬性的約簡(jiǎn),主要思想:先將原始數(shù)據(jù)集按列組成n行m列矩陣X,將μ的每一行進(jìn)行進(jìn)行零均值化,即減去這一行的均值,再求特征值及對(duì)應(yīng)的特征向量,將特征向量按對(duì)應(yīng)特征值的大小從上到下排成矩陣,取前k行組成矩陣P,Y PX= 即為降維到k維后的數(shù)據(jù)。

        4 實(shí)驗(yàn)分析

        4.1 實(shí)驗(yàn)參數(shù)設(shè)置

        本文在數(shù)據(jù)預(yù)處理階段是基于 python語(yǔ)言和pycharm集成軟件開發(fā)實(shí)現(xiàn)。實(shí)驗(yàn)硬件環(huán)境為:Inter(R) Core i5-4200M CPU 2.50 GHz處理器,內(nèi)存8 G;操作系統(tǒng)為windows 10.在實(shí)驗(yàn)數(shù)據(jù)方面,采用從 https://archive.ics.uci.edu/ml/index.php下載的數(shù)據(jù)集。

        4.2 實(shí)驗(yàn)數(shù)據(jù)分析

        實(shí)驗(yàn)的數(shù)據(jù)采取隨機(jī)破壞20%的數(shù)據(jù)作為初始原始數(shù)據(jù)集,其數(shù)據(jù)變化如圖1所示,數(shù)據(jù)的不斷變化反映數(shù)據(jù)集的多樣性,同時(shí)也可驗(yàn)證本文所采取的對(duì)數(shù)據(jù)預(yù)處理階段的泛化能力。

        實(shí)驗(yàn)分為四部分,第一部分為:從UCI上下載相應(yīng)的數(shù)據(jù)集,并隨機(jī)對(duì)下載的數(shù)據(jù)集破壞100次且每次破壞20%表示多樣數(shù)據(jù)對(duì)本文所采取的數(shù)據(jù)預(yù)處理階段對(duì)模型的影響,第二部分為:將破壞的數(shù)據(jù)進(jìn)行填充處理,針對(duì)缺失值為2個(gè)以下的,因牛頓插值法在增減節(jié)點(diǎn)數(shù)目時(shí),只需增減相應(yīng)節(jié)點(diǎn)處的計(jì)算量的優(yōu)點(diǎn),將缺失值在2至4個(gè)時(shí),采用牛頓插值法,可以在減少計(jì)算量的同時(shí)準(zhǔn)確度得到提升。第三部分為:去掉重復(fù)數(shù)值型數(shù)據(jù)時(shí),將任意兩個(gè)樣本中多個(gè)屬性的相似度均超過(guò)閾值,則這兩個(gè)樣本重復(fù),將其刪除(采取Jaccard系數(shù)作為數(shù)值型屬性的比對(duì),Rppd作為字符型屬性比對(duì)),第四部分為:從樣本約簡(jiǎn)和屬性約簡(jiǎn)兩方面對(duì)數(shù)據(jù)規(guī)模進(jìn)行簡(jiǎn)化的同時(shí)還能提升模型精度,進(jìn)而避免過(guò)擬合問題,其每個(gè)階段的數(shù)據(jù)所建立模型的準(zhǔn)確度如表1所示。

        圖1 隨機(jī)變化的數(shù)據(jù)集Fig.1 Randomly changing dataset

        為驗(yàn)證本文所采取的數(shù)據(jù)預(yù)處理對(duì)模型的影響,對(duì)完整數(shù)據(jù)集隨機(jī)破壞100次且每次的比例為20%作為原始數(shù)據(jù)集,同時(shí)使用 CART分類樹、支持向量機(jī)、線性分類器三種作為檢驗(yàn)?zāi)P停瑘D2表示三種模型在100次隨機(jī)數(shù)據(jù)集上的變化情況,將模型在破壞100次的數(shù)據(jù)上得分的平均值作為模型的準(zhǔn)確度,則在原始數(shù)據(jù)集上CART分類樹的準(zhǔn)確度為 92.51%,支持向量機(jī)的得分為 50.88%,線性分類器的準(zhǔn)確度為54.55%。

        圖2 3種檢驗(yàn)?zāi)P驮谠紨?shù)據(jù)集上的變化圖Fig.2 The changes of the three test models on the original data set

        填充缺失值是數(shù)據(jù)清洗中重要的部分,本文對(duì)缺失值少于2個(gè)的情況,將每個(gè)屬性采用拉圖拉斯分布進(jìn)行填充,對(duì)于缺失值在2至4個(gè)的情況,采用牛頓插值法同樣的對(duì)每個(gè)屬性進(jìn)行填充,圖3表示的是三種檢驗(yàn)?zāi)P?00次在缺失值填充后的數(shù)據(jù)集上的變化圖。在缺失值填充后的數(shù)據(jù)集上,CART分類樹的準(zhǔn)確度為95.24%,支持向量機(jī)的準(zhǔn)確度為94.7%,線性分類器的準(zhǔn)確度為 98.44%,與原始原始的結(jié)果相比較,三種模型在缺失值填充后的數(shù)據(jù)集上的準(zhǔn)確度得到大幅上漲,其中線性分類器與支持向量機(jī)均上漲約43.82%,CART分類樹上漲2.73%。

        圖3 三種檢驗(yàn)?zāi)P驮谌笔е堤畛浜蟮臄?shù)據(jù)集上的變化圖Fig.3 The change chart of the three test models on the data set after the missing value is filled

        去除重復(fù)數(shù)據(jù)能降低模型的復(fù)雜度,本文對(duì)于數(shù)值型數(shù)據(jù)采用 Jaccard系數(shù)作為任意兩個(gè)樣本的比對(duì),對(duì)于字符型數(shù)據(jù)采用 Rppd系數(shù)作為任意兩個(gè)樣本的比對(duì),只有當(dāng)數(shù)據(jù)集中多個(gè)屬性值的對(duì)比系數(shù)均大于閾值方可作為重復(fù)數(shù)據(jù)處理,圖4為三種檢驗(yàn)?zāi)P?00次在去除重復(fù)數(shù)據(jù)后的數(shù)據(jù)集上的變化圖。CART分類樹的準(zhǔn)確度為95.45%,支持向量機(jī)的準(zhǔn)確度為 94.74%,線性分類器的準(zhǔn)確度為98.61%,與填充缺失值后的數(shù)據(jù)集相比較,三種模型的準(zhǔn)確度均上漲。

        圖4 三種檢驗(yàn)?zāi)P驮谌コ貜?fù)數(shù)據(jù)后的數(shù)據(jù)集上的變化圖Fig.4 The change chart of the three test models on the data set after removing duplicate data

        數(shù)據(jù)規(guī)約可降低模型過(guò)擬合的可能,本文分別從樣例約簡(jiǎn)和屬性約簡(jiǎn)兩方面減少數(shù)據(jù)規(guī)模的同時(shí)保證模型的準(zhǔn)確度,其結(jié)果如圖5所示。CART分類樹的準(zhǔn)確度為 97.42%,支持向量機(jī)的準(zhǔn)確度為99.69%,線性分類器的準(zhǔn)確度為99.98%,與去除重復(fù)數(shù)據(jù)后的數(shù)據(jù)相比較,三種模型的準(zhǔn)確度再次上漲,且三種模型的準(zhǔn)確度均在97%以上。

        圖5 三種檢驗(yàn)?zāi)P驮跀?shù)據(jù)規(guī)約處理后的數(shù)據(jù)集上的變化圖Fig.5 The changes of the three test models on the data set after data reduction processing

        圖6 表示數(shù)據(jù)清洗、數(shù)據(jù)規(guī)約兩方面的數(shù)據(jù)預(yù)處理技術(shù)對(duì)CART分類器的影響,得到原始數(shù)據(jù)集上 CART分類器準(zhǔn)確度為 92.51%,缺失值填充后CART分類器準(zhǔn)確度為92.54%,去除重復(fù)值后CART分類器準(zhǔn)確度為 95.45%,聚類數(shù)據(jù)處理后數(shù)據(jù)集CART分類器準(zhǔn)確度為97.43%,可以得出數(shù)據(jù)預(yù)處理技術(shù)可以提升CART分類器的準(zhǔn)確度。

        圖6 CART分類樹在數(shù)據(jù)預(yù)處理各階段的變化圖Fig.6 CART classification tree at various stages of data preprocessing

        圖7 表示數(shù)據(jù)清洗、數(shù)據(jù)規(guī)約兩方面的數(shù)據(jù)預(yù)處理技術(shù)對(duì)支持向量機(jī)的影響,得到原始數(shù)據(jù)集上支持向量機(jī)準(zhǔn)確度為50.89%,缺失值填充后支持向量機(jī)準(zhǔn)確度為 94.7%,去除重復(fù)值后支持向量機(jī)準(zhǔn)確度為94.74%,聚類數(shù)據(jù)處理后數(shù)據(jù)集支持向量機(jī)準(zhǔn)確度為99.69%,可以得出數(shù)據(jù)預(yù)處理技術(shù)可以大幅度提升支持向量機(jī)的準(zhǔn)確度。

        圖7 支持向量機(jī)在數(shù)據(jù)預(yù)處理各階段的變化圖Fig.7 Support vector machine changes at various stages of data preprocessing

        圖8 表示數(shù)據(jù)清洗、數(shù)據(jù)規(guī)約兩方面的數(shù)據(jù)預(yù)處理技術(shù)對(duì)線性分類器的影響,得到原始數(shù)據(jù)集上線性分類器準(zhǔn)確度為54.55%,缺失值填充后線性分類器準(zhǔn)確度為98.44%,去除重復(fù)值后線性分類器準(zhǔn)確度為98.61%,聚類數(shù)據(jù)處理后數(shù)據(jù)集線性分類器準(zhǔn)確度為99.98%,可以得出數(shù)據(jù)預(yù)處理技術(shù)可以提升線性分類器的準(zhǔn)確度。

        圖8 線性分類器在數(shù)據(jù)預(yù)處理各階段的變化圖Fig.8 The change graph of the linear classifier at each stage of data preprocessing

        4.3 實(shí)驗(yàn)方法分析

        本文采用方差[18]來(lái)表示模型的穩(wěn)定性,其中方差公式為:

        其中n代表次數(shù),m代表100次的平均值,公式為:

        經(jīng)計(jì)算結(jié)果如表2所示。

        由上表可知,三種驗(yàn)證模型在數(shù)據(jù)預(yù)處理各階段的均值均在上升,由此可說(shuō)明本文說(shuō)采取的數(shù)據(jù)預(yù)處理技術(shù)將會(huì)提升模型的準(zhǔn)確度,且三種模型在數(shù)據(jù)預(yù)處理各階段的方差均在0.4%以下,說(shuō)明本文所采取的數(shù)據(jù)預(yù)處理技術(shù)的穩(wěn)定性較好,符合要求。

        表2 數(shù)據(jù)預(yù)處理結(jié)果比較表Tab.2 Comparison table of data preprocessing results

        4.4 實(shí)驗(yàn)小結(jié)

        本文從數(shù)據(jù)清洗和數(shù)據(jù)規(guī)約兩方面對(duì)數(shù)據(jù)預(yù)處理技術(shù)進(jìn)行處理,首先將完整數(shù)據(jù)集隨機(jī)破壞20%作為本文的原始數(shù)據(jù)集,反映數(shù)據(jù)多樣性對(duì)模型的影響,然后對(duì)原始數(shù)據(jù)集填充缺失值,對(duì)于缺失兩個(gè)以下的采取拉普拉斯分布對(duì)每個(gè)屬性進(jìn)行填充,對(duì)于缺失2至4個(gè)的情況采用牛頓插值法填充,可以得模型的準(zhǔn)確度上升,尤其是支持向量機(jī)和線性分類器,漲幅均超過(guò)40%,然后模型在去除重復(fù)值的數(shù)據(jù)上進(jìn)行訓(xùn)練,得其準(zhǔn)確度再次上升,再對(duì)數(shù)據(jù)進(jìn)行樣例約簡(jiǎn)和屬性約簡(jiǎn),從而在避免過(guò)擬合的同時(shí)也能提高模型的準(zhǔn)確度,經(jīng)三種驗(yàn)證模型的得分均超過(guò)97%,可說(shuō)明本文所采取的數(shù)據(jù)預(yù)處理的措施是真實(shí)有效的。

        5 結(jié)論

        本文針對(duì)數(shù)據(jù)清洗和數(shù)據(jù)規(guī)約兩方面對(duì)數(shù)據(jù)預(yù)處理技術(shù)進(jìn)行處理,原始數(shù)據(jù)集經(jīng)過(guò)填充缺失值、去除重復(fù)值、樣例約簡(jiǎn)和屬性約簡(jiǎn)四步預(yù)處理后,三種驗(yàn)證模型的準(zhǔn)確度都得到大幅提升,同時(shí)其各階段模型模型的得分均在0.4%以下,說(shuō)明模型的穩(wěn)定性較好,所采取的數(shù)據(jù)預(yù)處理的措施是真實(shí)有效的。與傳統(tǒng)的數(shù)據(jù)預(yù)處理技術(shù)相比,主要有2點(diǎn)改進(jìn):第一點(diǎn)是沒有考慮數(shù)據(jù)預(yù)處理階段數(shù)據(jù)集成、數(shù)據(jù)變換對(duì)模型的影響,第二點(diǎn)是未能考慮異構(gòu)數(shù)據(jù)對(duì)模型的影響。實(shí)驗(yàn)表明,本文所采取的數(shù)據(jù)預(yù)處理技術(shù)會(huì)大幅提升模型的準(zhǔn)確度。未來(lái)將添加數(shù)據(jù)集成、數(shù)據(jù)變換兩方面的數(shù)據(jù)預(yù)處理技術(shù)來(lái)驗(yàn)證數(shù)據(jù)對(duì)模型的影響。

        猜你喜歡
        規(guī)約約簡(jiǎn)原始數(shù)據(jù)
        GOLDEN OPPORTUNITY FOR CHINA-INDONESIA COOPERATION
        受特定變化趨勢(shì)限制的傳感器數(shù)據(jù)處理方法研究
        基于二進(jìn)制鏈表的粗糙集屬性約簡(jiǎn)
        電力系統(tǒng)通信規(guī)約庫(kù)抽象設(shè)計(jì)與實(shí)現(xiàn)
        一種在復(fù)雜環(huán)境中支持容錯(cuò)的高性能規(guī)約框架
        實(shí)值多變量維數(shù)約簡(jiǎn):綜述
        一種改進(jìn)的LLL模糊度規(guī)約算法
        基于模糊貼近度的屬性約簡(jiǎn)
        全新Mentor DRS360 平臺(tái)借助集中式原始數(shù)據(jù)融合及直接實(shí)時(shí)傳感技術(shù)實(shí)現(xiàn)5 級(jí)自動(dòng)駕駛
        汽車零部件(2017年4期)2017-07-12 17:05:53
        修辭的敞開與遮蔽*——對(duì)公共話語(yǔ)規(guī)約意義的批判性解讀
        欧美人与动牲交a欧美精品| 日本一区二区三区女优在线| 各类熟女熟妇激情自拍| 人妻久久久一区二区三区蜜臀 | 国产成人高清亚洲一区二区| 亚洲一区第二区三区四区| 欧美激情肉欲高潮视频| 中文日韩亚洲欧美制服| 99ri国产在线观看| 中文字幕一区,二区,三区| 亚洲无人区乱码中文字幕动画| 东北女人啪啪对白| 天天做天天爱天天综合网2021| 亚洲国产美女精品久久久久| 在线偷窥制服另类| 午夜视频手机在线免费观看| 午夜视频国产在线观看| 国产高潮视频在线观看| 亚洲妓女综合网99| av亚洲在线一区二区| 在线人妻va中文字幕| 国产极品女主播国产区| 久久九九久精品国产| 四虎国产精品免费久久麻豆| 中文字幕一区二区三区6| 国产精品黑丝高跟在线粉嫩| 亚洲精品无码永久在线观看你懂的| 两个人看的www高清视频中文| aⅴ色综合久久天堂av色综合| 国产精品高湖呻呤久久av| 午夜精品久久久久久久| 公粗挺进了我的密道在线播放贝壳| 波多野结衣一区二区三区视频| 加勒比特在线视频播放| 蜜桃视频在线观看免费亚洲| 亚洲国产av精品一区二区蜜芽 | 中文乱码字字幕在线国语| 久久婷婷人人澡人人喊人人爽| 国产成人免费a在线视频| 国产内射视频在线观看| 极品尤物精品在线观看|