亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

大數(shù)據(jù)相關(guān)性挖掘技術(shù)研究

2021-09-24 06:05:28賀怡

電腦知識(shí)與技術(shù) 2021年23期

賀怡

摘要：在信息技術(shù)飛速發(fā)展的時(shí)代，信息正以數(shù)字化方式進(jìn)行存儲(chǔ)、交互，人們通過(guò)各種電子設(shè)備連入互聯(lián)網(wǎng)，并使得信息交互和存儲(chǔ)變得越發(fā)快捷。當(dāng)數(shù)據(jù)呈爆炸式增長(zhǎng)后，從海量數(shù)據(jù)中獲取人們需要的信息變得十分困難，在人工智能等技術(shù)的發(fā)展過(guò)程中，通過(guò)對(duì)大數(shù)據(jù)進(jìn)行分析和計(jì)算，可以快速得到目標(biāo)信息，極大地推動(dòng)了大數(shù)據(jù)發(fā)展。本文通過(guò)對(duì)數(shù)據(jù)特征相關(guān)性分析，提出基于特征相關(guān)性進(jìn)行統(tǒng)計(jì)和排序，完成對(duì)大數(shù)據(jù)相關(guān)性分析，可以通過(guò)該方法對(duì)大數(shù)據(jù)中有用數(shù)據(jù)提取，并實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)中數(shù)字化信息的挖掘。

關(guān)鍵詞：大數(shù)據(jù);相關(guān)性分析;數(shù)據(jù)特征;挖掘

中圖分類(lèi)號(hào)：TP311? ? ? 文獻(xiàn)標(biāo)識(shí)碼：A

文章編號(hào)：1009-3044（2021）23-0023-02

在數(shù)據(jù)分析使用上，大數(shù)據(jù)采用部分樣本相關(guān)性作為研究重點(diǎn)。相關(guān)性是指數(shù)據(jù)變量之間的量化值之間具有一定規(guī)律。一般而言，數(shù)據(jù)變量并不會(huì)直接表現(xiàn)出相關(guān)性，而是數(shù)據(jù)變量的某些特征之間具備一定線性或非線性交互關(guān)系。從大數(shù)據(jù)中挖掘數(shù)據(jù)特征之間的隱含關(guān)系是數(shù)據(jù)挖掘的主要價(jià)值。當(dāng)前常用的數(shù)據(jù)挖掘技術(shù)主要是從數(shù)據(jù)量、數(shù)據(jù)類(lèi)型和數(shù)據(jù)增長(zhǎng)角度對(duì)信息進(jìn)行挖掘，由于數(shù)據(jù)量大，為獲取完整且針對(duì)性強(qiáng)的信息需要對(duì)樣本進(jìn)行平衡和去噪[1]。數(shù)據(jù)相關(guān)性最主要的運(yùn)用在推薦系統(tǒng)，人們通過(guò)對(duì)大數(shù)據(jù)相關(guān)性分析，獲得用戶偏好和用戶畫(huà)像，可以精準(zhǔn)推送可用信息[2]。本文提出一種基于數(shù)據(jù)特征排序的數(shù)據(jù)挖掘算法，可以在面對(duì)高維度數(shù)據(jù)時(shí)有效講冗余信息排除，且最大程度保證信息完整性。在對(duì)大數(shù)據(jù)進(jìn)行相關(guān)性分析時(shí)，需顯式給出數(shù)據(jù)特征相關(guān)性，可以得到最優(yōu)的信息解。

1數(shù)據(jù)特征選擇方法

在特征提取方面，最初假定某特征的特征值僅為0和1，且在所有輸入樣本中，大部分?jǐn)?shù)據(jù)的特征取值均為1，可認(rèn)為該特征作用不大。僅當(dāng)特征值為離散型變量時(shí)，該方法可用于特征判斷。選擇單變量特征，將其依次進(jìn)行測(cè)試，并衡量該特征和相應(yīng)變量之間的關(guān)系，根據(jù)得分去除不好的特征，可以對(duì)數(shù)據(jù)進(jìn)行較好解析，但在特征優(yōu)化和泛化能力上并不占優(yōu)勢(shì)。因此可以在數(shù)據(jù)特征選擇上采用析因設(shè)計(jì)，該方法是一種結(jié)構(gòu)化分析法，將數(shù)據(jù)的每個(gè)要素相互組合，進(jìn)行兩個(gè)和多個(gè)評(píng)價(jià)，是多因素的交叉分組設(shè)計(jì)分析[3]。其統(tǒng)計(jì)模型如下：

式中，數(shù)據(jù)樣本的特征為[x1、x2、x3]等，特征相互作用為乘積[x1x2]、[x1x3]、[x1x2x3]等，[ε]是隨機(jī)產(chǎn)生誤差。當(dāng)系數(shù)[β]代表特征之間的相關(guān)性時(shí)，則根據(jù)[β]進(jìn)行排序，當(dāng)值越大時(shí)代表該特征與數(shù)據(jù)樣本的相關(guān)性最大。基于數(shù)據(jù)樣本的析因方法過(guò)程是：（1）采用對(duì)稱(chēng)不確定性對(duì)特征進(jìn)行排序。其優(yōu)化方程如下：

其中，[xk]屬于數(shù)據(jù)樣本的待選特征，其余兩者為選定的特征。該方法能保留特征之間的相互作用。通過(guò)排序得到的順序[k]個(gè)特征進(jìn)行測(cè)試，減小搜索空間的范圍。（2）將數(shù)據(jù)樣本所有特征進(jìn)行二值化，當(dāng)樣本特征屬于高范圍時(shí)，設(shè)定為1;屬于低范圍時(shí)，設(shè)定為負(fù)1。（3）計(jì)算峰值，使數(shù)據(jù)樣本能獲得足夠多的特征集合，完成矩陣，對(duì)單個(gè)特征、二階特征及N階特征進(jìn)行構(gòu)造，完成二值化。（4）計(jì)算特征。首先初始化實(shí)驗(yàn)的理想數(shù)據(jù)樣本值，通常記作R，根據(jù)實(shí)驗(yàn)得到結(jié)果r，將其取均值，能有效減少隨機(jī)誤差產(chǎn)生。（5）計(jì)算復(fù)雜度，完成最終排序。在最大樣本特征判定時(shí)，首先將輸入的數(shù)據(jù)樣本按照矩陣中第一個(gè)特征（選定特征集）進(jìn)行歸類(lèi)，分為高范圍和低范圍區(qū)間;第二次遍歷則按照第二個(gè)特征進(jìn)行歸類(lèi)，依次類(lèi)推到選定的順序[k]個(gè)特征。

基于特征的選擇算法將數(shù)據(jù)樣本記錄為輸入特征和輸出目標(biāo)值的集合。其中每一列特征對(duì)應(yīng)一行數(shù)據(jù)，令K階相互作用為向量，則每一向量組成特定的特征內(nèi)積。如采用下列三個(gè)樣本數(shù)據(jù)相互正交：

將樣本目標(biāo)值令為上述樣本數(shù)據(jù)的異或組合：

在將四階交互[Ix1;x2;x3;y=1] ，其余項(xiàng)交互為0，即單獨(dú)項(xiàng)與目標(biāo)值，兩兩組合項(xiàng)與交互值，則得到三樣本相交為：

由此可見(jiàn)，三者交互恰好與樣本目標(biāo)值相等，說(shuō)明在高階作用比低階組作用更大，采用降維既可以減少運(yùn)算，又保證了相關(guān)性。

2數(shù)據(jù)挖掘參數(shù)選擇

在進(jìn)行數(shù)據(jù)挖掘時(shí)，常常會(huì)對(duì)算法進(jìn)行一些參數(shù)調(diào)整。比如在使用深度學(xué)習(xí)時(shí)，模型錯(cuò)誤率、匹配程度、數(shù)據(jù)集構(gòu)造等。在具體的運(yùn)用中，要將模型參數(shù)調(diào)整到適合的值，才可以獲得最佳的挖掘性能，而當(dāng)前的參數(shù)調(diào)整已成為數(shù)據(jù)挖掘的瓶頸之一，通過(guò)特征篩選可以直接獲得相關(guān)性較好的模型。設(shè)挖掘的模型參數(shù)集為[U=x1，x2，...，xM] ，這些集合等價(jià)于特征選擇的特征。其性能以y表示，相當(dāng)于整個(gè)模型的響應(yīng)。在調(diào)整參數(shù)時(shí)，首先將其完全遍歷，并采用特征排序同樣方法進(jìn)行數(shù)據(jù)二值化，使特征參數(shù)均分布在高范圍1和低范圍負(fù)1之間。然后根據(jù)特征集合的數(shù)量，設(shè)計(jì)適合的表格，將其參數(shù)分布在表格中。最后根據(jù)表格進(jìn)行測(cè)試，對(duì)每一個(gè)參數(shù)組合進(jìn)行訓(xùn)練，并得到性能y，重復(fù)測(cè)試訓(xùn)練多次，得到多個(gè)指標(biāo)y，最終形成指標(biāo)集合。單在一個(gè)參數(shù)的選擇上并不會(huì)直接影響結(jié)果，可以通過(guò)特征的不同組合進(jìn)行判斷。判斷的原則是將特征進(jìn)行一一組合，當(dāng)計(jì)算得到的特征表格和信噪比組成表格時(shí)，計(jì)算各組合目標(biāo)參數(shù)，并將其排序，靠前的參數(shù)作為主要調(diào)整對(duì)象。

根據(jù)表格和測(cè)試結(jié)果，首先對(duì)各個(gè)組合的隨機(jī)誤差進(jìn)行信噪比對(duì)比。其中指標(biāo)響應(yīng)的均值、標(biāo)準(zhǔn)差、信噪比計(jì)算公式如下：

完成上述計(jì)算后，在對(duì)信噪比進(jìn)行排序。根據(jù)排序方法，可以獲得表格中取值為1的特征組合的信噪比：

同樣可以獲得表格中低范圍信噪比：

兩者的信噪比差值為：

其差值也等價(jià)于表格中首位兩列的內(nèi)積除6。最后根據(jù)排序選擇最優(yōu)的特征組合。根據(jù)信噪比差值可以快速完成特征組合排序，當(dāng)排序在前時(shí)，證明該特征與數(shù)據(jù)樣本的相關(guān)性較強(qiáng)。通過(guò)選擇目標(biāo)特征的排序最優(yōu)，就能得到上述參數(shù)的目標(biāo)值，依次作為調(diào)整的閾值，對(duì)于信噪比低的參數(shù)則可以將其作為模型的不相關(guān)特征進(jìn)行處理，以此可以加快模型的運(yùn)行速度。