摘" 要: 為提升數(shù)據(jù)的完整性,保證數(shù)據(jù)的效用程度,提出一種基于概率相似度的不完備數(shù)據(jù)填補方法。量化計算不完備數(shù)據(jù)的概率相似度矩陣,將計算結(jié)果和ROUSTIDA算法相結(jié)合進行不完備數(shù)據(jù)填補,獲取完備數(shù)據(jù)集。在此基礎(chǔ)上,構(gòu)建決策規(guī)則,保證多屬性缺失數(shù)據(jù)的填補性能,并且設(shè)定可辨識矩陣優(yōu)化算法的不完備數(shù)據(jù)填補效果。測試結(jié)果顯示,所提方法能夠計算不同數(shù)據(jù)對象之間的相似度值,可有效完成數(shù)據(jù)填補,填補后數(shù)據(jù)的完備程度均在95%以上,填補數(shù)據(jù)的填補值誤差均在0.17以下,填補效果良好。
關(guān)鍵詞: 概率相似度; 不完備數(shù)據(jù); 數(shù)據(jù)填補; ROUSTIDA算法; 相似度矩陣; 可辨識矩陣; 決策規(guī)則
中圖分類號: TN919?34; TP301" " " " " " " " " "文獻標識碼: A" " " " " " " " " " " 文章編號: 1004?373X(2025)04?0079?04
Research on filling incomplete data based on probability similarity
TONG Lihong, SUN Shibao
(Henan University of Science and Technology, Luoyang 471000, China)
Abstract: In order to improve the integrity of data and ensure the utility level of data, a method for filling incomplete data based on probability similarity is proposed. The probabilistic similarity matrix of incomplete data is calculated quantitatively, and the calculated results are combined with ROUSTIDA algorithm to fill the incomplete data, so as to obtain the complete data set. On this basis, the decision rules are constructed to ensure the filling performance of missing data with multiple attributes, and the incomplete data filling effect of identifiable matrix optimization algorithm is set. The testing results show that the proposed method can calculate the similarity values between different data objects and effectively complete data fill. The completeness of the filled data is above 95%, and the filling error of the filled data is below 0.17, indicating good filling effect.
Keywords: probability similarity; incomplete data; data fill; ROUSTIDA algorithm; similarity matrix; discernible matrix; decision rule
0" 引" 言
在實際應(yīng)用和研究中,由于各種原因,數(shù)據(jù)往往會存在缺失或不完整的情況,這給數(shù)據(jù)分析和建模帶來了挑戰(zhàn)[1]。因此,研究不完備數(shù)據(jù)填補方法旨在發(fā)展有效的技術(shù)和算法,能夠利用已有數(shù)據(jù)的信息填補缺失部分,提高數(shù)據(jù)處理和分析的準確性和效率,從而更好地支持決策制定和問題解決[2?3],為各行業(yè)提供更可靠的數(shù)據(jù)處理方案,推動數(shù)據(jù)科學(xué)和人工智能技術(shù)的發(fā)展和應(yīng)用。
文獻[4]為實現(xiàn)數(shù)據(jù)的有效填補,采用稀疏向量描述缺失數(shù)據(jù),通過構(gòu)建稀疏矩陣進行數(shù)據(jù)的稀疏化處理,再利用迭代加權(quán)閾值算法完成數(shù)據(jù)填補。在應(yīng)用過程中,如果數(shù)據(jù)屬性差異較大,該方法的填補效果不理想。文獻[5]為保證數(shù)據(jù)填補效果,依據(jù)不完整數(shù)據(jù)屬性之間的關(guān)聯(lián)復(fù)雜程度構(gòu)建數(shù)據(jù)填補模型,選擇學(xué)習(xí)能力較好的單輸出子網(wǎng)完成填補。但在應(yīng)用過程中,當(dāng)屬性值存在不唯一填補對象時,該方法的填補效果較差。文獻[6]首先提取數(shù)據(jù)特征,并利用KPCA進行降維,再設(shè)計改進的GAN結(jié)構(gòu)實現(xiàn)對低維向量的數(shù)據(jù)填補。這一研究使得數(shù)據(jù)處理更高效,但是其填補誤差較大。文獻[7]提出了基于強化學(xué)習(xí)的多變量時序數(shù)據(jù)補全方法,引入圖神經(jīng)網(wǎng)絡(luò)模塊預(yù)測缺失值,并為強化學(xué)習(xí)提供狀態(tài)向量和獎勵,指導(dǎo)選擇相似節(jié)點和建立時序關(guān)系,降低誤差率。然而該方法無法準確捕捉屬性之間的復(fù)雜關(guān)系和非線性模式,忽略了特征之間的潛在依賴關(guān)系,導(dǎo)致填補結(jié)果準確性較低。
概率相似度是用于衡量兩個概率分布結(jié)果之間相似程度的一種方法,該算法在填補過程中可通過選擇合理的決策規(guī)則進行填補數(shù)據(jù)的選擇,保證不完備數(shù)據(jù)的填補效果。因此,文中提出一種基于概率相似度的不完備數(shù)據(jù)填補方法。
1" 不完備數(shù)據(jù)填補算法設(shè)計
1.1" 不完備數(shù)據(jù)的概率相似性量化計算
概率相似性算法是依據(jù)對象之間的相似關(guān)系完成不完備數(shù)據(jù)的填補,并且該關(guān)系為定性關(guān)系,在不完備數(shù)據(jù)填補之前,首先對對象之間的概率相似性進行量化計算。
用[I=X,A,V,f]表示不完備數(shù)據(jù)集,其中:[X=x1,x2,…,xn]、[A=a1,a2,…,am]分別表示對象和對象屬性兩種集合;[V]表示值域;[f]表示映射函數(shù),其主要作用是實現(xiàn)各個屬性的賦值。依據(jù)決策屬性值對[I]進行劃分,形成不同的子系統(tǒng),即[I=I1?I2?…?In];如果兩個給定對象分別用[xi]和[xj]表示,且滿足[xi,xj∈In],則在相同的決策子系統(tǒng)中,[xi]和[xj]之間的相似度計算公式為:
[μ+xi,xj=ek∈EP+ekxi,xj] (1)
式中:[P+ekxi,xj]表示相似概率;[E]表示值域;[ek]表示值域中的第[k]個屬性。進行條件屬性填補時,當(dāng)[μ+xi,xj]的值較高時,可提升數(shù)據(jù)填補效果[8]。但是僅依據(jù)相同決策子系統(tǒng)中對象的相似度進行填補,不考慮不同決策子系統(tǒng)中[xi]和[xj]之間的相似度,[xi]和[xj]在條件屬性上的取值會相同,進而引發(fā)規(guī)則沖突。因此,為保證填補效果,文中對上述兩種情況下[xi]和[xj]之間的[μ+xi,xj]結(jié)果進行考慮,不同決策子系統(tǒng)中[xi]和[xj]之間的相似度計算公式為:
[μ-xi,xj=i,j=1Inxi,xj2] (2)
依據(jù)公式(1)和公式(2)計算雙概率相似度矩陣,其計算公式為:
[μi,j=μ+xi,xj," xi,xj∈In,i≠jμ-xi,xj," xi∈In,xj?In,i≠j1," i=j] (3)
1.2" 數(shù)據(jù)填補方法
傳統(tǒng)方法往往基于簡單的插值算法或統(tǒng)計方法來填補缺失值,無法準確捕捉屬性之間的復(fù)雜關(guān)系和非線性模式,并且獨立地處理每個特征的缺失值,忽略了特征之間的潛在依賴關(guān)系,導(dǎo)致填補結(jié)果缺乏一致性和準確性。針對該問題,本文在完成不完備數(shù)據(jù)的概率相似性量化計算后,采用ROUSTIDA(Robust Spline?based Imputation for Data Augmentation)算法進行不完備數(shù)據(jù)填補。ROUSTIDA算法利用樣條插值方法對缺失值進行填補,可以更準確地建模數(shù)據(jù)的非線性關(guān)系和變化趨勢,提高填補結(jié)果的準確性。
1.2.1" 不完備數(shù)據(jù)填補流程
依據(jù)1.1節(jié)中獲取的[μi,j]結(jié)果,結(jié)合ROUSTIDA算法進行不完備數(shù)據(jù)填補,詳細步驟如下。
輸入:不完備數(shù)據(jù)[I=X,A,V,f];
輸出:完備數(shù)據(jù)[I=X,A,V,f]。
步驟1:依據(jù)決策屬性值對[I]進行劃分,形成不同的子系統(tǒng),即[I=I1?I2?…?In],計算各個子系統(tǒng)的可辨識性。
步驟2:計算與[xi]相似度最大的對象,構(gòu)成集合。
步驟3:重復(fù)循環(huán)上述步驟,獲取各個子系統(tǒng)的完備數(shù)據(jù)集。
步驟4:如果[I=I1?I2?…?In],停止循環(huán),生成完備數(shù)據(jù)集。
1.2.2" 決策規(guī)則構(gòu)建
決策規(guī)則的確定對于數(shù)據(jù)填補效果有直接影響,因此為保證填補效果,進行決策規(guī)則構(gòu)建,詳細步驟如下。
步驟1:依據(jù)1.2.1節(jié)的處理流程對不完備數(shù)據(jù)進行處理后[9?10],獲取完備后的全部決策屬性表。
步驟2:構(gòu)建根節(jié)點[N],計算決策屬性對于樣本集的劃分結(jié)果,如果所有屬性值一致,將其標記為[J],進入步驟4;反之,進入下一步。
步驟3:計算近似分類質(zhì)量,同時計算各個屬性的[μi,j]結(jié)果。將其中[μi,j]的最大值對應(yīng)的決策屬性作為測試屬性,計算該屬性結(jié)果的數(shù)量[n],依據(jù)數(shù)量結(jié)果對數(shù)據(jù)集進行劃分。
步驟4:計算各個子集的抑制因子[λekxi],并將計算結(jié)果和閾值[κ]進行對比,如果[λek≥κ],則將[ek]上[xi]的取值[hek,xi]定義為條件屬性結(jié)果,葉節(jié)點則直接采用[A0]表示,完成該子集計算,所有子集完成計算后停止算法[11?13];如果[λeklt;κ],將當(dāng)前[hek,xi]值定義為當(dāng)前對象集,并重新回轉(zhuǎn)至步驟3。
依據(jù)上述步驟即可獲取決策規(guī)則,依據(jù)該規(guī)則實現(xiàn)不完備數(shù)據(jù)的處理,保證多屬性缺失數(shù)據(jù)的填補性能。
1.2.3" 算法優(yōu)化
ROUSTIDA算法在應(yīng)用過程中,如果多個對象之間相似度較高,該算法無法實現(xiàn)不完備數(shù)據(jù)填補,因此,文中為有效解決該問題,對ROUSTIDA算法進行優(yōu)化。
該優(yōu)化算法主要是設(shè)定可辨識矩陣[R],對各個屬性級別之間的差值進行辨識,保證總差值最小。如果該矩陣中第[i]行第[j]列元素用[Ri,j]表示,其計算公式為:
[Ri,j=i,j=1nXi-Xj] (4)
式中[Xi]和[Xj]分別表示第[i]行的對象屬性和第[j]列的對象屬性。各個屬性級別之間的差值計算公式為:
[dj=i,j∈nRi,j?akxi-akxj] (5)
依據(jù)公式(5)的計算確定屬性類別,該值越小表明兩個屬性之間的相似度越高。本文依據(jù)該結(jié)果調(diào)整無差別對象的選擇標準,并且依據(jù)差值最小的對象進行對應(yīng)的屬性填充。
2" 測試分析
為測試文中方法的應(yīng)用效果,在測試數(shù)據(jù)庫中隨機選擇3種數(shù)據(jù)集進行測試,分別用Y1(該數(shù)據(jù)集中共包含155個對象,5個對象屬性,3種類別的植物)、Y2(該數(shù)據(jù)集中共包含300個對象,30個對象屬性,7種類別的動物)、Y3(該數(shù)據(jù)集中共包含225個對象,10個對象屬性,4種類機器故障)表示。文中方法在進行不完備數(shù)據(jù)填補時,需計算[μi,j]的結(jié)果,依據(jù)該結(jié)果進行數(shù)據(jù)填補。為驗證文中方法的應(yīng)用效果,隨機在3種數(shù)據(jù)集中選擇10組給定對象,計算各組對象的[μi,j]結(jié)果,如表1所示。
文中方法通過量化計算不完備數(shù)據(jù)的概率相似度矩陣,以概率的角度衡量數(shù)據(jù)對象之間的相似度,為后續(xù)數(shù)據(jù)填補提供了準確的依據(jù)。對表1計算結(jié)果進行分析后得出:采用文中方法進行3種數(shù)據(jù)集中10組對象之間相似度的計算后,可判斷對象之間的相似程度,為不完備數(shù)據(jù)填補提供可靠依據(jù)。
為驗證文中方法對于不完備數(shù)據(jù)的填補效果,采用該方法進行數(shù)據(jù)填補,獲取的數(shù)據(jù)填補前后的結(jié)果如圖1所示。
對圖1進行分析后得出:原始數(shù)據(jù)中存在明顯的數(shù)據(jù)缺失現(xiàn)象,通過文中方法進行數(shù)據(jù)填補后,能夠有效完成缺失數(shù)據(jù)的填補,并且填補效果較好;填補后數(shù)據(jù)的整體性較好,不存在明顯數(shù)據(jù)缺失分布。
為驗證文中方法對于不完備數(shù)據(jù)的填補效果,測試該方法在不同的樣本數(shù)量下,隨著缺失數(shù)據(jù)比例的逐漸增加,對不完備數(shù)據(jù)進行填補后數(shù)據(jù)的完備程度,結(jié)果如圖2所示。
對圖2進行分析后得出:在不同的樣本數(shù)量下,隨著缺失數(shù)據(jù)比例的逐漸增加,采用文中方法進行不完備數(shù)據(jù)填補后,數(shù)據(jù)的完備程度均在95%以上,能夠完成不完備數(shù)據(jù)的填補,應(yīng)用效果良好。
為進一步驗證文中方法對于不完備數(shù)據(jù)的填補效果,選擇填補值誤差[εFVE]作為評價指標,該值主要用于衡量填補數(shù)據(jù)的有效性,取值在0~1之間,其值越大表明填補的數(shù)據(jù)有效性越差,其值越小則說明填補的數(shù)據(jù)有效性越佳。該指標的計算公式為:
[εFVE=1Ni=1NOi-Oi2] (6)
式中:[N]表示缺失的數(shù)據(jù)數(shù)量;[Oi]和[Oi]分別表示實際數(shù)據(jù)值和填補數(shù)據(jù)值。
依據(jù)公式(6)計算文中方法在不同的缺失比例下,對3種數(shù)據(jù)進行填補后的[εFVE],結(jié)果見表2。
對表2計算結(jié)果進行分析后得出:3種數(shù)據(jù)集在發(fā)生不同比例的缺失后,采用文中方法對其進行填補,填補數(shù)據(jù)的填補值誤差均在0.17以下,說明本文方法的填補效果良好,能夠保證填補后數(shù)據(jù)的有效性。這是因為本文方法將概率相似度計算結(jié)果與ROUSTIDA算法結(jié)合,利用ROUSTIDA算法可以更準確地建模數(shù)據(jù)的非線性關(guān)系和變化趨勢的優(yōu)勢進行不完備數(shù)據(jù)填補,從而獲取完備數(shù)據(jù)集。
3" 結(jié)" 論
本文提出一種基于概率相似度的不完備數(shù)據(jù)填補方法,主要研究內(nèi)容如下。
1) 通過量化計算不完備數(shù)據(jù)的概率相似度矩陣,以概率的角度衡量數(shù)據(jù)對象之間的相似度,為后續(xù)數(shù)據(jù)填補提供準確的依據(jù)。
2) 將概率相似度計算結(jié)果與ROUSTIDA算法結(jié)合,利用ROUSTIDA算法的優(yōu)勢進行不完備數(shù)據(jù)填補,從而獲取完備數(shù)據(jù)集。
3) 針對多屬性缺失數(shù)據(jù)建立相應(yīng)的決策規(guī)則,以保證數(shù)據(jù)填補的性能和準確性。
4) 設(shè)計了可辨識矩陣優(yōu)化算法,進一步提升不完備數(shù)據(jù)填補效果,提高填補后數(shù)據(jù)的完備程度和準確性。
5) 經(jīng)過測試驗證,本文方法能夠有效計算數(shù)據(jù)對象間的相似度值,實現(xiàn)數(shù)據(jù)的填補,填補后數(shù)據(jù)的完備度達到95%以上,填補值誤差在0.17以下,填補效果顯著。
綜上所述,本文方法結(jié)合概率相似度計算、ROUSTIDA算法和決策規(guī)則,在不完備數(shù)據(jù)填補領(lǐng)域取得了良好的填補效果和創(chuàng)新突破。考慮到實際數(shù)據(jù)中的不確定性和噪聲,未來將嘗試建立更健壯的模型來處理不完備數(shù)據(jù),在數(shù)據(jù)填補過程中量化和管理不確定性信息。
參考文獻
[1] 孫林,李夢夢,徐久成.基于鄰域區(qū)分度的不完備混合數(shù)據(jù)屬性約簡方法[J].江蘇科技大學(xué)學(xué)報(自然科學(xué)版),2022,36(1):82?89.
[2] 劉恒孜,呂寧,姜侯,等.基于DCT?PLS算法的MODIS LST缺值填補方法研究[J].地球信息科學(xué)學(xué)報,2022,24(2):378?390.
[3] 盧繼哲,劉宣,唐悅,等.基于聚類和LSTM的電力分鐘凍結(jié)數(shù)據(jù)缺失值填充方法[J].控制工程,2022,29(4):611?616.
[4] 任兵,郭艷,李寧,等.基于壓縮感知的相關(guān)性數(shù)據(jù)填補方法[J].計算機科學(xué),2023,50(7):82?88.
[5] 關(guān)李晶,何潔帆,張立勇,等.基于單輸出子網(wǎng)迭代學(xué)習(xí)的缺失值填補方法[J].大連理工大學(xué)學(xué)報,2022,62(4):427?432.
[6] 蔡榕,楊雪,田江,等.基于相關(guān)性分析和生成對抗網(wǎng)絡(luò)的電網(wǎng)缺失數(shù)據(jù)填補方法[J].電力工程技術(shù),2024,43(1):229?237.
[7] 陳俊揚,戴志江,李雪亮,等.基于強化學(xué)習(xí)的多變量時序數(shù)據(jù)缺失值補全方法[J].中國科技論文,2023,18(11):1205?1212.
[8] 詹康,王逸文,何熊熊.基于數(shù)據(jù)相似度和引力理論的密度峰聚類算法[J].高技術(shù)通訊,2023,33(1):88?96.
[9] 董云薪,林耿,張清偉,等.基于Apriori算法填充數(shù)據(jù)及改進相似度的推薦算法[J].計算機科學(xué),2022,49(2):307?311.
[10] 黃清浩,甘世林,仲子航,等.假想策略下處理缺失數(shù)據(jù)的參照填補法[J].中國衛(wèi)生統(tǒng)計,2023,40(3):331?334.
[11] 喬非,翟曉東,王巧玲.面向多維特性數(shù)據(jù)的缺失值檢測及填補方法對比[J].同濟大學(xué)學(xué)報(自然科學(xué)版),2023,51(12):1972?1982.
[12] 鄭智泉,陳妍,王孟孟,等.不同缺失率下的數(shù)據(jù)填補算法穩(wěn)定性研究[J].統(tǒng)計與決策,2023,39(8):12?17.
[13] 王一棠,龐勇,張立勇,等.基于TS建模的不完整盾構(gòu)機數(shù)據(jù)填補算法[J].機械設(shè)計,2022,39(3):26?31.
作者簡介:仝利紅(1978—),女,河南洛陽人,碩士研究生,實驗師,研究方向為大數(shù)據(jù)分析、軟件工程。
孫士保(1970—),男,河南信陽人,博士研究生,教授,研究方向為智能信息處理、機器學(xué)習(xí)、數(shù)據(jù)挖掘。