亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        缺失數(shù)據(jù)處理方法研究綜述

        2021-07-28 12:36:26熊中敏郭懷宇吳月欣
        計算機工程與應用 2021年14期
        關鍵詞:均值聚類變量

        熊中敏,郭懷宇,吳月欣

        上海海洋大學 信息學院,上海201306

        隨著科技信息技術的日新月異,各研究領域對于數(shù)據(jù)的收集、存儲以及處理技術等已經基本成熟。日復一日的海量數(shù)據(jù)收集工作,使得各領域積累了大規(guī)模的數(shù)據(jù)存儲量。據(jù)統(tǒng)計,全球各領域數(shù)據(jù)總量正以每年40%左右的增速大規(guī)模增加,到2020 年全球數(shù)據(jù)總量規(guī)??蛇_到40 ZB[1-2]。大數(shù)據(jù)時代的到來,對于各領域有效地利用大數(shù)據(jù)提出更高的要求,特別是數(shù)據(jù)挖掘領域,數(shù)據(jù)的質量決定著是否能在海量復雜的數(shù)據(jù)中挖掘出有價值的知識[3-5]。因此面對魚龍混雜的海量數(shù)據(jù),如何通過預處理等手段提高數(shù)據(jù)的可用性變成急需解決的重要問題。針對不同質量問題的數(shù)據(jù)采取適合的預處理手段可以改善數(shù)據(jù)的整體質量。目前,數(shù)據(jù)缺失作為數(shù)據(jù)質量問題的重要因素之一,變得難以避免。無論是現(xiàn)實調查還是科學研究中,大部分數(shù)據(jù)集都出現(xiàn)缺失問題,極大地影響了后續(xù)研究工作的準確性。不論是忽略還是簡單刪除這些缺失數(shù)據(jù)都會使得原數(shù)據(jù)集信息量發(fā)生改變,最終影響實驗工作的進行。因此缺失數(shù)據(jù)填充方法成為目前的研究熱點,如何針對不同的缺失類型進行有效填充是接下來的研究重點。本文介紹了缺失數(shù)據(jù)處理方法的國內外研究現(xiàn)狀,整理了數(shù)據(jù)缺失原因并進行分類,系統(tǒng)地對最新國內外數(shù)據(jù)缺失的處理方法進行綜述對比,并介了紹常用的數(shù)據(jù)填充效果評價方法,最后對未來研究發(fā)展趨勢做出了展望。

        1 國內外研究現(xiàn)狀

        數(shù)據(jù)預處理中數(shù)據(jù)缺失問題一直是需要克服的困難,為此國內外學者對缺失問題進行了深刻研究,貢獻出了許多的經驗成果[6-8]。本文在查閱大量國內外文獻的基礎上,對數(shù)據(jù)缺失問題的國內外的研究現(xiàn)狀總結如下。

        1.1 國外研究現(xiàn)狀

        20 世紀前期國外就已經開始對數(shù)據(jù)質量問題進行研究[9-10]。最早是Bowky在1915年對某項調查結果的誤差來源進行了研究分析,提出了數(shù)據(jù)缺失問題。后來,Deming 對調查誤差進行了各種因素分析,進一步總結了數(shù)據(jù)缺失問題,其中包括因無回答造成的缺失。20世紀40年代末,數(shù)據(jù)缺失問題的研究掀起熱潮,專家學者提出了各類缺失值的解決方法。這些方法可以大致分為兩類:事前防范和事后處理。前者一般是通過大量收集來提高數(shù)據(jù)的完整度,但這種方法無法保證一定能收集到完整數(shù)據(jù)。后者通常是在已有數(shù)據(jù)的基礎上進行處理,使其完備化。因此事后處理更符合數(shù)據(jù)缺失處理的研究方向,也更受歡迎。1940 年,Deming 和Stephan提出抽樣概率的倒數(shù)加權法解決單元缺失情況[11]。1949 年,Politz 和Simmons 對這種加權法進行了改進提出了經典的PolitzSimmons調整法[12]。

        著名統(tǒng)計學家Yates因實驗數(shù)據(jù)缺失過多無法完成數(shù)據(jù)分析而提出填補缺失值的方法[13],該方法在對方差分析中表現(xiàn)出不錯的效果[14]。然后填充方法成為研究熱潮,隨后出現(xiàn)了均值填充、回歸填充、聚類填充、熱卡填補、多重填充等許多經典方法。在前人方法的基本理論基礎上,各領域學者結合自身領域數(shù)據(jù)特點,進行深入研究后提出大量改進方法。1977年,Dempster等人提出期望極大化算法(Expectation Maximization),該方法成為缺失數(shù)據(jù)處理領域的一個重要里程碑[15],此后許多方法都在它基礎上進行研究更新。1978 年Rubin 提出多重填補方法[16],這又是一次重大突破,相比單值填補,該方法表現(xiàn)出更好的填充效果[17]。1984 年Kalton 等人根據(jù)熱卡填補法的思想,提出最近鄰填補方法[18],該方法的填充思想影響了后來許多算法。

        進入21世紀,數(shù)據(jù)缺失的處理方法已經走向成熟,鮮少有全新的填充思想被提出,大部分都是基于當下領域的改進及應用。如2003年,Batista等人對監(jiān)督學習的四種缺失數(shù)據(jù)處理方法進行了分析比較,證明了k最近鄰填補算法在填補手段上的性能優(yōu)越性[19]。如2018 年Zakaria等人利用環(huán)境溫度和濕度的監(jiān)測數(shù)據(jù)來評估四種填補方法(均值填充、回歸填充、多重填充和最近鄰填充)[20]。2019 年Little 等人對缺失數(shù)據(jù)的最新統(tǒng)計處理方法進行了前面分析,并提供了實際應用信息[21]。

        1.2 國內研究現(xiàn)狀

        國內學者對缺失值處理方法的研究相對比較晚,基本上都是在國外已有的先進理論上進行改進、對比完善,大多缺乏原創(chuàng)性理論。如2000年,金勇進等人通過模擬實驗對幾種缺失值填補方法進行比較,發(fā)現(xiàn)均值填充更符合真值,而隨機回歸填補更能保持樣本分布[22]。2009年,金勇進等人出版的《缺失數(shù)據(jù)的統(tǒng)計處理》,詳細地討論了各類缺失問題以及解決辦法[23]。

        2010年,鄧銀燕通過仿真實驗研究討論了數(shù)據(jù)填充方面的主要方法性能,其中包括均值填充、隨機填充、期望最大化(EM)填充、線性回歸模型填充、多重填充等方法[24]。實驗表明不同方法對于不同缺失率的數(shù)據(jù)填充效果不盡相同。2014 年羅永峰等人根據(jù)鋼結構檢測數(shù)據(jù)缺失的形成機制,提出基于最小二乘原理以回歸分析理論為基礎的填充方法[25]。2020 年楊弘等人針對混合型缺失數(shù)據(jù)比較了一些缺失數(shù)據(jù)處理方法的特點以及在實際應用中的評價效果[26]。后來許多國內學者在經典填充方法的基礎上,根據(jù)自身領域數(shù)據(jù)特點設計出各種相適應的填充算法。

        2 數(shù)據(jù)缺失問題

        數(shù)據(jù)質量問題一直是影響實驗研究的重要因素之一。而數(shù)據(jù)缺失問題作為數(shù)據(jù)質量問題中的關鍵元素已經普遍存在。例如常見的機器學習領域UCI 數(shù)據(jù)庫中,出現(xiàn)數(shù)據(jù)缺失的數(shù)據(jù)集已達到40%以上[27-28]。數(shù)據(jù)缺失的普遍存在已經影響到正常的數(shù)據(jù)分析及研究。國內外學者開始對數(shù)據(jù)缺失問題進行深入研究,從產生原因到分類,再到解決辦法。本章詳細介紹了數(shù)據(jù)缺失問題產生的原因,根據(jù)不同標準對缺失問題進行了分類,為后面處理方法的介紹奠定了基礎。

        2.1 數(shù)據(jù)缺失的原因

        數(shù)據(jù)缺失常發(fā)生在數(shù)據(jù)的采集、運輸、存儲等過程中。如在各領域數(shù)據(jù)采集中,會存在一些數(shù)據(jù)無法獲取或者人工操作不當而丟失的情況,或者在數(shù)據(jù)傳輸、存儲等轉移過程中發(fā)生丟失等等[29-30]。因此對數(shù)據(jù)缺失原因總結如下:

        (1)數(shù)據(jù)在采集過程中的缺失??陀^條件的限制,如歷史條件下,設備的局限導致無法獲取完整的信息。

        (2)數(shù)據(jù)在運輸過程中的缺失。數(shù)據(jù)的運輸轉移需要靠人來完成,因此人為操作、判定的失誤會導致數(shù)據(jù)錯誤或者丟失。

        (3)數(shù)據(jù)在存儲過程中的缺失。由于存儲介質發(fā)生故障及損壞而導致的數(shù)據(jù)缺失;以及存儲過程中對數(shù)據(jù)進行壓縮而導致丟失。

        2.2 數(shù)據(jù)缺失的分類

        數(shù)據(jù)缺失原因的不同產生了不同缺失類型[31],為了能更加有效地應對數(shù)據(jù)缺失問題,需要對數(shù)據(jù)缺失類型進行分類,從而能更有針對性地提出解決辦法,使得結果更合理準確。本節(jié)從缺失模式和缺失機制兩個方面對缺失類型進行了分類。

        2.2.1 缺失模式分類

        因數(shù)據(jù)缺失而在數(shù)據(jù)集中產生的缺失結構叫缺失模式[32]。缺失模式可以用來反映數(shù)據(jù)集中缺失數(shù)據(jù)之間的關系。目前缺失模式大致分為四種:單變量缺失模式、多變量缺失模式、單調缺失模式、一般缺失模式[33]。

        (1)單變量缺失模式

        單變量缺失模式是指單屬性維度存在缺失值,即所研究數(shù)據(jù)集中只有一個屬性維度存在缺失值,其余屬性維度數(shù)據(jù)完整。

        (2)多變量缺失模式

        多變量缺失模式是指中多屬性維度含有缺失值,即所研究數(shù)據(jù)集中有一個及以上屬性維度存在缺失值。

        (3)單調缺失模式

        單調缺失模式是指所研究數(shù)據(jù)集在多屬性維度含有缺失值的基礎上,缺失數(shù)據(jù)形成的矩陣進行排列變換后能呈現(xiàn)單調層級模式。

        (4)一般缺失模式

        一般缺失模式簡單點說就是所研究數(shù)據(jù)集中缺失數(shù)據(jù)分布在不同屬性之間,并且毫無規(guī)律可循。這是目前最常見的缺失模式。

        2.2.2 缺失機制分類

        缺失數(shù)據(jù)和完整數(shù)據(jù)之間的關系稱為缺失機制[34]。缺失機制的意義在能通過完整數(shù)據(jù)幫助處理缺失數(shù)據(jù)。缺失機制大致分為三種:完全隨機缺失(MCAR)、隨機缺失(MAR)、非隨機缺失(NMAR)。

        (1)完全隨機缺失(Missing Completely At Random,MCAR)

        完全隨機缺失指數(shù)據(jù)缺失是隨機發(fā)生的,與自身屬性以及其他屬性取值無關。例如研究數(shù)學、語文和英語三個屬性時,數(shù)學屬性的缺失與語文和英語兩個屬性無關,它是完全隨機缺失。目前來說,完全隨機缺失并不常見。

        (2)隨機缺失(Missing At Random,MAR)

        隨機缺失指數(shù)據(jù)缺失只和完整屬性取值有關[35]。例如研究數(shù)學和語文兩屬性時,已知數(shù)學屬性的缺失和語文屬性相關,則可以認為這是隨機缺失的。

        (3)非隨機缺失(Not Missing At Random,NMAR)

        非隨機缺失指數(shù)據(jù)缺失不僅與自身取值有關而且與完整屬性取值也有關,這種缺失是不可忽略的缺失[36]。由于隱私敏感等問題,隱去某些屬性值,這就是非隨機缺失。

        3 缺失值處理方法

        目前對于缺失值的處理方法基本分為三類:刪除,填充,不處理[37]。采用什么樣的處理方法要因數(shù)據(jù)集缺失情況以及研究內容而定,本章介紹了目前缺失值處理的幾類解決辦法,其中詳細闡述了數(shù)據(jù)填充方法以及研究進展。最后總結了各類缺失值處理方法的優(yōu)缺點以及適用范圍。

        3.1 簡單刪除法

        最原始的缺失數(shù)據(jù)處理方法主要有簡單刪除法,此方法就是將包含缺失值的數(shù)據(jù)對象、數(shù)據(jù)屬性、成對變量進行刪除[38]。

        (1)對象刪除

        對象刪除指當數(shù)據(jù)集中某個研究對象的數(shù)據(jù)記錄中存在丟失時,直接刪除該對象。該方法僅適合于缺失對象極小,否則會使得數(shù)據(jù)集因丟失過多的信息而造成不完整,從而影響后續(xù)實驗結果的準確性。

        (2)屬性刪除

        屬性刪除指當數(shù)據(jù)集中某屬性存在缺失時就直接刪除該屬性。這種做法雖然保留了研究對象的個數(shù),但是丟失對象的一些屬性信息,若含缺失值的屬性過多,就會造成刪除過度,后續(xù)實驗研究將毫無意義。

        (3)成對刪除

        成對刪除指配對的兩個變量之間,若有一方存在缺失值,就將兩個變量同時刪除然后再進行相關分析。

        綜上這類方法操作過程簡單,速度快,但很難適用眾多領域的缺失數(shù)據(jù)集。當數(shù)據(jù)量特別大,缺失對象與數(shù)據(jù)集中的數(shù)據(jù)量相比微不足道時,這種方法非常有效,它既解決了數(shù)據(jù)缺失的問題,又不會影響數(shù)據(jù)集的信息量以及研究結果。然而,當數(shù)據(jù)集中缺失數(shù)據(jù)大量存在時,簡單地刪除缺失對象以及它所包含的信息就會影響整個數(shù)據(jù)集的質量,造成數(shù)據(jù)資源的浪費,丟掉了可能存在的有價值的信息,對后續(xù)研究造成影響,使得研究結果無法保證客觀性以及結果的正確性。如陳景年在選擇性貝葉斯分類算法研究中,為了使樸素貝葉斯分類器的分類效果達到預期目標,選擇刪除數(shù)據(jù)集中的冗余屬性,使剩余的屬性盡可能地滿足獨立性假設條件,最后達到了預期效果[39]。

        3.2 權重法

        權重法的使用前提是數(shù)據(jù)缺失類型為非完全隨機缺失情況下,通過logistic或probit等方法將缺失單元的權數(shù)分配到完整單元上,從而增大完整單元的權數(shù)以減小缺失單元帶來的損失。這種方法一般用來處理單元無回答的缺失問題。但是權重法不適合多屬性缺失的數(shù)據(jù)集,因為多屬性缺失則會增大計算難度,準確性降低。

        3.3 填補

        目前針對數(shù)據(jù)缺失問題國內外學者們提出了多種填補方法,基本上可分為兩類:統(tǒng)計學方法和機器學習方法[40]。統(tǒng)計學方法大多是基于數(shù)據(jù)集本身作出假設,然后利用原數(shù)據(jù)集對缺失數(shù)據(jù)進行相應填補。這類方法沒有考慮數(shù)據(jù)對象本身的類別,填充值往往受其他類別對象的影響,填充結果準確性較差,常見的方法有EM(Expectation Maximization)填充算法、回歸分析法、多重插補等。機器學習方法,一般是先對缺失數(shù)據(jù)集進行分類或聚類,然后進行填補。這類方法是隨著近年來機器學習的熱潮興起的。代表性方法有:K最近鄰填補、K-means填補、貝葉斯網(wǎng)絡等等。其中分類方法以缺失屬性為目標進行分類,然后在每個類別內進行填補,但缺失屬性過多時容易導致所分類別過多,效率低下;聚類方法則是先將數(shù)據(jù)對象聚類,劃分成多個簇,根據(jù)簇內相似對象進行填補,缺失屬性的多少不會影響簇的個數(shù),這類方法適用范圍廣,也是目前研究的熱點。本文將現(xiàn)有的填充方法劃分成以下幾種方法:

        (1)人工填寫(Filling Manually)

        人工填寫法就是數(shù)據(jù)集創(chuàng)造者自身根據(jù)自己對數(shù)據(jù)集的了解自行填充缺失值。這種填充方法對于數(shù)據(jù)集創(chuàng)造者來說無疑是最快最準確的方法,但是若是數(shù)據(jù)規(guī)模大,缺失數(shù)據(jù)過多時,不僅費時而且容易出現(xiàn)錯誤,并且對于其他使用者來說這種方法適用性不大,基本上可行性很低。

        (2)均值填充(Mean/Mode Completer)

        均值填充法就是將現(xiàn)有數(shù)據(jù)的對應屬性均值填充給缺失值,但要注意數(shù)據(jù)變量需要服從或者近似服從近態(tài)分布,否則用該屬性下的眾數(shù)或中位數(shù)填充缺失值[41]。簡單來說就是先判斷缺失值的數(shù)據(jù)類型,然后根據(jù)數(shù)據(jù)類型采取不同的填充方法,將同屬性下其他對象的平均值填充給數(shù)值型的缺失值;或采用眾數(shù)原理將同屬性下取值次數(shù)最多的值填充給非數(shù)值型缺失值。還有一種相似的方法叫分層均值填補,該方法是在填補之前對數(shù)據(jù)集進行分層,使得相似數(shù)據(jù)聚集同一層,然后在每層內采取均值填充。以上兩種均值填充方法,基本思想是相近的,都采用了均值填充,只不過再具體實現(xiàn)上有所差別。均值填充法是目前填充方法內使用最多,同時基于這種方法延伸最多的方法。但均值填補的缺點是僅僅適合數(shù)據(jù)規(guī)模小,缺失數(shù)據(jù)少的簡單研究,不適應較復雜的分析研究[42-43]。

        (3)EM填充(Expectation Maximization Imputation)

        20世紀70年代后期,Dempster等人最先提出了EM算法(最大期望算法)[15],該方法經過兩個步驟交替進行計算。

        第一步是計算期望(E),利用對隱藏變量的現(xiàn)有估計值,計算其最大似然估計值。

        第二步是最大化(M),最大化在E步上求得的最大似然值來計算參數(shù)的值。M 步上找到的參數(shù)估計值被用于下一個E步計算中,這個過程不斷交替進行。這是當時最有效處理缺失數(shù)據(jù)的方法。

        后來Ghahramani 等人對缺失數(shù)據(jù)進行了研究分析,為了解決因數(shù)據(jù)稀疏而導致數(shù)據(jù)最近鄰尋找不準確的問題,提出了基于期望最大化的缺失數(shù)據(jù)處理方法EMI(Expectation Maximization Imputation)[44-45]。EMI算法是一種求解參數(shù)最大似然估計的迭代算法[46-47]。與一些傳統(tǒng)的填充算法相比,EM算法在數(shù)據(jù)規(guī)模非常大時,它的算法執(zhí)行非常簡單,通過自身穩(wěn)定的迭代過程找到全局最優(yōu)解,對缺失數(shù)據(jù)的填充精度還是比較高的。但該方法通過整個數(shù)據(jù)集來進行填充,忽略了數(shù)據(jù)的局部相似性。同時EM 算法收斂的速度是無法自身控制的。缺失數(shù)據(jù)的多少決定了算法速度,數(shù)據(jù)缺失比例越大,收斂速度也會越慢。還有就是當極大似然函數(shù)無法獲取時,EMI算法也無法計算。

        Rahman 等人提出了一種稱為模糊期望最大化的缺失值插補的數(shù)據(jù)預處理新技術(Fuzzy Expectation Maximization Imputation,F(xiàn)EMI)[48]。該算法使用最相似的記錄對缺失值進行有根據(jù)的猜測。在確定一組最相似的記錄時,它考慮了聚類的模糊性質。因此,它將所有記錄組(簇)視為相似的,并且具有一定程度的相似性。此外,在基于組估算缺失值的同時,還考慮了屬于該組的所有記錄的模糊性質,提出了兩個級別的模糊性,將記錄的隸屬度與簇一起使用,以便估算缺失值。該算法相比同類型算法平均值更好,置信區(qū)間沒有重疊,對于低丟失率和高丟失率幾乎都表現(xiàn)良好,但是所提出技術的主要重點是對缺失值的估算,而不是對記錄進行聚類,因此該方法不能非常精確地找到最佳簇,K值無法準確給出,需要不斷實驗,且需要數(shù)據(jù)集有兩個或多個屬性來促進FEMI 中使用的模糊EMI 技術所需的相關性計算。

        Ogbeide等人提出了一種基于自適應“期望最大化”方法(Mode-Related Expectation Adaptive Maximization,MEAM)[49],用于缺少觀測值的多元數(shù)據(jù)集,將該新方法與其他填充方法進行比較,顯示出一些改進,這種搜索丟失數(shù)據(jù)的方法是為了從可用數(shù)據(jù)中獲得更好的統(tǒng)計推斷。該方法在解決調查觀測缺失、無響應或數(shù)據(jù)缺失等問題時,產生的初始值最接近完整數(shù)據(jù)集的平均值可減少計算時間。同時MEAM方法屬于求解無響應測量中觀測缺失的迭代方法,特別是當丟失的數(shù)據(jù)由于某些條件永遠無法恢復時,這種數(shù)據(jù)清理方法具有減少統(tǒng)計估計誤差的優(yōu)點。但這個方法與EM 相比需要額外的步驟。這些附加過程包括從數(shù)據(jù)集分組和從數(shù)據(jù)集中選擇與加權平均值相關的模式。

        Razavi-Far等人提出了一種新的缺失數(shù)據(jù)填補方法(KNN and Expectation Maximization Imputation,KEMI),該方法基于K最近鄰算法用于預計算,而期望最大化算法用于后計算[50]?;舅枷霝槭紫仁褂肒NN會自動找到K個最近鄰居,然后使用EMI 算法來估算缺失的分數(shù)。它的優(yōu)點是可以根據(jù)最近的鄰居確定初始值,而不是整個數(shù)據(jù)集。其中基于KNN 的技術通常基于記錄的相似性找到K個最近的鄰居,因此可以忽略特征之間的相關性。然后,使用EM尋找所選樣本之間的整體相似度,以估算缺失的分數(shù)。KEMI方法不僅關注記錄的相似性,而且關注特征之間的相關性。KNN 的加入使得它沒有太多迭代來估算給定數(shù)據(jù)集的缺失分數(shù)。這意味著KEMI不僅可以提高精度,而且可以提高時間效率。雖然該方法結合了KNNI和EMI的優(yōu)點,但是它仍然是基于原始數(shù)據(jù)內部進行假設,若數(shù)據(jù)缺失比例較大時,K近鄰的選擇結果將存在偏差,影響初始值選擇。KEMI方法可以處理數(shù)值和分類特征,同時可以處理用于混合特征插補的異構數(shù)據(jù)集。

        (4)熱卡填充(Hot Deck Imputation,或就近補齊)

        根據(jù)獲取插補值的方法來將熱卡插補分為最近距離熱卡插補、隨機抽樣熱卡插補、分層熱卡插補和序貫熱卡插補[51]。但基本思想都是在已有的完整數(shù)據(jù)中尋找與缺失對象最相似的對象來進行填充,區(qū)別就是在尋找最相似對象的具體方法上有所不同。這個方法的缺點也很明顯就是如何定義客觀的相似性標準來適應不同的數(shù)據(jù)集。

        熱卡插補法作為一種單值填充,不論是實踐還是研究都應用廣泛。與均值填充和其他填充方法相比,對變量經驗分布的保持有不錯的效果。但是該方法的填充值易受輔助變量所影響,排序變量影響獲得的序列,進而填充值也會受影響[52]。

        (5)冷卡填充(Cold Deck Imputation)

        與熱卡填補相比冷卡填補法的填補值不是根據(jù)當前的數(shù)據(jù)集來進行填充的,而是通過歷史數(shù)據(jù)或者其他相關的調查數(shù)據(jù)來進行匹配填充[53]。這種填充方法存在一定的估計偏差,并不能廣泛適用。

        (6)回歸填充(Regression Imputation)

        回歸填補基本上是通過完整數(shù)據(jù)集建立回歸方程,然后用回歸方程的預測值對缺失數(shù)據(jù)進行填充。后來提出了效果更好的隨機回歸填補,該方法在填補過程中給填補值添加了一個隨機項,該隨機項用來表示預測值的誤差影響。隨機回歸填補法能最大程度地利用數(shù)據(jù)本身信息,使得預測變量的共線性問題得以解決[54]。回歸方程的建立如下:

        設Y為缺失變量,Xj(j=1,2,…,n)是與Y存在線性回歸關系的完整變量,那么Y中第i個缺失值的估計值可以表示為:

        隨機回歸填補就是在公式(1)的基礎上增加一個隨機項,以此來減少預測誤差,克服樣本分布扭曲的缺陷。此時公式如下:

        目前對回歸填充法的研究大都是在原始基礎上進行相關改進及應用,鮮有突破性進展。

        Bashir等人提出一種新算法,用于處理多元時間序列數(shù)據(jù)集中的缺失數(shù)據(jù)。這種新方法基于矢量自回歸模型,將期望最小化算法與預測誤差最小化方法結合在一起,該新算法稱為向量自回歸插補方法(Vector Auto Regressive Model-Imputation,VAR-IM)[55]。基本思想是先對丟失的數(shù)據(jù)進行初始猜測,然后進行傳統(tǒng)的線性插值估計,然后,通過選擇最佳滯后值p來估計VAR(p)模型,最后,通過交替使用EM和PEM算法估計VAR(p)模型的參數(shù),從而提高數(shù)據(jù)填補的精度。VAR-IM方法為傳統(tǒng)的多元時間序列缺失值估算提供了一種有效的替代方法。通過對比顯示隨著丟失數(shù)據(jù)量百分比的增加,性能下降的幅度較小。盡管有所改進,該方法仍存在局限性,首先這項研究僅考慮了完全隨機缺失數(shù)據(jù)的情況,也就是說要求數(shù)據(jù)缺失的原因與觀察值和缺失值均無關。其次,VAR-IM方法的有效性要求時間序列應該是固定的。如果丟失數(shù)據(jù)的百分比很低(例如少于10%),則VAR-IM方法不會優(yōu)先使用。

        Stein 等人提出了一種更復雜的方法,即增量屬性回歸插補(Incremental Attribute Regression Imputation,IARI)[56],它對所有具有缺失值的屬性進行優(yōu)先級排序,然后使用所有沒有缺失值或存在缺失值的屬性值逐個迭代地“修復”每個屬性。已經修復,作為預測指標。此外,目標變量還可以在修復過程中用作預測變量。修復屬性是通過構建回歸模型并將其用于估計缺失值來實現(xiàn)的。這里使用隨機森林算法用于對數(shù)值和分類變量進行修復建模。該算法的主要優(yōu)勢是在修復的訓練集上訓練的最終模型具有更高的準確性,并且可以更準確地估計缺失值。但IARI 算法在計算上非常苛刻,它要求建立的隨機森林與應修復的屬性數(shù)量一樣多,且算法結果受屬性重要度排列以及缺失屬性比例影響。通常來說IARI方法在MAR缺失類型中表現(xiàn)較好。

        Dzulkalnine 等人提出了一種改進的模糊主成分分析-支持向量機-模糊c均值(Fuzzy Principal Component Analysis-Support Vector Machine-FuzzyC-Means,F(xiàn)PCASVM-FCM)的混合填充方法[57]。該方法使用的特征選擇方法是模糊主成分分析(FPCA),它在考慮異常值的情況下識別數(shù)據(jù)集中的相關特征。然后,使用支持向量機對所選特征進行分類并刪除不相關的特征。識別出數(shù)據(jù)集中的重要特征后,然后通過模糊c均值估算缺失的數(shù)據(jù)。這種方法一定程度上提高了分類以及填充的準確性,減少了時間復雜度。但是如果數(shù)據(jù)集中存在過多的異常值會降低填補方法的有效性,因為刪除過多的異常值,會導致信息不全,影響缺失數(shù)據(jù)的計算。因此它多適用于MAR類型的缺失值處理。

        總的來說回歸填補與均值填補相比,效果還是比較好的。但是回歸填補和均值填補都沒有考慮缺失數(shù)據(jù)的不確定性,主觀增大了變量間的關系[58]。如果樣本量過大,回歸方程難以準確定義。

        (7)聚類填充(Clustering Imputation)

        簡單的常值填補沒有考慮缺失值的偏差,而且容易改變原樣本的分布情況。而其他的模型填補需要滿足一個模型對應一個缺失屬性,當缺失屬性增多時效率降低。聚類填充是目前研究使用最廣泛的填充方法,該方法先通過聚類的方式將數(shù)據(jù)集分類,然后在每一類里進行相似填充。以經典的基于K-means聚類填充算法為例,先將原數(shù)據(jù)集劃分成完整數(shù)據(jù)集和缺失數(shù)據(jù)集,在完整數(shù)據(jù)集上進行聚類,分成K個簇,計算缺失數(shù)據(jù)每個對象與K個簇中心的相似度,把最相似的簇的屬性均值填充給該缺失對象。

        近幾年來各種聚類填充算法開始涌現(xiàn),這些聚類填補方法大致可以分成兩種。

        第一種方法是先聚類缺失數(shù)據(jù)集中的完整數(shù)據(jù)來進行分類,然后通過相似度度量將缺失數(shù)據(jù)對象劃分到最相似的簇中,并通過簇內信息進行填補。這類方法的缺點是只考慮缺失數(shù)據(jù)的局部情況,忽略了整體分布。

        比如Raja等人提出了基于粗糙K均值的缺失值填補(Rough K-Means Imputation,RKMI),通過將一個對象放置到一個以上的群集中來解決脆性問題[59]。基于粗糙K均值插補算法,使用下限和上限對象信息代替簇質心,將具有較低值的對象以較低的近似平均值表示,然后使用有關較低的近似值的信息來估算屬性值。如果非參考對象存在于較高近似值中,則有關較高近似對象的信息將用于估算缺失值。如果數(shù)據(jù)集具有較高的方差,則基于粗糙K均值參數(shù)的插補可為插補值提供最佳精度。該方法與基于K均值、模糊C均值的填補方法進行了比較,整體性能優(yōu)于現(xiàn)有方法。該方法雖適用于大型數(shù)據(jù)集,但中間的K值選擇不確定,以及時間復雜度高仍是很大的問題。

        對不完整數(shù)據(jù)進行分類的最流行的方法之一是使用填補以合理的值代替缺失的值。但是,當將分類器應用于新的未知實例時,強大的填補方法會占用大量計算資源。Tran等人提出了整合填補方法,即基于聚類和特征選擇的不完整數(shù)據(jù)填補的新方法[60],通過聚類和特征選擇的分類效果來提高效率而又不損失填充準確性。其中聚類用于減少填充使用的實例數(shù)量。特征選擇用于刪除訓練數(shù)據(jù)的冗余和不相關特征,從而大大降低了估算成本,減少了估算時間,大大地提高了效率。由于特征選擇會刪除不相關特征,所以所提出的方法適用于缺失率不高的大型數(shù)據(jù)集,如果缺失率過高,聚類精度和特征選擇受到影響,那么填充效果也會變差。

        Shi等人提出了一種針對不完整數(shù)據(jù)的改進均值填補聚類算法(K-Means-Improved Mean Imputation,KMIMI)[61],該方法先用無缺失值對象進行聚類,并使用每個聚類的均值屬性值分別填充相應的缺失值。采用簇形質心的攝動分析方法,求出最優(yōu)的填充值。這種方法雖然在一定程度填充準確性有所提升,但也存在局限性,如它要求每個屬性在不完整數(shù)據(jù)集中至少存在一個值。也就是說,一個對象不能缺少所有屬性值,并且所有對象也不能缺少相同屬性。在大多數(shù)情況下,數(shù)據(jù)集中的缺失率越高,聚類結果的準確性越低,填充性能也會下降。因此這種方法要求缺失率范圍在5%至30%之間。

        第二種方法是先對缺失數(shù)據(jù)進行初始化處理或者不處理,如定義缺失數(shù)據(jù)集的相似度度量,然后根據(jù)相似關系對整個數(shù)據(jù)集進行聚類,最后進行簇內填補。這類方法沒有考慮缺失信息帶來的誤差,容易影響聚類結果,使得聚類過程復雜。

        Nikfalazar 等人提出一種的新混合填補方法(Decision Trees and Fuzzy Clustering with Iterative Learning,DIFC)[62],以使用混合填補方法來處理MCAR類型的缺失數(shù)據(jù)。DIFC將決策樹和模糊聚類與迭代學習方法結合在一起,其中模糊聚類迭代以從記錄中學習新的估計值,這些記錄具有由決策樹確定的相似屬性值。換句話說,所提出的填充方法結合了有監(jiān)督的機器學習方法(即決策樹)和無監(jiān)督的機器學習方法(即模糊聚類),以迭代的方式來估算缺失值。DIFC填補方法實現(xiàn)了雙重分割方法,找到最佳記錄來填補缺失值。另外,迭代學習方法提高了估算值的準確性。在每次迭代期間,DIFC使用上一次迭代中的估算值來重新聚類并更新估算值。DIFC 方法的性能與丟失率沒有顯著相關,相反缺失模式是影響DIFC 效率的重要因素。雖然DIFC 的性能在各種丟失率下均很穩(wěn)定,但是該方法的計算成本比較高,且適用于缺失值分布均勻的數(shù)據(jù)集。

        冷泳林等人提出基于AP聚類的不完整數(shù)據(jù)填充算法(Affinity Propagation Imputation,API)[63],該方法改變了傳統(tǒng)的先對完整數(shù)據(jù)聚類的做法,重新定義缺失數(shù)據(jù)對象間的相似度度量方式,從而直接對缺失數(shù)據(jù)聚類,最后用同一類對象的屬性值填充缺失對象。該方法有效地避免了不同類對象對缺失值的影響,一定程度上提高了填充精度,且對缺失率比較大的數(shù)據(jù)容忍性比較好,但是它的相似度度量方式選取影響聚類效果,從而影響填充,比較適用屬性值連續(xù)的數(shù)據(jù)集。

        對于缺失數(shù)據(jù)集由于大量樣本存在缺失值,單一聚類算法無法獲得良好的聚類結果,從而填充不準確。為了克服這個問題,Wang 等人提出一種基于集成聚類算法的缺失數(shù)據(jù)填充[64]。在提出的算法中,先用無缺失值對象進行聚類,并使用每個聚類的均值屬性值分別填充缺失屬性的值。然后應用聚類質心的擾動分析來尋找最優(yōu)填補。該方法使用集成聚類技術將多個聚類結果組合成一個可能更好的結果,雖然提高了填補精度,但是選擇不同的聚類算法會導致具有不同的參數(shù)初始化,進而導致不同的聚類填充結果,因此選擇聚類算法需要根據(jù)數(shù)據(jù)集情況決定。受到聚類方法的影響該填充方法適用于低丟失率在5%至30%間的大型數(shù)據(jù)集。

        各領域學者針對不同的數(shù)據(jù)集使用不同的聚類方法和填充方式,效果也各不相同,難以統(tǒng)一標準來比較。這類方法無論在哪種階段聚類,都會因為數(shù)據(jù)缺失影響到聚類精度,比較適合處理高維數(shù)據(jù)集。

        以上幾種方法都屬于單值填補,這類方法填充值是唯一的,基本上是主觀推斷填充,操作簡單,但沒有體現(xiàn)填充值的不確定性,一定程度上改變了原數(shù)據(jù)集的分布情況,一旦效果不好就會導致研究結果有偏差。

        (8)多重填補(Multiple Imputation,MI)

        1978 年Rubin 等人提出多重填補法(Multiple Imputation,MI)[16],并在20世紀90年代初進行了多領域的應用研究[65-66],后經過Schafer[67]和Meng[68]等人的后續(xù)研究。已經逐漸形成一個完整的體系。多重填補方法的基本思想是為缺失值推斷出多個估計填補值,并產生多個完整數(shù)據(jù)集進行綜合分析,確定最終的估計填充值,這樣做考慮了缺失值的不確定性。該方法通過多個估計值來模擬缺失值的實際后驗分布[69]。

        多重填補認為待填補的值應是隨機的,通過已有的值進行預測,估計出待填補的值,然后加上不同的噪聲產生多組填補值,最后選取符合依據(jù)的填補值[70-71]。多重填充方法的三個步驟如下:

        ①首先為每個缺失值估計一組可能的填補值,用來反映缺失值的不確定性,并構造多個完整數(shù)據(jù)集合。

        ②采用相同的統(tǒng)計方法對這些完整數(shù)據(jù)集進行計算分析。

        ③對來自各個完整數(shù)據(jù)集的結果進行綜合分析,通過評分函數(shù)選擇合適的填補值。

        算法流程如圖1所示。

        圖1 多重填補算法流程

        在原先填補思想的基礎上,許多學者進一步提出來許多相關改進、應用、算法比較。

        如大多多重填補的統(tǒng)計文獻都集中在無界的連續(xù)變量上,Geraci等人提出了一種靈活的基于分位數(shù)的估算模型,該模型適用于在單界或雙界區(qū)間上定義的分布[72]。通過應用一系列具有單個或雙重邊界范圍的變換,可以確保正確支持估算值。仿真研究表明,該方法能夠處理偏斜、雙峰和異方差性,并且與競爭方法(例如對數(shù)正態(tài)填補和預測均值匹配)相比具有更好的性能。盡管當有界變量受MAR 影響時,它仍然比完整案例分析更有效并可用作預測變量。但是該方法具有隨機有效性,且當樣本量較小時,基于分位數(shù)的估算與其他估算方法相比并不會顯視出自身的優(yōu)勢,且計算要求比較高,尤其是從數(shù)據(jù)估計變換參數(shù)時。

        Quartagno等人提出基于選擇模型的多級填補方法(Full Conditional Specification Multiple Imputation,F(xiàn)CS-MI),該方法將在多重填補的全條件規(guī)范框架內使用[73]。具體來說,采用審查的雙變量概率模型來描述非隨機丟失的二進制變量。該模型的第一個方程式定義了缺失數(shù)據(jù)機制的回歸模型。第二個方程式指定要估算的變量的回歸模型。二進制數(shù)據(jù)的非隨機選擇是通過兩個回歸模型的誤差項之間的相關性映射的。分層數(shù)據(jù)結構由兩個方程式中的隨機截距建模一種新穎且獨特的方法來處理假定為非MAR的不完整二進制多級數(shù)據(jù)。單變量插補方法可以輕松地合并到FCS 框架中以處理多變量缺失。但是該方法需要保持簇的數(shù)量和簇的大小不變。因為兩種量的變化都可能影響到方法的性能。

        Gondara等人提出了一種基于超完全深度去噪自動編碼器的多重填補模型(Multiple Imputation Using Denoising Autoencoders,MIDA)。提出的模型能夠處理不同的數(shù)據(jù)類型,缺失模式,缺失比例和分布[74]。由于去噪自動編碼器在初始化時需要完整的數(shù)據(jù),因此該方法在連續(xù)變量的情況下最初使用各自的列平均值,而在分類變量的情況下使用最頻繁的屬性值作為初始化時缺失數(shù)據(jù)的估計值。提出的模型在MCAR和MNAR的缺失類型下顯著優(yōu)于當前的最新方法。且該方法適用于數(shù)據(jù)集很大且維度較高。但是該方法要求有足夠的完整數(shù)據(jù)來訓練模型,因此缺失比例不宜過大,計算成本較高。

        與單值填補相比,多重填補方法保留了完全數(shù)據(jù)分析法和結合數(shù)據(jù)收集者知識的能力的優(yōu)點。并且多重填補方法還表現(xiàn)出另外三個特別重要的優(yōu)點:一是采取隨機抽取的填補方式,使得估計更加有效。二是隨機抽取下得出的有效推斷是采用直接方式并結合了完全數(shù)據(jù)推斷的,這樣做能反映當前模型下因缺失值而產生的附加變異。三是在隨機抽取填補下使用完全數(shù)據(jù)方法,能夠對不同模型下無回應的推斷敏感性進行研究[75-76]。

        多重填補也存在一些缺點:①估計多個填補值比單值填補需要進行更多工作;②存儲多重填補數(shù)據(jù)集的空間需求更大;③多重填補數(shù)據(jù)集的分析工作花費精力更多。

        3.4 不處理

        與前兩種方法對原數(shù)據(jù)集進行缺失填充相比,這種方法直接在原數(shù)據(jù)上直接進行學習[77-78]。最具代表性的方法有貝葉斯網(wǎng)絡、人工神經網(wǎng)絡、粗糙集方法等。

        貝葉斯網(wǎng)絡是用來表示變量間連接概率的圖形模式[79]。貝葉斯網(wǎng)絡需要對當下領域知識熟悉,至少要清楚變量間的依賴關系。因此這種方法對使用者要求比較高。

        人工神經網(wǎng)絡通過徑向基函數(shù)等方法能有效解決缺失值問題。但由于神經網(wǎng)絡模型知識學習過程復雜難懂,所以應用起來還不盡如人意。所以人工神經網(wǎng)絡在缺失值上還有待進一步研究。

        粗糙集理論是利用實體間的不可分辨性來描述對象[80]。傳統(tǒng)的粗糙集理論主要是針對完整數(shù)據(jù)集的。隨著粗糙集擴展模型提出[81-82],粗糙集理論開始能有效地應對數(shù)據(jù)缺失問題,并從缺失數(shù)據(jù)集上直接進行學習。

        4 缺失數(shù)據(jù)處理方法比較

        本文分別從前提、優(yōu)缺點、適用范圍對常見的幾類缺失值處理方法以及近三年相關改進方法進行了比較。其中單值填充法的優(yōu)點是操作簡單方便,適合缺失比例不大的數(shù)據(jù)集。如果缺失比例大于5%,并且缺失類型為隨機缺失和非隨機缺失,則可以使用多重填補法,雖然工作量比較大,但應對大量缺失值效果更好。如果缺失比例小于5%,缺失類型是完全隨機缺失,則可以考慮刪除法來解決,這樣既不影響數(shù)據(jù)信息量,效率也高。若數(shù)據(jù)類型太過復雜,可以考慮使用聚類填補法,通過聚類減少工作量。如表1詳細列出了各類缺失數(shù)據(jù)現(xiàn)有處理方法的對比。表2 列出了近三年各類代表性算法的對比情況。

        表1 缺失值處理方法比較

        表2 改進的缺失值處理方法比較

        從表1 可以看出不同的缺失數(shù)據(jù)處理方法有不同的適用范圍,因此在處理缺失數(shù)據(jù)時,要根據(jù)缺失數(shù)據(jù)的自身情況,選擇最佳的處理方法以求達到最好的效果。

        從表1 可以看出不同類型的缺失數(shù)據(jù)處理方法有不同的適用范圍,因此在處理缺失數(shù)據(jù)時,要根據(jù)缺失數(shù)據(jù)的自身情況,選擇最佳的處理方法以求達到最好的效果。表2對文中列舉的近三年改進方法從優(yōu)缺點、適用范圍作了進一步對比,更直觀地了解到目前各領域缺失數(shù)據(jù)處理方法的多樣化。

        5 缺失數(shù)據(jù)填充效果的評價

        缺失數(shù)據(jù)填充效果的評價通常在完整數(shù)據(jù)集上進行模擬實驗。首先以完整數(shù)據(jù)集為基礎,制造幾種不同缺失率的缺失數(shù)據(jù)集。然后用不同的填充方法對缺失數(shù)據(jù)集進行填充。最后將原始的完整數(shù)據(jù)集與填充后的數(shù)據(jù)集進行對比,通過常用的評價指標對數(shù)據(jù)填充的效果進行評價。本文從參數(shù)角度和擬合角度兩個指標進行介紹[83]。

        參數(shù)角度用兩種標準衡量填充精度,一是MAD 平均絕對離差,該標準用于衡量真實值和填充值兩者之間的匹配程度,公式如式(3)所示:

        第二個標準是RMSE均方根誤差,衡量填充值和真實值間平均誤差,公式如式(4)所示:

        其中,n為缺失數(shù)值數(shù)目,ri為第i缺失值的真實值,ei第i個缺失值的填充值,i=1,2,…,n,兩個標準的含義,MAD的值越小,表示真實值和填充值之間的離差越小,兩者之間的匹配程度越高,那么填充精度就越高。同理RMSE 的值越小,填充值和真實值間平均誤差越小,填充精度就會越高[84-85]。擬合角度通常是建立坐標軸,用折線圖的形式將真實值和填充值的分布情況做直觀的比較。折線圖不僅可以反映出真實值和填充值的變化趨勢,而且可以從中看出二者的擬合情況對填充效果做出判斷。

        6 缺失數(shù)據(jù)處理方法的總結與展望

        目前對數(shù)據(jù)缺失問題的討論研究已經逐步成熟,對缺失數(shù)據(jù)的處理涉及到各個研究領域,呈現(xiàn)多元化發(fā)展。本文梳理了缺失數(shù)據(jù)的國內外研究背景、原因以及缺失類型。并介紹了各類處理方法,其中詳細闡述了填充方法,對經典的填充方法進行了比較匯總,然后對每類方法的最新改進方法進行了匯總比較,同時從參數(shù)角度與擬合角度介紹了數(shù)據(jù)填充效果的評價常用評價指標。最后作出如下展望:

        隨著網(wǎng)絡科技的發(fā)展,各領域的數(shù)據(jù)采集能力得到提升,數(shù)據(jù)表現(xiàn)出海量式、高維度性、復雜性、動態(tài)性等特征。為了充分發(fā)揮各領域數(shù)據(jù)的價值,缺失數(shù)據(jù)的處理能力變得至關重要。面對大規(guī)模、高維度復雜的缺失數(shù)據(jù),國內外學者對現(xiàn)有方法提出許多改進方法,但也存在許多問題。

        目前的缺失值填補算法主要是針對MAR缺失機制下的數(shù)據(jù)集,使用相關的屬性值來估計缺失數(shù)據(jù)的值,但是這些方法都有其自身的缺點,例如線性回歸算法基于統(tǒng)計概率和最大期望算法,這些算法必須對數(shù)據(jù)集中的數(shù)據(jù)分布有足夠的了解。但是對大多數(shù)數(shù)據(jù)集的理解是有限的。基于貝葉斯網(wǎng)絡和k鄰域算法等數(shù)據(jù)挖掘類的填充方法也有局限性,使用貝葉斯網(wǎng)絡應具有一定的領域知識和數(shù)據(jù)知識,有必要清楚各種屬性之間的依存關系,且直接使用數(shù)據(jù)集訓練貝葉斯網(wǎng)絡非常復雜。而面對缺失率很高的情況,KNN 相關填充算法所使用的K值并不是真正意義上的K值,影響了后續(xù)的填充準確性。

        多重插補是目前處理缺失數(shù)據(jù)的高級方法。標準填補過程建立在MAR 缺失機制的假設基礎上,但是該方法可以處理MCAR 和NMAR 類型的數(shù)據(jù)集,盡管在NMAR缺失機制下填補要復雜得多,多重填補也可根據(jù)來自可用數(shù)據(jù)的信息提供關聯(lián)的無偏和有效估計,即得出的估計類似于從完整數(shù)據(jù)計算得出的估計。但該方法不僅會影響缺失數(shù)據(jù)的變量系數(shù)估計,還會影響其他完整數(shù)據(jù)的變量估計。為了使填補效果更加接近實際情況,還可以在數(shù)據(jù)的來源、變化以及影響因素等多個方面努力,通過提前準備工作盡可能地學習其樣本特征,從而有針對性地填補。此外使用機器學習算法需要大量時間進行填補和獲取總數(shù)據(jù)集。在時間要求很高的應用領域(例如醫(yī)學、金融或制造業(yè))中,可能會感覺到長時間計算所帶來的影響。因此在未來可以利用動態(tài)編程來加快計算時間。隨著數(shù)據(jù)共享時代的到來用于混合特征填補的異構數(shù)據(jù)集,似乎是未來研究的一個有價值的方向。

        猜你喜歡
        均值聚類變量
        抓住不變量解題
        也談分離變量
        基于DBSACN聚類算法的XML文檔聚類
        電子測試(2017年15期)2017-12-18 07:19:27
        均值不等式失效時的解決方法
        均值與方差在生活中的應用
        基于改進的遺傳算法的模糊聚類算法
        SL(3,3n)和SU(3,3n)的第一Cartan不變量
        關于均值有界變差函數(shù)的重要不等式
        一種層次初始的聚類個數(shù)自適應的聚類方法研究
        對偶均值積分的Marcus-Lopes不等式
        亚洲最近中文字幕在线| 久久最黄性生活又爽又黄特级片| 亚洲人成7777影视在线观看| 97福利视频| 日韩有码中文字幕第一页| 日韩激情av不卡在线| 国产亚洲成人精品久久久| 国产免费观看黄av片| 欧美日韩国产精品自在自线| 中文字幕一区二区人妻| 国产成人精品三级91在线影院| 国产96在线 | 免费| 国产特黄1区2区3区4区| 免费人妖一区二区三区| 亚洲天堂丰满人妻av| 婷婷射精av这里只有精品| 丝袜av乱码字幕三级人妻| 狠狠亚洲超碰狼人久久老人| 丁香综合网| 国产精品久久婷婷婷婷| 亚洲色图视频在线观看,| 日本高清一区二区三区在线观看 | 国产白袜脚足j棉袜在线观看| 中文字幕亚洲情99在线| 亚洲av日韩片在线观看| 国产精品毛片av一区二区三区| 日韩精品免费在线视频一区| 久久精品国产99久久久| 中国a级毛片免费观看| 黄色毛片视频免费| 亚洲国产不卡av一区二区三区| 午夜免费观看国产视频| 久久偷看各类wc女厕嘘嘘偷窃| 九九精品国产亚洲av日韩| 国产jizzjizz视频免费看| 亚洲传媒av一区二区三区| 中文字幕人妻久久久中出| 国产中文三级全黄| 人人爽人人爱| 国产成人精品自在线无码| 精品少妇一区二区三区四区|