亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于自表示和投影映射的不完整多視圖聚類

2024-05-15 19:23:13趙翠娜楊有龍

吉林大學(xué)學(xué)報(理學(xué)版) 2024年2期

趙翠娜　楊有龍

摘要：針對不完整多視圖聚類存在的缺陷，提出一種融合自表示和投影映射的統(tǒng)一框架. 首先，利用自表示和樣本存在指示矩陣學(xué)習(xí)一致相似圖，它反映了樣本間的公共相似關(guān)系；其次，利用投影映射將樣本矩陣投影到超球面上，得到公共低維表示；最后，將兩者通過譜表示嵌入在一起，解決了因多視圖數(shù)據(jù)缺失引起的不完整多視圖聚類問題. 該算法在真實數(shù)據(jù)集上的實驗結(jié)果優(yōu)于其他算法，證明了算法的有效性.

關(guān)鍵詞：多視圖聚類；不完整視圖；自表示學(xué)習(xí)；投影映射

中圖分類號： TP391文獻標志碼： A文章編號： 1671-5489（2024）02-0331-08

Incomplete Multi-view Clustering Based on Self-representation and Projection Mapping

ZHAO Cuina， YANG Youlong

（School of Mathematics and Statistics， Xidian University， Xian 710126， China）

Abstract： Aiming at the shortcomings of incomplete multi-view clustering， we? proposed a unified framework that integrated? self-representation and projection mapping. Firstly， self-representation and sample presence indication matrices were used to learn a uniform similarity graph， which reflected the common similarity relationship between samples. Secondly， the sample matrices were projected onto the hypersphere by using projection mapping to obtain a common low-dimensional representation. Finally， the two were embedded together through spectral representation to solve the incomplete multi-view clustering problem caused by missing multi-view data. The experimental results of this algorithm on real datasets are better than other algorithms， which proves the effectiveness of the proposed algorithm.

Keywords： multi-view clustering； incomplete view； self-representation learning； projection mapping

0 引言

由于不同的采集源或?qū)ν晃矬w的不同處理方法，數(shù)據(jù)可被分成多個特征集，這些特征集有不同的物理意義和鑒別能力，因此可將這些不同的特征集視為多視圖數(shù)據(jù). 隨著多視圖數(shù)據(jù)的大量涌現(xiàn)，多視圖聚類（multi-view clustering， MVC）［1-7］考慮了來自多個視圖的互補信息和一致信息，因此在數(shù)據(jù)挖掘和分析領(lǐng)域已引起廣泛關(guān)注.

但由于一些現(xiàn)實因素的影響，多視圖數(shù)據(jù)經(jīng)常是不完整的. 不完整性可能由于隨機缺少特征或缺少樣本的某個視圖特征導(dǎo)致. 例如，在圖像聚類時，獲取到的圖像可能由于遭到遮擋受到破壞，這屬于前者；在多語言文檔聚類中，一種語言可視為文檔的一個視圖，一個文檔可能沒有所有的語言版本，這屬于后者. 本文主要關(guān)注后者，即一個樣本可以在所有或部分視圖上找到. 在不完整多視圖數(shù)據(jù)上進行的聚類問題稱為不完整多視圖聚類（incomplete multi-view clustering， IMC）.

近年來，已有許多方法處理不完整多視圖聚類. 不完整多視圖聚類與多視圖聚類相同，可分為基于核的不完整多視圖聚類、基于矩陣分解的不完整多視圖聚類和基于圖的不完整多視圖聚類，但現(xiàn)有的很多方法已將上述種類融合在同一個框架中，進一步提高學(xué)習(xí)性能. 從視圖缺失處理角度，不完整多視圖聚類可分為基于部分視圖的方法和基于缺失視圖推斷的方法.

基于缺失視圖補充的方法對缺失視圖或缺失視圖轉(zhuǎn)化部分進行填充，占據(jù)了不完整多視圖聚類很大一部分. 例如， Shao等［8］提出了一種集體核學(xué)習(xí)的多視圖補全算法，該算法對于兩個缺失的視圖，利用共享實例的對齊信息，去優(yōu)化不完全核矩陣的信息，最后使用核典型相關(guān)分析完成聚類； Wen等［9］提出了缺失視圖推斷的統(tǒng)一嵌入對齊不完整多視圖聚類，通過將位置重建項引入到矩陣分解和反向圖學(xué)習(xí)中，使所有視圖都能自然對齊； Zhang等［10］提出了基于自適應(yīng)缺失視圖歸算和合作學(xué)習(xí)的端到端不完全多視圖模糊聚類，將缺失視圖植入、隱藏視圖學(xué)習(xí)和聚類整合到同一個框架中，實現(xiàn)了隱藏視圖和可見視圖之間的合作學(xué)習(xí)； Wen等［11］提出了基于不完全多視圖聚類的自適應(yīng)圖補全，通過借用其他視圖的相似性信息恢復(fù)不完整視圖信息，并且最大程度上保留了自身的相似性信息； Liu等［12］提出了具有不完整核的多核k-均值算法，并不直接填充缺失部分，而將缺失部分作為多核聚類過程中需要優(yōu)化的輔助變量，通過填充和聚類的交替迭代達到一個較好的聚類結(jié)果； Gao等［13］提出了不完全多視圖聚類，基于譜理論，將原始數(shù)據(jù)投影到新的空間中，并將各視圖的投影進行整合更新每個視圖中的缺失部分，進而趨向共識.

基于部分視圖的方法通常將視圖信息分為對齊部分和非對齊部分學(xué)習(xí)視圖的潛在表示去聚類. 例如， Li等［14］提出了部分多視圖聚類，利用矩陣分解在兩個視圖的共有部分學(xué)習(xí)相同的隱藏表示，在局部視圖學(xué)習(xí)各自的潛在表示去實現(xiàn)聚類； Shao等［15］提出了基于L2，1正則化加權(quán)非負矩陣分解的多重不完全視圖聚類，通過引入一個值位于0～1間的權(quán)重矩陣在非負矩陣分解中學(xué)習(xí)共識矩陣，使缺失實例的影響低于存在實例，并加入了L2，1正則化使模型對噪聲和異常值具有魯棒性; Zhuge等［16］提出了基于聯(lián)合表示和聚類（joint representation learning and clustering， JRLC）框架的不完全多視圖聚類，提出了帶譜嵌入的JRLC（JRLC-SE）及通過集成非負嵌入和譜嵌入的JRLC（JRL-NS）兩種方法； Wang等［17］提出了譜擾動滿足不完整多視圖數(shù)據(jù)，先將樣本缺失轉(zhuǎn)化為樣本間相似性缺失問題，然后基于譜擾動理論，使用每個視圖的Laplace矩陣進行一致性學(xué)習(xí)，最后使用譜聚類在一致Laplace矩陣上進行聚類.

雖然現(xiàn)有的方法在不完整多視圖聚類方面都取得了較好的效果，但仍存在一些缺點：

1）雖然在聚類過程中完成了缺失數(shù)據(jù)的填充，但不準確的填補可能會使聚類結(jié)果和真實結(jié)果產(chǎn)生較大誤差；

2）利用各視圖上存在的樣本獲取的共識表示并未充分探索視圖間的互補信息，僅學(xué)習(xí)到存在樣本的一致信息；

3）僅探索低維表示的信息，原始樣本矩陣中的公共結(jié)構(gòu)信息被忽略.

基于以上限制，本文提出一種基于自表示和投影映射的不完整多視圖聚類（IMSP）. 首先，在每個視圖上引入樣本存在指示矩陣學(xué)習(xí)每個視圖上的自表示矩陣，既使缺失視圖可以對齊，又充分探索了樣本點之間的公共相似度關(guān)系；其次，在減少缺失樣本權(quán)重影響的情況下，將不同視圖的樣本矩陣投影在一個超球面上獲取共識低維表示；最后，將上述兩部分通過譜表示嵌入在同一個框架中相互交替迭代和更新，使樣本間的公共表示和視圖矩陣的局部表示更具有一致性. 本文使用IMSP-P和IMSP-S兩種算法獲得聚類結(jié)果，進一步提高聚類結(jié)果的質(zhì)量.

3 實驗

3.1 數(shù)據(jù)集

1） BBCSport：該數(shù)據(jù)集包括來自BBC新聞網(wǎng)站的116篇關(guān)于5個主題的新聞文章，每個文檔被劃分為4個文本，對應(yīng)于特征維度為1 991，2 063，2 113和2 158的4個視圖.

2） ORL：是一個從英國劍橋?qū)嶒炇沂占娜四様?shù)據(jù)集， 40個目錄中有400張圖像，分別提取對應(yīng)于3個視圖的3個特征集， 3個特征集的尺寸分別為4 096，3 304和6 750.

3） Wikipedia：該數(shù)據(jù)集用于檢索，包含693個樣本，其中128維圖像特征和10維文本特征被分為10個類別.

4） BUAA：該數(shù)據(jù)集共有1 350張圖像，分為150個類別，每個類別包含視覺光譜和近紅外數(shù)據(jù)，兩個視圖的尺寸均為100.

5） Caltech-7：該數(shù)據(jù)集是Caltech-101的一個子集，包含7個類，其中包含1 474張圖像， 6個視圖分別為48維Gabor特征、 40維WM特征、 254維CENTRIST特征、 1 984維HOG特征、 512維GIST特征和928維LBP特征.

3.2 對比方法

1）缺失視圖推斷的統(tǒng)一嵌入對齊的不完整多視圖聚類（UEAF）［9］：首先，利用誤差矩陣和索引矩陣對缺失數(shù)據(jù)進行填充，得到低維一致表示；其次，通過反向圖正則化得到一致相似度圖矩陣; 最后，利用譜聚類和k均值得到最終聚類結(jié)果.

2）基于不完全多視圖聚類的自適應(yīng)圖補全（AGC-IMC）［11］：該方法采用視圖內(nèi)保持和視圖間推斷的方法恢復(fù)完整的相似圖矩陣，先用自適應(yīng)權(quán)重表示每個視圖的重要性，然后利用恢復(fù)后的完整圖進行一致表示學(xué)習(xí).

3）基于L2，1正則化加權(quán)非負矩陣分解的多重不完全視圖聚類（GPMVC）［23］：在非負矩陣分解中引入加權(quán)指標矩陣，減小缺失樣本相對于已有樣本的影響，并利用協(xié)正則化和L2，1范數(shù)得到一致的低維表示矩陣.

4）基于圖正則化非負矩陣分解的局部多視圖聚類（MIC）［15］：該方法在部分多視圖聚類（PVC）的基礎(chǔ)上，將兩視圖的情況擴展為多視圖，并增加了圖正則化懲罰項，提高了聚類的質(zhì)量.

5）不完整視圖的在線多視圖聚類（OMVC）［24］：針對大規(guī)模多視圖數(shù)據(jù)的處理問題，提出一種逐塊處理多視圖數(shù)據(jù)的方法. 采用加權(quán)非負矩陣分解和L1范數(shù)學(xué)習(xí)一致性特征矩陣.

3.3 評估指標

本文選擇聚類精度（ACC）、歸一化互信息（NMI）和純度（Purity）這3個外部指標作為評價聚類性能的指標. 這3個指標值均位于0～1間，其值越大聚類效果越好.

3.4 實驗結(jié)果與分析

在實驗中，確保每個樣本至少在一個視圖上出現(xiàn)的情況下，在每個視圖上隨機移除10%，30%和50%的樣本. 為進行公平有效的比較，使用上述方法在每個缺失率下隨機生成10組缺失樣本，并將這10次聚類指標的平均值作為最終聚類結(jié)果. 不同算法在真實數(shù)據(jù)集上的聚類性能比較列于表1. 由表1可見，在大部分實驗中，本文算法都優(yōu)于其他算法，尤其是在數(shù)據(jù)集BUAA上，本文算法顯著優(yōu)于次優(yōu)算法. 因為本文算法在減少缺失樣本的影響下將多個視圖的公共相似度關(guān)系和超球面低維表示很好地集成在一個框架中，且互相促進彼此的迭代和更新. 在大多數(shù)情況下， UEAF和AGC-IMC算法的效果顯著優(yōu)于MIC，OMVC和GPMVC算法，這是因為UEAF算法中利用圖正則化學(xué)習(xí)到的誤差矩陣去填補缺失樣本，誤差矩陣即選取n-nv條最能代表存在樣本特征關(guān)系的dv維向量； AGC-IMC算法是利用其余視圖上的相似性關(guān)系的線性組合填補缺失樣本的相似性關(guān)系，在缺失率增加的情況下，甚至在某些數(shù)據(jù)集上效果反而更好；而MIC，OMVC和GPMVC算法只是簡單均值填充，說明合理地填補缺失樣本或相似性關(guān)系也可以達到較好的效果.

雖然在一些數(shù)據(jù)集上， IMSP算法沒有取得最優(yōu)聚類指標，但與最優(yōu)算法相差較小. 在數(shù)據(jù)集BUAA上， IMSP比次優(yōu)方法的聚類精度超出了50%，證明了該算法的優(yōu)越性.

3.5 參數(shù)確定及敏感度分析

在IMSP算法實驗中， 3個超參數(shù)λ1，λ2，λ3需要通過網(wǎng)格搜索最優(yōu)參數(shù)，其中λ1，λ2，λ3的取值范圍均為{10-5，105}. 比較算法的參數(shù)會根據(jù)相應(yīng)的參數(shù)范圍選擇最優(yōu)結(jié)果. 圖1和圖2分別是參數(shù)λ2和λ3與λ1在數(shù)據(jù)集上的敏感性分析. 由圖1和圖2可見，參數(shù)在很大范圍內(nèi)都是相對穩(wěn)定的.

3.6 算法復(fù)雜度分析與收斂性

根據(jù)迭代優(yōu)化算法的更新步驟計算算法的時間復(fù)雜度，變量P，F(xiàn)（v）和Z（v）是時間代價最大的，為O（n3），計算S的時間可以忽略不計，因此總的時間復(fù)雜度為O（n3）.

圖3是在數(shù)據(jù)集Caltech-7缺失率為0.3時的收斂曲線. 由圖3可見，在5次迭代以內(nèi)目標函數(shù)快速下降，有效支持了算法的有效性.

綜上所述，針對不完整多視圖聚類存在的缺陷，本文提出了一種將自表示學(xué)習(xí)和視圖投影相結(jié)合的統(tǒng)一框架去處理不完整多視圖聚類的方法. 首先，在自表示中引入了樣本存在矩陣，使學(xué)習(xí)的自表示系數(shù)自然對齊，在一些限制條件下學(xué)習(xí)相似圖矩陣；其次，每個視圖上的樣本矩陣經(jīng)過投影映射到一個超球體的表面上；最后，前兩者經(jīng)過Laplace正則化組合成一個統(tǒng)一的框架. 該算法以較快的收斂速度迭代和更新，實驗結(jié)果證明了算法的有效性.

參考文獻

［1］CAO X C， ZHANG C Q， FU H Z， et al. Diversity-Induced Multi-view Subspace Clustering ［C］//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway， NJ： IEEE， 2015： 586-594.

［2］KUMAR A， DAUM H. A Co-training Approach for Multi-view Spectral Clustering ［C］//Proceedings of the 28th International Conference on Machine Learning （ICML-11）. Bellevue， WA： Omnipress， 2011： 393-400.

［3］XIA T， TAO D C， MEI T， et al. Multiview Spectral Embedding ［J］. IEEE Transactions on Systems， Man， and Cybernetics， Part B （Cybernetics）， 2010， 40（6）： 1438-1446.

［4］NIE F P， LI J， LI X L. Parameter-Free Auto-weighted Multiple Graph Learning： A Framework for Multiview Clustering and Semi-supervised Classification ［C］//IJCAI. Palo Alto： AAAI Press， 2016： 1881-1887.

［5］BUCAK S S， GUNSEL B. Incremental Subspace Learning via Non-negative Matrix Factorization ［J］. Pattern Recognition， 2009， 42（5）： 788-797.

［6］CHAUDHURI K， KAKADE S M， LIVESCU K， et al. Multi-view Clustering via Canonical Correlation Analysis ［C］//Proceedings of the 26th Annual International Conference on Machine Learning. New York： ACM， 2009： 129-136.

［7］CHEN Y Y， XIAO X L， ZHOU Y C. Multi-view Subspace Clustering via Simultaneously Learning the Representation Tensor and Affinity Matrix ［J］. Pattern Recognition， 2020， 106（5）： 1348-1353.

［8］SHAO W X， SHI X X， PHILIP S Y. Clustering on Multiple Incomplete Datasets via Collective Kernel Learning ［C］//2013 IEEE 13th International Conference on Data Mining. Piscataway， NJ： IEEE， 2013： 1181-1186.

［9］WEN J， ZHANG Z， XU Y， et al. Unified Embedding Alignment with Missing Views Inferring for Incomplete Multi-view Clustering ［C］//Proceedings of the AAAI Conference on Artificial Intelligence. Palo Alto： AAAI Press， 2019： 5393-5400.

［10］ZHANG W， DENG Z H， CHOI K S， et al. End-to-End Incomplete Multiview Fuzzy Clustering with Adaptive Missing View Imputation and Cooperative Learning ［J］. IEEE Transactions on Fuzzy Systems， 2022， 31（5）： 1-14.

［11］WEN J， YAN K， ZHANG Z， et al. Adaptive Graph Completion Based Incomplete Multi-view Clustering ［J］. IEEE Transactions on Multimedia， 2020， 23（2）： 2493-2504.

［12］LIU X W， LI M M， WANG L， et al. Multiple Kernel k-Means with Incomplete Kernels ［J］. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2019， 42（5）： 1191-1204.

［13］GAO H， PENG Y， JIAN S. Incomplete Multi-view Clustering ［C］//International Conference on Intelligent Information Processing. Berlin： Springer， 2016： 245-255.

［14］LI S Y， JIANG Y， ZHOU Z H. Partial Multi-view Clustering ［C］//Proceedings of the AAAI Conference on Artificial Intelligence. Palo Alto： AAAI Press， 2014： 1968-1974.

［15］SHAO W， HE L， YU P S. Multiple Incomplete Views Clustering via Weighted Nonnegative Matrix Factorization with L2，1 Regularization ［C］//Joint European Conference on Machine Learning and Knowledge Discovery in Databases. Berlin： Springer， 2015： 318-334.

［16］ZHUGE W Z， TAO H， LUO T J， et al. Joint Representation Learning and Clustering： A Framework for Grouping Partial Multiview Data ［J］. IEEE Transactions on Knowledge and Data Engineering， 2020， 34（8）： 3826-3840.

［17］WANG H， ZONG L L， LIU B， et al. Spectral Perturbation Meets Incomplete Multi-view Data ［EB/OL］. （2019-03-31）［2023-02-10］. https：//arxiv.org/abs/1906.00098.

［18］ZHANG L， ZHAO Y， ZHU Z F， et al. Multi-view Missing Data Completion ［J］. IEEE Transactions on Knowledge and Data Engineering， 2018， 30（7）： 1296-1309.

［19］LIU J L， TENG S H， FEI L K， et al. A Novel Consensus Learning Approach to Incomplete Multi-view Clustering ［J］. Pattern Recognition， 2021， 115（7）： 1-13.

［20］FU X， HUANG K J， HONG M Y， et al. Scalable and Flexible Multiview MAX-VAR Canonical Correlation Analysis ［J］. IEEE Transactions on Signal Processing， 2017， 65（16）： 4150-4165.

［21］BARTELS R H， STEWART G W. Solution of the Matrix Equation AX+XB=C ［J］. Communications of the ACM， 1972， 15（9）： 820-826.

［22］WANG H， YANG Y， LIU B， et al. A Study of Graph-Based System for Multi-view Clustering ［J］. Knowledge-Based Systems， 2019， 163（5）： 1009-1019.

［23］RAI N， NEGI S， CHAUDHURY S， et al. Partial Multi-view Clustering Using Graph Regularized NMF ［C］//2016 23rd International Conference on Pattern Recognition （ICPR）. Piscataway， NJ： IEEE， 2016： 2192-2197.

［24］SHAO W X， HE L F， LU C T， et al. Online Multi-view Clustering with Incomplete Views ［C］//2016 IEEE International Conference on Big Data. Piscataway， NJ： IEEE， 2016： 1012-1017.

（責(zé)任編輯：韓嘯）

收稿日期： 2023-03-01.

第一作者簡介：趙翠娜（1997—），女，漢族，碩士研究生，從事多視圖聚類的研究， E-mail： 20071212564@stu.xidian.edu.cn.

通信作者簡介：楊有龍（1967—），男，漢族，博士，教授，從事數(shù)據(jù)分類、數(shù)據(jù)聚類融合以及數(shù)據(jù)預(yù)測的研究， E-mail： ylyang@mail.xidian.edu.cn.

基金項目：國家自然科學(xué)基金（批準號： 61573266）和陜西省自然科學(xué)基礎(chǔ)研究計劃項目（批準號： 2021JM-133）.

吉林大學(xué)學(xué)報(理學(xué)版)2024年2期

吉林大學(xué)學(xué)報(理學(xué)版)的其它文章: 基于偏振方向統(tǒng)計特性的目標背景差異特征分析; 基于超像素分割的圖注意力網(wǎng)絡(luò)的高光譜圖像分類; Stackelberg微分博弈下的魯棒最優(yōu)投資-再保險問題; SFSR-Age: 一種基于人臉強語義的年齡識別算法; 基于粗糙集的去噪擴散概率方法; 基于注意力機制語譜圖特征提取的語音識別