摘要:模式識別(Pattern?recognition)是上世紀(jì)七八十年代的流行術(shù)語。它是對原始數(shù)據(jù)信號(圖像、語音、文字、視頻等)進行分析、解釋,從而得到其類別屬性,甚至對其特征進行選擇,繼而進行判斷分類的過程。模式識別相關(guān)的方法有很多,它們之間有很多的不同,當(dāng)然也和傳統(tǒng)的模式識別方法也有很大出入。
關(guān)鍵詞:模式識別;類別屬性;特征選擇
一、國內(nèi)外研究發(fā)展現(xiàn)狀類比
傳統(tǒng)的模式識別特征選擇策略主要應(yīng)用于單標(biāo)記學(xué)習(xí),單標(biāo)記特征選擇算法有很多,比如說傳統(tǒng)的主成分分析法(principal component analysis ,PCA),以及它的演變算法——快速PCA算法[2,3]。主成分分析(PCA)是一種統(tǒng)計程序, 是作為一個在探索性數(shù)據(jù)分析上的工具而且可以用來預(yù)測模型。它使用一個正交變換將一組觀測可能相關(guān)的變量轉(zhuǎn)化為一組線性不相關(guān)的變量。PCA方法是一種基于圖像轉(zhuǎn)化的分析處理方法,其本質(zhì)則是將一些圖像矩陣所轉(zhuǎn)換成的圖像向量作為原始的特征,不過這樣會導(dǎo)致特征維數(shù)較高,使得特征提取過程變得復(fù)雜;除此之外,在同類內(nèi)部之間,高維的特征向量也會導(dǎo)致散布矩陣奇異性的一些問題。另外,目前比較推崇的逐步判別分析方法(Stepwise Discriminant Analysis,SDA)。判別分析:在研究過程中,研究對象已經(jīng)按某種方法劃分成了若干個類型,當(dāng)?shù)玫揭唤M新的樣本數(shù)據(jù)時,確定這些樣本屬于哪一種類型,這類問題就屬于判別分析,逐步判別分析就是逐步地選擇滿意的變量(特征)來進行判別分析,分析出輸入數(shù)據(jù)樣本類別的一個過程。
近年來,多標(biāo)記學(xué)習(xí)也已經(jīng)獲得來自國內(nèi)外廣泛的關(guān)注,并且已經(jīng)應(yīng)用于大量的研究領(lǐng)域內(nèi)。比如說,在語義場景分類中,一幅圖片可能被注釋為河流和山脈,也許另一幅圖片卻被注釋為沙灘和城市。在音樂情感分類中,一首音樂可能包含不同的情感,比如說喜、怒、哀、樂。在文本分類中,一個文件可能具有幾個不同的主題,例如健康與政府。在生物信息學(xué)領(lǐng)域,每一個基因可能具有一套功能類標(biāo),比如說新陳代謝、轉(zhuǎn)錄以及蛋白質(zhì)合成等。以上所有的這些案例,每個樣本都具一套類標(biāo),均屬于多標(biāo)記學(xué)習(xí)數(shù)據(jù)樣本。多標(biāo)記學(xué)習(xí)的任務(wù)就是為了構(gòu)造出一個多標(biāo)記分類模型,從而為每一個未知的樣本(對象)獲得一個預(yù)測的類標(biāo)子集。
二、與傳統(tǒng)的模式識別類比
多標(biāo)記特征選擇(Multi-label feature selection)相對來說是一個比較全新的研究領(lǐng)域。隨著多標(biāo)記問題的提出,多標(biāo)記學(xué)習(xí)問題也受到越來越多的關(guān)注。根據(jù)調(diào)查發(fā)現(xiàn),在過去的幾年里,大量的多標(biāo)記學(xué)習(xí)方法被提出。這些多標(biāo)記學(xué)習(xí)方法可大致分為兩個主要的類別:(1)、問題轉(zhuǎn)化法(problem transformation);(2)、算法自適應(yīng)方法(algorithm adaptation)。在問題轉(zhuǎn)化方法中,轉(zhuǎn)換的核心就是改造原始的樣本數(shù)據(jù)以便適應(yīng)于現(xiàn)有的學(xué)習(xí)算法。轉(zhuǎn)化的任務(wù)就是將原始的多標(biāo)記學(xué)習(xí)問題轉(zhuǎn)化為一個或若干個相應(yīng)的單標(biāo)記學(xué)習(xí)問題,然后再通過傳統(tǒng)的單標(biāo)記學(xué)習(xí)方法來逐一解決這些問題。幾種著名的問題轉(zhuǎn)換方法,包括二元關(guān)聯(lián)法binary relevance (BR)、類標(biāo)能量子集法label power set (LP)以及它的變體,修剪的問題轉(zhuǎn)換法pruned problem transformation (PPT)。BR方法則是將多類問題轉(zhuǎn)換為L個二類分類問題,再訓(xùn)練出L個二類分類器。那么對于第m個類別來說,所有屬于第m個類的樣本均為正樣本(positive instance),其他的樣本則為負(fù)樣本(negative instance)。但是這類方法有著一個缺點,那就是其忽略了類別之間的關(guān)聯(lián)性。LP方法雖然考慮了類別之間關(guān)聯(lián)性,但是它將具有多個類標(biāo)的樣本作為一組新的類別,這必將會引起一些新的問題:1)隨著新類別的增加,時間消耗越來越大;2)由于只有少量的樣本被歸屬于新的類標(biāo),使其易于趨向過擬合;3)由于新的類標(biāo)只具有少量的樣本數(shù)目,則可能會導(dǎo)致類標(biāo)不平衡的問題。PPT方法,其是LP方法的一個變體,這種方法拋棄了那些只具有少量樣本數(shù)目的新類標(biāo),相對于LP方法而言,這種方法就減輕了LP方法的缺陷,但是卻引發(fā)了一個新的問題,即當(dāng)拋棄那些只有少量樣本的新類標(biāo)的時候,則會導(dǎo)致信息損失。圖2則直觀地展示了BR和LP方法的轉(zhuǎn)換過程。
對于算法自適應(yīng)方法,其主要思想:通過修正一些約束條件,以便擴展某種單標(biāo)記學(xué)算法從而直接處理多標(biāo)記問題,在這期間并不涉及任何的轉(zhuǎn)換過程?;谶@類方法的思想,類標(biāo)排名支持向量機方法(Label rank support vector machine,LaRankSVM), 基于k近鄰的多標(biāo)記學(xué)習(xí)算法(Multi-label based on k-Nearst Neighbor algorithm,ML-kNN), 以及多類標(biāo)樸素貝葉斯特征選擇方法(Multi-label Naive Bayes feature selection method,MLNB)依次被提出。
盡管以上的這些方法的性能都很好,但是他們都是在不同的類標(biāo)中基于同樣的特征空間下來實現(xiàn)學(xué)習(xí)的目的。然而實際上,在多標(biāo)記學(xué)習(xí)算法中,不同的類標(biāo)可能擁有他們自己獨特的特征。例如:當(dāng)判斷一個學(xué)生是計算機系的學(xué)生還是藝術(shù)系的學(xué)生時,可以通過像代碼和藝術(shù)作品這類的特性就可以大致區(qū)別該學(xué)生的身份來;像這類特征就可以看作是對應(yīng)類標(biāo)下的特異性特征(label-specific features)。然而,隨著特異性特征的構(gòu)建,特征維度將會急劇地增加,從而導(dǎo)致在所構(gòu)建的特征空間中有大量的冗余信息存在的現(xiàn)象,尤其是在多樣本分類數(shù)據(jù)集或者是在高維特征空間中,這種現(xiàn)象極為明顯。因此,為了適應(yīng)時代的發(fā)展,為了有效地避免維度災(zāi)難問題,還需要研究人員進行大量的實驗探究,這種情況就刻不容緩了。
參考文獻
[1]楊淑瑩, 張樺. 模式識別與智能計算:MATLAB技術(shù)實現(xiàn)[M]. City: 電子工業(yè)出版社, 2015.
[2]余映, 王斌, 張立明. 一種面向數(shù)據(jù)學(xué)習(xí)的快速PCA算法[J]. 模式識別與人工智能, 2009, 22(4): 000567-000573.
[3]Boutell M R, Luo J, Shen X, et al. Learning multi-label scene classification ☆[J]. Pattern Recognition, 2004, 37(9): 1757-1771.
作者簡介:李星星,1991.4,男,江西九江,廣州工商學(xué)院,無,模式識別與圖像處理