亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

模式識別現(xiàn)狀的簡要分析

2019-09-10 17:08:39李星星

學(xué)習(xí)與科普 2019年36期

關(guān)鍵詞：模式識別

摘要：模式識別（Pattern?recognition）是上世紀(jì)七八十年代的流行術(shù)語。它是對原始數(shù)據(jù)信號（圖像、語音、文字、視頻等）進行分析、解釋，從而得到其類別屬性，甚至對其特征進行選擇，繼而進行判斷分類的過程。模式識別相關(guān)的方法有很多，它們之間有很多的不同，當(dāng)然也和傳統(tǒng)的模式識別方法也有很大出入。

關(guān)鍵詞：模式識別;類別屬性;特征選擇

一、國內(nèi)外研究發(fā)展現(xiàn)狀類比

傳統(tǒng)的模式識別特征選擇策略主要應(yīng)用于單標(biāo)記學(xué)習(xí)，單標(biāo)記特征選擇算法有很多，比如說傳統(tǒng)的主成分分析法（principal component analysis ，PCA），以及它的演變算法——快速PCA算法[2，3]。主成分分析（PCA）是一種統(tǒng)計程序，是作為一個在探索性數(shù)據(jù)分析上的工具而且可以用來預(yù)測模型。它使用一個正交變換將一組觀測可能相關(guān)的變量轉(zhuǎn)化為一組線性不相關(guān)的變量。PCA方法是一種基于圖像轉(zhuǎn)化的分析處理方法，其本質(zhì)則是將一些圖像矩陣所轉(zhuǎn)換成的圖像向量作為原始的特征，不過這樣會導(dǎo)致特征維數(shù)較高，使得特征提取過程變得復(fù)雜;除此之外，在同類內(nèi)部之間，高維的特征向量也會導(dǎo)致散布矩陣奇異性的一些問題。另外，目前比較推崇的逐步判別分析方法（Stepwise Discriminant Analysis，SDA）。判別分析：在研究過程中，研究對象已經(jīng)按某種方法劃分成了若干個類型，當(dāng)?shù)玫揭唤M新的樣本數(shù)據(jù)時，確定這些樣本屬于哪一種類型，這類問題就屬于判別分析，逐步判別分析就是逐步地選擇滿意的變量（特征）來進行判別分析，分析出輸入數(shù)據(jù)樣本類別的一個過程。

近年來，多標(biāo)記學(xué)習(xí)也已經(jīng)獲得來自國內(nèi)外廣泛的關(guān)注，并且已經(jīng)應(yīng)用于大量的研究領(lǐng)域內(nèi)。比如說，在語義場景分類中，一幅圖片可能被注釋為河流和山脈，也許另一幅圖片卻被注釋為沙灘和城市。在音樂情感分類中，一首音樂可能包含不同的情感，比如說喜、怒、哀、樂。在文本分類中，一個文件可能具有幾個不同的主題，例如健康與政府。在生物信息學(xué)領(lǐng)域，每一個基因可能具有一套功能類標(biāo)，比如說新陳代謝、轉(zhuǎn)錄以及蛋白質(zhì)合成等。以上所有的這些案例，每個樣本都具一套類標(biāo)，均屬于多標(biāo)記學(xué)習(xí)數(shù)據(jù)樣本。多標(biāo)記學(xué)習(xí)的任務(wù)就是為了構(gòu)造出一個多標(biāo)記分類模型，從而為每一個未知的樣本（對象）獲得一個預(yù)測的類標(biāo)子集。

二、與傳統(tǒng)的模式識別類比

多標(biāo)記特征選擇（Multi-label feature selection）相對來說是一個比較全新的研究領(lǐng)域。隨著多標(biāo)記問題的提出，多標(biāo)記學(xué)習(xí)問題也受到越來越多的關(guān)注。根據(jù)調(diào)查發(fā)現(xiàn)，在過去的幾年里，大量的多標(biāo)記學(xué)習(xí)方法被提出。這些多標(biāo)記學(xué)習(xí)方法可大致分為兩個主要的類別：（1）、問題轉(zhuǎn)化法（problem transformation）;（2）、算法自適應(yīng)方法（algorithm adaptation）。在問題轉(zhuǎn)化方法中，轉(zhuǎn)換的核心就是改造原始的樣本數(shù)據(jù)以便適應(yīng)于現(xiàn)有的學(xué)習(xí)算法。轉(zhuǎn)化的任務(wù)就是將原始的多標(biāo)記學(xué)習(xí)問題轉(zhuǎn)化為一個或若干個相應(yīng)的單標(biāo)記學(xué)習(xí)問題，然后再通過傳統(tǒng)的單標(biāo)記學(xué)習(xí)方法來逐一解決這些問題。幾種著名的問題轉(zhuǎn)換方法，包括二元關(guān)聯(lián)法binary relevance （BR）、類標(biāo)能量子集法label power set （LP）以及它的變體，修剪的問題轉(zhuǎn)換法pruned problem transformation （PPT）。BR方法則是將多類問題轉(zhuǎn)換為L個二類分類問題，再訓(xùn)練出L個二類分類器。那么對于第m個類別來說，所有屬于第m個類的樣本均為正樣本（positive instance），其他的樣本則為負(fù)樣本（negative instance）。但是這類方法有著一個缺點，那就是其忽略了類別之間的關(guān)聯(lián)性。LP方法雖然考慮了類別之間關(guān)聯(lián)性，但是它將具有多個類標(biāo)的樣本作為一組新的類別，這必將會引起一些新的問題：1）隨著新類別的增加，時間消耗越來越大;2）由于只有少量的樣本被歸屬于新的類標(biāo)，使其易于趨向過擬合;3）由于新的類標(biāo)只具有少量的樣本數(shù)目，則可能會導(dǎo)致類標(biāo)不平衡的問題。PPT方法，其是LP方法的一個變體，這種方法拋棄了那些只具有少量樣本數(shù)目的新類標(biāo)，相對于LP方法而言，這種方法就減輕了LP方法的缺陷，但是卻引發(fā)了一個新的問題，即當(dāng)拋棄那些只有少量樣本的新類標(biāo)的時候，則會導(dǎo)致信息損失。圖2則直觀地展示了BR和LP方法的轉(zhuǎn)換過程。

對于算法自適應(yīng)方法，其主要思想：通過修正一些約束條件，以便擴展某種單標(biāo)記學(xué)算法從而直接處理多標(biāo)記問題，在這期間并不涉及任何的轉(zhuǎn)換過程?；谶@類方法的思想，類標(biāo)排名支持向量機方法（Label rank support vector machine，LaRankSVM），基于k近鄰的多標(biāo)記學(xué)習(xí)算法（Multi-label based on k-Nearst Neighbor algorithm，ML-kNN），以及多類標(biāo)樸素貝葉斯特征選擇方法（Multi-label Naive Bayes feature selection method，MLNB）依次被提出。

盡管以上的這些方法的性能都很好，但是他們都是在不同的類標(biāo)中基于同樣的特征空間下來實現(xiàn)學(xué)習(xí)的目的。然而實際上，在多標(biāo)記學(xué)習(xí)算法中，不同的類標(biāo)可能擁有他們自己獨特的特征。例如：當(dāng)判斷一個學(xué)生是計算機系的學(xué)生還是藝術(shù)系的學(xué)生時，可以通過像代碼和藝術(shù)作品這類的特性就可以大致區(qū)別該學(xué)生的身份來;像這類特征就可以看作是對應(yīng)類標(biāo)下的特異性特征（label-specific features）。然而，隨著特異性特征的構(gòu)建，特征維度將會急劇地增加，從而導(dǎo)致在所構(gòu)建的特征空間中有大量的冗余信息存在的現(xiàn)象，尤其是在多樣本分類數(shù)據(jù)集或者是在高維特征空間中，這種現(xiàn)象極為明顯。因此，為了適應(yīng)時代的發(fā)展，為了有效地避免維度災(zāi)難問題，還需要研究人員進行大量的實驗探究，這種情況就刻不容緩了。

參考文獻

[1]楊淑瑩，張樺. 模式識別與智能計算：MATLAB技術(shù)實現(xiàn)[M]. City：電子工業(yè)出版社， 2015.

[2]余映，王斌，張立明. 一種面向數(shù)據(jù)學(xué)習(xí)的快速PCA算法[J]. 模式識別與人工智能， 2009， 22（4）： 000567-000573.

[3]Boutell M R， Luo J， Shen X， et al. Learning multi-label scene classification ☆[J]. Pattern Recognition， 2004， 37（9）： 1757-1771.

作者簡介：李星星，1991.4，男，江西九江，廣州工商學(xué)院，無，模式識別與圖像處理