亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        聯(lián)合矩陣局部保持投影的近紅外光譜特征提取

        2020-12-04 08:19:30胡善科秦玉華段如敏吳麗君宮會(huì)麗
        光譜學(xué)與光譜分析 2020年12期
        關(guān)鍵詞:降維特征提取煙葉

        胡善科,秦玉華*,段如敏,吳麗君,宮會(huì)麗

        1. 青島科技大學(xué)信息科學(xué)技術(shù)學(xué)院,山東 青島 266061 2. 云南中煙工業(yè)有限責(zé)任公司技術(shù)中心,云南 昆明 650024 3. 中國海洋大學(xué)信息科學(xué)與工程學(xué)院,山東 青島 266100

        引 言

        近紅外光譜技術(shù)具有快速、高效、準(zhǔn)確性好,不損壞樣品等特點(diǎn),目前大量用于石油化工、環(huán)境科學(xué)、食品藥品等領(lǐng)域[1]。 我國是煙草大國,每年的煙葉收購量龐大,但煙葉質(zhì)量受各種因素的影響,需首先經(jīng)過分級(jí)處理才能保證原料的合理利用。 然而目前煙葉分級(jí)主要以人工為主,煙葉分級(jí)存在主觀性強(qiáng)、效率低、誤差大,利用率低等問題[2]。 隨著近紅外光譜技術(shù)的發(fā)展,近年來,它在煙草自動(dòng)分類中得到了很好的應(yīng)用,不僅能獲得煙葉顏色的外觀特征,而且能反映煙葉的內(nèi)在質(zhì)量信息,與人工、圖像視覺提取、數(shù)學(xué)推理等分類技術(shù)相比具有天然優(yōu)勢(shì)[3]。 然而,近紅外光譜數(shù)據(jù)具有高維、頻帶重疊、噪聲大和非線性等特點(diǎn),高維空間的稀疏性與空空間等現(xiàn)象也嚴(yán)重影響了結(jié)果的準(zhǔn)確性,針對(duì)這些問題,對(duì)高維光譜數(shù)據(jù)進(jìn)行與建模相關(guān)性高的特征提取尤為重要[4]。 魯夢(mèng)瑤等提出采用隔點(diǎn)采樣的方法對(duì)光譜數(shù)據(jù)進(jìn)行特征提取, 從而加快收斂速度,但該方法容易丟失重要特征; 何勇等[5]采用主成分分析(principal component analysis,PCA)與神經(jīng)網(wǎng)絡(luò)相結(jié)合的方法對(duì)光譜數(shù)據(jù)進(jìn)行降維,并以PCA變換后的變量作為輸入?yún)?shù),但PCA是一種線性降維方法,無法獲取數(shù)據(jù)的非線性結(jié)構(gòu)特征; 高全學(xué)等[6]提出了改進(jìn)(local preserving projection,LPP)的非線性降維算法, 在特征提取過程中,融合了局部結(jié)構(gòu)和差分信息,但對(duì)稀疏數(shù)據(jù)的效果并不理想。

        針對(duì)上述問題,提出了一種基于聯(lián)合矩陣的局部保持投影(local preserving projection algorithm based on joint matrix, JMLPP)特征提取方法。 首先,通過基于聚類的特征提取[7]剔除類內(nèi)相關(guān)度低、類間相關(guān)度過高的特征,實(shí)現(xiàn)了光譜中噪聲信息的剔除。 其次,采用改進(jìn)的LPP算法對(duì)光譜數(shù)據(jù)進(jìn)行降維,解決了冗余特征和非線性結(jié)構(gòu)的影響。 此外,在LPP算法中引入測(cè)地線距離[8],并對(duì)邊權(quán)矩陣公式進(jìn)行了改進(jìn),解決了樣本稀疏帶來的不確定性。 JMLPP方法實(shí)現(xiàn)了煙葉分級(jí)信息的有效提取,提高了煙葉分級(jí)準(zhǔn)確性。

        1 算法與原理

        1.1 基于聚類的特征提取

        (1)

        (2)

        其中γ2∈[0,1]。 通過調(diào)節(jié)類間參數(shù)γ2找到合適類間閾值之后,篩選出的特征具有較好的離散性。 聯(lián)合類內(nèi)閾值與類間閾值對(duì)光譜數(shù)據(jù)的處理,最后得到篩選出的指標(biāo)特征矩陣。

        分類方式可能有N種,可得到N個(gè)指標(biāo)特征矩陣,考慮到分級(jí)的準(zhǔn)確性,對(duì)得到的N個(gè)指標(biāo)特征矩陣進(jìn)行并集操作得到聯(lián)合矩陣。 選取與煙葉分級(jí)相關(guān)性高的成熟度與部位指標(biāo)進(jìn)行分類,從光譜矩陣中分別選出與成熟度和部位相關(guān)性高的特征,從而得到兩個(gè)特征矩陣,并集產(chǎn)生一個(gè)聯(lián)合矩陣。 通過聯(lián)合矩陣運(yùn)算可減少“維度災(zāi)難”問題,剔除與分類無關(guān)的噪聲信息,提高計(jì)算精度,但仍存在光譜數(shù)據(jù)冗余、非線性等特點(diǎn)。

        1.2 改進(jìn)的局部保持投影算法

        局部保持投影(LPP)算法[9]是由何小飛教授于2003年提出,LPP是一種線性降維和非線性降維相結(jié)合的降維算法。 與PCA算法相比,LPP算法能夠保留全局信息,在線性降維的同時(shí)也保留局部非線性特征。 LPP生成的表現(xiàn)映射可看作LE (laplacian eigenmap)[10]的線性近似,保留了數(shù)據(jù)的局部信息,應(yīng)用在高光譜數(shù)據(jù)和圖像識(shí)別等領(lǐng)域[11]。

        給定m個(gè)在歐式空間RN的N維數(shù)據(jù)樣本X={x1,x2, …,xm},xj∈RN, (j=1, 2, …,m),LPP通過生成最近局部鄰域圖,獲得樣本數(shù)據(jù)的k近鄰域。 LPP的目標(biāo)是將高維空間非線性流行數(shù)據(jù)X投影到低維空間特征映射矩陣Y,找到最優(yōu)轉(zhuǎn)換矩陣Z,其本質(zhì)是Laplacian Eigenmap的線性逼近,如式式(3)

        yj=ZTxj

        (3)

        優(yōu)化目標(biāo)函數(shù)后為

        (4)

        LPP算法為了保證映射后矩陣能最大程度保存數(shù)據(jù)局部結(jié)構(gòu)屬性,使距離較近的樣本xj,xi經(jīng)過映射后仍保持較近距離,引入相似性度量矩陣Wji

        (5)

        其中xj和xi互為k鄰域內(nèi)的點(diǎn),δ是一個(gè)常數(shù),W為實(shí)對(duì)稱矩陣。

        對(duì)優(yōu)化目標(biāo)函數(shù)進(jìn)行變化

        (6)

        s.t.zTXDXTz=1

        (7)

        則最小化目標(biāo)函數(shù)為

        argminzTXLXTz

        (8)

        即求解下式廣義矩陣特征值

        XLXTz=λXDXTz

        (9)

        矩陣XDXT,XLXT是對(duì)稱且半正定的,式(9)得到前h個(gè)最小特征值的特征向量z1,z2, …,zh構(gòu)成最優(yōu)轉(zhuǎn)換矩陣W=(w1,w2, …,wz)。

        LPP算法在保持全局非線性結(jié)構(gòu)的同時(shí)進(jìn)行局部線性降維,但煙葉光譜數(shù)據(jù)具有高冗余、高噪聲、重疊、離散性大等特點(diǎn),且LPP算法單純依據(jù)歐式距離構(gòu)造鄰域圖,無法表達(dá)樣本點(diǎn)間真實(shí)的拓?fù)浣Y(jié)構(gòu),對(duì)煙葉近紅外光譜數(shù)據(jù)的處理存在一定不足。 本文對(duì)LPP算法作了如下改進(jìn): 用測(cè)地線距離代替歐式距離,根據(jù)Dijkstra算法得到的最小距離構(gòu)造鄰域圖,并改進(jìn)邊權(quán)矩陣。 利用貪心算法得到樣本中某一點(diǎn)距離較近的前k個(gè)頂點(diǎn),作為k近鄰域。

        設(shè)構(gòu)造的鄰域圖為:G={V,E,W}, 其中V為樣本頂點(diǎn)集合,E是邊集合,W是邊權(quán)矩陣, 設(shè)測(cè)地線距離為dG(xj,xi),則改進(jìn)后的邊權(quán)矩陣為

        (10)

        在離散性大的高維流形數(shù)據(jù)中,測(cè)地線距離可以較好的表達(dá)兩點(diǎn)之間的實(shí)際距離,使樣本點(diǎn)整體分布趨于均勻,相較于歐式距離具有明顯優(yōu)勢(shì),提高了LPP的降維效果。

        1.3 基于聯(lián)合矩陣的局部保持投影特征提取方法

        基于聯(lián)合矩陣的局部保持投影(JMLPP)特征提取方法具體步驟如下:

        (1)按N種與分類相關(guān)性強(qiáng)的指標(biāo)將樣本分為N種不同的分類方式,每種分類方式篩選k個(gè)特征進(jìn)行基于聚類的特征選擇。

        (2)基于聚類的特征選擇需要挑選類內(nèi)關(guān)聯(lián)性強(qiáng),類間差異性大的特征。 通過調(diào)節(jié)類內(nèi)參數(shù)γ1、類間參數(shù)γ2確定類內(nèi)閾值D(l)與類間閾值D,分別對(duì)N種不同聚類方式篩選光譜特征區(qū)間得到N個(gè)指標(biāo)特征矩陣M1,M2,…,MN,并集操作生成聯(lián)合矩陣M。

        (3)將聯(lián)合矩陣M采用改進(jìn)的LPP算法進(jìn)行降維操作,得到去噪、去冗余的數(shù)據(jù)特征子集Y={y1,y2,…,ym}。

        2 實(shí)驗(yàn)部分

        2.1 樣品制備

        來自某煙草企業(yè)提供的包括B2V,B1F,C4F,C1L,X2L五個(gè)不同等級(jí)共650個(gè)煙葉樣品,其中每個(gè)等級(jí)各130個(gè)。 將樣品放置在60 ℃的烘箱中干燥2 h,磨粉過60目篩,密封平衡8 h后進(jìn)行光譜采集。

        2.2 煙葉光譜采集與預(yù)處理

        使用賽默飛世爾公司Antaris Ⅱ近紅外光譜儀,采用漫反射方式,掃描范圍為3 800~10 000 cm-1,分辨率為8 cm-1, 室溫保持在18~22 ℃,每個(gè)樣品取15 g壓實(shí)后置于光譜儀中掃描3次,計(jì)算其平均值作為最終光譜。

        為了消除基線漂移和噪聲的影響,需要對(duì)采集到的光譜數(shù)據(jù)進(jìn)行預(yù)處理,經(jīng)比較本文采用一階導(dǎo)數(shù)和Savitzky Golay平滑[12]。

        3 結(jié)果與討論

        3.1 聚類參數(shù)、的確定與特征提取

        因影響煙葉分級(jí)的關(guān)鍵指標(biāo)包括成熟度與部位,分別從650個(gè)樣品中按成熟度與部位選取部分特征明顯的煙葉樣品進(jìn)行基于聚類的特征提取。 其中按成熟度分為成熟、尚熟與假熟,共選取了420個(gè)樣品; 按部位分為上部、中部與下部,共選取了450個(gè)樣品。 具體樣品信息劃分如表1所示。

        表1 聚類特征提取實(shí)驗(yàn)樣品劃分Table 1 Sample partition of cluster featureextraction experiment

        首先利用基于聚類的特征提取方法分別從成熟度和部位指標(biāo)篩選與煙葉分級(jí)相關(guān)的特征。 根據(jù)文獻(xiàn)[10]與實(shí)驗(yàn)分析,類內(nèi)參數(shù)γ1、類間參數(shù)γ2的取值分別在0.9~1,0~0.01之間細(xì)化搜索得到最佳取值。 圖1和圖2分別為γ1和γ2按部位和成熟度聚類的搜索結(jié)果。

        可以看出,按部位分組時(shí),類內(nèi)參數(shù)γ1=0.95,類間參數(shù)γ2=0.000 4時(shí)識(shí)別率較好,提取的光譜數(shù)據(jù)特征為983個(gè)。 按成熟度分組時(shí),類內(nèi)參數(shù)γ1=0.95,類間參數(shù)γ2=0.001 4時(shí)識(shí)別率較好,提取的光譜數(shù)據(jù)特征為892個(gè)。 為保證信息提取的完整性,本文將兩個(gè)特征子集進(jìn)行并集操作生成一個(gè)聯(lián)合矩陣,聯(lián)合矩陣的光譜特征從1 560減少到1 102個(gè),較全光譜數(shù)據(jù)減少了28.9%。

        圖1 γ1細(xì)化搜索(a): γ1部位分組; (b): γ1成熟度分組Fig.1 Refined search of γ1(a): γ1 grouped by location; (b): γ1 grouped by maturity

        3.2 降維投影分析

        特征選擇可消除對(duì)分級(jí)無關(guān)的噪聲特征,但篩選出的光譜數(shù)據(jù)仍存在冗余、非線性特征,這將對(duì)煙葉分級(jí)的準(zhǔn)確性產(chǎn)生影響,因此采用改進(jìn)的LPP方法對(duì)提取的特征進(jìn)行進(jìn)一步降維處理,從而消除冗余特征的影響。 圖3—圖5為JMLPP與PCA,LPP的投影對(duì)比。

        圖2 γ2細(xì)化搜索(a): γ2部位分組; (b): γ2成熟度分組Fig.2 Refined search of γ2(a): γ2 grouped by location; (b): γ2 grouped by maturity

        圖3 PCA投影圖Fig.3 PCA projection plot

        圖4 LPP投影圖Fig.4 LPP projection plot

        可以看出,PCA投影空間中樣品混合現(xiàn)象比較嚴(yán)重,各等級(jí)邊界模糊,難以實(shí)現(xiàn)煙葉等級(jí)的區(qū)分。 LPP投影空間中的煙葉等級(jí)分類效果好于PCA,但仍存在較多樣品區(qū)分模糊問題。 而JMLPP投影空間中的煙葉樣品分類清晰,效果明顯好于PCA與LPP,說明該方法有較好的等級(jí)區(qū)分能力。

        圖5 JMLPP投影圖Fig.5 JMLPP projection plot

        3.3 分類結(jié)果對(duì)比分析

        選取75%的樣本做為訓(xùn)練集,25%的樣本做為測(cè)試集,分別采用全譜段與PCA,LPP和JMLPP降維后的特征建立煙葉等級(jí)分類模型。 幾種降維方法選取前6個(gè)成分做為輸入指標(biāo),采用SVM做為分類器。 表2為幾種方法下郴同等級(jí)煙葉分類準(zhǔn)確性對(duì)比,為防止偶然性,準(zhǔn)確率取5次實(shí)驗(yàn)結(jié)果的平均值。

        表2 煙葉分級(jí)結(jié)果對(duì)比Table 2 Comparison of tobacco leaf grading results%

        由表2可以看出,對(duì)于每個(gè)等級(jí)煙葉的分類準(zhǔn)確率,全譜段做為輸入特征效果最差,主要由于高維光譜中存在較多噪聲和冗余信息,無法實(shí)現(xiàn)煙葉分級(jí)信息的有效提取,影響了分類的準(zhǔn)確性。 JMLPP方法煙葉總體分類的準(zhǔn)確率為93.8%,每個(gè)等級(jí)的分類準(zhǔn)確性都明顯高于其他方法,說明該方法能較好的對(duì)煙葉分級(jí)信息進(jìn)行提取,這與前面投影分析結(jié)果一致。

        敏感度與特異度可以分別衡量算法對(duì)于正例與負(fù)例的識(shí)別能力,表3為幾種分級(jí)算法模型對(duì)5種等級(jí)煙葉分類的敏感度與特異度對(duì)比。

        表3 煙葉分級(jí)算法敏感度與特異度對(duì)比Table 3 Comparison of sensitivity and specificity of tobacco leaf classification algorithms

        可以看出,JMLPP算法的敏感度、對(duì)煙葉等級(jí)的識(shí)別錯(cuò)誤率明顯好于其他幾種方法,進(jìn)一步說明JMLPP方法具有較好的魯棒性。

        4 結(jié) 論

        基于聯(lián)合矩陣局部保持投影算法較好的解決了光譜數(shù)據(jù)高維、重疊、高噪聲的問題。 該方法通過聚類實(shí)現(xiàn)了與分類相關(guān)性強(qiáng)的多個(gè)特征子集的提取,并集后得到聯(lián)合矩陣,有效降低了光譜數(shù)據(jù)維度,減少了噪聲干擾。 通過對(duì)LPP算法的改進(jìn),解決了高維數(shù)據(jù)歐氏距離度量不準(zhǔn)確的問題,提高了降維效果。 實(shí)驗(yàn)結(jié)果表明,JMLPP方法對(duì)于煙葉等級(jí)判定具有更好的準(zhǔn)確率與魯棒性,可以作為煙葉分級(jí)的一種新方法。 下一步,需要提高算法效率,拓寬算法的應(yīng)用范圍。

        猜你喜歡
        降維特征提取煙葉
        Three-Body’s epic scale and fiercely guarded fanbase present challenges to adaptations
        降維打擊
        海峽姐妹(2019年12期)2020-01-14 03:24:40
        關(guān)于新形勢(shì)下煙葉生產(chǎn)可持續(xù)發(fā)展的思考
        活力(2019年15期)2019-09-25 07:21:56
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        煙葉主要真菌病害的發(fā)生與防治
        Bagging RCSP腦電特征提取算法
        一種降低造紙法再造煙葉平滑度的方法
        天津造紙(2015年2期)2015-01-04 08:18:13
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        拋物化Navier-Stokes方程的降維仿真模型
        基于特征聯(lián)合和偏最小二乘降維的手勢(shì)識(shí)別
        久久久精品国产亚洲av网麻豆 | 亚洲中文字幕久久精品无码a| 国产午夜精品久久久久免费视| 久久亚洲中文字幕无码| 色系免费一区二区三区| 日本在线观看一区二区三区视频 | 中文字幕精品人妻丝袜| 亚洲中文字幕人妻av在线| 亚洲国产天堂一区二区三区| 老熟妇乱子伦av| 93精91精品国产综合久久香蕉| 精品久久久久久99人妻| 国产成人综合亚洲国产| 日日高潮夜夜爽高清视频| 欧美激情综合色综合啪啪五月 | 国产麻豆精品精东影业av网站| 久久久久99精品成人片试看| 最新国产乱视频伦在线| 国产成人久久精品亚洲小说| 麻豆国产精品伦理视频| 亚洲无av在线中文字幕| 超碰97人人做人人爱少妇| 一区在线播放| 麻豆久久91精品国产| 日产亚洲一区二区三区| 亚洲欧美中文在线观看4| 国产精品女丝袜白丝袜| 国产视频一区二区三区免费| 无码专区人妻系列日韩精品| 毛片24种姿势无遮无拦| 中字亚洲国产精品一区二区| 亚洲综合久久精品少妇av| 婷婷亚洲岛国热超碰中文字幕| 亚洲色在线v中文字幕| 亚洲人成人99网站| 黑丝国产精品一区二区| 日本精品一区二区三区二人码| 日本做受高潮好舒服视频| 国产成人精品三级麻豆 | 免费a级毛片18禁网站app| 丰满岳乱妇在线观看中字无码|