謝秀娟,趙龍蓮
(1.福建農(nóng)林大學(xué) 計(jì)算機(jī)與信息學(xué)院,福建 福州 350002;2.中國農(nóng)業(yè)大學(xué) 信息與電氣工程學(xué)院,北京 100094)
獨(dú)立分量分析(independent component analysis,ICA)是20 世紀(jì)90 年代后期發(fā)展起來的一種盲信源分解的方法[1],它利用數(shù)據(jù)的高階統(tǒng)計(jì)性質(zhì),把信號分解成若干個(gè)互相獨(dú)立或盡可能獨(dú)立的成分,可廣泛應(yīng)用于信號的分離和特征提?。?]。傳統(tǒng)的信源分解技術(shù)主要是建立在主成分分析(principal component analysis,PCA)的基礎(chǔ)上,它根據(jù)方差極大原理,去除向量間的線性相關(guān),找出原始信號中隱含的內(nèi)在信息,目的在于降低向量維數(shù),且分解出的成分都是按照能量的大小排列的。但按照PCA原理分解出來的各成分只能保證不相關(guān),卻不能保證這些成分互相獨(dú)立,這就使得這樣的分解缺少實(shí)際的物理或生理意義,因而降低了所提取特征的典型性。而采用ICA 來分解獨(dú)立成分,再從獨(dú)立成分中提取有關(guān)特征,就可能會更有實(shí)際意義,有助于進(jìn)一步的模式識別[1-2]。
近紅外光譜分析(near infrared spectroscopy,NIRS)技術(shù)具有分析速度快、無污染、低消耗、非破壞性,可以實(shí)現(xiàn)多組分同時(shí)測定等優(yōu)點(diǎn)[3-4],經(jīng)過50 多年的發(fā)展,近紅外光譜分析技術(shù)已廣泛應(yīng)用于農(nóng)業(yè)、食品、藥品、生物、化妝品、紡織、多聚物、有機(jī)物生產(chǎn)等領(lǐng)域。近紅外光譜法作為一種快速分析方法已經(jīng)在眾多領(lǐng)域中被得到應(yīng)用[5-6]。
獨(dú)立分量分析作為一種盲信號分離的有效方法[7-8],在語音識別、圖像處理、生物醫(yī)學(xué)信號處理等領(lǐng)域已經(jīng)被得到廣泛應(yīng)用,如文獻(xiàn)[9]利用ICA 方法從高分辨率訓(xùn)練圖像中提取出獨(dú)立分量進(jìn)行處理,重建結(jié)果提高了人臉辨識;文獻(xiàn)[10]采用獨(dú)立分量分析和小波變換結(jié)合,可更好地降低膈肌肌電信號中的心電干擾;也有應(yīng)用于光譜數(shù)據(jù)分析的報(bào)道,邵詠妮等[11]研究了用ICA 和BP 神經(jīng)網(wǎng)絡(luò)法對稻谷的可見/近紅外光譜進(jìn)行分析,實(shí)現(xiàn)了對稻谷年份的鑒別;畢賢等[12]將ICA 用于紅外光譜定性分析,從混合光譜中分離出獨(dú)立組分的光譜。本文以玉米粉末樣品為例,研究ICA 方法在近紅外光譜定量分析中的應(yīng)用。
玉米樣品的粗蛋白質(zhì)、粗淀粉和粗脂肪含量是衡量玉米營養(yǎng)品質(zhì)的重要指標(biāo),而這些品質(zhì)指標(biāo)的常規(guī)測定方法速度慢、費(fèi)用高,不適于品質(zhì)育種工作中大批量育種材料的鑒定篩選。而近紅外光譜分析技術(shù)的特點(diǎn)使得它特別適合于育種工作中大批樣品的快速品質(zhì)分析。
玉米粉末樣品共90 個(gè)(過40 目篩),由中國農(nóng)科院品種資源所提供。在Bruker Vector 22/N 傅里葉變換近紅外光譜儀上采集其漫反射光譜,光譜范圍為4 000 ~12 000 cm-1,分辨率為8 cm-1,得到的90 個(gè)玉米樣品的近紅外光譜如圖1 所示。
圖1 玉米粉末樣品的近紅外光譜Fig.1 NIRS of corn powder samples
常規(guī)化學(xué)法測得每個(gè)樣品粗淀粉、粗蛋白質(zhì)和粗脂肪的化學(xué)值含量(單位樣品中各成分所占的百分比),其中粗蛋白質(zhì)含量采用國標(biāo)GB5511—1985 測定,粗脂肪含量采用國標(biāo)GB 5512—1985 測定,粗淀粉含量采用國標(biāo)GB 5006—1985 測定。
1.3.1 ICA 理論簡介 設(shè) X= (x1,x2,… xm)是 m 維觀測信號,則 ICA 的數(shù)學(xué)模型表示為:
(1)式中,A 是未知的m ×n 混合矩陣,用來表示信號源到接收陣的傳遞函數(shù);S = (s1,s2,… ,sn)T是分量彼此統(tǒng)計(jì)獨(dú)立的n 維源信號。
ICA 理論認(rèn)為用來觀測的混合數(shù)據(jù)陣X 是由獨(dú)立源S 經(jīng)A 線性加權(quán)獲得。利用觀測信號xi(i =1,2,…,n )的信息來估計(jì)混合矩陣A 和獨(dú)立成分si,需求得一個(gè)分離矩陣W,使之得到最佳分離。
(2)式中W 作用在X 上所獲得的信號Y 是獨(dú)立源S 的最優(yōu)逼近,該分離矩陣為:
因分離后的信號Y 與源信息S 之間的比例因子以及排列對應(yīng)順序無法確定,所以,若分離后的信號之間是相互獨(dú)立的,即認(rèn)為已正確實(shí)現(xiàn)了信號分離[13]。基于負(fù)熵的快速定點(diǎn)迭代FastICA[8]算法如下:
(1)觀測信號X 做去均值和白化預(yù)處理,設(shè)白化后的信號為Z 滿足E (Z ZT)= I。
(2)選擇具有單位方差的初始分離矩陣W。
(3)迭代計(jì)算 E[Z G(W Z)]-E[G(WTZ)]W?W。
(4)歸一化處理分離矩陣 W/||W|| ?W。
(5)判斷W 是否收斂,若收斂則分離出一個(gè)獨(dú)立分量WTZ,否則返回步驟(3)。
(6)判斷混合信號中的多個(gè)獨(dú)立分量是否已經(jīng)全部分離完畢,若沒有則返回(2),否則分離過程結(jié)束。
1.3.2 基于ICA 的定量分析模型的建立 近紅外光譜定量分析模型的建立步驟如下:
(1)隨機(jī)選擇90 個(gè)玉米樣品中的2/3 為建模集,剩余1/3 為預(yù)測集,選取玉米粉末光譜中信息量大且噪聲較小的4 000 ~8 000 cm-1波段作為分析譜區(qū)。
(2)為了消除高頻隨機(jī)噪聲對分析模型的影響,采用中心化和一階導(dǎo)數(shù)法(15 點(diǎn)平滑)對光譜數(shù)據(jù)進(jìn)行預(yù)處理。
(3)采用FastICA 算法提取光譜的獨(dú)立成分,得到玉米粗蛋白質(zhì)、粗淀粉和粗脂肪3 種主要成分的近紅外光譜。
(4)用多元回歸法建立基于ICA 成分的玉米粗蛋白質(zhì)、粗淀粉和粗脂肪含量的定量分析模型。
根據(jù)建模集留一法交叉驗(yàn)證的結(jié)果選取9 個(gè)ICA 成分代表樣品的近紅外光譜,即取9 個(gè)ICA 成分參與建模,再用所建模型對預(yù)測集樣品進(jìn)行預(yù)測。表1 列出了建模集交叉驗(yàn)證的結(jié)果,包括預(yù)測集的化學(xué)值和近紅外預(yù)測值之間的相關(guān)系數(shù),平均絕對誤差和平均相對誤差,同時(shí)列出了用PCA 作為特征提取方法的結(jié)果。
表1 玉米粉末樣品建模集和預(yù)測集定量分析結(jié)果Tab.1 Quantitative analysis results to corn powder samples modeling set and prediction
由表1 結(jié)果可以看出,用PCA 和ICA 2 種方法進(jìn)行特征提取,然后建立判別模型,所得的結(jié)果相當(dāng)。利用ICA 法進(jìn)行特征提取,玉米樣品粗蛋白質(zhì)、粗脂肪和粗淀粉3 種組分建模集和預(yù)測集化學(xué)值和近紅外預(yù)測值間相關(guān)系數(shù)都較高,預(yù)測集的平均相對誤差較低,分別為:2.486 2%,2.766 9%,5.629 8%。
圖2 所示為預(yù)測集樣品粗蛋白質(zhì)、粗脂肪和粗淀粉3 種組分的化學(xué)值和近紅外預(yù)測值的散點(diǎn)圖??梢钥闯觯鲾?shù)據(jù)點(diǎn)很好地分布在回歸線兩側(cè),說明了用常規(guī)化學(xué)法測得的玉米3 種不同成分的化學(xué)值和近紅外預(yù)測值之間的擬合存在較好的線性關(guān)系。
為了進(jìn)一步分析這3 個(gè)模型的性能,因此將模型建模樣品化學(xué)值的分布范圍,平均值和標(biāo)準(zhǔn)差列于表2。
按照國際谷類協(xié)會(ICC)、美國國際谷物化學(xué)家學(xué)會(AACC)等國際分析組織提出的有關(guān)近紅外分析的標(biāo)準(zhǔn),可以用相對偏差值(RPD)來評價(jià)一個(gè)模型的性能。RPD 值定義為建模集化學(xué)值分布的標(biāo)準(zhǔn)差與預(yù)測集標(biāo)準(zhǔn)差的比值。在ICC標(biāo)準(zhǔn)中,判斷模型的應(yīng)用場合為:當(dāng) RPD≥2.5時(shí),模型可應(yīng)用于品質(zhì)育種的篩選;當(dāng)RPD≥5時(shí),模型可應(yīng)用于可以接受的質(zhì)量控制;當(dāng)RPD≥10 時(shí),模型可應(yīng)用于優(yōu)秀的過程控制、研發(fā)與應(yīng)用的研究。本文中玉米粗蛋白質(zhì)、粗淀粉和粗脂肪3 個(gè)模型的RPD 值分別為:RPD粗蛋白質(zhì)=1.523/0.316 2=4.82;RPD粗淀粉= 5.145/1.575 6 =3.27;RPD粗脂肪= 1.445/0.272 5=5.30。三者的 RPD 值都大于 2.5,達(dá)到ICC 規(guī)定的要求,因此該模型至少可以用于品質(zhì)育種的篩選。
圖2 預(yù)測集樣品的化學(xué)值和近紅外預(yù)測值的散點(diǎn)圖Fig.2 Scatter diagram of the chemical value and prediction value by NIRS in prediction set
表2 建模集樣品的化學(xué)值分布Tab.2 Distribution of chemical value of modeling sample set
近紅外光譜分析是一種間接分析技術(shù),其準(zhǔn)確性受樣品的代表性、樣品化學(xué)值的準(zhǔn)確性等因素的影響[14],它的定標(biāo)過程復(fù)雜,需要選取大量具有代表性的樣品進(jìn)行分析[4]。因此,必需擴(kuò)大模型樣品的覆蓋范圍,在模型中不斷添加更多更復(fù)雜的新樣品,以不斷完善模型,為ICA 分析提供更準(zhǔn)確的光譜數(shù)據(jù)。
研究結(jié)果表明,采用FastICA 算法提取玉米樣品近紅外光譜的ICA 成分,并用多元回歸法建立基于ICA 成分的玉米粗蛋白質(zhì)、粗淀粉和粗脂肪含量的定量分析模型,3 種組分建模集和預(yù)測集的化學(xué)值和近紅外預(yù)測值間相關(guān)系數(shù)與PCA 方法分析的結(jié)果相比都較高;進(jìn)一步分析預(yù)測集樣品的化學(xué)值和近紅外預(yù)測值的散點(diǎn)圖,表明常規(guī)化學(xué)法測得的玉米不同成分的化學(xué)值含量和近紅外預(yù)測值擬合存在較好的線性關(guān)系。因此,ICA 方法建立的玉米樣品主要成分的近紅外模型具有較高的預(yù)測準(zhǔn)確度,能滿足一般分析的要求,可將該模型應(yīng)用于玉米育種中大批樣品的品質(zhì)分析中。
[1]楊福生,洪波.獨(dú)立分量分析的原理與應(yīng)用[M].北京:清華大學(xué)出版社,2006:1-88.
[2]Comom P.Independent component analysis:A new con-cept[J].Signal Processing,1994,36(3):287-314.
[3]陸婉珍.現(xiàn)代近紅外光譜分析技術(shù)[M].2 版.北京:中國石化出版社,2006:174-203.
[4]張靈帥,邢軍,王衛(wèi)東,等.近紅外光譜分析技術(shù)進(jìn)展及其在煙草行業(yè)中的應(yīng)用[J].光譜實(shí)驗(yàn)室,2009,26(2):197-201.
[5]嚴(yán)衍祿,趙龍蓮,楊曙明,等.近紅外光譜分析基礎(chǔ)與應(yīng)用[M].北京:中國輕工業(yè)出版社,2005:190-260.
[6]趙龍蓮,張錄達(dá),李軍會,等.小波包熵和Fisher 判別在近紅外光譜法鑒別中藥大黃真?zhèn)沃械膽?yīng)用[J].光譜學(xué)與光譜分析,2008,28(4):817-820.
[7]Hyvarinen A,Oja E.Independent component analysis:Algorithms and application[J].Neural Networks,2000,13(4/5):411-430.
[8]Hyvarinen A.Fast and robust fixed-point algorithm for independent component analysis[J].IEEE Trans on Neural Networks,1999,10(3):626-634.
[9]喬建蘋.基于獨(dú)立分量分析的人臉超分辨率重建[J].計(jì)算機(jī)工程,2011,37(3):180 -182.
[10]伍飛云,楊智,范正平,等.基于獨(dú)立分量分析和小波變換的膈肌肌電信號降噪[J].信號處理,2010,26(10):1532-1538.
[11]邵詠妮,曹芳,何勇.基于獨(dú)立組分分析和BP 神經(jīng)網(wǎng)絡(luò)的可見/近紅外光譜稻谷年份的鑒別[J].紅外與毫米波學(xué)報(bào),2007,26(6):433-436.
[12]畢賢,李通化,吳亮.獨(dú)立組分分析在紅外光譜分析中的應(yīng)用[J].高等學(xué)校化學(xué)學(xué)報(bào),2004,32(6):44-48.
[13]朱佳,袁曉輝.基于獨(dú)立分量分析的說話人自動識別方法的研究[J].儀器儀表與分析監(jiān)測,2011(1):13-16.
[14]孟兆芳,趙龍蓮,程奕,等.近紅外光譜法測定玉米品質(zhì)指標(biāo)的研究[J].華北農(nóng)學(xué)報(bào),2008,23(2):147-150.