丁學(xué)利 秦夢(mèng)潔 王靜
【摘? ?要】? ?以中藥材的中紅外光譜數(shù)據(jù)為聚類(lèi)分析對(duì)象,通過(guò)提取影響藥材類(lèi)別的關(guān)鍵特征波數(shù),采用主成分分析結(jié)合模糊C均值聚類(lèi)建立了中藥材的鑒別模型。該模型可實(shí)現(xiàn)對(duì)中藥材樣本數(shù)據(jù)的快速鑒別,為中藥材鑒別問(wèn)題的研究提供借鑒。
【關(guān)鍵詞】? ?模糊C均值聚類(lèi);主成分分析;中藥材鑒別
Identification of Traditional Chinese Medicine Based on
Fuzzy C-Means Clustering
Ding Xueli, Qin Mengjie, Wang Jing
(Fuyang Institute of Technology, Fuyang 236031, China)
【Abstract】? ? Taking the mid infrared spectrum data of traditional Chinese medicine as the cluster analysis object, the identification model of traditional Chinese medicine was established by extracting the key characteristic wave number affecting the category of traditional Chinese medicine and using principal component analysis combined with fuzzy C-means clustering. This model can not only realize the rapid identification of traditional Chinese medicine sample data, but also provide reference for the research of practical traditional Chinese medicine identification.
【Key words】? ? ?fuzzy C-means clustering; principal component analysis; identification of traditional Chinese medicine
〔中圖分類(lèi)號(hào)〕? O212? ? ? ? ? ? ? ?〔文獻(xiàn)標(biāo)識(shí)碼〕? A ? ? ? ? ? ? ?〔文章編號(hào)〕 1674 - 3229(2022)02- 0013 - 06
0? ? ?引言
我國(guó)的中藥材資源豐富,種類(lèi)繁多,品種分布廣泛。不同種類(lèi)的中藥材特征差異顯著,但同一種藥材不同產(chǎn)地的差異不太顯著。目前對(duì)中藥材進(jìn)行鑒別分析一般采用近紅外或中紅外光譜分析方法[1-2]?;诩t外光譜特征對(duì)中藥材進(jìn)行鑒別,一般要先對(duì)光譜數(shù)據(jù)進(jìn)行降維處理,然后再聚類(lèi)分析。光譜數(shù)據(jù)特征波數(shù)提取的方法有導(dǎo)數(shù)法、平滑法、傅里葉變換法、主成分分析法、偏最小二乘法等[2]。對(duì)中藥材分類(lèi)識(shí)別的方法一般使用K均值聚類(lèi)法、層次聚類(lèi)法、支持向量機(jī)和人工神經(jīng)網(wǎng)絡(luò)等[3-4]。本研究選取2021年高教社杯全國(guó)大學(xué)生數(shù)學(xué)建模競(jìng)賽[5]E題問(wèn)題一的數(shù)據(jù),解決關(guān)于425個(gè)中藥材樣本的鑒別問(wèn)題。這是一個(gè)無(wú)監(jiān)督的聚類(lèi)問(wèn)題,由于中藥材樣本之間的相似性非常高,且數(shù)據(jù)量大,若單純使用聚類(lèi)算法較難實(shí)現(xiàn)對(duì)樣本數(shù)據(jù)的準(zhǔn)確分類(lèi),因此本文運(yùn)用主成分分析法結(jié)合模糊C均值聚類(lèi)建立中藥材的鑒別模型,為識(shí)別中藥材提供快速有效的鑒別方法。
1? ? ?數(shù)據(jù)處理與分析
1.1? ?異常數(shù)據(jù)處理
本研究使用的數(shù)據(jù)來(lái)源于2021年全國(guó)大學(xué)生數(shù)學(xué)建模競(jìng)賽E題的附件1,如表1所示。表1中No列為藥材編號(hào),其余各列第一行的數(shù)據(jù)為光譜的波數(shù)(單位cm-1),第二行以后的數(shù)據(jù)表示該行編號(hào)的藥材在對(duì)應(yīng)波段光譜照射下的吸光度(單位AU)。表1中一共有425個(gè)樣本,3348個(gè)波段的中紅外光譜數(shù)據(jù),其光譜圖如圖1(a)所示。從圖1(a)看出,有3條光譜線(xiàn)(編號(hào)為64、136和201)的吸光度值明顯偏高,說(shuō)明數(shù)據(jù)異常,可以剔除。剔除異常值之后的光譜圖如圖1(b)所示。下面將以圖1(b)中422個(gè)樣本數(shù)據(jù)作為研究對(duì)象。
1.2? ?相關(guān)性分析
由圖1(b)知,各種藥材之間具有一定的相關(guān)性。對(duì)剩下的422組數(shù)據(jù)進(jìn)行相關(guān)性分析,得出各藥材之間的相關(guān)性系數(shù)如表2所示。因篇幅有限,此處僅展示部分?jǐn)?shù)據(jù)。從表2可看出,有些藥材編號(hào)之間的相關(guān)系數(shù)達(dá)到0.98以上,說(shuō)明具有較強(qiáng)的相關(guān)性,可以認(rèn)為是同種類(lèi)型的藥材;有些藥材編號(hào)之間的相關(guān)系數(shù)在0.40以下,說(shuō)明相關(guān)性較弱,可以認(rèn)為不是同種類(lèi)型的藥材。
1.3? ?光譜特征數(shù)據(jù)的提取
從表2可看出,樣本之間存在一定的相關(guān)性,由于數(shù)據(jù)量大,不能用全部數(shù)據(jù)(會(huì)造成數(shù)據(jù)冗余)進(jìn)行研究,這就需要對(duì)樣本的光譜特征進(jìn)行提取。從圖1(b)可看出,在光譜的峰值附近,不同樣本的吸光度差異顯著,如在[652,1800]cm-1的光譜波數(shù)段;而在波數(shù)段[1800,2760]cm-1和[3700,3999]cm-1范圍內(nèi)不同樣本的吸光度差異較小。據(jù)此可利用吸光度差異明顯的波數(shù)段作為研究對(duì)象。5831760F-8CE3-4ADD-9B8A-586364E6592E
刻畫(huà)數(shù)據(jù)的離散程度可利用極差、四分位差和標(biāo)準(zhǔn)差等。下面通過(guò)計(jì)算每列波數(shù)下吸光度的極差、四分位差和標(biāo)準(zhǔn)差,取其極值處所在波數(shù)的子區(qū)間為特征波段,如圖2所示。最終提取了120列特征波數(shù)對(duì)應(yīng)的吸光度的數(shù)據(jù),大大降低了數(shù)據(jù)的維數(shù)(原先是3348列數(shù)據(jù))。
2? ? ?基于特征波數(shù)段數(shù)據(jù)的聚類(lèi)模型
由于選取的特征波數(shù)段有120列,數(shù)據(jù)維數(shù)仍然很高。為了更好地對(duì)樣本數(shù)據(jù)進(jìn)行分類(lèi),本文采用主成分分析+模糊C均值聚類(lèi)的建模方法進(jìn)行聚類(lèi)分析,即先利用主成分分析進(jìn)一步降維,然后再進(jìn)行聚類(lèi)分析。
2.1? ?主成分分析
主成分分析(PCA)[6-7]是一種重要的降維方法,其基本思想是借助一個(gè)正交變換,將具有一定相關(guān)性的原變量重新組合成一組線(xiàn)性無(wú)關(guān)的綜合變量,同時(shí)根據(jù)條件從中選取少數(shù)幾個(gè)綜合變量盡可能多地反映原來(lái)變量的信息,從而實(shí)現(xiàn)降維目的。具體計(jì)算步驟如下:
2.2? ?模糊C均值聚類(lèi)
3? ? ?結(jié)果分析
3.1? ?主成分分析結(jié)果
以選取的120列特征波數(shù)作為觀測(cè)指標(biāo),進(jìn)行主成分分析,得到解釋的總方差如表3所示。表3中,第2和第3個(gè)主成分的累積貢獻(xiàn)率分別為94.6293%和98.5520%。考慮到數(shù)據(jù)的復(fù)雜性,本文選取前3個(gè)主成分進(jìn)行分析。
根據(jù)公式(3)可分別計(jì)算出每個(gè)主成分的得分,如表4所示。表4中,F(xiàn)1、F2、F3分別表示第一、第二和第三主成分得分。主成分的綜合得分F可由F1、F2、F3與每個(gè)主成分的方差貢獻(xiàn)率構(gòu)成的線(xiàn)性組合計(jì)算得到:
F=78.7052%F1+15.9241%F2+3.9228%F3?(7)
圖3是前2個(gè)主成分得分和前3個(gè)主成分得分圖。根據(jù)圖3結(jié)果,可考慮把422個(gè)樣本數(shù)據(jù)分為3類(lèi)或4類(lèi)。
3.2? ?模糊C均值聚類(lèi)結(jié)果
下面以主成分的綜合得分F作為新的變量進(jìn)行模糊C均值聚類(lèi)。根據(jù)圖3的提示,可考慮聚成3類(lèi)或4類(lèi)。為了更好地確定聚類(lèi)數(shù),計(jì)算不同類(lèi)別對(duì)應(yīng)的平均輪廓值和輪廓值分布圖,如圖4和圖5所示。在圖4中,類(lèi)別數(shù)為2時(shí),平均輪廓值最大,但分類(lèi)太籠統(tǒng)。除類(lèi)別數(shù)2之外,類(lèi)別數(shù)為3時(shí)的平均輪廓值最大,說(shuō)明類(lèi)別數(shù)為3時(shí)較合適。另外從輪廓值的分布(圖5)來(lái)看,分成2類(lèi)、4類(lèi)和5類(lèi)時(shí)的輪廓值分布都出現(xiàn)負(fù)值,而分成3類(lèi)時(shí)輪廓值分布都是正值。綜合考慮圖4和圖5,可確定分成3類(lèi)較合適。
設(shè)置分類(lèi)數(shù)為3,利用模糊C均值聚類(lèi)可得到圖6所示的聚類(lèi)結(jié)果。從圖6可看出,聚類(lèi)結(jié)果較為理想。第1類(lèi)有193個(gè)樣本,第2類(lèi)有118個(gè)樣本,第3類(lèi)有111個(gè)樣本,具體聚類(lèi)結(jié)果,如表5所示。
為了更好地看出每類(lèi)的聚類(lèi)效果,繪制了如圖7所示的3類(lèi)光譜圖。從圖7可看出,第1類(lèi)的主峰最大幅值在0.2 AU附近;第2類(lèi)的主峰最大幅值在0.4 AU附近;第3類(lèi)的主峰最大幅值在0.3 AU附近。每一類(lèi)波形的幅值、峰的個(gè)數(shù)和形狀等差異明顯,說(shuō)明每個(gè)樣本都較好地進(jìn)行了劃分。
4? ? ?結(jié)語(yǔ)
中藥材的鑒別是一個(gè)無(wú)監(jiān)督的聚類(lèi)問(wèn)題,雖然這類(lèi)建模問(wèn)題的解決方法較多,但該問(wèn)題數(shù)據(jù)量大,數(shù)據(jù)冗余性高,若單獨(dú)使用聚類(lèi)方法,較難給出合理的分類(lèi)結(jié)果。本文首先根據(jù)光譜特征,利用極差、四分位差和標(biāo)準(zhǔn)差等實(shí)現(xiàn)對(duì)光譜特征數(shù)據(jù)的提取,其次應(yīng)用主成分分析進(jìn)一步降維,最后利用模糊C均值聚類(lèi)給出合理的分類(lèi)結(jié)果。該模型對(duì)中藥材鑒別工作具有很好的理論指導(dǎo)和實(shí)際應(yīng)用價(jià)值。
[參考文獻(xiàn)]
[1] 汪方舟.近紅外光譜建模法在中藥質(zhì)檢中的應(yīng)用[J].山東農(nóng)業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2018,49(5):787-790.
[2] 周昭露,李杰,黃生權(quán),等.近紅外光譜技術(shù)在中藥質(zhì)量控制應(yīng)用中的化學(xué)計(jì)量學(xué)建模:綜述和展望[J].化工進(jìn)展,2016,35(6):1627-1645.
[3] 周婷,付紹兵,謝慧敏,等.近紅外光譜在川貝母及非川貝母品種鑒別中的應(yīng)用[J].華西藥學(xué)雜志,2021,36(2):193-197.
[4] 趙艷麗,張霽,袁天軍. 近紅外光譜快速鑒別不同產(chǎn)地藥用植物重樓的方法研究[J].光譜學(xué)與光譜分析,2014,34(7):1831-1835.
[5] 2021高教社杯全國(guó)大學(xué)生數(shù)學(xué)建模競(jìng)賽賽題[EB/OL].http://www.mcm.edu.cn/html_cn/node/35bd4883c276afe39d
89.html,2021-10-01.
[6] 丁學(xué)利,曹文康,李玉葉.基于主成分回歸的顏色與物質(zhì)濃度辨識(shí)的研究[J].廊坊師范學(xué)院學(xué)報(bào)(自然科學(xué)版),2018,18(1):5-7+11.
[7] 彭文松.主成分聚類(lèi)分析在廣東省區(qū)域經(jīng)濟(jì)綜合評(píng)價(jià)中的應(yīng)用[J].廊坊師范學(xué)院學(xué)報(bào)(自然科學(xué)版),2013,13(1):61-65.
[8] 楊桂元.數(shù)學(xué)建模[M].上海:上海財(cái)經(jīng)大學(xué)出版社,2015:112-117.
[9] 武艷,張莉莉,蔣志勛. 應(yīng)用模糊C 均值聚類(lèi)法判別同調(diào)機(jī)群正確性研究[J].廊坊師范學(xué)院學(xué)報(bào)(自然科學(xué)版),2011,11(4):43-45.5831760F-8CE3-4ADD-9B8A-586364E6592E