亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于機(jī)器學(xué)習(xí)的中藥材種類及產(chǎn)地鑒定模型分析

        2023-04-07 03:00:02張曉麗
        關(guān)鍵詞:數(shù)據(jù)量產(chǎn)地中藥材

        張曉麗

        (運(yùn)城師范高等??茖W(xué)校 數(shù)學(xué)與計(jì)算機(jī)系,山西 運(yùn)城 044000)

        中藥材來源廣泛并且品種繁多,但由于其鑒別技術(shù)研究基礎(chǔ)薄弱,技術(shù)尚未成熟,致使中藥材產(chǎn)地與種類的鑒別一直困擾著中藥產(chǎn)業(yè)的健康發(fā)展.郝丹丹等[1]通過采用定性與定量結(jié)合的數(shù)學(xué)分析方法,奠定了道地藥材的客觀標(biāo)準(zhǔn)評(píng)價(jià)體系基礎(chǔ);鄭司浩等[2]認(rèn)為應(yīng)結(jié)合基因組學(xué)與分子生物學(xué)技術(shù)研究中藥材品種和產(chǎn)地的鑒別;劉杰等[3]則認(rèn)為應(yīng)使用DNA遺傳標(biāo)記并結(jié)合組織形態(tài)三維定量分析以及中藥化學(xué)指紋圖譜和生物效價(jià)檢測新技術(shù),綜合分析中藥材的道地性.隨后,陳曉麗等[4]指出應(yīng)以臨床療效為基準(zhǔn),針對(duì)道地藥材的形成及過程影響因素的動(dòng)態(tài)變化,建立道地藥材溯源系統(tǒng)并進(jìn)行標(biāo)準(zhǔn)化種植.

        從上述研究來看,中藥材種類及產(chǎn)地的研究一直備受關(guān)注,且隨著中藥材產(chǎn)業(yè)的不斷發(fā)展,近年來一些新的技術(shù)和方法被廣泛綜合應(yīng)用于中藥材的種類及產(chǎn)地鑒別研究,雖然方法很多,但各有利弊,并沒有哪一種是最佳的.由于不同種類的中藥材會(huì)因其無機(jī)元素的化學(xué)成分和有機(jī)物等因素的差異性,導(dǎo)致藥材在光譜照射下表現(xiàn)出不同的光譜特征,通過對(duì)光譜進(jìn)行區(qū)別比較,便可完成中藥材的種類鑒別.所以,近紅外和中紅外光譜技術(shù)對(duì)中藥質(zhì)量、種類及產(chǎn)地的分析有廣闊的應(yīng)用前景[5-6].因此,本文試圖從大數(shù)據(jù)分析的角度,利用K-Means聚類、人工神經(jīng)網(wǎng)絡(luò)(簡稱ANN)和K近鄰算法(簡稱KNN)分別完成對(duì)不同類別、不同數(shù)據(jù)量和不同光譜特征的中藥材產(chǎn)地及種類的鑒別.

        1 數(shù)據(jù)分類及處理

        本文數(shù)據(jù)源于2021年全國數(shù)學(xué)建模大賽E題中的部分?jǐn)?shù)據(jù).由于中藥材種類及產(chǎn)地鑒別的類別標(biāo)簽較多,為使數(shù)據(jù)分析結(jié)果更加精準(zhǔn)全面,這里將樣本數(shù)據(jù)分成三類.其中一類、二類和三類數(shù)據(jù)對(duì)應(yīng)下文中模型1、模型2和模型3的構(gòu)建分析.具體分類如下.

        一類數(shù)據(jù)(藥材種類):給出425種中藥材的中紅外光譜數(shù)據(jù),需通過藥材編號(hào)、光譜波數(shù)以及吸光度來鑒別不同中藥材的種類.通過描述統(tǒng)計(jì)分析,發(fā)現(xiàn)樣本數(shù)據(jù)中存在3個(gè)異常值(均為數(shù)值偏大),編號(hào)分別是64號(hào)(所有數(shù)值在0.8以上),136號(hào)(所有數(shù)值在0.7以上)和201號(hào)(所有數(shù)值在0.5以上),因異常值對(duì)模型效果會(huì)產(chǎn)生很大影響.因此,建模前需進(jìn)行異常值處理,考慮樣本數(shù)據(jù)充足,這里選擇直接剔除;同時(shí),因數(shù)據(jù)間相似度較高,在此還需對(duì)數(shù)據(jù)進(jìn)行主成分降維,即將多個(gè)變量通過線性變換只選出較少的重要變量來替代原始變量.

        二類數(shù)據(jù)(藥材產(chǎn)地):給出一組不同產(chǎn)地同一種中藥材的673個(gè)中紅外光譜數(shù)據(jù),數(shù)據(jù)量比較充足,但給定的數(shù)據(jù)中有一些中藥材的產(chǎn)地信息缺失,需對(duì)數(shù)據(jù)中藥材產(chǎn)地信息完整的藥材進(jìn)行分類后,再來預(yù)測數(shù)據(jù)中缺失藥材的產(chǎn)地信息.因此,在預(yù)測前需從給定的樣本數(shù)據(jù)中先篩選出產(chǎn)地信息完整的658個(gè)數(shù)據(jù)作為訓(xùn)練集;而后將產(chǎn)地信息缺失的15個(gè)不同編號(hào)的樣本數(shù)據(jù)作為預(yù)測集.為使分類結(jié)果更加精準(zhǔn),在此還需對(duì)數(shù)據(jù)進(jìn)行主成分降維處理.

        三類數(shù)據(jù)(藥材產(chǎn)地):給出兩組不同產(chǎn)地同一種中藥材的255個(gè)中紅外和近紅外光譜數(shù)據(jù),數(shù)據(jù)量較少,但數(shù)據(jù)類別標(biāo)簽較多,且給定的兩組數(shù)據(jù)中都存在10個(gè)不同編號(hào)的藥材產(chǎn)地信息缺失.因此,在分析之前,需在主成分降維基礎(chǔ)上,將樣本數(shù)據(jù)中缺失的這10個(gè)不同編號(hào)的樣本數(shù)據(jù)篩選出來作為預(yù)測數(shù)據(jù),其余數(shù)據(jù)作為訓(xùn)練數(shù)據(jù).

        注意:雖然二類和三類數(shù)據(jù)均為藥材產(chǎn)地?cái)?shù)據(jù),但二類數(shù)據(jù)只有一組中紅外光譜數(shù)據(jù);三類數(shù)據(jù)有中紅外和近紅外兩組光譜數(shù)據(jù),且兩類數(shù)據(jù)量均不相同.

        2 模型算法分析

        結(jié)合上述一類、二類和三類數(shù)據(jù)特點(diǎn),這里采用不同的機(jī)器算法對(duì)其進(jìn)行分析,具體如下.

        模型1常用的聚類算法包括系統(tǒng)聚類和K-Means聚類.通過對(duì)比發(fā)現(xiàn),系統(tǒng)聚類主要采用合并法或分解法,通過Ward法計(jì)算類間距,將距離最近的兩類合并為一個(gè)新類,層層合并,直到類別個(gè)數(shù)為1,結(jié)束聚類.該方法只適用于數(shù)據(jù)量較小的情況,當(dāng)數(shù)據(jù)量較大時(shí),系統(tǒng)聚類速度較慢.而K-Means聚類主要采用層層迭代和不斷修正聚類中心的方法,隨機(jī)選擇初始聚類中心,通過計(jì)算每個(gè)樣本點(diǎn)到各個(gè)聚類中心的距離,再將其分配到距離最近的類別中,使聚類結(jié)果合理穩(wěn)定為止.該方法適合數(shù)據(jù)量較大的模型構(gòu)建,速度快且準(zhǔn)確率高.結(jié)合第一類數(shù)據(jù)特點(diǎn),其數(shù)據(jù)海量,規(guī)模之大,無缺失信息,如果采用系統(tǒng)聚類,會(huì)因計(jì)算量大而導(dǎo)致系統(tǒng)運(yùn)行特別緩慢,甚至很難給出最終結(jié)果.因此,選擇用K-Means聚類算法對(duì)本題進(jìn)行建模求解.

        模型2第二類數(shù)據(jù)總量較大,光譜特征明顯,但數(shù)據(jù)相似度高,且有少量數(shù)據(jù)產(chǎn)地信息缺失.人工神經(jīng)網(wǎng)絡(luò)作為監(jiān)督式學(xué)習(xí)中的一種,在模擬處理復(fù)雜問題方面具有得天獨(dú)厚的優(yōu)勢.由于中藥材產(chǎn)地類別多,數(shù)據(jù)量大且類別間相似度較高,這直接增加了中藥材鑒定的難度.而人工神經(jīng)網(wǎng)絡(luò)擁有大量神經(jīng)元節(jié)點(diǎn),通過對(duì)內(nèi)部連接節(jié)點(diǎn)間的調(diào)整建立信息反饋機(jī)制,形成模式識(shí)別.因此,人工神經(jīng)網(wǎng)絡(luò)可通過模式識(shí)別對(duì)事物特征或現(xiàn)象的各種信息進(jìn)行處理和分析,以便對(duì)事物和現(xiàn)象進(jìn)行識(shí)別、預(yù)測和分類.目前,人工神經(jīng)網(wǎng)絡(luò)在臨床藥學(xué)、中藥鑒定學(xué)和中藥分類等醫(yī)學(xué)領(lǐng)域應(yīng)用廣泛并取得了一些成果[7-8].因此,這里采用人工神經(jīng)網(wǎng)絡(luò)(ANN)對(duì)其進(jìn)行分類預(yù)測.

        模型3第三類數(shù)據(jù)由兩組不同類型的產(chǎn)地?cái)?shù)據(jù)組成,數(shù)據(jù)總量較少,數(shù)據(jù)類別標(biāo)簽較多,且少量數(shù)據(jù)產(chǎn)地信息缺失.此時(shí),若單純使用其中某一組數(shù)據(jù)進(jìn)行分類預(yù)測,其結(jié)果都不會(huì)太準(zhǔn)確.經(jīng)分析,KNN算法更適用于稀有事件的分類預(yù)測問題,它主要是靠周圍有限的鄰近樣本,而不是靠判別類域的方法來確定所屬類別.因此,對(duì)于類域的交叉或重疊較多的待分類樣本數(shù)據(jù)來說,KNN算法較其他方法更為合適[9],且模型預(yù)測準(zhǔn)確率較高.

        3 模型建立與結(jié)果分析

        3.1 藥材種類鑒定模型1

        (i)由于一類數(shù)據(jù)量大,且數(shù)據(jù)間相似度較高,在做K-means聚類之前需先進(jìn)行主成分降維,選出具有代表性的新生變量替代原始變量進(jìn)入下一步的分析.

        表1 主成分降維后新生變量累積貢獻(xiàn)率

        由表1可知,第1個(gè)新生變量的累計(jì)貢獻(xiàn)率達(dá)79.25%,加入第2個(gè)新生變量后的累計(jì)貢獻(xiàn)率達(dá)96.74%,其余新生變量對(duì)模型貢獻(xiàn)率不高.因此,這里只節(jié)選前兩個(gè)變量進(jìn)行下一步的聚類分析.

        (ii)對(duì)選取的前兩個(gè)新生變量進(jìn)行K-Means 聚類分析.

        表2 K-Means聚類分析結(jié)果

        從表2來看,模型中藥材種類被分成3類,第一類有101個(gè)樣本,第二類有189個(gè)樣本,第三類有132個(gè)樣本.藥材種類不同其特征也不相同,第一類藥材的所有變量指標(biāo)范圍在[0.12-0.25AU],對(duì)應(yīng)波段光譜照射下的吸光度在全部藥材中屬于比較居中的一類;第二類藥材的所有變量指標(biāo)范圍在[0.02-0.12AU],對(duì)應(yīng)波段光譜照射下的吸光度是全部藥材指標(biāo)中最小的一類;第三類藥材的所有變量指標(biāo)范圍在[0.25-0.37AU],對(duì)應(yīng)波段光譜照射下的吸光度是全部藥材指標(biāo)中最大的一類.說明第三類藥材的質(zhì)量最好,其次是第一類藥材,質(zhì)量最不好的是第二類.最終利用K-Means聚類完成藥材種類鑒定.

        3.2 藥材產(chǎn)地鑒定模型2

        (i)模型2只給出一組中紅外光譜數(shù)據(jù)且數(shù)據(jù)間相似度較高,為提高模型預(yù)測準(zhǔn)確率,在分析之前需對(duì)樣本數(shù)據(jù)進(jìn)行主成分降維處理,選出新生變量替代原始變量進(jìn)入下一步的分析.

        表3 主成分降維后新生變量累積貢獻(xiàn)率

        由表3可知,第一個(gè)新生變量的累計(jì)貢獻(xiàn)率達(dá)86.13%,加入第二個(gè)新生變量后的累計(jì)貢獻(xiàn)率達(dá)92.61%,加入第三個(gè)新生變量后的累計(jì)貢獻(xiàn)率達(dá)95.32%,其余新生變量對(duì)模型的累計(jì)貢獻(xiàn)率不是很高,因此,節(jié)選前三個(gè)新生變量替代原始變量進(jìn)行下一步的分類預(yù)測.

        (ii)從降維后的新生變量中選取產(chǎn)地信息完善的658個(gè)數(shù)據(jù)進(jìn)行人工神經(jīng)網(wǎng)絡(luò)分析.

        表4 人工神經(jīng)網(wǎng)絡(luò)建模結(jié)果

        由表4可知,藥材產(chǎn)地被分為11類,模型預(yù)測準(zhǔn)確率Accuracy為0.933712接近于1,說明建模效果較好.同時(shí),各類別中模型精確率Precision和召回率Recall這兩個(gè)指標(biāo)的數(shù)值均在0.9左右浮動(dòng),接近于1,這從不同角度描述了模型識(shí)別的精準(zhǔn)度和廣度;綜合評(píng)分F1-score反映了精確率和召回率的綜合情況,且綜合評(píng)分越大說明模型分類效果越好.總之,不論是模型預(yù)測準(zhǔn)確率還是各類別精確率、召回率和綜合評(píng)分都說明了模型分類預(yù)測效果較好,可以直接將需要預(yù)測的藥材編號(hào)數(shù)據(jù)導(dǎo)入模型中,直接給出產(chǎn)地預(yù)測結(jié)果即可.

        (iii)為研究不同產(chǎn)地藥材的特征及差異性.結(jié)合上述分類結(jié)果,從中選出具有代表性且區(qū)分度比較明顯,來自11類不同產(chǎn)地的同一種藥材的中紅外光譜數(shù)據(jù)進(jìn)行對(duì)比分析.

        圖1 某種藥材11類不同產(chǎn)地的中紅外光譜圖

        從圖1可以看出,11類不同產(chǎn)地的中藥材差異性整體比較明顯,由3個(gè)波段構(gòu)成,第一個(gè)波段在[373~621(cm-1)],第二個(gè)波段在[993~1223(cm-1)],第三個(gè)波段在[2357~3101(cm-1)].整體來看,產(chǎn)地5和產(chǎn)地8在對(duì)應(yīng)波段下的吸光度都是最高的屬于一等產(chǎn)地;產(chǎn)地10和產(chǎn)地11在對(duì)應(yīng)波段下的吸光度是所有產(chǎn)地中最低的一類,屬于三等產(chǎn)地;剩余產(chǎn)地比較容易區(qū)分,屬于二等產(chǎn)地.說明模型分類效果良好,不同產(chǎn)地同一種藥材區(qū)分明顯.

        3.3 藥材產(chǎn)地鑒定模型3

        (1)模型3給出了中紅外和近紅外兩組光譜數(shù)據(jù),在建模前我們先對(duì)這兩組數(shù)據(jù)的特征及差異性進(jìn)行圖示對(duì)比分析.

        圖2 某種中藥材17類不同產(chǎn)地中紅外光譜圖

        圖3 某種中藥材17類不同產(chǎn)地近紅外光譜圖

        從圖2和圖3可知,中紅外和近紅外兩組光譜下不同產(chǎn)地同一種藥材的吸光度是不同的.近紅外光譜吸光度趨勢基本趨同,重復(fù)疊加現(xiàn)象明顯,數(shù)據(jù)間區(qū)分度較低,不適用于藥材產(chǎn)地類別鑒定;而中紅外光譜吸光度離散程度大,光譜距離遠(yuǎn),數(shù)據(jù)區(qū)分度較高,不同產(chǎn)地同一藥材差異性顯著.因此,直接選用中紅外光譜數(shù)據(jù)來完成接下來的建模分析.

        (ii)因模型3數(shù)據(jù)量少,類別標(biāo)簽多.因此建模前需進(jìn)行主成分降維,選出新生變量.

        表5 主成分降維后新生變量累積貢獻(xiàn)率

        由表5可知,第一個(gè)新生變量的累計(jì)貢獻(xiàn)率達(dá)82.53%,加入第二個(gè)新生變量后的累計(jì)貢獻(xiàn)率達(dá)88.56%,加入第三個(gè)新生變量后的累計(jì)貢獻(xiàn)率達(dá)93.87%,其余新生變量對(duì)模型的累計(jì)貢獻(xiàn)率不是很高,因此,只節(jié)選前三個(gè)新生變量進(jìn)行下一步的KNN分類.

        (iii)從降維后的新生變量中選取產(chǎn)地信息完善的245個(gè)數(shù)據(jù)進(jìn)行KNN分類.

        表6 中紅外光譜數(shù)據(jù)KNN分類結(jié)果

        由表6可知,中藥材產(chǎn)地被分為17類,類別間分類個(gè)數(shù)相差不大,說明來源于不同產(chǎn)地的同一藥材的樣本數(shù)據(jù)量均衡,結(jié)合上圖2分析結(jié)果,說明不同產(chǎn)地的同一種中藥材之間的差異性相對(duì)比較顯著,模型分類效果很好,類別清晰,可直接將需要預(yù)測的藥材編號(hào)數(shù)據(jù)導(dǎo)入模型中,直接給出產(chǎn)地預(yù)測結(jié)果.

        4 結(jié)束語

        雖然中藥材的近紅外和中紅外不同光譜特征可以用于鑒別中藥材種類及產(chǎn)地,但站在數(shù)據(jù)分析的角度,如果近紅外和中紅外光譜數(shù)據(jù)類別和數(shù)據(jù)量不同,則選取的模型分析算法也不同.因此,對(duì)藥材種類鑒定時(shí),如果樣本數(shù)據(jù)量充足、無缺失值且類別標(biāo)簽較少,可直接利用K-means聚類來完成藥材種類鑒定.對(duì)藥材產(chǎn)地鑒定時(shí),如果樣本數(shù)據(jù)只有一組中紅外或近紅外光譜數(shù)據(jù),樣本數(shù)據(jù)量充足,但數(shù)據(jù)間相似度較高,數(shù)據(jù)信息存在缺失,可將其視為一個(gè)監(jiān)督式的模型分類預(yù)測問題,在主成分降維的基礎(chǔ)上通過人工神經(jīng)網(wǎng)絡(luò)分析,判別模型預(yù)測的準(zhǔn)確率,實(shí)現(xiàn)藥材產(chǎn)地鑒定;如果樣本數(shù)據(jù)有中紅外和近紅外兩組光譜數(shù)據(jù),數(shù)據(jù)類別標(biāo)簽較多但數(shù)據(jù)量較少,數(shù)據(jù)信息存在缺失時(shí),應(yīng)先對(duì)藥材的中紅外和近紅外兩組光譜數(shù)據(jù)特征及差異性進(jìn)行圖示對(duì)比分析,再通過主成分降維進(jìn)行KNN數(shù)據(jù)分析,結(jié)合圖示分析和數(shù)據(jù)分析結(jié)果完成藥材產(chǎn)地鑒定.

        猜你喜歡
        數(shù)據(jù)量產(chǎn)地中藥材
        夏季中藥材田間管理做好這五點(diǎn)
        中藥材促農(nóng)增收
        基于大數(shù)據(jù)量的初至層析成像算法優(yōu)化
        計(jì)算Lyapunov指數(shù)的模糊C均值聚類小數(shù)據(jù)量法
        高刷新率不容易顯示器需求與接口標(biāo)準(zhǔn)帶寬
        宋四清:種植中藥材 托起致富夢
        寬帶信號(hào)采集與大數(shù)據(jù)量傳輸系統(tǒng)設(shè)計(jì)與研究
        電子制作(2019年13期)2020-01-14 03:15:18
        警惕“洗產(chǎn)地”暗礁
        中國外匯(2019年22期)2019-05-21 03:14:56
        食物離產(chǎn)地越遠(yuǎn)越好
        測定不同產(chǎn)地寬筋藤中5種重金屬
        中成藥(2018年8期)2018-08-29 01:28:16
        久久国产亚洲高清观看5388| 中国妇女做爰视频| 国产成人av大片大片在线播放| 亚洲福利视频一区| 久久精品国产亚洲av热九九热| 国产无套一区二区三区久久| 国产精品妇女一二三区| 黄色成人网站免费无码av| 久久99久久99精品观看| 青青草免费手机直播视频| 国产乱对白刺激视频| 国产午夜福利精品久久2021| 亚洲色无码中文字幕| 精彩亚洲一区二区三区| 天天噜日日噜狠狠噜免费| 久久综合第一页无码| 久久这里只有精品黄色| 森中文字幕一区二区三区免费| 欧美黑人xxxx又粗又长| 无码电影在线观看一区二区三区| 成人免费播放片高清在线观看| 久久精品国产亚洲夜色av网站| 深夜福利小视频在线观看| 成人国产在线观看高清不卡| 在线视频一区二区国产| 日本最新免费二区| 99国产超薄丝袜足j在线观看| 亚洲一区二区三区美女av| 国产精品无码翘臀在线观看| 久久精品99久久香蕉国产色戒| 在线毛片一区二区不卡视频| 久久久亚洲av成人乱码| 亚洲乱亚洲乱妇| 伊人色网站| 久久久国产精品三级av| 国产成人精品久久亚洲高清不卡| 精品久久久久久久中文字幕| 国产人妖在线免费观看| 大奶白浆视频在线观看| 中文字幕人妻丝袜乱一区三区| 青榴社区国产精品|