姚澤遠,卜原玲,韓 偉
(華東理工大學 藥學院 制藥工程與過程化學教育部工程研究中心 上海市新藥設計重點實驗室,上海 200237)
靈芝三萜作為靈芝的化學成分之一,以較少的含量在多個方面都呈現了較強的藥理活性[1-4]。目前,對靈芝三萜類化合物的研究主要集中在藥理藥效或化學成分等方面[5]。對靈芝三萜的提取大多仍是使用傳統(tǒng)的熱回流提取,該法存在耗時長、能耗高、有機溶劑用量大等缺點[6]。超聲波輔助提取則憑借超聲波在提取過程中產生的空化效應和機械效應等,有著提取時間短、提取溫度低、提取率高等優(yōu)點[7],本文將通過單因素實驗確定超聲波輔助提取工藝各因素的中心點和范圍,采用篩選實驗設計Plackett-Burman(PB)篩選出對靈芝總三萜得率影響顯著的因素,并采用響應面法對篩選出來的因素通過建立模型進行工藝優(yōu)化。
深度神經網絡(DNN)作為具有多個隱藏層的判別模型,能夠為復雜的非線性關系建立模型,從更高的抽象層次發(fā)現數據之間的潛在聯系,可用于模擬非常復雜的實驗條件和參數[8],在計算視覺、工程造價、生物醫(yī)學等領域都得到廣泛認可[9-12]。蒙特卡洛算法是一種依靠重復隨機抽樣和統(tǒng)計分析來計算結果的隨機方法,特別適用于一些解析法求解非常困難甚至不可能求解的問題,同時擁有設置參數少、性能優(yōu)等優(yōu)點,近年來在迭代和優(yōu)化領域均有著良好的表現[13]。
本文基于單因素、PB、Box-Behnken響應面實驗得到的數據,建立一種全新的基于深度神經網絡的優(yōu)化模型,結合蒙特卡洛算法對建立的模型進行尋優(yōu)以確定最佳工藝參數,并與實驗優(yōu)化結果進行比較。
龍芝2號靈芝子實體由上海農業(yè)科學院食用菌研究所提供。
齊墩果酸標準品(質量分數>97%),北京沃凱生物科技有限公司;高氯酸、無水乙醇、香草醛、乙酸,分析純,上海泰坦科技股份有限公司。
UV-1901PC型紫外-可見分光光度計,上海亞研電子科技有限公司;KH-600KDB型高功率數控超聲波清洗器,昆山禾創(chuàng)超聲儀器有限公司;RE-2010型旋轉蒸發(fā)器,上海予華儀器設備有限公司。
文中使用了Design-Expert 12.0和Origin 2018軟件,還使用了PyCharm的Python version 3.6深度學習程序,包括:Pytorch框架,Pandas和NumPy數值處理庫,SciPy和Statsmodels統(tǒng)計分析庫,Matplotlib和Seaborn可視化工具。
采用香草醛-冰醋酸顯色法[14-15]測定總三萜的含量。將齊墩果酸作為標準品配制成0.105 mg/mL的標準品溶液,與香草醛質量分數為5%的冰醋酸溶液在酸性環(huán)境下進行顯色反應,使用紫外-可見分光光度計測試400~800 nm的吸光度,得到最大吸收波長為546 nm。在546 nm波長下測定不同質量濃度的齊墩果酸標準品溶液的吸光度,線性擬合得到吸光度(A)與齊墩果酸質量(M)的標準曲線:A=6.736 1M+0.103 7,相關系數為0.999 4。
通過單因素、PB以及響應面實驗對靈芝總三萜的提取工藝進行優(yōu)化并收集實驗數據,將這些數據用于神經網絡的訓練和建立,總體流程見圖1。
圖1 靈芝總三萜的提取工藝優(yōu)化步驟
1.4.1 深度神經網絡的建立
使用Pandas和NumPy數值處理庫對單因素、PB、響應面實驗得到的所有數據進行預處理和隨機劃分,按照8∶2得到對應的訓練和測試數據集。針對得到的數據集使用Pytorch框架開發(fā)Python的腳本構建深度神經網絡模型(圖2):第1層為輸入層(T0),即輸入特征(Xi),分別為乙醇體積分數、液固比、提取時間、超聲功率和提取溫度,神經元數量(L0)為 5;中間3層為隱藏層(T1,T2,T3),神經元數量(Lj,j=1,2,3)分別設置為16、64和64,并進行歸一化;第4層為輸出層(T4),即輸出的預測值(Y),對應總三萜得率,神經元數量(L4)為1。模型選擇ReLU函數激活隱藏層,優(yōu)化函數選擇隨機梯度下降,學習率設置為 0.1,迭代次數設置為 200 次。
圖2 靈芝總三萜提取工藝預測的深度神經網絡結構
1.4.2 深度神經網絡的性能驗證
模型的性能結果使用均方誤差(MSE)、平均絕對誤差(MAE)、決定系數(R2)以及Pearson相關系數(r)來表述,具體見式(1)—(4)。
(1)
(2)
(3)
(4)
在模型構建完成后,使用蒙特卡洛算法尋找最優(yōu)模型參數,一般分為3個步驟:構造隨機概率的過程;從構造隨機概率分布中抽樣;求解估計量,從而預測得到最優(yōu)的總三萜工藝參數。具體公式見式(5)。
(5)
式中:f(Xi)為深度神經網絡模型模擬得到的函數;p(Xi)是隨機變量Xi的概率密度函數;N是設置隨機樣本的數量,文中N=107;FN是對f(Xi)的期望值。
在工藝參數(提取溫度60 ℃、提取時間20 min、液固比20 mL/g、超聲功率300 W以及乙醇體積分數90%)基本固定的條件下,通過分別調節(jié)對應參數研究各因素對靈芝總三萜得率的影響,結果見圖3—7。
圖3 不同超聲功率對靈芝總三萜得率的影響
由圖3可知:總體上,增大超聲功率有利于提高靈芝總三萜的得率,但是當超聲功率超過300 W,過大的功率可能導致部分活性成分的分解,使得靈芝總三萜的得率反而有所下降。據此,確定300 W為最佳的超聲功率。
提取溫度為60 ℃時有著最高的總三萜得率(圖4)??赡苁且驗槿軇囟鹊纳邥е抡羝麎涸龃?更多氣體進入超聲波產生的空泡中,空泡破裂的劇烈程度降低,導致空化效應減弱[16],這同樣會導致總三萜得率的降低。因此,選擇60 ℃為最佳的提取溫度。
圖4 不同提取溫度對靈芝總三萜得率的影響
由圖5可知:較長的超聲提取時間能夠保證溶劑對提取物的滲透,同時也保證了超聲波所需要破壁的總能量。但是,過長的時間會使得過多的活性物質浸泡在高溫溶劑中,進而導致活性物質失活,因此,提取時間選擇20 min為宜。
圖5 不同提取時間對靈芝總三萜得率的影響
過低的液固比會使溶質在溶劑中過飽和,導致傳質速度的下降。液固比增加,提取物組分與溶劑接觸的總體積將增大,得率隨之增加。由圖6可知:當液固比達到25 mL/g時,靈芝總三萜的溶解到達平衡狀態(tài),此時得率最高。因此,將25 mL/g作為最佳的液固比。
圖6 不同液固比對靈芝總三萜得率的影響
植物中的天然抗氧化劑大部分易溶于低極性的有機溶劑中[17],同時,三萜類化合物因含有極性基團而使其極性略有增加。選擇體積分數為60%、70%、80%、90%、100% 的乙醇為溶劑,探究乙醇體積分數對總三萜得率的影響(圖7)。由圖7可得:乙醇體積分數為80%時,靈芝總三萜得率最高。
圖7 不同乙醇體積分數對靈芝總三萜得率的影響
根據單因素實驗結果得到各因素的中心點,通過PB對乙醇體積分數(X1)、液固比(X2)、提取時間(X3)、超聲功率(X4)和提取溫度(X5)這5個因素進行篩選。以靈芝總三萜得率為響應值,使用Design-Expert 12.0軟件進行實驗設計(表1)并進行顯著性分析(表2)。
表1 PB實驗因素水平
表2 PB實驗顯著性分析
由表2可知:該模型的P=0.020 6<0.05,說明所考察因素對靈芝總三萜得率影響顯著,其中提取溫度和提取時間的影響顯著(P<0.05),超聲功率的影響極顯著(P<0.01)。這3個因素將作為后續(xù)工藝優(yōu)化的主要研究對象。
2.3.1 實驗設計與結果
將PB篩選出的對得率影響顯著的3個因素(提取時間、超聲功率和提取溫度)作為響應因子,靈芝總三萜得率(Y)為響應值,采用Design-Expert 12.0軟件進行實驗設計,建立3因素3水平優(yōu)化表(表3),結果見表4。
表3 響應面實驗設計
表4 實驗設計和結果
2.3.2 響應面模型的建立和方差分析
響應面模型分析3個因素之間的交互作用,并對實驗結果進行二階多項式擬合,最終得到靈芝總三萜得率與3個變量的編碼二次方程模型:Y=1.48+0.050 4A-0.001 2B+0.101 4C-0.002 7AB-0.047 1AC+0.006 7BC+0.002 2A2-0.035 8B2+0.000 6C2。
檢驗結果采用方差分析和多元線性回歸分析,使用P和F值評價回歸方程的顯著性,結果見表5。由表5可見:模型的P<0.000 1,表明整個模型極為顯著,可以用來研究3個因素和響應值的交互作用。模型使用了失擬指標檢驗模型的適應性,其失擬項P=0.530 2>0.05,表明該模型失擬不顯著,對實驗結果的擬合效果良好且較為準確。
表5 靈芝總三萜得率的方差分析
分析得到模型相關系數為0.976 4,修正相關系數為0.946 0,預測修正相關系數為0.829 4,變異系數為1.030 0,信噪比為19.683 2。模型相關系數為0.976 4,表明實際值與模型的預測值在絕大多數情況下高度相關;修正相關系數(0.946 0)略小于模型相關系數(0.976 4)且預測修正相關系數(0.829 4)與修正相關系數(0.946 0)的差值<0.120 0,表明數據波動在一個合理的范圍;模型的信噪比為19.683 2,驗證該模型具有良好擬合的可信度。以上結果均能表明該響應面模型能夠充分反映響應值與自變量之間的準確聯系。
2.3.3 響應面分析
根據響應面回歸方程作出兩因子交互作用圖(圖8—10)。由圖8可知:該響應曲面的形狀起伏較大,顯示提取時間與溫度之間的顯著相互作用,并且靈芝總三萜的得率隨二者的變大而一起提高。由圖9可知:功率對總三萜得率的影響不如提取溫度顯著,過低的提取溫度會使得率急劇下降,而單獨調整超聲功率,結果的變化程度較小。由圖10可知:靈芝總三萜得率會隨著提取時間的延長而增大,而超聲功率則控制在 280~320 W為宜。
圖8 提取時間與提取溫度交互影響的響應曲面
圖9 超聲功率與提取溫度交互影響的響應曲面
圖10 提取時間與超聲功率交互影響的響應曲面
通過響應面模型對提取工藝參數尋優(yōu),預測得到最佳提取工藝:超聲功率為326.289 W,提取溫度為67.795 ℃,提取時間為22.203 min,液固比為25 mL/g,乙醇體積分數為80%。在此工藝條件下靈芝總三萜得率的預測值為1.784%。
根據機器功率限制和方便操作的原則進行調整,確定工藝參數:超聲功率為300 W,提取時間為22 min,提取溫度為68 ℃,液固比為25 mL/g,乙醇體積分數為80%。在此工藝參數下預測得率為1.784%,實際測得靈芝總三萜得率為1.713%,相對誤差為3.98%。
基于深度神經網絡的框架,收集響應面、PB和單因素實驗得到的17組、12組、25組數據,隨后對相同實驗參數得到的數據進行平均化,整合得到47組樣本數據,隨機選擇38組為訓練數據集,剩余9組為測試數據集,構建深度神經網絡模型并進行評估,結果如圖11所示。
圖11 深度神經網絡訓練迭代過程
由圖11可知:神經網絡在44次迭代后,訓練集預測輸出樣本的均方誤差和決定系數趨于不變,模型已達到收斂。經均方誤差公式計算,訓練集的均方誤差為0.001 6,平均絕對誤差為0.022,決定系數為0.900;測試集的均方誤差為0.022,平均絕對誤差為0.13,表明該深度神經網絡模型能夠較精準的預測靈芝總三萜得率。
在構建模型之后,利用SciPy和Statsmodels統(tǒng)計分析庫,分別計算乙醇體積分數、液固比、提取時間、超聲功率和提取溫度5個實驗參數的Pearson相關系數,發(fā)現提取時間、超聲功率對靈芝總三萜得率有很強的相互作用(r<0.05)。利用matplotlib和Seaborn可視化工具圖得到演示深度神經網絡模型,模擬靈芝總三萜得率隨乙醇體積分數、液固比、提取時間、超聲功率和提取溫度的四維變化圖(圖12)。
圖12 靈芝總三萜得率的四維變化
由圖12可見:乙醇體積分數為75%~95%時,靈芝總三萜得率較高,液固比的變化對得率的影響不顯著,二者的交互作用也很弱。當乙醇體積分數和液固比控制在一個較合理的范圍時,提取時間不足時靈芝總三萜得率很低,15~30 min是一個較合理的提取時長。超聲功率則需要控制在一個中等水平,過高或過低都會降低靈芝總三萜得率。對于提取溫度,過高的提取溫度會導致其他工藝參數的可變范圍急劇縮小。
基于已構建的深度神經模型,應用蒙特卡洛算法尋找總三萜得率的最優(yōu)解,運行結果如下:搜索空間為5×104,運行時間為2 min,得到深度神經模型預測靈芝總三萜得率最優(yōu)解為 1.878%。該結果的實驗條件:乙醇體積分數為87.665%,液固比為17.229 mL/g,提取時間為12.171 min,超聲功率為342.865 W,提取溫度為57.862 ℃。
根據機器功率限制和方便操作的原則進行調整,確定工藝參數:超聲功率為360 W,提取時間為12 min,提取溫度為58 ℃,液固比為17 mL/g,乙醇體積分數為88%。在此工藝參數下,預測得率為1.878%,實際測得靈芝總三萜得率為1.805%,相對誤差為3.89%。
本文通過深度神經網絡優(yōu)化后的得率高于周曉等[18](1.30%)、洪文龍等[19](1.27%)的研究結果。
1)通過單因素實驗得到各因素的中心點:超聲功率為300 W,提取溫度為60 ℃,提取時間為20 min,乙醇體積分數為80%,液固比為25 mL/g。
2)使用PB篩選得到對靈芝總三萜得率影響顯著的3個因素:提取溫度、提取時間、超聲功率。
3)建立響應面模型得到優(yōu)化的工藝參數:超聲功率為300 W,提取時間為22 min,提取溫度為68 ℃,液固比為25 mL/g,乙醇體積分數為80%。預測得率為1.784%,實際測得靈芝總三萜得率為1.713%,相對誤差為3.98%。
4)構建深度神經網絡并使用蒙特卡洛算法進行預測與尋優(yōu),得到最優(yōu)工藝參數:超聲功率為360 W,提取時間為12 min,提取溫度為58 ℃,液固比為17 mL/g,乙醇體積分數為88%。預測得率為1.878%,實際測得靈芝總三萜得率為1.805%,相對誤差為3.89%。比較了兩種不同方法對靈芝總三萜的超聲輔助提取工藝的優(yōu)化結果,發(fā)現深度神經網絡對現有數據進行學習并結合蒙特卡洛算法進行尋優(yōu)即可得到更優(yōu)的工藝條件和更準確的預測結果,在工藝優(yōu)化方面有著廣闊的前景。