亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        食品中甜味分子發(fā)掘模型構(gòu)建

        2021-12-28 12:36:26任海斌馮寶龍賀斌彬李知陸王清華王玉堂
        農(nóng)業(yè)工程學報 2021年19期
        關(guān)鍵詞:描述符甜度甜味劑

        任海斌,馮寶龍,范 蓓,賀斌彬,李知陸,王清華,高 飛,王玉堂,

        食品中甜味分子發(fā)掘模型構(gòu)建

        任海斌1,馮寶龍2,范 蓓3,賀斌彬1,李知陸1,王清華1,高 飛2,王玉堂1,3※

        (1. 東北農(nóng)業(yè)大學乳品科學教育部重點實驗室,哈爾濱 150030;2. 東北農(nóng)業(yè)大學現(xiàn)代教育技術(shù)中心,哈爾濱 150030;3. 中國農(nóng)業(yè)科學院農(nóng)產(chǎn)品加工研究所,北京 100193)

        食品工業(yè)一直在積極地發(fā)現(xiàn)新的甜味分子,傳統(tǒng)發(fā)掘方法費時費力,效率較低。該研究基于分子的甜味和分子結(jié)構(gòu)相關(guān)的假設(shè),利用文獻、專利及數(shù)據(jù)庫中的數(shù)據(jù),建立甜味、非甜味分子數(shù)據(jù)集和甜度分子數(shù)據(jù)集,采用隨機森林和支持向量機算法建立定性構(gòu)效關(guān)系模型定性預測甜味分子;采用主成分回歸、最鄰近回歸、隨機森林回歸和偏最小二乘回歸四種算法建立定量構(gòu)效關(guān)系模型定量預測甜味分子的甜度。研究發(fā)現(xiàn),隨機森林算法模型的分類效果最好,接受者操作特性曲線下的面積為0.987,準確度為0.966;隨機森林回歸模型的甜度預測效果最好,決定系數(shù)為0.82,誤差均方根為0.60。聯(lián)用這兩個模型在食品成分數(shù)據(jù)庫中,發(fā)現(xiàn)542個具有甜味劑潛力的食品分子。

        機器學習;甜味劑;預測;定性構(gòu)效關(guān)系;定量構(gòu)效關(guān)系

        0 引 言

        人類在與食物漫長的演化中,形成了甜味偏好[1]。這種進化而來的偏好,編碼在人類基因中深深的影響著今天人類對食物的選擇。甜味成為食物中基本味覺之一,可以讓人產(chǎn)生愉悅的感覺,絕大多數(shù)人都不會拒絕甜味[2]。因此,糖和甜味劑等呈甜化合物在食品工業(yè)中得到了廣泛的應(yīng)用[3-5]。人們?nèi)粘J秤玫恼崽怯捎诰哂休^高的熱量,會引起肥胖、代謝紊亂和一系列疾病,如心血管疾病、高血脂、高血糖等[6-9]。研究表明高血糖是引發(fā)癌癥的原因之一,長期患有糖尿病或高血糖是導致胰腺癌的一個危險因素[10]。目前已經(jīng)開發(fā)了各種天然及人工合成的甜味劑,在滿足對甜味味感需求的同時,減少能量的攝入,減輕患病風險[11]。但也有研究表明,長期、大量食用合成的非營養(yǎng)型甜味劑會有引發(fā)癌癥等副作用[12],因此食品行業(yè)一直熱衷于發(fā)現(xiàn)更多新型、安全的甜味劑[13]。傳統(tǒng)發(fā)現(xiàn)甜味劑的方法,除偶然發(fā)現(xiàn)外,主要采用結(jié)構(gòu)改變的方法尋找新型的甜味劑,浪費了大量的時間和精力[14],最近幾年,基于數(shù)據(jù)發(fā)現(xiàn)新型甜味劑的研究越來越多[15]。

        隨著化合物的味覺信息及分子描述符越來越豐富,基于味覺信息和分子描述符,利用構(gòu)效關(guān)系(Structure- activity relationship)[16]建立數(shù)學模型對分子進行定性和定量預測,從而快速發(fā)掘甜味分子并預測其甜度成為一種重要的方法[17]。2002年,Alexander等[18]公布了第一個甜味庫Sweet-DB,并提出發(fā)掘具有甜味的碳水合物的方法。2010年,Ahmed等[19]在前者的基礎(chǔ)上,建立了可公開訪問的SuperSweet數(shù)據(jù)庫,并提出了基于構(gòu)效關(guān)系和分子模擬方法的甜味發(fā)掘方法。2011年,Yang等[20]建立了預測糖和甜味化合物甜度的方法,但并沒有公布數(shù)據(jù)庫。這些研究時間久遠,沒有囊括一些新的天然或人工合成的化合物,沒有使用大數(shù)據(jù)和機器學習的新技術(shù)。2016年,Rojas等[3]進一步深入研究了甜味和分子結(jié)構(gòu)之間的關(guān)系。在此基礎(chǔ)上,Cheron等[21]提出了利用神經(jīng)網(wǎng)絡(luò)預測天然化合物甜味的方法。目前,最新的甜味分子發(fā)掘成果是2019年Zheng等[13]建立的預測甜味和甜味相關(guān)文字的機器學習平臺e-Sweet。這些最新的研究往往關(guān)注于預測一個分子是否具有甜味的定性研究,而忽略了要成為甜味劑的主要原因,應(yīng)該包括預測甜度的定量研究問題。只有同時進行甜味的定性和定量研究,才能預測一個分子是否具有成為甜味劑的潛在價值,才能讓研究貼近實際。另外,這些研究的數(shù)據(jù)庫,無法直接獲取,且只能利用這些研究內(nèi)建的模型和算法進行甜味預測,無法形成數(shù)據(jù)累積,無法充分利用新的數(shù)學方法發(fā)掘新型的甜味分子,進而生產(chǎn)既能滿足人類對甜味的需求,又具有較高安全性的甜味劑。

        本研究以甜味研究文獻、專利及公開數(shù)據(jù)庫為數(shù)據(jù)源,采用人工交叉驗證的方法搜集清洗數(shù)據(jù),在Mysql[22]中建立最大的人工修正甜味、非甜味數(shù)據(jù)集和甜味分子甜度公開數(shù)據(jù)集。利用最新的機器學習算法,首先建立定性構(gòu)效關(guān)系模型,鑒別出給定分子是否呈現(xiàn)甜味,進一步建立定量構(gòu)效關(guān)系模型,對分子的甜度做出預測,最后利用模型發(fā)掘FooDB數(shù)據(jù)庫中潛在的甜味分子。本研究對于快速挖掘新型的潛在甜味劑,促進食品添加劑的發(fā)展具有實際意義,并對甜味數(shù)據(jù)的累積,預測方法的逐漸進步,提供了數(shù)據(jù)和方法基礎(chǔ)。

        1 材料與方法

        1.1 甜味和非甜味分子數(shù)據(jù)集的建立及數(shù)據(jù)質(zhì)量控制

        數(shù)據(jù)來源于已有的數(shù)據(jù)庫,包括SweetDB[18]、SuperSweet[19]、PubChem[23]等數(shù)據(jù)庫以及文獻[20]。非甜分子是從FlavorDB[24]以及文獻[25-26]中根據(jù)氫鍵原子數(shù)、手性中心、分子量、油水分配系數(shù)、水溶性、疏水性和辛醇-水分配系數(shù)等性質(zhì)人工篩選出的。分別獲取甜味和非甜分子的名稱、PubChem化合物登錄標識符(CID或SID)及分子結(jié)構(gòu)(SMILES)用于后續(xù)研究。經(jīng)人工查詢已去除分子結(jié)構(gòu)重復的以及分子結(jié)構(gòu)過于復雜無法轉(zhuǎn)化為描述符的分子,并篩選出甜度已知的甜味分子以及等數(shù)量的非甜味分子進行研究。

        1.2 描述符的生成和選擇

        利用MOE軟件(Molecular Operating Environment,MOE 2015.10)生成206個2D分子描述符表征分子結(jié)構(gòu)[27]。采用本實驗室自有軟件四步法篩選分子描述符:首先用近零方差篩選和去除共線性的方法對描述符進行初步篩選;將初步篩選后得到的描述符采用相關(guān)性檢驗的方法對描述符做進一步篩選,即對決定分子的甜味與甜度的描述符行為進行分析,計算描述符之間、描述符與分類結(jié)果或甜度之間的相關(guān)系數(shù),若兩個描述符之間的相關(guān)系數(shù)大于0.95,則刪除對分類或?qū)μ鸲蓉暙I率小的描述符;采用主成分分析的方法對描述符進行最后篩選,刪除對分類或?qū)μ鸲蓉暙I率小于0.5的描述符。描述符的篩選可以優(yōu)化構(gòu)效關(guān)系模型,提高模型的精度和預測準確度[28-29]。

        1.3 甜味分子識別模型的建立和評價

        采用R語言的e1071(版本1.7-4)支持向量機算法包和RandomForest(版本4.6-14)隨機森林算法包建立甜味分子識別模型,將80%的數(shù)據(jù)用作訓練集,20%的數(shù)據(jù)用作測試集,判斷給定分子是否呈現(xiàn)甜味。算法的實現(xiàn)均采用R軟件并自行編寫代碼。

        采用模型分類的準確度和受試者特征曲線面積來評價模型的預測效果,準確度用公式計算:

        式中表示樣本集{(1,1), (2,2), … , (x,y)},y代表分子的分類結(jié)果,x代表自變量,即每個分子描述符,yx的真實標記,(x)表示模型預測結(jié)果,代表樣本數(shù)。

        對于甜味分子識別模型,還可以采用受試者操作特征ROC(Receiver Operating Characteristic)來評估模型預測質(zhì)量,ROC曲線下的面積AUC(Area Under ROC Curve)越大,則模型預測效果越好。ROC曲線的橫軸“1-Specificity”代表“誤診率”,即“假正例率”(False Positive Rate,F(xiàn)PR),縱軸Sensitivity代表“靈敏度”,即“真正例率”(True Positive Rate,TPR),二者的定義分別是:

        式中TP、FP、TN、FN分別表示真正例(True Positive):預測正確的甜味分子,假正例(False Positive):預測錯誤的甜味分子,真反例(True Negative):預測正確的非甜分子,假反例(False Negative):預測錯誤的非甜分子對應(yīng)的樣例數(shù),TP + FP + TN + FN = 樣例總數(shù)。

        1.4 甜度預測模型的建立和評價

        采用R語言的caret包(版本6.0-86)建立主成分回歸(Principal Component Regression, PCR)、最鄰近法回歸(NNR,-Nearest Neighbor Regression)、偏最小二乘回歸(PLSR, Partial Least Square Regression)、隨機森林回歸(RFR, Random Forest Regression)四種甜度預測模型,將80%的數(shù)據(jù)用作訓練集,20%的數(shù)據(jù)用作測試集,預測給定甜味分子的甜度。算法的實現(xiàn)均采用R軟件并自行編寫代碼。

        參數(shù)優(yōu)化采用網(wǎng)格搜索和10折交叉法。10折交叉驗證法是將訓練集隨機劃分成10個互補的子樣本,每次選取其中1個子樣本用作測試集,其余9個作訓練集構(gòu)建模型,重復此步驟10次,直到每個子樣本都被用作測試集,再對每次測試集的表現(xiàn)結(jié)果進行綜合分析[30]。通過該方法可以得出使模型預測效果達到最佳時的參數(shù)值。對于甜度預測模型,用決定系數(shù)(2)和均方根誤差(RMSE)來評估模型的預測能力,2越接近1,RMSE越接近0,模型擬合效果越好。

        決定系數(shù)2和均方根誤差RMSE用公式表示為

        1.5 甜味分子的發(fā)掘

        使用已建立的甜味分子識別模型預測FooDB數(shù)據(jù)庫中可能具有甜味的分子,該數(shù)據(jù)庫中共包含分子28 772個,刪除掉被MOE識別為重復結(jié)構(gòu)的分子和因結(jié)構(gòu)復雜不能轉(zhuǎn)化為描述符的分子,剩余分子24 735個。將所有分子結(jié)構(gòu)轉(zhuǎn)化為分子描述符后輸入模型預測潛在的甜味物質(zhì),如果具有甜味,則使用甜度預測模型預測其甜度。所有代碼存儲在https://gitee.com/wang_lab/EMMSM。

        2 結(jié)果與分析

        2.1 甜味和非甜味分子數(shù)據(jù)集

        數(shù)據(jù)集包含356個甜味分子和356個非甜味分子,建立甜度預測模型所用的數(shù)據(jù)集來源于SuperSweet網(wǎng)站[19]和相關(guān)文獻,共包含356個甜度(本文中甜度值均為以10為底對數(shù)處理后結(jié)果)范圍在?0.744 7到7.350 0之間的甜味化合物,定義蔗糖溶液在20 ℃時的甜度為0,其他分子的甜度為相同條件下與之相比得到的相對甜度。本研究建立的數(shù)據(jù)集是從幾個數(shù)據(jù)庫中嚴格篩選出的符合研究條件的分子,其中主要包括有機物和鹽類。其中甜味分子數(shù)據(jù)集包括糖類化合物、甜味劑和其他具有甜味的化合物。本研究也分析了甜味分子和非甜味分子的氫鍵原子數(shù)、手性中心、分子量、油水分配系數(shù)、疏水性和辛醇-水分配系數(shù)等其他描述符性質(zhì)。甜味與非甜味分子水溶性接近,疏水性和辛醇-水分配系數(shù)不同,化學空間分布如圖1所示。圖中橫軸代表分子的水溶性,橫軸上方的箱線圖代表兩類分子的水溶性分布。其中圖1a縱軸代表疏水性,縱軸右側(cè)的箱線圖代表兩類分子的疏水性分布;圖1b縱軸代表辛醇-水分配系數(shù),縱軸右側(cè)的箱線圖代表兩類分子的辛醇-水分配系數(shù)分布??梢钥闯鰞煞N分子的疏水性和辛醇水分配系數(shù)差異顯著,這是由于這兩種特征與分子的甜度密切相關(guān),甜度依賴于疏水基,親水基會降低甜度,疏水基會增加甜度[31]。疏水性和辛醇-水分配系數(shù)是甜味分子的重要特征,為了提高甜味識別模型的準確度和精確度,以及甜度預測模型的決定系數(shù),本研究篩選了疏水性較為相近的分子,使甜味、非甜味數(shù)據(jù)集較為接近,從而使訓練得到的模型在FooDB上得到更好的應(yīng)用。

        2.2 描述符的生成和篩選

        甜味感覺是由分子同受體結(jié)合位點作用產(chǎn)生的,但結(jié)合位點往往很多,在以往的研究中,多集中于分子二維空間的研究并能取得較好的性能,而在立體異構(gòu)等三維空間的研究中性能較差,這可能是由于分子三維結(jié)構(gòu)的復雜性導致。因此,本研究采用2D描述符建模。我們在對描述符數(shù)據(jù)進行了近零方差篩選和去除共線性方法處理后,再根據(jù)相關(guān)性檢驗和PCA分析對描述符進行篩選后,甜味分子識別模型用描述符110個,甜度預測模型用描述符88個。圖2為變量相關(guān)圖,顯示相關(guān)矩陣中每兩個描述符之間線性關(guān)系的強度和方向,其中紅色表示正相關(guān)系數(shù),藍色表示負相關(guān)系數(shù),顏色越深表示相關(guān)系數(shù)的絕對值越大。通過描述符相關(guān)圖分析可知,在未進行描述符篩選之前,可以明顯地觀察到來自所有描述之間的多重共線性非常高,經(jīng)篩選后描述符之間的相關(guān)性都相對較低,從而使描述符冗余性顯著降低,利于建立良好的甜味識別模型和甜度預測模型。

        2.3 甜味分子識別模型

        通過無放回分層隨機抽樣得到包含276個甜味分子和276個非甜味分子的訓練集,其余178個分子作為測試集,采用RF(Random Forest)和SVM(Support Vector Machines)兩種算法建立甜味分子識別模型,對測試集樣本進行分類。

        在SVM中,選擇徑向基函數(shù)(radial)作為內(nèi)核函數(shù),為了優(yōu)化支持向量機模型中的懲罰參數(shù)和核參數(shù),采用了網(wǎng)格搜索和10折交叉驗證的方法,這里cost的范圍是[10-6:10-1],gamma的范圍是[10-10:1010],選擇交叉驗證精度最好的參數(shù)cost為10,gamma為0.01。在10折交叉驗證中,訓練集被分成10個相同大小的子集,使用其余9個子集上的訓練器依次測試每一個子集,因此,整個訓練集的每個實例都被預測一次,因此經(jīng)過交叉驗證的數(shù)據(jù)能夠準確預測。RF是一個未修剪分類和回歸樹的集合,并為Bootstrap抽樣增加了額外的隨機性層。RF的主要參數(shù)是mtry值和ntree值,分別表示節(jié)點中用于二叉樹的變量個數(shù)以及決策樹的個數(shù)。經(jīng)過網(wǎng)格搜索和10折交叉驗證,確定最佳參數(shù)mtry值為2,ntree為81。

        兩個模型的分類效果如圖3所示。圖3a中橫坐標代表模型誤診率,縱坐標代表靈敏度,ROC曲線下的面積越大表明模型分類效果越好,RF和SVM二者ACU值分別為0.987和0.986,且通過模型準確度的箱線圖(圖3b)分析,兩模型存在顯著性差異(<0.01),對比可以發(fā)現(xiàn)RF 模型的分類效果優(yōu)于SVM模型。Zheng等[13]構(gòu)建了甜味分子預測模型,分類準確率為0.91。肖凌俊等[15]于2021年構(gòu)建了甜味識別模型,分類準確率為0.934。與以上研究相比,本研究所包含樣本數(shù)據(jù)公開可用,甜味識別模型更加優(yōu)秀,準確度達到了0.966,對甜味分子有較好的預測效果。

        2.4 甜度預測模型

        有學者對甜度進行了預測,舒俊生等人通過構(gòu)效關(guān)系的方法對卷煙甜度進行預測,在30種化合物的訓練集以及10種化合物的測試集上2達到了0.95,模型具有較強預測能力[32];孟駿等人通過逐步回歸建立豆?jié){甜度預測模型,分析了30個大豆品種加工成豆?jié){的甜度值,預測模型2達到了0.747,模型驗證結(jié)果顯示平均相對誤差為4.61%,因此該模型能夠準確地預測豆?jié){甜度[26]。

        本研究采用無放回抽樣的方法隨機將甜味化合物分為包含267個分子的訓練集和包含89個分子的測試集,并對化合物甜度值進行對數(shù)處理,建立PCR、NNR、RFR、PLSR四種甜度預測模型,模型通過10折交叉驗證法選擇各自最優(yōu)參數(shù)后,結(jié)果如圖4所示。圖中直線代表回歸擬合曲線,數(shù)據(jù)點代表測試集樣本中分子的真實甜度,陰影部分代表置信區(qū)間,置信水平為95%。圖4a為主成分回歸模型預測結(jié)果,結(jié)果顯示2=0.58,RMSE=0.84。圖4b為NNR模型預測結(jié)果,當k=5時,模型最穩(wěn)定,預測效果最佳,結(jié)果顯示2=0.68,RMSE=0.73,甜度預測效果略優(yōu)于PCR模型。圖4c為RF回歸模型預測結(jié)果,當mtry值為2,ntree為81時模型預測效果最好,結(jié)果顯示2=0.82,RMSE=0.60,甜度預測效果較為理想。圖4d為PLSR模型預測結(jié)果,真實值和預測值的擬合回歸線結(jié)果顯示2=0.70,RMSE=0.69?;赗F的回歸模型均優(yōu)于其他算法建立的模型(2=0.82和RMSE=0.60),甜度預測效果最好。

        2.5 發(fā)掘潛在的甜味物質(zhì)

        聯(lián)用前述甜味分子定性識別模型和甜味分子甜度預測模型,預測食品中潛在的甜味成分。FooDB是目前最大的食品成分數(shù)據(jù)庫。為了發(fā)掘新的甜味分子,本研究對FooDB數(shù)據(jù)庫進行人工和機器交叉驗證,對驗證后的24 735個分子進行了甜味與甜度預測。首先使用RF甜味分子識別模型預測FooDB分子,接著用RF甜度預測模型對發(fā)現(xiàn)理論上的甜味分子的甜度進一步預測,最終篩選出潛在甜味劑分子542個。根據(jù)預測概率和在食品領(lǐng)域的應(yīng)用范圍,2,3-二羥基-2-異戊酸,乙酸甲酯,肌醇,維生素B15,6-O-α-鼠李糖-D-葡萄糖等尚未有文獻報道的物質(zhì)被發(fā)掘出來。所有數(shù)據(jù)存儲在https://gitee.com/wang_lab/EMMSM。通過甜味分子定性識別模型和甜味分子甜度預測模型新發(fā)掘的甜味化合物可以進一步試驗測定。

        表1 部分分子結(jié)構(gòu)式及甜度預測結(jié)果

        3 結(jié) 論

        本研究建立了食品中甜味分子發(fā)掘模型,主要得到以下結(jié)論:

        1)本研究建立了一個人工修正的、持續(xù)更新、可公開訪問的非甜味、甜味物質(zhì)及甜度數(shù)據(jù)集。

        2)本研究建立的甜味分子識別模型,準確度達到0.966,ROC曲線下的面積為0.987,具有良好的甜味分子識別能力;建立的甜度預測模型,決定系數(shù)達0.82,均方根誤差為0.60,具有優(yōu)良的甜味分子甜度預測能力。

        3)本研究聯(lián)用定性的甜味分子識別模型和定量的甜度預測模型,在食品成分數(shù)據(jù)庫中發(fā)掘出潛在的甜味劑分子542個。

        本研究所有數(shù)據(jù)和代碼開源,其他研究人員既可以利用本研究的代碼,繼續(xù)發(fā)掘其他甜味劑,也可以設(shè)計新的算法,獲得更為準確的預測結(jié)果。可以廣泛應(yīng)用于甜味分子發(fā)掘,具有較高的實際應(yīng)用價值。

        [1] Jayaram C, Mark A, Hoon N. The receptors and cells for mammalian taste[J]. Nature, 2006, 444(7117): 288-294.

        [2] Burke N, Saikaly S K, Motaparthi K, et al. Malignancy-associated sweet syndrome presenting with simultaneous histopathologic and morphologic Variants[J]. JAAD Case Reports, 2021(6). DOI: 10.1016/i.jdcr.2021.06.007

        [3] Rojas C, Tripaldi P, Duchowicz P R. A new qspr study on relative sweetness[J]. International Journal of Quantitative Structure-Property Relationships, 2016,1(1):78-93.

        [4] Rojas C, Todeschini R, Ballabio D, et al. A qstr-based expert system to predict sweetness of molecules[J]. Front Chem, 2017,5:53.

        [5] Altunayar U C, Unsalan O. Structural and anharmonic vibrational spectroscopic analysis of artificial sweetener alitame: A dat study for molecular basis of sweet taste[J]. Journal of Molecular Structure, 2021,1246:131157.

        [6] Lustig R H, Schmidt L A, Brindis C D. Public health: The toxic truth about sugar[J]. Nature, 2012,482(7383):27.

        [7] Goel A, Gajula K, Gupta R, et al. In-silico prediction of sweetness using structure-activity relationship models[J]. Food Chemistry, 2018,253(1):127-131.

        [8] Ojha P K, Roy K. Development of a robust and validated 2d-qsar model for sweetness potency of diverse functional organic molecules[J]. Food and Chemical Toxicology, 2018,112:551-562.

        [9] Bellisle F. Intense sweeteners, appetite for the sweet taste, and relationship to weight management[J]. Current Obesity Reports, 2015,4(1):106-110.

        [10] Dooley J, Lagou V, Goveia J, et al. Heterogeneous effects of calorie content and nutritional components underlie dietary influence on pancreatic cancer susceptibility[J]. Cell Reports, 2020,32(2):107880.

        [11] Cheron J B, Casciuc I, Golebiowski J, et al. Sweetness prediction of natural compounds[J]. Food Chemistry, 2017,221:1421.

        [12] Mishra A, Ahmed K, Froghi S, et al. Systematic review of the relationship between artificial sweetener consumption and cancer in humans: Analysis of 599, 741 participants[J]. International Journal of Clinical Practice, 2015, 69(12): 1418-1426.

        [13] Zheng S, Chang W, Xu W, et al. e-Sweet: A machine-learning based platform for the prediction of sweetener and its relative sweetness[J]. Frontiers in Chemistry, 2019,7. DOI: 10.3389/fchem.2019.00035.

        [14] Ben S Y, Niv M Y. Structure-based screening for discovery of sweet compounds[J]. Food Chemistry, 2020,315:126286.

        [15] 肖凌俊,陳愛斌,周國雄,等. 基于深度學習的甜味劑分類模型[J]. 農(nóng)業(yè)工程學報,2021,37(11):285-291.

        Xiao Lingjun, Chen Aibin, Zhou Guoxiong, et al. Sweetener classification model based on deep learning[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(11): 285-291. (in Chinese with English abstract)

        [16] Lin K, Zhang L, Han X, et al. Quantitative structure-Activity relationship modeling coupled with molecular docking analysis in screening of angiotensin i-converting enzyme inhibitory peptides from qula casein hydrolysates obtained by two-enzyme combination hydrolysis[J]. J Agric Food Chem, 2018,66(12):3221-3228.

        [17] Rojas C, Ballabio D, Consonni V, et al. Quantitative structure-activity relationships to predict sweet and non-sweet tastes[J]. Theoretical Chemistry Accounts, 2016, 135(3): 1-13.

        [18] Alexander L, Peter B, Andreas B, et al. Sweet-db: An attempt to create annotated data collections for carbohydrates[J]. Nucleic Acids Research, 2002, 30(1): 405-408.

        [19] Jessica A, Saskia P, Mathias D, et al. Supersweet—a resource on natural and artificial sweetening agents[J]. Nucleic Acids Research, 2010,39:377-382.

        [20] Yang X, Chong Y, Yan A, et al. In-silico prediction of sweetness of sugars and sweeteners[J]. Food Chemistry, 2011, 128(3): 653-658.

        [21] Cheron J B, Casciuc I, Golebiowski J, et al. Sweetness prediction of natural compounds[J]. Food Chemistry, 2017, 221: 1421.

        [22] Jose B, Abraham S. Performance analysis of nosql and relational databases with mongodb and Mysql[J]. Materials Today: Proceedings, 2020, 24(7): 2036-2043.

        [23] ?teklá? M, Zaja?ek D, Bu?insky L. 3Clpro and plpro affinity, a docking study to fight covid19 based on 900 compounds from pubchem and literature. Are there new drugs to be found?[J]. Journal of Molecular Structure, 2021, 1245: 130968.

        [24] Neelansh G, Apuroop S, Rudraksh T, et al. Flavordb: A database of flavor molecules[J]. Nucleic Acids Research, 2017, 46. DOI: 10.1093/nar/gkx957

        [25] Tuwani R, Wadhwa S, Bagler G. BitterSweet: Building machine learning models for predicting the bitter and sweet taste of small molecules[J]. Sci Rep, 2019, 9(1): 7155.

        [26] 孟駿,汪芳,孫璐,等. 基于大豆原料蛋白質(zhì)和氨基酸組成的豆?jié){甜度預測模型研究[J]. 食品工業(yè)科技,2019,40(10):18-23.

        Meng Jun, Wang Fang, Sun Lu, et al. Predictive model of soymilk sweetness based on protein and amino acid compositions of soybean materials[J]. Science and Technology of Food Industry, 2019, 40(10): 18-23. (in Chinese with English abstract)

        [27] Wang Y, Russo D P, Liu C, et al. Predictive modeling of angiotensin i-converting enzyme inhibitory peptides using various machine learning approaches[J]. Journal of Agricultural and Food Chemistry, 2020,68(43):12132-12140.

        [28] Martínez M J, Razuc M, Ponzoni I. Modesus: a machine learning tool for selection of molecular descriptors in qsar studies applied to molecular informatics[J]. BioMed Research International, 2019, 2019: 1-12.

        [29] Zhou Q, Yin J, Liang W, et al. Various machine learning approaches coupled with molecule simulation in the screening of natural compounds with xanthine oxidase inhibitory activity[J]. Food & function, 2021, 12(4): 1580-1589.

        [30] Wong T T. Parametric methods for comparing the performance of two classification algorithms evaluated by k-fold cross validation on multiple data sets[J]. Pattern Recognition the Journal of the Pattern Recognition Society, 2016, 65: 97-107

        [31] Deutsch E W, Hansch C. Dependence of relative sweetness on hydrophobic bonding[J]. Nature, 1966, 211(5044): 75.

        [32] 舒俊生,徐志強,朱青林,等. 卷煙煙氣中甜味化合物甜度的理論預測[J]. 食品工業(yè)科技,2013,34(19):111-114.

        Shu Junsheng, Xu Zhiqiang, Zhu Qinglin, et al. Theoritical predictions for sweetness of some sweet compounds in cigarette smoke[J]. Science and Technology of Food Industry, 2013, 34(19): 111-114. (in Chinese with English abstract)

        Establishment of the mining model for sweet molecules in food

        Ren Haibin1, Feng Baolong2, Fan Bei3, He Binbin1, Li Zhilu1, Wang Qinghua1, Gao Fei2, Wang Yutang1,3※

        (1.,,,150030,; 2.,,150030,;3.,100193,)

        Sweet taste is one of the most important tastes in food flavor and quality. Sweet molecules that can be used to produce new sweeteners have also been actively explored in food processing. However, the traditional methods cannot meet the rapid development of the economy and market demand, due mainly to time-consuming, laborious, and inefficient methods. Therefore, an effective and reliable strategy is essential to produce the sweet stuff. Currently, machine learning and structure-activity relationship can be utilized to realize accurate predictions of sweet molecules in the food industry. In this study, a new database of sweeteners and non-sweeteners together with the scores of sweetness was established using molecular sweetness and structure-activity correlation between molecular structures. MOE software was selected to compute molecular descriptors, to fully characterize the properties of molecules. These descriptors were then filtered through neighborhood variance screening, collinearity removal, and principal component contribution rate screening. Specifically, the feature descriptors were screened by removing the descriptors with high correlation. 80% of the dataset was then divided into training sets for model construction, and 20% were divided into test sets for model validation. Random forest and support vector machines were utilized to establish a qualitative structure-activity relationship for the prediction and identification of potential sweet molecules. Evaluation indexes were taken as the area under the receiver characteristic curve (AUC) and accuracy rate. The higher the AUC and accuracy rate represented the better classification. As such, the optimal model was obtained. Subsequently, the principal component, K-nearest neighbor, random forest, and partial least squares regression were used to establish the quantitative structure-activity relationship for better prediction of sweet molecules. The determination coefficient2and Root Mean Square Error (RMSE) were used as evaluation indexes of the quantitative structure-activity model. The higher2and lower RMSE showed the better model. The optimal model was obtained to compare the performance. The food composition database (FooDB) was applied to predict the possible sweet food ingredients and the sweetness. Correspondingly, the publicly accessible dataset was established ranging from artificially revised and continuously updated on sweetener, non-sweetener substances, and sweetness values. A new model was established to identify sweet molecules using the random forest. The accuracy of the model was 0.966 on the test set, and the area under the ROC curve was 0.987, indicating excellent predictive ability. The prediction model of sweetness was also established using the random forest. Specifically, the2was 0.82 and RMSE was 0.60. A manually modified data set was established to combine qualitative and quantitative sweetener prediction. 542 potential sweetener molecules, including lycopene were discovered in the food composition database. All data and code were then stored at the website of https://gitee.com/wang_lab/EMMSM for a better extension. Consequently, the new model indicated universal applicability and high practical application in searching for new sweet molecules.

        machine learning; sweetener; prediction; qualitative structure-activity relationship; quantitative structure- activity relationship

        任海斌,馮寶龍,范蓓,等. 食品中甜味分子發(fā)掘模型構(gòu)建[J]. 農(nóng)業(yè)工程學報,2021,37(19):303-308.doi:10.11975/j.issn.1002-6819.2021.19.035 http://www.tcsae.org

        Ren Haibin, Feng Baolong, Fan Bei, et al. Establishment of the mining model for sweet molecules in food[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(19): 303-308. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2021.19.035 http://www.tcsae.org

        2021-05-01

        2021-08-16

        國家重點研發(fā)計劃項目(2019YFF0217601-02);中國農(nóng)業(yè)科學院農(nóng)產(chǎn)品加工研究所知識創(chuàng)新計劃(125161015000150013)

        任海斌,研究方向為食品營養(yǎng)與安全。Email:renhb@neau.edu.cn

        王玉堂,博士,副研究員,研究方向為食品營養(yǎng)與安全。Email:wangyt@neau.edu.cn

        10.11975/j.issn.1002-6819.2021.19.035

        TS202.3

        A

        1002-6819(2021)-19-0303-06

        猜你喜歡
        描述符甜度甜味劑
        西瓜冰鎮(zhèn)后變得更甜
        基于結(jié)構(gòu)信息的異源遙感圖像局部特征描述符研究
        測繪學報(2022年12期)2022-02-13 09:13:01
        水果冰一下更甜
        科教新報(2020年40期)2020-12-03 05:56:56
        Linux單線程并發(fā)服務(wù)器探索
        甜甜的“喜出望外”
        利用CNN的無人機遙感影像特征描述符學習
        嘗嘗它們,你才知道什么叫“甜得發(fā)齁”
        螞蟻愛吃“糖”嗎
        少年科學(2015年10期)2015-10-31 04:19:47
        新型甜味劑——甜味蛋白
        批準高倍甜味劑advantame用于部分食品
        国产69精品久久久久久久| 成人女同av免费观看| 中文字幕中文字幕三区| 黄色av一区二区在线观看 | 成人自慰女黄网站免费大全 | 男人扒开女人下面狂躁小视频| 天天综合亚洲色在线精品| 久久久久无码精品亚洲日韩| 手机看片福利日韩| 中文熟女av一区二区| 日本一二三区在线视频观看| 日产精品高潮一区二区三区5月| 欧美xxxx做受欧美88| 熟女人妇交换俱乐部| 国产成人无码区免费网站| 日韩免费小视频| 国产精品va在线观看一| 亚洲国产一区二区,毛片| 国精产品一区一区二区三区mba | 精品黄色一区二区三区| 51国产偷自视频区视频| 色噜噜狠狠一区二区三区果冻| 国产片AV在线永久免费观看| 精品国产三级国产av| 人妻久久久一区二区三区蜜臀 | 亚洲色大成在线观看| 麻豆国产AV网站| 国产乱子伦一区二区三区国色天香| 青青草精品在线视频观看| 国产乱人伦av在线a麻豆| 亚洲欧美精品aaaaaa片| 亚洲一区不卡在线导航| 国产偷拍自拍在线观看| 日本边添边摸边做边爱| 射死你天天日| 国产精品日本天堂| 免费在线国产不卡视频| 亚洲乱码日产精品一二三| 亚欧国产女人天堂Av在线播放| 青青草免费在线手机视频| 久久久亚洲熟妇熟女av|