亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于氨基酸的仿刺參產地信息認證方法研究

        2020-09-05 03:45:04冉明衢李亞芳趙新達
        光譜學與光譜分析 2020年9期
        關鍵詞:方法模型

        吳 鵬, 李 穎*, 劉 瑀, 陳 晨, 冉明衢, 李亞芳, 趙新達

        1. 大連海事大學航海學院, 遼寧 大連 116026 2. 大連海事大學環(huán)境信息研究所, 遼寧 大連 116026 3. 大連海事大學環(huán)境科學與工程學院, 遼寧 大連 116026

        引 言

        仿刺參(Apostichopus japonicus)是海參綱(Holothuroidea)中最具營養(yǎng)價值與經濟價值的一類[1]。 仿刺參體內富含皂苷等高活性物質, 具有抗腫瘤, 降低血脂, 改善非酒精性脂肪肝, 抑制脂肪堆積, 抗高尿酸血癥, 促進骨髓造血, 抗高血壓等醫(yī)學功效[2]。 2017年中國共計養(yǎng)殖仿刺參538億頭, 年產量219 907 t, 行業(yè)總產值超過40億美金。 食品欺詐是一種極其有利可圖的行為, 不法商販通過不正當手段誤導, 甚至直接欺騙消費者, 從而獲取不法暴利[3]。 通過地理標志產品保護規(guī)定的設立, 可以有效保護質量、 特色和聲譽取決于其產地地理特征的食品, 提升優(yōu)質產地食品的經濟價值[4]。 盡管法規(guī)的設立能夠預防食品產地欺詐事件的發(fā)生, 但面對高額的利益誘惑, 食品欺詐事件屢禁不止[5]。

        氨基酸是蛋白質的基本組成單位, 細胞的一切新生、 修復與更新都與氨基酸息息相關。 生物體中的氨基酸含量直接體現了其富含的營養(yǎng)價值, 不同種類氨基酸的含量反映了其攝食初級生產者的種類與比例[6]。 與脂肪酸相比, 仿刺參體內含有更多的氨基酸, 氨基酸中的碳元素約占到仿刺參總碳量的一半, 是仿刺參新陳代謝活動的最主要參與者[7]。 特定化合物同位素分析技術(CSIA)結合了穩(wěn)定同位素分析技術和特定化合物組成分析技術的雙重優(yōu)勢, 可以更精確地闡述海洋食物網中營養(yǎng)物質的流動路徑[8]。 特定化合物的碳穩(wěn)定同位素特征提供了一種更加深入理解營養(yǎng)物質富集的手段, 在食品產地信息認證領域取得了良好的效果[9]。

        本研究提出了一種融合多源數據處理方法認證仿刺參產地信息的新方法。 通過充分發(fā)揮不同描述角度數據的價值, 使其挖掘出數據背后隱含的規(guī)律, 建立了準確性更高、 穩(wěn)定性更好、 體系架構更完善的產地信息認證模型。 構建了仿刺參產地信息認證系統, 有效地監(jiān)管與防止食品產地欺詐事件的發(fā)生, 維護品牌產地從業(yè)者與消費者的切身利益。

        1 實驗部分

        1.1 樣品

        仿刺參樣品采集于2015年11月, 共采集到有效樣品156個: 其中氨基酸含量樣品78個, 氨基酸碳穩(wěn)定同位素樣品78個。 共包括長??h(CH)、 獐子島(ZZD)、 霞浦(XP)、 普蘭店(PLD)、 瓦房店(WFD)、 威海(WH)、 擔子島(DZD)、 萊州(LZ)和牟平(MP)9個產地的樣品。 仿刺參的體長范圍15~19 cm, 體重范圍100~130 g, 霞浦樣品的參齡為1年, 其他8個產地的樣品參齡均為2年。 樣品捕撈后立即存儲在無菌塑料袋中, 采用4 ℃恒溫冷藏, 防止其因高溫產生自溶酶而水解。 在實驗室內解剖去除沙石、 內臟和石灰環(huán), 留取體壁并用超純水洗凈, 冷凍干燥48 h后用玻璃研缽磨制粉末狀, 過80目網篩并干燥保存。

        1.2 數據測定

        取仿刺參樣本20 mg放入pyrex(耐高溫)試管中, 加入2 mL的6 mol·L-1HCl溶液, 向試管中充N21 min去除空氣, 在110 ℃恒溫密閉條件下酸水解24 h[10]。 水解液在430 g條件下離心10 min, 取上清液注入強陽離子交換柱, 提取出純化氨基酸。 由于氨基酸為兩性離子不易揮發(fā), 而氣相色譜分析需要對象具有良好的揮發(fā)性, 因此采用Metges改進的方法將氨基酸衍生化成對應的N-新戊?;?O-異丙醇酯(NPP)[11]。 向冷卻后的NPP中加入2 mL CH2Cl2, 將混合物逐滴通過6 cm硅膠(200~400目)層析柱(內徑4 mm), 去除多余的?;瘎┑入s質。 在室溫下用N2將濾液吹干, 得到純化的NPP, 最后將其溶于0.2 mL乙酸乙酯中。

        取1 μL氨基酸酯化溶液通過氣相色譜儀, 色譜分離(GC)條件為: 采用無分流方式進樣, 進樣口溫度280 ℃; 初始加熱至70 ℃并保持1 min, 以3 ℃·min-1的速度加熱至220 ℃, 再以10 ℃·min-1的速度加熱至300 ℃并保持8 min, 最后以1.2 mL·min-1的恒定流速充入純度≥99.999%的He作為載氣。 氣相色譜分離后酯化氨基酸再經過氣質聯用儀進行質譜分析, 質譜分析(MS)條件為: 傳輸線溫度250 ℃; 離子源溫度230 ℃; 通過能量為70 eV的EI電子進行電離。 最終由GC-MS實驗得到GC保留時間和MS譜圖, 與標準譜庫(NIST2008)進行比較, 確定出氨基酸的種類, 并計算得到每種氨基酸的含量數據。 測定氨基酸碳穩(wěn)定同位素數據時, 酯化氨基酸色譜分離后, 其中1/10通過氣質聯用儀, 得到GC保留時間和MS譜圖, 確定出氨基酸的種類; 剩余9/10進入穩(wěn)定同位素比質譜儀, 測定出相應氨基酸的碳穩(wěn)定同位素數據。

        1.3 處理方法

        現有食品產地認證方法的研究多側重于化學計量工具方面, 在數據處理方法上只停留在簡單運用已有方法進行產地分類的層面, 受制于樣本數量與食品實際數量的巨大差距, 將產地認證方法推廣到尚未測量的數據時會存在明顯偏差。 當研究人員選擇處理方法時, 會選擇一種他所期望的“最佳”分類方法, 而不是從數據自身特征的角度進行最優(yōu)方法的選取[12]。 受制于對可用方法上的知識限制與數據特征的不確定性, 選取單一認證方法無法充分發(fā)揮出數據的價值。 以深度神經網絡為例, 需要通過對大量數據的不斷訓練, 才能展現出神奇的分類效果, 而食品產地信息認證領域往往解決的是小樣本問題, 采用結構簡單的機器學習方法, 得到的認證結果會更加準確。

        在進行數據處理方法選擇時, 遵從沒有免費午餐理論(NFLT), 即針對食品產地認證領域的所有問題, 所有方法的期望是相等的, 沒有任何一種方法可以表現得比其他方法更好[13]。 為了充分的挖掘出隱藏在數據背后的價值, 采用來自8個家族的12個機器學習方法進行數據處理, 利用數據自身特征主動計算出最佳方法, 消除人為選擇的干擾。 在經過不斷訓練與優(yōu)化得到最佳分類方法之后, 沒有直接采用奧卡姆剃刀原則, 選擇性能最佳且最簡單的分類算法進行產地信息的認證; 而是將不同分類方法建立出的模型, 采用集成學習構建出一個泛化能力更強的產地信息認證整體。

        1.4 認證模型

        認證模型由樣品預處理、 數據測定、 主成分分析、 分類方法建立、 模型優(yōu)化、 認證方法集成和在線系統構建7部分組成, 整體結構如圖1所示。

        圖1 認證模型的整體結構

        1.4.1 主成分分析提取特征

        主成分分析(PCA)是數據發(fā)掘領域常用的一種統計與降維算法, 利用彼此不相關的綜合變量代替數量較多的原始變量, 在降低維度的同時保留數據自身有價值的信息。 通過總方差不變的線性變換, 提取出最具產地識別特性的氨基酸類別, 去除隨機誤差影響, 聚集產地特征, 提高模型的運算速度與計算精度。

        1.4.2 機器學習分類方法選擇

        為了充分發(fā)揮數據自身的價值, 選擇一定數量且具有足夠廣泛代表性的分類方法。 利用Manuel等在UCI數據庫中121個數據集上對17個分類器家族的評估結果, 選取了最優(yōu)的8個家族12個分類方法進行認證模型的訓練[12]。 選擇的12個分類方法為: 高斯徑向基為核的支持向量機、 線性為核的支持向量機、 多項式為核的支持向量機、 決策樹、 隨機森林、 樸素貝葉斯、 BP神經網路、 深度神經網絡、 RProp神經網絡、 K鄰近、 邏輯回歸與偏最小二乘。

        1.4.3 交叉驗證與粒子群優(yōu)化算法

        交叉驗證是一種預測在未知數據上表現的模型評價方法。 通過交叉驗證可以有效了解模型的準確率、 穩(wěn)定性和對新樣本的泛化能力, 挑選出性能最優(yōu)的分類器與模型參數, 預防與限制過擬合與欠擬合的發(fā)生, 挖掘出有限數據背后隱藏的價值。

        采用馬爾科夫蒙特卡洛(MCMC)方法進行訓練數據的采樣, 在進行不同K值100次交叉驗證前生成一條馬爾科夫鏈使其收斂至平穩(wěn)分布, 保證待采樣的數據符合后驗分布, 消除數據劃分的干擾, 保證對于不同分類器與不同粒子的評價標準一致。

        對于已經確定好的數據集合, 通過調整分類器的參數可以使其達到最佳的工作表現。 因此, 采用基于遺傳交叉因子改進的粒子群優(yōu)化算法(GPSO)優(yōu)化模型參數, 得到最為穩(wěn)健的單體分類器[14]。

        1.4.4 認證方法的集成學習

        集成學習是將一系列訓練好的分類器, 利用集成規(guī)則組合起來, 構成一個比單體分類器更加強大的認證整體。 經過訓練并優(yōu)化好的分類器就像是一位專家, 采用的方法是其擅長的理論, 想要一位專家解決所有問題是不現實的。 幸運的是, 利用集成學習將所有專家的智慧匯聚在一起, 能夠針對食品產地認證領域的所有問題提供一個接近最優(yōu)的方法[16]。

        2 結果與討論

        2.1 仿刺參數據測定結果

        氨基酸含量樣品共測定出16種特征氨基酸, 氨基酸碳穩(wěn)定同位素樣品共測定出14種特征氨基酸。 通過置信水平為95%的單總體圖基檢驗, 剔除無法有效認證的氨基酸種類, 選取出氨基酸含量數據13種, 氨基酸碳穩(wěn)定同位素數據10種。 對不同產地的氨基酸數據, 采用箱型圖方法分析數據的分布, 檢測異常值的干擾, 最終建立出仿刺參氨基酸數據庫。 仿刺參氨基酸樣品的氣相色譜圖如圖2所示, 產地為長??h的氨基酸碳穩(wěn)定同位素數據箱型圖如圖3所示。

        圖2 氨基酸樣品氣相色譜圖

        圖3 長??h氨基酸碳穩(wěn)定同位素數據箱型圖

        2.2 主成分分析提取結果

        經過主成分分析舍棄掉貢獻率小于1的主成分, 保留下氨基酸含量數據的前5個主成分; 氨基酸碳穩(wěn)定同位素數據的前7個主成分。 在保證每一類都有訓練樣本的條件下, 依次對前N個主成分進行初始種群規(guī)模為50, 遺傳進化代數為40的模型運算, 計算得到最優(yōu)前100項不同K值交叉驗證的平均準確率, 結果如表1和表2所示。

        表1 氨基酸含量模型的平均準確率

        表2 氨基酸碳穩(wěn)定同位素模型的平均準確率

        選取前5個主成分作為氨基酸含量模型的輸入, 累計貢獻率為98.727%; 選取前5個主成分作為氨基酸碳穩(wěn)定同位素模型的輸入, 累計貢獻率為95.982%。 圖4和圖5為氨基酸含量與氨基酸碳穩(wěn)定同位素數據前3個主成分的空間分布, 氨基酸碳穩(wěn)定同位素數據具有更加顯著的產地聚集特性。

        圖4 氨基酸含量數據主成分分析結果

        圖5 氨基酸碳穩(wěn)定同位素數據主成分分析結果

        2.3 機器學習方法分類結果

        利用Accord.NET與Math.NET框架下的機器學習程序集設計并優(yōu)化24個不同方法的分類器。 運用GPSO與交叉驗證方法, 在參數區(qū)間內隨機設置每個模型參數的初始值, 進行種群規(guī)模為100, 進化代數為100, 自我學習因子c1為1.496 18, 社會學習因子c2為1.496 18, 權重w為0.752 9的模型參數優(yōu)化, 得到性能最優(yōu)的單體分類模型。

        相對于傳統的粒子群優(yōu)化算法, 通過引入遺傳算法中的交叉變異算子, 在每次遺傳進化中以粒子不同K值各100次交叉驗證的平均準確率為適應度, 前一半粒子直接進行下一代演化, 后一半粒子與前一半粒子進行交叉遺傳。 這樣不斷有新的粒子進入到種群中, 提高了種群的多樣性與全局尋優(yōu)能力, 在保證收斂速度的同時, 也防止了模型陷入局部最優(yōu)解的問題。

        圖6為24個單體分類模型的優(yōu)化結果, 每個矩形的上邊界為最優(yōu)項的精度, 下邊界為第100項的精度, 矩形中的紅線為前100項的平均值。 最佳的前9個模型均使用氨基酸碳穩(wěn)定同位素數據, 體現了CSIA更加優(yōu)秀的產地認證特性; 最佳方法為高斯徑向基為核的支持向量機與K鄰近算法, 兩者的前100項精度都達到了100%。 圖7為氨基酸碳穩(wěn)定同位素模型的優(yōu)化過程, 證明了GPSO結合交叉驗證能夠快速高效地提高模型性能。

        圖6 單體分類模型優(yōu)化結果

        圖7 氨基酸碳穩(wěn)定同位素模型優(yōu)化過程

        2.4 認證模型集成結果

        以訓練好的24個單體模型的最優(yōu)項精度為權重, 選擇出100個用于集成的單體分類器, 再從對應模型的前100項參數中隨機選取出每個分類器的參數, 最后利用不同的集成學習規(guī)則進行100個好而不同分類器的集成。 選取了5種不同的集成規(guī)則進行認證, 規(guī)則的具體描述如表3所示。

        表3 集成規(guī)則的描述

        表4為不同集成規(guī)則認證模型進行不同K值100次交叉驗證的結果, 多數投票規(guī)則的認證準確率明顯優(yōu)于其他規(guī)則。 因此, 選取多數投票規(guī)則構建產地認證模型, 平均準確率為99.67%, 形成了融合多源數據處理方法認證仿刺參產地信息的完整體系。

        表4 不同集成規(guī)則交叉驗證結果

        2.5 產地信息認證系統

        為了防治食品欺詐事件, 主管部門采取了加裝防偽標識的手段, 但不法商家偽造標識以次充好, 更為嚴重的是部分從業(yè)者將其他產地的仿刺參運輸到地理標志產地, 養(yǎng)殖幾天后佩戴上合法標識進行銷售。 通過構建產地信息認證系統,改變只能預防無法治理的局面, 為行業(yè)監(jiān)管與消費者維權提供可靠技術支撐。 用戶按照指南從終端提交仿刺參樣品的氨基酸數據, 后臺進行分析運算得出認證結果, 最后生成檢測報告返回給前臺, 在線生成的檢驗報告如圖8所示。

        圖8 仿刺參產地信息認證系統檢驗報告

        3 結 論

        通過氨基酸數據對仿刺參營養(yǎng)富集的詳盡刻畫, 采用主成分分析法降低數據維度, 聚集產地認證特性, 選取8個家族的12個分類方法, 共建立出24個單體分類模型。 運用基于遺傳交叉因子改進的粒子群優(yōu)化算法, 結合交叉驗證與MCMC采樣, 得到性能最佳的單體分類器, 最后利用集成學習匯聚單體分類器優(yōu)勢, 構建了平均準確率為99.67%的仿刺參產地信息認證模型。

        結果表明, 基于氨基酸的多源融合認證方法, 能夠挖掘出數據背后的價值, 保證產地認證準確率的同時, 有效提升模型的穩(wěn)定性與泛化能力。 借助互聯網技術構建了產地信息認證系統, 有效防治了仿刺參產地欺詐事件的發(fā)生, 促進了整個行業(yè)的平穩(wěn)健康發(fā)展。

        猜你喜歡
        方法模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權M-估計的漸近分布
        學習方法
        可能是方法不對
        3D打印中的模型分割與打包
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        FLUKA幾何模型到CAD幾何模型轉換方法初步研究
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        国模冰莲极品自慰人体| 精品蜜桃一区二区三区| 97久久综合精品国产丝袜长腿| 亚洲国产精品亚洲一区二区三区| 精品999日本久久久影院| 亚洲产国偷v产偷v自拍色戒| 国产欧美日本亚洲精品一5区| 白嫩少妇高潮喷水av| 成 人片 黄 色 大 片| 又色又爽又黄又硬的视频免费观看| 青青国产成人久久91| 久久综合加勒比东京热| 男女av一区二区三区| 日本japanese丰满多毛| 成人区视频| 人妻av不卡一区二区三区| 久久精品人妻少妇一二三区| 免费拍拍拍网站| 无码熟妇人妻AV影音先锋| 蜜桃av福利精品小视频| 大桥未久av一区二区三区| 柠檬福利第一导航在线| 中文字幕在线久热精品| 中文字幕丰满人妻被公强| 伊人久久大香线蕉午夜av| 男受被做哭激烈娇喘gv视频| 亚洲ⅤA中文字幕无码| 在线一区二区三区免费视频观看| 91九色最新国产在线观看| 99久久精品费精品国产一区二| 极品尤物高潮潮喷在线视频| 蜜桃网站在线免费观看视频| 丝袜美腿亚洲第一免费| 久久久精品国产sm调教网站| 四虎成人在线| 加勒比一区二区三区av| 无码人妻精品一区二区三区夜夜嗨| 久久综合精品国产丝袜长腿| 亚洲国产精品久久久久婷婷软件| 日本视频在线观看二区| 欧美日韩视频在线第一区|