楊慧慧,修紅霞,任海斌,馮寶龍,溫春輝,張厚森,王洪躍,侯俊財,3,王玉堂,3
(1.東北農業(yè)大學食品學院,哈爾濱150030;2.東北農業(yè)大學 現(xiàn)代教育技術中心,哈爾濱150030;3.東北農業(yè)大學乳品科學教育部重點實驗室,哈爾濱150030)
嬰幼兒配方乳粉是一種備受關注的特殊食品,近年來,有關嬰幼兒營養(yǎng)及安全的研究十分豐富,積累了大量的數(shù)據(jù)。但這些數(shù)據(jù)散落各處,一直沒有被系統(tǒng)的組織起來建立數(shù)據(jù)庫。仍然不能回答,“符合國家標準GB10767和GB10765的嬰幼兒配方乳粉中一共有多少種營養(yǎng)組分分子,以及多少種內源和外源危害物可能影響嬰幼兒配方乳粉的質量和安全?”這樣的問題。
解決上述問題對全面了解嬰幼兒配方乳粉的營養(yǎng)組成分布,營養(yǎng)組分的存在狀態(tài)及嬰幼兒配方乳粉中可能的安全風險至關重要。隨著大數(shù)據(jù)技術的成熟,越來越多的研究利用大數(shù)據(jù)技術解決食品中的一些問題。楊輝等[1]利用K-均值(k-means)聚類分析我國31省份的乳制品消費數(shù)據(jù),從政策層面提出增強國內乳企品牌核心競爭力的建議;邵航等[2]利用數(shù)據(jù)科學技術,交叉研究文獻宏分析數(shù)據(jù),梳理了食品安全領域的技術發(fā)展和趨勢;Zhang Dachun等[3]利用相似性算法和分子指紋技術,建立了分子水平的食品摻假數(shù)據(jù)庫和食品風險成分數(shù)據(jù)庫,提出了利用大數(shù)據(jù)技術研究食品安全問題的思路和方法。本研究則基于大數(shù)據(jù)思路和方法,將自然語言處理技術和人工查閱相結合,系統(tǒng)整理歷年來文獻中的數(shù)據(jù),缺失的數(shù)據(jù)參考GB10767和GB10765所述的檢測方法測定市場上所有的嬰幼兒配方乳粉營養(yǎng)組分的分子數(shù)據(jù);綜合整理1998年至2019年所有嬰幼兒配方乳粉產品及原料的食品安全事件相關文獻中涉及的內源及外源危害物,將這些信息整理進入數(shù)據(jù)庫,為嬰幼兒配方乳粉營養(yǎng)及安全研究,基于分子相似性預測嬰幼兒配方乳粉中的內源或外源潛在危害物,提供基礎數(shù)據(jù)和新的視角。
配有柱加熱器的Waters Alliance 2695高效液相色譜系統(tǒng);Waters Micromass Quattro LC質譜儀,美國Waters公司;10 ku大分子量截止過濾器,德國達姆施塔特Merck公司。
硼氫化鈉、甲酸,美國Sigma-Aldrich公司;乙酸、乙腈,北京百靈威科技有限公司;超純水。
標準品:2-巖藻糖乳糖、3-巖藻糖乳糖、乳酰-N-四糖、乳酰-N-己糖、乳酰-N-巖藻五糖I、乳酰-N-二巖藻六糖I、乳酰-N-二巖藻六糖II、3-唾液酸乳糖、6-唾液酸乳糖、乳糖基四糖a、乳糖基四糖b、乳糖基四糖均購于上海麥克林生化科技有限公司。
網(wǎng)絡采集的有關嬰幼兒配方乳粉的數(shù)據(jù)缺少低聚糖項目,因此,從市場上采購嬰幼兒配方乳粉,并檢測其低聚糖含量。檢測方法根據(jù)Tonon等[4]所述方法進行了一些更改。將嬰幼兒配方乳粉溶解到10 mL試管中,然后分取3份,每份1 mL,在5 000 g,低溫條件下,離心15 min進行脫脂,然后將500μL樣液轉移到10 ku分子量截止過濾器中,在低溫12 000 g下離心30 min,去除蛋白質。最后將樣品稀釋60~120倍。將稀釋后的100μL的濾液與100μL新鮮制備的0.25 mol/L硼氫化鈉進行還原反應,反應30 min后終止,然后加入100μL 0.25 mol/L的乙酸。將還原后的提取物注入液相色譜-電噴霧電離質譜(LC-ESI-MS)系統(tǒng)中,對16種低聚糖進行定量。
色譜條件:柱加熱器溫度設置為30℃,流動相由超純水(A)和乙腈(B)組成,兩者均含有0.1%的甲酸,并以200μL/min的流速輸送。梯度條件包括最初流動相B在21 min內從0%增加到12%(中性低聚糖的洗脫),接著在11 min內將流動相B從12%增加到40%(酸性低聚糖的洗脫),第三次是在5 min內將流動相B從40%增加到100%,并保持該梯度5 min。最后在1 min內將B相梯度降低到0%,并在0%下保持12 min的柱平衡??偵V時間為55 min。
質譜條件:質譜采用負離子監(jiān)測模式(SIM)進行操作。毛細管電壓為3.0 k V,錐電壓為30 V,錐氣流量為86 L/h,脫溶溫度分別為150℃和250℃,停留時間為0.055 min。
數(shù)據(jù)庫的數(shù)據(jù)來源為相關書籍、相關文獻、產品標簽、國家標準以及政府發(fā)布的公告文件。采用人工和自然語言提取的方式,系統(tǒng)整理嬰幼兒配方乳粉組分和危害物的相關文章。從上述整理的內容中手動提取嬰幼兒配方乳粉的組分和危害物數(shù)據(jù),通過Pub-Chem[5]對數(shù)據(jù)進行詳細注釋,包括化學名稱、簡化線性分子輸入規(guī)范(Simplified molecular input line entry specification,SMILES)、化合物登錄標識符(Identifier from Database of Chemical,CID)、化學品摘要服務編號(CASRegistry Number,CAS)、國際化學標識符(International Chemical Identifier,InChI)、蛋白質序列等信息。為了保證數(shù)據(jù)的準確性,由本研究組成員反復交叉校對。圖1為嬰幼兒配方乳粉營養(yǎng)組分及危害物分子數(shù)據(jù)庫的建立流程圖。
數(shù)據(jù)庫基于MySQL建立。通過python程序,將整理收集的嬰幼兒配方乳粉營養(yǎng)組分及危害物分子數(shù)據(jù)進行統(tǒng)一格式處理,自動生成數(shù)據(jù)表及數(shù)據(jù)添加的SQL語句后連接MySql數(shù)據(jù)庫創(chuàng)建。
圖1 嬰幼兒配方乳粉營養(yǎng)組分及危害物分子數(shù)據(jù)庫的建立流程圖
量化兩個分子的相似性是化學信息學中的一個重要概念和常規(guī)任務[6]。它廣泛用于虛擬篩選、靶點預測和代謝物注釋[7-9]。在本研究中,我們采用拓展連接性指紋[10](extended-connectivity fingerprints,ECFP)表示分子,由開源化學信息學工具RDkit生成[11]。采用Tanimoto系數(shù)衡量分子相似度[12]。同時結合最大共同子結構(maximum common substructure,MCS)算法[13]預測出潛在危害物。最大公共子結構的具體算法如下:
公式中,|A|i和|B|i分別表示輸入分子和數(shù)據(jù)庫中某一分子的原子數(shù);|MCS(A,B)|i表示兩個分子的公共子結構的原子數(shù)。篩選的閾值設置為0.9,超過閾值則認為兩分子具有很強的相似性。
基于現(xiàn)有搜集到的危害物構建危害物化學空間。利用相似性算法從Tox21[14]、USPTO[15]數(shù)據(jù)庫中找到與現(xiàn)有危害物相似性大于0.9的物質,即為潛在危害物。預測完成后,再利用PubChem詳細調查潛在危害物是否有潛在的毒性。
在全球范圍內,嬰幼兒配方乳粉在食品質量和安全方面被公認為一種非常重要的商品[16]。嬰幼兒配方乳粉營養(yǎng)成分繁多,體系復雜。為滿足嬰幼兒的營養(yǎng)需求,嬰幼兒配方乳粉的營養(yǎng)成分必須精心配制,不僅包括主要營養(yǎng)素(蛋白質、脂類和碳水化合物),還包括微量元素(礦物質、維生素等)和添加劑等[17]。盡管我們已經(jīng)盡最大努力去搜集有關嬰幼兒配方乳粉營養(yǎng)組分及危害物分子數(shù)據(jù),但受到文獻調查中有關它們的信息可用性的限制,我們所建立的囊括營養(yǎng)組分與危害物分子的嬰幼兒配方乳粉數(shù)據(jù)庫并不是十分完美詳盡的數(shù)據(jù)庫。不過,我們的數(shù)據(jù)庫是迄今為止的第一個嬰幼兒配方乳粉營養(yǎng)組分及危害物分子數(shù)據(jù)庫。未來,我們會不斷提高該數(shù)據(jù)庫的覆蓋面,為探索開發(fā)出更有利于嬰兒成長、更高質量的嬰兒乳粉奠定堅實基礎。
我們在600多份相關資料中篩選了468個嬰幼兒配方乳粉組分及危害物數(shù)據(jù),經(jīng)過橫向比對,具有SMILES格式,可用于后續(xù)分析的數(shù)據(jù)有357個。根據(jù)中國食物營養(yǎng)成分表,將收集到的數(shù)據(jù)信息歸納分9類,其中碳水化合物類物質65個,蛋白質類67個,氨基酸類20個,肽類13個,脂肪類64個,維生素類41個,礦物質類18個,營養(yǎng)強化劑類41個,可能危害物類139個。利用468個數(shù)據(jù),我們構建了嬰幼兒配方乳粉營養(yǎng)組分及危害物分子數(shù)據(jù)庫。為了后期在不同類成分擴展更多的屬性數(shù)據(jù),每一類數(shù)據(jù)單獨建表存儲。數(shù)據(jù)庫包含9個數(shù)據(jù)表,每一類物質為一個數(shù)據(jù)表,分別是碳水化合物表(t_carbohydrate)、蛋白質表(t_protein)、氨基酸表(t_amino_acid)、肽表(t_peptide)、脂肪表(t_fat)、維生素表(t_vitamin)、礦物質表(t_mineral)、營養(yǎng)強化劑表(t_nutrient_supplement)、危害物表(t_hazard),括弧中是表的名稱。數(shù)據(jù)庫提供了多種檢索方法,可輸入化學名稱、SMILES、CAS等,檢索結果包括化學名稱、CID、CAS等,從而提供一種快速訪問的方法,滿足食品研究人員對營養(yǎng)組分或危害物進行精確搜索的需求。此外,該數(shù)據(jù)庫對世界各地的科學家均可共享。
圖2展示了嬰幼兒配方乳粉營養(yǎng)組分及危害物分子數(shù)據(jù)庫的化學空間分布。其中,圖中綠色點表示危害物類物質,藍色點代表維生素類物質,深紅色點表示碳水化合物類物質,黃色點代表脂肪類物質,白色點代表肽類物質,紫色點代表營養(yǎng)強化劑類物質,粉色點表示氨基酸類物質,棕色點表示礦物質類物質,灰色點表示蛋白質類物質。其中,某類物質中可能含有離群點,即,顯著不同于該樣本空間下的其他樣本點。危害物類離群點是螺旋霉素,維生素類離群點是維生素B12,碳水化合物類的離群點是菊粉,脂肪類離群點是膽堿和磷脂酰乙醇胺,營養(yǎng)強化劑類離群點是1,3-二油酸-2-棕櫚酸甘油三酯;礦物質類離群點是乙二胺四乙酸鐵鈉。離群點不代表數(shù)據(jù)錯誤,而可能是因為相比于樣本空間的其他數(shù)據(jù),離群點含有過多其他信息,或者離群點所屬空間太大,因此,可能需要進一步對嬰幼兒配方乳粉的營養(yǎng)組分進行更細致的分析和分類。此外,通過圖中各個點的分布可以看出,嬰幼兒配方乳粉的營養(yǎng)組分以及內外源危害物的化學空間分布比較廣泛。而且危害物相對于其他營養(yǎng)成分的化學空間分布更廣泛,說明危害物的種類繁多,來源廣泛,因此,嬰幼兒配方乳粉中實際包含多少種影響乳粉質量安全的危害物成為急需解決的問題。結構越相似的化合物,空間分布越緊密。通過危害物與其他類物質的化學空間距離可大致推出嬰幼兒配方乳粉中更容易添加哪些物質或更容易對哪類物質進行摻假。
圖2 嬰幼兒配方乳粉營養(yǎng)組分及危害物分子數(shù)據(jù)庫的化學空間分布
2016年三元已發(fā)布母乳數(shù)據(jù)庫,Zhen-yu Yang等[18]在2016年建立了包含6431個母乳樣本數(shù)據(jù)的母乳分子在線數(shù)據(jù)庫。2020年周錦等[19]建立了母乳脂肪酸數(shù)據(jù)庫,并探討膳食攝入與母乳脂肪酸及磷脂構成的關系。但是,目前為止,我國還沒有建立一個關于嬰幼兒配方乳粉營養(yǎng)及危害物分子的數(shù)據(jù)庫。此外,通過我們所建立的嬰幼兒配方乳粉營養(yǎng)組分及危害物分子數(shù)據(jù)庫可以與母乳數(shù)據(jù)庫進行對比,從而研發(fā)出更安全、更適合嬰幼兒健康成長的乳粉。
危害物種類各種各樣,我們需要對潛在危害物與嬰幼兒配方乳粉中現(xiàn)有危害物的個體分子相似性進行評價。衡量個體間差異方法主要分為距離度量和相似度度量。其中,相似度度量是計算個體間的相似程度,主要包括向量空間余弦相似度、皮爾遜相關系數(shù)、Jaccard相似系數(shù)、KL散度、Tanimoto系數(shù)等。Pereira等[20]結合歐氏距離、分層聚類分析和主成分分析的算法應用,證明了時間分辨和固定熒光光譜在檢測乳清蛋白濃縮粉(Whey protein concentrate powder,WPC)中摻假的有效性;Garcia-Hernandez等[8]使用擴展的簡化圖和圖形編輯距離方法,將分子相似性計算作為基于配體虛擬篩選應用的工具;Chushak等[7]利用分子相似性搜索、分子對接和體外驗證來識別潛在的甲苯蛋白靶點。在本研究中,我們選擇集計算快、易于實現(xiàn)于一體的Tanimoto系數(shù)來計算分子相似性,它在化學信息學和藥物發(fā)現(xiàn)中均已廣泛應用[21]。
我們從Tox21、USPTO數(shù)據(jù)庫中搜索并列舉了1000種可能影響嬰幼兒配方乳粉質量和安全的潛在危害物清單。根據(jù)數(shù)據(jù)庫中已經(jīng)納入的139個危害物分子,結合分子指紋以及Tanimoto系數(shù)從清單中篩選了350種潛在的嬰兒配方乳粉危害物,接著使用MCS算法篩選出220種危害物分子。通過對數(shù)據(jù)進行最終篩選,我們共預測了89種具有類似功能和活性的潛在危害物。表1為預測出來的部分可能影響嬰幼兒配方乳粉安全的危害物。1和5號化合物是基于雙氯西林,2號化合物基于羧甲基賴氨酸,3號和4號化合物的結構相似物是吡咯素。其中,雙氯西林屬于外源污染物,羧甲基賴氨酸和吡咯素是內源危害物,預測的潛在危害物的毒性需要進一步研究。
表1 可能影響嬰幼兒乳粉的部分危害物表
充分保障嬰幼兒配方乳粉的營養(yǎng)和安全是所有國家的共識。通過建立嬰幼兒配方乳粉營養(yǎng)組分及危害物分子數(shù)據(jù)庫,能夠從分子水平上更好的認識嬰幼兒配方乳粉的組成,同時利用分子指紋和相似性算法,基于已有的危害物發(fā)現(xiàn)新的可能對嬰幼兒配方乳粉品質和安全造成影響的潛在危害物。
本研究基于文獻和自測的數(shù)據(jù)建立了第一個嬰幼兒配方乳粉營養(yǎng)組分及危害物分子數(shù)據(jù)庫。通過本研究可知,嬰幼兒配方乳粉中有329個營養(yǎng)組分分子,有139個危害物可能影響嬰幼兒配方乳粉的質量和安全。不同廠家的嬰幼兒配方乳粉中營養(yǎng)組分的組成種類和含量有較大區(qū)別。通過分子指紋和相似性算法,我們共計發(fā)現(xiàn)89個可能影響嬰幼兒配方乳粉營養(yǎng)及安全的危害物,將在下一步研究中驗證這些潛在危害物。
本研究建立的嬰幼兒配方乳粉營養(yǎng)組分及危害物分子數(shù)據(jù)庫為從分子水平上認識嬰幼兒配方乳粉,為從分子水平上解決嬰幼兒配方乳粉的營養(yǎng)、質量及安全問題,為國家制定相應的政策,提供了數(shù)據(jù)基礎。