[摘要] 目的 為精準(zhǔn)、有效、直觀地為不同人群提供營(yíng)養(yǎng)和飲食建議,構(gòu)建包含食物、營(yíng)養(yǎng)、人群、疾病等實(shí)體的多模態(tài)營(yíng)養(yǎng)知識(shí)圖譜。方法 利用爬蟲等技術(shù)手段獲取營(yíng)養(yǎng)領(lǐng)域數(shù)據(jù)集,借鑒OneRel模型完成中文實(shí)體關(guān)系聯(lián)合抽取,構(gòu)建文本庫(kù)。使用RoBERTa和ResNet模型分別學(xué)習(xí)文本和圖像數(shù)據(jù)特征,實(shí)現(xiàn)圖像與文本的鏈接,構(gòu)建多模態(tài)知識(shí)圖譜。結(jié)果 實(shí)體關(guān)系聯(lián)合抽取模型的F1值為0.703,構(gòu)建的多模態(tài)知識(shí)圖譜中包含3312個(gè)文本實(shí)體、11 259條關(guān)系、1000張圖像實(shí)體。結(jié)論 本研究構(gòu)建的多模態(tài)營(yíng)養(yǎng)知識(shí)圖譜可達(dá)到較好的效果,該圖譜不僅能系統(tǒng)整合營(yíng)養(yǎng)領(lǐng)域多模態(tài)知識(shí),實(shí)現(xiàn)良好可視化查詢,也能完成智能問答、營(yíng)養(yǎng)推薦系統(tǒng)等下游任務(wù)的底層支撐。
[關(guān)鍵詞] 多模態(tài)知識(shí)圖譜;知識(shí)表達(dá);健康飲食
[中圖分類號(hào)] R151;TP391.1" """"[文獻(xiàn)標(biāo)識(shí)碼] A""" [DOI] 10.3969/j.issn.1673-9701.2025.17.004
Construction of multi-modal nutritional knowledge graph
CHE Meiling, NAN Jiale, LIN Jianhai, GAO Dongping
Institute of Medical Information, Chinese Academy of Medical Sciences, Peking Union Medical College, Beijing 100020, China
[Abstract] Objective To provide precise, effective, and intuitive nutritional and dietary recommendations for different population groups, a multi-modal nutritional knowledge graph was constructed, which includes entities such as food, nutrition, population, and diseases. Methods Data sets in the field of nutrition were obtained using web crawling and other technical means. The OneRel model was referenced to complete the joint extraction of Chinese entity relationships and construct a text library. The RoBERTa-ResNet model were used to learn the features of text and image data separately, to align images with text, and to construct a multi-modal knowledge graph. Results The F1 value of the joint entity relationship extraction model was 0.703. The constructed multi-modal knowledge graph contains 3312 textual entities, 11 259 relationships, and 1000 image entities. Conclusion The algorithms used in this study to construct the multi-modal nutritional knowledge graph achieve good results. This knowledge graph not only systematically integrates multi-modal knowledge in the field of nutrition and enables good visual query capabilities, but also serves as the underlying support for downstream tasks such as intelligent question answering and nutritional recommendation systems.
[Key words] Multi-modal knowledge graph; Knowledge representation; Healthy diet
飲食是人們生活中的關(guān)鍵一環(huán),與人體的健康狀況息息相關(guān)?!吨袊?guó)國(guó)民營(yíng)養(yǎng)與慢性病狀況報(bào)告(2020年)》[1]指出中國(guó)營(yíng)養(yǎng)改善和慢性病防控工作雖已取得積極進(jìn)展和明顯成效,但膳食不合理問題仍十分突出,營(yíng)養(yǎng)不足、營(yíng)養(yǎng)過剩等問題仍需引起關(guān)注。健康飲食已成為廣大民眾追求的目標(biāo),但中國(guó)注冊(cè)營(yíng)養(yǎng)師的數(shù)量仍不容樂觀,網(wǎng)絡(luò)中的營(yíng)養(yǎng)學(xué)知識(shí)通常是海量且分散的,高質(zhì)量的營(yíng)養(yǎng)學(xué)知識(shí)較難獲取,而構(gòu)建營(yíng)養(yǎng)領(lǐng)域知識(shí)圖譜是解決這一問題的有效途徑。
知識(shí)圖譜使用基于圖的數(shù)據(jù)模型,從多元、多結(jié)構(gòu)、多模態(tài)的數(shù)據(jù)中獲取并表達(dá)知識(shí),可用于知識(shí)解釋、判斷和推理[2-3];目前已成功應(yīng)用于智能搜索、智能問答、推薦系統(tǒng)和預(yù)測(cè)等領(lǐng)域[4-8]。
傳統(tǒng)知識(shí)圖譜大多僅包含文本信息,這種單一模態(tài)極大限制機(jī)器理解、解釋和展示現(xiàn)實(shí)世界的能力。事實(shí)上,圖片、視頻、音頻等數(shù)據(jù)也可納入知識(shí)圖譜。多模態(tài)知識(shí)圖譜構(gòu)建方法主要有兩種:基于特征的方法和基于實(shí)體的方法[9]。前者將模態(tài)信息作為實(shí)體的輔助特征或?qū)傩?,要求圖譜中每個(gè)實(shí)體都具備多模態(tài)信息;后者則將不同模態(tài)信息視為關(guān)系三元組,而非輔助特征。目前,基于實(shí)體的方法已成為主流構(gòu)建方法。
1 "資料與方法
1.1" 數(shù)據(jù)獲取與預(yù)處理
本研究的營(yíng)養(yǎng)領(lǐng)域文本數(shù)據(jù)獲取主要來自《中國(guó)食物成分表》《營(yíng)養(yǎng)與食品衛(wèi)生》和百度百科網(wǎng)站,圖像數(shù)據(jù)利用食物實(shí)體在搜索引擎中進(jìn)行爬取。
文本數(shù)據(jù)的預(yù)處理包括語(yǔ)料清洗、中文分詞、詞性標(biāo)注等步驟。對(duì)從百度百科網(wǎng)站獲取的網(wǎng)絡(luò)信息則需特別注意驗(yàn)證信息的準(zhǔn)確性和權(quán)威性,避免引入不準(zhǔn)確或誤導(dǎo)性的知識(shí),污染知識(shí)圖譜。圖像數(shù)據(jù)的預(yù)處理主要是圖像篩選和屬性標(biāo)注。由于下載的圖像數(shù)據(jù)中可能包含大量重復(fù)或相似度過高的圖像,這些圖像對(duì)后續(xù)的圖譜構(gòu)建無益且會(huì)對(duì)計(jì)算造成負(fù)擔(dān),因此應(yīng)進(jìn)行過濾。本文利用感知哈希算法[10]對(duì)圖像進(jìn)行過濾。
1.2" 實(shí)體關(guān)系聯(lián)合抽取
本研究借鑒OneRel模型,將其應(yīng)用到中文實(shí)體關(guān)系聯(lián)合抽取任務(wù)中。對(duì)于文本標(biāo)記,使用“BIE”策略指示token在實(shí)體中的位置信息,如在“充足的蛋白質(zhì)供應(yīng)對(duì)胃癌患者十分重要”句子中,通過運(yùn)用BIE標(biāo)記策略產(chǎn)生4種類型的標(biāo)記,分別是""" ①HB-TB:表示頭實(shí)體開頭和尾實(shí)體開頭?!暗鞍踪|(zhì)”和“胃癌”這兩個(gè)實(shí)體之間存在“宜用”的關(guān)系,因此(“胃”“宜用”“蛋”)的分類標(biāo)簽即為“HB-TB”;②HB-TE表示頭實(shí)體開頭和尾實(shí)體結(jié)尾。(“胃”“宜用”“質(zhì)”)的分類標(biāo)簽即為“HB-TE”;③HE-TE表示頭實(shí)體結(jié)尾和尾實(shí)體結(jié)尾。(“癌”“宜用”“質(zhì)”)的分類標(biāo)簽即為“HE-TE”;④上述3種情況之外的所有情況被標(biāo)記為“–”。中文數(shù)據(jù)集中,DUIE 1.0[11]是一個(gè)較為常用的訓(xùn)練實(shí)體–關(guān)系聯(lián)合抽取模型使用的數(shù)據(jù)集。在此基礎(chǔ)上,本文針對(duì)性地加入本領(lǐng)域標(biāo)注的7種關(guān)系屬性和7種關(guān)系類型近千條標(biāo)注數(shù)據(jù),與DUIE 1.0數(shù)據(jù)集一起轉(zhuǎn)置成模型訓(xùn)練所需的數(shù)據(jù)格式,使得訓(xùn)練的模型即擁有如預(yù)訓(xùn)練模型一樣的通用實(shí)體–關(guān)系聯(lián)合抽取能力,又能提升模型在營(yíng)養(yǎng)知識(shí)領(lǐng)域的表現(xiàn),見表1。采用Python 3.6和PyCharm 2022。在實(shí)體關(guān)系抽取任務(wù)中,常用精確度、召回率和F1值進(jìn)行評(píng)價(jià)。
1.3" 文本圖像實(shí)體鏈接
本研究采用雙流模型的思想,使用圖像編碼器殘差神經(jīng)網(wǎng)絡(luò)(residual neural network,ResNet)[12]處理圖像數(shù)據(jù),使用文本編碼器RoBERTa(robustly optimized BERT pretraining approach,RoBERTa)[13]處理文本數(shù)據(jù),然后將兩個(gè)輸出映射到一個(gè)公共空間中,計(jì)算它們間的相似度得分,獲得最終的分類或預(yù)測(cè)結(jié)果。利用ResNet50和RoBERTa獲得圖像嵌入和文本嵌入后,采用對(duì)比學(xué)習(xí)的思想采用交叉熵?fù)p失進(jìn)行訓(xùn)練。本研究采用網(wǎng)絡(luò)下載的食物實(shí)體圖像進(jìn)行標(biāo)簽標(biāo)注和圖像篩選過濾,形成擁有1000張不重復(fù)的圖像描述數(shù)據(jù)集。本研究使用K召回率(recall at K,Recall@K)作為評(píng)估指標(biāo),表示在最接近查詢的K個(gè)結(jié)果中,正確項(xiàng)目被檢索到的比例。
2" 結(jié)果
2.1" 營(yíng)養(yǎng)知識(shí)圖譜模式層構(gòu)建
參考相關(guān)研究,并圍繞營(yíng)養(yǎng)領(lǐng)域推薦的概念,為營(yíng)養(yǎng)知識(shí)圖譜定義食物種類、食物、食物圖像、營(yíng)養(yǎng)素、人群、疾病、癥狀7個(gè)實(shí)體,見表2?!皩?shí)體–屬性–屬性值”三元組是知識(shí)圖譜中的重要組成部分,本研究對(duì)實(shí)體的屬性特征進(jìn)行具體的刻畫和描述,對(duì)后續(xù)推薦系統(tǒng)的實(shí)現(xiàn)提供重要支撐,見表3。知識(shí)圖譜的實(shí)體之間通過關(guān)系連接成網(wǎng)狀結(jié)構(gòu),從而實(shí)現(xiàn)知識(shí)推理。圍繞知識(shí)圖譜面向的任務(wù),為實(shí)體之間定義7種關(guān)系:“分類”“富含”“宜搭配”“有圖像”“忌用”“宜用”“限制”。實(shí)體間的具體關(guān)系見圖1。
2.2" 實(shí)體關(guān)系聯(lián)合抽取
本研究F1值為0.706,表明該模型有良好的可用性,可在營(yíng)養(yǎng)領(lǐng)域的實(shí)體關(guān)系抽取場(chǎng)景使用。完成實(shí)體關(guān)系抽取后,最終獲得文本實(shí)體3312條,關(guān)系11 259條。
2.3" 文本圖像實(shí)體鏈接
本研究從圖像查詢文本的Recall@1、Recall@5、Recall@10分別為0.657、0.822、0.951,從文本查詢圖像的Recall@1、Recall@5、Recall@10分別為0.630、0.792、0.859,表明該模型對(duì)食物圖像和營(yíng)養(yǎng)相關(guān)文本的特征提取效果較好,模型經(jīng)訓(xùn)練后可獲得良好的實(shí)體鏈接效果,本研究圖譜中包含3312個(gè)文本實(shí)體、11 259條關(guān)系、1000張圖像實(shí)體。
3" 討論
對(duì)實(shí)體關(guān)系聯(lián)合抽取實(shí)驗(yàn)結(jié)果進(jìn)行觀察,發(fā)現(xiàn)抽取的實(shí)體類型的多樣性,驗(yàn)證所用算法可全面覆蓋營(yíng)養(yǎng)領(lǐng)域所需的關(guān)鍵實(shí)體,確保抽取數(shù)據(jù)的豐富性。同時(shí)豐富的關(guān)系也揭示實(shí)體間存在復(fù)雜的相互作用。這些關(guān)系不僅包括食物與營(yíng)養(yǎng)素間的關(guān)系,還涵蓋食物、營(yíng)養(yǎng)素與疾病、人群間的關(guān)聯(lián),證明實(shí)驗(yàn)方法可深入挖掘和理解實(shí)體間的廣泛聯(lián)系。
從文本數(shù)據(jù)中抽取的實(shí)體關(guān)系三元組是構(gòu)建知識(shí)圖譜的基礎(chǔ)。傳統(tǒng)的流水線方法將該任務(wù)分為命名實(shí)體識(shí)別和關(guān)系抽取兩個(gè)子任務(wù),這種方法簡(jiǎn)單但易導(dǎo)致錯(cuò)誤累積,且缺少子任務(wù)間的信息交互[14];面對(duì)多元重疊關(guān)系問題存在局限性。為增強(qiáng)子任務(wù)間的交互性,實(shí)體關(guān)系的聯(lián)合抽取方法應(yīng)運(yùn)而生,其中,基于深度學(xué)習(xí)的端到端模型在該領(lǐng)域表現(xiàn)出極大優(yōu)勢(shì)[15]?;谏疃葘W(xué)習(xí)的實(shí)體關(guān)系聯(lián)合抽取方法可分為多模塊–多步驟方法、多模塊–單步驟方法和單模塊–單步驟方法[16]。OneRel模型是一種基于細(xì)粒度的三重分類模型,有效緩解錯(cuò)誤累積和實(shí)體冗余等問題,在公開數(shù)據(jù)集上取得超越前人的性能[17]。文本與圖像的實(shí)體鏈接通過學(xué)習(xí)文本及對(duì)應(yīng)圖像特征的關(guān)系,推斷它們間的對(duì)齊關(guān)系,從而實(shí)現(xiàn)圖文匹配。根據(jù)使用Transformer模型的模式不同,可將多模態(tài)預(yù)訓(xùn)練模型分為單流模型和雙流模型[18]。本文借鑒OneRel模型,將其應(yīng)用到中文實(shí)體關(guān)系聯(lián)合抽取任務(wù)中。本研究采用雙流模型思想,使用圖像編碼器ResNet[19]處理圖像數(shù)據(jù),使用文本編碼器RoBERTa[13]處理文本數(shù)據(jù),然后將兩個(gè)輸出映射到一個(gè)公共空間中,計(jì)算它們間的相似度得分,獲得最終的分類或預(yù)測(cè)結(jié)果。
本研究文本圖像實(shí)體鏈接的實(shí)驗(yàn)結(jié)果表明該模型對(duì)食物圖像和營(yíng)養(yǎng)相關(guān)文本的特征提取效果較好,模型經(jīng)訓(xùn)練后可獲得良好的實(shí)體鏈接效果。知識(shí)圖譜的存儲(chǔ)方式主要有RDF格式存儲(chǔ)和圖數(shù)據(jù)庫(kù)[20]兩種。RDF格式存儲(chǔ)通過三元組的形式存儲(chǔ)數(shù)據(jù),如Freebase知識(shí)圖譜。圖數(shù)據(jù)庫(kù)的方法比RDF數(shù)據(jù)庫(kù)更加通用。目前典型的開源圖數(shù)據(jù)庫(kù)是Neo4j,本文采用該圖數(shù)據(jù)庫(kù)存儲(chǔ)多模態(tài)數(shù)據(jù)。
本研究存在一定不足:①本文研究依賴單一數(shù)據(jù)集,存在在研究中引入偏見的可能性,限制結(jié)果的普遍性。②本研究對(duì)食物屬性的表達(dá)范圍有限,可能導(dǎo)致某些建議出現(xiàn)偏差;③知識(shí)圖譜目前尚未考慮用戶的特殊情況(體質(zhì)量管理目標(biāo)、食物耐受等),納入這些因素有助于提供更定制化和個(gè)性化的建議,進(jìn)而提高用戶滿意度和參與度。綜上,本研究提出一套構(gòu)建多模態(tài)營(yíng)養(yǎng)知識(shí)圖譜的方案。本研究結(jié)合營(yíng)養(yǎng)學(xué)書籍、百度百科等相關(guān)網(wǎng)站獲取營(yíng)養(yǎng)領(lǐng)域的文本及圖像數(shù)據(jù),借鑒OneRel模型實(shí)現(xiàn)中文實(shí)體和關(guān)系聯(lián)合抽取,并構(gòu)建基于ResNet模型和RoBERTa模型的圖像文本實(shí)體鏈接模型,將圖像數(shù)據(jù)加入到文本知識(shí)子圖,最終實(shí)現(xiàn)構(gòu)建多模態(tài)營(yíng)養(yǎng)知識(shí)圖譜的任務(wù)。在后續(xù)工作中,將考慮納入更多實(shí)體類型,進(jìn)一步細(xì)化實(shí)體間的關(guān)系類型,豐富知識(shí)圖譜內(nèi)容,增強(qiáng)圖譜的推理能力。
利益沖突:所有作者均聲明不存在利益沖突。
[參考文獻(xiàn)]
(收稿日期:2025–05–23)
(修回日期:2025–05–29)
基金項(xiàng)目:科技創(chuàng)新2030“新一代人工智能”重大專項(xiàng)(2020AAA0104905)
通信作者:高東平,電子信箱:gaodp_gaodp@126.com