摘 要:針對油菜科研智能問答輔助的迫切需求,研究提出了一種智能問答模型實(shí)現(xiàn)方案。該方案基于油菜科研論文數(shù)據(jù)源,引入檢索增強(qiáng)生成技術(shù),構(gòu)建了油菜科研智能問答模型。模型通過構(gòu)建向量數(shù)據(jù)庫,優(yōu)化檢索過程并保留上下文信息,顯著提升了查詢的理解能力;同時采用重排機(jī)制,進(jìn)一步增強(qiáng)了模型生成的準(zhǔn)確性。在Ragas評估框架下,與其他基線模型對比,研究方法在各項(xiàng)性能指標(biāo)上均表現(xiàn)出色,顯著優(yōu)于其他方法。研究不僅為油菜科研提供了高效的智能問答工具,而且為智能問答技術(shù)在農(nóng)業(yè)科研中的應(yīng)用提供了新思路與參考。
關(guān)鍵詞:油菜;農(nóng)業(yè)科研;檢索增強(qiáng)生成;問答模型;上下文檢索
中圖分類號:S24;TP18 文獻(xiàn)標(biāo)志碼:A 文章編號:1674-7909(2024)18-150-5
DOI:10.19345/j.cnki.1674-7909.2024.18.037
0 引言
油菜作為全球重要的油料作物,廣泛應(yīng)用于食品加工及工業(yè)生產(chǎn)領(lǐng)域,且隨著人口增長和經(jīng)濟(jì)發(fā)展,其市場需求量持續(xù)攀升[1-2]。然而,油菜科研面臨著數(shù)據(jù)多源、分散、龐大及閱讀效率低下等挑戰(zhàn),一定程度上制約了對油菜作物的科研進(jìn)展。因此,高效獲取和利用相關(guān)信息,已成為油菜科研的迫切需求。
近年來,自然語言處理領(lǐng)域技術(shù)發(fā)展迅速且成果顯著,特別是OpenAI發(fā)布的大語言模型(Large Language Models,LLM)ChatGPT[3],促進(jìn)了AI與科研的深度融合[4],廣泛應(yīng)用于文本生成和回答。這也為科研人員通過AI輔助高效地獲取和利用信息、提高科研效率提供了可能[5]。雖然ChatGPT等LLM展現(xiàn)出強(qiáng)大的文本理解和生成能力[6],但是仍面臨“幻覺”問題導(dǎo)致的錯誤回答[7]、知識時效性問題[8]及缺乏特定領(lǐng)域的專業(yè)知識[9]等局限。這些限制難以滿足科研人員對精準(zhǔn)、實(shí)時信息的獲取需求。
在此背景下,檢索增強(qiáng)生成(Retrieval Augmented Generation,RAG)技術(shù)應(yīng)運(yùn)而生[10],為上述問題的解決帶來新的契機(jī)。RAG通過整合外部知識來源,提升模型在知識密集型任務(wù)中的表現(xiàn),為解決大語言模型局限性問題提供了新的途徑[11]。具體而言,RAG根據(jù)輸入從語料庫中檢索相關(guān)段落,并與輸入、提示詞一同提供給LLM,使LLM能借助外部知識生成更準(zhǔn)確、可信的響應(yīng),并有效應(yīng)對挑戰(zhàn)。
研究基于RAG技術(shù),針對油菜科研中的實(shí)際問題,構(gòu)建了油菜科研智能問答模型。該模型以油菜科研論文為數(shù)據(jù)源,通過融入上下文檢索,保留關(guān)鍵信息的上下文,提高了檢索準(zhǔn)確性;引入重排模型,篩選文檔,提升RAG系統(tǒng)準(zhǔn)確性和回答相關(guān)性,顯著提升了模型對油菜科研文獻(xiàn)的理解力和閱讀效率。
1 檢索增強(qiáng)生成模型
油菜科研檢索增強(qiáng)生成智能問答系統(tǒng)的構(gòu)建框架如圖1所示,其整體流程可劃分為三個核心層級:數(shù)據(jù)處理層、檢索層及生成層。
數(shù)據(jù)處理層處理科研論文數(shù)據(jù),并進(jìn)行精細(xì)切分、上下文檢索預(yù)處理和向量化,構(gòu)建油菜論文向量數(shù)據(jù)庫,為后續(xù)檢索提供數(shù)據(jù)支持。
檢索層將用戶查詢向量化,召回與查詢相關(guān)的Top k文檔,并通過Rerank模型進(jìn)行精細(xì)排序,最終保留Top n個相關(guān)文檔,作為生成層的候選背景信息。
在生成層中,系統(tǒng)結(jié)合大語言模型,將篩選排序后的文檔塊轉(zhuǎn)化為針對用戶查詢的準(zhǔn)確回答,充分利用了檢索層提供的背景信息及大語言模型的文本生成與理解能力。
油菜科研檢索增強(qiáng)生成智能問答系統(tǒng)通過三層緊密的協(xié)作,實(shí)現(xiàn)了從數(shù)據(jù)處理到精準(zhǔn)回答的全過程,達(dá)到為油菜科研提供高效智能的信息檢索和問答服務(wù)的目的。
1.1 向量數(shù)據(jù)庫的構(gòu)建
研究基于油菜作物方面的科研文獻(xiàn),探索并實(shí)施一種高效的向量數(shù)據(jù)庫構(gòu)建與檢索的方法,其主要包括文檔加載、切分、向量化及存儲。
1.1.1 文檔加載
針對PDF格式的文獻(xiàn)數(shù)據(jù),本研究通過光學(xué)字符識別技術(shù)(Optical Character Recognition,OCR)識別圖片和表格中的文本,進(jìn)而對文本內(nèi)容進(jìn)行提取。相較于傳統(tǒng)的純文本匹配方法,此策略顯著提升了信息提取的精度和效率。
1.1.2 文本切分
研究采用了固定大小的分塊策略,每個分塊包含256個單元(token),并設(shè)定了50個token的重疊區(qū)域,以在保持語義連貫性的同時,有效減少噪聲干擾。
1.1.3 向量化模型
研究采用了BGE-M3-Embedding模型。該模型作為兩階段檢索算法的核心組件,通過召回和精排兩個模塊的協(xié)同工作,實(shí)現(xiàn)對用戶問題與知識庫語料之間語義關(guān)系的精準(zhǔn)捕捉。
1.1.4 向量數(shù)據(jù)庫
研究引入Facebook人工智能相似性搜索庫(Facebook AI Similarity Search,F(xiàn)AISS)進(jìn)行相似性搜索。FAISS作為Facebook公司開發(fā)的工具,能夠支持大規(guī)模高維向量數(shù)據(jù)的快速存儲和檢索。
1.2 上下文檢索
在檢索增強(qiáng)生成系統(tǒng)的框架下,傳統(tǒng)的文檔分割策略雖然能夠有效提升檢索效率,但是經(jīng)常出現(xiàn)上下文信息丟失而影響檢索結(jié)果相關(guān)度與精確度的現(xiàn)象。因此,研究引入上下文檢索機(jī)制,作為預(yù)處理策略優(yōu)化檢索。上下文檢索通過在每個文本塊嵌入前預(yù)先添加特定的解釋性上下文,有效解決了傳統(tǒng)RAG系統(tǒng)中的上下文缺失問題。這種上下文嵌入策略不僅使文本塊更完整、更易于理解,還顯著提升了系統(tǒng)檢索和回答問題的準(zhǔn)確性。
該研究使用GPT-4.0模型,結(jié)合Prompt,自動為每個文本塊生成簡潔且富有針對性的上下文信息,其通常包含50~100個token,每個文本塊均攜帶了專屬的上下文,使得模型在檢索和生成回答時能夠準(zhǔn)確地理解和利用這些信息,具體情況如圖2所示。
該項(xiàng)目設(shè)Q為用戶查詢,D為文檔集合,Di為文檔集合中的第i個文檔塊,Ci為與Di相關(guān)聯(lián)的上下文信息。上下文嵌入的目標(biāo)是為每個Di生成一個包含上下文信息的向量表示[Dci],⊕表示上下文信息與文檔塊的拼接操作,Encoder為用于生成向量表示的編碼器模型,計(jì)算公式見式(1):
[Dci=EncoderDi⊕Ci]" (1)
1.3 排序優(yōu)化
在傳統(tǒng)的RAG方法中,初步檢索可能會引入與查詢不緊密相關(guān)的上下文,影響精確性。為提升系統(tǒng)準(zhǔn)確性,引入重排序技術(shù),通過精細(xì)篩選與排序,優(yōu)先選擇高度相關(guān)的上下文。如圖3所示。具體步驟:初步檢索獲取相關(guān)上下文塊,利用重排序模型深度評估這些塊與用戶查詢的相關(guān)性,然后根據(jù)評分選出前K個最高分塊,最后將這些高質(zhì)量上下文傳遞給生成模型,以產(chǎn)生最終響應(yīng)。
研究所采用的Cohere Rerank模型,通過深度語義分析精確排序文本輸入與用戶查詢的語義相關(guān)性,優(yōu)化搜索結(jié)果。技術(shù)上,Cohere模型計(jì)算每個候選文檔塊與用戶查詢之間的高維向量相似度分?jǐn)?shù)。對于給定的查詢Q及候選文檔集DQ,Cohere模型計(jì)算每個文檔塊DQi與Q的相似度Score(Q,DQi),并據(jù)此對DQ中的文檔塊進(jìn)行排序,得到重排序后的上下文集合DrQ。計(jì)算過程見式(2)。
[DrQ=SortDQi,Score(Q,DQi),DQi∈DQ] (2)
其中,Sort函數(shù)根據(jù)Score函數(shù)計(jì)算的相似度分?jǐn)?shù)進(jìn)行排序,篩選出構(gòu)成DrQ的相關(guān)上下文塊。這一機(jī)制確保了RAG系統(tǒng)能夠生成更加準(zhǔn)確、高質(zhì)量的響應(yīng)。
2 驗(yàn)證分析
2.1 數(shù)據(jù)集
為了驗(yàn)證油菜科研領(lǐng)域的查詢問答方法,構(gòu)建了科研論文知識庫和Ragas評估數(shù)據(jù)集。知識庫源自美國國家生物技術(shù)信息中心(NCBI)的854篇油菜相關(guān)論文,細(xì)分為基因定位克隆、基因組測序、抗逆及育種、形態(tài)標(biāo)記性狀等4大類,為問答系統(tǒng)提供專業(yè)背景知識。Ragas評估數(shù)據(jù)集包含用戶查詢、相關(guān)上下文、系統(tǒng)生成的答案及人工標(biāo)注的標(biāo)準(zhǔn)答案。研究為了增強(qiáng)數(shù)據(jù)集多樣性,采用Ragas中基于知識圖譜的方法生成測試集,涵蓋單跳具體查詢(50%)、多跳抽象查詢(25%)和多跳具體查詢(25%),以全面評估問答系統(tǒng)性能。
2.2 評估指標(biāo)
在評估問答系統(tǒng)性能時,采用Ragas評估方法,以衡量模型的檢索精度、召回率、答案相關(guān)性和事實(shí)一致性。具體評估指標(biāo)如下:
2.2.1 Context Precision
該指標(biāo)用于衡量retrieved_contexts的相關(guān)塊比例,其通過計(jì)算檢索結(jié)果中各文本塊相關(guān)性的平均值得出,反映相關(guān)塊在排名靠前的文本塊中的比例,從而評估檢索性能。其計(jì)算公式見式(3):
[Context Precision@K=" " "k=1K Precision@k×vkTotal number of relevant items in the top K results] (3)
2.2.2 Context Recall
該指標(biāo)成功檢索的相關(guān)文檔數(shù)量,調(diào)避免遺漏重要結(jié)果;召回率越高,遺漏的相關(guān)文檔越少。其值范圍在0~1,數(shù)值越大表明性能越優(yōu)。其計(jì)算公式見式(4):
[Context Recall=" " " " "GT claims that can be attributed to contextNumber of claims in GT]" " "(4)
2.2.3 Answer Relevancy
該指標(biāo)用于評估生成答案與提示的相關(guān)性。對于不完整或包含冗余信息的答案,該指標(biāo)將給予較低分?jǐn)?shù),反之則給予較高的分?jǐn)?shù),即分?jǐn)?shù)越高,答案與提示相關(guān)性越強(qiáng)。該指標(biāo)通過user_input、retrieved_contexts和response計(jì)算得出,計(jì)算公式見式(5):
[Answer Relevancy=1Ni=1NcosEgi,Eo]" " " " (5)
2.2.4 Faithfulness
該指標(biāo)用于衡量生成答案在給定上下文中的事實(shí)準(zhǔn)確性。根據(jù)答案和檢索到的上下文內(nèi)容計(jì)算得出,答案的得分被縮放至(0,1)范圍內(nèi),得分越高表示事實(shí)一致性越好。其計(jì)算公式見式(6):
[Faithfulness score=Answer that can be inferred from given contextTotal number of claims in the generated answer]" "(6)
2.3 基線方法對比分析
筆者將研究提出的檢索增強(qiáng)生成方法與當(dāng)前先進(jìn)的幾種基線方法進(jìn)行了對比分析。參與對比分析的基線方法如下所述。
Standard RAG:將原始文本切割成塊并存儲在向量數(shù)據(jù)庫中,通過查詢與文本塊之間的相似度進(jìn)來檢索相關(guān)文本。
RQ-RAG:利用LLM將查詢分解為多個子查詢,以提高搜索準(zhǔn)確性。
HyDE:通過LLM生成假設(shè)文檔,根據(jù)該文檔檢索相關(guān)文本塊形成最終答案。
2.4 實(shí)驗(yàn)環(huán)境
實(shí)驗(yàn)平臺為Ubuntu18.04,NVIDA T4×3,Python3.10版本,PyTorch1.10.2版本,Ragas 0.1.18版本,LangChain0.3.3版本。
2.5 結(jié)果分析
通過RAGAS評估體系評價,具體考察系統(tǒng)對相關(guān)背景知識的檢索與召回效能和最終生成答案的準(zhǔn)確度,以此驗(yàn)證研究提出的模型框架在增強(qiáng)大型語言模型問答能力方面的實(shí)際成效。
根據(jù)表1展示的檢索增強(qiáng)生成智能問答任務(wù)評估結(jié)果,在油菜數(shù)據(jù)集上,當(dāng)采用GPT-4.0作為生成器時,筆者提出的方法表現(xiàn)顯著優(yōu)于其他對比方法。具體而言,在Context Precision和Context Recall評價指標(biāo)上,筆者提出的方法取得了0.951和0.887的分?jǐn)?shù)指標(biāo),領(lǐng)先其他模型。該結(jié)果有力地證明了筆者提出的方法能夠更有效地利用上下文信息,從而檢索出與問題相似度更高的信息塊,進(jìn)一步說明了該方法在信息獲取方面的精準(zhǔn)性得到了顯著提升。
同時,在Faithfulness和Answer Relevancy指標(biāo)上,筆者提出的方法也取得了0.978和0.9642的分?jǐn)?shù),表明該方法能夠通過重排機(jī)制有效篩選并優(yōu)化信息塊,極大地促進(jìn)了與用戶查詢之間的語義匹配度,并顯著提升了排序結(jié)果的準(zhǔn)確性,進(jìn)一步驗(yàn)證了其在信息處理和問答優(yōu)化方面的顯著成效。
3 RAG油菜科研論文模型應(yīng)用
研究提出了基于檢索增強(qiáng)生成的油菜科研智能問答模型,旨在實(shí)現(xiàn)油菜科研領(lǐng)域的高效問答應(yīng)用,主要功能包括智能問答和回答引用查看。
為驗(yàn)證RAG模型在油菜科研領(lǐng)域的準(zhǔn)確性,研究團(tuán)隊(duì)進(jìn)行了多次人機(jī)交互測試。例如,針對“油菜的干旱耐受性與哪些遺傳因素有關(guān)?”這一提問,系統(tǒng)能夠精準(zhǔn)地提供深入的分析與解答,如圖4 所示。
為驗(yàn)證RAG問答模型在油菜科研領(lǐng)域的可靠性,模型提供了“回答引用查看”功能,用戶可以追溯答案的具體來源文獻(xiàn),進(jìn)一步增強(qiáng)了答案的可信度,如圖5所示。
4 結(jié)束語
研究針對油菜科研領(lǐng)域信息檢索與問答需求,提出了一種基于檢索增強(qiáng)生成技術(shù)的智能問答模型,并通過構(gòu)建油菜科研論文向量數(shù)據(jù)庫,并融合上下文檢索與重排模型優(yōu)化策略,提升了問答系統(tǒng)的準(zhǔn)確性與可靠性。測試結(jié)果表明:該模型能補(bǔ)充上下文信息并提高回答結(jié)果準(zhǔn)確度,在各項(xiàng)性能指標(biāo)上均超越基線方法,展現(xiàn)出了顯著的優(yōu)勢。油菜科研智能問答模型不僅為油菜科研提供了高效問答工具,也為智能問答技術(shù)在農(nóng)業(yè)科研的應(yīng)用提供了新思路。
參考文獻(xiàn):
[1]劉成,趙麗佳,唐晶,等.中美貿(mào)易沖突背景下中國油菜產(chǎn)業(yè)發(fā)展問題探索[J].中國油脂,2019,44(9):1-6,11.
[2]李谷成,牛秋純,冷博峰,等.新時代十年:我國油菜產(chǎn)業(yè)發(fā)展與路徑選擇[J].中國油料作物學(xué)報(bào),2024,46(2):228-235.
[3]BROWN T,MANN B,RYDER N,et al.Language models are few-shot learners[C]//Advances in Neural Information Processing Systems:Vol.33.Curran Associates,Inc,2020:1877-1901.
[4]OWENS B.How nature readers are using ChatGPT[J].Nature,2023,615(7950):20-20.
[5]GRUDA D.Three ways ChatGPT helps me in my academic writing[J].Nature,2024.
[6]BANG Y,CAHYAWIJAYA S,LEE N,et al.A multitask,multilingual,multimodal evaluation of ChatGPT on reasoning, hallucination,and interactivity[C]//Park J C,Arase Y,Hu B,et al.Proceedings of the 13th International Joint Conference on Natural Language Processing and the 3rd Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics (Volume 1:Long Papers).Nusa Dua,Bali: Association for Computational Linguistics,2023:675-718.
[7]JI Z,LEE N,F(xiàn)RIESKE R,et al.Survey of Hallucination in Natural Language Generation[J].ACM Comput.Surv,2023,55(12):248:1-248:38.
[8]CAO B,LIN H,HAN X,et al.Knowledgeable or educated guess?Revisiting language models as knowledge bases[C]//Zong C,Xia F,Li W,et al.Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1:Long Papers).Online:Association for Computational Linguistics,2021:1860-1874.
[9]ZHANG T,PATIL S G,JAIN N,et al.RAFT:adapting language model to domain specific RAG[C]//First Conference on Language Modeling.2024.
[10]LEWIS P,PEREZ E,PIKTUS A,et al.Retrieval-augmented generation for knowledge-intensive NLP tasks[C]//Advances in Neural Information Processing Systems:Vol.33.Curran Associates,Inc,2020:9459-9474.
[11]FAN W,DING Y,NING L,et al.A survey on RAG meeting LLMs:towards retrieval-augmented large language models[C]//Proceedings of the 30th ACM SIGKDD Conference on Knowledge Discovery and Data Mining.New York,NY,USA:Association for Computing Machinery,2024:6491-6501.
基金項(xiàng)目:2024湖南農(nóng)業(yè)大學(xué)學(xué)位與研究生教學(xué)改革研究項(xiàng)目(XJG2024019)。
作者簡介:張藝(1999—),男,碩士生,研究方向:農(nóng)業(yè)信息化。
通信作者:聶笑一(1978—),男,博士,副教授,研究方向:復(fù)雜網(wǎng)絡(luò)、人工智能、生物信息。