關(guān)鍵詞:高校知識(shí)服務(wù);智能問(wèn)答系統(tǒng);檢索增強(qiáng)生成;機(jī)器學(xué)習(xí)
0 引言
隨著信息技術(shù)的迅猛發(fā)展和高校知識(shí)服務(wù)需求的日益增長(zhǎng),傳統(tǒng)的知識(shí)檢索方式已難以滿足用戶需求。在此背景下,智能問(wèn)答系統(tǒng)憑借其高效、精準(zhǔn)、便捷等優(yōu)勢(shì),成為提升高校知識(shí)服務(wù)水平的重要途徑[1]。然而,將這些先進(jìn)技術(shù)應(yīng)用于高校知識(shí)庫(kù)智能問(wèn)答系統(tǒng)仍面臨諸多挑戰(zhàn),例如高校知識(shí)的復(fù)雜性、用戶查詢的多樣性以及系統(tǒng)性能的保障等。
為了解決上述挑戰(zhàn),本文提出了一種基于大語(yǔ)言模型(Large Language Models, LLM) 和檢索增強(qiáng)生成(Retrieval-Augmented Generation, RAG) 技術(shù)的高校知識(shí)庫(kù)智能問(wèn)答系統(tǒng)。該系統(tǒng)旨在為高校師生提供高效、準(zhǔn)確、個(gè)性化的知識(shí)服務(wù)。本文首先對(duì)相關(guān)技術(shù)進(jìn)行分析,然后介紹系統(tǒng)的架構(gòu)設(shè)計(jì)和功能模塊,最后通過(guò)實(shí)驗(yàn)評(píng)估系統(tǒng)性能,并探討未來(lái)的研究方向。
1 相關(guān)工作
本研究的相關(guān)研究工作分為知識(shí)源構(gòu)建、智能問(wèn)答技術(shù)和高校信息服務(wù)三個(gè)部分。
1.1 高校智能問(wèn)答知識(shí)源構(gòu)建
高校智能問(wèn)答系統(tǒng)的核心在于其豐富、準(zhǔn)確且結(jié)構(gòu)化的知識(shí)源。知識(shí)源的構(gòu)建過(guò)程,包括數(shù)據(jù)收集、文檔處理、內(nèi)容提取和知識(shí)組織等關(guān)鍵步驟。
1.1.1 知識(shí)源數(shù)據(jù)收集
高校智能問(wèn)答知識(shí)源主要來(lái)源包括但不限于以下幾個(gè)方面:
1) 教學(xué)資料:課程大綱、教學(xué)計(jì)劃、講義、試卷等。
2) 科研文獻(xiàn):學(xué)術(shù)論文、研究報(bào)告、專利文檔等。3) 管理文件:規(guī)章制度、通知公告、會(huì)議紀(jì)要等。4) 學(xué)生服務(wù):學(xué)生手冊(cè)、就業(yè)指南、心理健康資料等。5) 校園生活:校歷、活動(dòng)安排、設(shè)施使用說(shuō)明等。這些來(lái)源文件可能以多種格式存在,如純文本(. txt)、PDF文件(.pdf)、Word文檔(.doc/.docx)、HTML網(wǎng)頁(yè)及圖片等。
1.1.2 文檔預(yù)處理
文檔預(yù)處理是構(gòu)建高質(zhì)量知識(shí)源的關(guān)鍵步驟,主要包括以下幾個(gè)方面:1) 文本清洗:使用正則表達(dá)式和自定義規(guī)則去除無(wú)關(guān)的標(biāo)記、特殊字符和冗余信息。2) 格式標(biāo)準(zhǔn)化:將不同來(lái)源的文檔轉(zhuǎn)換為統(tǒng)一的UTF-8編碼,便于后續(xù)處理。3) 元數(shù)據(jù)提?。簭奈臋n中提取標(biāo)題、作者、日期等元信息,用于后續(xù)的知識(shí)組織和檢索。
1.1.3 內(nèi)容提取與分段
由于大語(yǔ)言模型(如Chat-GPT、BERT、文心一言等)通常有輸入長(zhǎng)度限制,需要對(duì)較長(zhǎng)文檔進(jìn)行切分處理。目前幾種主流開(kāi)源框架(如LangChain、Lla? maIndex、Haystack等)都提供了文本分割器。以目前使用率最高的LangChain框架為例[2],基本的文檔分割器包括:1) 基于字符數(shù)的分割器:CharacterTextSplit? tSeprl;it2te) r遞;3歸) 基字于符令文牌本數(shù)分進(jìn)割行器分:割R器ec:uTrsoikveenCTheaxratScptelirtTteerx。
基于這些基本文檔分割器構(gòu)建的系統(tǒng)往往還達(dá)不到實(shí)際應(yīng)用的需要,LangChain還提供了進(jìn)階文檔分割器,如:1) 多維向量檢索器:MultiVectorRetriever;2) 基于上下文壓縮檢索器:Contextual compression;3) 自查詢檢索器:Self-querying;4) 混合檢索器:En? semble Retriever。
1.1.4 方法比較與分析
為了找到適合構(gòu)建高校智能問(wèn)答系統(tǒng)的文檔分割器,研究設(shè)計(jì)了一組評(píng)估指標(biāo)并進(jìn)行了實(shí)驗(yàn)。評(píng)估指標(biāo)包括:1) 保持語(yǔ)義完整性的能力;2) 適應(yīng)不同類型文檔的能力;3) 處理大量文檔的效率;4) API的友好程度和使用難度。
實(shí)驗(yàn)結(jié)果如表1所示。
LangChain 的RecursiveCharacterTextSplitter 在保持語(yǔ)義完整性和靈活性方面表現(xiàn)出色,但在處理大量文檔時(shí)速度相對(duì)較慢。相對(duì)而言,LlamaIndex 的SimpleNodeParser 則以處理速度快和易于使用而著稱,但在面對(duì)復(fù)雜文檔結(jié)構(gòu)時(shí)可能缺乏足夠的靈活性[3]。Haystack的PreProcessor提供了豐富的預(yù)處理選項(xiàng),適合處理多樣化文檔,但其配置過(guò)程相對(duì)復(fù)雜[4]。本文使用的LangChain Ensemble Retriever在分割質(zhì)量和易用性方面表現(xiàn)最佳,盡管其實(shí)現(xiàn)復(fù)雜度較高且處理速度處于中等水平。
Ensemble Retriever可以集成多個(gè)檢索器,結(jié)合稀疏檢索器(如BM25檢索器)與密集檢索器(如FAISS 檢索器)。BM25檢索器在根據(jù)關(guān)鍵詞查找相關(guān)文檔方面表現(xiàn)優(yōu)異,而FAISS檢索器則在基于語(yǔ)義相似度查找相關(guān)文檔方面更加突出。算法會(huì)對(duì)檢索到的多個(gè)文檔進(jìn)行排名,并結(jié)合兩種算法的權(quán)重設(shè)置,以找到最相關(guān)的文檔,從而為用戶提供準(zhǔn)確的答案。
在實(shí)際的實(shí)現(xiàn)與優(yōu)化過(guò)程中,還需要根據(jù)實(shí)時(shí)反饋調(diào)整分割參數(shù)(如chunk_size和overlap參數(shù)),并進(jìn)行質(zhì)量控制,以實(shí)現(xiàn)基于語(yǔ)義相似度的檢查,確保文檔切分不會(huì)破壞關(guān)鍵語(yǔ)義單元。通過(guò)上述策略和優(yōu)化措施,我們?cè)趯?shí)驗(yàn)中實(shí)現(xiàn)了比單一方法高近15%的F1分?jǐn)?shù),同時(shí)保持了可接受的處理速度。這為后續(xù)的知識(shí)提取和問(wèn)答系統(tǒng)奠定了堅(jiān)實(shí)的基礎(chǔ)。
1.2 基于RAG 的智能問(wèn)答技術(shù)
智能問(wèn)答技術(shù)的發(fā)展經(jīng)歷了基于規(guī)則、基于檢索及基于神經(jīng)網(wǎng)絡(luò)多個(gè)階段。隨著大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型的快速發(fā)展,智能問(wèn)答系統(tǒng)的性能得到了顯著提升。ChatGPT、Claude等模型展現(xiàn)了驚人的自然語(yǔ)言理解和生成能力,為問(wèn)答系統(tǒng)帶來(lái)了新的可能性。但這些系統(tǒng)仍然面臨著知識(shí)時(shí)效性、事實(shí)準(zhǔn)確性和計(jì)算資源消耗等挑戰(zhàn)。
為了解決這些問(wèn)題,RAG技術(shù)應(yīng)運(yùn)而生。RAG模型不僅通過(guò)結(jié)合外部知識(shí)檢索和語(yǔ)言生成,顯著提高了回答的準(zhǔn)確性和可靠性,還通過(guò)在解碼階段融合多個(gè)檢索結(jié)果,進(jìn)一步提升了問(wèn)答質(zhì)量。
1.2.1 RAG 問(wèn)答架構(gòu)基本思路
RAG問(wèn)答架構(gòu)的核心思想是將外部知識(shí)庫(kù)與生成模型相結(jié)合,以提高問(wèn)答系統(tǒng)的準(zhǔn)確性和可解釋性。其基本流程如圖1所示,主要包括以下步驟:1) 向量化用戶問(wèn)題:對(duì)用戶輸入的問(wèn)題進(jìn)行向量化,以便系統(tǒng)能理解語(yǔ)義和識(shí)別意圖。2) 相似度檢索:通過(guò)對(duì)問(wèn)題的向量化表示,從預(yù)先構(gòu)建的知識(shí)庫(kù)中檢索相關(guān)信息。3) 上下文融合:將檢索到的信息與原始問(wèn)題進(jìn)行融合,形成增強(qiáng)的上下文。4) 答案生成:利用大規(guī)模語(yǔ)言模型,基于增強(qiáng)上下文生成最終答案。
上述流程通過(guò)結(jié)合檢索與生成的優(yōu)勢(shì),不僅提高了智能問(wèn)答的準(zhǔn)確性,也提升了系統(tǒng)的整體性能和用戶體驗(yàn)。
1.2.2 RAG 問(wèn)答架構(gòu)優(yōu)勢(shì)
相比于傳統(tǒng)的問(wèn)答方法和純生成模型,RAG架構(gòu)在知識(shí)時(shí)效性、事實(shí)準(zhǔn)確性、可解釋性、領(lǐng)域適應(yīng)性、計(jì)算效率、隱私保護(hù)以及持續(xù)學(xué)習(xí)能力等方面具有顯著優(yōu)勢(shì),從而為智能問(wèn)答技術(shù)的發(fā)展開(kāi)辟了新的方向。RAG技術(shù)結(jié)合了大語(yǔ)言模型(LLM) 的生成能力和知識(shí)庫(kù)的專業(yè)性,能夠有效解決LLM在特定領(lǐng)域知識(shí)不足的問(wèn)題,因此近年來(lái)被廣泛應(yīng)用于智能客服、醫(yī)療診斷、教育輔助等領(lǐng)域。
1.3 高校信息服務(wù)
高校信息服務(wù)的智能化是近年來(lái)的研究熱點(diǎn)。Li 等[5]設(shè)計(jì)了一個(gè)基于知識(shí)圖譜的高校教務(wù)咨詢系統(tǒng),通過(guò)語(yǔ)義分析提高了查詢的準(zhǔn)確率。Zhao等[6]則探索了個(gè)性化學(xué)習(xí)助手的構(gòu)建,利用強(qiáng)化學(xué)習(xí)技術(shù)優(yōu)化了對(duì)話策略,從而提升了用戶體驗(yàn)。然而,現(xiàn)有研究多聚焦于特定領(lǐng)域或單一功能,缺乏對(duì)高校全局知識(shí)的綜合考慮。此外,如何有效整合最新的LLM和RAG技術(shù)以適應(yīng)高校場(chǎng)景,仍是一個(gè)亟待解決的問(wèn)題。
2 高校知識(shí)庫(kù)智能問(wèn)答系統(tǒng)設(shè)計(jì)、實(shí)現(xiàn)與性能評(píng)估
基于對(duì)RAG架構(gòu)的分析,本文設(shè)計(jì)并實(shí)現(xiàn)了一種高校知識(shí)庫(kù)智能問(wèn)答系統(tǒng),該系統(tǒng)旨在為高校師生提供高效、準(zhǔn)確的知識(shí)服務(wù),同時(shí)滿足高校管理的特殊需求。主要模塊包括用戶接口模塊、問(wèn)題解析模塊、知識(shí)檢索模塊、答案生成模塊、知識(shí)庫(kù)管理模塊以及日志與監(jiān)控模塊。
2.1 用戶接口模塊
用戶接口模塊是系統(tǒng)與用戶交互的前端,其設(shè)計(jì)直接影響用戶體驗(yàn)和系統(tǒng)使用效率。該模塊采用響應(yīng)式設(shè)計(jì),確保在不同設(shè)備上提供一致的體驗(yàn)。主要功能包括:
1) 多模態(tài)輸入:支持文本、語(yǔ)音和圖像等多種輸入方式。
2) 對(duì)話管理:實(shí)現(xiàn)多輪對(duì)話功能,維護(hù)上下文信息。
3) 個(gè)性化界面:根據(jù)用戶角色動(dòng)態(tài)調(diào)整界面和功能權(quán)限。
4) 結(jié)果展示:采用分層結(jié)構(gòu)展示答案,并支持源文檔鏈接和相關(guān)推薦。
實(shí)現(xiàn)方式:本系統(tǒng)采用響應(yīng)式設(shè)計(jì),使用Streamlit 框架構(gòu)建前端,利用WebSocket實(shí)現(xiàn)實(shí)時(shí)通信,并集成了開(kāi)源引擎edge_tts以支持語(yǔ)音輸入和輸出。
效果:該模塊確保了用戶在不同設(shè)備上的一致性體驗(yàn),提高了系統(tǒng)的適用性和易用性,并增強(qiáng)了系統(tǒng)的實(shí)時(shí)性能。
2.2 問(wèn)題解析模塊
功能描述: 問(wèn)題解析模塊是智能問(wèn)答系統(tǒng)的關(guān)鍵環(huán)節(jié),直接影響后續(xù)檢索和生成過(guò)程的質(zhì)量。主要功能包括輸入清洗、分詞和向量編碼。
實(shí)現(xiàn)方式: 采用基于HuggingFace框架的自然語(yǔ)言處理模型,使用基于BERT的多標(biāo)簽分類模型[7]和bge-large-zh模型[8]構(gòu)建多階段、高精度的問(wèn)題解析流程。具體步驟包括:1) 輸入清洗:去除特殊字符、統(tǒng)一標(biāo)點(diǎn)符號(hào)等。2) 分詞:使用jieba分詞器進(jìn)行中文分詞,保留原始詞序信息。3) 向量編碼:使用bge-large- zh模型獲取向量表示。
效果:這種查詢擴(kuò)展方法平均提高了10.5%的召回率,同時(shí)保持了較高的精確度。
2.3 知識(shí)檢索模塊
功能描述: 知識(shí)檢索模塊負(fù)責(zé)從海量知識(shí)庫(kù)中快速、準(zhǔn)確地檢索相關(guān)信息。它采用多階段的混合檢索策略,結(jié)合語(yǔ)義檢索和關(guān)鍵詞檢索的優(yōu)勢(shì)。
實(shí)現(xiàn)方式:
1) 向量索引構(gòu)建:使用bge-large-zh模型對(duì)文檔進(jìn)行編碼,并采用Faiss庫(kù)構(gòu)[9]建向量索引。
2) 語(yǔ)義檢索:采用兩階段檢索策略:①粗檢索:使用HNSW索引快速返回Top-6候選文檔;②精檢索:對(duì)候選文檔進(jìn)行精確的余弦相似度計(jì)算,重新排序并返回Top-2結(jié)果。
效果: 與單階段檢索相比,兩階段策略在保持相近召回率的同時(shí),將檢索時(shí)間減少了40%。
2.4 答案生成模塊
功能描述: 答案生成模塊負(fù)責(zé)將檢索到的相關(guān)信息轉(zhuǎn)化為連貫、準(zhǔn)確的自然語(yǔ)言回答。
實(shí)現(xiàn)方式: 該模塊采用基于大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型的生成式方法,結(jié)合多文檔摘要和實(shí)體關(guān)聯(lián)技術(shù)。選用qwen:72b-chat[10]作為基礎(chǔ)生成模型,該模型具有720億參數(shù),并對(duì)中英雙語(yǔ)對(duì)話的支持度較高。
效果: 在系統(tǒng)性能評(píng)估中,答案的準(zhǔn)確率達(dá)到了87.8%。
2.5 知識(shí)庫(kù)管理模塊
功能描述: 知識(shí)庫(kù)管理模塊負(fù)責(zé)知識(shí)的存儲(chǔ)、更新和質(zhì)量控制,以保證系統(tǒng)的長(zhǎng)期有效運(yùn)行。
實(shí)現(xiàn)方式:
1) 存儲(chǔ)結(jié)構(gòu):采用FAISS向量數(shù)據(jù)庫(kù)存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù)。
2) 知識(shí)抽取與更新:設(shè)計(jì)基于規(guī)則和機(jī)器學(xué)習(xí)的混合知識(shí)抽取管道,包括系統(tǒng)對(duì)接、文本分類和信息抽取。
3) 質(zhì)量控制機(jī)制:實(shí)施多層次質(zhì)量控制,包括自動(dòng)化檢查、眾包標(biāo)注和版本控制[11]。
效果: 通過(guò)上述機(jī)制,問(wèn)答的準(zhǔn)確率從初始的72.3%提升至87.8%。
2.6 日志與監(jiān)控模塊
功能描述: 日志與監(jiān)控模塊負(fù)責(zé)系統(tǒng)運(yùn)行狀態(tài)的實(shí)時(shí)監(jiān)控、性能分析和異常檢測(cè),從而保障系統(tǒng)的穩(wěn)定性和持續(xù)優(yōu)化。
實(shí)現(xiàn)方式: 該模塊設(shè)計(jì)了用戶反饋收集和分析系統(tǒng),在每次問(wèn)答交互后收集用戶滿意度評(píng)分和文本反饋,并利用機(jī)器學(xué)習(xí)算法持續(xù)優(yōu)化問(wèn)答質(zhì)量。
效果: 用戶滿意度在6個(gè)月內(nèi)從初始的78%提升至91%。
2.7 系統(tǒng)性能評(píng)估
為全面評(píng)估系統(tǒng)性能,研究團(tuán)隊(duì)設(shè)計(jì)了包括準(zhǔn)確性、響應(yīng)時(shí)間和F1分?jǐn)?shù)等在內(nèi)的多維度評(píng)估指標(biāo)。在某高校進(jìn)行的為期3個(gè)月的試點(diǎn)應(yīng)用中,系統(tǒng)展現(xiàn)出優(yōu)異的性能:
1) 準(zhǔn)確性:對(duì)1 000個(gè)隨機(jī)選取的問(wèn)題進(jìn)行系統(tǒng)輸出答案與標(biāo)準(zhǔn)答案的相似度計(jì)算,這是評(píng)估智能問(wèn)答系統(tǒng)準(zhǔn)確性的關(guān)鍵指標(biāo)。測(cè)試使用了Levenshtein 距離計(jì)算生成答案與正確答案之間的相似度,答案的準(zhǔn)確率達(dá)到87.8%。
2) 響應(yīng)時(shí)間:90%的查詢?cè)?秒內(nèi)完成,滿足實(shí)時(shí)交互需求。
3) F1分?jǐn)?shù):通過(guò)計(jì)算,平均精確度為81.8%,平均召回率為87.9%,平均F1分?jǐn)?shù)為84.1%。
與傳統(tǒng)基于檢索的問(wèn)答系統(tǒng)相比,本系統(tǒng)在復(fù)雜問(wèn)題處理和知識(shí)推理能力上表現(xiàn)出明顯優(yōu)勢(shì)。然而,我們也發(fā)現(xiàn)系統(tǒng)在處理跨領(lǐng)域問(wèn)題和低頻專業(yè)術(shù)語(yǔ)時(shí)仍有提升空間。
3 總結(jié)與展望
本文圍繞高校智能問(wèn)答系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)展開(kāi),提出了一種基于大語(yǔ)言模型和RAG技術(shù)的智能問(wèn)答系統(tǒng)。該系統(tǒng)為高校信息服務(wù)提供了新的范式,同時(shí)也為智能問(wèn)答技術(shù)在特定領(lǐng)域的應(yīng)用提供了借鑒。以下總結(jié)了主要研究成果及未來(lái)研究方向。
3.1 主要研究成果
1) 開(kāi)發(fā)了融合向量檢索和關(guān)鍵詞檢索的混合策略,優(yōu)化了知識(shí)檢索效率,檢索時(shí)間減短了40%。
2) 實(shí)現(xiàn)了基于qwen:72b-chat的答案生成模塊,結(jié)合RAG技術(shù)顯著提升了模型性能,問(wèn)答準(zhǔn)確率和用戶滿意度分別提升了15.5和13個(gè)百分點(diǎn)。
3) 構(gòu)建了FAISS向量庫(kù)存儲(chǔ)架構(gòu),并設(shè)計(jì)了自動(dòng)化與人工審核相結(jié)合的知識(shí)更新流程,使知識(shí)庫(kù)的準(zhǔn)確率提升至97.1%。
4) 設(shè)計(jì)了用戶反饋分析系統(tǒng),利用機(jī)器學(xué)習(xí)算法持續(xù)優(yōu)化問(wèn)答質(zhì)量。
3.2 研究局限性
盡管本研究取得了一定成果,但仍存在以下局限性:
1) 知識(shí)更新的實(shí)時(shí)性:知識(shí)抽取和更新機(jī)制存在滯后性,難以滿足快速變化信息的即時(shí)更新需求。
2) 多模態(tài)交互:當(dāng)前系統(tǒng)主要基于文本交互,缺乏對(duì)圖像、語(yǔ)音等多模態(tài)信息的處理能力。
3) 跨語(yǔ)言能力:系統(tǒng)主要針對(duì)中英文環(huán)境進(jìn)行優(yōu)化,對(duì)多語(yǔ)言和跨語(yǔ)言問(wèn)答的支持有限。
3.3 未來(lái)研究方向
基于上述局限性以及智能問(wèn)答技術(shù)的發(fā)展趨勢(shì),提出以下未來(lái)研究方向?yàn)椋?/p>
1) 引入多模態(tài)知識(shí)表示,提升系統(tǒng)對(duì)圖片、視頻等非文本信息的理解能力。
2) 探索基于知識(shí)圖譜的推理機(jī)制,增強(qiáng)系統(tǒng)的邏輯推理能力。
3) 實(shí)現(xiàn)知識(shí)庫(kù)的自動(dòng)更新和質(zhì)量控制機(jī)制,確保知識(shí)的時(shí)效性和準(zhǔn)確性。
4) 研究個(gè)性化問(wèn)答技術(shù),根據(jù)用戶背景和偏好定制答案生成策略。