亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合預訓練語言模型的知識圖譜在政務問答系統(tǒng)中的應用研究

        2024-10-09 00:00:00張朝陽沈建輝葉偉榮
        數(shù)字通信世界 2024年9期

        摘要:該文針對當前政務問答系統(tǒng)面臨的復雜語境理解、政策法規(guī)解釋等問題,探討了如何將預訓練語言模型與知識圖譜進行有效融合,以實現(xiàn)更加精準、全面和個性化的政務信息問答服務,構(gòu)建了政務問答系統(tǒng)框架,利用知識圖譜和大模型工具驗證了該方法在提高問答準確率、增強上下文理解能力方面的顯著優(yōu)勢。

        關(guān)鍵詞:知識圖譜;自然語言處理;預訓練語言模型;三元組;知識庫

        doi:10.3969/J.ISSN.1672-7274.2024.09.063

        中圖分類號:TP 3 文獻標志碼:A 文章編碼:1672-7274(2024)09-0-03

        Research on the Application of Knowledge Graph Integrated with Pre-trained Language Models in Government Question-answering Systems

        ZHANG Chaoyang, SHEN Jianhui, YE Weirong

        (Zhejiang Public Information Industry Co., LTD., Hangzhou 310000, China)

        Abstract: Aiming at the problems of complex context understanding and interpretation of policies and regulations faced by the current government question answering system, this paper discusses how to effectively integrate pre-trained language models and knowledge graphs, so as to realize more accurate, comprehensive and personalized government information question answering service. The framework of government question answering system is constructed, and the significant advantages of this method in improving the accuracy of question answering and enhancing the context understanding ability are verified by using knowledge graph and large model tools.

        Keywords: knowledge graph; natural language processing; pre-trained language model; triple; knowledge base

        0 引言

        政務問答系統(tǒng)的核心在于如何更好地建模語言、理解和輸出文本信息,本文以政務服務垂直領域在線咨詢問答場景為例,探索預訓練語言模型與知識圖譜的融合應用。

        1 理論基礎及相關(guān)工作

        1.1 預訓練語言模型研究進展

        預訓練語言模型[1]是近年來自然語言處理領域的重要突破,其核心思想是通過大規(guī)模無標簽文本數(shù)據(jù)進行自監(jiān)督學習,從而獲得對語言深層次結(jié)構(gòu)和語義的理解能力。2017年,谷歌團隊提出了Transformer模型。基于此,Devlin等人提出了BERT預訓練模型,極大地提高了機器閱讀理解模型的性能,BERT[2]采用了雙向Transformer編碼器,GPT系列則使用了單向Transformer解碼器。GPT-4[3]等后續(xù)模型則主要通過因果關(guān)系模型來預測下一個單詞。預訓練語言模型經(jīng)歷了從ELMo[4]到BERT,再到GPT、T5、RoBERTa、ALBERT[5]等一系列迭代升級,涌現(xiàn)出諸多基于BERT模型的變體,如Macbert[6]、ALBERT和AMBERT等。國內(nèi)科技公司和科研機構(gòu)紛紛發(fā)力相繼推出了百度“文心一言”、騰訊“混元”大模型、阿里“通義千問”、華為盤古大模型、智譜清言、訊飛星火等一系列國產(chǎn)大模型。預訓練語言模型在數(shù)字政府領域應用場景涉及智能客服與問答、文檔理解和信息提取、輿情分析與事件監(jiān)測、政務知識圖譜等。

        1.2 知識圖譜在問答系統(tǒng)中的作用

        1.2.1 政務問答系統(tǒng)的挑戰(zhàn)

        政務問答系統(tǒng)在實現(xiàn)智能化即時互動的同時,面臨諸多挑戰(zhàn)。政務數(shù)據(jù)分布在不同部門和系統(tǒng)中,整合難度大。用戶咨詢的問題可能涉及復雜語境、多種表達方式,系統(tǒng)需具備高精度的自然語言處理能力,理解用戶的真實意圖。問答系統(tǒng)應能快速適應新出臺的法律條文,不斷引入AI、深度學習等前沿技術(shù),降低維護成本并提高服務效能。

        1.2.2 知識圖譜在問答系統(tǒng)中的作用

        針對政務問答系統(tǒng)面臨的以上挑戰(zhàn),利用知識圖譜技術(shù)能夠顯著提升問答系統(tǒng)的性能和智能化程度。知識圖譜提供了豐富的語義上下文和關(guān)系結(jié)構(gòu),使得問答系統(tǒng)能夠理解問題背后的復雜意圖,并通過關(guān)系推理來找到答案?;谥R圖譜,問答系統(tǒng)可以進行高效且精準的信息檢索,利用實體之間的關(guān)聯(lián)快速定位相關(guān)信息,從而給出準確的答案。

        1.3 融合預訓練模型與知識圖譜的最新研究

        張鶴譯[7]等提出,融合大型語言模型與專業(yè)知識庫基于提示學習的問答系統(tǒng)范式,并實證了該方法有助于解決專業(yè)領域問答系統(tǒng)數(shù)據(jù)+微調(diào)范式帶來的災難性遺忘問題。在醫(yī)學大模型BioLAMA和MedLAMA中,通過利用醫(yī)學知識圖譜來探索大語言模型中的醫(yī)學知識應用。醫(yī)療大模型華駝(本草)在參考中文醫(yī)學知識圖譜的基礎上,基于中文醫(yī)學知識的LLaMA微調(diào)模型,采用了公開和自建的中文醫(yī)學知識庫,使語言模型具備像醫(yī)生一樣的診斷能力。百度“文心一言”、通義千問等國產(chǎn)大模型在訓練過程中也融入了豐富的知識資源,增強了模型的知識理解和推理能力。

        2 知識圖譜在政務領域的構(gòu)建策略

        2.1 政務知識庫

        為滿足政務信息智能問答需求,需收集涵蓋各政府部門、公共服務機構(gòu)及社會關(guān)注熱點的所有相關(guān)政策、法規(guī)、辦事指南、常見問題解答等信息,構(gòu)建政務知識庫。統(tǒng)一知識條目的分類、編碼、格式等標準,便于檢索、管理和使用。

        2.2 政務問答知識抽取與建模

        政務知識圖譜的知識建模與本體設計過程是將政務領域內(nèi)的實體、屬性和關(guān)系以一種結(jié)構(gòu)化和標準化的方式來表示。通過設計政務領域?qū)俦倔w,定義實體類別、屬性以及關(guān)系類型,構(gòu)建適合政務場景的知識表示框架。將抽取出來的實體及其關(guān)系整合到知識圖譜中,通過鏈接和推理填補缺失信息,形成一個結(jié)構(gòu)化的知識網(wǎng)絡,如表1所示。

        3 融合大模型與知識圖譜的問答系統(tǒng)構(gòu)建方法

        3.1 系統(tǒng)總體框架

        政務問答系統(tǒng)基于政務知識庫,通過大模型和知識圖譜融合進行預訓練和微調(diào),完成信息抽取、知識分類等任務,并通過知識推理、問答交互支撐服務端的在線咨詢交互場景。

        3.2 融合預訓練模型與知識圖譜的問答機制

        利用預訓練模型對政務知識進行知識抽取主要包括以下幾個主要步驟:

        (1)選擇預訓練模型。大部分預訓練模型基于或參考了BERT的多層Transformer結(jié)構(gòu)。標注語料經(jīng)過BERT預訓練語言模型獲得相應的詞向量,之后再把詞向量輸入到BiLSTM模塊中做進一步處理,最終利用CRF模塊對BiLSTM模塊的輸出結(jié)果進行解碼,得到一個預測標注序列,然后對序列中的各個實體進行提取分類。

        (2)數(shù)據(jù)集準備及預處理。數(shù)據(jù)集包括開源文本集、法規(guī)政策文件、權(quán)力事項清單、常用典型問答等,由業(yè)務專家輔以標注處理,對原始文本數(shù)據(jù)進行分詞、詞語切分、填充或截斷等預處理操作,使其符合預訓練模型的輸入格式要求。本文選擇開源中文本數(shù)據(jù)集和自有業(yè)務數(shù)據(jù)作為實驗數(shù)據(jù),包括THUCNews數(shù)據(jù)集、MSRA數(shù)據(jù)集、PKU人民日報語料庫、法律法規(guī)、典型案例問答。

        (3)模型微調(diào)。對選定的預訓練模型進行適應性訓練,加載預訓練模型權(quán)重;根據(jù)具體任務構(gòu)建下游任務的模型架構(gòu),例如,在預訓練模型頂部添加額外的分類層或序列標注層,將預訓練模型應用于知識抽取任務的數(shù)據(jù)集上,通過反向傳播和優(yōu)化算法更新模型參數(shù),使模型能夠?qū)W習到抽取所需知識的規(guī)律。本文通過業(yè)務專家標注和注入專業(yè)知識庫方式增強回答的專業(yè)性。

        (4)任務適配。對不同知識抽取任務進行任務適配,實體識別模型需要預測每個詞的標簽,標識出文本中的實體邊界及其類別,關(guān)系抽取模型需要同時考慮實體對及其上下文信息,預測實體之間的關(guān)系類型,事件抽取模型要識別事件觸發(fā)詞和事件角色。本文利用HanLP生成三元組數(shù)據(jù)用于構(gòu)建知識圖譜,再將知識圖譜中的實體和關(guān)系轉(zhuǎn)化為向量表示,與語言模型進行融合。

        (5)融合訓練、驗證及優(yōu)化。將數(shù)據(jù)集劃分為訓練集、驗證集和測試集,在預訓練模型的基礎上添加知識圖譜嵌入層,讓模型在處理文本時能訪問知識圖譜中的信息。在語言模型的中間層插入知識圖譜嵌入層,使模型生成答案時考慮到知識圖譜提供的實體和關(guān)系信息。

        4 實驗結(jié)果

        本文選用具有62億參數(shù)的語言模型ChatGLM-6B,GeForce RTX 4090系列顯卡。將同一問題分別輸入以下三種問答工具:①基于傳統(tǒng)神經(jīng)網(wǎng)絡算法的問答系統(tǒng);②未注入專業(yè)知識的GLM-6B;③融合專業(yè)領域知識圖譜的GLM-6B,并根據(jù)三組輸出答案來評估相應工具的準確率、滿意度等。

        綜合來看,知識圖譜能夠有效地輔助語言模型在處理問題時找到正確的答案,特別是在涉及事實性問題、領域?qū)I(yè)知識和復雜推理的任務中,知識圖譜的作用尤為突出。

        5 結(jié)束語

        預訓練模型模型融合知識圖譜在政務問答系統(tǒng)的應用將朝著更智能、個性化、跨領域、多模態(tài)交互等方向發(fā)展,系統(tǒng)將能夠處理更復雜的查詢,包括多跳推理、語義理解等,結(jié)合用戶畫像和用戶歷史交互數(shù)據(jù),政務問答系統(tǒng)將能夠提供更加個性化的服務。同時,政務問答系統(tǒng)應注重安全與隱私保護。在大模型多模態(tài)交互應用方面,有望支持多種交互方式,包括文本、語音、圖像等,提供更自然和便捷的用戶體驗。

        參考文獻

        [1] 王昀,胡珉,塔娜,等.大語言模型及其在政務領域的應用[J/OL].清華大學學報(自然科學版),2024,64(4):1-10.[2024-03-11]. https://doi.org/10.16511/j.cnki.qhdxxb.2023.26.042.

        [2] DEVLIN J, CHANG M W, LEE K,et al. BERT: Pre-training of deep bidirectional transformers for language understanding[C]//Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies.Minneapolis, USA: Association for Computational Linguistics,2018:4171 4186.

        [3] Openai.GPT-4 technical report [R/OL]. .https://arxiv.org/abs/2303.08774.2023.

        [4] 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. New Orleans, USA: Association for Computational Linguistics,2018:2227 2237.

        [5] LANZZ,CHEN M D,GOODMANS,etal.ALBERT:A lite BERT for self-supervised learning of language representations[J/OL].arXiv.(2019-09-26)[2023-06-12].https://arxiv.org/abs/1909.11942.

        [6] CUI Y, CHE W, LIU T, et al. Revisiting pre-trained models for Chinese natural language processing[EB/OL]. [2023-07-17]. http://arxiv.org/abs/2004.13922.

        [7] 張鶴譯,王鑫,韓立帆,李釗,陳子睿.大語言模型融合知識圖譜的問答系統(tǒng)研究[J/OL].計算機科學與探索,2023,17(10):2377-2388.

        国产在线高清理伦片a| 久久国产精品免费专区| 日韩精品人妻一区二区三区蜜桃臀| 亚洲AⅤ永久无码精品AA| 在线观看国产精品91| 91精品综合久久久久m3u8| 亚洲av天堂久久精品| 国内精品久久人妻互换| 日本精品人妻一区二区| 夜夜骚久久激情亚洲精品| 中文字幕亚洲综合久久| 少妇下面好紧好多水真爽播放| 夜先锋av资源网站| 国产精品对白交换视频| 国产欧美va欧美va香蕉在线观 | 51国产黑色丝袜高跟鞋| 丰满女人又爽又紧又丰满| 伊人久久综在合线亚洲不卡| 免费人成黄页网站在线观看国产| 熟女不卡精品久久av| 青青草视频在线观看网| 97se色综合一区二区二区| 中文无码熟妇人妻av在线| 国产黑丝在线| 日韩精品一区二区三区毛片| 色噜噜精品一区二区三区| 亚洲国产综合精品中久| 插鸡网站在线播放免费观看| 公粗挺进了我的密道在线播放贝壳| 国产98在线 | 免费| 国产亚洲高清不卡在线观看| 中文字幕精品人妻av在线| 你懂的视频网站亚洲视频| 亚洲youwu永久无码精品| 丰满人妻被中出中文字幕| 国产成人精品三级在线影院| 亚洲国产av剧一区二区三区| 国家一级内射高清视频| 中文无码伦av中文字幕| 亚洲av男人的天堂在线观看 | 大桥未久av一区二区三区|