煤礦安全知識問答系統(tǒng)的答案生成模型研究

2025-01-17 00:00:00于非凡董立紅秦昳

現(xiàn)代電子技術(shù) 2025年2期

關(guān)鍵詞：文本模型

摘要：隨著國家和煤礦行業(yè)對煤礦應急管理要求的逐步提高，對煤礦安全知識的學習也提出了更高的要求，因此建立一種煤礦安全知識智能問答模型。有效學習煤礦安全知識，對于確保煤礦企業(yè)工作人員的人身安全和預防煤礦安全事故的發(fā)生至關(guān)重要。首先，基于RoBERTa?wwm算法自動生成問答對數(shù)據(jù)，獲取并分析煤礦安全知識原始文本數(shù)據(jù)，定義問題類型并標注問答對；然后，結(jié)合RoBERTa?wwm與UniLM，采用點互信息與鄰接熵發(fā)現(xiàn)新詞擴充領(lǐng)域詞典，提出問答對自動生成算法，同時構(gòu)建煤礦安全培訓知識問答對數(shù)據(jù)集，解決煤礦安全知識系統(tǒng)問答對數(shù)據(jù)集問題；最后，引入問題相似度機制，針對無法回答問題和無關(guān)問題提出答案生成策略，構(gòu)建基于問題相似度機制的答案生成模型，使其只關(guān)注可回答問題，從而提升模型的推理能力。實驗結(jié)果表明，所提出的煤礦安全知識問答系統(tǒng)答案生成模型可有效識別無法回答和無關(guān)的問題，能夠為煤礦企業(yè)工作人員提供知識支持，最大程度地提升煤礦企業(yè)工作人員安全培訓學習效果。

關(guān)鍵詞：智能問答系統(tǒng)；煤礦安全；答案生成； RoBERTa?wwm； UniLM；點互信息；鄰接熵；問題相似度

中圖分類號： TN929.5?34； TP391" " " " " " " " 文獻標識碼： A" " " " " " " " " " " "文章編號： 1004?373X（2025）02?0061?09

Research on answer generation model of coal mine safety knowledge

question answering system

YU Feifan， DONG Lihong， QIN Yi

（School of Computer Science and Technology， Xi’an University of Science and Technology， Xi’an 710600， China）

Abstract： With the gradual improvement of national and coal mining industry's requirements for emergency management of coal mines， higher requirements have been put forward for learning coal mine safety knowledge. Therefore， an intelligent question answering model for coal mine safety knowledge is established. The effective study of coal mine safety knowledge are crucial to ensure the personal safety of coal mining enterprise staff and prevent the occurrence of coal mine safety accidents. The answer pair data can be generated automatically based on RoBERTa?wwm algorithm， and the question types are defined and the question answering pairs are labeled by obtaining and analyzing the original text data of coal mine safety knowledge. By combining with RoBERTa?wwm and UniLM， the point mutual information and adjacent entropy are used to discover new word expansion domain dictionaries， propose an automatic question answering pair generation algorithm， and construct the question answering pair dataset of coal mine safety training knowledge， so as to solve the problem of question answering dataset in coal mine safety knowledge system. By introducing the question similarity mechanism， an answer generation strategy is proposed for unanswerable questions and irrelevant questions， and the answer generation model based on the question similarity mechanism is constructed to focus only on answerable questions and improve the reasoning ability of the model. The experimental results show that the proposed answer generation model of the coal mine safety knowledge question answering system can effectively identify the unanswerable and irrelevant questions， and can provide knowledge support for the coal mine enterprise staff， so as to improve the safety training and learning effect of the coal mine enterprise staff to the greatest extent.

Keywords： intelligent question answering system; coal mine safety; answer generation; RoBERTa?wwm; UniLM; point mutual information; adjacency entropy; problem similarity

隨著國家和煤業(yè)集團對煤礦智能化和煤礦應急管理要求的逐步提高，對煤礦安全知識的學習提出了更高的要求。因此，建立煤礦安全知識智能問答模型，有效學習煤礦安全知識，對于確保煤礦企業(yè)工作人員的人身安全和預防煤礦安全事故的發(fā)生至關(guān)重要。

問答系統(tǒng)（Question Answering System， QAS）是一個知識信息系統(tǒng)，在獲取問題和回答問題方面起著重要的作用[1]。目前，關(guān)于問答系統(tǒng)的研究主要聚焦于基于檢索和基于生成兩類方法?；跈z索的方法依賴于建立的知識庫或文本語料庫，當用戶提出問題時，系統(tǒng)通過檢索來匹配知識庫中的信息或語料庫中的文本，然后從中選擇或排名可能的答案?；跈z索的問答系統(tǒng)如STUDENT系統(tǒng)[2]，需要大量人工來標注大規(guī)模數(shù)據(jù)集，且存在依賴于關(guān)鍵詞、缺乏語義理解、無法處理復雜邏輯等問題。

因此，為更好地應對復雜的自然語言理解和問題回答任務，研究者們逐漸轉(zhuǎn)向了基于生成的問答方法。基于生成的方法使用深度學習模型來學習問題和答案之間的復雜映射關(guān)系，具備一定的上下文理解和生成語言的能力，能夠更靈活地處理用戶提出的問題。例如，文獻[3]通過對問題分類，利用深度神經(jīng)網(wǎng)絡模型LSTM為問題回答任務生成相關(guān)答案；文獻[4]提出一種基于SQuAD數(shù)據(jù)集預訓練的BiLSTM問答模型，對提出的問題進行排名，從而獲得更準確的答案。

為獲得更好的性能，近年來BERT通過大規(guī)模訓練未標記的數(shù)據(jù)來生成豐富的上下文表達，在問答領(lǐng)域中被廣泛應用[5]。BERT的迅速發(fā)展使得一系列基于BERT優(yōu)化改進的模型，如RoBERTa[6]、SpanBERT[7]、ALBERT[8]、ELECTRA[9]等快速產(chǎn)生，加快了智能問答領(lǐng)域的發(fā)展。文獻[10]對SQuAD[11]、CoQA[12]、QuAC[13]、NaturalQuestions[14]等多個流行問答基準進行了測試，測試結(jié)果表明，以上問答模型基于BERT及其變體，性能相較于其他模型更好。由此可見，預訓練語言模型已經(jīng)成為問答領(lǐng)域新的基礎組件。文獻[15]基于RoBERTa和短語索引構(gòu)建問答系統(tǒng)，利用分布式計算在大規(guī)模數(shù)據(jù)集上進行問答處理，提高了系統(tǒng)性能和效率。文獻[16]利用RoBERTa提取文本語義特征表示，同時將其輸入LSTM進行情感傾向分析，取得了較高的準確率。但是這樣的問答系統(tǒng)缺乏人類的推理能力來識別問題并理解，對于識別無法回答的問題仍是一個挑戰(zhàn)[17?18]。

基于上述研究，本文構(gòu)建了一種煤礦安全知識問答系統(tǒng)。首先基于RoBERTa?wwm算法自動生成問答對數(shù)據(jù)，解決煤礦安全知識系統(tǒng)問答對數(shù)據(jù)集構(gòu)建問題；然后引入問題相似度機制，針對無法回答的問題和無關(guān)問題提出答案生成策略，使其只關(guān)注可回答問題，提高模型性能，提升模型的推理能力。

本文方法的技術(shù)路線如圖1所示，將條例文本作為輸入，通過問答對自動生成算法生成可能生成的問題集，并與提出的問題進行問題相似度計算，將可回答的問題篩選出來，再輸入到RoBERTa?wwm閱讀理解器來生成答案。

1" 煤礦安全知識問答對數(shù)據(jù)集自動構(gòu)建

合理、完備的數(shù)據(jù)集是提高答案生成模型推理能力的前提條件，因此，針對煤礦安全規(guī)范化對于煤礦企業(yè)工作人員的知識要求，提出自動構(gòu)建煤礦安全知識問答對數(shù)據(jù)集，流程如圖2所示。

首先分析收集現(xiàn)有煤礦安全領(lǐng)域相關(guān)數(shù)據(jù)風格及內(nèi)容，同時對數(shù)據(jù)進行預處理，明晰煤礦安全知識的不同類型問題，手工標注設計問答對；然后采用點互信息和鄰接熵方法更好地發(fā)現(xiàn)、挖掘煤礦安全專業(yè)新詞，增強領(lǐng)域適配性；最后聯(lián)合RoBERTa?wwm和UniLM構(gòu)造問答對自動生成算法，生成煤礦安全知識問答對，實現(xiàn)煤礦安全知識問答對數(shù)據(jù)集的自動構(gòu)建。

1.1" 數(shù)據(jù)獲取

搜集與整理煤礦安全相關(guān)規(guī)程規(guī)范資料，將《煤礦安全規(guī)程2022》作為數(shù)據(jù)提取文本，由于爬取的規(guī)程文本為PDF格式，需解析為可編輯的TXT文本格式。隨后，針對其中的27個表格進行相應處理，將其內(nèi)容轉(zhuǎn)化為與規(guī)程一致的文字描述，確保詞匯合適，指代明確，表達清楚，防止因表格數(shù)據(jù)的缺少導致信息不完整。根據(jù)不同章節(jié)間文本內(nèi)容的相關(guān)性進行合理的劃分，構(gòu)建連貫的段落和章節(jié)結(jié)構(gòu)，并添加147個名詞解釋，最終得到了895篇煤礦安全規(guī)程文本。

根據(jù)《煤礦安全規(guī)程解讀2022》《煤礦安全規(guī)程隨身筆記2022》《煤礦安全規(guī)程實施指南2022》《煤礦安全規(guī)程班組學習指南2022》《煤礦安全規(guī)程》《專家解讀井工煤礦》等專業(yè)書籍，對上述收集的煤礦安全規(guī)程單篇文本進行多角度提問，人工標注煤礦安全規(guī)程問答對共計5 100條，涉及時間、人物、地點、機構(gòu)、溫度、年份、操作標準和獎罰規(guī)定等問題。借鑒SQuAD數(shù)據(jù)集結(jié)構(gòu)，使用“文本?問題?答案”三元組數(shù)據(jù)形式并以JSON存儲格式儲存，同時對其進行編號。具體的問答對數(shù)據(jù)集結(jié)構(gòu)如圖3所示。

問答對數(shù)據(jù)包括從專業(yè)解讀書籍標注的問答對數(shù)據(jù)以及從“煤礦安全網(wǎng)”導出的煤礦安全問答對數(shù)據(jù)。本文使用正則表達式對所獲得的文本數(shù)據(jù)進行清洗和過濾，去除無用信息，對煤礦安全提問數(shù)據(jù)進行人工標注審核，共獲得12 050條問答對數(shù)據(jù)，表1為部分數(shù)據(jù)樣例。

1.2" 數(shù)據(jù)預處理

上文收集標注的煤礦安全問答對數(shù)據(jù)集具有一定噪聲，為降低噪聲對結(jié)果的影響，對上述數(shù)據(jù)進行預處理。首先對收集標注的問答對數(shù)據(jù)進行過濾，同時根據(jù)分詞工具對數(shù)據(jù)進行分詞。為保證分詞正確，選擇煤礦專業(yè)詞匯大全作為分詞字典。數(shù)據(jù)預處理流程如圖4所示。

1）數(shù)據(jù)過濾：收集標注的數(shù)據(jù)中包含一些多余的空格和非法字符，且經(jīng)格式轉(zhuǎn)換后會產(chǎn)生一些錯誤字符，故本文使用正則表達式定義規(guī)則和人工處理過濾多余的錯誤信息，確保數(shù)據(jù)的質(zhì)量，獲得可表達煤礦安全領(lǐng)域特點的語句。

2）分詞：通過空格將經(jīng)過上述處理后的語句分隔，將其作為基于RoBERTa?wwm問答對自動生成算法的輸入。其中，在使用分詞工具實現(xiàn)分詞時，存在一些煤礦安全領(lǐng)域的專業(yè)名詞不能被識別的問題，例如“回風巷”可能被錯誤地分為“回”和“風巷”。

1.3" 基于RoBERTa?wwm問答對自動生成算法

為生成高質(zhì)量問答對，設計煤礦安全知識問答對自動生成算法，結(jié)構(gòu)如圖5所示。將理解能力與編碼能力強的RoBERTa?wwm作為編碼器，但其文本生成能力不足，因此在下游任務微調(diào)中使用文本生成能力更強的UniLM作為解碼器，確保解碼生成具有上下文的問題和答案。其中，通過基于點互信息與鄰接熵新詞發(fā)現(xiàn)方法更好地挖掘煤礦安全專業(yè)詞匯信息，提高任務領(lǐng)域適配性。同時，采用Top?P策略解碼生成答案序列，提高文本利用率，生成多樣性的答案序列；使用集束搜索策略生成問題序列，提高問題語句表述能力與流暢性。

1.3.1" 基于點互信息與鄰接熵新詞發(fā)現(xiàn)方法

為使所提模型應用于煤礦安全領(lǐng)域，使得煤礦安全專業(yè)詞匯被更好地理解，本文針對煤礦安全專業(yè)詞語的特點，使用基于點互信息和鄰接熵的新詞發(fā)現(xiàn)方法發(fā)現(xiàn)新詞擴充詞庫，從而提高分詞效果。根據(jù)上文對收集的數(shù)據(jù)進行預處理后，如果直接進行點互信息的計算，生詞識別的速度會較慢，因此，有必要采用[n-gram]方法來統(tǒng)計詞頻，對低頻詞進行切片和刪除。在經(jīng)過詞頻處理和統(tǒng)計后，對收集到的語料庫進行過濾，再計算點互信息。以“風巷道”為例，點互信息計算公式如下：

[PMI=log2p（a）p（b）p（c）] （1）

式中：[p（a）]表示字“風，巷道”在句中共同出現(xiàn)的概率；[p（b）]、[p（c）]表示“風”“巷道”單獨出現(xiàn)在語料中的概率。

當點互信息計算值大于閾值時，對該詞進行鄰接熵計算，計算公式如下：

[HL=i=1n-pi·logp（i）] （2）

[HR=j=1M-pj·logp（j）] （3）

式中：[i]和[j]分別表示左右數(shù)；[n]和[m]分別表示不重復的左右鄰接的總數(shù)；[pi]和[pj]分別表示左右鄰接的條件概率；[HL]和[HR]分別表示左右鄰接的熵。

根據(jù)計算的結(jié)果保留較大的鄰接熵，刪除較小的鄰接熵，最后采用現(xiàn)有的字典將新詞進行過濾。采用以上新詞方法獲得1 165個新詞，通過實驗驗證，該方法能發(fā)現(xiàn)大量新詞，但也會產(chǎn)生一些“噪詞”，即一些可能被錯誤分割或者完全沒有意義的詞。

根據(jù)新詞方法擴充到分詞詞典后，使用煤礦安全領(lǐng)域語料進行二次預訓練，通過分詞詞典進一步提高算法在煤礦安全的字詞表達能力。

1.3.2" 編解碼器

本文編碼器采用的是RoBERTa?wwm，由12層雙向Transformer堆疊。對于給定輸入序列，如煤礦安全條例文本為[cimi=1]，將其初始化為[H0]后輸入到第一層的編碼模塊，前一層編碼模塊的輸出[HL-1]作為后一層模塊的輸入，[HN]為最后一層輸出的文本向量表示。計算公式如下：

[H0=[c1，c2，…，cm]] （4）

[HL=TransformerL（HL-1），" L=1，2，…，12] （5）

1） Transformer注意力機制

注意力機制通過對文本進行權(quán)重分析，計算文本中每個詞與文本中所有詞的關(guān)系，得到每個詞與所有文本的關(guān)聯(lián)度，使得上下文的語言信息可以更好地學習。在編碼器的L層Transformer中，單個注意力權(quán)重采用如下公式進行計算：

[Q=HL-1WQL，" K=HL-1WKL，" V=HL-1WVL] （6）

[Mi，j=0，" " "可見信息-∞，" 不可見信息] （7）

[AL=softmaxQKTdk+MVL] （8）

式中：上一層Transformer輸出[HL-1∈RM×dh]，基于3個參數(shù)矩陣[WQL]、[WKL]、[WVL∈Rdh×dk]，通過線性映射到不同的空間，得到查詢矩陣Q、鍵矩陣K和值矩陣V；[Mi，j]表示這對token是否可以相互被注意到；[AL]表示注意力權(quán)重；[KT]表示鍵矩陣的轉(zhuǎn)置矩陣；[dk]表示縮放因子，用于平衡點積得分的量級。

基于以上計算，利用多頭注意力機制融入不同角度的注意力。該過程先對[Q]、[K]、[V]進行線性變換投影，然后進行單個注意力計算，重復這一操作h次，將它們拼接在一起，最后通過映射回到單個注意力計算結(jié)果的維度。計算公式如下：

[MultiHead（Q，K，V）=Concat（head1，head2，…，headh）W0L] （9）

式中：[MultiHead（Q，K，V）]表示多頭注意力的輸出向量；[head]表示不同頭的輸出，通過[Concat]將其拼接在一起。

2） Seq?to?Seq語言模型

本文針對Seq?to?Seq語言模型的訓練目標設置Mask方式，如圖6所示，不可見信息由黑色方格表示，設為負無窮；白色方格則是需要Attention的信息，設為0。

圖6中：[S0]區(qū)域表示輸入序列前半部分，對應編碼為0的原始條例序列C；[S1]區(qū)域則表示輸入序列后半部分，對于編碼為1的目標答案和問題序列。在左邊白色區(qū)域設置為0，表示前半部分的信息都可被關(guān)注到；右上黑色區(qū)域設置為負無窮，以阻止后半部分的目標文本信息被前半部分關(guān)注；在右下黑白區(qū)域中，黑色區(qū)域也被設置為負無窮，而白色區(qū)域為0，這表示[S1]區(qū)域自身之前的信息，但對于后文信息卻不能提前關(guān)注到。Seq?to?Seq語言模型示意圖如圖7所示，輸入部分內(nèi)部做雙向Attention，輸出部分只做單向Attention，其中連線表示關(guān)注信息流向。

3）解碼生成

基于編碼器實現(xiàn)生成編碼語義向量[HN]后，需將問答對序列解碼生成，將最后一層變量（[Kt，Vt，Qt]）通過利用全連接層，softmax以及學習參數(shù)[b]來計算每個字的概率，從而預測下一個詞的可能位置。[P（w）]計算公式如下：

[P（w）=softmax（WTQQt+WTKKt+WTVVt+b）] （10）

為提高序列解碼效率，并以多角度關(guān)注文本中關(guān)鍵的信息，采用Top?P解碼策略，使得在不同的時間步下解碼結(jié)果可能會有所不同，保證了生成一對多的目標答案。在問題生成中為確保生成可靠的問題，使用穩(wěn)定的集束搜索解碼算法。本文通過以上方法生成煤礦安全知識問答對，實現(xiàn)煤礦安全知識問答對數(shù)據(jù)集的自動構(gòu)建。

2" 答案生成策略

2.1" 問題相似度機制相關(guān)工作

相似度是指兩個文本、句子或詞語之間在語義或結(jié)構(gòu)上的接近程度。假定兩段問題文本A和B，語義文本相似度計算旨在衡量兩段問題文本在語義上的相近程度。通常，問題文本的語義相似度數(shù)值越小，則說明兩個問題之間的語義差異性越大，即在語義層面上越不相似；反之，該數(shù)值越大，則說明這兩個問題所表達出的語義越相似。由于人類語言表達十分復雜，文本當中包含許多同義詞、縮略詞、否定詞等，還有多變的句法結(jié)構(gòu)，加大了語義文本相似度計算的難度。

在問答模型中，提出的問題與問答對數(shù)據(jù)集中的問題相似度計算結(jié)果直接影響問答模型生成答案的性能。近年來，學者們提出了許多方法來進行問題之間的相似度計算，以提高問答模型的效率。例如，文獻[19]提出基于向量空間模型來計算查詢和存檔問題之間的余弦相似度，但是其只針對簡短的問題。文獻[20]使用解析器構(gòu)建問題的語法樹，并根據(jù)語法樹之間的相似度對問題進行排序。但這種方法需要大量的訓練數(shù)據(jù)，也沒有受過良好的訓練來分析非正式的書面問題。文獻[21]開發(fā)了一種向量袋方法，并使用CNN和基于注意力的LSTM來捕獲社區(qū)問題之間的語義相似性，并相應地對它們進行排名。文獻[22]基于詞嵌入，在句子和詞級別使用文本相似度計算了新問題和前一個問題之間的相似性，以及新問題和與前一個問題相關(guān)的答案之間的相似性。文獻[23]針對問答模型中的噪聲數(shù)據(jù)，提出基于課程學習的常識問答模型，根據(jù)相似度方法設計問題難度策略來提高對問題的學習。

2.2" 問題相似度計算方法

為了只關(guān)注可回答問題，引入問題相似度機制，該機制計算提出的問題和生成的問題之間的余弦相似度。

令[GQ]為生成的問題集，[QP]為提出的問題，則[GQ=m]，[QP=1]。生成問題的句子嵌入由下式給出：

[XGQSE={E（i）GQ∈R512，" i=1，2，…，m}] （11）

式中：[XGQSE]是生成問題[（GQ）]的句子嵌入[（SE）] 集合；[EGQ]是每個生成問題[（GQ）]的句子嵌入。

提出問題的句子嵌入為：

[XQPSE=E（i）QP∈R512，" i=1] （12）

式中：[XQPSE]是提出的問題[（QP）]的句子嵌入 [（SE）]集合；[E（i）QP]是每個提出的問題[（QP）]的句子嵌入。

提出的問題和生成的問題之間的余弦相似度根據(jù)以下公式計算：

[cos（E（i）GQ，XQPSE）=E（i）GQ，XQPSEE（i）GQXQPSE，" i=1，2，…，m] （13）

式中[E（i）GQ，XQPSE]表示[E（i）GQ]和[XQPSE]的內(nèi)積。

為了計算問題相似度得分，需要在生成的問題中識別出與所提出的問題的余弦相似度最高的問題。最高相似度問題max是由式（14）獲得的。

[max=argmaxi∈{1，2，…，m}cosE（i）GQ，XQPSE] （14）

生成的問題（根據(jù)式（14）識別）與提出的問題之間的最高問題相似度分數(shù)s由下式給出：

[s=cos（EjGQ，XQPXE）] （15）

式中，[EjGQ]和[XQPXE]分別是第[j]個生成的問題（通過式（14）獲得）和提出的問題的句子嵌入。

2.3" 問題分類

引入問題相似度機制，使用其對輸入給答案生成模型的問題進行識別。該機制根據(jù)閾值對無法回答、無關(guān)和可回答的問題進行識別和過濾，將提出的問題分為無法回答的問題、無關(guān)的問題和可回答的問題。

1）無法回答的問題：當文章中有上下文但用戶提出的問題非常復雜，問答系統(tǒng)無法回答時，該問題被標記為不可回答的問題。

2）無關(guān)的問題：當用戶提出一個與給定文章無關(guān)的問題時，這個問題被標記為無關(guān)。

3）可回答的問題：在給定的文章中有上下文的問題，并且這個問題可以被問答系統(tǒng)回答。

根據(jù)問題的分類，將提取問答對數(shù)據(jù)集中1 000個問題作為無法回答的問題、無關(guān)的問題和可回答的問題。實驗得出，無關(guān)問題的問題相似度得分在0.00～0.50之間，而無法回答問題的問題相似度得分在0.50～0.85之間。進一步，實驗檢查了可回答問題的問題相似度得分，發(fā)現(xiàn)問題相似度得分在0.85～1.00之間。因此，將提出問題的相應標簽與問題相似度評分閾值設置為如表2所示。

3" 實驗與結(jié)果分析

3.1" 實驗設置

實驗所采用的硬件配置為Intel[?] Xeon[?] Gold 6330處理器，32 GB運行內(nèi)存，GPU為NVIDIA GeForce RTX 3090。所使用的軟件環(huán)境為Ubuntu 20.04.2 LTS操作系統(tǒng)下Tensorflow 1.14深度學習框架，Python 3.7編譯器，具體配置如表3所示。

3.2" 數(shù)據(jù)集評估

采用基于RoBERTa?wwm問答對自動生成算法生成問答對，并對其進行評估。

3.2.1" 評估指標

BLEU（Bilingual Evaluation Understudy）是一種常用的自動評價指標，用于衡量自然語言生成系統(tǒng)生成的文本與參考答案之間的相似程度[24]。BLEU需要計算[1-gram]，[2-gram]，…，[n-gram]的精確率，一般[n]設為4，與BLEU?1、BLEU?2、BLEU?3、BLEU?4指標對應。BLEU計算公式如下：

[BLEU=BPexpn=1NWnlogPn] （16）

[BP=1，" " " " " cgt;se1-s/c，" "c≤s] （17）

[Pn=c∈n-gram∈cCountclip（n-gram）c'∈an-gram'∈c'Count（n-gram）] （18）

[Countclipwi=min（Countwi，Ref_Countwi）] （19）

式中：BP表示懲罰因子；[Wn]表示[n-gram]的權(quán)重，一般采用均勻權(quán)重；[Pn]為[n-gram]的精確率；[c]為預測答案序列長度；[s]為標記答案序列長度；a為預測答案；[Count]表示[n-gram]在預測答案中出現(xiàn)的次數(shù)；[Ref_Count]表示[n-gram]在標記答案中出現(xiàn)的次數(shù)。

3.2.2" 評估結(jié)果

本實驗采用BLEU評價指標統(tǒng)計了解碼策略選擇對算法的影響效果，如表4所示。

基準實驗采用表4中第1組實驗，在答案序列和問題序列中，不使用解碼策略而是直接使用貪婪策略對答案和問題序列進行生成。

由表4實驗結(jié)果可得，當答案序列解碼策略和問題序列解碼策略均采用貪婪策略時，BLEU?1～BLEU?4的得分都處于相對較低的水平，貪婪策略在生成答案和問題時可能導致較低的質(zhì)量和多樣性。當答案序列解碼策略采用貪婪策略，而問題序列解碼策略采用集束搜索（B=2）時，BLEU得分相對提高，表明集束搜索在生成答案序列時能夠提高BLEU分數(shù)。使用Top?P策略進行答案序列解碼，同時采用集束搜索（B=2）或更高B值時，BLEU得分顯著提高。Top?P策略在生成答案序列時能夠更好地捕捉多樣性和相關(guān)性，這使得BLEU分數(shù)有所提高，而隨著B值的增加，BLEU?1～BLEU?4的得分逐漸下降。

使用Top?P策略進行答案序列解碼，同時采用集束搜索（B=2）作為問題序列解碼策略時，能夠獲得最高的BLEU分數(shù)，在生成問答對時能夠在多樣性和準確性之間取得良好的平衡，并有效提高問答對算法的性能。

為了驗證本文提出算法的有效性，在收集的煤礦安全問答數(shù)據(jù)集上進行對比實驗，使用如下算法進行對比。

1） LSTM?based：采用LSTM模型構(gòu)建序列到序列的編碼器?解碼器問答對生成算法。

2）RoBERTa?LSTM：采用RoBERTa作為編碼器，LSTM作為解碼器，構(gòu)建序列到序列的算法。

3） RoBERTa?UniLM：將RoBERTa與UniLM結(jié)合，不使用wwm結(jié)構(gòu)，從而驗證在問答對自動中RoBERTa?wwm算法優(yōu)于RoBERTa。

4） RoBERTa?wwm?UniLM：本文提出的問答對自動生成算法，采用原始參數(shù)，從而驗證使用特定領(lǐng)域內(nèi)繼續(xù)預訓練的有效性。

5） PreTrain RoBERTa?wwm?UniLM：為本文提出的最終算法，在RoBERTa?wwm?UniLM算法的基礎上繼續(xù)進行預訓練，增強算法對煤礦安全領(lǐng)域的表達能力。

不同模型BLEU評估實驗結(jié)果如表5所示。由表5可知：LSTM?based為基準算法，沒有采用預訓練的語言模型，難以理解文本語境，因此在自問題生成方面詞匯相關(guān)性答案時的性能較差，導致其BLEU分數(shù)相對較低；引入RoBERTa模型后，利用RoBERTa的向量表征能力更好地捕捉了文本的語境，從而提高了生成答案的質(zhì)量；在引入UniLM后，UniLM作為一個預訓練算法，能更好地理解文本的復雜性，從而提高了問題生成的準確性和多樣性。同時，全詞掩蓋訓練方式有助于提高算法在特定領(lǐng)域中的適應性，從而提高BLEU值。

PreTrain RoBERTa?wwm?UniLM算法在所有BLEU指標上取得最高分數(shù)，特別是BLEU?4，表明它在生成高度相關(guān)且多詞匯相關(guān)性答案時表現(xiàn)出色。各個算法的BLEU指標評估對比圖如圖8所示。

3.3" 實驗結(jié)果分析

實驗使用的數(shù)據(jù)為上文收集煤礦安全規(guī)程文本及問答對數(shù)據(jù)，利用上文問答對自動生成算法來隨機抽取的煤礦安全規(guī)程文本篇章生成問題。表6所示為文本可能生成的問題。

根據(jù)表6從文本中生成所有可能的問題，這些問題被進一步交給問答對自動生成算法生成可能的問題的答案。表7顯示了問答對自動生成算法生成的問答對。原始文本條例：凍結(jié)井筒的井壁結(jié)構(gòu)應當采用雙層或者復合井壁，井筒凍結(jié)段施工結(jié)束后應當及時進行壁間充填注漿。注漿時壁間夾層混凝土溫度應當不低于4 ℃，且凍結(jié)壁仍處于封閉狀態(tài)，并能承受外部水靜壓力。

表8為問題相似度結(jié)果。

表8中，第1列為提出的問題；第2列為指定提出的問題和生成的問題之間的最高問題相似度得分；第3列為通過與閾值的比較，根據(jù)最高的問題相似度得分來判斷問題是可回答問題還是無法回答問題或無關(guān)問題；第4列表示提出的問題生成的答案。從煤礦安全規(guī)程中隨機抽100個段落進行實驗，其中包含無法回答和無關(guān)的問題，當生成問題與提出問題的余弦相似度得分不超過閾值時，將其標記或標記為不可回答問題或無關(guān)問題。因此，低于閾值的問題將不會被傳遞到問答算法。本文提出的問題相似度機制不允許RoBERTa?wwm閱讀理解器通過錯誤猜測來回答無法回答或無關(guān)的問題。通過實驗發(fā)現(xiàn)可回答問題的問題相似度得分在0.90以上，由此說明問題相似度機制可以識別出與人類判斷水平相當?shù)膯栴}。如表9所示，本文共提取了1 000個問題，包括無法回答的問題和無關(guān)的問題。實驗結(jié)果表明問題相似度機制的引入對算法識別無法回答問題及無關(guān)問題的效率進一步提高，從而只關(guān)注可回答問題。

對于數(shù)據(jù)集中的特定文本，從不同的文本中隨機選擇無關(guān)的問題，這樣隨機選擇的問題就不會與上下文相關(guān)。該方法的效率[η]計算公式為：

[η=w1+w21 000×100%] （20）

式中：[w1]為無關(guān)問題的數(shù)量；[w2]為沒有回答的無關(guān)問題的數(shù)量。

4" 結(jié)" 語

本文對煤礦安全知識的問答模型進行研究，結(jié)合自然語言處理技術(shù)，提出一種煤礦安全問答對數(shù)據(jù)集自動構(gòu)建方法和基于問題相似度機制答案生成模型。本文完成的主要研究工作如下。

1）提出煤礦安全領(lǐng)域問答對自動構(gòu)建方法。收集現(xiàn)有煤礦安全領(lǐng)域相關(guān)數(shù)據(jù)風格及內(nèi)容，明晰煤礦安全的不同類型問題，手工標注設計問答對；采用點互信息和鄰接熵方法更好地發(fā)現(xiàn)專業(yè)新詞匯，增強領(lǐng)域適配性；結(jié)合RoBERTa?wwm和UniLM構(gòu)造問答對自動生成算法，自動生成高質(zhì)量的煤礦安全問答對數(shù)據(jù)。該方法一方面能夠減輕人工標注數(shù)據(jù)的負擔，并對本文研究答案生成模型提供支持；另一方面，還可為未來相關(guān)研究提供語料庫，拓展了研究領(lǐng)域的可能性。

2）提出基于問題相似度機制答案生成模型。引入了一個模仿人類推理的問題相似度機制，以識別所提出的問題是可回答的問題還是無法回答或無關(guān)的問題。如果提出的問題是無法回答或無關(guān)問題，那問題就不會傳遞給算法，幫助算法專注于可回答的問題，以提高性能。

參考文獻

[1] 王寰，孫雷，吳斌，等.基于閱讀理解智能問答的RPR融合模型研究[J].計算機應用研究，2022，39（3）：726?731.

[2] TERRY W. Five lectures on artificial intelligence [J]. Linguistic structures processing， 1997， 5（8）： 399?520.

[3] UPADHYA B A， UDUPA S， KAMATH S S. Deep neural network models for question classification in community question?answering forums [C]// 2019 10th International Conference on Computing， Communication and Networking Technologies （ICCCNT）. [S.l.]： IEEE， 2019： 1?6.

[4] AGRAWAL A， GEORGE R A， RAVI S S， et al. ARS_NITK at MEDIQA 2019： analysing various methods for natural language inference， recognising question entailment and medical question answering system [C]// Meeting of the Association for Computational Linguistics. [S.l.]： ACL， 2019： 533?540.

[5] 袁里馳.利用深度神經(jīng)網(wǎng)絡并結(jié)合配價信息的語義角色標注[J].小型微型計算機系統(tǒng)，2022，43（9）：1925?1930.

[6] LIU Y， OTT M， GOYAL N， et al. Roberta： a robustly optimized bert pretraining approach [EB/OL]. [2023?01?17]. https：//www.xueshufan.com/publication/2965373594.

[7] JOSHI M， CHEN D， LIU Y， et al. Spanbert： improving pre?training by representing and predicting spans [J]. Transactions of the association for computational linguistics， 2020， 8： 64?77.

[8] RANI V， NABI S T， KUMAR M， et al. Self?supervised learning： a succinct review [J]. Archives of computational methods in engineering， 2023， 30（4）： 2761?2775.

[9] CLARK K， LUONG M T， LE Q V， et al. Electra： pre?training text encoders as discriminators rather than generators [EB/OL]. [2023?08?13]. https：//www.xueshufan.com/publication/2996035354.

[10] JI Z， LEE N， FRIESKE R， et al. Survey of hallucination in natural language generation [J]. ACM computing surveys， 2023， 55（12）： 1?38.

[11] YIN Z， SUN Q， GUO Q， et al. Do large language models know what they don't know？ [EB/OL]. [2023?10?28]. https：//arxiv.org/pdf/2305.18153.

[12] REDDY S， CHEN D， MANNING C D. COQA： a conversational question answering challenge [J].Transactions of the association for computational linguistics， 2019， 7： 249?266.

[13] CHOI E， HE H， IYYER M， et al. QuAC： question answering in context [EB/OL]. [2024?01?21]. https：//arxiv.org/pdf/1808.07036.

[14] KWIATKOWSKI T， PALOMAKI J， REDFIELD O， et al. Natural questions： a benchmark for question answering research [J]. Transactions of the association for computational linguistics， 2019， 7： 453?466.

[15] CHAYBOUTI S， SAGHE A， SHABOU A. Efficient QA： a roBERTa based phrase?indexed question?answering system [EB/OL]. [2023?11?21]. https：//www.xueshufan.com/publication/3118838679.

[16] 王恒，吳鐵峰.基于RoBERTa?wwm和Bi?LSTM的短文本情感分析[J].佳木斯大學學報（自然科學版），2022，40（4）：50?54.

[17] QIAO C， HU X. A neural knowledge graph evaluator： combining structural and semantic evidence of knowledge graphs for predicting supportive knowledge in scientific QA [J]. Information processing amp; management， 2020， 57（6）： 102309.

[18] YE Y， ZHANG S， LI Y， et al. Video question answering via grounded cross?attention network learning [J]. Information processing amp; management， 2020， 57（4）： 102265.

[19] CAO X， CONG G， CUI B， et al. A generalized framework of exploring category information for question retrieval in community question answer archives [C]// Proceedings of the 19th International Conference on World Wide Web. [S.l.]： ACM， 2010： 201?210.

[20] WANG K， MING Z， CHUA T S. A syntactic tree matching approach to finding similar questions in community?based QA services [C]// Proceedings of the 32nd International ACM SIGIR Conference on Research and Development in Information Retrieval. [S.l.]： ACM， 2009： 187?194.

[21] SANTOS C D， BARBOSA L， BOGDANOVA D， et al. Learning hybrid representations to retrieve semantically equivalent questions [C]// International Joint Conference on Natural Language Processing. [S.l.]： Association for Computational Linguistics， 2015： 694?699.

[22] MOHTARAMI M， BELINKOV Y， HSU W N， et al. SLS at SemEval?2016 task 3： neural?based approaches for ranking in community question answering [C]// Proceedings of the 10th International Workshop on Semantic Evaluation. San Diego， CA， USA： ACM， 2016： 828?835.

[23] 李偉，黃賢英，馮雅茹.基于課程學習的無監(jiān)督常識問答模型[J].計算機應用研究，2023，40（6）：1674?1678.

[24] REITER E. A structured review of the validity of BLEU [J]. Computational linguistics， 2018， 44（3）： 393?401.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

煤礦安全知識問答系統(tǒng)的答案生成模型研究