亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        RAVA: 基于強化關(guān)聯(lián)的12345熱線事件分撥方法

        2022-01-01 13:11:20承孝敏陳健鵬佘祥榮
        中文信息學報 2022年10期
        關(guān)鍵詞:排序文本模型

        承孝敏,陳 鋼,陳健鵬,佘祥榮,毛 建

        (1.長三角信息智能創(chuàng)新研究院, 安徽 蕪湖 241000;2.中國科學技術(shù)大學 信息科學技術(shù)學院, 安徽 合肥 230026)

        0 引言

        12345熱線在推動政府履職、滿足群眾需求、化解社會矛盾等方面發(fā)揮著重要作用。12345熱線所沉淀的海量數(shù)據(jù)可以全面、及時、準確地反映城市治理問題,為數(shù)據(jù)驅(qū)動的城市治理體系和治理能力現(xiàn)代化提供了基礎(chǔ)[1]。2021年1月6日,國務(wù)院辦公廳發(fā)布《關(guān)于進一步優(yōu)化地方政務(wù)服務(wù)便民熱線的指導意見》(國辦發(fā)〔2020〕53號),指出要優(yōu)化政務(wù)熱線流程與資源配置,強化技術(shù)支撐,讓熱線接得更快、分得更準、辦得更實。近年來,各地政府在推動12345熱線數(shù)字化轉(zhuǎn)型中取得了一些成效,但在事件分派過程中也存在一些問題[2]。話務(wù)員對市民訴求分類的準確判斷能力和對各政府部門職能了解的深入程度決定了事件分撥的質(zhì)量。然而,市民致電訴求的內(nèi)容長短不一,大部分以敘事性描述為主,往往存在描述不清,要素不全等問題。此外,話務(wù)員難以在對市民訴求充分理解的基礎(chǔ)上從幾十個處置部門中挑選正確的部門完成事件分撥,這就導致了人工事件分撥的準確率不高,甚至造成大量的二次分撥。隨著12345熱線受理的事件數(shù)量越來越龐大,受理的事件類型越來越復雜,研發(fā)一種能夠準確定位事件處置部門的分撥方法具有重要意義。

        在業(yè)務(wù)上,單純利用12345熱線文本大數(shù)據(jù)難以實現(xiàn)城市事件的準確分撥,將其與政府部門公開數(shù)據(jù)(如“部門簡介”數(shù)據(jù)、“三定”數(shù)據(jù)等)相結(jié)合,能夠為有效分派城市各類事件提供支撐。而最能反映部門職責的“三定”數(shù)據(jù)(即定職能配置、定內(nèi)設(shè)機構(gòu)、定人員編制,主要包含機構(gòu)規(guī)格、主要職責、內(nèi)設(shè)機構(gòu)及其具體職責、人員編制和領(lǐng)導職數(shù)等方面內(nèi)容)因其與政府部門存在強相關(guān)性,將其加入到事件匹配任務(wù)中可以提高分撥準確度。

        在技術(shù)上,Word2Vec、Glove等詞向量模型往往無法關(guān)注到上下文的關(guān)聯(lián)信息,難以處理自然語言文本中一詞多義的情況,而預訓練語言模型可以有效解決這類問題[3]。同時,相對于單向長短時記憶循環(huán)神經(jīng)網(wǎng)絡(luò)(LSTM)[4],雙向LSTM(BiLSTM)[5]通過雙向語義編碼結(jié)構(gòu)獲取上下文信息,能夠更好地對12345熱線事件信息進行提取。進一步地,注意力(Attention)機制[6]可以更深層次地挖掘12345熱線事件和政府部門“三定”數(shù)據(jù)的關(guān)聯(lián)關(guān)系。

        基于以上分析,本文面向12345熱線提出了一種基于強化關(guān)聯(lián)的事件分撥方法(RAVA): 首先對12345熱線事件文本中的事件內(nèi)容、事件觸發(fā)詞、事件地點等關(guān)鍵信息進行提取并在此基礎(chǔ)上構(gòu)建事件畫像;然后將事件畫像輸入“三定”嵌入模塊,與政府部門“三定”職責進行匹配,得到適用于該事件的“三定”職責列表并將其轉(zhuǎn)換為對應(yīng)部門;最后對相關(guān)答案進行重排序,輸出12345熱線事件的分撥部門。

        本文的主要貢獻包括以下四個方面:

        (1) 在“事件-部門”匹配任務(wù)中引入對責任部門的“三定”描述,并提出基于答案選擇(Answer Selection, AS)的“事件-三定”匹配模型,將“事件-部門”匹配的單目標問題轉(zhuǎn)化為“事件-三定-部門”的多階段問題,利用“三定”職責描述提升事件分撥的準確率。

        (2) 提出基于強化關(guān)聯(lián)的注意力機制ARA并應(yīng)用到“事件-三定”匹配的答案選擇模型中,使得模型在計算事件與“三定”的匹配度過程中能更有效地從“三定”中選擇提取相關(guān)信息,提升對“事件-三定”的匹配預測成功率。

        (3) 使用基于政務(wù)語料庫訓練的BERT模型,有效地加入了政務(wù)領(lǐng)域的先驗知識,實現(xiàn)了對“三定” 職責和部門簡介更為準確的嵌入表示。

        (4) 利用12345熱線歷史事件分撥結(jié)果構(gòu)建基于先驗知識的重排序模型,以此計算“事件-部門”最終的匹配結(jié)果。

        1 相關(guān)工作

        1.1 12345熱線

        文獻[7]指出政務(wù)熱線應(yīng)為政府決策提供依據(jù)及數(shù)據(jù)支持,并以廣州12345政務(wù)熱線為例,探討如何通過政務(wù)熱線轉(zhuǎn)型來推動智慧治理建設(shè)。文獻[8]基于適應(yīng)性結(jié)構(gòu)化理論構(gòu)建了12345熱線大數(shù)據(jù)質(zhì)量影響因素模型,并通過隨機森林算法進行重要性評估。文獻[9]以北京市12345政務(wù)熱線的海量實時數(shù)據(jù)為例,分析了超大城市熱線問政過程中的市民訴求和政府回應(yīng)之間的特征與二者之間的關(guān)系。文獻[10]以三亞市的12345熱線數(shù)據(jù)為研究對象,通過提取熱線數(shù)據(jù)記錄中的空間信息進行地理編碼,結(jié)合熱線記錄的原始信息,刻畫市民來電的時間、空間和類別特征。文獻[11]利用TF-IDF對人工記錄的政務(wù)熱線工單進行文本分析處理,提取原始數(shù)據(jù)中的時間、事件、地址以及用戶投訴的關(guān)鍵信息,以此為政府服務(wù)提供合理的意見、建議。文獻[12]針對政務(wù)熱線數(shù)據(jù)提取核心關(guān)鍵詞,基于機器學習算法進行主題模型訓練和時空模型訓練及數(shù)據(jù)優(yōu)化,實現(xiàn)了對熱點事件、熱點區(qū)域的快速定位。

        1.2 事件畫像

        在12345熱線事件分撥處理流程中,除了事件發(fā)生的時間、地點與主體等基本要素信息,往往更需要關(guān)注與事件有關(guān)的觸發(fā)詞信息。因此,在本文的事件畫像中,重點考慮對事件描述中的關(guān)鍵信息的抽取,其主要通過從事件文本中提取與事件相關(guān)的特征來實現(xiàn)。文獻[13]提出了基于指針網(wǎng)絡(luò)的文本摘要提取方法,解決了序列到序列(Seq2Seq)模型中輸出端使用的詞匯表隨著輸入序列長度變化而變化的問題。文獻[14]提出一種端到端的序列標注模型,用以完成事件檢測和事件元素角色分類任務(wù),不需要識別觸發(fā)詞,解決了事件抽取中存在的角色重疊和元素重疊的問題。文獻[15]利用條件隨機場模型,對新冠肺炎疫情相關(guān)的微博新聞構(gòu)建出疫情事件畫像。文獻[16]采用實體關(guān)系抽取算法,并結(jié)合知識圖譜技術(shù),通過對金融相關(guān)事件的信息抽取構(gòu)建出金融大數(shù)據(jù)的事件畫像。文獻[17]提出了一種基于漢語詞性標注結(jié)合注意力機制的中文社交網(wǎng)絡(luò)應(yīng)急事件畫像算法,該算法可以提取中文社交網(wǎng)絡(luò)緊急事件中的實體名稱,并利用該實體名稱描述緊急事件來構(gòu)建事件畫像。

        1.3 答案選擇

        答案選擇[18]作為自動問答的子任務(wù),已經(jīng)引起了廣泛的重視。文獻[19]使用CNN和LSTM技術(shù)作為編碼器,結(jié)合CRF在多個問答對中預測出最佳問答對,充分利用了文本的上下文信息。文獻[20]提出了一種用于自動答案選擇的混合注意力機制,可以將問答對中信息量最大的部分對齊。文獻[21]提出了一種用于通用序列對模型的多層注意力網(wǎng)絡(luò),該網(wǎng)絡(luò)可以為后續(xù)的編碼器層提供真實特征,旨在改進表示學習過程。文獻[22]提出了一種層次注意力網(wǎng)絡(luò),利用輸入序列的語義特征和可組合性,將輸入文檔和知識庫中的知識充分融合。此外,最新研究表明: 文本生成技術(shù)本質(zhì)上可以用于答案選擇和生成[23]。文獻[24]描述了一種協(xié)作網(wǎng)絡(luò),聯(lián)合訓練問答模型和問題生成模型,以提高答案選擇的性能。

        1.4 預訓練語言模型

        廣義自回歸語言模型XLNet[25]克服了BERT的缺點,其利用排列組合的原理實現(xiàn)了新的雙向編碼,具備更強大的語義表征能力。Liu等[26]通過對BERT的超參數(shù)和訓練集大小進行研究,提出了一種優(yōu)化的BERT訓練方案,使用動態(tài)遮掩策略得到的RoBERTa模型相比于之前的各類post-BERT方法,可以達到等同或者更優(yōu)的性能。在中文相關(guān)任務(wù)上,Cui等[27]針對中文任務(wù)對RoBERTa模型進行了改進,使用了針對中文的Whole Word Masking(WWM)訓練策略,在不改變其他訓練策略的基礎(chǔ)上,提升了RoBERTa模型在中文任務(wù)上的實驗效果。采用預訓練語言模型學習到的詞向量比以往模型能獲得更多的上下文語義信息,充分挖掘預訓練語言模型的潛力,成為研究人員目前的新工作[28]。

        2 模型設(shè)計

        2.1 總體結(jié)構(gòu)

        本文提出的面向12345熱線事件的分撥模型包括事件畫像模塊、“三定”嵌入模塊和答案重排序模塊三個組成部分,如圖1所示。首先將12345熱線事件的文本信息輸入到Bi-LSTM網(wǎng)絡(luò),對其中的上下文信息進行編碼,將編碼后形成的表征向量送入指針生成網(wǎng)絡(luò)后產(chǎn)生事件描述向量和事件畫像。事件描述向量是由指針生成網(wǎng)絡(luò)的編碼器部分對表征向量進行編碼與歸一化處理后所生成的包含一系列上下文信息的表征向量,其被送入“三定”嵌入模塊與“三定”職責編碼輸入進行答案選擇匹配。事件畫像則是由解碼器部分將事件描述編碼向量解碼成對應(yīng)的事件關(guān)鍵信息。

        圖1 事件分撥模型的結(jié)構(gòu)

        在“三定”嵌入模塊中,本文采用針對事件領(lǐng)域知識微調(diào)(fine-tune)后的RoBERTa2RoBERTa模型(即基于RoBERTa的Seq2Seq模型)的編碼器部分對“三定”職責進行編碼,將編碼后的“三定”職責向量與事件描述向量送入到注意力網(wǎng)絡(luò)中,生成對應(yīng)的注意力得分。將注意力得分分別與“三定”職責向量、事件描述向量相乘得到用于答案選擇的注意力向量表示,將其與部門簡介編碼向量進行拼接,并將拼接結(jié)果接入Softmax函數(shù)得到對應(yīng)的部門概率分布,最終通過重排序模塊輸出12345熱線事件的分撥部門。

        2.2 12345熱線事件要素

        12345熱線文本一般包括人、地、事、物和組織五大要素。12345熱線不但會分撥到市直部門,而且還會分撥到區(qū)縣、街道等下一級責任部門,事件分撥完成后由責任部門負責聯(lián)系來電人并為其訴求提供解決方案。事件分撥更加關(guān)注事件地點(通常由地名地址或者POI興趣點構(gòu)成)和事件觸發(fā)詞(事件發(fā)生的核心詞,多為動詞或名詞)。事件地點確定了該事件所屬的管轄區(qū)域,事件觸發(fā)詞確定了該事件對應(yīng)的處置部門。表1展示了12345熱線事件內(nèi)容、地點信息和關(guān)鍵主題等信息。

        表1 12345熱線示例

        2.3 事件畫像構(gòu)建

        本文事件畫像的構(gòu)建主要依賴于事件關(guān)鍵信息,而12345熱線事件的部分關(guān)鍵信息沒有在事件描述中直接出現(xiàn),使得其事件關(guān)鍵信息獲取的任務(wù)不是簡單的抽取任務(wù)。借鑒模板與插槽等通過固定序列的填空任務(wù)的方式,本文使用類似方式來進行事件關(guān)鍵信息抽取。基于此,本文使用指針生成網(wǎng)絡(luò)來抽取事件的關(guān)鍵信息序列,以實現(xiàn)事件畫像的構(gòu)建。

        指針生成網(wǎng)絡(luò)主要解決傳統(tǒng)Seq2Seq模型中輸出嚴重依賴輸入的問題,突破了模型輸出端對詞匯表長度的限制。指針生成網(wǎng)絡(luò)結(jié)合了傳統(tǒng)Seq2Seq模型和指針網(wǎng)絡(luò)的優(yōu)勢,在生成新詞的同時也具備了從原文復制單詞的能力,并引入了覆蓋(Coverage)機制以改善生成新詞時的重復問題,提高模型的表達能力,本文利用指針生成網(wǎng)絡(luò)構(gòu)建事件畫像的結(jié)構(gòu)如圖2所示。

        圖2 指針生成網(wǎng)絡(luò)構(gòu)建事件畫像

        需要說明的是,BERT模型以單字編碼的形式對文本進行特征提取,因而不能完全兼容分詞處理形式的事件描述。同時,考慮到BERT模型的參數(shù)規(guī)模過大,其訓練和推理速度相較于LSTM網(wǎng)絡(luò)較慢。因此,本文編碼器部分采用Bi-LSTM網(wǎng)絡(luò),從前后兩個方向?qū)斎氲男畔⑦M行計算,有效地利用了上下文信息。輸入候選詞序列X={x1,x2,…,xn}(n為輸入序列的長度)按照順序先輸入到嵌入層,將候選詞映射到高維向量上,然后再將處理好的序列輸入到編碼器中,得到每個序列的隱藏狀態(tài)集合E={e1,e2,…,en}。對第i個隱藏狀態(tài)ei(ei∈he,其中he為Bi-LSTM網(wǎng)絡(luò)隱藏向量維度)來說,由于采用的是Bi-LSTM網(wǎng)絡(luò),算法會從前往后和從后往前兩個方向進行計算,得到的隱藏狀態(tài)ei會充分關(guān)聯(lián)上下文信息。同時,對事件的編碼Vevent由編碼器的輸出向量求和得到,即解碼器部分采用單向LSTM結(jié)構(gòu),假設(shè)解碼器的輸入為Y={y1,y2,…,ym},(m為解碼器輸入序列個數(shù)),在解碼過程中,輸入序列按照順序先輸入到嵌入層,將輸入序列映射到高維向量上,得到每個輸入序列的詞向量表示,然后再將處理好的序列輸入到解碼器中,得到每個序列的隱藏狀態(tài)集合D={d1,d2,…,dm}。

        為了使解碼器產(chǎn)生更合適的輸出,本文將注意力機制用在輸入序列上以將更重要的信息輸入至解碼器。同時,引入覆蓋機制(coverage mechanism)來解決Seq2Seq模型生成重復文本的問題,其具體如式(1)~式(3)所示。

        Pvocab=softmax(V′(V[et,dt]+b)+b′)

        (4)

        其中,V,V′,b,b′均為可學習的參數(shù),et∈1×he,dt∈1×hd分別為編碼器與解碼器的表征向量,he與hd分別為編碼器與解碼器隱藏層的輸出維度。取Pvocab中當前預測單詞w對應(yīng)的概率作為單詞的輸出概率,即P(w)=Pvocab(w)。此外,生成概率wg∈[0,1]的計算如式(5)所示。

        wg=σ(W′1et+W′2dt+W′3xt+b)

        (5)

        其中,W′1,W′2,W′3和b是模型學習參數(shù)。經(jīng)過擴充之后的單詞表,在時間步t的詞概率分布如式(6)所示。

        (6)

        2.4 “三定”嵌入

        “三定”嵌入模塊主要由ARA和部門簡介編碼兩個部分構(gòu)成,ARA結(jié)構(gòu)如圖3所示。ARA以事件描述和“三定”職責的拼接為輸入,以相應(yīng)的注意力分布為輸出。在完成事件畫像后,事件描述被指針生成網(wǎng)絡(luò)的編碼器轉(zhuǎn)換為不定長度的事件內(nèi)容語義編碼向量Vevent,以Vevent作為事件描述的輸入。

        圖3 ARA結(jié)構(gòu)

        對于“三定”職責輸入,本文采用政務(wù)相關(guān)領(lǐng)域知識語料對BERT預訓練語言模型進行fine-tune,并使用fine-tune后的模型的編碼器對“三定”職責進行編碼,得到相應(yīng)的語義編碼向量Vsanding。為了更完整地獲取二者的語義信息,對Vevent和Vsanding兩個向量進行拼接,得到拼接后的“事件-三定”編碼作為注意力層的輸入,如式(7)所示。

        Vconcat=concat(Vevent,Vsanding)

        (7)

        其中,concat為向量的左右拼接。

        在注意力層,本文使用自注意力機制篩選拼接編碼Vconcat中的重要信息,如式(8)~式(10)所示。

        其中,U∈dc×dc是一個可學習的注意力參數(shù)矩陣,dc是拼接向量Vconcat的長度,βx和βy是在兩個維度上的聯(lián)合注意力分布,Max選取矩陣中包含最大化信息的行或列。注意到Mes應(yīng)盡可能多地包含事件內(nèi)容和“三定”職責之間的關(guān)聯(lián)信息,若使用Tanh作為激活函數(shù),矩陣中的元素mi∈Mes的取值會被壓縮在(-1,1)的區(qū)間范圍內(nèi),進而導致Max(Mes)和向量中包含大量的1,元素之間的差距不明顯??紤]到softmax函數(shù)在差距較大的分布中對大數(shù)更為敏感,為了最大化保留拼接向量中的關(guān)聯(lián)信息,本文采用Leaky-ReLU進行注意力矩陣的激活處理,如式(11)所示。

        (11)

        經(jīng)過激活處理后,注意力矩陣中正值權(quán)重被完整保留,負值權(quán)重不會被完全拋棄,而是被加以壓縮后予以保留,壓縮比例由系數(shù)ai決定。使用這樣的激活方式可以盡可能最大化保留注意力矩陣中的差異化信息,同時強化正向注意力的效果。由于構(gòu)成Mes的兩個輸入向量相同,因而Mes矩陣的整體學習目標是更接近斜對稱矩陣,即:

        (12)

        在生成兩個方向上的注意力權(quán)重后,本文將拼接編碼和兩個注意力權(quán)重相乘,得到在兩個方向上的注意力得分向量,如式(13)、式(14)所示。

        (13)

        (14)

        部門簡介輸入部分同樣采用上述RoBERTa2RoBERTa模型的編碼器部分進行編碼,得到相應(yīng)的語義編碼向量Vdepart,并將其與兩個注意力向量拼接后作為輸出結(jié)果輸入到全連接層,最終使用softmax函數(shù)輸出相應(yīng)的“事件-三定”匹配概率,如式(15)所示。

        Pdep=softmax(concat(sx,sy,Vdepart))

        (15)

        2.5 聯(lián)合訓練過程

        Seq2Seq模型中常見生成結(jié)果重復的問題,因而引入覆蓋機制來解決這一問題。覆蓋機制作用于注意力機制上,以確保注意力機制在當前的決定中能夠考慮到之前已有的決定,這樣可以有力地防止重復生成的情況出現(xiàn)。同時在損失函數(shù)中加入對應(yīng)的覆蓋損失懲罰項,防止重復出現(xiàn)同一位置的單詞。在事件畫像模塊中,t時刻模型損失值可通過對目標輸出單詞yt和覆蓋向量計算覆蓋損失求得:

        (16)

        (17)

        根據(jù)輸出端的概率分布,取l個時間步范圍(l=21),將每個時間步內(nèi)最高概率的詞組成的序列作為該事件的標簽,刻畫事件主要特征。值得注意的是,由于抽取的信息類型序列是固定的,因此同一類型中生成結(jié)果的先后順序并不影響整體損失函數(shù)的計算。

        在“三定”嵌入模塊中,本文使用標準的交叉熵損失函數(shù)對“事件-三定”匹配模型進行訓練,如式(18)所示。

        (18)

        其中,pi是事件三定匹配概率,zi是指示變量(0或1)。

        本文采用聯(lián)合損失函數(shù)對整個網(wǎng)絡(luò)進行優(yōu)化,最終的目標函數(shù)是最小化以上兩個損失函數(shù),如式(19)所示。

        L=λ1Levent+λ2LARA

        (19)

        2.6 基于權(quán)重的匹配對象重排序

        12345熱線事件經(jīng)過模型處理后得到與所有“三定”職責描述匹配度的概率值列表,而后送入答案重排序模塊。由于一個部門包含多個職責,因而需要以部門為標準對匹配結(jié)果進行重排序以獲得最終輸出結(jié)果。本文答案重排序模塊對所有“事件-三定”匹配概率使用加權(quán)平均的方式進行重排序,進而完成部門選擇,具體過程如圖4所示。對于“三定”權(quán)重的選擇,本文使用基于事件先驗知識的權(quán)重設(shè)定方案。

        圖4 基于“三定”權(quán)重的最佳部門匹配

        考慮到新事件的“三定”匹配概率分布服從歷史事件中“三定”匹配概率分布,本文針對各部門歷史事件進行建模,構(gòu)建各部門歷史事件匹配概率分布模型,以此設(shè)定各部門“三定”權(quán)重。具體步驟如下:

        Step 4重復步驟2和步驟3,直到得到所有“三定”的權(quán)重。

        “三定”權(quán)重確定之后,答案重排序模塊對各部門“三定”職責描述匹配度的概率值進行加權(quán)平均計算各部門的概率得分,最終選取得分最高的部門作為事件的最終分撥部門。

        3 實驗與結(jié)果分析

        3.1 數(shù)據(jù)集

        本文基于蕪湖市12345熱線真實事件的分撥案例構(gòu)建了實驗數(shù)據(jù)集,包含“事件-部門”和“事件-三定”兩部分: “事件-部門”數(shù)據(jù)集根據(jù)12345真實事件分撥處理結(jié)果構(gòu)建,包含30個政府部門的30 000條對應(yīng)事件數(shù)據(jù);“事件-三定”數(shù)據(jù)集是由業(yè)務(wù)人員對“事件-部門”數(shù)據(jù)集中的30 000條數(shù)據(jù)依據(jù)實際處理結(jié)果手工標注所得,共包括30 000條正樣本數(shù)據(jù)(匹配)和60 000條負樣本數(shù)據(jù)(不匹配)。數(shù)據(jù)集中包括30個政府部門的“三定”職責共355條,數(shù)據(jù)集描述如表2和表3所示。

        表2 “事件-部門”數(shù)據(jù)集描述

        表3 “事件-三定”數(shù)據(jù)集描述

        3.2 實驗設(shè)置

        為提升RoBERTa對政務(wù)領(lǐng)域的編碼效果,本文在實驗過程中以RoBERTa-WWM[27]的默認參數(shù)為基礎(chǔ),使用Seq2Seq模型與政務(wù)領(lǐng)域語料庫對RoBERTa模型進行微調(diào)。使用微調(diào)后的模型對“三定”職責和部門介紹進行語義表征,并將“三定”職責編碼與12345熱線事件文本編碼進行拼接。在對12345熱線事件文本和“三定”職責文本進行分析后,本文觀察到95%的事件文本長度均在287個字以內(nèi),95%的三定職責文本均在187個字范圍內(nèi)。因此,在拼接時將12345熱線事件文本最大長度設(shè)定為310,“三定”職責文本最大長度設(shè)定為200,超出部分予以截斷,長度不足的使用[PAD]進行填充,并在拼接結(jié)果首尾添加[CLS]標識符,拼接后的整體序列長度固定為510。

        在整體網(wǎng)絡(luò)訓練過程中,設(shè)置批處理大小為16,并使用學習率為10e-5的Adam優(yōu)化器作為模型的優(yōu)化方法,模型的整體參數(shù)如表4所示。

        表4 參數(shù)設(shè)置

        在訓練階段,事件與“三定”進行匹配,并進一步通過“三定”與部門進行關(guān)聯(lián),這樣就可以實現(xiàn)“事件-三定-部門”的對應(yīng)關(guān)系,因而訓練時使用“事件-三定-部門簡介”的方式訓練模型;而在預測階段,同一部門的多條“三定”與其部門簡介均存在對應(yīng)關(guān)系,可以生成多條“三定-部門簡介”對,因而在預測時將事件與所有的355個“三定-部門簡介”對都進行匹配,得到所有的匹配概率,最后利用重排序輸出最優(yōu)的匹配部門。

        3.3 實驗環(huán)境

        本文使用基于CUDA 11.0的深度學習框架Pytorch 1.7.1構(gòu)建網(wǎng)絡(luò)模型,實驗在內(nèi)存DDR4 64 GB,2.4 GHz Intel(R) Xeon(R) Silver 4210R CPU,NVIDIA GeForce GTX 3090的Ubuntu 18.04 LTS系統(tǒng)上進行。

        3.4 實驗結(jié)果

        3.4.1 對比實驗

        為了驗證本文所提事件分撥方法的有效性,將本文方法RAVA與多種基線方法進行了對比,其中包括:

        (1)基于文本分類的方法即通過將30個部門作為分類類別,對輸入事件文本直接進行文本分類來完成分撥任務(wù)。

        (2)基于答案選擇的方法即通過采用答案選擇的方式,以“三定”作為備選答案,將事件文本與“三定”文本進行匹配,最后根據(jù)“三定”的匹配結(jié)果通過重排序確定最優(yōu)的事件分撥部門。

        值得注意的是,由于在整個任務(wù)中“三定”匹配是作為中間任務(wù)引入的,如果將所有部門“三定”直接嵌入事件作為文本分類方法的輸入,往往會由于輸入過長被截斷而無法獲得完整的“三定”語義信息。而如果將“三定”職責轉(zhuǎn)換為文檔向量后嵌入事件中,考慮到“事件-三定-部門”之間的關(guān)聯(lián)性,模型往往無法捕捉到最匹配的“三定”職責信息,而不匹配的“三定”職責信息會對模型的分類效果產(chǎn)生較大的負面影響,因此本文沒有將“三定”職責嵌入到文本分類基線方法的輸入中。本文使用前5個結(jié)果準確度(P@5)、平均精度均值(MAP)、平均倒數(shù)排名(MRR)指標來衡量“三定”嵌入模塊中答案選擇網(wǎng)絡(luò)的整體效果;使用Precision(精確率)、Recall(召回率)、F1值指標來評價事件分撥的性能。P@5、MAP和MRR的計算如式(20)~式(22)所示。

        (20)

        其中,yi=(0,1)表示第i個分撥部門結(jié)果是否相關(guān)

        (21)

        其中,QR表示所有部門,AP(q)表示對某一部門q的平均精確率。

        (22)

        其中,ki表示對每一個事件內(nèi)容第一個正確分撥部門結(jié)果所在的位置。

        (1) 基于文本分類的方法

        ① HAN[29]: 使用基于單詞層面注意力機制的BiGRU模型和基于句子層面注意力機制的BiGRU模型提取12345熱線事件文本多層面的特征并進行事件分撥。

        ② BERT-linear: 采用BERT模型提取12345熱線事件文本特征,使用線性分類器進行事件分撥。

        ③ XLNet-linear: 采用XLNet模型提取12345熱線事件文本特征,使用線性分類器進行事件分撥。

        ④ BERT-AGN[30]: S-Net模塊采用BERT提取12345熱線事件文本特征,V-Net模塊使用變分自編碼器提取12345熱線文本的統(tǒng)計信息,最終使用Adaptive Gate Network (AGN)模塊將文本的統(tǒng)計信息與文本的特征信息通過門控制機制融合起來,完成熱線事件分撥。

        (2) 基于答案選擇的方法

        ① ELECTRA-BiGRU-based[31]: 采用ELECTRA預訓練模型對問題答案對(QA-pairs)進行編碼獲取語義表征向量,利用BiGRU獲取更精細的QA-pairs上下文信息,使用sigmoid函數(shù)完成“三定”匹配,最終對答案重排序?qū)崿F(xiàn)事件分撥。

        ② Siamese-based[32]: 通過兩個結(jié)構(gòu)相同且共享權(quán)重的編碼網(wǎng)絡(luò)對輸入進行處理,并將兩者的輸出結(jié)果進行拼接后接入分類器完成“三定”匹配,最終進行答案重排序?qū)崿F(xiàn)事件分撥。

        ③ ABCNN-based[33]: 將注意力機制加入到基于寬卷積的CNN結(jié)構(gòu)中,在提取N-gram信息后計算注意力,而后經(jīng)過池化層后接入分類器完成“三定”匹配,最終對答案重排序?qū)崿F(xiàn)事件分撥。

        ④ BERT-BiGRU-based: 采用BERT模型問題答案對(QA-pairs)進行編碼獲取語義表征向量,利用BiGRU獲取更精細的QA-pairs上下文信息,使用sigmoid函數(shù)完成“三定”匹配,最終對答案重排序?qū)崿F(xiàn)事件分撥。

        實驗對比結(jié)果如表5所示??梢钥闯?,RAVA方法在各項指標的效果均優(yōu)于其他基線方法。RAVA方法相對于基于文本分類的分撥方法,在部門分撥的精確度上提高了6%到9%,在F1得分上則提高了5%到7%,有較為顯著的效果提升。這一結(jié)果表明: 將事件內(nèi)容與“三定”文本進行關(guān)聯(lián)匹配后,再將事件分撥到部門,有助于提升事件分撥的整體性能?;诖鸢高x擇的方法在事件分撥的性能上整體優(yōu)于基于文本分類的方法,相比于其他基于答案選擇的方法,本文提出的RAVA方法在整體分撥效果上有3%到5%的提升。在第一階段的“事件-三定”匹配任務(wù)上,RAVA方法的整體性能指標有2%到3%的提升。例如,對比于ABCNN-based方法,RAVA方法在MAP指標上提升了4.29%,這說明基于self-attention機制的信息提取方法雖然能有效地從事件和“三定”中提取關(guān)鍵信息,但是基于強化關(guān)聯(lián)的ARA機制能更多地關(guān)注到事件與“三定”之間的關(guān)聯(lián)關(guān)系,有助于提升“事件-三定”的匹配效果。綜上所述,RAVA方法在多項指標上取得了更好的分撥性能。

        表5 實驗對比結(jié)果

        3.4.2 消融實驗

        為說明本文提出的“三定”嵌入模塊和答案重排序模塊的有效性, 對這兩個模塊進行了消融實驗。

        (1) 三定嵌入模塊消融實驗

        由于“三定”嵌入模塊包含兩個子模塊,因此對兩個子模塊進行消融實驗:

        ① ARA子模塊: 移除ARA子模塊,在“三定”嵌入模塊中僅對“三定”輸入向量和事件輸入向量進行拼接,其余部分不變。

        ② 部門簡介嵌入子模塊: 移除部門簡介嵌入子模塊,在“三定”嵌入模塊中僅使用ARA子模塊結(jié)果作為輸出,其余部分不變。

        圖5展示了消融實驗結(jié)果,其中RAVA是不做任何消融的分撥方法,without_ARA是消融ARA子模塊的分撥方法,without_Depart是消融部門簡介嵌入子模塊的分撥方法。如圖5所示,without_ARA方法在多項指標上均低于RAVA方法,平均下降2~4個百分點。這是因為ARA模塊可以有效增強“三定”與事件之間的關(guān)聯(lián)信息,對于事件分撥性能的提升有較大幫助。同樣,without_Depart方法也在多項指標上效果低于RAVA方法,平均下降2~4個百分點。這是因為基于政務(wù)語料庫進行遷移訓練的RoBERTa語言模型可以通過引入相關(guān)領(lǐng)域知識提升分撥方法的性能。上述消融實驗說明了本文提出的“三定”嵌入模塊對于事件分撥的有效性。

        圖5 “三定”嵌入模塊消融實驗結(jié)果

        (2) 答案重排序模塊消融實驗

        答案重排序模塊僅對“事件-三定”的匹配結(jié)果進行加權(quán)平均計算來確定最終分撥部門,無法計算P@5、MAP、MRR指標,因此答案重排序模塊的消融實驗僅采用Precision、Recall和F1指標進行評價。在消融實驗過程中,移除重排序模塊,僅對“三定”嵌入模塊的輸出結(jié)果進行求和處理,其余部分不變。

        表6展示了答案重排序模塊的消融實驗結(jié)果,其中without_Reorder是消融答案重排序模塊的分撥方法??梢?,RAVA方法在各項指標上均超越了without_Reorder方法,平均超過兩個百分點。這是由于答案重排序模塊可以通過引入歷史分撥事件的先驗知識來提升分撥性能。消融實驗的結(jié)果說明了本文提出的答案重排序模塊對于事件分撥的有效性。

        表6 答案重排序模塊消融實驗結(jié)果

        3.4.3 ARA實例分析

        在“三定”嵌入模塊中,本文引入了ARA機制計算注意力矩陣以盡可能保留拼接向量中包含的全部關(guān)聯(lián)信息。為了驗證ARA機制對于捕獲事件描述與“三定”職責之間關(guān)聯(lián)的有效性,本文隨機抽樣了其中一個“事件-三定”拼接文本,給出了ARA機制中的注意力分布矩陣,如圖6和圖7所示。

        圖6 注意力矩陣

        圖7 “事件-三定”拼接文本示例

        在圖6中,矩陣的顏色深淺表示對內(nèi)容的關(guān)注度高低,顏色越淺表示對這部分內(nèi)容的關(guān)注度越高。

        根據(jù)前文所述,由于參與注意力權(quán)重矩陣計算的兩部分輸入均為拼接向量,因而最終的注意力矩陣越接近對稱矩陣,證明注意力權(quán)重參數(shù)矩陣U的學習效果越好。同時,注意到包含有“三定”職責描述的文本在整個句子中獲得了較高的注意力權(quán)重,說明了ARA機制在處理12345熱線事件描述時能有效關(guān)注到“三定”職責中包含的語義信息并給予較高的關(guān)注度,也說明了“三定”嵌入對提升事件分撥的性能起到了重要的作用。

        3.4.4 推理時間分析

        RAVA模型對12345熱線事件分撥包含兩個串行過程: “事件-三定”匹配過程和答案重排序過程。在實驗環(huán)境下,RAVA模型完成單個事件與“三定”的匹配所花費的平均時間約為5.7e-03 s,實現(xiàn)答案重排序所花費的平均時間約為1.0e-03 s。可見,RAVA模型的推理速度為毫秒級,因此能夠滿足日益增長的12345熱線事件分撥需求。

        4 結(jié)束語

        本文面向12345熱線提出了一種基于強化關(guān)聯(lián)的事件分撥方法(RAVA): 首先對12345熱線事件文本中的事件主體、事件觸發(fā)詞、事件地點等關(guān)鍵信息進行提取并在此基礎(chǔ)上構(gòu)建事件畫像;然后將事件畫像輸入“三定”嵌入模塊,與政府部門“三定”職責進行匹配,得到適用于該事件的“三定”職責列表并將其轉(zhuǎn)換為對應(yīng)部門;最后對相關(guān)答案進行重排序,輸出12345熱線事件的分撥部門。在蕪湖市12345熱線數(shù)據(jù)集上的實驗結(jié)果表明了RAVA分撥方法在多項指標上達到了較好的效果。同時,消融實驗也說明了RAVA方法中“三定”嵌入模塊和答案重排序模塊的有效性。未來工作中,除了基于分撥正確的案例進行學習,將使用在線學習的方式,基于部分分撥錯誤的案例進行學習,以持續(xù)提升RAVA方法的分撥性能。

        猜你喜歡
        排序文本模型
        一半模型
        排序不等式
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        恐怖排序
        在808DA上文本顯示的改善
        節(jié)日排序
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        刻舟求劍
        兒童繪本(2018年5期)2018-04-12 16:45:32
        3D打印中的模型分割與打包
        中文字幕乱码人妻在线| 国产人成精品综合欧美成人| 久久久AV无码精品免费| 国产成人综合亚洲国产| 国产91精品高潮白浆喷水| 久久久久久久波多野结衣高潮 | 亚洲一区二区高清在线| 一区二区三区视频亚洲| 人人爽人人爽人人片av| 精品少妇一区二区三区视频| 亚洲欧洲无码精品ⅤA| 开心五月骚婷婷综合网| 久久国产加勒比精品无码| 麻豆精产国品| 在线观看国产精品自拍| 免费的小黄片在线观看视频| 亚洲色欲色欲www在线观看| 国产在线白丝DVD精品| 日本一区二区三深夜不卡| 人妖av手机在线观看| 九九久久精品无码专区| 中文字幕大屁股熟女乱| 国产亚洲精品综合在线网站| 精品精品国产高清a毛片| 亚洲av无码片在线观看| 国产欧美亚洲另类第一页| 一区二区高清视频免费在线观看| 色爱av综合网站| 国产精品嫩草影院AV| 蜜桃在线一区二区三区| 日本h片中文字幕在线| 三级在线看中文字幕完整版| 一区二区三区福利在线视频| 特级国产一区二区三区| 中文字幕乱码无码人妻系列蜜桃| 免费的毛片视频| av在线网站一区二区| 亚洲αv在线精品糸列| 亚洲最大日夜无码中文字幕| 久久精品国产亚洲av桥本有菜| 久久红精品一区二区三区|