亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多模態(tài)融合的事件分類和分撥聯(lián)合模型

        2023-08-26 08:37:58佘祥榮
        電腦知識與技術(shù) 2023年20期

        佘祥榮

        關(guān)鍵詞: 事件分類; 事件分撥; 圖卷積網(wǎng)絡(luò); RoBERTa; 多模態(tài)融合

        中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A

        文章編號:1009-3044(2023)20-0028-03

        0 引言

        政務(wù)服務(wù)熱線是指各地市人民政府設(shè)立的由電話12345、市長信箱、手機(jī)短信、手機(jī)客戶端、微博、微信等方式組成的專門受理熱線事項的公共服務(wù)平臺,是政府聯(lián)通公眾的重要渠道。通過政務(wù)服務(wù)熱線,政府可以及時了解民生問題,為民排憂解難,從而有效化解社會矛盾[1]。政務(wù)服務(wù)熱線的事件分撥過程主要還依賴于人工處理,但熱線話務(wù)員常常無法深入了解每個部門的權(quán)力與職責(zé),同時每天數(shù)以萬計的政務(wù)熱線事件需要被分配,人工處理的方式難以快速高效地完成事件分撥。因此,研究一種能夠準(zhǔn)確確定事件類型并對事件進(jìn)行相應(yīng)責(zé)任部門的自動分撥方法具有非常重要的意義。

        利用自然語言處理技術(shù)理解政務(wù)熱線事件得到事件的表征信息是完成事件分類和分撥的核心,傳統(tǒng)的word2vec[2]、GloVe[3]等詞表形式的詞嵌入方法,僅能考慮文本自身的信息,難以處理文本在不同環(huán)境下存在一詞多義的情況。CNN[4]或RNN[5]等模型由于其自身結(jié)構(gòu)原因?qū)ξ谋拘畔⒌奶崛〈嬖诰窒扌?,而基于大?guī)模文本數(shù)據(jù)訓(xùn)練的語言模型(BERT[6], XLNet[7], Ro?BERTa[8]等)可以有效解決這類問題。但語言模型對文本的輸入長度有一定的限制,在處理長文本事件時會截斷事件文本,從而導(dǎo)致丟失文本信息的問題,而構(gòu)建整個文本的圖結(jié)構(gòu)并應(yīng)用GCN[9]來提取文本的圖結(jié)構(gòu)信息的方式可以有效解決文本過長的問題。注意力(Attention)機(jī)制[10]可以有效地對齊不同模態(tài)的事件信息,以提升事件分類的準(zhǔn)確性。此外,將結(jié)合“三定”職責(zé)“( 三定”包含了機(jī)構(gòu)規(guī)格、主要職責(zé)、內(nèi)設(shè)機(jī)構(gòu)及其具體職責(zé)、人員編制和領(lǐng)導(dǎo)職數(shù)等方面內(nèi)容)的事件多模態(tài)信息進(jìn)行融合,可以為事件分撥提供先驗知識,以提高事件分撥的準(zhǔn)確性。基于此,本文提出了一種基于多模態(tài)融合的事件分撥和分類聯(lián)合模型方法,可以通過圖計算和語言模型有效解決事件文本長短不一、要素不清的問題,并采用多模態(tài)融合的方式完成事件文本分類和事件分撥任務(wù)。

        1 模型結(jié)構(gòu)

        本文提出了一種針對政府熱線的事件分類與分撥的聯(lián)合學(xué)習(xí)模型,該模型包括三個部分:基于GCN 和RoBERTa的事件分類模塊、基于軟投票的“三定”融合預(yù)測模塊和重排序模塊,模型整體結(jié)構(gòu)如圖1所示。

        1.1 事件分類

        基于圖結(jié)構(gòu)特征和文本特征融合的事件分類主要包括圖構(gòu)建、基于GCN 的圖特征提取、基于Ro?BERTa的上下文特征提取和基于特征融合的事件分類四個部分。

        1.1.1 圖構(gòu)建

        由于事件文本存在長短不一的問題,并且事件文本中的某些句子與事件本身的主題不相關(guān)。因此,本文采用事件文本的命名實體和關(guān)鍵詞作為事件的主題。由于命名實體識別和關(guān)鍵詞提取不是本文的重點,所以本文采用現(xiàn)有工具包來進(jìn)行命名實體識別和關(guān)鍵詞提取。具體圖構(gòu)建過程如下:

        1) 對于給定的事件文本D,首先進(jìn)行分句處理并對事件文本進(jìn)行分詞和命名實體識別,同時應(yīng)用Tex?tRank等關(guān)鍵詞提取算法獲得額外的關(guān)鍵詞,以得到每個句子的節(jié)點詞集合{A};

        2) 對于事件的節(jié)點詞集合{A}中的元素i 和j,如果i、j 出現(xiàn)在同一個句子中,則它們之間存在關(guān)系,在它們之間添加一條邊;反之,元素i 和j 之間則不存在關(guān)系;

        3) 將節(jié)點詞集合{A}中的相同詞進(jìn)行合并,以完成事件文本的關(guān)系圖構(gòu)建。

        1.4 重排序模塊

        對于一個給定的熱線事件,將所有的“三定”均與該事件進(jìn)行匹配并送入模型中,最終得到一個預(yù)測概率列表。由于一個部門包含多個“三定”職責(zé),因此需要根據(jù)預(yù)測概率列表對分撥部門的匹配概率結(jié)果進(jìn)行重新排序,以獲取最優(yōu)的分撥部門。具體過程為:

        1) 對每個部門對應(yīng)的“三定”職責(zé)預(yù)測概率進(jìn)行累加,并計算各部門概率均值作為該部門的預(yù)測概率。

        2) 根據(jù)概率結(jié)果對所有部門進(jìn)行排序,選取Top-1部門作為最終分撥部門。

        2 實驗

        2.1 數(shù)據(jù)集

        本文數(shù)據(jù)集是基于蕪湖市政務(wù)服務(wù)熱線的真實事件分配案例構(gòu)建得到,包括“事件-部門”和“事件- 三定”兩部分?!笆录?部門”是基于政務(wù)熱線真實事件分撥處理結(jié)果構(gòu)建,包含30個市級部門對應(yīng)的3萬條事件數(shù)據(jù)?!笆录?三定”是由政務(wù)工作人員根據(jù)“事件-部門”數(shù)據(jù)中30 000條數(shù)據(jù)的實際處理結(jié)果標(biāo)注所得,包括30 000條正樣本(匹配)和采用隨機(jī)抽取的方式構(gòu)建的60 000條負(fù)樣本(不匹配)。數(shù)據(jù)集描述如表1所示。

        2.2 實驗設(shè)置

        本文使用版本為1.7.1的PyTorch構(gòu)建網(wǎng)絡(luò)模型,實驗環(huán)境的操作系統(tǒng)為Ubuntu 18.04 LTS,顯卡為NVIDIA GeForce GTX 3090。本文使用RoBERTa模型作為預(yù)訓(xùn)練語言模型對事件文本和“三定”文本進(jìn)行語義提取,RoBERTa的嵌入維數(shù)為768,詞匯量為30000,輸入序列長度為512;GCN嵌入大小設(shè)置為768;采用學(xué)習(xí)率為10e-5的Adam優(yōu)化器作為模型的優(yōu)化方法;采用批大小為16的分批對模型進(jìn)行訓(xùn)練。

        2.3 事件分類實驗結(jié)果

        本文將所提出的模型與多種先進(jìn)的文本分類基線模型進(jìn)行對比,包括:HAN, TextGCN, XLNet, Bert?GCN。同時,采用傳統(tǒng)文本分類指標(biāo)Micro-F1 和Weighted-F1作為本文的評價指標(biāo)。

        表2是不同事件文本分類方法的實驗結(jié)果。結(jié)果表明,相比于其他基線模型,本文的聯(lián)合學(xué)習(xí)模型在事件分類任務(wù)上達(dá)到了最優(yōu)性能。HAN 模型采用BiLSTM網(wǎng)絡(luò)結(jié)合注意力機(jī)制提取文本上下文特征信息,但是對文本的局部特征提取較差,因此模型效果較差;而使用GCN網(wǎng)絡(luò)的TextGCN模型可以根據(jù)文本結(jié)構(gòu)圖有效提文本的圖結(jié)構(gòu)信息,可以有效緩解長文本帶來的網(wǎng)絡(luò)記憶丟失的問題,但GCN對文本本身的上下文語義信息提取能力較差;XLNet語言模型可以有效編碼文本上下文信息,但也對輸入文本長度存在限制,因此模型效果不如采用語言模型和GCN結(jié)合的BertGCN模型;本文使用RoBERTa語言模型結(jié)合GCN 的結(jié)構(gòu),同時采用基于注意力機(jī)制的融合模型,以實現(xiàn)有效多模態(tài)特征信息的對齊,從而使模型具有最優(yōu)的分類效果。

        2.4 事件分撥實驗結(jié)果

        為了評估分撥任務(wù),本文將所提出的方法與以下先進(jìn)的事件分類任務(wù)基線方法進(jìn)行了比較,包括:Siamese-BiLSTM-based, ABCNN-based, BERT-BiGRU-based,ELECTRA-BiGRU-based。本文采用P@5、MAP、MRR、Precision、Recall和F1指標(biāo)來評價事件分撥的性能。

        事件分撥對比實驗結(jié)果如表3所示,由表3可知,本文方法在每個指標(biāo)的效果上,均優(yōu)于其他基線方法。相比于Siamese-BiLSTM-based 模型和ABCNNbased模型使用BiLSTM網(wǎng)絡(luò)以及CNN網(wǎng)絡(luò)作為特征提取的基礎(chǔ)網(wǎng)絡(luò),采用語言模型作為特征提取網(wǎng)絡(luò)的模型可以有效地提取文本上下文語義信息,因此效果優(yōu)于Siamese-BiLSTM-based 和ABCNN-based 模型;BERT-BiGRU-based 模型和ELECTRA-BiGRU-based 模型采用不同的語言模型結(jié)合BiGRU網(wǎng)絡(luò)進(jìn)行事件分撥,因此模型效果較為相近,主要是由于語言模型對下游任務(wù)微調(diào)上存在的差距;而本文模型使用RoBERTa 語言模型和GCN網(wǎng)絡(luò)分別提取事件文本的上下文語義信息和文本的圖結(jié)構(gòu)信息,可以有效提取文本本身的語義信息并緩解事件文本長短不一的問題;同時,本文還使用了基于后期融合的方式對事件的圖結(jié)構(gòu)特征以及事件的上下文文本特征的預(yù)測結(jié)果進(jìn)行融合,從而可以有效提升模型的準(zhǔn)確性。因此,相較于其他基線模型,本文模型取得了最優(yōu)的分撥效果。

        3 結(jié)論

        本文提出了一種基于多模態(tài)融合的事件分類和事件分撥聯(lián)合學(xué)習(xí)模型,該模型使用圖計算和語言模型有效解決事件文本長短不一、要素不清等問題。模型首先通過構(gòu)建事件文本的文本結(jié)構(gòu)圖并使用GCN 獲取圖結(jié)構(gòu)特征;其次,使用RoBERTa語言模型提取事件文本的上下文語義特征;然后,使用注意力機(jī)制對融合事件文本圖結(jié)構(gòu)和上下文語義的多模態(tài)信息,并采用文本分類模型進(jìn)行事件分類;最后,采用后期融合的方式對事件的分撥部門進(jìn)行預(yù)測,并利用重排序模塊對部門預(yù)測結(jié)果進(jìn)行排序,輸出事件的最優(yōu)分配部門。事件分類和事件分撥的實驗結(jié)果表明,相較于其他基線模型,本文提出模型在兩個任務(wù)上均具有更優(yōu)的性能。

        大屁股流白浆一区二区| 欧洲成人午夜精品无码区久久| 日韩精品大片在线观看| 亚洲AV无码一区二区水蜜桃| 日本成人精品一区二区三区| 亚洲中字幕日产av片在线| 亚洲国产美女精品久久久| 免费看一级a女人自慰免费| 一区二区三区精品婷婷| 国产一区亚洲二区三区| 玩弄放荡人妻少妇系列视频| 四虎精品成人免费观看| 91精品国产乱码久久久| 女女同恋一区二区在线观看| 最新亚洲人成网站在线观看 | 日韩中文字幕一区在线| 亚洲深深色噜噜狠狠网站| 亚洲av综合日韩| 日韩久久久久中文字幕人妻| 一道本加勒比在线观看| 久久亚洲精品情侣| 蜜臀aⅴ国产精品久久久国产老师| 国产成人综合久久精品推荐免费| 日韩一级精品视频免费在线看| 后入到高潮免费观看| 荡女精品导航| 白色月光在线观看免费高清| 国产精品一区二区三区在线蜜桃| 国产裸拍裸体视频在线观看| 51精品视频一区二区三区 | 免费av网站大全亚洲一区| 激情影院内射美女| 亚洲一区毛片在线观看| 亚洲日韩av无码中文字幕美国| 亚洲αⅴ无码乱码在线观看性色 | 久久精品国产亚洲av不卡国产| 久久综合给合综合久久| 亚洲AV无码秘 蜜桃1区| 国产精女同一区二区三区久| av免费网址在线观看| 欧美亚洲日本在线|