亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向電力領(lǐng)域自然語言理解的數(shù)據(jù)增強研究與實現(xiàn)

        2023-10-30 04:32:42施俊威
        現(xiàn)代計算機 2023年16期
        關(guān)鍵詞:解碼領(lǐng)域樣本

        施俊威,宋 暉

        (東華大學計算機科學與技術(shù)學院,上海 201620)

        0 引言

        隨著人工智能技術(shù)的不斷發(fā)展和應用,電力領(lǐng)域也逐漸迎來了智能化轉(zhuǎn)型的浪潮。在電力行業(yè)中,用戶往往通過人工客服和電力公司網(wǎng)站等傳統(tǒng)方式獲取與用電相關(guān)的各種信息,然而,這些方式存在著諸多問題,如人工客服效率低、需要等待時間長。因此,在人工智能系統(tǒng)與電力系統(tǒng)的融合中,智能問答成為一種重要的應用方式和技術(shù)手段,將自然語言處理技術(shù)應用于電力系統(tǒng)中,提高溝通效率和工作效率,節(jié)省了人力資源[1],使電力系統(tǒng)向自動化、智能化方向發(fā)展[2]。

        在電力領(lǐng)域的智能問答中正確地理解用戶的問題至關(guān)重要,目前通常采用自然語言理解(NLU)模型來實現(xiàn)[2]。在面向電力營銷指標問答的應用時,由于業(yè)務(wù)場景很多,需要識別的槽也很多,直接標注企業(yè)提供的少量問題,構(gòu)建NLU 模型,識別準確率只能達到60%左右,離實際應用要求相去甚遠。研究表明,大量的訓練數(shù)據(jù)能夠顯著提高NLU 模型的準確性[3]。在實際應用中,用戶和企業(yè)提供的領(lǐng)域問題數(shù)據(jù)并不能滿足模型訓練要求,并且人工數(shù)據(jù)標注的成本大,所以需要使用數(shù)據(jù)增強技術(shù)生成大量的電力領(lǐng)域樣本數(shù)據(jù),以此滿足NLU 模型訓練需求。

        傳統(tǒng)的文本數(shù)據(jù)增強方法包含詞匯替換、文本表面轉(zhuǎn)換以及隨機噪聲注入[4]。但是在面向電力領(lǐng)域NLU 任務(wù)里,通過使用這些方法生成的文本不能保證文本語義的連貫性和文本多樣性,這會導致NLU 模型性能下降[5],因此考慮采用生成式模型生成問題樣本,生成模型能夠基于給出的關(guān)鍵詞生成問題句。我們首先通過槽值替換方法獲得部分樣本,再利用這些樣本一起訓練生成式模型。

        目前生成式模型的解碼方法一般是基于集集中搜索[6],其生成的文本會出現(xiàn)重復詞或者多個同類型詞連續(xù)出現(xiàn),導致生成的文本語義不正確。本文提出了一種基于對比搜索[7]關(guān)鍵詞文本生成模型(neural text generaion with contrastive search,CSTG)。在文本生成過程中,生成的輸出應該從模型預測的最有可能的候選詞集合中選擇,生成的輸出應該具有充分的區(qū)分性,以便于與前文上下文的關(guān)系進行區(qū)分。通過這種方式,在電力領(lǐng)域樣本數(shù)據(jù)生成任務(wù)中,模型所生成的問題文本既能夠更好地保持語義連貫性,同時避免模型退化和在生成的文本中出現(xiàn)連續(xù)的重復詞。實驗結(jié)果表明,該模型降低了生成電力領(lǐng)域問題文本的重復率,從而使得訓練后的NLU模型能夠更加準確地理解用戶的問題,提升電力指標檢索系統(tǒng)的準確率。

        1 基于對比搜索關(guān)鍵詞文本生成模型

        1.1 模型框架

        在電力領(lǐng)域的指標問答應用中,NLU模型需要理解用戶問句對應的業(yè)務(wù)領(lǐng)域、指標問法,以及關(guān)鍵槽值。如領(lǐng)域domain為配變異常,指標意圖intent為query_total,槽和對應的槽值slots:{“org”:“南因供電所”,“time”:“2022 年 1月”,“detail”:“情況”}。

        我們首先使用傳統(tǒng)的槽替換、值替換等方法,基于用戶提供的典型和應用系統(tǒng)數(shù)據(jù),獲得的樣本數(shù)據(jù)作為訓練數(shù)據(jù)集,用于訓練問題生成模型:模型將問題句的各種槽值(關(guān)鍵字)作為輸入,輸出一段完整的文本,該段文本應盡可能包含這些給定的領(lǐng)域關(guān)鍵詞。輸入領(lǐng)域關(guān)鍵詞包含售電量、石家莊、3月和排名,經(jīng)過模型的文本生成,生成完整的文本:“今年3月份在石家莊的售電量排名是多少?”

        本文設(shè)計了CSTG模型來實現(xiàn)生成過程,該模型是基于注意力機制的LSTM文本生成模型[8],如圖1所示。根據(jù)輸入的電力領(lǐng)域關(guān)鍵詞W生成與電力領(lǐng)域關(guān)鍵詞相關(guān)的問題文本。

        圖1 模型結(jié)構(gòu)

        CSTG模型由編碼和解碼兩部分組成,在編碼部分,主要包含對關(guān)鍵詞的編碼以及設(shè)置關(guān)鍵詞表達的覆蓋向量,覆蓋向量是控制關(guān)鍵詞在文本生成中被表達的權(quán)重值向量,使得關(guān)鍵詞盡可能地在文本中被表達出來。在解碼部分,包含注意力模塊和解碼策略,注意力模塊讓解碼器基于自身歷史輸出,來計算輸出。解碼策略則基于所給候選詞選擇最優(yōu)項作為輸出。

        1.1.1 編碼

        在模型的編碼階段,首先模型將輸入的關(guān)鍵詞通過一個詞嵌入層轉(zhuǎn)換成向量表示W(wǎng),然后,通過引入注意力參數(shù)μ,我們可以將每個關(guān)鍵詞表示為Tt,并將每個關(guān)鍵詞的語義通過注意力機制傳遞到生成的單詞中,該注意力參數(shù)定義為一個向量:μ1、μ2、…、μk,其中μi表示領(lǐng)域關(guān)鍵詞詞匯i的分數(shù)。在時間步t生成文本時,Tt的計算公式如下:

        其中,Wj表示第j個關(guān)鍵詞的編碼張量,μtj的計算方式如下:

        并且qtj的計算公式表示為

        其中va,Xa和Ya是三個矩陣,在模型訓練期間需要進行優(yōu)化。

        1.1.2 關(guān)鍵詞覆蓋向量

        模型設(shè)置一個關(guān)于所給關(guān)鍵詞的覆蓋向量v,每一維度代表該關(guān)鍵詞在將來的文本生成中被表達的程度,關(guān)鍵詞覆蓋向量通過一個參數(shù)φj進行更新,這個參數(shù)可以被視為關(guān)鍵詞Wj的話語級重要性權(quán)重。該參數(shù)用于調(diào)整生成過程中領(lǐng)域關(guān)鍵詞的表達程度,從而影響模型對關(guān)鍵詞Wj的關(guān)注程度,使得生成的文本能夠更好地符合關(guān)鍵詞Wj的內(nèi)容要求。在模型的生成過程中,模型會根據(jù)覆蓋向量v和注意力機制調(diào)整生成策略,使得模型能夠讓未被表達的關(guān)鍵詞在生成過程中表達,從而提升生成文本的可讀性和完整性。在當前時間步t生成新的詞時,第j個關(guān)鍵詞Vt,j的計算方式如下:

        其中μt,j表示第j個關(guān)鍵詞在時間步t的注意力權(quán)重。φj=N·σ(Uf[T1,T2,…,Tk]),Uf∈。

        在模型的訓練過程中,可以利用已有的電力領(lǐng)域問題和關(guān)鍵詞來訓練模型的參數(shù)和關(guān)鍵詞覆蓋向量。在模型訓練的過程中,可以采用基于梯度下降的方法對模型的參數(shù)和關(guān)鍵詞覆蓋向量進行更新。綜合上述,基于關(guān)鍵詞的文本生成模型可以幫助解決電力領(lǐng)域NLU 任務(wù)中數(shù)據(jù)數(shù)量不足的問題,提高訓練數(shù)據(jù)的數(shù)量和質(zhì)量,從而提高模型的性能和準確率。同時,利用關(guān)鍵詞覆蓋向量可以讓模型更好地理解關(guān)鍵詞,并根據(jù)關(guān)鍵詞生成符合要求的文本。

        1.2 模型解碼

        1.2.1 文本生成

        模型在生成文本階段,是基于上一個生成的詞預測下一個詞,下一個預測詞的概率根據(jù)下式得出。

        上式中模型在時間步t的隱層狀態(tài)ht的公式如下所示:

        一般生成式模型,在得到預測詞的概率后會選擇搜索算法,從候選詞中選取較為合適的詞作為生成文本。本文選用對比搜索作為模型的解碼策略,生成語義正確的文本數(shù)據(jù)。

        1.2.2 對比搜索

        基于關(guān)鍵詞的文本生成模型普遍的解碼方法包括集中搜索、貪心搜索和隨機采樣,雖然這些方法在一般情況下可以保證生成文本的語義正確性,但是在電力領(lǐng)域中,領(lǐng)域詞之間存在相似性,使用這些方法容易導致生成的文本出現(xiàn)重復詞或連續(xù)生成同類詞,從而影響生成文本的質(zhì)量。究其原因,是因為解碼算法沒有對語言模型的偏差合理規(guī)避[9]。為此,在基于關(guān)鍵詞的文本生成模型的基礎(chǔ)上,可以采用對比搜索的解碼方法來解決這一問題。對比搜索的方法會基于候選詞的選中概率,在每個解碼步驟中選擇模型預測的最可能候選詞集合,在選取最優(yōu)候選詞時,生成的輸出與前一個上下文有足夠的區(qū)別性,以避免模型的退化。這種方法可以更好地保持生成文本與前綴的語義連貫性,并避免生成的文本質(zhì)量下降。

        對比搜索是一種用于解碼的策略。在每個解碼步驟中,該策略會從模型預測的最有可能的候選集合中選擇輸出,以確保生成的文本與人類編寫的前綴之間的語義一致,并保持生成文本的詞匯相似度矩陣的稀疏性,從而避免模型退化。一般解碼方法會選擇概率最高的候選項作為輸出,而候選集合通常包含模型預測的前k個最高概率的選項,k的取值通常為3到10。對比搜索引入了一項懲罰機制,用于評估候選項與先前上下文的可區(qū)分性,從而保證生成的文本具有足夠的多樣性。在時間步驟t,給定先前上下文x<t,選擇輸出xt的過程如下:

        在上式中Z(k)是模型概率分布中前k個最高預測的候選集合,通常設(shè)置為3 到10。第一項模型置信度是模型預測的候選z的概率。第二項衰變懲罰度量候選z相對于先前上下文x<t的可區(qū)分性。s在公式中被定義為z的表示和x<t中所有tokens 的表示之間的相似度。這里ht,z是表示在當前時間步候選詞在模型中的隱層狀態(tài)。表示時間步t-1,選擇的最優(yōu)候選詞的隱層狀態(tài),其中z的更大的退化懲罰意味著它更類似于上下文,因此更容易導致模型的退化。超參數(shù)θ∈[ 0,1] 調(diào)節(jié)這兩個組件的重要性。當θ=0時,對比搜索退化為貪心搜索方法。

        2 實驗

        2.1 數(shù)據(jù)集與實驗設(shè)置

        在當前的電力領(lǐng)域文本生成研究中,構(gòu)建面向電力領(lǐng)域指標檢索的問題數(shù)據(jù)集是非常關(guān)鍵的。樣本數(shù)據(jù)集是JSON 的文件格式,每一條數(shù)據(jù)包含問題文本、領(lǐng)域、意圖、槽及槽對應的槽值。為了能夠更好地訓練和評估電力領(lǐng)域的文本生成模型,選擇了基于問題模板生成的電力營銷領(lǐng)域樣本數(shù)據(jù),并從企業(yè)真實數(shù)據(jù)中獲取了用電量、售電收入、投訴數(shù)量、地市排名等多個問題句類型的數(shù)據(jù)。

        該數(shù)據(jù)集包含了20920條樣本數(shù)據(jù),其中訓練集包含17500 條文本數(shù)據(jù),測試集包含3420條文本數(shù)據(jù)。為了更好地模擬真實情況,數(shù)據(jù)集的關(guān)鍵詞是選自于NLU 樣本問題的槽數(shù)據(jù),能夠更好地體現(xiàn)電力領(lǐng)域的語境和特點。通過這樣的數(shù)據(jù)集構(gòu)建,可以為電力領(lǐng)域的文本生成研究提供更加真實、具有代表性的數(shù)據(jù),有助于研究者們更加深入地探究電力營銷領(lǐng)域文本生成模型的性能和應用場景。

        2.2 實驗設(shè)置

        在模型的實現(xiàn)上,該模型是基于LSTM 的文本生成模型,其中使用到注意力機制,模型的超參數(shù)設(shè)置為:batch_size 為32,候選詞的數(shù)量k為3,訓練輪次為45,最大關(guān)鍵詞詞數(shù)為5,embedding_dim 為100,hidden_dim 為512,最大句子長度為128,學習率為1e-7,ReLU 作為激活函數(shù)。

        2.3 評估指標

        為了評估模型的性能,我們采用以下三個指標:

        (1)Bleu 指標通過比較機器翻譯結(jié)果與參考翻譯之間的n-gram重疊率來進行評估。

        (2)MAUVE 是一種衡量生成的文本和人類編寫的文本之間的標記分布緊密度的指標。更高的MAUVE 分數(shù)意味著該模型生成更多類似人類的文本。

        (3)rep-n這個指標以生成文本中重復n-gram的比例來衡量序列級別的重復,其中,n表示連續(xù)詞語或字符的數(shù)量。該重復率越低代表所生成的文本出現(xiàn)重復詞越少。對于所生成的文本n-gram級別的重復的定義如下:

        (4)Diversity指標考慮到不同的n-gram 級別生成的重復,可以視為模型退化的整體評估,較低的多樣性意味著模型退化得更加嚴重。其公式如下:

        3 實驗結(jié)果比較與分析

        實驗1通過在文本生成模型中使用不同解碼方法,根據(jù)模型所生成的文本質(zhì)量判斷模型整體的性能。該實驗中使用對比搜索和集中搜索兩種解碼方法,使用兩種解碼方法的模型在測試集中,實驗1的結(jié)果見表1,使用對比搜索的模型相較于使用集中搜索提高了9%,說明在電力領(lǐng)域使用對比搜索相較于傳統(tǒng)的集中搜索可以提高所生成文本的質(zhì)量,模型的性能也會更好。

        表1 模型性能實驗結(jié)果

        在實驗2中,根據(jù)訓練數(shù)據(jù)集已有的領(lǐng)域關(guān)鍵詞利用已訓練的模型生成4000 條文本,分別計算基于不同的解碼方法所生成文本的文本重復率,以此評估生成的文本質(zhì)量。實驗結(jié)果見表2,不同模型所生成的文本的重復率使用不同的解碼方法有了顯著的下降,其中對比搜索相較于集中搜索,在Rep-2、Rep-3、Rep-4 三個指標上都有較為明顯的下降,分別降低10.88、5.27、2.61,并且Diversity 與Mauve 指標有一定提高,對比搜索相較于貪心搜索和Nucleus Sampling 兩種解碼方法也有很大提升,表示對比搜索在該模型中能夠顯著降低生成文本的重復率,更好地保持模型生成文本與人類編寫的文本之間的語義一致性以及保留生成文本的詞匯相似度矩陣的稀疏性。

        表2 不同解碼方法對文本重復率的影響

        此外,通過對實驗2中所生成的文本進行分析,在模型訓練數(shù)據(jù)集中,根據(jù)不同文本長度的文本數(shù)據(jù)對應的領(lǐng)域關(guān)鍵詞生成文本,分析不同的文本長度對文本重復率是否產(chǎn)生影響。如表3所示。

        表3 文本長度對重復率的影響

        在電力領(lǐng)域數(shù)據(jù)集,平均文本長度分別為21.37和28.11,每種文本長度選取基于不同領(lǐng)域關(guān)鍵詞生成的1800 條文本數(shù)據(jù)進行分析,其對比搜索的重復率指標Rep-2、Rep-3 和Rep-4 相較于集中搜索都有一定幅度的降低,整體重復率指標Diversity 有一定提高。在分析不同長度的文本數(shù)據(jù)中,使用對比搜索的解碼方法相較于集中搜索取得更好的效果,基于對比搜索的模型所生成的文本,其重復率對于集中搜索有明顯的下降。

        4 結(jié)語

        本文針對智能問答中電力指標檢索系統(tǒng)的NLU 問題,訓練NLU 模型,其需要大量的樣本問題滿足訓練模型需要,但企業(yè)搜集的數(shù)據(jù)較少,人工標注成本較大,不能滿足需要,因此使用數(shù)據(jù)增強技術(shù)生成大量樣本數(shù)據(jù)。我們構(gòu)建了一個面向電力領(lǐng)域的樣本問題數(shù)據(jù)集,提出并使用CSTG 生成了與電力領(lǐng)域相關(guān)的問題樣本。對比搜索的核心思想是在每個解碼步驟中,從模型預測的最可能候選集中選擇輸出,保持生成文本與給定前綴之間的語義一致性和詞匯的區(qū)分性,并避免模型的退化。實驗結(jié)果表明,相對于傳統(tǒng)的集中搜索,對比搜索能夠生成更加準確和合理的電力領(lǐng)域問題,且能夠有效地解決電力領(lǐng)域生成文本出現(xiàn)重復詞的問題,一定程度上減少高頻率文本的重復率[10],使得模型在各項評估指標都得到了提升,NLU 模型在使用模型所生成的文本數(shù)據(jù)后,模型識別用戶意圖的準確率有所提高,這也提升智能問答的電力指標檢索的準確率。

        猜你喜歡
        解碼領(lǐng)域樣本
        《解碼萬噸站》
        用樣本估計總體復習點撥
        解碼eUCP2.0
        中國外匯(2019年19期)2019-11-26 00:57:32
        領(lǐng)域·對峙
        青年生活(2019年23期)2019-09-10 12:55:43
        NAD C368解碼/放大器一體機
        Quad(國都)Vena解碼/放大器一體機
        推動醫(yī)改的“直銷樣本”
        隨機微分方程的樣本Lyapunov二次型估計
        村企共贏的樣本
        新常態(tài)下推動多層次多領(lǐng)域依法治理初探
        隔壁的日本人妻bd高清中字| 久久免费视频国产| 人妖精品视频在线观看| 一区=区三区国产视频| 91丝袜美腿亚洲一区二区| 精品人妻无码视频中文字幕一区二区三区| 亚洲国产高清在线观看视频| 久久精品国产精品亚洲艾| 国产在线精品成人一区二区三区| 高潮抽搐潮喷毛片在线播放| 欧美疯狂做受xxxxx高潮| 欧美人与动牲交片免费播放| 性感美女脱内裤无遮挡| 四川丰满妇女毛片四川话| 亚洲av熟妇高潮30p| 在线一区二区三区视频观看| 东北熟妇露脸25分钟| 一本色道无码道dvd在线观看| 亚洲人成人网毛片在线播放| 丰满人妻无套内射视频| 日本道色综合久久影院| 中文字幕精品一二三四五六七八| 久久这里只精品国产2| 亚洲精品熟女av影院| 狠狠躁18三区二区一区| 香蕉视频www.5.在线观看| 欧美一级鲁丝片免费一区| 天堂蜜桃视频在线观看| 国产av麻豆mag剧集| 狠狠躁天天躁无码中文字幕图| 日本熟女视频一区二区三区| 国产av无码专区亚洲版综合| 又黄又爽又色的视频| 欧美一级鲁丝片免费一区| 亚洲午夜精品一区二区麻豆av | 国产精品九九久久一区hh| 国产一区二区三区18p| 人成午夜免费视频无码| 亚洲网站地址一地址二| 国产91熟女高潮一曲区| 丰满人妻一区二区三区蜜桃|