亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于混沌映射與飛行策略的短文本分類算法

        2022-05-10 09:22:14苑津莎張衛(wèi)華班雙雙
        電力科學(xué)與工程 2022年4期
        關(guān)鍵詞:語義分類文本

        苑津莎,張 瑾,張衛(wèi)華,班雙雙

        (華北電力大學(xué) 電子與通信工程系,河北 保定 071003)

        0 引言

        隨著信息時代的到來,大數(shù)據(jù)分析已經(jīng)應(yīng)用到了許多生產(chǎn)生活領(lǐng)域。電力系統(tǒng)在運行過程中所產(chǎn)生的歷史數(shù)據(jù)經(jīng)過不斷積累,數(shù)據(jù)規(guī)模逐漸擴大。電力客服系統(tǒng)作為電力企業(yè)與客戶溝通的橋梁,其工作效率的提高意義重大??头危ㄏ挛暮喎Q,工單)記錄了電力系統(tǒng)在運行中所產(chǎn)生的諸如故障檢修、調(diào)度運行、客戶咨詢及投訴、運維記錄等大量數(shù)據(jù)信息。對工單進(jìn)行數(shù)據(jù)分析,對于發(fā)現(xiàn)企業(yè)內(nèi)服務(wù)系統(tǒng)存在的漏洞具有重要意義。應(yīng)用文本分類技術(shù)將工單數(shù)據(jù)進(jìn)行處理,快速準(zhǔn)確地分析客戶需求,有助于提升企業(yè)工作效率。

        傳統(tǒng)的數(shù)據(jù)分析方法存在信息讀取效率問題。近年來,基于機器學(xué)習(xí)與深度學(xué)習(xí)的自然語言處理方法發(fā)展快速,且在工單文本分類處理方面得到了大量應(yīng)用。文獻(xiàn)[1]提出基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的多任務(wù)學(xué)習(xí)框架,設(shè)置了3個不同信息共享機制,針對特定任務(wù)和共享層的文本建模,并在文本分類任務(wù)上驗證了模型的性能。文獻(xiàn)[2]針對電力投訴文本長度差異較大以及強專業(yè)性的特點,采用長短期記憶(LSTM)方法提取了電力文本語義特征,再通過卷積神經(jīng)網(wǎng)絡(luò)模型對其進(jìn)行二次特征提取,有效提高了分類的準(zhǔn)確性。文獻(xiàn)[3]利用Word2Vec模型將詞語映射到高維特征空間,通過基于雙向 LSTM 的注意力機制(BiLSTM-attention)對電力設(shè)備缺陷文本進(jìn)行分類。文獻(xiàn)[4]為了提取更具代表性的特征向量,融合文本循環(huán)神經(jīng)網(wǎng)絡(luò)(TextRNN)模型和文本卷積神經(jīng)網(wǎng)絡(luò)(TextCNN)模型,并引入注意力機制,解決了TextRNN模型、TextCNN模型的局限性,提高了文本分類的效果。文獻(xiàn)[5]提出了層次語義理解的方法,將工單中的字符、詞建模轉(zhuǎn)化為描述再進(jìn)行分類,實現(xiàn)了工單隱藏語義的準(zhǔn)確表示。文獻(xiàn)[6]通過使用BERT模型對工單中具有設(shè)備缺陷的文本進(jìn)行預(yù)訓(xùn)練,將生成詞嵌入向量,再利用BiLSTM網(wǎng)絡(luò)對該向量進(jìn)行雙向編碼以提取語義表征,使用注意力機制增強設(shè)備缺陷領(lǐng)域的語義權(quán)重,提高了該領(lǐng)域文本分類的正確率。

        為進(jìn)一步深入對工單文本進(jìn)行分析研究,提高工單文本分類的準(zhǔn)確性與效率,本文采用BERT模型提取特征向量,盡可能覆蓋輸入文本信息,并利用ELM[7]進(jìn)行分類。由于ELM的初始權(quán)重和偏置隨機產(chǎn)生,故采用收斂速度較快、局部搜索能力較強的麻雀搜索算法[8](SSA)尋找最優(yōu)初始權(quán)重和偏置以提高模型精度。針對SSA算法存在的全局搜索能力較弱、易陷入局部最優(yōu)的缺點,通過引入Lévy-CSSA算法來克服。

        1 短文本分類算法

        文本分類的關(guān)鍵,在于特征提取以及特征向量的表示。本文采用的BERT模型在表示詞向量時能夠加入上下文的語義信息,還可以減少字詞因無法通過語義區(qū)分而出現(xiàn)歧義的情況發(fā)生。該模型首先對大量未標(biāo)記語料進(jìn)行訓(xùn)練以獲取包含大量語義信息的文本表示,然后對文本的語義表示進(jìn)行微調(diào),最終將其用于特定的自然語言處理任務(wù)。

        1.1 RoBERTa-全詞Mask模型

        RoBERTa-WWM[9]模型的輸入量E(E1,E2,···,EN)為工單文本內(nèi)容;輸入量經(jīng)過Trm模塊實現(xiàn)文本向量化后,輸出為向量T(T1,T2,···,)。Trm模塊是核心模塊,有多層結(jié)構(gòu)。

        RoBERTa-WWM 模型的優(yōu)點在于其結(jié)合了中文全詞掩碼技術(shù)以及RoBERTa模型的優(yōu)勢。全詞掩碼技術(shù)的優(yōu)勢在于其更改了預(yù)訓(xùn)練階段的樣本生成策略,用[Mask]標(biāo)簽將組成同一個詞的漢字全部進(jìn)行掩碼,示例如表1所示。

        表1 WWM處理樣本示例Tab. 1 Example of sample processing with WWM

        RoBERTa模型主要在3個方面進(jìn)行了優(yōu)化:(1)優(yōu)化了 Adam算法的參數(shù)。(2)對訓(xùn)練策略進(jìn)行了優(yōu)化。增加了每次訓(xùn)練所抓取的樣本數(shù)量;同時也將靜態(tài)掩碼改成了動態(tài)掩碼。(3)采用了更大的訓(xùn)練數(shù)據(jù)集,并使用了簡單高效的雙字母組合編碼壓縮了自然語言語料庫中的數(shù)據(jù)。

        1.2 極限學(xué)習(xí)機

        在神經(jīng)網(wǎng)絡(luò)算法中,反向傳播(BP)神經(jīng)網(wǎng)絡(luò)[10]的應(yīng)用非常廣泛。BP學(xué)習(xí)算法存在學(xué)習(xí)過程時間消耗過長,在處理經(jīng)BERT模型提取出的高維特征向量時速度較慢。

        ELM是一種具有求解快速特點的新型單隱層前饋神經(jīng)網(wǎng)絡(luò)模型,具有輸入層、隱含層和輸出層3層結(jié)構(gòu)。ELM在計算過程中,首先對輸入層權(quán)重和隱藏層偏置進(jìn)行隨機選取,對于輸出層權(quán)重則通過廣義逆矩陣?yán)碚撚嬎愕玫?。ELM模型結(jié)構(gòu)如圖1所示。

        圖1 ELM結(jié)構(gòu)Fig. 1 ELM structure

        在訓(xùn)練過程中,ELM無需如BP算法那樣不斷反向調(diào)整權(quán)重和偏置,所以學(xué)習(xí)速度較快;但其輸入層—隱藏層權(quán)重與偏置的隨機取值會影響模型精度,因此最優(yōu)權(quán)重與偏置選取對模型的建立有重要意義。

        1.3 結(jié)合BERT和改進(jìn)ELM模型的分類方法

        本文提出的模型結(jié)構(gòu)如圖2所示,具體步驟如下。

        城市的發(fā)展靠大量資本、勞力等外力因素推動,而鄉(xiāng)村的發(fā)展必須依靠內(nèi)生動力。星光村人才輩出,雖然創(chuàng)業(yè)在外,但他們依然眷念故土,為家鄉(xiāng)的建設(shè)投資投勞。但鄉(xiāng)村的發(fā)展更要投智,人才對于鄉(xiāng)村而言非常重要。星光村鄉(xiāng)村旅游的進(jìn)一步發(fā)展需要他們的支持、回歸與帶動。建議實施星光村精英反哺計劃,鼓勵部分在外發(fā)展的干部、專家、文學(xué)作家、設(shè)計師、企業(yè)老板等回鄉(xiāng)創(chuàng)業(yè),為家鄉(xiāng)發(fā)展獻(xiàn)計納策,以本土化的力量增強自我造血功能,實現(xiàn)真正意義上的鄉(xiāng)村振興。

        圖2 分類建模流程Fig. 2 Classification modeling flow

        步驟1:對訓(xùn)練集M進(jìn)行預(yù)處理,累加位置編碼后,得到M′。

        步驟2:將M′輸入BERT模型,根據(jù)訓(xùn)練集M′對預(yù)訓(xùn)練語言模型進(jìn)行微調(diào),最終獲取對應(yīng)訓(xùn)練集的特征向量 T。T=(T1,T2,···,TN),i=1,2,···,N。

        步驟3:將步驟2中的特征向量T輸入到ELM進(jìn)行訓(xùn)練,得到文本分類結(jié)果,并與數(shù)據(jù)集標(biāo)簽進(jìn)行比較,得到尋優(yōu)算法適應(yīng)度函數(shù)如式(1)所示。

        式中:F1,train是指訓(xùn)練集的 F1值;F1,test是指測試集的F1值

        步驟4:通過ELM實現(xiàn)工單文本分類。

        2 Lévy-CSSA算法

        由于對 ELM 輸入層權(quán)重和隱藏層偏置進(jìn)行隨機選取會影響模型性能,所以本文提出 Lévy-CSSA算法,通過改進(jìn)SSA算法優(yōu)化了種群初始值,并使用Lévy飛行搜索策略提高算法的全局尋優(yōu)能力。該算法對ELM中輸入層—隱藏層權(quán)重與偏置的初始值尋優(yōu),得到最優(yōu)值使適應(yīng)度函數(shù)值達(dá)到最大,進(jìn)而提升模型的分類性能。

        2.1 改進(jìn)SSA算法

        SSA算法是由文獻(xiàn)[8]根據(jù)麻雀種群的覓食和反捕食行為提出的一種新型智能優(yōu)化算法。在SSA算法中,將D維空間中的n只麻雀區(qū)分為發(fā)現(xiàn)者、跟隨者和警戒者。發(fā)現(xiàn)者負(fù)責(zé)尋找食物并提供尋找的方向,適應(yīng)度較好的發(fā)現(xiàn)者會優(yōu)先獲取食物;跟隨者依靠發(fā)現(xiàn)者獲取食物,且跟隨者要比發(fā)現(xiàn)者的搜索范圍??;警戒者則在危險降臨時做出反捕食行為。

        SSA算法局部搜索能力極強,但全局搜索能力較弱且不易跳出局部最優(yōu),從而導(dǎo)致其收斂精度較低。為了克服SSA算法全局搜索能力較弱的缺陷,本文利用logistic混沌映射[11]對SSA算法進(jìn)行初始化,初始化產(chǎn)生的混沌麻雀具有隨機性、遍歷性等特點,提高初始種群的多樣性。

        2.2 Lévy飛行

        2.3 Lévy-CSSA算法流程

        本文定義Lévy-CSSA算法為:在麻雀種群位置信息初始化過程中加入logistic混沌映射,以增加初始種群的多樣性;在麻雀位置信息更新時引入Lévy飛行策略,以提升全局搜索能力,避免陷入局部最優(yōu)。具體流程如圖4所示。

        圖3 Lévy-CSSA算法流程圖Fig. 3 Flow chart of Lévy-CSSA algorithm

        2.4 Lévy-CSSA極限學(xué)習(xí)機

        針對 ELM 隨機賦予輸入層—隱藏層的權(quán)重與偏置的初始值會影響模型精度的問題,對ELM進(jìn)行改進(jìn),具體流程如圖4所示。

        圖4 Lévy-CSSA極限學(xué)習(xí)機Fig. 4 The Lévy-CSSA extreme learning machine

        3 實驗及分析

        3.1 Lévy-CSSA算法性能測試

        選取如表2所示的固定維度函數(shù)、高維單峰函數(shù)以及高維多峰函數(shù)進(jìn)行仿真實驗,并與GA、DE和SSA群體智能算法進(jìn)行對比來驗證Lévy-CSSA算法的可行性和優(yōu)越性。通用條件設(shè)置為:種群規(guī)模設(shè)為30,迭代總數(shù)設(shè)為300。分別對各算法單獨進(jìn)行100次仿真實驗并記錄最優(yōu)值Tb、平均值Tav和方差V。計算結(jié)果如表3所示,收斂曲線如圖5所示。

        圖5 收斂曲線Fig. 5 Convergence curve

        表2 測試函數(shù)Tab. 2 Test functions

        表3 測試函數(shù)尋優(yōu)結(jié)果Tab. 3 Results of test function optimization

        由表3可以看出:Lévy-CSSA算法在不同類型的測試函數(shù)中均可搜索至非常接近理論最優(yōu)值;且相比于其他2種算法與原算法,其求解精度更高,表現(xiàn)更加穩(wěn)定,尤其是在高維函數(shù)中凸顯了算法優(yōu)勢。從圖5可以看出:Lévy-CSSA能夠清楚地顯示出算法跳出局部尋優(yōu)的能力,在收斂速度以及收斂精度上均優(yōu)于其他算法。

        工單經(jīng)BERT模型提取到的特征向量具有高維度、高耦合特點,導(dǎo)致其在ELM中輸入層—隱藏層權(quán)重與偏置維度較高,因此尋優(yōu)時應(yīng)使用適用于高維度的算法。本文算法對其具有適用性。

        3.2 分類實驗過程

        實驗所用數(shù)據(jù)來源于國家電網(wǎng)全國供電服務(wù)呼叫中心提供的文本分類數(shù)據(jù)集,其內(nèi)容為某省客戶向國家電網(wǎng)客服反映情況工單,包括電量異常、接觸不良、電能表異常、安全隱患等8個類別[15],共計23 289條?,F(xiàn)選取其中75%作為訓(xùn)練集,25%作為測試集進(jìn)行實驗,具體如表4所示。

        表4 實驗數(shù)據(jù)Tab. 4 Experimental data 條

        采用中文RoBERTa-WWM模型:有24層網(wǎng)絡(luò)結(jié)構(gòu),其中隱含層有1 024維,共有3.3×108個參數(shù)。將訓(xùn)練集文本與測試集文本作為輸入,通過預(yù)訓(xùn)練模型進(jìn)行編碼;每條文本數(shù)據(jù)均編碼為 1 024維向量,并將訓(xùn)練集標(biāo)簽與測試集標(biāo)簽編碼為8維向量。將1 024維文本向量作為輸入,8維標(biāo)簽向量作為輸出,對ELM進(jìn)行訓(xùn)練;其中ELM輸入層—隱藏層的權(quán)重與偏置的初始值通過本文提出的Lévy-CSSA算法進(jìn)行優(yōu)化。

        3.3 分類評價指標(biāo)

        本文所研究的問題為分類問題,常用的評價指標(biāo)為查準(zhǔn)率(P)、查全率(R)與F1值[16]:

        式中:TP表示預(yù)測為正,實際為正;FP表示預(yù)測為正,實際為負(fù);FN表示預(yù)測為負(fù),實際為正。

        F1值是模型查準(zhǔn)率和查差率的一種調(diào)和平均,可以更加全面地反映分類性能。

        3.4 實驗結(jié)果

        結(jié)合BERT和改進(jìn)ELM模型所獲取的訓(xùn)練結(jié)果,分別與TextRNN、TextCNN以及結(jié)合BERT與隨機森林模型的文本分類結(jié)果進(jìn)行對比,實驗結(jié)果如表5、圖6所示。評價指標(biāo)主要采用F1值。

        圖6 分類結(jié)果對比圖Fig. 6 Comparison of classification results

        表5 不同模型的實驗結(jié)果Tab. 5 Experimental results of different models %

        由表5可以看出,對于工單,在模型的查準(zhǔn)率、查全率和F1值評價指標(biāo)方面,結(jié)合BERT和改進(jìn)ELM模型的分類效果相比于其他模型均有明顯提升。本文所提出模型的F1值達(dá)到了95.16%,相比于原始的TextRNN、TextCNN模型分別提高了3.08%、1.04%,可見本文模型綜合性能更好。結(jié)合BERT和ELM模型相比于TextRNN、TextCNN模型效果較差,其原因是:即使通過BERT模型提取出更加全局的特征向量,但ELM模型的輸入層—隱藏層權(quán)重與偏置的隨機取值影響了模型精度,這更加體現(xiàn)出對模型進(jìn)行優(yōu)化的重要性。

        由圖6可以看出:本文提出的模型在8個類別上的分類性能均優(yōu)于其他4種模型。結(jié)合BERT與隨機森林模型表現(xiàn)不穩(wěn)定,對于不同的類別,分類性能相差較大。結(jié)合BERT和 ELM模型相比于TextRNN在電量異常、接觸不良、電能表異常、停電、缺相、欠費停復(fù)電這些類別分類表現(xiàn)均較差,且在各個類別中均比TextCNN分類效果差。通過Lévy-CSSA算法對模型尋優(yōu)后,本文算法對每個類別的分類能力均有明顯提升,在“安全隱患”類別的分類水平提升效果最為明顯。

        4 結(jié)論

        為提高工單分類模型的分類效果,本文提出結(jié)合BERT和改進(jìn)ELM模型的分類方法,并通過具體的工單分類實驗驗證了方法的有效性。

        (1)本文提出的 Lévy-CSSA 算法提高了結(jié)合BERT和改進(jìn)ELM模型的分類精度。3類經(jīng)典測試函數(shù)優(yōu)化對比實驗的結(jié)果表明了Lévy-CSSA算法具有明顯優(yōu)越性。

        (2)建立了BERT和改進(jìn)ELM模型。使用Lévy-CSSA算法對ELM進(jìn)行優(yōu)化,并通過工單分類實驗驗證了模型效果。與TextRNN、TextCNN等模型的對比結(jié)果表明:模型在查準(zhǔn)率、查全率以及F1值等分類指標(biāo)上均有所提高;該模型可以更好地表達(dá)工單語義信息,能夠有效地進(jìn)行工單分類。

        以上結(jié)論表明了本文結(jié)合BERT和改進(jìn)ELM模型的工單分類方法的可行性。

        猜你喜歡
        語義分類文本
        分類算一算
        語言與語義
        在808DA上文本顯示的改善
        分類討論求坐標(biāo)
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        認(rèn)知范疇模糊與語義模糊
        不卡av网站一区二区三区| 色哟哟亚洲色精一区二区 | 亚洲av成人一区二区三区在线观看| 99热这里只有精品国产66| 成人av在线免费播放| 91精品亚洲成人一区二区三区| 久久精品黄aa片一区二区三区| 久热这里只有精品99国产| 丰满少妇高潮在线观看| 国产饥渴的富婆一凶二区 | 激情久久黄色免费网站| 和黑人邻居中文字幕在线| 国产精品乱码在线观看| 久久久久AV成人无码网站| 亚洲av成人一区二区| 内射人妻视频国内| 激情另类小说区图片区视频区| 日产精品一区二区免费| 亚洲第一女人天堂av| 操风骚人妻沉沦中文字幕| 天天影视性色香欲综合网| 青草网在线观看| 国产一区二区白浆在线观看| 2018天天躁夜夜躁狠狠躁| 亚洲综合在线一区二区三区| 91久久青青草原线免费| 国产白浆精品一区二区三区| 色婷婷色丁香久久婷婷| 亚洲美腿丝袜 欧美另类| 国产日韩精品一区二区在线观看播放 | 国产人妖视频一区二区| 国产精品亚洲av国产| 日本一区二区三区视频国产| 又爽又黄又无遮挡网站动态图| 久久青草国产精品一区| 亚洲中文字幕视频第一二区| 人成午夜免费视频无码| 欧美性猛交xxxx乱大交蜜桃 | 高清中文字幕一区二区三区| 特黄大片又粗又大又暴| 久久永久免费视频|