苑津莎,張 瑾,張衛(wèi)華,班雙雙
(華北電力大學(xué) 電子與通信工程系,河北 保定 071003)
隨著信息時代的到來,大數(shù)據(jù)分析已經(jīng)應(yīng)用到了許多生產(chǎn)生活領(lǐng)域。電力系統(tǒng)在運行過程中所產(chǎn)生的歷史數(shù)據(jù)經(jīng)過不斷積累,數(shù)據(jù)規(guī)模逐漸擴大。電力客服系統(tǒng)作為電力企業(yè)與客戶溝通的橋梁,其工作效率的提高意義重大??头危ㄏ挛暮喎Q,工單)記錄了電力系統(tǒng)在運行中所產(chǎn)生的諸如故障檢修、調(diào)度運行、客戶咨詢及投訴、運維記錄等大量數(shù)據(jù)信息。對工單進(jìn)行數(shù)據(jù)分析,對于發(fā)現(xiàn)企業(yè)內(nèi)服務(wù)系統(tǒng)存在的漏洞具有重要意義。應(yīng)用文本分類技術(shù)將工單數(shù)據(jù)進(jìn)行處理,快速準(zhǔn)確地分析客戶需求,有助于提升企業(yè)工作效率。
傳統(tǒng)的數(shù)據(jù)分析方法存在信息讀取效率問題。近年來,基于機器學(xué)習(xí)與深度學(xué)習(xí)的自然語言處理方法發(fā)展快速,且在工單文本分類處理方面得到了大量應(yīng)用。文獻(xiàn)[1]提出基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的多任務(wù)學(xué)習(xí)框架,設(shè)置了3個不同信息共享機制,針對特定任務(wù)和共享層的文本建模,并在文本分類任務(wù)上驗證了模型的性能。文獻(xiàn)[2]針對電力投訴文本長度差異較大以及強專業(yè)性的特點,采用長短期記憶(LSTM)方法提取了電力文本語義特征,再通過卷積神經(jīng)網(wǎng)絡(luò)模型對其進(jìn)行二次特征提取,有效提高了分類的準(zhǔn)確性。文獻(xiàn)[3]利用Word2Vec模型將詞語映射到高維特征空間,通過基于雙向 LSTM 的注意力機制(BiLSTM-attention)對電力設(shè)備缺陷文本進(jìn)行分類。文獻(xiàn)[4]為了提取更具代表性的特征向量,融合文本循環(huán)神經(jīng)網(wǎng)絡(luò)(TextRNN)模型和文本卷積神經(jīng)網(wǎng)絡(luò)(TextCNN)模型,并引入注意力機制,解決了TextRNN模型、TextCNN模型的局限性,提高了文本分類的效果。文獻(xiàn)[5]提出了層次語義理解的方法,將工單中的字符、詞建模轉(zhuǎn)化為描述再進(jìn)行分類,實現(xiàn)了工單隱藏語義的準(zhǔn)確表示。文獻(xiàn)[6]通過使用BERT模型對工單中具有設(shè)備缺陷的文本進(jìn)行預(yù)訓(xùn)練,將生成詞嵌入向量,再利用BiLSTM網(wǎng)絡(luò)對該向量進(jìn)行雙向編碼以提取語義表征,使用注意力機制增強設(shè)備缺陷領(lǐng)域的語義權(quán)重,提高了該領(lǐng)域文本分類的正確率。
為進(jìn)一步深入對工單文本進(jìn)行分析研究,提高工單文本分類的準(zhǔn)確性與效率,本文采用BERT模型提取特征向量,盡可能覆蓋輸入文本信息,并利用ELM[7]進(jìn)行分類。由于ELM的初始權(quán)重和偏置隨機產(chǎn)生,故采用收斂速度較快、局部搜索能力較強的麻雀搜索算法[8](SSA)尋找最優(yōu)初始權(quán)重和偏置以提高模型精度。針對SSA算法存在的全局搜索能力較弱、易陷入局部最優(yōu)的缺點,通過引入Lévy-CSSA算法來克服。
文本分類的關(guān)鍵,在于特征提取以及特征向量的表示。本文采用的BERT模型在表示詞向量時能夠加入上下文的語義信息,還可以減少字詞因無法通過語義區(qū)分而出現(xiàn)歧義的情況發(fā)生。該模型首先對大量未標(biāo)記語料進(jìn)行訓(xùn)練以獲取包含大量語義信息的文本表示,然后對文本的語義表示進(jìn)行微調(diào),最終將其用于特定的自然語言處理任務(wù)。
RoBERTa-WWM[9]模型的輸入量E(E1,E2,···,EN)為工單文本內(nèi)容;輸入量經(jīng)過Trm模塊實現(xiàn)文本向量化后,輸出為向量T(T1,T2,···,)。Trm模塊是核心模塊,有多層結(jié)構(gòu)。
RoBERTa-WWM 模型的優(yōu)點在于其結(jié)合了中文全詞掩碼技術(shù)以及RoBERTa模型的優(yōu)勢。全詞掩碼技術(shù)的優(yōu)勢在于其更改了預(yù)訓(xùn)練階段的樣本生成策略,用[Mask]標(biāo)簽將組成同一個詞的漢字全部進(jìn)行掩碼,示例如表1所示。
表1 WWM處理樣本示例Tab. 1 Example of sample processing with WWM
RoBERTa模型主要在3個方面進(jìn)行了優(yōu)化:(1)優(yōu)化了 Adam算法的參數(shù)。(2)對訓(xùn)練策略進(jìn)行了優(yōu)化。增加了每次訓(xùn)練所抓取的樣本數(shù)量;同時也將靜態(tài)掩碼改成了動態(tài)掩碼。(3)采用了更大的訓(xùn)練數(shù)據(jù)集,并使用了簡單高效的雙字母組合編碼壓縮了自然語言語料庫中的數(shù)據(jù)。
在神經(jīng)網(wǎng)絡(luò)算法中,反向傳播(BP)神經(jīng)網(wǎng)絡(luò)[10]的應(yīng)用非常廣泛。BP學(xué)習(xí)算法存在學(xué)習(xí)過程時間消耗過長,在處理經(jīng)BERT模型提取出的高維特征向量時速度較慢。
ELM是一種具有求解快速特點的新型單隱層前饋神經(jīng)網(wǎng)絡(luò)模型,具有輸入層、隱含層和輸出層3層結(jié)構(gòu)。ELM在計算過程中,首先對輸入層權(quán)重和隱藏層偏置進(jìn)行隨機選取,對于輸出層權(quán)重則通過廣義逆矩陣?yán)碚撚嬎愕玫?。ELM模型結(jié)構(gòu)如圖1所示。
圖1 ELM結(jié)構(gòu)Fig. 1 ELM structure
在訓(xùn)練過程中,ELM無需如BP算法那樣不斷反向調(diào)整權(quán)重和偏置,所以學(xué)習(xí)速度較快;但其輸入層—隱藏層權(quán)重與偏置的隨機取值會影響模型精度,因此最優(yōu)權(quán)重與偏置選取對模型的建立有重要意義。
本文提出的模型結(jié)構(gòu)如圖2所示,具體步驟如下。
城市的發(fā)展靠大量資本、勞力等外力因素推動,而鄉(xiāng)村的發(fā)展必須依靠內(nèi)生動力。星光村人才輩出,雖然創(chuàng)業(yè)在外,但他們依然眷念故土,為家鄉(xiāng)的建設(shè)投資投勞。但鄉(xiāng)村的發(fā)展更要投智,人才對于鄉(xiāng)村而言非常重要。星光村鄉(xiāng)村旅游的進(jìn)一步發(fā)展需要他們的支持、回歸與帶動。建議實施星光村精英反哺計劃,鼓勵部分在外發(fā)展的干部、專家、文學(xué)作家、設(shè)計師、企業(yè)老板等回鄉(xiāng)創(chuàng)業(yè),為家鄉(xiāng)發(fā)展獻(xiàn)計納策,以本土化的力量增強自我造血功能,實現(xiàn)真正意義上的鄉(xiāng)村振興。
圖2 分類建模流程Fig. 2 Classification modeling flow
步驟1:對訓(xùn)練集M進(jìn)行預(yù)處理,累加位置編碼后,得到M′。
步驟2:將M′輸入BERT模型,根據(jù)訓(xùn)練集M′對預(yù)訓(xùn)練語言模型進(jìn)行微調(diào),最終獲取對應(yīng)訓(xùn)練集的特征向量 T。T=(T1,T2,···,TN),i=1,2,···,N。
步驟3:將步驟2中的特征向量T輸入到ELM進(jìn)行訓(xùn)練,得到文本分類結(jié)果,并與數(shù)據(jù)集標(biāo)簽進(jìn)行比較,得到尋優(yōu)算法適應(yīng)度函數(shù)如式(1)所示。
式中:F1,train是指訓(xùn)練集的 F1值;F1,test是指測試集的F1值
步驟4:通過ELM實現(xiàn)工單文本分類。
由于對 ELM 輸入層權(quán)重和隱藏層偏置進(jìn)行隨機選取會影響模型性能,所以本文提出 Lévy-CSSA算法,通過改進(jìn)SSA算法優(yōu)化了種群初始值,并使用Lévy飛行搜索策略提高算法的全局尋優(yōu)能力。該算法對ELM中輸入層—隱藏層權(quán)重與偏置的初始值尋優(yōu),得到最優(yōu)值使適應(yīng)度函數(shù)值達(dá)到最大,進(jìn)而提升模型的分類性能。
SSA算法是由文獻(xiàn)[8]根據(jù)麻雀種群的覓食和反捕食行為提出的一種新型智能優(yōu)化算法。在SSA算法中,將D維空間中的n只麻雀區(qū)分為發(fā)現(xiàn)者、跟隨者和警戒者。發(fā)現(xiàn)者負(fù)責(zé)尋找食物并提供尋找的方向,適應(yīng)度較好的發(fā)現(xiàn)者會優(yōu)先獲取食物;跟隨者依靠發(fā)現(xiàn)者獲取食物,且跟隨者要比發(fā)現(xiàn)者的搜索范圍??;警戒者則在危險降臨時做出反捕食行為。
SSA算法局部搜索能力極強,但全局搜索能力較弱且不易跳出局部最優(yōu),從而導(dǎo)致其收斂精度較低。為了克服SSA算法全局搜索能力較弱的缺陷,本文利用logistic混沌映射[11]對SSA算法進(jìn)行初始化,初始化產(chǎn)生的混沌麻雀具有隨機性、遍歷性等特點,提高初始種群的多樣性。
本文定義Lévy-CSSA算法為:在麻雀種群位置信息初始化過程中加入logistic混沌映射,以增加初始種群的多樣性;在麻雀位置信息更新時引入Lévy飛行策略,以提升全局搜索能力,避免陷入局部最優(yōu)。具體流程如圖4所示。
圖3 Lévy-CSSA算法流程圖Fig. 3 Flow chart of Lévy-CSSA algorithm
針對 ELM 隨機賦予輸入層—隱藏層的權(quán)重與偏置的初始值會影響模型精度的問題,對ELM進(jìn)行改進(jìn),具體流程如圖4所示。
圖4 Lévy-CSSA極限學(xué)習(xí)機Fig. 4 The Lévy-CSSA extreme learning machine
選取如表2所示的固定維度函數(shù)、高維單峰函數(shù)以及高維多峰函數(shù)進(jìn)行仿真實驗,并與GA、DE和SSA群體智能算法進(jìn)行對比來驗證Lévy-CSSA算法的可行性和優(yōu)越性。通用條件設(shè)置為:種群規(guī)模設(shè)為30,迭代總數(shù)設(shè)為300。分別對各算法單獨進(jìn)行100次仿真實驗并記錄最優(yōu)值Tb、平均值Tav和方差V。計算結(jié)果如表3所示,收斂曲線如圖5所示。
圖5 收斂曲線Fig. 5 Convergence curve
表2 測試函數(shù)Tab. 2 Test functions
表3 測試函數(shù)尋優(yōu)結(jié)果Tab. 3 Results of test function optimization
由表3可以看出:Lévy-CSSA算法在不同類型的測試函數(shù)中均可搜索至非常接近理論最優(yōu)值;且相比于其他2種算法與原算法,其求解精度更高,表現(xiàn)更加穩(wěn)定,尤其是在高維函數(shù)中凸顯了算法優(yōu)勢。從圖5可以看出:Lévy-CSSA能夠清楚地顯示出算法跳出局部尋優(yōu)的能力,在收斂速度以及收斂精度上均優(yōu)于其他算法。
工單經(jīng)BERT模型提取到的特征向量具有高維度、高耦合特點,導(dǎo)致其在ELM中輸入層—隱藏層權(quán)重與偏置維度較高,因此尋優(yōu)時應(yīng)使用適用于高維度的算法。本文算法對其具有適用性。
實驗所用數(shù)據(jù)來源于國家電網(wǎng)全國供電服務(wù)呼叫中心提供的文本分類數(shù)據(jù)集,其內(nèi)容為某省客戶向國家電網(wǎng)客服反映情況工單,包括電量異常、接觸不良、電能表異常、安全隱患等8個類別[15],共計23 289條?,F(xiàn)選取其中75%作為訓(xùn)練集,25%作為測試集進(jìn)行實驗,具體如表4所示。
表4 實驗數(shù)據(jù)Tab. 4 Experimental data 條
采用中文RoBERTa-WWM模型:有24層網(wǎng)絡(luò)結(jié)構(gòu),其中隱含層有1 024維,共有3.3×108個參數(shù)。將訓(xùn)練集文本與測試集文本作為輸入,通過預(yù)訓(xùn)練模型進(jìn)行編碼;每條文本數(shù)據(jù)均編碼為 1 024維向量,并將訓(xùn)練集標(biāo)簽與測試集標(biāo)簽編碼為8維向量。將1 024維文本向量作為輸入,8維標(biāo)簽向量作為輸出,對ELM進(jìn)行訓(xùn)練;其中ELM輸入層—隱藏層的權(quán)重與偏置的初始值通過本文提出的Lévy-CSSA算法進(jìn)行優(yōu)化。
本文所研究的問題為分類問題,常用的評價指標(biāo)為查準(zhǔn)率(P)、查全率(R)與F1值[16]:
式中:TP表示預(yù)測為正,實際為正;FP表示預(yù)測為正,實際為負(fù);FN表示預(yù)測為負(fù),實際為正。
F1值是模型查準(zhǔn)率和查差率的一種調(diào)和平均,可以更加全面地反映分類性能。
結(jié)合BERT和改進(jìn)ELM模型所獲取的訓(xùn)練結(jié)果,分別與TextRNN、TextCNN以及結(jié)合BERT與隨機森林模型的文本分類結(jié)果進(jìn)行對比,實驗結(jié)果如表5、圖6所示。評價指標(biāo)主要采用F1值。
圖6 分類結(jié)果對比圖Fig. 6 Comparison of classification results
表5 不同模型的實驗結(jié)果Tab. 5 Experimental results of different models %
由表5可以看出,對于工單,在模型的查準(zhǔn)率、查全率和F1值評價指標(biāo)方面,結(jié)合BERT和改進(jìn)ELM模型的分類效果相比于其他模型均有明顯提升。本文所提出模型的F1值達(dá)到了95.16%,相比于原始的TextRNN、TextCNN模型分別提高了3.08%、1.04%,可見本文模型綜合性能更好。結(jié)合BERT和ELM模型相比于TextRNN、TextCNN模型效果較差,其原因是:即使通過BERT模型提取出更加全局的特征向量,但ELM模型的輸入層—隱藏層權(quán)重與偏置的隨機取值影響了模型精度,這更加體現(xiàn)出對模型進(jìn)行優(yōu)化的重要性。
由圖6可以看出:本文提出的模型在8個類別上的分類性能均優(yōu)于其他4種模型。結(jié)合BERT與隨機森林模型表現(xiàn)不穩(wěn)定,對于不同的類別,分類性能相差較大。結(jié)合BERT和 ELM模型相比于TextRNN在電量異常、接觸不良、電能表異常、停電、缺相、欠費停復(fù)電這些類別分類表現(xiàn)均較差,且在各個類別中均比TextCNN分類效果差。通過Lévy-CSSA算法對模型尋優(yōu)后,本文算法對每個類別的分類能力均有明顯提升,在“安全隱患”類別的分類水平提升效果最為明顯。
為提高工單分類模型的分類效果,本文提出結(jié)合BERT和改進(jìn)ELM模型的分類方法,并通過具體的工單分類實驗驗證了方法的有效性。
(1)本文提出的 Lévy-CSSA 算法提高了結(jié)合BERT和改進(jìn)ELM模型的分類精度。3類經(jīng)典測試函數(shù)優(yōu)化對比實驗的結(jié)果表明了Lévy-CSSA算法具有明顯優(yōu)越性。
(2)建立了BERT和改進(jìn)ELM模型。使用Lévy-CSSA算法對ELM進(jìn)行優(yōu)化,并通過工單分類實驗驗證了模型效果。與TextRNN、TextCNN等模型的對比結(jié)果表明:模型在查準(zhǔn)率、查全率以及F1值等分類指標(biāo)上均有所提高;該模型可以更好地表達(dá)工單語義信息,能夠有效地進(jìn)行工單分類。
以上結(jié)論表明了本文結(jié)合BERT和改進(jìn)ELM模型的工單分類方法的可行性。