亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

電網(wǎng)經(jīng)營(yíng)環(huán)境下的用戶需求反饋分析

2022-02-08 05:52:36國(guó)網(wǎng)青海省電力公司信息通信公司謝浩榮雷曉萍王雪群史正良

電力設(shè)備管理 2022年24期

國(guó)網(wǎng)青海省電力公司信息通信公司謝浩榮雷曉萍秦浩王雪群史正良

隨著我國(guó)電力市場(chǎng)化改革的不斷推進(jìn)，電網(wǎng)經(jīng)營(yíng)在滿足用戶用電需求的情形下，產(chǎn)生了大量結(jié)構(gòu)化與非結(jié)構(gòu)化的數(shù)據(jù)。對(duì)生成的海量數(shù)據(jù)進(jìn)行情感等級(jí)分析和基本事件統(tǒng)計(jì)，有助于獲取電網(wǎng)用戶對(duì)電網(wǎng)政策的意見及對(duì)電網(wǎng)電力服務(wù)的滿意度信息。因而，可以搜集線上監(jiān)測(cè)系統(tǒng)和線下調(diào)查問卷、客戶訪談的非結(jié)構(gòu)化數(shù)據(jù)，構(gòu)造電網(wǎng)用戶需求反饋研究Grid-2數(shù)據(jù)集。非結(jié)構(gòu)化數(shù)據(jù)主要指中文文本，中文文本具有以下特點(diǎn)：

一是評(píng)論人/記錄人的專業(yè)理解與習(xí)慣不同，存在著錯(cuò)填或誤填的情況；二是中文文本多數(shù)來說都是高維的，需要高維空間本征表示；三是中文文本存在相同語句表達(dá)確不是相同意思的情況即一詞多義現(xiàn)象。

中文文本情感分析主要有兩種方法：基于傳統(tǒng)的機(jī)器學(xué)習(xí)和現(xiàn)在流行的深度學(xué)習(xí)。如Lee等人結(jié)合樸素貝葉斯極大估計(jì)和支持向量機(jī)來進(jìn)行中文文本的情感推斷，但是模型訓(xùn)練需要依賴大量的有標(biāo)簽監(jiān)督數(shù)據(jù)以及專家先驗(yàn)知識(shí)，造成模型的泛化性較差；Aydin等人利用word2vec淺層神經(jīng)網(wǎng)絡(luò)的靜態(tài)詞向量技術(shù)與雙向長(zhǎng)短期記憶網(wǎng)絡(luò) (BiLSTM)極強(qiáng)的雙向特征提取能力，在句子級(jí)別進(jìn)行文本情感分類分析，取得了不錯(cuò)的效果，但word2vec屬于靜態(tài)詞向量嵌入技術(shù)，無法表達(dá)一詞多義問題；Petets等人在2018年提出了ELMO動(dòng)態(tài)詞向量方法，其利用了雙層雙向的長(zhǎng)短期記憶模型來尋找詞向量的隱藏編碼，并能根據(jù)當(dāng)前詞根的上下文來動(dòng)態(tài)調(diào)整詞的特征，但其提取特征的能力還是偏弱；Radford等人采用參數(shù)超大的基于Transformer的GPT模型來進(jìn)行文本特征提取，但是特征編碼過程中單方面考慮上文信息而忽略了詞根的下文信息，其特征提取的有效性還是不高；Bert模型的提出彌補(bǔ)了ELMO和GPT存在的問題[1-2]，其是以字為級(jí)別的向量編碼，通過參考上下文環(huán)境，進(jìn)行語義提取，故不存在一詞多義的問題。本文利用預(yù)訓(xùn)練Bert模型，在SST-2數(shù)據(jù)集上微調(diào)和語料關(guān)鍵詞，相似詞規(guī)則匹配方法對(duì)用戶需求反饋Grid-2數(shù)據(jù)集進(jìn)行情感分類挖掘和梳理統(tǒng)計(jì)分析，并對(duì)分類和統(tǒng)計(jì)結(jié)果進(jìn)行可視化。

1 基于Bert詞向量文本情感分類與用戶反饋需求基本統(tǒng)計(jì)

基于Bert詞向量中文文本情感分類與搜索引擎用戶需求事件統(tǒng)計(jì)的數(shù)據(jù)預(yù)處理和詞向量表示的模型流程如圖1所示，通過調(diào)查問卷、客服訪談與系統(tǒng)監(jiān)測(cè)的形式形成Grid-2分析數(shù)據(jù)集。經(jīng)過數(shù)據(jù)預(yù)處理分別送入文本情感分類及用戶反饋需求基本統(tǒng)計(jì)的通道中，最后將所得結(jié)果進(jìn)行可視化展示。

圖1 整體結(jié)構(gòu)圖

1.1 Bert預(yù)訓(xùn)練模型

Bert采用了融合語言能力更強(qiáng)的Transformer模型，通過其多頭自注意力機(jī)制對(duì)文本中的每個(gè)詞考慮其重要性程度，其特征表達(dá)能力更好，Bert情感分類模型如下所示，其中c1，c2，...，cn是模型的輸入，out1，out2，...，outn是模型的編碼輸出，softmax層作為情感分類類別的輸出層，本文中將文本情感分成積極、中性、負(fù)面三類[3]。

圖2 Bert情感分類模型流程圖

Bert輸入層由三個(gè)部分組成，ci由文本向量，詞向量和位置向量三個(gè)部分組成，句中每個(gè)句子的第1個(gè)向量是【CLS】標(biāo)志，句中向量【SEP】標(biāo)志用作不同句子的分隔符，本文是中文文本級(jí)別的情感分析，詞向量是詞的隨機(jī)靜態(tài)編碼[4-5]，文本向量的取值在模型訓(xùn)練過程中自動(dòng)學(xué)習(xí)，用于刻畫文本的全局語義信息，位置向量P記錄分詞在句子中的位置。

圖3 Bert詞初始向量化過程

位置編碼計(jì)算公式如下：

其中，pos表示位置，k表示所在維度，d表示文本向量編碼維度。

預(yù)訓(xùn)練模型的Transformer結(jié)構(gòu)如圖4所示。Transformer結(jié)包括1個(gè)編碼器和1個(gè)解碼器，編碼器由6個(gè)Encoder堆疊組成，解碼器由6個(gè)Decoder連續(xù)堆疊而成。

圖4 Transformer結(jié)構(gòu)圖

Encoder由N=6個(gè)相同的layer組成，layer指的就是上圖左側(cè)的單元，這里是6個(gè)。每個(gè)Layer由兩個(gè)sub_layer組成，分別是多頭自注意力機(jī)制和全連接層。其中，每個(gè)sub_layer都加了殘差連接和正則化，因此可以將sub_layer的輸出表示為：

多頭注意力機(jī)制的計(jì)算過程分別如下所示：

其中，LN(.)是層正則化算子，Q，K，V分別是查詢矩陣，鍵矩陣，值矩陣，dk為平衡懲罰參數(shù)，WQi，WKi，WV>i均為線性變換矩陣，Concat(.)是矩陣連接算子，WO代表參數(shù)矩陣。

1.2 用戶反饋基本事件統(tǒng)計(jì)

通過采集的Grid-2數(shù)據(jù)集進(jìn)行關(guān)鍵詞、相似詞匹配分析對(duì)用戶反饋相關(guān)的中文文本進(jìn)行匹配，對(duì)相似詞進(jìn)行分組計(jì)數(shù)統(tǒng)計(jì)，并生成詞頻表，共現(xiàn)詞表及語義網(wǎng)絡(luò)結(jié)構(gòu)圖。

2 試驗(yàn)與試驗(yàn)結(jié)果

2.1 試驗(yàn)環(huán)境及數(shù)據(jù)集

本文試驗(yàn)的開發(fā)環(huán)境Tensorflow 1.15，開發(fā)工具為Pycharm，開發(fā)語言為Python，使用NvidiaRTX 2060運(yùn)行程序。采用的是開源的預(yù)訓(xùn)練Bert模型，然后在SST-2數(shù)據(jù)集上做微調(diào)訓(xùn)練，SST-2數(shù)據(jù)集包含6920 條訓(xùn)練樣本，872 條驗(yàn)證樣本，1821 條測(cè)試樣本，包含兩種情感分類。搜集的Grid-2數(shù)據(jù)集包含了30000多條國(guó)網(wǎng)用戶的評(píng)論文本，每條評(píng)論文本均不超過200個(gè)字符。

2.2 試驗(yàn)評(píng)價(jià)標(biāo)準(zhǔn)

為驗(yàn)證本文模型在中文文本情感分析中的有效性，使用的評(píng)價(jià)標(biāo)準(zhǔn)有準(zhǔn)確率（Precision）、召回率（Recall）和F1，其計(jì)算公式如下所示：

其中，p為真實(shí)標(biāo)簽積極類，預(yù)測(cè)也為積極類的樣本數(shù)，n為真實(shí)標(biāo)簽是消極類，預(yù)測(cè)為積極類的樣本數(shù)目，x是真實(shí)標(biāo)簽為積極類，預(yù)測(cè)為消極類的樣本數(shù)。

2.3 試驗(yàn)參數(shù)設(shè)置

試驗(yàn)參數(shù)的設(shè)置對(duì)實(shí)驗(yàn)結(jié)果具有很大的影響，經(jīng)過試驗(yàn)對(duì)比后，模型參數(shù)取值如下：句子最大長(zhǎng)度為200；隨機(jī)參數(shù)更新比例dropout率為0.4；損失函數(shù)為交叉熵函數(shù)；優(yōu)化器為Adamw，學(xué)習(xí)率為1E-6；訓(xùn)練Epoch都設(shè)置為15，Batch_size都為16。

2.4 試驗(yàn)分析及可視化

在SST-2數(shù)據(jù)集做微調(diào)生成混淆矩陣，計(jì)算精確度與召回率，與常見的情感分類算法作比較，并在Grid-2數(shù)據(jù)集上進(jìn)行情感等級(jí)分類，將分類結(jié)果進(jìn)行可視化。

圖5 SST-2混淆矩陣

表1 算法比較

由表1可以看出，Bert算法結(jié)合Finetune訓(xùn)練的分類精度和分類召回率都比基于SVM的和雙向長(zhǎng)短期記憶模型有所提升，驗(yàn)證了模型的有效性。Bert模型提升了模型對(duì)中文文本的特征提取能力，采用詞的上下文語境來自監(jiān)督訓(xùn)練來生成高質(zhì)量的詞向量，且由于采用預(yù)訓(xùn)練的方式，可以節(jié)省大量的訓(xùn)練算力資源，具有即插即用的優(yōu)良性能。

圖6 Grid-2國(guó)網(wǎng)數(shù)據(jù)集情感分類

將在SST-2數(shù)據(jù)集上微調(diào)的Bert模型運(yùn)用到Grid-2數(shù)據(jù)集的情感分類任務(wù)當(dāng)中，由分類結(jié)果可以知道有超過10000條的積極性評(píng)論，中性和消極評(píng)論各自約5000條。

表2 詞頻分布表

由表2可以看出“電力”“感謝”“價(jià)格”“穩(wěn)定”等詞頻數(shù)較高，說明電網(wǎng)用戶對(duì)國(guó)網(wǎng)電力價(jià)格政策總體上還是滿意的，由“繳費(fèi)”“網(wǎng)上”等高頻關(guān)鍵詞來看，表明電網(wǎng)用戶對(duì)電網(wǎng)的電費(fèi)支付信息化建設(shè)十分支持。

表3 熱詞共線分布表

由表3可知，國(guó)網(wǎng)電力用戶對(duì)電力價(jià)格，電力穩(wěn)定性比較關(guān)注，在人民生活水平逐漸提高的情況下，每月的用電量也逐漸上升，家庭用電與商用/工業(yè)用電巨大的價(jià)差也引起了居民的注意，對(duì)用電的穩(wěn)定性品質(zhì)提出了更大的要求。

3 結(jié)語

本文提出的結(jié)合Bert預(yù)訓(xùn)練與Finetune微調(diào)的文本情感分析模型實(shí)現(xiàn)了電網(wǎng)中文文本的情感分類，利用Bert預(yù)訓(xùn)練模型得到融合文本上下文的詞向量深度表征，使預(yù)訓(xùn)練模型能更好地刻畫文本語義。在SST-2與Grid-2數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明，本文提出的模型具有較好的效果。并利用統(tǒng)計(jì)分析手段對(duì)獲取的電力文本進(jìn)行了關(guān)鍵詞頻統(tǒng)計(jì)和共現(xiàn)矩陣分析，初步探討了在大數(shù)據(jù)場(chǎng)景下的民眾對(duì)于國(guó)網(wǎng)電力政策的認(rèn)同感和影響力，為將來國(guó)網(wǎng)政策的制定和市場(chǎng)化改革提供一定的參考信息。