亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于文本數(shù)據(jù)特征識(shí)別的電力運(yùn)營(yíng)信息模型設(shè)計(jì)

        2023-01-08 16:48:56俞陽(yáng)鄒云峰康雨萌孫少辰
        電子設(shè)計(jì)工程 2023年1期
        關(guān)鍵詞:分類(lèi)節(jié)點(diǎn)特征

        俞陽(yáng),鄒云峰,康雨萌,孫少辰

        (國(guó)網(wǎng)江蘇省電力有限公司營(yíng)銷(xiāo)服務(wù)中心,江蘇南京 210000)

        在電力服務(wù)運(yùn)營(yíng)過(guò)程中,各電網(wǎng)公司積累了海量、多樣化的電力運(yùn)營(yíng)數(shù)據(jù)。這些數(shù)據(jù)中非結(jié)構(gòu)化數(shù)據(jù)占80%以上[1-3],如錄音、文本數(shù)據(jù)等。非結(jié)構(gòu)化數(shù)據(jù)主要來(lái)自于電網(wǎng)公司的客戶服務(wù)系統(tǒng),其文本數(shù)據(jù)蘊(yùn)含客戶故障報(bào)修、信息查詢(xún)、業(yè)務(wù)辦理等業(yè)務(wù)需求[4-5]。如何充分利用該文本數(shù)據(jù),深入了解客戶的真實(shí)需求,對(duì)進(jìn)一步提高供用電服務(wù)水平、改善用戶用電體驗(yàn)均具有重要意義。

        基于傳統(tǒng)數(shù)據(jù)挖掘技術(shù)無(wú)法實(shí)現(xiàn)文本數(shù)據(jù)的特征分析,因此文本挖掘技術(shù)應(yīng)運(yùn)而生。文本挖掘技術(shù)結(jié)合計(jì)算機(jī)技術(shù)、人工智能算法等,實(shí)現(xiàn)文本中有價(jià)值信息的提取[6-7]。目前,文本挖掘在電力領(lǐng)域的應(yīng)用主要有電力設(shè)備的狀態(tài)感知、故障診斷和系統(tǒng)可靠性評(píng)估等[8-10],但其在電力運(yùn)營(yíng)領(lǐng)域應(yīng)用較少。

        針對(duì)此,該文將文本挖掘技術(shù)應(yīng)用于電力運(yùn)營(yíng)文本數(shù)據(jù)的信息處理,以實(shí)現(xiàn)電力運(yùn)營(yíng)文本分類(lèi)。同時(shí)深入了解電力客戶需求,進(jìn)而提高電網(wǎng)公司服務(wù)水平。

        1 電力運(yùn)營(yíng)文本數(shù)據(jù)預(yù)處理

        電力運(yùn)營(yíng)文本數(shù)據(jù)特征識(shí)別的流程框架,如圖1所示。將輸入的文本數(shù)據(jù)經(jīng)預(yù)處理得到文本數(shù)據(jù)的中間形式,然后通過(guò)文本特征識(shí)別模型挖掘文本數(shù)據(jù)的內(nèi)在聯(lián)系,最終輸出文本特征識(shí)別結(jié)果。若原始運(yùn)營(yíng)文本數(shù)據(jù)質(zhì)量差,則將大幅降低對(duì)特征識(shí)別結(jié)果的準(zhǔn)確率。因此,文本預(yù)處理是進(jìn)行文本數(shù)據(jù)挖掘與特征提取的關(guān)鍵前置步驟。

        圖1 文本數(shù)據(jù)特征識(shí)別流程

        1.1 電力運(yùn)營(yíng)文本數(shù)據(jù)特征分析

        典型的電力運(yùn)營(yíng)文本數(shù)據(jù)具有以下明顯的特征[11]:文本長(zhǎng)度短、專(zhuān)業(yè)性強(qiáng)、規(guī)范性差、價(jià)值密度低。

        因此,文本數(shù)據(jù)的預(yù)處理對(duì)于剔除電力運(yùn)營(yíng)文本信息中的異常數(shù)據(jù),過(guò)濾無(wú)實(shí)際意義的文本信息,并最終實(shí)現(xiàn)對(duì)地點(diǎn)、故障等關(guān)鍵特征的提取具有重要意義。該文采用的電力運(yùn)營(yíng)文本數(shù)據(jù)預(yù)處理步驟包括:文本清洗和文本分詞。

        1.2 電力運(yùn)營(yíng)文本數(shù)據(jù)清洗

        電力運(yùn)營(yíng)文本數(shù)據(jù)清洗流程如圖2 所示[12],主要包括以下步驟:剔除空白文本數(shù)據(jù)、剔除過(guò)短文本數(shù)據(jù)、規(guī)則過(guò)濾文本數(shù)據(jù)。

        1.3 基于Dijkstra的文本分詞算法

        基于迪杰斯特拉(Dijkstra)的文本分詞算法步驟,如圖3 所示[13]。

        由圖3 可知,其主要包含以下步驟:

        1)構(gòu)建文本數(shù)據(jù)的有向無(wú)環(huán)圖,假設(shè)A=a1a2…ai-1ai…aj…an為文本數(shù)據(jù),其中ai為單個(gè)文字,文本數(shù)據(jù)共包含n個(gè)文字。如圖4 所示,構(gòu)建的有向無(wú)環(huán)圖G方法如下:

        圖4 文本數(shù)據(jù)對(duì)應(yīng)的有向無(wú)環(huán)圖

        1)G包含n+1 個(gè)節(jié)點(diǎn)V0,…,Vn,任意相鄰節(jié)點(diǎn)Vi和Vi+1通過(guò)有向邊連接,方向從Vi指向Vi+1,該邊對(duì)應(yīng)詞ai,邊的權(quán)重值為wi;

        2)對(duì)于詞典中的詞Bk=aiai+1…aj,則在節(jié)點(diǎn)Vi-1與Vj之間增加一條有向邊,方向從Vi-1指向Vj,該邊對(duì)應(yīng)詞Bk,邊的權(quán)重值為wk。

        2)將文本數(shù)據(jù)對(duì)應(yīng)的有向無(wú)環(huán)圖G中的節(jié)點(diǎn)劃分為兩類(lèi):已知最短路徑的節(jié)點(diǎn)與未知最短路徑的節(jié)點(diǎn),分別對(duì)應(yīng)節(jié)點(diǎn)集合S和U。將中間向量L={lk},lk表示節(jié)點(diǎn)Vk到初始節(jié)點(diǎn)V0的最短路徑長(zhǎng)度值。

        3)初始狀態(tài)下,S只包含初始節(jié)點(diǎn)V0,U包含節(jié)點(diǎn)V1,…,Vn共n個(gè)節(jié)點(diǎn)。然后從U中篩選到初始節(jié)點(diǎn)V0長(zhǎng)度值最短的節(jié)點(diǎn)Vk,并將節(jié)點(diǎn)Vk從U轉(zhuǎn)移到S,且有:

        4)將節(jié)點(diǎn)Vk當(dāng)作中繼節(jié)點(diǎn),繼續(xù)在U中搜索到初始節(jié)點(diǎn)V0的最短路徑。假設(shè)搜索的下一個(gè)節(jié)點(diǎn)為Vu,則有:

        5)判斷是否搜索至目標(biāo)節(jié)點(diǎn)Vg,若為否,則循環(huán)步驟3)和步驟4);若是,則退出循環(huán),輸出結(jié)果。

        2 電力運(yùn)營(yíng)信息模型設(shè)計(jì)

        2.1 TF-IDF模型

        經(jīng)過(guò)上述電力運(yùn)營(yíng)文本分詞,將得到包含文本數(shù)據(jù)含義的特征項(xiàng)。該文采用詞頻-逆向文檔頻率算法(Term Frequency-Inverse Document Frequency,TF-IDF)來(lái)提取這些特征項(xiàng)。TF-IDF 是文本挖掘中常用的基于文本相似的特征提取技術(shù),采用權(quán)重來(lái)評(píng)估單詞、句子甚至文檔的重要性[14]。

        TF-IDF 的核心思想是對(duì)于一個(gè)單詞,其高頻率地出現(xiàn)于某個(gè)文本數(shù)據(jù)中,且該單詞又較少出現(xiàn)在總文本樣本中的其他文本數(shù)據(jù)中。則可以認(rèn)為該單詞對(duì)于該文本樣本具有較強(qiáng)的區(qū)分能力,能夠用作為該文本數(shù)據(jù)的分類(lèi)標(biāo)簽。因此,TF-IDF 算法采用詞頻與逆向文檔頻率之乘積作為權(quán)重,其計(jì)算方法如下:

        式中,TFi,j是單詞i在文本j中的出現(xiàn)頻率,計(jì)算方法如下:

        IDFi描述的是單詞i在其他文本中出現(xiàn)頻率的倒數(shù),計(jì)算方法如下:

        式中,D為文本樣本總數(shù),{j:i∈j} 為包含單詞i的文本數(shù)量。為了避免所有文本樣本不包含單詞i導(dǎo)致分母為零的情況,通常在{j:i∈j} 的基礎(chǔ)上加1。

        2.2 數(shù)據(jù)處理模型

        1)深度學(xué)習(xí)模型

        典型深度學(xué)習(xí)網(wǎng)絡(luò)的結(jié)構(gòu)如圖5 所示,其由輸入層、輸出層和多層隱藏層構(gòu)成。

        圖5 深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)

        深度學(xué)習(xí)網(wǎng)絡(luò)通過(guò)層層迭代實(shí)現(xiàn)信息傳播與特征的學(xué)習(xí)。層與層之間的關(guān)系如下:

        式中,zl表示l層的輸入信息;fl-1()表示l-1 層的激活函數(shù);Wl與bl分別為從l-1 層到l層的權(quán)重值和偏置值。

        2)LSTM 模型

        對(duì)于處理具有時(shí)間序列特征的數(shù)據(jù)樣本,傳統(tǒng)的深度學(xué)習(xí)模型適應(yīng)性較差,因此長(zhǎng)短期記憶(Long Short-Term Memory,LSTM)模型由此發(fā)展而來(lái),其屬于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的一種。RNN 的典型網(wǎng)絡(luò)結(jié)構(gòu)模型如圖6 所示。其與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的區(qū)別在于隱藏層的輸入由當(dāng)前時(shí)刻的輸入信息和上一時(shí)刻隱藏層的輸出信息構(gòu)成,從而使得網(wǎng)絡(luò)具備了記憶功能。

        圖6 RNN結(jié)構(gòu)

        LSTM 相對(duì)RNN 的區(qū)別在于LSTM 采用了特殊結(jié)構(gòu)的記憶單元作為循環(huán)單元[15-16]。典型記憶單元的結(jié)構(gòu)如圖7 所示。

        圖7 LSTM結(jié)構(gòu)

        由圖7 可知,LSTM 引入了一個(gè)內(nèi)部狀態(tài)ct,計(jì)算方式如下:

        式中,ft∈[0,1]D、it∈[0,1]D、ot∈[0,1]D分別為遺忘門(mén)、輸入門(mén)和輸出門(mén)的狀態(tài),其實(shí)現(xiàn)信息傳輸路徑的控制。為中間狀態(tài),計(jì)算方式如下:

        上述三個(gè)門(mén)實(shí)現(xiàn)的功能如下:遺忘門(mén)實(shí)現(xiàn)上一時(shí)刻內(nèi)部狀態(tài)遺忘信息的控制;輸入門(mén)實(shí)現(xiàn)當(dāng)前時(shí)刻中間狀態(tài)保留信息的控制;輸出門(mén)實(shí)現(xiàn)當(dāng)前時(shí)刻內(nèi)部狀態(tài)輸出信息的控制。其計(jì)算方式如下:

        2.3 信息處理算法

        基于上述算法模型,設(shè)計(jì)了基于TF-IDF-LSTM的電力運(yùn)營(yíng)信息處理算法流程,如圖8 所示。將電力運(yùn)營(yíng)原始文本作為輸入,然后進(jìn)行文本清洗、文本分詞等數(shù)據(jù)預(yù)處理操作;進(jìn)一步基于TF-IDF 算法實(shí)現(xiàn)文本數(shù)據(jù)特征的提??;最終,通過(guò)LSTM 模型實(shí)現(xiàn)電力運(yùn)營(yíng)文本的分類(lèi)識(shí)別。

        圖8 電力運(yùn)營(yíng)信息處理算法流程

        3 算例分析

        為驗(yàn)證該文所提算法的準(zhǔn)確性和有效性,文中選取某電網(wǎng)公司在2020 年的10 000 條真實(shí)電力運(yùn)營(yíng)文本數(shù)據(jù)作為實(shí)驗(yàn)樣本,并將其以4∶1 的比例隨機(jī)劃分為訓(xùn)練集和測(cè)試集。分類(lèi)結(jié)果包括業(yè)務(wù)辦理、信息查詢(xún)、停送電查詢(xún)、法律法規(guī)、服務(wù)質(zhì)量、停電、電能質(zhì)量和供電安全共八類(lèi)。

        3.1 電力運(yùn)營(yíng)信息處理算法性能對(duì)比

        選取LSTM、TF-IDF-SVM 兩種算法與該文所提TF-IDF-LSTM 算法進(jìn)行對(duì)比。選取2 000 條測(cè)試文本數(shù)據(jù),一級(jí)分類(lèi)結(jié)果的準(zhǔn)確率如表1 所示;二級(jí)分類(lèi)結(jié)果的準(zhǔn)確率如表2 所示。

        表1 一級(jí)分類(lèi)不同算法的性能對(duì)比

        表2 二級(jí)分類(lèi)不同算法的性能對(duì)比

        對(duì)于一級(jí)分類(lèi),所提TF-IDF-LSTM 算法的準(zhǔn)確率為92.6%,LSTM 與TF-IDF-SVM 算法的準(zhǔn)確率分別為84.1%和84.8%;對(duì)于二級(jí)分類(lèi),所提TF-IDFLSTM 算法的分類(lèi)準(zhǔn)確率均大于90%,LSTM 和TFIDF-SVM 算法分類(lèi)準(zhǔn)確率均小于90%。

        由此可見(jiàn),該文所提TF-IDF-LSTM 算法具有更高的分類(lèi)準(zhǔn)確率。這是因?yàn)槲闹兴崴惴ㄏ啾扔贚STM 算法,通過(guò)TF-IDF 算法提取特征信息,實(shí)現(xiàn)了分類(lèi)學(xué)習(xí)模型的預(yù)訓(xùn)練。相比于TF-IDF-SVM 算法,LSTM 算法通過(guò)記憶單元的特殊結(jié)構(gòu)提高了模型的學(xué)習(xí)能力,從而提升電力運(yùn)營(yíng)文本分類(lèi)結(jié)果的準(zhǔn)確性。

        3.2 電力運(yùn)營(yíng)信息處理算法應(yīng)用效果

        將該文所提算法模型應(yīng)用于該電網(wǎng)公司2018-2020 年中的全部電力運(yùn)營(yíng)信息文本,得到的文本分類(lèi)結(jié)果如圖9 所示,縱坐標(biāo)代表數(shù)據(jù)量??梢钥吹皆诳蛻舻姆答佒校瑯I(yè)務(wù)辦理、信息查詢(xún)和停送電查詢(xún)這三類(lèi)比重較大,占全部業(yè)務(wù)訴求的91%。對(duì)于這三類(lèi)業(yè)務(wù)的處理,電網(wǎng)公司可以進(jìn)一步加大網(wǎng)上業(yè)務(wù)辦理以及微信查詢(xún)等功能的應(yīng)用推廣。以滿足客戶的業(yè)務(wù)需求,并減少客服人工資源的投入,提高運(yùn)營(yíng)服務(wù)水平。

        圖9 電力運(yùn)營(yíng)文本分類(lèi)結(jié)果

        4 結(jié)束語(yǔ)

        該文開(kāi)展了文本挖掘技術(shù)在電力運(yùn)營(yíng)信息中的應(yīng)用研究,提出了基于TF-IDF-LSTM 的電力運(yùn)營(yíng)文本分類(lèi)方法。通過(guò)算例分析表明:文中所提算法相比于僅采用LSTM 算法,能夠通過(guò)TF-IDF 算法實(shí)現(xiàn)文本特征單詞的預(yù)提取,且提高模型的泛化能力;相比于TF-IDF-SVM 模型,采用LSTM 算法具有更高的學(xué)習(xí)能力,且分類(lèi)結(jié)果更加準(zhǔn)確。然而該文僅實(shí)現(xiàn)了對(duì)電力運(yùn)營(yíng)文本的分類(lèi),如何結(jié)合電力生產(chǎn)的文本數(shù)據(jù)實(shí)現(xiàn)電網(wǎng)故障的精準(zhǔn)定位,輔助電力運(yùn)維業(yè)務(wù)的智能化,將在未來(lái)的研究中展開(kāi)。

        猜你喜歡
        分類(lèi)節(jié)點(diǎn)特征
        CM節(jié)點(diǎn)控制在船舶上的應(yīng)用
        Analysis of the characteristics of electronic equipment usage distance for common users
        分類(lèi)算一算
        基于AutoCAD的門(mén)窗節(jié)點(diǎn)圖快速構(gòu)建
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        分類(lèi)討論求坐標(biāo)
        數(shù)據(jù)分析中的分類(lèi)討論
        教你一招:數(shù)的分類(lèi)
        抓住特征巧觀察
        少妇裸淫交视频免费看| 午夜成人理论无码电影在线播放| 免费久久99精品国产| 国产内射爽爽大片视频社区在线 | 在线天堂www中文| 国产亚洲午夜高清国产拍精品 | 中文字幕av中文字无码亚 | 亚洲成av人片在线观看麦芽| 国产精品多人P群无码| 国产精品爽爽va在线观看网站| 亚洲av国产大片在线观看| 人妖国产视频一区二区| 精品人妻av区乱码色片| 岳好紧好湿夹太紧了好爽矜持| 国产午夜福利不卡在线观看视频| 春色成人在线一区av| 人妻少妇久久精品一区二区 | 欧洲亚洲第一区久久久| 青榴社区国产精品| 国产精品高湖呻呤久久av| av在线高清观看亚洲| 亚洲日韩av一区二区三区中文| 午夜无码国产理论在线| 亚洲aⅴ无码国精品中文字慕| 精品自拍偷拍一区二区三区| 99re6在线视频精品免费下载| 天天摸夜夜摸夜夜狠狠摸| 国产又黄又大又粗视频| 亚洲亚洲亚洲亚洲亚洲天堂| 久久日韩精品一区二区| 欧美肥婆性猛交xxxx| 真人新婚之夜破苞第一次视频| 大地资源中文在线观看官网第二页| 久久国产A∨一二三| 在教室轮流澡到高潮h免费视| 国产精品视频免费播放| 无码国产精品一区二区免| 亚洲大片一区二区三区四区| 伊人久久大香线蕉av不变影院| 天下第二社区在线视频| 精品人妻系列无码一区二区三区 |