亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于隱含狄利克雷分布主題模型和特征級異構(gòu)數(shù)據(jù)融合的電力故障主動性預(yù)警研究?

        2022-07-10 02:16:10林少娃陳奕汝伍蓓蓓雍旭龍
        電子器件 2022年2期
        關(guān)鍵詞:異構(gòu)特征提取分類器

        林少娃 陳奕汝 顧 潔 伍蓓蓓 雍旭龍

        (1.國網(wǎng)浙江省電力有限公司電力科學(xué)研究院,浙江 杭州 310000;2.浙江大有實(shí)業(yè)有限公司綜合能源服務(wù)分公司,浙江 杭州 310000;3.杭州遠(yuǎn)傳新業(yè)科技有限公司,天津 300300)

        隨著國民經(jīng)濟(jì)的發(fā)展和人民生活水平的提高,電力用戶對供電可靠性的要求越來越高。受惡劣環(huán)境和不可預(yù)測的外力破壞影響,電力故障停電無法完全避免,用戶對電力故障搶修的報修響應(yīng)速度、搶修效率有較高的要求。當(dāng)故障發(fā)生時,電力公司需要對故障影響情況用戶數(shù)量、用戶可能發(fā)生的訴求情況等進(jìn)行快速預(yù)判,才能第一時間作出服務(wù)決策,以支撐快速響應(yīng)客戶報修訴求、提升搶修效率。此外,電力行業(yè)在發(fā)展過程中業(yè)務(wù)更新較快,需要及時收集客戶對業(yè)務(wù)變化的體驗(yàn),以快速做出適應(yīng)性調(diào)整。目前電力用戶訴求由95598 客服代表進(jìn)行內(nèi)容標(biāo)注和歸類,客戶訴求內(nèi)容被精簡,訴求中可能存在的重要信息被隱含在工單錄音文件中,不能直觀反映當(dāng)前供電服務(wù)的熱點(diǎn)問題。同時95598 工單分類體系未精細(xì)到具體業(yè)務(wù)點(diǎn),工單仍依賴人工梳理與統(tǒng)計分析,其效率低下;且人工統(tǒng)計分析受限于個人的業(yè)務(wù)能力,看待問題具有局限性并存在主觀經(jīng)驗(yàn)性。

        隨著互聯(lián)網(wǎng)的普及,智能化客服系統(tǒng)已經(jīng)逐步取代傳統(tǒng)客服行業(yè),并發(fā)展成為互聯(lián)網(wǎng)客服行業(yè)的核心。依托系統(tǒng)準(zhǔn)確、可靠、全面、及時的狀態(tài)信息,智能化客服可以并發(fā)處理電力用戶的訴求事件。智能化客戶服務(wù)離不開大數(shù)據(jù)的支撐,公司需要通過分析歷史訴求信息數(shù)據(jù)和海量的電力用戶異構(gòu)數(shù)據(jù)來積極應(yīng)付突發(fā)事件,對訴求熱點(diǎn)進(jìn)行分類并進(jìn)行主動性預(yù)警或調(diào)整服務(wù)決策,以提升客戶體驗(yàn)。同時,全國信息化工作的全面快速推動,電力用戶用電基礎(chǔ)信息不斷完善,用電信息采集系統(tǒng)、營銷系統(tǒng)等各類系統(tǒng)數(shù)據(jù)的貫通,電力用戶的各類基礎(chǔ)數(shù)據(jù)、用電信息、95598 熱線語音轉(zhuǎn)文本數(shù)據(jù)和在線客服對話數(shù)據(jù)等多源異構(gòu)數(shù)據(jù)向海量規(guī)模發(fā)展,大數(shù)據(jù)特征日益明顯,合理開發(fā)利用這些海量數(shù)據(jù),可以為智能化客服提供明確的數(shù)據(jù)依據(jù)支撐并自動給訴求用戶滿意答復(fù)和相應(yīng)解決方法。

        研究基于大量歷史訴求數(shù)據(jù)的供電服務(wù)訴求,實(shí)時挖掘電力用戶的服務(wù)信息訴求與熱點(diǎn)分類,可以解決傳統(tǒng)客服在處理訴求熱點(diǎn)時存在的延遲滯后與分析片面等問題。文中利用95598 熱線語音轉(zhuǎn)文本數(shù)據(jù)和在線客服對話文本數(shù)據(jù),采用非監(jiān)督學(xué)習(xí)的方法來挖掘用戶訴求文本中所包含熱點(diǎn)和話題。針對交互式文本的特點(diǎn)[1],先對簡短的交互式文本進(jìn)行預(yù)處理,然后采用隱含狄利克雷分布概率(LDA)主題模型對交互式文本進(jìn)行主題挖掘,給訴求的電力用戶打上訴求熱點(diǎn)主題標(biāo)簽。

        電力公司不僅擁有各種渠道的訴求信息,還掌握著關(guān)于訴求電力用戶本身的多源異構(gòu)數(shù)據(jù)(比如說電力用戶性別、電力用戶年齡、家庭成員、工作類別、居住區(qū)域等,用戶對應(yīng)的配電箱參數(shù)、繳費(fèi)方式和時間、欠費(fèi)或者余額信息等,電表圖像、設(shè)備故障圖像,用戶的每小時用電量序列數(shù)據(jù)等)。電力公司要對電力故障影響情況和訴求熱點(diǎn)進(jìn)行高準(zhǔn)確性地主動性預(yù)測,必須要對上述所收集到的多源異構(gòu)數(shù)據(jù)進(jìn)行合理的信息挖掘,在電力用戶進(jìn)行熱線訴求之前實(shí)施相對應(yīng)的解決方法。文中針對每一種類型的數(shù)據(jù)集采用相對應(yīng)的特征提取方法,并進(jìn)行特征級的數(shù)據(jù)融合,然后采用卷積神經(jīng)網(wǎng)絡(luò)作為分類器,來預(yù)測電力用戶可能的訴求主題并進(jìn)行主動性預(yù)警。

        文中最后使用某區(qū)域的電力公司的用戶熱線訴求和線上對話訴求的交互式文本,來驗(yàn)證LDA 算法進(jìn)行話題挖掘的有效性。同時,文中也驗(yàn)證了基于特征級融合的卷積神經(jīng)網(wǎng)絡(luò)分類模型,在處理異構(gòu)數(shù)據(jù)時能夠很好地抓取異構(gòu)數(shù)據(jù)特征之間的關(guān)聯(lián)性,并獲得很高的分類準(zhǔn)確率,最終實(shí)現(xiàn)電力公司對電力故障影響情況和用戶訴求的主動性預(yù)警功能。

        1 面臨挑戰(zhàn)

        交互式訴求信息因?yàn)槭怯脩艉涂头藛T的對話式交互文本,所以存在口語化嚴(yán)重、句式簡短、交互性強(qiáng)等特點(diǎn)。句式簡短和文本稀疏會使得在對交互式信息進(jìn)行主題挖掘時生成稀疏的特征矩陣,口語化、停頓詞等常用詞語會使得主題挖掘模型提取出非主題相關(guān)的詞語作為判斷主題標(biāo)簽的依據(jù),導(dǎo)致模型失效。在國家電網(wǎng)的客服環(huán)境下,電力用戶和客服人員的對話還具有極強(qiáng)的專業(yè)性色彩。文本專業(yè)化表明了用戶的訴求需求,極大地表現(xiàn)出用戶所關(guān)注的主題。所以文中需要解決交互式文本的簡短、口語化和電力專業(yè)化等特點(diǎn),提升文本話題挖掘的有效性。圖1 展示了一個電力用戶和客服對話的語音轉(zhuǎn)交互式文本的案例。

        圖1 客服對話案例

        多源異構(gòu)數(shù)據(jù)挖掘的難點(diǎn)在于,特征提取無法使用統(tǒng)一的算法。類別離散數(shù)據(jù)、數(shù)值連續(xù)數(shù)據(jù)、圖像數(shù)據(jù)、時間序列數(shù)據(jù)等(如圖2 所示),都需要制定其對應(yīng)的特征提取算法來提取出有效信息。在提取完對應(yīng)的特征之后,還需要進(jìn)行數(shù)據(jù)融合,并傳給分類器進(jìn)行訴求熱點(diǎn)分類和預(yù)測。而傳統(tǒng)的分類器無法去捕捉各種數(shù)據(jù)源所提取出的特征之間的關(guān)聯(lián)性,導(dǎo)致分類準(zhǔn)確性很差。所以文中需要結(jié)合多源異構(gòu)數(shù)據(jù)的特點(diǎn),使用合適的分類器去得到最高的分類準(zhǔn)確性,從而使得系統(tǒng)可以更加準(zhǔn)確地對電力故障影響范圍和訴求熱點(diǎn)進(jìn)行主動性預(yù)警。

        圖2 多源異構(gòu)數(shù)據(jù)

        2 設(shè)計方案

        2.1 系統(tǒng)設(shè)計

        挖掘電力用戶的訴求交互性短文本時,文中根據(jù)百度百科、維基百科這兩個外部文本數(shù)據(jù),對交互式文本中出現(xiàn)電力專業(yè)性詞匯進(jìn)行詞語解釋來擴(kuò)充文本長度,進(jìn)一步解決文本矩陣稀疏的問題。為了解決交互式文本中口語化對主題挖掘結(jié)果的影響,文中根據(jù)口語化詞語庫對高頻詞匯中的口語化詞語進(jìn)行過濾[2]。在進(jìn)行文本特征選擇之前,需要進(jìn)行相應(yīng)的預(yù)處理操作。預(yù)處理主要分三個部分:分詞處理、停用詞過濾和特殊詞匯過濾。預(yù)處理完之后,文中對交互式文本進(jìn)行特征提取。然后對預(yù)處理后的詞向量組進(jìn)行特征提取,最后采用LDA 算法對文本特征進(jìn)行主題挖掘,并給每一個訴求文本打上訴求熱點(diǎn)標(biāo)簽[3]。圖3 展示了電力用戶的交互式訴求文本主題挖掘的系統(tǒng)流程圖。

        圖3 交互式文本主題挖掘流程圖

        為了實(shí)現(xiàn)電力公司對電力用戶的訴求進(jìn)行主動式預(yù)警,文中采用多源異構(gòu)大數(shù)據(jù)分析的算法與技術(shù),結(jié)合交互式文本訴求系統(tǒng)的主題熱點(diǎn)標(biāo)簽,對電力公司所收集到的電力用戶多源異構(gòu)數(shù)據(jù)集進(jìn)行分類處理。這樣,電力公司就可以直接根據(jù)電力用戶的本身信息和日常行為數(shù)據(jù)對用戶訴求進(jìn)行主動式預(yù)測和訴求熱點(diǎn)分類。圖4 展示了多源異構(gòu)數(shù)據(jù)分類器的設(shè)計框架圖。

        圖4 多源異構(gòu)數(shù)據(jù)分類器設(shè)計框架

        對交互式文本進(jìn)行主題挖掘?qū)儆诜潜O(jiān)督性學(xué)習(xí)過程,避免浪費(fèi)大量的人力資源對訴求文本進(jìn)行標(biāo)簽注明。當(dāng)訴求交互式文本完成了話題分類之后,每一個文本都有其對應(yīng)標(biāo)簽,文中利用電力公司所持續(xù)收集的多源異構(gòu)數(shù)據(jù)集,結(jié)合訴求熱點(diǎn)標(biāo)簽,通過數(shù)據(jù)預(yù)處理、異構(gòu)數(shù)據(jù)特征提取、卷積神經(jīng)網(wǎng)絡(luò)等技術(shù)來完成異構(gòu)數(shù)據(jù)的深度挖掘,并實(shí)現(xiàn)交互式信息訴求的分類與預(yù)測。這樣,電力公司便可以通過收集到的用戶數(shù)據(jù),來迅速判斷故障影響范圍或客戶訴求熱點(diǎn),達(dá)到主動預(yù)警的目的,并根據(jù)結(jié)果支撐客戶服務(wù)代表快速響應(yīng)客戶報修訴求或提供職能部門進(jìn)行服務(wù)調(diào)整決策。

        2.2 文本主題挖掘

        2.2.1 數(shù)據(jù)預(yù)處理模塊

        由于電力用戶的訴求信息文本主要是由電話錄音的音頻數(shù)據(jù)轉(zhuǎn)化成文本而來,所以原始文本中存在停頓符號、空格、語氣詞、停用詞等。文本預(yù)處理在文本主題挖掘中起著非常重要的角色,文中將文本預(yù)處理過程分為以下三個步驟:

        (1)分詞處理:文本處理的對象是詞向量,所以在進(jìn)行預(yù)處理之前首先需要對交互式文本進(jìn)行分詞處理,將文本轉(zhuǎn)化為多個獨(dú)立的詞向量。

        (2)停用詞消除:停頓詞是自然語言的一個分支。需要從文本中刪除停頓詞的動機(jī)是:它們讓文本看起來更沉重,對分析文本來說并不那么重要。刪除停止字可以降低詞向量特征空間的維度。在文本中最常見的單詞包括虛詞、口語化詞匯等,它們沒有給出文檔的含義。考慮到這些字在文本主題挖掘過程中不會被作為關(guān)鍵字,所以必須先刪除停用詞來減小主題挖掘訓(xùn)練時間。

        (3)特殊詞過濾:文本詞向量中還包含了大量特殊詞匯,問候和致謝詞匯、線上客服文本中的表情信息、手機(jī)號碼、家庭住址等詞匯(在交互文本中所提及的訴求地址信息,文中單獨(dú)抓取出來并加入到后續(xù)的異構(gòu)數(shù)據(jù)源中),上述某些詞匯可能沒有實(shí)際意義,但是在詞向量中出現(xiàn)的頻次極高,需要對這些特殊詞匯進(jìn)行過濾。

        2.2.2 特征提取模塊

        預(yù)處理過程只是將一個交互式文本轉(zhuǎn)化為詞向量數(shù)組,但是這些詞向量的數(shù)量相對來說比較龐大。在進(jìn)行文本主題挖掘之前,仍需要對其進(jìn)行特征提取,來減少接下來的文本挖掘的數(shù)據(jù)處理時間。文中主要采用以下步驟來進(jìn)行特征詞向量提取:

        (1)名詞短語提取:對交互式文本中詞向量進(jìn)行詞性標(biāo)注,篩選出名詞詞性的詞向量。

        (2)高頻詞匯提取:在提取高頻詞匯過程中,文中根據(jù)詞頻的計算來衡量詞向量在文本中頻率,計算公式為:

        式中:ni,j表示詞向量j在文本對象i中出現(xiàn)的次數(shù),∑knk,j表示詞向量j在所有文本對象中出現(xiàn)的總次數(shù),tfi,j表示詞向量j在文本對象i中的詞頻。通過設(shè)置閾值來篩除每個文本對象中的低頻詞向量,并保留高頻詞向量重新作為文本特征向量。

        設(shè)置閾值篩除低頻詞向量,并保留高頻詞向量重新作為文本特征向量。

        (3)信息熵過濾:高頻詞匯提取過程中,也會提取一些具有不確定性因素的高頻詞匯[4]。該步驟借助信息熵來對不確定性的高頻詞匯進(jìn)行剔除,信息熵公式如下:

        在該公式中,i表示文本對象的序號,n表示文本總數(shù);P(xi)表示詞匯xi在文本i中出現(xiàn)的概率。文中對所有過濾后的高頻詞匯進(jìn)行信息熵計算,設(shè)置合適的信息熵閾值,判斷當(dāng)前詞語的信息熵是否高于閾值,若高于閾值則將該詞語從特征詞向量中剔除,進(jìn)一步提高LDA 模型的效率。

        2.2.3 LDA 算法

        當(dāng)?shù)玫椒衔谋局黝}挖掘模型的交互式文本集合和每個文本中的詞向量集合之后,文中采用隱含狄利克雷分布(LDA)概率主題模型對上述的文本集合進(jìn)行主題挖掘。

        LDA 模型是一種文檔生成模型。它認(rèn)為一篇文本是包含多個主題的,而每個主題又對應(yīng)不同的詞語,所以在生成一個文本時,首先以一定的概率選擇一個主題,再在此主題下以一定概率去選擇一個詞語,不斷重復(fù)之后便可生成一篇文本。LDA 采用貝葉斯估計的方法,假設(shè)文檔的主題分布和主題的特征詞分布的先驗(yàn)分布都是Dirichlet 分布(狄利克雷分布),認(rèn)為所有的文檔存在K個隱含主題。圖5表示LDA 的概率圖模型。圖中每一個圓圈都表示一個隨機(jī)變量,其中白色圓圈表示隱含變量,黑色圓圈表示感測變量。M表示文本集合,N表示文本中詞向量的集合,K表示設(shè)置的主題數(shù)目。α表示每一篇文檔的主題分布的先驗(yàn)分布——Dirichlet 分布的超參數(shù);β 表示每一個主題的詞分布的先驗(yàn)分布-Dirichlet 分布的超參數(shù);W表示建模過程中可以觀測到的詞語。根據(jù)圖中描述,LDA 的具體文檔生成過程如圖5 所示。

        圖5 LDA 概率圖模型

        (1)從主題分布的Dirichlet 分布α中取一個作為生成文檔d的主題分布θ。

        (2)從主題的多項(xiàng)式分布θ中取一個主題,作為生成文檔d第n個詞的主題Zd,n。

        (3)從主題的詞分布的Dirichlet 分布β中取一個詞語,作為生成主題Zd,n對應(yīng)的詞語分布φ。

        (4)從詞語的多項(xiàng)式分布φ中采樣最終生成詞語Wd,n。

        接下來對LDA 模型進(jìn)行訓(xùn)練,訓(xùn)練的過程就是通過吉布斯采樣獲取(主題,詞向量)的樣本,而模型的所有參數(shù)都可以基于最終采樣得到的樣本進(jìn)行估計,訓(xùn)練過程如下:

        (1)隨機(jī)初始化:對文本集中每一篇文本中的每一個詞w,隨機(jī)賦一個主題z。

        (2)重新掃描文本集,對每一個詞w,按照吉布斯采樣公式重新采樣其主題:

        將當(dāng)前詞w安排給計算出概率值最高的主題zmax。

        (3)重復(fù)以上文本集的重新采樣過程直到吉布斯采樣收斂。

        (4)統(tǒng)計主題-詞向量頻率矩陣,該矩陣變?yōu)長DA 模型。

        得到LDA 主題挖掘模型之后,對于新的未知文本,文中通過如下流程來判斷文本的主題分布:

        (1)隨機(jī)初始化:對當(dāng)前文本中的每一個詞w,隨機(jī)賦予一個主題z。

        (2)重新掃描當(dāng)前文本,按照吉布斯采樣公式,對每一個詞w,重新采樣其主題。

        (3)重復(fù)以上步驟直到吉布斯采樣收斂。

        (4)統(tǒng)計文本的主題分布,該分布即為θnew。

        2.3 基于多源異構(gòu)數(shù)據(jù)的主動預(yù)警

        文中通過LDA 模型獲取到了電力用戶訴求文本的主題,并根據(jù)主題給每一個電力用戶的訴求文本打上標(biāo)簽。國家電網(wǎng)可以從多種途徑收集到訴求用戶的基本信息,電力信息(配電器類型、實(shí)時用電功率、總用電量、交費(fèi)信息等),用戶信息(家庭成員、工作信息、家庭住址等),訴求時空信息(電力投訴點(diǎn)位置信息,投訴點(diǎn)時間信息)。通過多種途徑收集到的異構(gòu)數(shù)據(jù),結(jié)合數(shù)據(jù)挖掘的算法,可以做到對電力故障等訴求問題的主動預(yù)警,提前發(fā)送短信等方法告知電力用戶短時間內(nèi)可能出現(xiàn)的電力故障并提前部署相關(guān)維修部門解決問題。

        對異構(gòu)數(shù)據(jù)集進(jìn)行分類的主要挑戰(zhàn)是如何處理數(shù)據(jù)集記錄中的異構(gòu)性。雖然一些現(xiàn)有的分類器(如決策樹)可以在特定的環(huán)境中處理異構(gòu)數(shù)據(jù),但是這些模型的性能可能仍然會得到改進(jìn),因?yàn)楫悩?gòu)性涉及到對相似性度量和計算的特定調(diào)整。而且,異構(gòu)數(shù)據(jù)仍然以不一致的、特別的方式處理。文中利用深度學(xué)習(xí)作為一種自動化的特征工程的方法,利用獨(dú)熱編碼(One-hot Encoding)和LSTM 等方法分別對每一種數(shù)據(jù)格式的數(shù)據(jù)進(jìn)行提取特征,并最終通過合并(concat)操作將這些多種特征進(jìn)行融合。卷積神經(jīng)網(wǎng)絡(luò)(CNN)因?yàn)槌錾奶卣魈崛∧芰Ρ粡V泛應(yīng)用在各種領(lǐng)域,卷積核的設(shè)計可以讓系統(tǒng)根據(jù)數(shù)據(jù)之間的關(guān)聯(lián)性來提取出更高維度的特征,使得分類準(zhǔn)確率得到提高[5]。文中在得到異構(gòu)數(shù)據(jù)融合特征向量之后,采用了CNN 作為系統(tǒng)的分類器,旨在提取異構(gòu)數(shù)據(jù)特征之間的相關(guān)性,并提高最終模型分類的準(zhǔn)確性。

        圖6 異構(gòu)數(shù)據(jù)分類器架構(gòu)圖

        2.3.1 異構(gòu)數(shù)據(jù)特征提取

        面對多源異構(gòu)數(shù)據(jù)處理的復(fù)雜性,為了達(dá)到多源異構(gòu)數(shù)據(jù)共性特征提取的目的,文中首先將異構(gòu)數(shù)據(jù)分成四大部分,第一是類別型數(shù)據(jù)(電力用戶性別、工作類別、居住區(qū)域等),第二是數(shù)值型數(shù)據(jù)(電力用戶年齡、配電箱參數(shù)、欠費(fèi)或余額信息等),第三是圖像型數(shù)據(jù)(電表圖像、施工現(xiàn)場圖像等),第四是時間序列信息(每小時用電量等)。文中針對不同類型的數(shù)據(jù),設(shè)計相對應(yīng)的特征提取方法:

        (1)類別數(shù)據(jù)。文中采用常見的獨(dú)熱編碼來處理類別數(shù)據(jù),但是僅僅使用獨(dú)熱編碼會產(chǎn)生非常大的特征維度。文中將編碼后的類別向量連接到embedding 層,映射到低維的連續(xù)空間,可以解決維度過大的問題,并保留了類別數(shù)據(jù)本身的特征信息。

        (2)數(shù)值數(shù)據(jù)。文中使用多層神經(jīng)網(wǎng)絡(luò)來對所有數(shù)值數(shù)據(jù)進(jìn)行特征提取,由于數(shù)值數(shù)據(jù)缺乏局部標(biāo)簽,所以文中使用無監(jiān)督的自編碼器來提取特征[6]。自編碼器(Auto Encoder)的輸入和輸出是一致的,即將自身的數(shù)據(jù)作為輸出層,采用稀疏的一些高階特征編碼自己,并能在輸出層還原出原始數(shù)據(jù)。文中所設(shè)置的自編碼器,擁有對稱的Encoder 和Decoder 結(jié)構(gòu)。編碼器的輸入層為原始數(shù)值數(shù)據(jù),第一個隱藏層具有6 個神經(jīng)元,第二個隱藏層具有4 個神經(jīng)元,文中設(shè)置最終編碼出的高階特征數(shù)量為3,所以編碼器的結(jié)構(gòu)如圖7 左邊所示。同理,對稱式地設(shè)計解碼器,其結(jié)構(gòu)如圖7 右邊所示。

        圖7 自編碼器的結(jié)構(gòu)示意圖

        (3)圖像數(shù)據(jù)。文中采用已經(jīng)訓(xùn)練好的VGG-16(一種深度卷積神經(jīng)網(wǎng)絡(luò)模型),作為圖像數(shù)據(jù)的特征提取方法。文中保留其他層的權(quán)重不變,只修改最后一層的參數(shù),根據(jù)電力圖像數(shù)據(jù)和其他來源的圖像進(jìn)行微調(diào),讓VGG-16 可以有效地提取到電力圖像數(shù)據(jù)的特征。

        (4)時間序列數(shù)據(jù)。文中采用長短時間記憶神經(jīng)網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)模型對收集到的電力用戶每小時用電量的時間序列數(shù)據(jù)進(jìn)行特征提取。LSTM 可以隨著時間推移對序列數(shù)據(jù)進(jìn)行順序處理,并綜合利用歷史狀態(tài)數(shù)據(jù)、記憶狀態(tài)數(shù)據(jù)和當(dāng)前輸入數(shù)據(jù)等因素[7],可以更好地處理長時間和短時間內(nèi)的序列關(guān)聯(lián)性。文中利用LSTM 來對時間序列數(shù)據(jù)進(jìn)行特征提取,確保提取出序列數(shù)據(jù)在時間上的關(guān)聯(lián)特征。

        2.3.2 異構(gòu)數(shù)據(jù)融合與分類

        文中分別針對每一種數(shù)據(jù)源都設(shè)計了特征提取的方法,要處理這些異構(gòu)數(shù)據(jù),必須要在特征級上進(jìn)行數(shù)據(jù)融合,所以對上一節(jié)中所有提取到的所有特征進(jìn)行concat 操作,組合成完整的1-D 異構(gòu)數(shù)據(jù)融合特征向量。接下來,就是設(shè)計分類器對融合特征向量進(jìn)行分類。

        因?yàn)楫悩?gòu)數(shù)據(jù)雖然在數(shù)據(jù)類型上有很大的差別,但是每個數(shù)據(jù)源之間都存在著關(guān)聯(lián)性(比如說,居住區(qū)域和電力用戶年齡有關(guān),每小時用電量和用戶工作有關(guān)等)。傳統(tǒng)的分類器(SVM,決策樹,kNN等)對高維處理起來比較吃力,而且無法獲取數(shù)據(jù)源特征之間的相關(guān)性[8-9]。文中采用CNN(卷積神經(jīng)網(wǎng)絡(luò))作為分類器模型,CNN 相對于傳統(tǒng)分類器主要有以下兩點(diǎn)優(yōu)勢:(i)CNN 使用并全局共享卷積核,所以處理高維數(shù)據(jù)時相對來說輕松很多;(ii)卷積核能獲取特征之間的關(guān)聯(lián)性,可以提升系統(tǒng)分類的準(zhǔn)確率。

        文中使用1×1 卷積核的Inception 結(jié)構(gòu)來減少網(wǎng)絡(luò)參數(shù)數(shù)量。使用Relu 激活函數(shù),并進(jìn)行批歸一化(Batch Normalization)使得梯度可以更好地傳遞到淺層網(wǎng)絡(luò)中。同時為了防止訓(xùn)練出的模型過擬合,需要避免訓(xùn)練出復(fù)雜的網(wǎng)絡(luò)模型。文中添加了Dropout 結(jié)構(gòu)來隨機(jī)丟棄網(wǎng)絡(luò)單元,增加模型的多樣性,同時也使得模型泛化能力得到提升。最后,文中使用Softmax 層來進(jìn)行分類。

        3 實(shí)驗(yàn)結(jié)果分析

        3.1 主題挖掘結(jié)果分析

        文中采用LDA 模型對交互式訴求文本進(jìn)行主題挖掘,參數(shù)設(shè)置為:主題數(shù)K=5,超參數(shù)α=1,β=0.02,φ=0.02,吉布斯采樣的迭代次數(shù)設(shè)置為2 000。LDA 模型的部分主題結(jié)果展示如圖8 所示。圖中三個主題分別是有關(guān)電費(fèi)異常、故障和抄表,在LDA 的權(quán)重值中電費(fèi)異常這一特征詞的權(quán)重最高,說明是電力用戶訴求中發(fā)生的最熱門主題。在主題挖掘模型中,主題與主題之間的相似性越低則效果越好,文中在計算主題相似度時,采用了余弦法相似度計算公式[10],對每個主題向量:

        圖8 部分主題結(jié)果展示

        式中:tj為每一個詞語,wj(dn)為tj在文檔dn中的權(quán)重,相似度計算公式如下:

        然后遍歷每一個文本,再對相似度去得到最終的主題間的平均相似度數(shù)值。圖9 為LDA 模型的主題之間的相似度與文本數(shù)據(jù)集數(shù)量的對應(yīng)情況。結(jié)果表明在文檔集增加的情況下,主題之間的相似度在降低,所以增加文本數(shù)量可以有效地提高挖掘主題的效率。

        圖9 主題相似度分析

        3.2 異構(gòu)數(shù)據(jù)分類效果分析

        在對異構(gòu)數(shù)據(jù)進(jìn)行相對應(yīng)的特征提取之后,文中對特征級融合后的特征向量進(jìn)行多分類器的對比。如圖10 所示為多種分類算法分類準(zhǔn)確率對比圖。與傳統(tǒng)K 近鄰算法(K-nearest Neighbor,KNN)、支持向量機(jī)(Support Vector Machine,SVM)、隨機(jī)森林(Random Forest,RF)、集成分類器(AdaBoost)等分類算法相比[11],CNN 模型準(zhǔn)確率高出近7%,說明CNN 可以更好地分析異構(gòu)數(shù)據(jù)的特征之間的關(guān)聯(lián)性,并利用此關(guān)聯(lián)信息增加數(shù)據(jù)分類的準(zhǔn)確性。

        圖10 分類算法準(zhǔn)確率對比圖

        4 結(jié)束語

        針對電力用戶訴求交互式文本和多源異構(gòu)數(shù)據(jù)集,文中提出了一個可以對電力故障和用戶訴求熱點(diǎn)預(yù)測的主動預(yù)警系統(tǒng)。文中采用LDA 模型對交互式文本進(jìn)行主題聚類,然后采用基于卷積神經(jīng)網(wǎng)絡(luò)和特征級數(shù)據(jù)融合的分類器對用戶的多源異構(gòu)數(shù)據(jù)進(jìn)行分類,達(dá)到最高97%的分類準(zhǔn)確率,驗(yàn)證系統(tǒng)的有效性。國家電網(wǎng)可以根據(jù)用戶訴求的主動性預(yù)警,提前安排相應(yīng)解決方法,給電力用戶最好的用電保障。

        猜你喜歡
        異構(gòu)特征提取分類器
        試論同課異構(gòu)之“同”與“異”
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        BP-GA光照分類器在車道線識別中的應(yīng)用
        電子測試(2018年1期)2018-04-18 11:52:35
        Bagging RCSP腦電特征提取算法
        overlay SDN實(shí)現(xiàn)異構(gòu)兼容的關(guān)鍵技術(shù)
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
        LTE異構(gòu)網(wǎng)技術(shù)與組網(wǎng)研究
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        在新興異構(gòu)SoCs上集成多種系統(tǒng)
        国产精品三级1区2区3区| 亚洲日本va午夜在线电影| 把女人弄爽特黄a大片| 特黄做受又硬又粗又大视频小说| 久久精品国产网红主播| 精品久久久久久777米琪桃花 | 日韩精品国产一区二区| 日韩精品视频高清在线| 久久亚洲av成人无码国产最大| 亚洲熟妇av一区| 国产一极内射視颍一| 久久精品国产99精品九九| 国产一区二区三区视频了 | 婷婷开心五月综合基地| 自拍偷自拍亚洲一区二区| 日韩视频中文字幕精品偷拍| 国产又色又爽又黄刺激在线视频| 全球av集中精品导航福利| 亚洲三级香港三级久久| 中文字幕成人精品久久不卡91| 色欲欲www成人网站| 醉酒后少妇被疯狂内射视频| 1234.com麻豆性爰爱影| 国产精品国产自产拍高清| 帮老师解开蕾丝奶罩吸乳网站| 亞洲綜合無碼av一區二區| 久久精品网站免费观看| 久久久精品人妻一区二区三区四区| 国产午夜福利精品一区二区三区| 老子影院午夜精品无码| 国产一区二区三区精品久久呦| 日本一区二区三区在线视频观看| 美女视频在线观看网址大全| 日韩aⅴ人妻无码一区二区| 成人精品一级毛片| 国产一区二区在线观看av| 一区二区三区日韩亚洲中文视频| 国内精品视频在线播放不卡| 国产精品久久无码不卡黑寡妇| 国产一级黄色av影片| 一区二区三区高清在线观看视频|