亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于文本挖掘的電力運維服務(wù)項目智能輔助管理

        2021-03-16 13:28:52王文娟李鴻健
        計算機應(yīng)用與軟件 2021年3期
        關(guān)鍵詞:分類文本智能

        王文娟 李鴻健

        1(國網(wǎng)重慶電力公司 重慶 400060)

        2(重慶郵電大學(xué)計算機科學(xué)與技術(shù)學(xué)院 重慶 400065)

        0 引 言

        在電力系統(tǒng)中,運維服務(wù)項目計劃將成為運維服務(wù)日常管理工作中的一個重要環(huán)節(jié),實行嚴(yán)格的運維服務(wù)項目計劃是電力企業(yè)發(fā)展的迫切需要,也是建立規(guī)范有效的內(nèi)控制度的必要環(huán)節(jié)。然而,當(dāng)前的運維服務(wù)項目計劃管理是管理工作中比較薄弱的環(huán)節(jié),對運維服務(wù)項目計劃進行有效的管控,保證項目計劃合理、完整、準(zhǔn)確具有重要意義。當(dāng)前電力系統(tǒng)運維服務(wù)項目計劃管理存在以下問題:(1) 項目計劃類別錯誤,項目內(nèi)容不規(guī)范、運維服務(wù)內(nèi)容超范圍等,給后續(xù)的管理工作帶來諸多不便;(2) 項目存在重復(fù)申報和立項的問題,資金使用效率低,審批過程中無法進行實時分析,管理過程不能實時跟蹤和追溯;(3) 申報過程繁瑣,周期較長,項目的管理過程復(fù)雜耗費了大量的人力資源。因此,電力系統(tǒng)對運維服務(wù)項目計劃申報和管理提出了更高的要求。目前文獻(xiàn)[1-2]針對科研項目的重復(fù)立項和管理提出了一些輔助查詢分析和預(yù)警,然而科研項目管理與電力運維服務(wù)項目計劃管理具有不同特點,難以有效地解決電力運維服務(wù)項目計劃管理的問題。

        基于中文文本挖掘?qū)崿F(xiàn)智能文本處理是一項重要且具有挑戰(zhàn)的技術(shù)[3-5]。目前,基于文本挖掘的中文分詞技術(shù)已經(jīng)廣泛應(yīng)用于中文自動分類、自動摘要、自動校對等領(lǐng)域[6-8]。中文文本挖掘的應(yīng)用有時是很困難的,經(jīng)常需要與專業(yè)知識進行密切結(jié)合[9]。隨著大數(shù)據(jù)和互聯(lián)網(wǎng)的發(fā)展,中文文本挖掘在網(wǎng)頁中的應(yīng)用越來越廣泛,然而在專業(yè)領(lǐng)域的應(yīng)用如在電力領(lǐng)域文本挖掘還正處于初級階段[10]。在國內(nèi)電力系統(tǒng)研究中,文獻(xiàn)[11]采用文本挖掘技術(shù)對電力設(shè)備典型故障案例進行研究,采用智能文本技術(shù)提高對故障原因信息提取的準(zhǔn)確率;文獻(xiàn)[12]深入研究了電力系統(tǒng)設(shè)備缺陷的文本分類模型,將深度學(xué)習(xí)方法應(yīng)用于該領(lǐng)域的分類模型。在國際上,文獻(xiàn)[13]通過歷史事件和天氣等信息對變電站負(fù)荷進行預(yù)測;文獻(xiàn)[14]通過文本挖掘技術(shù)對電力系統(tǒng)的故障風(fēng)險進行研究等。由此可見,文本挖掘技術(shù)可應(yīng)用于電力系統(tǒng)并提高運行維護的效率。

        本文將文本挖掘技術(shù)應(yīng)用于電力系統(tǒng)運維服務(wù)項目計劃的輔助管理,設(shè)計并實現(xiàn)了基于智能分詞處理技術(shù)的項目計劃輔助管理系統(tǒng)。首先采用智能分詞技術(shù)對電力運維服務(wù)計劃材料進行分詞,然后設(shè)計多層級多分類器融合分類方法進行項目分類,并進行項目相似度計算,實現(xiàn)項目申報的分類檢查和高重復(fù)度的智能提示,避免項目類別填報錯誤、項目重復(fù)申報和立項、項目內(nèi)容不規(guī)范、運維服務(wù)內(nèi)容超范圍等問題。本文構(gòu)建了一種適用于電力系統(tǒng)運維項目智能輔助管理的框架,基于該框架通過智能分類和計算項目相似度,在檢測項目重復(fù)度和分類匹配的同時,為項目過濾評審和管理提供必要提示信息。通過該模型和系統(tǒng)對電力系統(tǒng)運維服務(wù)管理項目進行規(guī)范化管理,數(shù)據(jù)結(jié)果表明,分類匹配精確度對比傳統(tǒng)分類方法提高3個百分點以上,能夠檢查高重復(fù)度項目,過濾不規(guī)范項目,有效提高了運維服務(wù)項目管理效率。

        1 模型框架和系統(tǒng)設(shè)計

        1.1 模型框架

        本節(jié)構(gòu)建電力運維服務(wù)項目智能輔助計劃管理框架,基于該框架實現(xiàn)電力系統(tǒng)運維服務(wù)項目智能管理輔助系統(tǒng)。

        基于文本挖掘技術(shù)的電力運維服務(wù)項目智能輔助管理框架如圖1所示。首先對申報材料進行智能分詞處理;然后提取和表示項目特征,基于特征向量進行多層級多分類器融合分類和相似度計算,過濾分類錯誤項目和重復(fù)申報項目,并在專家評審階段分類評審;最后實現(xiàn)項目一鍵式材料歸檔,降低人工成本,將已立項項目納入項目庫進行后期管理。

        圖1 電力運維服務(wù)項目智能輔助管理框架

        申報項目立項進入管理庫后,可對本模型進一步優(yōu)化訓(xùn)練,采用歷史樣本對初始運維服務(wù)項目智能申報分類模型進行訓(xùn)練,得到的運維服務(wù)項目智能申報模型再經(jīng)過測試項目驗證和優(yōu)化。在該框架下,還可以采用數(shù)據(jù)挖掘和分析技術(shù)對目標(biāo)項目數(shù)據(jù)資源進行定期分析和跟蹤,以達(dá)到對運維服務(wù)項目智能申報模型的訓(xùn)練和學(xué)習(xí),使運維服務(wù)項目智能申報模型能夠不斷優(yōu)化。運維服務(wù)項目智能申報模型通過定期的分析和跟蹤,能夠及時進行調(diào)整和評價,使模型能夠不斷地進行優(yōu)化,從而使得運維服務(wù)項目智能申報各種功能模塊的效果越來越好。

        1.2 系統(tǒng)設(shè)計

        電力系統(tǒng)運維服務(wù)因納入項目化管控時間較短,對于項目需求評審、運維服務(wù)過程規(guī)范等內(nèi)容檢查仍在摸索階段,公司根據(jù)運維服務(wù)管理的經(jīng)驗,提取運維服務(wù)管理過程中的痛點和難點,重點加強項目計劃端管控力度,實現(xiàn)項目立項有據(jù)可依,項目計劃管控全程可追溯。圖2為電力運維服務(wù)項目智能輔助管理功能模塊圖,主要功能如下:1) 實現(xiàn)在線計劃填報、項目計劃修改、審核全程可追溯。2) 通過智能分詞技術(shù)實現(xiàn)過濾、分類和重復(fù)度檢測,分析檢測項目內(nèi)容,為項目計劃審核主動提供審核提示,提高工作效率。智能分詞技術(shù)實現(xiàn)的具體功能包括:(1) 過濾,自動過濾不符合要求項目;(2) 分類匹配,對申報項目進行自動分類檢查;(3) 項目重復(fù)度檢測,對項目進行相似度計算,包括與已立項項目進行對比和同時申報項目之間的比對,給項目管理者和項目評審專家提供參考。3) 在項目計劃確認(rèn)后一鍵生成后期資料,減少因資料文檔工作量大而造成的人工重復(fù)工作量,提升運維服務(wù)管理規(guī)范性、精益化水平。

        圖2 電力運維服務(wù)項目計劃智能管理系統(tǒng)功能設(shè)計

        本系統(tǒng)主要目的是減少人力處理數(shù)據(jù)環(huán)節(jié),節(jié)省大量人工操作,實現(xiàn)自動化輔助管理,減少項目重復(fù)申報和立項,提高項目管理和資金利用效率。同時還能實現(xiàn)智能提示,避免項目內(nèi)容不規(guī)范、運維服務(wù)內(nèi)容超范圍等情況。

        2 流程與方法

        2.1 層級多分類器融合分類方法

        本文采用文本分類方法對申報材料進行分類,電力運維服務(wù)項目共分三級科目,例如一級科目分為五大類:軟件系統(tǒng)信息統(tǒng)推(IC)、硬件設(shè)備(IB)、基礎(chǔ)設(shè)施(ID)、一級客服(IA)、其他系統(tǒng)(IE)。本文對一級科目和二級科目的分類精確度進行優(yōu)化提升。項目在申報時由于各種原因可能存在申報分類不正確的問題,會給后續(xù)項目評審、績效評估、項目管理、歸檔等帶來各種問題,因此在項目初審時必須嚴(yán)格篩查。本系統(tǒng)采用文本分類方法對項目申報材料進行自動分類,對可能存在類別錯誤的項目進行提示,減少人工篩查的巨大工作量,提高了初審效率。

        2.1.1一級科目分類方法設(shè)計

        針對一級科目分類,采用單分類器不能充分挖掘項目文本信息的特征,其分類效果不能得到進一步提升。因此,本文設(shè)計了一種多分類器融合分類方法來進行處理,該分類方法組合了組合樸素貝葉斯、邏輯回歸、隨機森林三種分類器。通過三種分類器重復(fù)提取項目材料的特征,并提高分類的效果。

        由于五類一級科目申報材料中的內(nèi)容差異較大,描述的對象各不相同,例如軟件系統(tǒng)信息統(tǒng)推(IC)類材料往往會出現(xiàn)軟件、數(shù)據(jù)庫、中間件等,而這些詞語基本不會出現(xiàn)在其他類材料中,所以考慮用申報材料的詞語作為文本的特征。同時為了避免構(gòu)建的詞語特征空間出現(xiàn)特征稀疏、維度災(zāi)難等問題,使用卡方檢驗抽取與類別相關(guān)度最大的1 000個詞語作為特征來構(gòu)建文本詞語特征空間。接著使用詞袋模型將每份申報材料轉(zhuǎn)換為特征向量。

        對申報材料構(gòu)建文本特征表示后,需要訓(xùn)練分類器來對材料進行分類,由于不同的分類器具有不同的分類性能,而Stacking集成學(xué)習(xí)方法能有效地組合分類器并提升性能,所以本文使用Stacking方法組合樸素貝葉斯、邏輯回歸、隨機森林三種分類器來對申報材料進行分類,具體過程如圖3所示。首先將申報材料的文本詞語特征分別輸入到每個分類器中。在每個基分類器下,評論文本都獲得屬于五個類別的五個后驗概率。將五個基分類器對評論文本輸出的十五個后驗分類概率進行拼接,形成新的十五維文本特征向量。最后使用十五維文本特征向量訓(xùn)練XGBoost分類器[15],并進行一級科目分類,獲取申報材料的一級科目類別。

        圖3 多分類器融合分類框架圖

        2.1.2二級科目分類方法設(shè)計

        經(jīng)過一級科目分類后,還需要將每份申報材料劃分到一級科目下的二級子科目中。由于相同一級科目的申報材料屬于同一領(lǐng)域,因此其內(nèi)容相通且材料中的用詞十分相近,此時若以詞語來作為申報材料的特征將不再具備區(qū)分度。所以本文考慮綜合使用卷積神經(jīng)網(wǎng)絡(luò)[16]和自編碼神經(jīng)網(wǎng)絡(luò)[17]來分別構(gòu)建申報材料的局部特征和全局特征。

        首先使用Word2Vec方法訓(xùn)練得到申報材料的詞向量并作為卷積神經(jīng)網(wǎng)絡(luò)的輸入,接著使用不同高度的卷積核進行卷積計算,當(dāng)卷積核的高度不同時對應(yīng)地提取不同長度的局部特征。然后經(jīng)過池化層、Dropout層和全連接層進行分類。模型訓(xùn)練完成后,提取池化層的輸出向量作為申報材料的局部特征。

        自編碼網(wǎng)絡(luò)能通過具有隱藏層的神經(jīng)網(wǎng)絡(luò)的逐層特征變換獲得原始數(shù)據(jù)的低維表示,從而達(dá)到在顯著降低文本特征維度的同時盡量保留原本輸入內(nèi)容的目的。本文自編碼網(wǎng)絡(luò)的結(jié)構(gòu)如圖4所示。

        圖4 自編碼網(wǎng)絡(luò)結(jié)構(gòu)圖

        Lθ表示自編碼網(wǎng)絡(luò)的目標(biāo)函數(shù),計算式如下:

        (1)

        (2)

        訓(xùn)練過程中通過反向傳播梯度下降的方法更新參數(shù),使得目標(biāo)函數(shù)減小。當(dāng)輸出誤差L足夠小時,表明輸入樣本數(shù)據(jù)可以通過隱藏層重構(gòu)表達(dá),此時隱藏層輸出即為提取的申報材料全局特征。

        最后將獲取的申報材料的局部特征和全局特征拼接作為輸入來訓(xùn)練新的XGBoost分類器并進行二級科目的分類。

        2.2 項目文本重復(fù)度計算

        2.2.1基于TF-IDF算法的特征項選取

        采用TF-IDF算法進行文本特征項提取,根據(jù)本文的具體應(yīng)用,對項目范圍和項目內(nèi)容等文本內(nèi)容進行特征項提取。構(gòu)建項目的文本特征向量,其具體步驟包含:(1) 對文本向量進行降維;(2) 采用TF-IDF的算法對特征項進行評估并排序;(3) 根據(jù)閾值選取評估分值高的作為特征項。

        2.2.2計算文本相似度

        采用余弦相似性算法對電力運維服務(wù)項目材料包括維護范圍、維護內(nèi)容、維護要求等綜合分析項目之間相似性。余弦相似性算法[18]已經(jīng)廣泛應(yīng)用于文本相似度計算,如式(3)所示,通過計算兩個項目特征的向量余弦相似度,檢測項目文本重復(fù)度。

        (3)

        通過計算余弦相似度能夠快速查重,一方面檢測申報項目與歷史立項項目間的重復(fù)度,避免重復(fù)立項;另一方面檢測同時申報的項目間的重復(fù)度,避免重復(fù)申報,通過檢查高重復(fù)度項目為項目評審和管理人員提供輔助決策信息,節(jié)約了大量的人工比對和操作時間,進一步提高項目管理效率。

        3 系統(tǒng)實現(xiàn)與結(jié)果分析

        3.1 實驗設(shè)置

        軟硬件配置:本實驗采用的計算機系統(tǒng)為64位Windows 10系統(tǒng),處理器為Core-i7,內(nèi)存為16 GB,硬盤為128 GB的固態(tài)硬盤、2 TB機械硬盤。本文對文本進行一系列預(yù)處理工作,包括去掉申報材料中的相同內(nèi)容部分、無用部分,進行中文分詞。分詞工具采用的是NLPIR漢語分詞系統(tǒng),其主要功能包括中文分詞、詞性標(biāo)注等,該系統(tǒng)在中文分詞任務(wù)中有很好的表現(xiàn)。

        以該系統(tǒng)在某省電力運維服務(wù)計劃項目管理中的應(yīng)用為例,通過對2016年及以前的共1 600個歷史申報項目進行訓(xùn)練和測試,將其劃分為訓(xùn)練集為1 200個項目,測試集400個項目,然后對2016年—2018年新申報的350個運維服務(wù)申報項目進行文本分析。本實驗采用的評價指標(biāo)包括準(zhǔn)確率(Precision)、召回率(Recall)和F1值,計算分別如下:

        (3)

        (4)

        (5)

        式中:TP和FP分別表示為識別的正類總數(shù)和負(fù)類總數(shù);未識別的正類總數(shù)由FN表示。Precision為查準(zhǔn)率,表示檢索出來的條目有多少是正類的;Recall為召回率,表示正類中有多少被檢索出來;F1值作為反映模型好壞的評價指標(biāo),可以保證客觀公正。

        3.2 結(jié)果分析

        3.2.1分類結(jié)果

        為了測試本文采用的多分類器融合方法的效果,將本文方法與SVM、LG、CNN、文獻(xiàn)[19]方法的測試效果進行對比,一級分類結(jié)果如表1所示。

        表1 一級分類結(jié)果 %

        可以看出,本文采用的多分類器融合方法在一級分類中效果顯著,本文方法準(zhǔn)確率達(dá)到90%以上,相比其他傳統(tǒng)方法,準(zhǔn)確率提高了2.4~5.4個百分點,F(xiàn)1值提高了2.2~6.0個百分點。由此可見,本文方法相比其他傳統(tǒng)方法具有更好的分類效果。

        在幾種傳統(tǒng)的單一分類器的對比中,CNN方法由于具有自我學(xué)習(xí)能力,表現(xiàn)出較好的分類效果。而LG、SVM方法的特征是人為確定的,CNN方法相比于LG、SVM方法有較高的適應(yīng)性。另一方面,LG、SVM、CNN三種方法與本文方法相比的分類結(jié)果相差較大,主要原因是LG、SVM提取的特征較少,所以很容易受到噪聲影響,從而造成了分類結(jié)果較差,而CNN方法雖然可以自動從樣本中提取特征,但由于數(shù)據(jù)量較小,容易過擬合,從而分類效果降低。

        而文獻(xiàn)[19]方法盡管也采用了兩種分類器進行融合分類,然而其在一級分類中準(zhǔn)確率仍然無法達(dá)到90%及以上,本文結(jié)合三種分類器進行融合分類的方法,獲取更多文本特征滿足分類要求。

        二級分類結(jié)果如表2所示。SVM方法的準(zhǔn)確率最低,原因可能是數(shù)據(jù)量過多和樣本中有缺損數(shù)據(jù),導(dǎo)致SVM在二級分類中表現(xiàn)相對較差的原因還在于SVM分類器自身的泛化能力過于強大,無法區(qū)分出類間的不同。而且SVM方法效率較低,因為SVM無法直接給出多分類的最終結(jié)果,要通過多個SVM分類器才能給出最終結(jié)果,花費的訓(xùn)練時間和測試時間都有所上升。LG方法與SVM方法相比準(zhǔn)確率提高了1.8個百分點,F(xiàn)1值提高了2.0個百分點,但LG方法同樣無法直接給出最終結(jié)果,需要多個分類器才能給出多分類的最終結(jié)果。

        表2 二級分類結(jié)果 %

        CNN與SVM相比,其準(zhǔn)確率分別提高了2.3個百分點,召回率器高了4.3個百分點。CNN在二級分類中更能區(qū)分出類間的不同,因為CNN強大的擬合能力是其他方法不具備的。

        本文方法與CNN方法相比,在準(zhǔn)確率、召回率、F1值均方面分別提高了4.4、4.4和5.6個百分點。這是因為本文把自編碼網(wǎng)絡(luò)與CNN相結(jié)合,通過自編碼網(wǎng)絡(luò)能獲得原始數(shù)據(jù)的低維表示,從而達(dá)到在顯著降低文本特征維度的同時盡量保留原本輸入內(nèi)容的目的,提升了在二級分類中的分類效果。

        3.2.2相似度分析結(jié)果

        通過上述相似度計算,可得歷史已立項項目庫的文本重復(fù)度情況如表3所示。高度重復(fù)項目主要是項目申報者對已立項的項目做了簡單改動并重復(fù)申報,例如:電力維護服務(wù)項目中,有些項目盡管名稱不同,但維護內(nèi)容和維護范圍卻高度相同。盡管電力維護服務(wù)項目在服務(wù)內(nèi)容上存在一些重復(fù),然而為了杜絕項目申報只進行簡單修改就重復(fù)申報的情況,對高重復(fù)度項目仍有必要進行自動提醒。

        表3 歷史已立項項目庫的文本重復(fù)度情況表 %

        近三年未立項項目的文本最大重復(fù)度情況如表4所示,未立項項目的最大重復(fù)度遠(yuǎn)大于已經(jīng)立項項目的重復(fù)度。由此可見,對于通過項目重復(fù)度計算找出高重復(fù)度項目,為項目評審和管理提供重復(fù)度信息很有必要。

        表4 近三年未立項項目的文本最大重復(fù)度情況表 %

        3.3 系統(tǒng)界面

        基于文本挖掘的分類、相似度計算等技術(shù),本文開發(fā)了電力運維服務(wù)智能管理系統(tǒng),該系統(tǒng)實現(xiàn)了電力運維項目自動分類檢查、高文本重復(fù)度提示、格式規(guī)范檢查等功能,系統(tǒng)部分界面如圖5所示。

        (a) 項目提交界面

        4 結(jié) 語

        通過全面分析電力運維服務(wù)項目計劃管理現(xiàn)狀,和對現(xiàn)有問題剖析,結(jié)合目前工作實施中的痛點和難點,研發(fā)運維服務(wù)項目計劃管理系統(tǒng)。規(guī)范電力運維服務(wù)項目計劃,利用研發(fā)的管理系統(tǒng)實現(xiàn)項目申報智能提醒、項目填報智能提示,對項目管理各個環(huán)節(jié)的行為數(shù)據(jù)進行全過程、全流程、全留痕記錄,實現(xiàn)數(shù)據(jù)的實時分析、實時跟蹤、實時追溯,引入人工智能技術(shù),切實提升運維服務(wù)項目的水平、質(zhì)量、效率。目前該系統(tǒng)在重慶電力運維服務(wù)項目申報中得到了很好的運用,隨著該項目的進一步改進和完善,將在電力系統(tǒng)中得到更廣泛的應(yīng)用。

        猜你喜歡
        分類文本智能
        分類算一算
        在808DA上文本顯示的改善
        分類討論求坐標(biāo)
        智能前沿
        文苑(2018年23期)2018-12-14 01:06:06
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        智能前沿
        文苑(2018年19期)2018-11-09 01:30:14
        智能前沿
        文苑(2018年17期)2018-11-09 01:29:26
        智能前沿
        文苑(2018年21期)2018-11-09 01:22:32
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        亚洲va中文字幕无码一二三区| 免费无码黄动漫在线观看| 40岁大乳的熟妇在线观看| 欧美一片二片午夜福利在线快| 尤物蜜芽福利国产污在线观看 | 在线免费欧美| 日韩一区中文字幕在线| 日韩精品无码一区二区三区| 久久综合狠狠综合久久综合88| 亚洲中文字幕久久无码精品| 东方aⅴ免费观看久久av| 本道无码一区二区久久激情| 日韩精品久久伊人中文字幕| 国产精品国产三级国产aⅴ下载| 色综合av综合无码综合网站| 亚洲av区无码字幕中文色| 日韩人妻无码精品系列专区无遮| 四虎在线中文字幕一区| 久久99国产综合精品女同| 日产精品久久久一区二区| 亚洲人成人影院在线观看| 亚洲av激情久久精品人| 国产亚洲精品av一区| 久久96日本精品久久久| 69一区二三区好的精华| 欧美自拍丝袜亚洲| 粗一硬一长一进一爽一a视频| 青青青爽在线视频免费播放| 男女av一区二区三区| 蜜臀av无码人妻精品| 亚洲欧美日韩一区二区三区在线 | 色综合久久中文综合网亚洲| 日本做受高潮好舒服视频| 九九99久久精品午夜剧场免费| 国产成人亚洲系列毛片| 国产二级一片内射视频播放| 五月天久久国产你懂的| 国产自产在线视频一区| 亚洲精品一区久久久久一品av| 国产精品va在线播放我和闺蜜| 中文字幕亚洲区第一页|