謝志煒 馮鴻懷 許銳埼 李慧夫
摘 ?要:針對實際電力基建施工問題數(shù)據(jù)集龐大,導(dǎo)致運(yùn)監(jiān)管理難度較大的問題,本文提出一種基于樸素貝葉斯分類器的電力基建施工問題文本分類方法,實現(xiàn)對施工問題的自動分類工作。首先整理收集施工問題數(shù)據(jù)集,然后將施工問題短文本進(jìn)行中文分詞,構(gòu)建特征向量空間,最后采用樸素貝葉斯分類器對施工問題文本進(jìn)行分類,并通過實例分析證明了本文所用方法的有效性與優(yōu)越性。
關(guān)鍵詞:施工問題;中文分詞;樸素貝葉斯;文本分類
中圖分類號:TP391;O212.8 ? ? 文獻(xiàn)標(biāo)識碼:A 文章編號:2096-4706(2019)17-0017-03
Abstract:Aiming at the huge dataset of actual power infrastructure construction problems,it is difficult to manage the operation and supervision. This paper proposes a text classification method based on Naive Bayesian classifier for power infrastructure construction,which realizes the automatic classification of construction problems. Firstly,collect the construction problem data set,and then use the Chinese text segmentation of the short text of the construction problem to construct the feature vector space. Finally,the Naive Bayes classifier is used to classify the text of the construction problem. The validity and superiority of the method used in this paper are proved by an example analysis.
Keywords:construction problems;Chinese word segmentation;Naive Bayes;text classification
0 ?引 ?言
隨著經(jīng)濟(jì)的快速發(fā)展,現(xiàn)有的電力供應(yīng)能力無法滿足人們?nèi)找嬖鲩L的需求,每年供電部門都會開展大量電力基建工程以解決此問題[1]。但由于基建施工是動態(tài)的立體作業(yè)過程,人員的流動性、生產(chǎn)設(shè)施的臨時性、施工工藝的標(biāo)準(zhǔn)性、生產(chǎn)過程的規(guī)范性、作業(yè)環(huán)境的多變性,形成了人、機(jī)、料、法、環(huán)等多維度施工問題集,所存在的問題會對工程項目建設(shè)的效率、質(zhì)量以及水平造成一定的影響[2]。因此基建工程管理起著越來越關(guān)鍵的作用,也是電力建設(shè)事業(yè)必須注重的環(huán)節(jié)。
目前,基建項目管理主要手段為現(xiàn)場核查,核查后對施工現(xiàn)場狀況以及存在問題進(jìn)行記錄。由于基建項目基數(shù)大,運(yùn)監(jiān)部門在處理記錄施工問題的文檔時較為低效,需要對每條記錄進(jìn)行審閱,無法快速對現(xiàn)場狀況以及存在的問題進(jìn)行定性的分析。
國內(nèi)外有許多文本數(shù)據(jù)挖掘方法,它們也被應(yīng)用到了電力領(lǐng)域:文獻(xiàn)[3]初步探討了文本挖掘技術(shù)在電力行業(yè)的應(yīng)用,并講述了文本挖掘的概念、流程方法以及對客戶反饋信息進(jìn)行情感分析的應(yīng)用;文獻(xiàn)[4]針對電力客戶投訴文本展開數(shù)據(jù)挖掘研究,運(yùn)用自然語言處理技術(shù),通過構(gòu)建文本分類器模型,實現(xiàn)投訴熱點的自動分類,進(jìn)而實現(xiàn)差異化服務(wù);文獻(xiàn)[5]針對電網(wǎng)生產(chǎn)管理系統(tǒng)中存在大量設(shè)備缺陷文本的特點,構(gòu)建電力設(shè)備缺陷文本分類模型,減輕人工比對篩選的工作量。
現(xiàn)有文獻(xiàn)對施工問題的研究較少,故本文針對施工問題數(shù)據(jù)量龐大且缺乏相關(guān)處理技術(shù)使得監(jiān)控管理存在較大難度的問題,提出一種基于樸素貝葉斯分類器的電力基建施工問題文本分類方法。首先向相關(guān)部門收集并整理施工問題數(shù)據(jù)集,利用Python平臺中的工具包對各條施工問題短文本進(jìn)行中文分詞,進(jìn)而構(gòu)建特征向量空間。最后對樸素貝葉斯分類器進(jìn)行訓(xùn)練,進(jìn)而實現(xiàn)施工問題文本分類,有助于提高運(yùn)營監(jiān)控管理水平和工作效率。
1 ?貝葉斯理論
1.1 ?貝葉斯理論介紹
目前,貝葉斯理論作為一種開放式的決策性體系,已廣泛地應(yīng)用于國防軍事、資源評估、水利水電、風(fēng)險投資、金融保險等各個社會領(lǐng)域[6]。貝葉斯理論的思想如圖1所示。
盡管樸素貝葉斯分類器的條件獨(dú)立性假設(shè)在一定程度上限制了其范圍,但在實際應(yīng)用中發(fā)現(xiàn),即使在屬性顯著相關(guān)的情況下,樸素貝葉斯網(wǎng)絡(luò)也顯示了更好的準(zhǔn)確性和效率[9]。
2 ?施工問題文本分類步驟
施工問題文本分類是基于主流的文本挖掘技術(shù)開展的,所采取的挖掘步驟如圖3所示。
(1)數(shù)據(jù)預(yù)處理:在獲取文本數(shù)據(jù)后,要對數(shù)字字符和英文字符等對文本意義不大的內(nèi)容進(jìn)行刪除,同時將冗余、重復(fù)的樣本進(jìn)行識別和刪除,留下對分類更有價值的數(shù)據(jù)。
(2)中文分詞:中文文本與英文文本不同,沒有單詞與單詞之間的明顯間隔,所以在進(jìn)行中文文本挖掘時必定要進(jìn)行中文分詞。一般分詞具有基于字典的方法、基于注釋的方法、基于規(guī)則的方法和基于統(tǒng)計的方法[10]。在Python中常用Jieba分詞工具。分完詞后,還需要使用停用詞庫對一些介詞或常用詞進(jìn)行刪除。
(3)特征向量空間:分詞過后,文本被分解為一個個的特征詞。通過使用詞頻來度量每個特征詞,進(jìn)而將文本數(shù)據(jù)轉(zhuǎn)化為特征向量空間。
(4)模型搭建:搭建文本分類模型,本文采用樸素貝葉斯分類器。將預(yù)處理好的樣本進(jìn)行劃分,一部分作為訓(xùn)練集導(dǎo)入分類器進(jìn)行訓(xùn)練,剩余部分作為測試集(驗證集)對分類器的性能進(jìn)行檢測驗證。
(5)模型評估:本文采用AUC值對分類模型進(jìn)行性能評價。AUC值是ROC曲線下方所圍成的面積值。分類器的AUC值等價于將隨機(jī)選擇的正樣本排序在隨機(jī)選擇的負(fù)樣本之前的概率。AUC值越大,說明該分類器的效果越好。
3 ?實例分析
本文從某供電局基建部門收集了共1000條的施工問題集。通過數(shù)據(jù)預(yù)處理,除去冗余、重復(fù)等意義不大的文本數(shù)據(jù),取剩余800條文本作為實驗樣本。由于本文所采用的分類方法為有監(jiān)督學(xué)習(xí)機(jī)制,故已請專家為這800條施工問題提前進(jìn)行分類。為保證分類器能識別正常的狀態(tài),施工問題集中保留了正常類別。該施工問題集所涉及類別如表1所示。
對施工問題文本進(jìn)行中文分詞,采用Python中的Jieba分詞工具,隨機(jī)取10項進(jìn)行分詞后的展示,如圖4所示。
由圖4可見,各條施工問題文本已被分為多個詞語,在每條施工問題后面還帶有其類別屬性。分詞后,采用sklearn工具包中的CountVectorizer將文本轉(zhuǎn)化為特征向量空間,利用詞頻對施工文本數(shù)據(jù)進(jìn)行量化處理;最后,采用sklearn工具包中的MultinomialNB搭建分類預(yù)測模型:隨機(jī)取90%的樣本作為樸素貝葉斯分類器模型的訓(xùn)練樣本,對分類器模型進(jìn)行訓(xùn)練。剩余10%作為測試樣本對訓(xùn)練好的模型進(jìn)行性能驗證。
為了證明本文所設(shè)計的模型具有更好的性能,還分別建立了常用的SVM分類模型以及KNN分類模型進(jìn)行比較,所得這三種分類器的性能對比如表2所示。
由表2可得,本文所提樸素貝葉斯分類器的AUC值為0.88,比KNN(0.76)、SVM(0.80)分類器的分類效果更佳。
4 ?結(jié) ?論
本文針對施工問題數(shù)據(jù)量龐大,導(dǎo)致監(jiān)控管理存在難度較大、效率低下等問題,提出一種基于樸素貝葉斯分類器的電力基建施工問題文本分類方法。通過實例證明了本文所提模型具有有效性,且分類效果優(yōu)于其他分類模型。本文研究有利于提高運(yùn)營監(jiān)控管理水平,提高工作效率,為電網(wǎng)精細(xì)化管理提供技術(shù)支持。
參考文獻(xiàn):
[1] 韋錫芝.電力基建工程管理中常見問題及改進(jìn)措施 [J].技術(shù)與市場,2016,23(2):98+100.
[2] 曹武明.當(dāng)前電力建設(shè)工程施工安全管理問題分析與應(yīng)對措施 [J].時代經(jīng)貿(mào),2009(11):101.
[3] 施萱軒,姜紅紅,梁浩,等.文本挖掘技術(shù)研究及其在電力行業(yè)的應(yīng)用 [J].機(jī)電信息,2017(30):42-45+47.
[4] 吳剛勇,張千斌,吳恒超,等.基于自然語言處理技術(shù)的電力客戶投訴工單文本挖掘分析 [J].電力大數(shù)據(jù),2018,21(10):68-73.
[5] 劉梓權(quán),王慧芳,曹靖,等.基于卷積神經(jīng)網(wǎng)絡(luò)的電力設(shè)備缺陷文本分類模型研究 [J].電網(wǎng)技術(shù),2018,42(2):644-651.
[6] 莊晟.基于樸素貝葉斯的電力變壓器故障診斷 [D].上海:上海交通大學(xué),2015.
[7] 岳全中,朱永利.基于樸素貝葉斯分類器的電流互感器狀態(tài)評估 [C]//中國高等學(xué)校電力系統(tǒng)及其自動化專業(yè)第二十四屆學(xué)術(shù)年會論文集.北京:中國農(nóng)業(yè)大學(xué),2008:208-211.
[8] 雍明超,呂俠,周鐘,等.基于樸素貝葉斯算法的電力變壓器故障診斷方法研究 [J].電氣應(yīng)用,2017,36(14):32-35.
[9] 田炳偉,高釧.基于貝葉斯分類器的電力變壓器設(shè)備故障診斷研究 [J].電子設(shè)計工程,2017,25(15):54-57+61.
[10] 梁浩波.基于文本挖掘的用電客戶訴求智能聚類研究 [J].廣東電力,2016,29(8):45-50+66.
作者簡介:謝志煒(1984-),男,漢族,廣東廣州人,工程
師,碩士,研究方向:配電網(wǎng)工程管理、配電網(wǎng)工程造價管理、配電網(wǎng)規(guī)劃;馮鴻懷(1981-),男,漢族,廣東恩平人,信息系統(tǒng)項目管理師,研究方向:電力行業(yè)信息化、大數(shù)據(jù)分析;通訊作者:許銳埼(1995-),男,漢族,廣東潮陽人,碩士研究生,研究方向:電力數(shù)據(jù)挖掘分析;李慧夫(1994-),男,漢族,湖北咸寧人,碩士研究生,研究方向:電力數(shù)據(jù)挖掘分析。