周欣
摘要:隨著很多高新技術的進步與發(fā)展,比如說大數(shù)據(jù)、云計算、社交網(wǎng)絡、移動通信以及大數(shù)據(jù)等新興的信息化技術正在逐漸滲透到各行各業(yè)中。其中電力企業(yè)作為我國技術密集型與資產密集型的典型行業(yè)代表,數(shù)據(jù)量正在迅猛增長。信息技術已經在生產、基建、辦公、經營、管理等多個領域全方位覆蓋。
關鍵詞:電力信息化;電力招標采購;大數(shù)據(jù);數(shù)據(jù)分析
1 大數(shù)據(jù)分析基本方法
1.1 數(shù)據(jù)統(tǒng)計 / 分析
通過統(tǒng)計與分析實現(xiàn)滿足大多數(shù)的用戶需求,其中一些實時性要求較高的需求經常采用 Oracle Exadata、EMC GreenPlum、以及基于 MySQL 的列式存儲Infobright 等工具方法。一些批處理操作或者基于半結構化數(shù)據(jù)的需求則可以使用 Hadoop 工具進行統(tǒng)計與分析,大數(shù)據(jù)的統(tǒng)計和分析的主要特點和挑戰(zhàn)在于涉及的數(shù)據(jù)量大,進行計算分析時其對系統(tǒng)資源,尤其是 I/O 的并發(fā)要求非常高。本文使用的主要統(tǒng)計和分析地方法如下:(1)數(shù)據(jù) ETL:收集來自信息系統(tǒng)的歷史和實時數(shù)據(jù),轉為特定格式后導入分析平臺的存儲模塊。(2)分類統(tǒng)計:用簡單的歸納和數(shù)學統(tǒng)計的方法整理歷史上的既有數(shù)據(jù)生成報表等內容。(3)多維分析:維即分類統(tǒng)計的基本元素,一般為一條記錄中的一個字段,多維分析是指組合多個維,并對他們進行分析操作,如縮放單位尺度,選取特定范圍等。
1.2 數(shù)據(jù)挖掘
與統(tǒng)計和分析最大的不同在于數(shù)據(jù)挖掘往往沒有預先設定好的內容范圍,其主要突出現(xiàn)在數(shù)據(jù)層面上進行的基于各種算法的計算和分析,從而實現(xiàn)預測的效果,并作為一些高級別數(shù)據(jù)分析的憑證和基礎。數(shù)據(jù)挖掘的典型算法:用于聚類的K-Means、用于統(tǒng)計學習的 SVM 和用于分類的 Naive Bayes 等。數(shù)據(jù)挖掘的主要分析工具 :spark、Hadoop Mahout 等。數(shù)據(jù)挖掘過程的主要特點和挑戰(zhàn)在于挖掘的算法非常的復雜,且計算涉及的數(shù)據(jù)量以及計算總量都非常多且復雜。數(shù)據(jù)挖掘目的在于:通過數(shù)據(jù)利用算法找出潛在的關聯(lián)性,預測一些將來的發(fā)展趨勢。
2 招標采購數(shù)據(jù)分析用例
2.1 數(shù)據(jù)清洗和分類統(tǒng)計
分類統(tǒng)計旨在解決招標采購數(shù)據(jù)的雜亂性,需要將其進行清洗,清洗的主要工作在于字段格式和字段選項的統(tǒng)一,如將 10kv 電纜歸納為電力電纜,否則填報人員的不同用詞將會導致統(tǒng)計困難。對于使用自然語言描述的招標內容則需進行分詞后提取有用的信息再進行分類。分類統(tǒng)計需要建立多個維度綜合統(tǒng)計,包括時間、物資類別、委托單位、中標單位、金額等,作為報表數(shù)據(jù)的來源和后續(xù)分析的基礎,整理后的維度越多,數(shù)據(jù)質量越高,則分析結果越為準確。如按年度分析各單位的委托金額,同時可以看到各年度的總金額如下:
如將時間維度縮放到月,可以看到更細顆粒度的信息。
2.2 關聯(lián)分析
關聯(lián)分析旨在找到兩個或多個統(tǒng)計項之間的聯(lián)系,通常以關聯(lián)度表示,正值表示兩者相關性更高,負值則反之,數(shù)值越大關聯(lián)性越強。經過此類分析,我們能找到原本在業(yè)務上就有關聯(lián)的物資,如采購電纜的同時往往需要一些周邊產品。還有一些關聯(lián)物資并不存在實際工作上的相關性,造成他們具有相關性的可能性是季節(jié),地域等其他方面的原因。委托公司可根據(jù)此項分析結果,在發(fā)布一類物資的招標信息時,可以同時考慮另一種相關性強的物資的采購,哪怕他們并不是真正有關,從而可以提高工作效率。
2.3 流程分析
流程分析可以找到各招標類別在各環(huán)節(jié)上的耗時,如統(tǒng)計申報,立項,發(fā)標,開標,中標,結項等環(huán)節(jié)在物資框架,專項,超市化等招標類型下的耗時。最后的結果存在較大的差異性,因此必須與實際工作結合分析,有可能能找到可以優(yōu)化的工作流程。
2.4 項目優(yōu)化
此分析需要與招標采購信息系統(tǒng)實時合作,旨在找到可以合并的招標項目,由于電力系統(tǒng)物資的特殊性,不可能有大范圍的廠家進行生產投標,也不可能有大范圍的委托單位,往往同類物資的委托方,廠家也都相同 ,通過解讀分析數(shù)據(jù),可以避免重復發(fā)布,提高工作效率。合并的方法是設計一套合并權重,針對不同的合并目標設置不同的數(shù)值,最后得出一個數(shù)值化的合并推薦度。項目合并有兩個主要方向,一個是合并委托方的招標信息,此類合并的關鍵權重值有:委托方,物資類別,招標時間。委托方得知自己發(fā)布了相近的委托后,可以根據(jù)實際情況決定是否可以將其合并為同一份委托。另一個是合并廠家的投標信息,此類合并的關鍵權重值有:物資類別,招標時間。廠家設置好自己的情況后,即可合并投遞類似的委托。這些推薦信息有可能可以幫助雙方更快更好地進行合作。
2.5 項目預測
此分析針對特定物資進行分析,繪制時間 - 金額的招投標信息散點圖,隨后對此數(shù)據(jù)做線性回歸擬合,便可以預測下一個時間段可能的采購數(shù)量,此類預測對數(shù)據(jù)量有一定的要求,建議針對電纜等長時間采購的常規(guī)物資進行分析。
3 應用實效
基于上述分析方法,電力招標采購信息分析系統(tǒng)可以讓用戶選擇所需的分析維度和分析層次,實時生成報告圖表,并提供小段文字解讀,供用戶參考使用。還提供了年度和月度報告。數(shù)據(jù)分析可以提高現(xiàn)有信息管理工作的專業(yè)化,精細化水平。
基于大數(shù)據(jù)分析使我們能更好地管理電力招標采購中的各類信息,并且經過一定的分析提煉出它的隱藏價值,本文較粗淺地給出了一些應用實例,希望可以借以提高日常工作的效率。
參考文獻:
[1]P Harrington.“Machine learning in action”[M].Greenwich:Manning Publications,2012.
[2]王瑞雷,欒靜,潘曉花 , 盧修配 . 一種改進的中文分詞正向最大匹配算法[J].計算機應用與軟件 ,2011(03).
(作者單位:江蘇省設備成套有限公司)