孫 衛(wèi),蔡金華,王 珩,鐘 智,張會(huì)軍,高 元
(1.華能瀾滄江水電股份有限公司,云南 昆明 650214;2.南京南瑞繼保工程技術(shù)有限公司,江蘇 南京 211002;3.西安熱工研究院有限公司,陜西 西安 710054)
數(shù)據(jù)中心的客戶越來(lái)越多,所涉及的過(guò)程也越來(lái)越多,范圍也越來(lái)越廣,報(bào)表數(shù)據(jù)具有廣泛的、分散的、利用率低的特點(diǎn),容易造成數(shù)據(jù)浪費(fèi)。這樣的環(huán)境下,每天報(bào)表的工作就變得耗時(shí)又費(fèi)力。隨著客戶規(guī)模不斷擴(kuò)大,報(bào)表數(shù)據(jù)上報(bào)也因?yàn)闄C(jī)構(gòu)層級(jí)變多而出現(xiàn)嚴(yán)重的報(bào)表延遲現(xiàn)象,與此同時(shí),針對(duì)上一級(jí)決策部門(mén)的管理,受到復(fù)雜報(bào)表信息影響,無(wú)法為企業(yè)提供詳細(xì)依據(jù)。而且,受到不同部門(mén)報(bào)表不一致工作統(tǒng)計(jì)口徑影響,針對(duì)相同部分的報(bào)表填寫(xiě)工作,會(huì)出現(xiàn)填報(bào)信息重復(fù)輸入的問(wèn)題[1]。因此,設(shè)計(jì)一個(gè)分析系統(tǒng)來(lái)分析報(bào)表是非常必要的。楊志等[2]提出的電力數(shù)據(jù)報(bào)表模型,通過(guò)使用智能化生成技術(shù),可將報(bào)表分為數(shù)據(jù)報(bào)表和屬性報(bào)表兩種形式,基于此,構(gòu)造智能報(bào)表分析模型,并從報(bào)表動(dòng)態(tài)分析角度分析模型可塑性,實(shí)現(xiàn)報(bào)表數(shù)據(jù)的交互共享;肖美玲[3]提出的基于納稅評(píng)估視角的財(cái)務(wù)報(bào)表分析方法,從稅收評(píng)價(jià)的角度出發(fā),構(gòu)建一種基于稅收理論的財(cái)務(wù)報(bào)表案例分析模型,并將其引入到財(cái)務(wù)報(bào)表分析系統(tǒng)中,確定了企業(yè)風(fēng)險(xiǎn)管理分析指標(biāo)。然而,上述這兩種方法很難實(shí)現(xiàn)信息的共享、相互集成和互操作,造成報(bào)表分析的效率低下。為此,本文提出了基于智能信息流的智能報(bào)表分析系統(tǒng)研究。
基于智能信息流的智能報(bào)表分析系統(tǒng),基本框架結(jié)構(gòu)如圖1 所示。由圖1 可知,體系結(jié)構(gòu)主要分為三大部分,第一部分是接口的設(shè)計(jì)。用戶通過(guò)接口界面,可以實(shí)現(xiàn)登錄、管理用戶日志、用戶權(quán)限、連接數(shù)據(jù)庫(kù)等操作;第二部分是報(bào)表展現(xiàn)。其主要包括操作日志的控制、用戶所需數(shù)據(jù)源的獲取、數(shù)據(jù)權(quán)限的控制,報(bào)表展現(xiàn)還具有行列變換、自動(dòng)列擴(kuò)展、報(bào)表鉆取等功能;第三部分是報(bào)表的配置,該部分是決定報(bào)表質(zhì)量高低的關(guān)鍵部分。其中包含報(bào)表?xiàng)l件、輔助功能、頁(yè)面布局等信息,報(bào)表的實(shí)現(xiàn)界面部分與外部權(quán)限系統(tǒng)形成了完整的信息集成界面。報(bào)表配置特性是基礎(chǔ)配置信息,使用統(tǒng)一的API,方便管理。
圖1 基于智能信息流的智能報(bào)表分析系統(tǒng)基本框架結(jié)構(gòu)Fig.1 Basic framework of intelligent report analysis system based on intelligent information flow
以BI 為基礎(chǔ)的報(bào)表工具將商業(yè)智能系統(tǒng)和報(bào)表系統(tǒng)完美地結(jié)合起來(lái),提高了處理大量信息的工作效率。圖2 中顯示了基于 BI商業(yè)智能信息流的報(bào)表分析工具結(jié)構(gòu)。
由圖2 可知,商業(yè)智能平臺(tái)的監(jiān)控模塊實(shí)時(shí)監(jiān)控用戶的請(qǐng)求,當(dāng)監(jiān)控到請(qǐng)求時(shí),查看請(qǐng)求的具體內(nèi)容,該內(nèi)容通常包含需求和數(shù)據(jù),然后將請(qǐng)求內(nèi)容提交給數(shù)據(jù)處理模塊,再由數(shù)據(jù)處理模塊對(duì)請(qǐng)求數(shù)據(jù)進(jìn)行分析與處理。將處理結(jié)果傳遞給備份模塊,在備份的同時(shí)對(duì)請(qǐng)求的數(shù)據(jù)進(jìn)行分析,并傳送到報(bào)表顯示部分,為用戶提供所需的數(shù)據(jù)。該工具主要負(fù)責(zé)完成對(duì)報(bào)表的需求分析,并將分析結(jié)果傳遞到數(shù)據(jù)需求部分,該部分使用商業(yè)智能統(tǒng)計(jì)模塊,統(tǒng)計(jì)后將結(jié)果返回報(bào)告系統(tǒng)予以顯示。
圖2 基于BI商業(yè)智能信息流的報(bào)表分析工具結(jié)構(gòu)Fig.2 Report analysis tool structure based on BI business intelligence information flow
決策子系統(tǒng)采用基于數(shù)理統(tǒng)計(jì)的數(shù)學(xué)方法對(duì)運(yùn)維工單的處理進(jìn)行分析,并由此確定某一道工序工單處理效率以及詳細(xì)步驟。運(yùn)用BI技術(shù),對(duì)運(yùn)維管理過(guò)程的時(shí)效性行為進(jìn)行了深入分析,以幫助決策者根據(jù)市場(chǎng)信息制定業(yè)務(wù)策略。根據(jù)特定的操作和人員情況,協(xié)助數(shù)據(jù)中心做出適當(dāng)?shù)臎Q策,以提高運(yùn)營(yíng)管理效率。
數(shù)據(jù)庫(kù)設(shè)計(jì)包括實(shí)體設(shè)計(jì)、關(guān)系設(shè)計(jì)和標(biāo)準(zhǔn)化設(shè)計(jì),數(shù)據(jù)結(jié)構(gòu)根據(jù)每個(gè)實(shí)體的具體情況,對(duì)各實(shí)體描述的不同字段進(jìn)行識(shí)別和定義。通過(guò)對(duì)系統(tǒng)功能和未來(lái)使用情況的分析,確定各個(gè)實(shí)體的類(lèi)型、長(zhǎng)度等字段信息。在設(shè)計(jì)每個(gè)庫(kù)表時(shí),需要考慮需求中無(wú)法識(shí)別和定義的字段,例如記錄ID 號(hào)、創(chuàng)建時(shí)間和最近的更新時(shí)間。每個(gè)實(shí)體并不是獨(dú)立存在的,必須或多或少地與其他實(shí)體相關(guān)。對(duì)應(yīng)用系統(tǒng)中大量的數(shù)據(jù)處理,通過(guò)編寫(xiě)大量的存儲(chǔ)過(guò)程來(lái)實(shí)現(xiàn)數(shù)據(jù)的采集和操作,可以很好地改善數(shù)據(jù)庫(kù)的性能,從而提高應(yīng)用系統(tǒng)的整體性能。
針對(duì)報(bào)表數(shù)據(jù)處理過(guò)程中出現(xiàn)的復(fù)雜問(wèn)題,采用 BI技術(shù)作為處理工具,能夠?qū)?shù)據(jù)庫(kù)進(jìn)行聯(lián)機(jī)分析、數(shù)據(jù)挖掘、數(shù)據(jù)處理等步驟,并從不同的數(shù)據(jù)源中提取數(shù)據(jù),對(duì)這些數(shù)據(jù)進(jìn)行抽取、清洗、整理、歸集,以保證數(shù)據(jù)的有效性[4]。數(shù)據(jù)轉(zhuǎn)換和重構(gòu)操作后,在數(shù)據(jù)庫(kù)中存儲(chǔ)數(shù)據(jù),同時(shí)利用管理分析工具及時(shí)處理數(shù)據(jù),將系統(tǒng)中已有的數(shù)據(jù)轉(zhuǎn)化成決策信息,為企業(yè)決策提供智能決策工具。
以商業(yè)系統(tǒng)統(tǒng)計(jì)為基礎(chǔ),通過(guò)對(duì)“數(shù)據(jù)、信息、知識(shí)、行為、利益”的處理過(guò)程,將 BI 商業(yè)智能處理技術(shù)的信息整合為有序的信息。圖3 顯示了基于BI 商業(yè)智能信息流的報(bào)表數(shù)據(jù)整合過(guò)程。
由圖3 可知,將商業(yè)智能系統(tǒng)的工作流程進(jìn)行技術(shù)抽象處理,實(shí)現(xiàn)了智能化信息流報(bào)表數(shù)據(jù)的整合。整合過(guò)程是對(duì)不同來(lái)源數(shù)據(jù)進(jìn)行統(tǒng)一采集、整理、清洗和轉(zhuǎn)換的,能夠?yàn)橛脩籼峁┙y(tǒng)一視覺(jué)界面。在對(duì)數(shù)據(jù)進(jìn)行整合之后,通過(guò)數(shù)據(jù)集成與共享,將一個(gè)數(shù)據(jù)源和另一個(gè)源的數(shù)據(jù)匹配起來(lái),并直接寫(xiě)到數(shù)據(jù)庫(kù)中。
圖3 基于BI商業(yè)智能信息流的報(bào)表數(shù)據(jù)整合過(guò)程Fig.3 Report data integration process based on BI business intelligence information flow
整合數(shù)據(jù)后進(jìn)行數(shù)據(jù)導(dǎo)入,通過(guò)數(shù)據(jù)網(wǎng)格平臺(tái)在導(dǎo)入模塊導(dǎo)入數(shù)據(jù)時(shí),需要進(jìn)行數(shù)據(jù)導(dǎo)入控制。由于每個(gè)網(wǎng)格平臺(tái)導(dǎo)入的數(shù)據(jù)可能有所不同,所以需要一些基本的導(dǎo)入數(shù)據(jù)作為引流,及時(shí)剔除不需要導(dǎo)入的數(shù)據(jù),避免出現(xiàn)數(shù)據(jù)重復(fù)導(dǎo)入現(xiàn)象出現(xiàn)[5]。
通過(guò)使用 XML 技術(shù),網(wǎng)格平臺(tái)很容易地控制這些信息,為了控制導(dǎo)入的網(wǎng)格節(jié)點(diǎn)數(shù)據(jù),系統(tǒng)管理員可以方便地編輯 XML文件來(lái)控制信息元數(shù)據(jù)。網(wǎng)格數(shù)據(jù)導(dǎo)入時(shí)序,如圖4所示。
圖4 數(shù)據(jù)導(dǎo)入時(shí)序Fig.4 Data import timing
從圖4 中可以看出,數(shù)據(jù)導(dǎo)入時(shí)序包括用戶、網(wǎng)格數(shù)據(jù)導(dǎo)入、網(wǎng)格資源創(chuàng)建和用戶方位控制四個(gè)部分,對(duì)這四個(gè)部分的網(wǎng)格平臺(tái)導(dǎo)入數(shù)據(jù)詳細(xì)過(guò)程為:
步驟一:用戶首先選擇導(dǎo)入數(shù)據(jù),然后再進(jìn)行數(shù)據(jù)導(dǎo)入;
步驟二:將用戶請(qǐng)求發(fā)送到導(dǎo)入模塊后,向網(wǎng)格資源創(chuàng)建模塊發(fā)送訪問(wèn)請(qǐng)求;
步驟三:通過(guò)用戶訪問(wèn)控制模塊獲得輸入數(shù)據(jù)的權(quán)限,通過(guò)訪問(wèn)網(wǎng)格資源列表得到需要導(dǎo)入網(wǎng)格平臺(tái)的節(jié)點(diǎn)信息元數(shù)據(jù);
步驟四:在收到網(wǎng)格平臺(tái)節(jié)點(diǎn)資源信息后,訪問(wèn)網(wǎng)格數(shù)據(jù)請(qǐng)求模塊,獲取網(wǎng)格節(jié)點(diǎn)信息;
步驟五:收到數(shù)據(jù)導(dǎo)入請(qǐng)求后,網(wǎng)格資源創(chuàng)建模塊為用戶創(chuàng)建一個(gè)多線程更新數(shù)據(jù)庫(kù)實(shí)例,然后為每個(gè)網(wǎng)格節(jié)點(diǎn)創(chuàng)建數(shù)據(jù)請(qǐng)求實(shí)例,通過(guò)調(diào)用數(shù)據(jù)請(qǐng)求實(shí)例,將各個(gè)網(wǎng)格節(jié)點(diǎn)的必要信息導(dǎo)入到中心備份服務(wù)器;
步驟六:所有導(dǎo)入中心備份服務(wù)器的信息,都需通過(guò)網(wǎng)格數(shù)據(jù)格式轉(zhuǎn)換模塊轉(zhuǎn)換為統(tǒng)一格式;
步驟七:數(shù)據(jù)導(dǎo)入過(guò)程中,網(wǎng)格數(shù)據(jù)導(dǎo)入模塊利用數(shù)據(jù)導(dǎo)入監(jiān)控技術(shù)對(duì)各個(gè)網(wǎng)格節(jié)點(diǎn)的數(shù)據(jù)導(dǎo)入過(guò)程進(jìn)行監(jiān)控,讓用戶了解數(shù)據(jù)導(dǎo)入的詳細(xì)過(guò)程,用戶還可以在導(dǎo)入數(shù)據(jù)時(shí)臨時(shí)添加新的網(wǎng)格節(jié)點(diǎn)來(lái)導(dǎo)入新的數(shù)據(jù)。
應(yīng)用 BI在線分析處理技術(shù)是一種支持復(fù)雜決策、信息管理決策的分析技術(shù),具有多維數(shù)據(jù)結(jié)構(gòu)屬性,是事實(shí)數(shù)據(jù)表用于描述數(shù)據(jù)分類(lèi)的有效依據(jù)。
2.2.1 報(bào)表格式遷移
對(duì)于報(bào)表信息的處理,部分?jǐn)?shù)據(jù)庫(kù)相對(duì)簡(jiǎn)單,不提供自定義功能,不容易更改報(bào)表的內(nèi)容,也不會(huì)對(duì)報(bào)表進(jìn)行簡(jiǎn)單的提取。為了解決這些問(wèn)題,使用區(qū)域全面地遷移報(bào)告格式的模式,就沒(méi)有必要添加更多的復(fù)雜步驟[6]。因此,設(shè)計(jì)了以下遷移途徑:分析原有報(bào)表結(jié)構(gòu),獲取詳細(xì)報(bào)表查詢SQL 語(yǔ)句,將所需的數(shù)據(jù)提取到報(bào)表上后,重新創(chuàng)建報(bào)表,并使所有數(shù)據(jù)整合到一個(gè)報(bào)表中。
基于已有系統(tǒng)的實(shí)際情況,生成了報(bào)告遷移的總體模型圖,見(jiàn)圖5。由圖5 可知,構(gòu)造報(bào)告遷移模板,在該模板中預(yù)先定義關(guān)鍵元素,依據(jù)該元素生成新的報(bào)表后,通過(guò)如下步驟實(shí)現(xiàn)報(bào)表格式遷移:載入XML 文件格式的RDL 模板文件;更新以報(bào)表形式存在的各種XML文件,在該文件中填入行或列的報(bào)告字段,并將其他相關(guān)報(bào)告存儲(chǔ)在XML文件中。重新命名文件已經(jīng)更新或修改的XML 文件,將RDL 作為主要節(jié)點(diǎn)(參數(shù))的XML路徑,由此遷移的報(bào)表合理性較強(qiáng)。
圖5 報(bào)表遷移總體模型圖Fig.5 Report migration overall model diagram
2.2.2 統(tǒng)計(jì)決策模式識(shí)別
從單元格中選取多維數(shù)據(jù)集,使與數(shù)據(jù)集相關(guān)聯(lián)的每個(gè)維度信息都具有唯一的邏輯交集。對(duì)于遷移后的報(bào)表格式,需進(jìn)行模式識(shí)別?;贐I 商業(yè)智能信息流的多維數(shù)據(jù)集統(tǒng)計(jì)決策度量值,指的是多維數(shù)據(jù)集中一列或多列數(shù)值。統(tǒng)計(jì)決策模式識(shí)別是智能報(bào)表決策分析的關(guān)鍵環(huán)節(jié),能夠?yàn)橛脩糁苯訌臄?shù)據(jù)庫(kù)中挑選所需的數(shù)據(jù)。
統(tǒng)計(jì)決策模式識(shí)別的步驟如下所示:
步驟一:通過(guò)度量距離定義相似度;
步驟二:相似度指的是在同一閾值下,使統(tǒng)計(jì)決策模式具有一定相似性;
步驟三:將多種訓(xùn)練樣本點(diǎn)組成相似區(qū)域,并由此確定各個(gè)決策子區(qū)域;
步驟四:用點(diǎn)距離作為樣本相似度的依據(jù),該值越小,說(shuō)明兩個(gè)樣本越相似。相似度的度量不僅局限于距離函數(shù),如果報(bào)表是扇形圖案類(lèi),則可以將兩個(gè)夾角的余弦定義為相似函數(shù)。
兩矢量夾角之間余弦可表示為:
式中:a、c表示模式空間點(diǎn);T表示統(tǒng)計(jì)決策周期。
使模式空間的3 個(gè)點(diǎn)作為度量樣本,并對(duì)各維度進(jìn)行歸一化處理后,將如下距離函數(shù)作為判斷條件:
結(jié)合式(2)可知,基于BI 商業(yè)智能信息流的多維數(shù)據(jù)集是由度量值、級(jí)別和組織單元組成,并不是每個(gè)單元的數(shù)據(jù)集都只包含一個(gè)數(shù)據(jù)值,沒(méi)有數(shù)據(jù)值的數(shù)據(jù)集也可以有交集,即為空集??占步?jīng)常出現(xiàn)在多維數(shù)據(jù)集中,對(duì)于每個(gè)交集,并非在都記錄在數(shù)據(jù)庫(kù)中?;诖?,統(tǒng)計(jì)決策模式的精準(zhǔn)識(shí)別能夠智能化的分析報(bào)表。
對(duì)于基于智能信息流的智能報(bào)表分析系統(tǒng)研究,采用Java語(yǔ)言,后臺(tái)使用代碼語(yǔ)言、Eclipse 作為開(kāi)發(fā)工具。通過(guò)使用工具系統(tǒng)自動(dòng)生成的報(bào)表,具有多種不同的報(bào)表格式。實(shí)驗(yàn)平臺(tái)的實(shí)現(xiàn)要求頁(yè)面的改變不會(huì)影響表示層邏輯的開(kāi)發(fā),并盡可能減少嵌入頁(yè)面程序的Java 代碼,這樣,應(yīng)用程序表示層的開(kāi)發(fā)、更新和維護(hù)就可以快速實(shí)現(xiàn)。將Servlet 和JSP 技術(shù)結(jié)合在一起,使用JSP顯示內(nèi)容,用Servlet處理數(shù)據(jù)來(lái)產(chǎn)生動(dòng)態(tài)內(nèi)容。
圖6顯示了實(shí)驗(yàn)平臺(tái)示意圖。通過(guò)圖6可以看出,向Servlet控制器發(fā)送數(shù)據(jù)請(qǐng)求。通過(guò)Servlet 創(chuàng)建JSP 邏輯,該邏輯僅進(jìn)行簡(jiǎn)單檢索,將由Servlet 創(chuàng)建的構(gòu)造注入預(yù)定義模板,并最終返回給用戶。
圖6 實(shí)驗(yàn)平臺(tái)示意圖Fig.6 Schematic diagram of experimental platform
以水電廠為例,搭建了融合各類(lèi)傳感器采集數(shù)據(jù)、系統(tǒng)日志、監(jiān)控告警等多源數(shù)據(jù)的整合分析展示,如圖7所示。其中:
圖7 水電廠智能報(bào)表數(shù)據(jù)模型Fig.7 Intelligent report data model of hydropower plant
(1)基礎(chǔ)級(jí)數(shù)據(jù)通過(guò)時(shí)間維度上的匯總和統(tǒng)計(jì)分析,輸出常量概覽數(shù)據(jù)、運(yùn)行日狀態(tài)數(shù)據(jù)、小時(shí)狀態(tài)數(shù)據(jù)、實(shí)時(shí)狀態(tài)數(shù)據(jù)、原始數(shù)據(jù)等,為智能水電廠提供基于基礎(chǔ)數(shù)據(jù)的日常運(yùn)維管理支撐[7,8]。
(2)特征級(jí)數(shù)據(jù)是分析系統(tǒng),對(duì)基礎(chǔ)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,提取出有規(guī)律性、時(shí)效性、和價(jià)值性的結(jié)論數(shù)據(jù),可以反映出水電廠設(shè)備運(yùn)行健康狀況等。
(3)決策級(jí)數(shù)據(jù)是在基礎(chǔ)級(jí)和特征級(jí)數(shù)據(jù)的基礎(chǔ)上,通過(guò)故障診斷、特性辨識(shí)、設(shè)備評(píng)價(jià)、數(shù)據(jù)挖掘等方法,提取出支撐水電廠運(yùn)行管理人員日常決策的關(guān)鍵數(shù)據(jù)。
設(shè)計(jì)的基于智能信息流的智能報(bào)表分析系統(tǒng),能夠提供統(tǒng)一的統(tǒng)計(jì)口徑和指標(biāo)解釋?zhuān)谷緮?shù)據(jù)統(tǒng)一,給分析人員一種啟發(fā)式多維分析方法,讓分析人員可以將數(shù)據(jù)進(jìn)行任意組合。使用該系統(tǒng)打破了以往分析方法只能依靠固定報(bào)告分析的固定模式,使分析結(jié)果更容易地通過(guò)數(shù)據(jù)分析來(lái)發(fā)現(xiàn)數(shù)據(jù)中心運(yùn)作中的問(wèn)題,并使分析人員的工作更具有創(chuàng)造性。