陳 駿,劉 敏,陳珊珊,王?飛
(江蘇蘇星資產(chǎn)管理有限公司,江蘇 南京 210000)
電網(wǎng)業(yè)務(wù)數(shù)據(jù)規(guī)模的不斷擴(kuò)大,對(duì)數(shù)據(jù)池整體性能提出了更高要求[1]。目前學(xué)術(shù)界的相關(guān)研究已經(jīng)積累了一定的研究成果,文獻(xiàn)[2]利用三維可視化技術(shù)方法構(gòu)建了數(shù)據(jù)分析模型,提供了較好的分析性能,但是其模型中的數(shù)據(jù)池儲(chǔ)存容量較小,導(dǎo)致響應(yīng)速度較慢。文獻(xiàn)[3]根據(jù)區(qū)塊連接技術(shù)進(jìn)行智能電網(wǎng)數(shù)據(jù)管理,內(nèi)容中設(shè)計(jì)出了較為完善的數(shù)據(jù)池管理模式,但是由于自然語言處理不到位,所以響應(yīng)速度慢的問題沒有得到有效改善。將基于可視化技術(shù)的數(shù)據(jù)構(gòu)建模型和基于區(qū)塊連接技術(shù)的數(shù)據(jù)管理模型融入電網(wǎng)數(shù)據(jù)池構(gòu)建,致力于改善電網(wǎng)數(shù)據(jù)池響應(yīng)速度較慢的問題,對(duì)此展開討論。
自然語言處理技術(shù)是一門融語言學(xué)、計(jì)算機(jī)科學(xué)和數(shù)學(xué)為一體的科學(xué),將自然語言處理技術(shù)應(yīng)用于電網(wǎng)數(shù)據(jù)池構(gòu)建,為用戶簡(jiǎn)化了相關(guān)使用步驟。藍(lán)光儲(chǔ)存技術(shù)是一種應(yīng)用藍(lán)色激光,以改變無機(jī)物相位的方式對(duì)光盤上的存儲(chǔ)載體進(jìn)行照射與掃描,以此獲取數(shù)據(jù)信息的一種技術(shù),其優(yōu)勢(shì)在于存儲(chǔ)密度大,存儲(chǔ)能耗低并且介質(zhì)壽命長(zhǎng),能更加廣泛地應(yīng)用到相關(guān)領(lǐng)域中。
電網(wǎng)業(yè)務(wù)中的數(shù)據(jù)結(jié)構(gòu)類型主要包括實(shí)時(shí)型、關(guān)系型以及文本型數(shù)據(jù),主要來源是發(fā)電、輸電、變電、配電以及用電等環(huán)節(jié)。其中,實(shí)時(shí)數(shù)據(jù)主要是來自電力調(diào)度環(huán)節(jié),是一種經(jīng)過綜合處理后得出的數(shù)據(jù)。關(guān)系型數(shù)據(jù)主要是相關(guān)的管理人員進(jìn)行參考,并完成相應(yīng)任務(wù)的數(shù)據(jù),通常與藍(lán)光存儲(chǔ)技術(shù)相融合,主要是產(chǎn)生于投資統(tǒng)計(jì)數(shù)據(jù)和電能量信息采集[4]。文本型數(shù)據(jù)一般是依托自然語言處理技術(shù),包括各環(huán)節(jié)的操作說明、數(shù)據(jù)類型描述等。通常情況下,電網(wǎng)數(shù)據(jù)池需要聯(lián)合電力發(fā)展部門、營銷部門、運(yùn)檢部門和調(diào)控中心等部門的相關(guān)參數(shù)進(jìn)行數(shù)據(jù)分類[5]。電網(wǎng)數(shù)據(jù)的分布式結(jié)構(gòu)示意圖如圖1所示。
圖1 電網(wǎng)數(shù)據(jù)分布式結(jié)構(gòu)示意圖
在電力行業(yè)的實(shí)際發(fā)展過程中,電網(wǎng)數(shù)據(jù)的來源和類型都比較多,包括時(shí)間序列數(shù)據(jù)、文本信息以及圖像視頻等,不同類型數(shù)據(jù)的特征空間也不同[6]。為了提高電網(wǎng)數(shù)據(jù)池的數(shù)據(jù)質(zhì)量,需要提取相對(duì)穩(wěn)定并且有效的特征[7]。在原始的數(shù)據(jù)集合中,篩選出相關(guān)的特征數(shù)據(jù)子集進(jìn)行數(shù)據(jù)預(yù)處理,選定特征子集后,需要判斷數(shù)據(jù)子集的數(shù)據(jù)質(zhì)量,經(jīng)過雙向搜索后,排除無關(guān)特征[8]。將給定數(shù)據(jù)集設(shè)定為Q,在數(shù)據(jù)集Q中,存在著一個(gè)i類型樣本數(shù)據(jù)集,并且在總數(shù)據(jù)集中的占比可表示為qi= {q1,q2,q3,…}i=1, 2, 3,…。若數(shù)據(jù)集特征皆為離散性數(shù)據(jù),設(shè)定特征子集為C,根據(jù)C的取值范圍將Q劃分為e個(gè)子集,則二者關(guān)系可表達(dá)為{Q1, Q2, Q3,…, Qe},若特征子集中的數(shù)據(jù)樣本在C上的取值范圍相同,則特征子集C的信息評(píng)價(jià)公式為:
式中:H表示數(shù)據(jù)集的離散指數(shù);G(C)表示特征子集的信息評(píng)價(jià)。數(shù)值越大,則表示特征子集C中包含的特征信息就越多。在保證數(shù)據(jù)信息精確性與完整性的前提下,將電網(wǎng)數(shù)據(jù)通過數(shù)學(xué)變換得到簡(jiǎn)化后的表達(dá)方式:
式中:以數(shù)據(jù)線性特征為基礎(chǔ),k∈Lt表示原始特征向量;P∈Lk×t為變換矩陣;k'∈Pk表示線性變換后的特征向量。應(yīng)用式(2)可以將電網(wǎng)數(shù)據(jù)的分布式特征具體量化,從而為數(shù)據(jù)池構(gòu)建提供數(shù)據(jù)基礎(chǔ)。
電網(wǎng)數(shù)據(jù)安全是數(shù)據(jù)池構(gòu)建效果的主要影響因素,設(shè)定電網(wǎng)數(shù)據(jù)的輸入量與輸出量共同構(gòu)成了整個(gè)電網(wǎng)數(shù)據(jù)的數(shù)據(jù)樣本空間,在此空間內(nèi)的數(shù)據(jù)通常是輸入量大于輸出量,并且每個(gè)具體的數(shù)據(jù)都可以用向量表示[9]。將樣本空間用線性空間和非線性空間表示,其函數(shù)表達(dá)式如式(3)所示:
式中:f(y∶λ)為參數(shù)λ的函數(shù);λ表示相應(yīng)的函數(shù)線性組合;R表示樣本矩陣。在電網(wǎng)運(yùn)行過程中,電力負(fù)荷是影響電網(wǎng)數(shù)據(jù)質(zhì)量的關(guān)鍵因素之一,主要受到各種時(shí)間、天氣以及經(jīng)濟(jì)指標(biāo)影響,利用歷史數(shù)據(jù)信息和相關(guān)的特征因素進(jìn)行預(yù)測(cè)[10]。其表達(dá)式如式(4)所示:
式中:電網(wǎng)數(shù)據(jù)真實(shí)節(jié)點(diǎn)的防御等級(jí)為wn;被攻擊的概率為u,并且滿足w+u≥1的條件;n表示安全指數(shù)。當(dāng)電網(wǎng)數(shù)據(jù)的擴(kuò)展能力滿足分布需求時(shí),電網(wǎng)數(shù)據(jù)真實(shí)節(jié)點(diǎn)的期望值可表 達(dá)為:
式中:β表示電網(wǎng)數(shù)據(jù)的發(fā)展模塊,則電網(wǎng)數(shù)據(jù)真實(shí)節(jié)點(diǎn)安全性的表達(dá)式為:
式中:p表示電網(wǎng)數(shù)據(jù)真實(shí)節(jié)點(diǎn)的安全等級(jí);a表示相應(yīng)的數(shù)據(jù)空間。則電網(wǎng)數(shù)據(jù)安全可以通過計(jì)p的數(shù)值來獲取,為數(shù)據(jù)池構(gòu)建提供安全等級(jí)高的數(shù)據(jù)。
將自然語言處理技術(shù)與藍(lán)光儲(chǔ)存技術(shù)應(yīng)用到電網(wǎng)數(shù)據(jù)池構(gòu)建中,根據(jù)相應(yīng)的技術(shù)原理進(jìn)行電網(wǎng)數(shù)據(jù)處理[13]。自然語言處理技術(shù)在計(jì)算機(jī)中通常表現(xiàn)為字符串序列,包括語法分析、語義分析和語用分析等要素[14]。用V = {v1,v2,v3,…,vn}表示語句分詞后的單詞序列集合,詞性序列集合用Y = {y1,y2,y3,…,yn}表示,詞性標(biāo)注的含義就是在所有相關(guān)的語句中,尋找一個(gè)對(duì)于V來說最優(yōu)的Y,并且y1是v1的詞性。其中,yi∈ Sy,i=1, 2, 3,…,n,Sy表示詞性集合的標(biāo)注集。在詞性標(biāo)注過程中,將完成標(biāo)注的文本當(dāng)成是數(shù)據(jù)樣本集,可觀察層包括詞語序列,隱藏層包括詞性序列,而待標(biāo)注的詞語通常情況下,在其前后都各有一個(gè)或多個(gè)非兼類序列標(biāo)簽,具體如圖2所示。
圖2 待標(biāo)注的兼類詞序列
根據(jù)圖2可以看出,待標(biāo)注的兼類詞附近都有若干個(gè)標(biāo)簽,以便對(duì)數(shù)據(jù)集進(jìn)行語義和序列調(diào)整。在最終標(biāo)注結(jié)果為所有可能標(biāo)注序列中最優(yōu)結(jié)果的理論基礎(chǔ)上,則:
式中:Ym表示最終的標(biāo)注結(jié)果集合;P表示被標(biāo)注的概率。則:
式中:P(V)代表電網(wǎng)數(shù)據(jù)集中的常數(shù),若式(9)成立,則式(8)變?yōu)椋?/p>
至此,有效將電網(wǎng)數(shù)據(jù)的文本信息標(biāo)注問題轉(zhuǎn)化為公式識(shí)別與計(jì)算問題。將電網(wǎng)數(shù)據(jù)的文本文檔信息應(yīng)用自然語言處理技術(shù)進(jìn)行標(biāo)注處理,為電網(wǎng)數(shù)據(jù)池構(gòu)建提供語義信息。
藍(lán)光儲(chǔ)存技術(shù)包括認(rèn)證節(jié)點(diǎn)、代理節(jié)點(diǎn)和存儲(chǔ)節(jié)點(diǎn),認(rèn)證節(jié)點(diǎn)主要負(fù)責(zé)對(duì)電網(wǎng)數(shù)據(jù)進(jìn)行反饋信息認(rèn)證,并設(shè)定有效時(shí)間;代理節(jié)點(diǎn)主要負(fù)責(zé)將通過認(rèn)證的電網(wǎng)數(shù)據(jù)進(jìn)行請(qǐng)求信息和分發(fā)任務(wù)管理;存儲(chǔ)節(jié)點(diǎn)主要負(fù)責(zé)將電網(wǎng)數(shù)據(jù)以賬戶、對(duì)象、容器以三層結(jié)構(gòu)進(jìn)行邏輯架 構(gòu)[15-17]。由于電網(wǎng)數(shù)據(jù)的規(guī)模較大且比較密集,若電網(wǎng)數(shù)據(jù)未經(jīng)過處理就直接放入數(shù)據(jù)池會(huì)造成提取步驟繁瑣的問題,運(yùn)用藍(lán)光存儲(chǔ)技術(shù),計(jì)算電網(wǎng)數(shù)據(jù)樣本集的密度分布概率以及帶寬參數(shù)的數(shù)值對(duì)電網(wǎng)數(shù)據(jù)密度的影響。函數(shù)表達(dá)式如下:
式中:x1,x1,…,xc表示電網(wǎng)數(shù)據(jù)中未知概率g的樣本數(shù)據(jù)集;h(x,xc)代表核函數(shù)。當(dāng)滿足核函數(shù)的對(duì)稱性要求時(shí),其積分和等于1[18-19],則:
式中:δ表示帶寬參數(shù)。帶寬參數(shù)的數(shù)值大小會(huì)影響電網(wǎng)數(shù)據(jù)集的密度分布概率,當(dāng)數(shù)值過小時(shí),數(shù)據(jù)集整體偏差降低,估計(jì)結(jié)果較不穩(wěn)定;當(dāng)帶寬參數(shù)的數(shù)值過大時(shí),數(shù)據(jù)集的整體偏差變大,導(dǎo)致電網(wǎng)數(shù)據(jù)過于密集,不符合電網(wǎng)數(shù)據(jù)池的構(gòu)建要求,因此需要將式(12)的計(jì)算結(jié)果控制在0~1的范圍內(nèi)[20-21]。綜合上述描述與計(jì)算,實(shí)現(xiàn)基于自然語言技術(shù)與藍(lán)光儲(chǔ)存技術(shù)的電網(wǎng)數(shù)據(jù)池構(gòu)建。
實(shí)驗(yàn)選取兩種傳統(tǒng)電網(wǎng)數(shù)據(jù)池構(gòu)建方法(文獻(xiàn)[2]方法和文獻(xiàn)[3]方法)與此次設(shè)計(jì)的構(gòu)建方法進(jìn)行實(shí)驗(yàn)對(duì)比,得出實(shí)驗(yàn)結(jié)果。根據(jù)實(shí)驗(yàn)需求搭建實(shí)驗(yàn)環(huán)境以及設(shè)置相關(guān)參數(shù),操作系統(tǒng)使用Windows8.1,SybaseIQ16.0,并且使用C#語言作為電網(wǎng)數(shù)據(jù)集語義分析的工具,同時(shí),其他相關(guān)配置見表1所列。
表1 實(shí)驗(yàn)設(shè)備配置
根據(jù)上述實(shí)驗(yàn)環(huán)境,進(jìn)行實(shí)驗(yàn)參數(shù)設(shè)置。由于單個(gè)模塊的容量直接影響著數(shù)據(jù)池的響應(yīng)速度,因此分別對(duì)電網(wǎng)數(shù)據(jù)池的擴(kuò)展模塊、移植模塊、伸縮模塊、以及共享模塊的容量進(jìn)行設(shè)置。隨著電網(wǎng)業(yè)務(wù)的不斷更新與發(fā)展,對(duì)應(yīng)的電網(wǎng)數(shù)據(jù)池的擴(kuò)展模塊參數(shù)也需要不斷更新,在出現(xiàn)新的業(yè)務(wù)需求時(shí),可設(shè)定標(biāo)準(zhǔn)區(qū)域與非標(biāo)準(zhǔn)區(qū)域,二者之間的區(qū)別在于標(biāo)準(zhǔn)區(qū)域內(nèi)的參數(shù)是固定的不能修改。非標(biāo)準(zhǔn)區(qū)可修改部分參數(shù)具體見表2所列。
表2 擴(kuò)展模塊容量參數(shù)設(shè)置
電網(wǎng)數(shù)據(jù)池的移植模塊主要負(fù)責(zé)數(shù)據(jù)池?cái)?shù)據(jù)的底層數(shù)據(jù)交換,在數(shù)據(jù)平臺(tái)與格式發(fā)生變化時(shí),無需再進(jìn)行整體數(shù)據(jù)池重構(gòu),具體參數(shù)設(shè)置見表3所列。
表3 移植模塊容量參數(shù)設(shè)置
一旦出現(xiàn)了新的電力業(yè)務(wù),電網(wǎng)數(shù)據(jù)池需要具備相應(yīng)的伸縮能力,實(shí)現(xiàn)數(shù)據(jù)的新建、刪除和提取等操作。即便是用戶操作失誤的情況下也能確保用戶歷史數(shù)據(jù)完整無損,具體參數(shù)設(shè)置見表4所列。
表4 伸縮模塊容量參數(shù)設(shè)置
在保證電網(wǎng)數(shù)據(jù)標(biāo)準(zhǔn)化的基礎(chǔ)上,根據(jù)相應(yīng)需求提取數(shù)據(jù)池的數(shù)據(jù),具體參數(shù)設(shè)置見 表5所列。
表5 共享模塊容量參數(shù)設(shè)置
分別對(duì)比基于可視化技術(shù)的數(shù)據(jù)構(gòu)建模型(以下簡(jiǎn)稱“當(dāng)前構(gòu)建方法1”)和基于區(qū)塊連接技術(shù)的數(shù)據(jù)管理模型(以下簡(jiǎn)稱“當(dāng)前構(gòu)建方法2”)的電網(wǎng)數(shù)據(jù)池與此次基于自然語言處理技術(shù)與藍(lán)光儲(chǔ)存技術(shù)構(gòu)建的電網(wǎng)數(shù)據(jù)池,在不同的用戶并發(fā)數(shù)下的響應(yīng)時(shí)長(zhǎng),測(cè)試結(jié)果如 圖3所示。
圖3 響應(yīng)時(shí)長(zhǎng)測(cè)試結(jié)果
根據(jù)圖3可以得出基于可視化技術(shù)的數(shù)據(jù)構(gòu)建模型、基于區(qū)塊連接技術(shù)的數(shù)據(jù)管理模型以及此次構(gòu)建的電網(wǎng)數(shù)據(jù)池在不同的用戶并發(fā)數(shù)條件下的響應(yīng)時(shí)長(zhǎng),并求出三種構(gòu)建方法下電網(wǎng)數(shù)據(jù)池響應(yīng)時(shí)長(zhǎng)的平均值,具體見表6所列。
表6 響應(yīng)時(shí)長(zhǎng)均值ms
此次構(gòu)建的電網(wǎng)數(shù)據(jù)池響應(yīng)時(shí)長(zhǎng)在5000~20000用戶并發(fā)數(shù)的測(cè)試條件下,其響應(yīng)時(shí)長(zhǎng)的平均值分別比當(dāng)前兩種構(gòu)建方法下的電網(wǎng)數(shù)據(jù)池少2.82 ms和3.58 ms,證明此次融合了自然語言處理技術(shù)與藍(lán)光儲(chǔ)存技術(shù)的電網(wǎng)數(shù)據(jù)池響應(yīng)時(shí)長(zhǎng)更短,說明該方法構(gòu)建數(shù)據(jù)池的速度更快,性能更佳。
為改善現(xiàn)有的區(qū)塊連接下的數(shù)據(jù)管理方法響應(yīng)速度較慢問題,提出基于自然語言處理技術(shù)和藍(lán)光存儲(chǔ)技術(shù)的電網(wǎng)數(shù)據(jù)池構(gòu)建方法。預(yù)測(cè)電力負(fù)荷,計(jì)算數(shù)據(jù)節(jié)點(diǎn)的安全等級(jí),利用自然語言處理技術(shù)標(biāo)注電網(wǎng)數(shù)據(jù)信息,實(shí)現(xiàn)電網(wǎng)數(shù)據(jù)池構(gòu)建。
經(jīng)過實(shí)驗(yàn)測(cè)試可知,在5000~20000用戶并發(fā)數(shù)的測(cè)試條件下,研究構(gòu)建的電網(wǎng)數(shù)據(jù)池響應(yīng)時(shí)長(zhǎng)的平均值分別比兩種傳統(tǒng)方法縮短了2.82 ms 和3.58 ms,驗(yàn)證了本文數(shù)據(jù)池速度更快,性能更佳。
但由于研究時(shí)間的限制,本次研究還存在缺乏統(tǒng)一數(shù)據(jù)管理平臺(tái)的缺陷。為了進(jìn)一步提升配電網(wǎng)發(fā)展業(yè)務(wù)信息化水平,在日后將針對(duì)此問題不斷深入研究。