孫猛,鄧志成,丁剛
(上海發(fā)電設(shè)備成套設(shè)計(jì)研究院有限責(zé)任公司,上海 200240)
智慧電站是現(xiàn)代數(shù)字化科技與電力行業(yè)不斷發(fā)展與不斷融合的產(chǎn)物。數(shù)據(jù)中臺(tái)是通過(guò)數(shù)據(jù)技術(shù),采集、計(jì)算、存儲(chǔ)、加工海量數(shù)據(jù)的同時(shí),統(tǒng)一標(biāo)準(zhǔn)和口徑。隨著人工智能技術(shù)、互聯(lián)網(wǎng)技術(shù)、信息化技術(shù)等現(xiàn)代技術(shù)的不斷發(fā)展與延伸,其已經(jīng)融入多個(gè)行業(yè)領(lǐng)域中,實(shí)現(xiàn)“智慧”建設(shè)與發(fā)展[1]。在創(chuàng)新型“數(shù)字中國(guó)、智慧社會(huì)”建設(shè)道路中,利用數(shù)據(jù)中臺(tái)統(tǒng)一智慧電站數(shù)據(jù),形成標(biāo)準(zhǔn)數(shù)據(jù)并存儲(chǔ),進(jìn)而為電力工業(yè)提供高效服務(wù)。電力工業(yè)作為國(guó)民經(jīng)濟(jì)的重要領(lǐng)域,電力工業(yè)的發(fā)展水平可以反映出一個(gè)國(guó)家生產(chǎn)力的水平,同時(shí)也是判斷國(guó)民經(jīng)濟(jì)發(fā)展水平的一個(gè)重要依據(jù)。因此,無(wú)論是從社會(huì)發(fā)展角度還是國(guó)家發(fā)展角度,智慧電站建設(shè)都是電力行業(yè)目前以及未來(lái)發(fā)展的主要方向。
近幾年圍繞“智慧電站”建設(shè)也開(kāi)展了大量的研究工作,相關(guān)領(lǐng)域研究學(xué)者以及專(zhuān)家學(xué)者針對(duì)如何建設(shè)智慧電站以及如何開(kāi)發(fā)智慧電站平臺(tái),提出了大量的研究方案和建議。智慧電站具有多項(xiàng)功能,其中最為重要的一項(xiàng)就是檢索功能,能夠?qū)﹄娬旧a(chǎn)信息、設(shè)備信息、人員信息等所有信息進(jìn)行綜合性檢索。文獻(xiàn)[2]提出基于圖數(shù)據(jù)庫(kù)和知識(shí)圖譜的電力設(shè)備質(zhì)量綜合管理系統(tǒng),根據(jù)圖數(shù)據(jù)庫(kù)的數(shù)據(jù)存儲(chǔ)和遍歷機(jī)理,設(shè)計(jì)領(lǐng)域知識(shí)圖譜模型,利用知識(shí)圖譜算法,設(shè)計(jì)高效分析檢索方法,采用數(shù)據(jù)間的關(guān)聯(lián)關(guān)系,分類(lèi)分層組織電力數(shù)據(jù),實(shí)現(xiàn)電力綜合管理。雖然該方法有了明確的技術(shù)理論作為理論支撐,能夠有效提高數(shù)據(jù)檢索查詢(xún)效率,但是該方法的數(shù)據(jù)檢索結(jié)果匹配度值較小,導(dǎo)致檢索精度較低的問(wèn)題,已經(jīng)無(wú)法滿足智慧電站信息檢索需求,為此,提出基于哈希算法的數(shù)據(jù)中臺(tái)在智慧電站中的檢索應(yīng)用。
哈希算法是一種具有代表性的最近鄰檢索技術(shù),該算法可以滿足大規(guī)模數(shù)據(jù)檢索對(duì)數(shù)據(jù)存儲(chǔ)空間和檢索精度的特殊要求,通過(guò)迭代計(jì)算的方式,逐漸挖掘與用戶(hù)檢索意愿相符合的信息,由于哈希算法具有收斂性高、檢索精度高、計(jì)算過(guò)程簡(jiǎn)單等優(yōu)點(diǎn),已經(jīng)被應(yīng)用到多個(gè)領(lǐng)域中,并且也受到了研究者的密切關(guān)注[4]。哈希算法是根據(jù)信息長(zhǎng)度等特征為檢索目標(biāo)進(jìn)行數(shù)據(jù)檢索的,將數(shù)據(jù)信息表示成一組長(zhǎng)度一定的二值編碼,也就是哈希碼,并利用固定數(shù)值表示數(shù)據(jù)信息的比特值[5]。哈希算法在計(jì)算過(guò)程中最基本的步驟就是哈希函數(shù)的構(gòu)造,哈希函數(shù)可以是線性形式也可以是非線性形式,該函數(shù)的構(gòu)造精度將直接關(guān)系到數(shù)據(jù)信息檢索準(zhǔn)確度和檢索速度,因此在哈希算法應(yīng)用中如何構(gòu)建一個(gè)有效的哈希函數(shù)是信息檢索的關(guān)鍵性問(wèn)題。
哈希算法最早是由英國(guó)Gionis等學(xué)者提出的,簡(jiǎn)稱(chēng)LSH(Locality Sensitive Hashing),最早哈希算法被稱(chēng)之為經(jīng)典數(shù)據(jù)不依賴(lài)哈希算法,最初的哈希算法存在一定的局限性,后來(lái)經(jīng)過(guò)不斷對(duì)哈希算法研究,得到了編碼長(zhǎng)度更短、檢索效果更好的哈希函數(shù)以及二值碼,從海量數(shù)據(jù)中提取到有價(jià)值的哈希碼,并將哈希算法與人工智能算法進(jìn)行了融合,衍生了一系列哈希算法的變種算法,變種算法包括了非監(jiān)督哈希算法和監(jiān)督哈希算法兩種,其中非監(jiān)督哈希算法在計(jì)算過(guò)程中沒(méi)有使用到監(jiān)督信息,其主要利用數(shù)據(jù)信息的分布特征和數(shù)據(jù)流行結(jié)構(gòu)等生成較短的哈希碼,而監(jiān)督哈希算法是在計(jì)算中應(yīng)用到了監(jiān)督信息,將哈希算法求解過(guò)程簡(jiǎn)化為一個(gè)平衡圖劃分問(wèn)題,利用二維拉普拉伸特征函數(shù)對(duì)數(shù)據(jù)信息進(jìn)行不斷計(jì)算,求出哈希碼[6]。無(wú)論是非監(jiān)督哈希算法還是監(jiān)督哈希算法后來(lái)都被統(tǒng)稱(chēng)為哈希算法,并且哈希算法還有嚴(yán)格的實(shí)驗(yàn)數(shù)據(jù)保證哈希算法對(duì)數(shù)據(jù)信息檢索的效果[7]。哈希算法由于具有良好的計(jì)算功能,并且具有良好的檢索效果,為了更好地發(fā)揮其功能,被引用到數(shù)據(jù)中臺(tái)搭建中,通過(guò)數(shù)據(jù)中臺(tái)對(duì)海量數(shù)據(jù)信息進(jìn)行計(jì)算,提高了哈希算法對(duì)信息檢索的匹配度。
在對(duì)智慧電站信息檢索之前,必須要對(duì)智慧電站中的信息進(jìn)行準(zhǔn)確描述,并提取到智慧電站數(shù)據(jù)信息的基本特征。在智慧電站中,數(shù)據(jù)信息多以數(shù)學(xué)表達(dá)式的方式表示,而數(shù)據(jù)信息的特征屬性主要包含普遍性、客觀性、依附性、共享性等特征屬性,這些特征屬性是描述智慧電站信息的關(guān)鍵參數(shù)[8]。此次采用數(shù)字信息描述方法對(duì)智慧電站信息進(jìn)行描述,將智慧電站信息視為二維空間的f(x,y)連續(xù)函數(shù),其中x坐標(biāo)表示智慧電站信息的橫向連續(xù)構(gòu)圖,y坐標(biāo)表示智慧電站信息的縱向連續(xù)結(jié)構(gòu)圖,運(yùn)用該連續(xù)函數(shù)對(duì)智慧電站信息的物理層、邏輯層、語(yǔ)義層三方面進(jìn)行描述,其中物理層包括智慧電站信息的大小特征以及輪廓特征;邏輯層主要包含智慧電站信息的數(shù)字邏輯關(guān)系和邏輯屬性;語(yǔ)義層描述主要用于表達(dá)智慧電站信息的主要內(nèi)容、信息主題等[9]。通過(guò)以上對(duì)信息三個(gè)屬性的描述表示出智慧電站信息,將所有描述信息構(gòu)建成一個(gè)智慧電站信息描述集合N,將其作為智慧電站信息的標(biāo)簽,以此完成對(duì)智慧電站信息的描述。
智慧電站中每一個(gè)數(shù)據(jù)信息的空間維度是不同的,為了更加精準(zhǔn)地檢索到智慧電站信息,本文根據(jù)對(duì)智慧電站信息的描述,建立智慧電站信息的加權(quán)圖模型,加權(quán)圖模型的建立主要是反映出智慧電站數(shù)據(jù)信息的空間特征向量,為后續(xù)基于哈希算法的數(shù)據(jù)中臺(tái)的計(jì)算提供依據(jù)[10]。加權(quán)圖模型建立的好與壞將直接關(guān)系到智慧電站信息檢索精度,因此本文在對(duì)智慧電站數(shù)據(jù)信息加權(quán)圖模型構(gòu)建過(guò)程中,考慮了數(shù)據(jù)節(jié)點(diǎn)與對(duì)應(yīng)邊的連接方式,以及定義數(shù)據(jù)信息相關(guān)邊的權(quán)值度量,將智慧電站全部節(jié)點(diǎn)數(shù)據(jù)組成一個(gè)n×m向量空間,其中n表示為智慧電站中已經(jīng)描述完成的數(shù)據(jù)節(jié)點(diǎn)的數(shù)量;m表示智慧電站中各個(gè)數(shù)據(jù)節(jié)點(diǎn)的屬性個(gè)數(shù),即智慧電站信息描述集合N中的子集數(shù)量。智慧電站中數(shù)據(jù)信息映射到加權(quán)圖模型中表現(xiàn)的是相互分散的數(shù)據(jù)點(diǎn),為了能夠保證各個(gè)數(shù)據(jù)點(diǎn)之間有足夠的連接,并且還能保留加權(quán)圖的稀疏性,此次采用臨近圖來(lái)構(gòu)建智慧電站數(shù)據(jù)信息加權(quán)圖模型。
首先根據(jù)對(duì)智慧電站數(shù)據(jù)信息的描述,計(jì)算出各個(gè)數(shù)據(jù)節(jié)點(diǎn)最鄰近的數(shù)據(jù)點(diǎn),在數(shù)據(jù)描述集合N中,查看最鄰近的幾個(gè)智慧電站數(shù)據(jù)信息的流行結(jié)構(gòu)屬性,如果數(shù)據(jù)信息的流行結(jié)構(gòu)屬性特征相一致,那么幾個(gè)數(shù)據(jù)點(diǎn)創(chuàng)建一個(gè)連接邊,表示該幾個(gè)智慧電站數(shù)據(jù)信息相似,這樣可以獲取到由多個(gè)連接邊組成的單獨(dú)集群[11]。在整個(gè)加權(quán)圖模型中,利用智慧電站數(shù)據(jù)節(jié)點(diǎn)之間所連接邊上權(quán)值表示出檢索數(shù)據(jù)之間的關(guān)聯(lián)度,連接邊權(quán)值越大,則表示數(shù)據(jù)關(guān)聯(lián)程度越高,因此,在對(duì)加權(quán)圖模型構(gòu)建中,還需要計(jì)算出各個(gè)連接邊的權(quán)值大小,此次利用智慧電站各個(gè)數(shù)據(jù)節(jié)點(diǎn)之間的距離,計(jì)算連接邊權(quán)值大小,假設(shè)智慧電站數(shù)據(jù)信息節(jié)點(diǎn)之間的距離函數(shù)為d(x,y),利用歐式距離表示出智慧電站數(shù)據(jù)節(jié)點(diǎn)之間的距離,其計(jì)算公式如下:
公式(1)中,n表示智慧電站數(shù)據(jù)信息的空間維數(shù);xi表示智慧電站中在節(jié)點(diǎn)i的數(shù)據(jù);xj表示智慧電站中在節(jié)點(diǎn)j的數(shù)據(jù)[12]。計(jì)算完各個(gè)數(shù)據(jù)節(jié)點(diǎn)之間的歐式距離后,利用高斯核函數(shù)定義數(shù)據(jù)xi與數(shù)據(jù)xj連接邊權(quán)重,其計(jì)算公式如下:
公式(2)中,w表示智慧電站數(shù)據(jù)xi與數(shù)據(jù)xj連接邊權(quán)重;δ表示高斯系數(shù),通常情況下該系數(shù)值為0.1[13]。利用上述公式計(jì)算出智慧電站數(shù)據(jù)與數(shù)據(jù)連接邊權(quán)重值,并將其復(fù)制到由多個(gè)連接邊組成的單獨(dú)集群圖上,以此完成對(duì)智慧電站數(shù)據(jù)加權(quán)圖模型的構(gòu)建。
在上文構(gòu)建的加權(quán)圖模型基礎(chǔ)上,引入基于哈希算法的數(shù)據(jù)中臺(tái),對(duì)智慧電站中數(shù)據(jù)進(jìn)行檢索計(jì)算。計(jì)算過(guò)程主要包括三部分,首先在數(shù)據(jù)中臺(tái)中設(shè)計(jì)一個(gè)哈希函數(shù),然后使用哈希函數(shù)對(duì)加權(quán)圖模型上的數(shù)據(jù)集進(jìn)行哈希編碼,最后利用哈希編碼對(duì)智慧電站中的數(shù)據(jù)信息進(jìn)行檢索,其具體計(jì)算過(guò)程如下。
根據(jù)智慧電站數(shù)據(jù)信息檢索需求,并結(jié)合數(shù)據(jù)信息描述內(nèi)容,在數(shù)據(jù)中臺(tái)中,選擇線性哈希函數(shù)作為智慧電站數(shù)據(jù)信息哈希碼的計(jì)算函數(shù),并在數(shù)據(jù)中臺(tái)中選擇非線性映射形式,將線性哈希函數(shù)與非線性映射形式結(jié)合,就可以表示出哈希函數(shù)的非線性形式,其用公式表示如下:
公式(2)中,f表示智慧電站數(shù)據(jù)信息的非線性映射;q、b表示數(shù)據(jù)中臺(tái)中哈希函數(shù)所需要學(xué)習(xí)的參數(shù),其中q表示智慧電站數(shù)據(jù)信息的映射參數(shù),b表示加權(quán)圖模型中數(shù)據(jù)信息的截距項(xiàng)參數(shù)[14]。利用哈希函數(shù)對(duì)加權(quán)圖模型上的智慧電站數(shù)據(jù)信息進(jìn)行不斷的訓(xùn)練和學(xué)習(xí),學(xué)習(xí)哈希函數(shù)中的參數(shù)q、b,就可以得到用0或者1表示的哈希碼。
在數(shù)據(jù)中臺(tái)中,利用哈希函數(shù)計(jì)算到智慧電站數(shù)據(jù)哈希碼后,就可以在數(shù)據(jù)中臺(tái)中根據(jù)哈希碼對(duì)智慧電站數(shù)據(jù)集進(jìn)行編碼,對(duì)智慧電站數(shù)據(jù)集中每一個(gè)數(shù)據(jù)賦予一個(gè)哈希二值碼M。為了節(jié)省基于哈希算法的數(shù)據(jù)中臺(tái)的存儲(chǔ)空間,使用四位的哈希二值碼對(duì)智慧電站數(shù)據(jù)集進(jìn)行編碼,這樣還可以提高哈希算法的計(jì)算速度[15]。得到哈希二值碼M后,在基于哈希算法的數(shù)據(jù)中臺(tái)將哈希二值碼M組織成一個(gè)倒排的哈希表,以哈希桶作為表格的單元名稱(chēng),代表一個(gè)二維的哈希碼,為后續(xù)智慧電站數(shù)據(jù)檢索提供方便。
在上述兩個(gè)步驟基礎(chǔ)上,利用智慧電站數(shù)據(jù)集的哈希表對(duì)智慧電站最鄰近數(shù)據(jù)進(jìn)行檢索,將檢索關(guān)鍵詞或者檢索圖片在基于哈希算法的數(shù)據(jù)中臺(tái)中轉(zhuǎn)化為哈希碼,將該哈希碼與智慧電站數(shù)據(jù)集的哈希碼進(jìn)行比較,得到智慧電站數(shù)據(jù)與檢索詞的漢明距離;按照哈希表上智慧電站數(shù)據(jù)的排序,返回與檢索關(guān)鍵詞最相近的數(shù)據(jù)信息,即哈希表上最上端的數(shù)據(jù),將其作為檢索結(jié)果在數(shù)據(jù)中臺(tái)上顯示,以此完成基于哈希算法的數(shù)據(jù)中臺(tái)在智慧電站中的檢索設(shè)計(jì)。
實(shí)驗(yàn)選取某智慧電站數(shù)據(jù)集作為實(shí)驗(yàn)對(duì)象,該數(shù)據(jù)集名稱(chēng)為HDKD502,數(shù)據(jù)樣本數(shù)量為10000000個(gè),數(shù)據(jù)集維度數(shù)為3642,存儲(chǔ)空間為765M。實(shí)驗(yàn)利用IIJS軟件,分別采用此次設(shè)計(jì)方法與文獻(xiàn)[2]方法對(duì)該智慧電站數(shù)據(jù)集進(jìn)行檢索,測(cè)試出檢索結(jié)果與關(guān)鍵詞的匹配度值。實(shí)驗(yàn)中對(duì)該數(shù)據(jù)集描述信息為236M,構(gòu)建的加權(quán)圖模型中數(shù)據(jù)節(jié)點(diǎn)連接邊數(shù)量為1369652條,在基于哈希算法的數(shù)據(jù)中臺(tái)中計(jì)算得到的哈希碼為1。實(shí)驗(yàn)設(shè)計(jì)了8個(gè)檢索關(guān)鍵詞,其哈希碼分別為0.95、0.36、0.58、0.46、0.95、0.21、0.52、0.55,記錄兩個(gè)檢索方法所得到的檢索結(jié)果,并對(duì)匹配度值以量化后的形式表示,其范圍在0-1之間,匹配度值越接近1,則表示檢索結(jié)果與檢索關(guān)鍵詞的相符程度越高,檢索精度越高;匹配度值越接近0,則表示檢索結(jié)果與檢索關(guān)鍵詞的相符程度越低,檢索精度越低。實(shí)驗(yàn)將匹配度值作為檢索結(jié)果,其實(shí)驗(yàn)結(jié)果如表1所示。
表1 兩種方法檢索結(jié)果匹配度值對(duì)比
從表1中的數(shù)據(jù)可以看出,文獻(xiàn)[2]方法檢索結(jié)果與檢索關(guān)鍵詞的匹配度值在0.168-0.593之間,匹配度值較小,接近0,而設(shè)計(jì)方法檢索結(jié)果與檢索關(guān)鍵詞的匹配度值在0.989~0.999之間,匹配度值較大,接近1,由此可知,設(shè)計(jì)檢索方法檢索精度較高,匹配度值較大。
本文對(duì)基于哈希算法的數(shù)據(jù)中臺(tái)在智慧電站中的檢索應(yīng)用進(jìn)行了研究,采用哈希算法,結(jié)合數(shù)據(jù)中臺(tái)技術(shù),針對(duì)智慧電站數(shù)據(jù)檢索現(xiàn)狀,提出了一套新的智慧電站數(shù)據(jù)檢索方法,并利用實(shí)驗(yàn)驗(yàn)證了基于哈希算法的數(shù)據(jù)中臺(tái)在智慧電站中具有良好的應(yīng)用價(jià)值,提高了智慧電站信息檢索精度,為電站運(yùn)營(yíng)管理提供高水平、高質(zhì)量智慧電站平臺(tái)。但由于智慧電站建設(shè)研究涉及的范圍比較廣泛,此次僅針對(duì)智慧電站檢索功能的設(shè)計(jì)與開(kāi)發(fā)進(jìn)行了研究,對(duì)智慧電站建設(shè)方面的研究在內(nèi)容上和深度上還不夠,今后有待對(duì)智慧電站建設(shè)進(jìn)行進(jìn)一步的探究,促進(jìn)電力工業(yè)不斷發(fā)展。