亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        電力系統(tǒng)非結(jié)構(gòu)化數(shù)據(jù)處理方法研究

        2019-09-10 07:22:44高明陸宏治梁雪青
        現(xiàn)代信息科技 2019年17期
        關(guān)鍵詞:電力系統(tǒng)

        高明 陸宏治 梁雪青

        摘 ?要:本文首先簡(jiǎn)述了非結(jié)構(gòu)化數(shù)據(jù)的背景以及電力系統(tǒng)非結(jié)構(gòu)化數(shù)據(jù)的特點(diǎn),然后闡述了對(duì)非結(jié)構(gòu)化數(shù)據(jù)挖掘利用時(shí)所遇到的問(wèn)題,回顧了電力系統(tǒng)不同應(yīng)用層面非結(jié)構(gòu)化數(shù)據(jù)的處理方法及優(yōu)缺點(diǎn)。在此基礎(chǔ)上,從非結(jié)構(gòu)化數(shù)據(jù)處理中的數(shù)據(jù)提取、數(shù)據(jù)過(guò)濾、數(shù)據(jù)轉(zhuǎn)化和利用方面進(jìn)行歸納和分析。最后根據(jù)電力系統(tǒng)戰(zhàn)略規(guī)劃,提出了未來(lái)非結(jié)構(gòu)化數(shù)據(jù)處理的發(fā)展方向。

        關(guān)鍵詞:非結(jié)構(gòu)化數(shù)據(jù);大數(shù)據(jù)處理;電力系統(tǒng);聚類;智能算法

        中圖分類號(hào):TM7 ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2019)17-0009-04

        Abstract:This paper first briefly describes the background of unstructured data and the characteristics of unstructured data of power system,then expounds the problems encountered in the exploitation of unstructured data,the processing methods and advantages and disadvantages of unstructured data at different application levels in power system are reviewed. On this basis,the data extraction,data filtering,data transformation and utilization in unstructured data processing are summarized and analyzed. Finally,according to the strategic planning of power system,the development direction of unstructured data processing in the future is proposed.

        Keywords:unstructured data;big data processing;power system;clustering;intelligent algorithm

        0 ?引 ?言

        如今,在移動(dòng)互聯(lián)、大數(shù)據(jù)、人工智能時(shí)代背景下,在電力行業(yè)中,隨著能源互聯(lián)網(wǎng)、智能電網(wǎng)、泛在電力物聯(lián)網(wǎng)的建設(shè)和發(fā)展,各種網(wǎng)絡(luò)拓?fù)渥兊酶訌?fù)雜,整個(gè)電力行業(yè)運(yùn)營(yíng)中產(chǎn)生爆炸式增長(zhǎng)的多源異構(gòu)數(shù)據(jù)。伴隨著移動(dòng)互聯(lián)技術(shù)的普遍應(yīng)用,電力物聯(lián)網(wǎng)中復(fù)雜的傳感器網(wǎng)絡(luò)產(chǎn)生了海量數(shù)據(jù),這些數(shù)據(jù)覆蓋了電力生產(chǎn)、傳輸、銷售等各個(gè)環(huán)節(jié),并且電力監(jiān)管和電力資源之間的信息交互數(shù)據(jù)也會(huì)不斷增長(zhǎng)。電力行業(yè)產(chǎn)生的海量數(shù)據(jù)將會(huì)帶來(lái)存儲(chǔ)、傳輸和信息處理等各方面的挑戰(zhàn),也成為了移動(dòng)互聯(lián)、物聯(lián)網(wǎng)及人工智能技術(shù)在電網(wǎng)企業(yè)融合應(yīng)用中需突破的實(shí)際問(wèn)題。

        在電力系統(tǒng)數(shù)據(jù)中,結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化的數(shù)據(jù)有著不同的應(yīng)用價(jià)值。結(jié)構(gòu)化數(shù)據(jù)通過(guò)統(tǒng)計(jì)分析可以用來(lái)制定發(fā)展策略、預(yù)測(cè)動(dòng)向。但實(shí)際上,與電力企業(yè)內(nèi)目前用于記錄、統(tǒng)計(jì)、控制的顯性結(jié)構(gòu)化數(shù)據(jù)相比,大量的非結(jié)構(gòu)數(shù)據(jù)中蘊(yùn)含了更加持久和影響深遠(yuǎn)的價(jià)值,包含著大量可以提高企業(yè)效益的有利信息。對(duì)于電力企業(yè)來(lái)講,通過(guò)再檢索、共享、分析這些數(shù)據(jù),可以挖掘其中的隱藏價(jià)值,對(duì)電力公司的戰(zhàn)略部署、發(fā)展方向?qū)?huì)產(chǎn)生深遠(yuǎn)影響[1]。

        結(jié)構(gòu)化數(shù)據(jù)主要基于關(guān)系數(shù)據(jù)庫(kù)存儲(chǔ),通過(guò)保存不同的業(yè)務(wù)數(shù)據(jù)到對(duì)應(yīng)的表中,方便查詢統(tǒng)計(jì)、操作便捷、易于維護(hù)。而非結(jié)構(gòu)數(shù)據(jù)占比較高,如設(shè)計(jì)圖紙、合同、報(bào)告、說(shuō)明書(shū)、標(biāo)書(shū)等,這些數(shù)據(jù)文件格式多樣、內(nèi)容繁多、不易理解,數(shù)據(jù)含義比較隱性,無(wú)法使用關(guān)系數(shù)據(jù)庫(kù)存儲(chǔ),只能通過(guò)不同文件形式存放。鑒于非結(jié)構(gòu)化數(shù)據(jù)的特點(diǎn),對(duì)這些非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)檢索時(shí)難度會(huì)比較大。為了獲得其中蘊(yùn)含的價(jià)值,需要在使用這些非結(jié)構(gòu)化數(shù)據(jù)時(shí),必須根據(jù)具體需要對(duì)其進(jìn)行預(yù)處理,將其標(biāo)準(zhǔn)化,建立更加智能化的系統(tǒng)來(lái)處理這些數(shù)據(jù),深入挖掘其中的價(jià)值。

        1 ?電力系統(tǒng)非結(jié)構(gòu)化數(shù)據(jù)的特點(diǎn)

        根據(jù)數(shù)據(jù)來(lái)源以及數(shù)據(jù)特征結(jié)構(gòu)的不同,電力系統(tǒng)中所產(chǎn)生的數(shù)據(jù)可以分為結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),如表1所示。

        結(jié)構(gòu)化數(shù)據(jù)特征表現(xiàn)為可以在固定字段集合中存放并且可以用二維表表示;而半結(jié)構(gòu)化數(shù)據(jù)雖然說(shuō)是結(jié)構(gòu)化的,但是數(shù)據(jù)結(jié)構(gòu)變化大,因此不能像結(jié)構(gòu)化數(shù)據(jù)一樣簡(jiǎn)單地通過(guò)建立表來(lái)處理,但適合將數(shù)據(jù)元素用標(biāo)簽區(qū)分,用XML來(lái)存儲(chǔ);非結(jié)構(gòu)化數(shù)據(jù)本身主要表現(xiàn)為格式和標(biāo)準(zhǔn)多樣,存儲(chǔ)量大且增長(zhǎng)速快,可以是任何類型的數(shù)字信息形式,如文本、圖片、Web頁(yè)面、Office文檔、電子郵件等[2]。非結(jié)構(gòu)化數(shù)據(jù)內(nèi)容無(wú)法直接獲取,如有些音頻視頻文件需要用相應(yīng)的方式打開(kāi)才能讀取,所以難以用數(shù)據(jù)庫(kù)中的二維邏輯表表示,且檢索困難,大部分要借助處理方法或者處理工具才能方便管理利用,但是這些非結(jié)構(gòu)化數(shù)據(jù)中所蘊(yùn)含的價(jià)值是巨大的。這類數(shù)據(jù)在電力系統(tǒng)中占80%以上,例如故障錄波、監(jiān)控視頻、圖像、CIM等數(shù)據(jù)[3]。

        在電力系統(tǒng)中,對(duì)非結(jié)構(gòu)化數(shù)據(jù)的處理上存在以下問(wèn)題[4-7]:

        (1)相比于結(jié)構(gòu)化數(shù)據(jù),電力系統(tǒng)中非結(jié)構(gòu)化數(shù)據(jù)產(chǎn)生速度快、格式多樣化、價(jià)值密度較低等導(dǎo)致難以系統(tǒng)化,部門之間的數(shù)據(jù)交互很多依靠掃描件、郵件、人工傳遞的方式,這就使得數(shù)據(jù)傳遞效率低下,交互成本高。

        (2)非結(jié)構(gòu)化數(shù)據(jù)的管理無(wú)法雙向進(jìn)行,只能根據(jù)業(yè)務(wù)的需要單向傳遞,由于傳遞缺乏實(shí)效性導(dǎo)致更新以及變更后的文檔不能完整及時(shí)地傳到用戶那里,而且文檔利用的情況無(wú)法及時(shí)反饋。

        (3)目前非結(jié)構(gòu)化數(shù)據(jù)的傳輸主要通過(guò)數(shù)據(jù)交互平臺(tái),但是由于傳輸通道的容量較小、傳輸速度較低,通常需要在保證主要信息的前提下,刪除圖片、正文數(shù)據(jù)信息,導(dǎo)致信息存在失真的情況。

        (4)非結(jié)構(gòu)化數(shù)據(jù)在業(yè)務(wù)系統(tǒng)間傳遞時(shí),文件標(biāo)識(shí)沒(méi)有統(tǒng)一的定義標(biāo)準(zhǔn),導(dǎo)致更新文件版本時(shí),需要人為定位歷史版本。

        2 ?電力系統(tǒng)中非結(jié)構(gòu)化數(shù)據(jù)的處理方法的現(xiàn)狀

        2.1 ?采集提取

        非結(jié)構(gòu)化數(shù)據(jù)的采集提取,是指從一個(gè)數(shù)據(jù)集中抽取一類所需的信息導(dǎo)入對(duì)應(yīng)數(shù)據(jù)庫(kù)的過(guò)程,提取技術(shù)有很多種,可以根據(jù)不同的標(biāo)準(zhǔn)來(lái)分類。例如,根據(jù)人為參與程度可以分為人工方式、人工輔助方式和全自動(dòng)方式的提取方法。非結(jié)構(gòu)化數(shù)據(jù)的提取相對(duì)比較復(fù)雜,對(duì)于文本數(shù)據(jù),一般需要采用模糊匹配法匹配行上的字段并逐行進(jìn)行抽取。數(shù)據(jù)的抽取涉及到幾個(gè)關(guān)鍵的問(wèn)題:數(shù)據(jù)倉(cāng)庫(kù)需要抽取的數(shù)據(jù)內(nèi)容;數(shù)據(jù)抽取的來(lái)源;數(shù)據(jù)存放在哪個(gè)系統(tǒng)的數(shù)據(jù)庫(kù);根據(jù)需要制定各個(gè)系統(tǒng)的數(shù)據(jù)抽取規(guī)則;確定所抽取記錄的唯一標(biāo)示符。

        文獻(xiàn)[8]利用聚焦類網(wǎng)絡(luò)爬蟲(chóng)Scrapy構(gòu)架來(lái)采集網(wǎng)頁(yè)非結(jié)構(gòu)化數(shù)據(jù)信息,爬蟲(chóng)根據(jù)提交的查詢表單,尋找選擇合適的Web數(shù)據(jù)庫(kù),然后把頁(yè)面存儲(chǔ)到本地的數(shù)據(jù)庫(kù)中。

        文獻(xiàn)[9]提出了一種從數(shù)據(jù)庫(kù)抽取數(shù)據(jù)的方法,該方法將ODBC用于數(shù)據(jù)抽取,為了建立數(shù)據(jù)倉(cāng)庫(kù),在數(shù)據(jù)轉(zhuǎn)換過(guò)程中應(yīng)用轉(zhuǎn)換規(guī)則集,從而有效地提取和管理非結(jié)構(gòu)化數(shù)據(jù)。此外,文中還采取了虛擬化集群存儲(chǔ)、資源池存儲(chǔ)和容錯(cuò)機(jī)制來(lái)方便非結(jié)構(gòu)化數(shù)據(jù)的抽取。

        文獻(xiàn)[10]提出了數(shù)據(jù)提取的三種方法。方法一:通過(guò)應(yīng)用機(jī)器學(xué)習(xí)歸納算法的包裝器歸納方式來(lái)生成抽取規(guī)則,抽取規(guī)則的制定是基于對(duì)語(yǔ)義項(xiàng)上下文描述,通過(guò)語(yǔ)義邊界來(lái)定位語(yǔ)義項(xiàng);方法二:基于Ontology方式的信息根據(jù)數(shù)據(jù)本身的描述來(lái)實(shí)現(xiàn)抽取;方法三:通過(guò)Web頁(yè)面的定位信息并基于HTML結(jié)構(gòu)實(shí)現(xiàn)信息抽取,再將Web文檔解析成語(yǔ)法樹(shù),然后進(jìn)行信息抽取的同時(shí),還需采用后模式的方式為其添加語(yǔ)義,該方法通過(guò)使用大量的樣本進(jìn)行訓(xùn)練來(lái)提高抽取數(shù)據(jù)的精確性,以避免抽取到與用戶無(wú)關(guān)的信息。

        2.2 ?過(guò)濾清洗

        數(shù)據(jù)的過(guò)濾清洗是指對(duì)數(shù)據(jù)進(jìn)行雜質(zhì)去除和校驗(yàn)的過(guò)程,主要在于去掉重復(fù)信息、糾正錯(cuò)誤,以及排除非用戶需求的數(shù)據(jù)等,對(duì)于多數(shù)據(jù)源的數(shù)據(jù),還需要對(duì)其進(jìn)行關(guān)聯(lián)性驗(yàn)證。

        文獻(xiàn)[11]中提到的數(shù)據(jù)清洗在目前可以通過(guò)匹配算法、機(jī)器學(xué)習(xí)算法和相應(yīng)的數(shù)據(jù)關(guān)聯(lián)表進(jìn)行,文中采用改進(jìn)后的Skyline算法對(duì)數(shù)據(jù)進(jìn)行過(guò)濾排查,通過(guò)找出具有代表意義的點(diǎn),對(duì)這些點(diǎn)進(jìn)行統(tǒng)計(jì)分類處理,然后生成多種統(tǒng)計(jì)圖。由于電網(wǎng)中復(fù)雜的環(huán)境因素,以及設(shè)備傳感器的故障、信號(hào)的干擾等因素會(huì)形成數(shù)據(jù)的噪聲點(diǎn)并導(dǎo)致數(shù)據(jù)的缺失,這會(huì)影響到接下來(lái)對(duì)數(shù)據(jù)分析的結(jié)果,文中提到在進(jìn)行數(shù)據(jù)清洗過(guò)程中,應(yīng)采取相應(yīng)方法對(duì)噪聲點(diǎn)進(jìn)行數(shù)據(jù)的修復(fù),對(duì)于缺失的數(shù)據(jù)通過(guò)相應(yīng)調(diào)控進(jìn)行填補(bǔ),以減輕清洗過(guò)程中數(shù)據(jù)價(jià)值的流失。

        文獻(xiàn)[12]中提到對(duì)于清洗過(guò)程中缺失內(nèi)容數(shù)據(jù)的填充可以通過(guò)四種方式實(shí)現(xiàn)。方式一:人工參與,主要根據(jù)專家經(jīng)驗(yàn)和專業(yè)知識(shí)來(lái)補(bǔ)充;方式二:對(duì)相應(yīng)字段進(jìn)行數(shù)據(jù)計(jì)算;方式三:通過(guò)字段的組合規(guī)律計(jì)算分析所缺失的數(shù)據(jù);方式四:對(duì)于失真嚴(yán)重的數(shù)據(jù)可以通過(guò)數(shù)據(jù)的重新采集,或者從其他渠道獲取對(duì)應(yīng)數(shù)據(jù)集。

        2.3 ?拆分轉(zhuǎn)換

        由于所抽取的非結(jié)構(gòu)化數(shù)據(jù)格式屬性復(fù)雜多樣,難以進(jìn)行后期的存儲(chǔ)、分析和檢索,需要將非結(jié)構(gòu)化數(shù)據(jù)創(chuàng)立標(biāo)準(zhǔn)化、轉(zhuǎn)換為可識(shí)別的數(shù)據(jù),需要根據(jù)目標(biāo)數(shù)據(jù)模型或者統(tǒng)一數(shù)據(jù)模型對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)格式轉(zhuǎn)換、關(guān)鍵數(shù)據(jù)重新構(gòu)建等。

        2.3.1 ?非結(jié)構(gòu)化數(shù)據(jù)拆分

        為了提高存儲(chǔ)資源的利用率,優(yōu)化計(jì)算機(jī)資源分配,可以把非結(jié)構(gòu)化數(shù)據(jù)分離為元數(shù)據(jù)和二進(jìn)制數(shù)據(jù)。二進(jìn)制數(shù)據(jù)可以直接以數(shù)據(jù)流的形式存儲(chǔ)在關(guān)系表中,元數(shù)據(jù)以XML格式存入實(shí)際數(shù)據(jù)所在的節(jié)點(diǎn)中[13]。

        2.3.2 ?非結(jié)構(gòu)化數(shù)據(jù)的結(jié)構(gòu)化處理

        文獻(xiàn)[14]提到在非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化處理過(guò)程中,可以使用XML作為轉(zhuǎn)換媒介,利用XML支持嵌入和鏈接非結(jié)構(gòu)化數(shù)據(jù)的特征,使用XlLink鏈接非結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)通過(guò)XML的過(guò)渡最終轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),由于非結(jié)構(gòu)化數(shù)據(jù)的文件格式的不同,有文本、圖片、視頻、音頻等,所以必須根據(jù)文件格式的不同,采取不同的半結(jié)構(gòu)化轉(zhuǎn)換方法。

        文獻(xiàn)[15]中提出基于規(guī)則庫(kù)來(lái)實(shí)現(xiàn)不同格式的非結(jié)構(gòu)化數(shù)據(jù)的轉(zhuǎn)換,先對(duì)原始數(shù)據(jù)格式描述,或者定義生成描述然后存入規(guī)則庫(kù),最后提取相應(yīng)規(guī)則描述。

        文獻(xiàn)[16]中提到在非結(jié)構(gòu)性數(shù)據(jù)的轉(zhuǎn)換過(guò)程中,還可以依靠相關(guān)機(jī)器學(xué)習(xí)算法對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行實(shí)體識(shí)別和關(guān)系抽取,從而獲得構(gòu)建數(shù)據(jù)庫(kù)所需要的特定的數(shù)據(jù)對(duì)象,如通過(guò)K-means聚類算法實(shí)現(xiàn)實(shí)體的關(guān)系抽取,以及通過(guò)CRF++工具包實(shí)現(xiàn)文本數(shù)據(jù)的實(shí)體識(shí)別。

        這種逐級(jí)轉(zhuǎn)換是一種典型的思路,可實(shí)現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)到結(jié)構(gòu)化數(shù)據(jù)的映射,再加上CLM作為電力系統(tǒng)公共信息模型,通過(guò)統(tǒng)一的表達(dá)方式將CLM與XML鏈接,可以很好地解決電網(wǎng)中大部分非結(jié)構(gòu)化問(wèn)題。但這種逐步轉(zhuǎn)化的方式,存在轉(zhuǎn)換后缺乏通用性、文件元數(shù)據(jù)難以管理的問(wèn)題,不具備大量數(shù)據(jù)轉(zhuǎn)換的條件,以及對(duì)于視頻,音頻等需要打開(kāi)查看再提取有價(jià)值信息的數(shù)據(jù)只能依靠人工處理等缺點(diǎn)。這就需要?jiǎng)?chuàng)建文件模板表、文件聯(lián)系表來(lái)建立轉(zhuǎn)化前后的聯(lián)系,通過(guò)引入大數(shù)據(jù)文件解析優(yōu)化方法,來(lái)提高系統(tǒng)轉(zhuǎn)化容量。

        2.4 ?解譯利用

        2.4.1 ?語(yǔ)義處理

        文獻(xiàn)[17]中引入人工智能和模式識(shí)別領(lǐng)域中的向量表示法來(lái)描述非結(jié)構(gòu)化文本數(shù)據(jù);采用算法提取關(guān)鍵詞,用文檔含義和屬性組成的語(yǔ)義向量代替文檔,并且使用語(yǔ)義相似度檢索算法,從而實(shí)現(xiàn)非結(jié)構(gòu)化文本數(shù)據(jù)也可以用傳統(tǒng)的SQL語(yǔ)句來(lái)進(jìn)行檢索。

        文獻(xiàn)[18]中提到可以借助統(tǒng)計(jì)學(xué)習(xí)或深度學(xué)習(xí)算法提取語(yǔ)言特征,通過(guò)句法或者語(yǔ)法分析器,實(shí)現(xiàn)所查文本的語(yǔ)義的分析,此外文中還提到使用知識(shí)圖譜和語(yǔ)義搜索技術(shù)對(duì)文本進(jìn)行語(yǔ)義解析,通過(guò)文檔關(guān)鍵詞提取、自動(dòng)生成摘要等技術(shù)可以進(jìn)一步提高檢索效率。

        文獻(xiàn)[19]中提到可以通過(guò)分詞的方法,將字符串變成詞的集合,一般的文本文件通常是連續(xù)的字符串流,分詞要根據(jù)語(yǔ)言的類型,其中中英文的處理方法并不相同。一般的全文索引工具采用正向最大匹配算法,此外,對(duì)于編碼過(guò)的文檔類型,則需要另將其解碼成字符串流。

        2.4.2 ?文本建模

        在對(duì)非結(jié)構(gòu)化文本進(jìn)行預(yù)處理后,為了方便對(duì)文本進(jìn)行系統(tǒng)的分類和存儲(chǔ),通常需要對(duì)文本進(jìn)行建模。很多企業(yè)普遍運(yùn)用混合模型如Hybrid模型來(lái)對(duì)文檔進(jìn)行建模。因?yàn)橄鄬?duì)于單一的模型,此類混合模型對(duì)于非結(jié)構(gòu)化文本建模效果較好,通過(guò)文本建模,可以把每個(gè)文檔映射到多維空間向量中,從而可以進(jìn)一步進(jìn)行文檔相似度的計(jì)算,方便文本的分類和儲(chǔ)存[20]。

        3 ?未來(lái)電力系統(tǒng)非結(jié)構(gòu)化數(shù)據(jù)處理的發(fā)展方向

        隨著非結(jié)構(gòu)化數(shù)據(jù)規(guī)模的不斷擴(kuò)大以及行業(yè)發(fā)展的需要,再加上相關(guān)技術(shù)的創(chuàng)新,非結(jié)構(gòu)化數(shù)據(jù)的處理技術(shù)也需要不斷改善、創(chuàng)新以適應(yīng)不同行業(yè)的需求。例如,隨著電力數(shù)據(jù)的爆炸式增長(zhǎng),電力企業(yè)的非結(jié)構(gòu)化與結(jié)構(gòu)化數(shù)據(jù)統(tǒng)一儲(chǔ)存調(diào)用系統(tǒng)已經(jīng)展現(xiàn)出不足,迫于數(shù)據(jù)庫(kù)存儲(chǔ)壓力,新型的非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)系統(tǒng)在不斷研究開(kāi)發(fā)之中,與之相應(yīng)的非結(jié)構(gòu)化數(shù)據(jù)的優(yōu)化管理和處理技術(shù)成為未來(lái)研究的重點(diǎn)之一??傊m然國(guó)內(nèi)外對(duì)非結(jié)構(gòu)數(shù)據(jù)的處理有一定經(jīng)驗(yàn),但是總體來(lái)說(shuō)還處于初級(jí)階段,相關(guān)技術(shù)還不夠成熟,為了滿足未來(lái)大數(shù)據(jù)時(shí)代信息價(jià)值的充分挖掘,未來(lái)非結(jié)構(gòu)化數(shù)據(jù)處理應(yīng)該向以下幾個(gè)方面發(fā)展:

        (1)滿足應(yīng)用范圍不斷拓展。隨著企業(yè)信息化程度的不斷加深,以各種文檔、圖像、音頻視頻、報(bào)表等為代表的非結(jié)構(gòu)化數(shù)據(jù)挖掘處理在業(yè)務(wù)中的需求不斷增大,應(yīng)用范圍不斷擴(kuò)大,數(shù)據(jù)處理作為構(gòu)建信息化平臺(tái)的核心組成要素之一,必須提高非結(jié)構(gòu)化數(shù)據(jù)處理技術(shù)對(duì)不同業(yè)務(wù)的需求,從而保證業(yè)務(wù)的全面開(kāi)展。

        (2)滿足數(shù)據(jù)的快速增長(zhǎng)。互聯(lián)網(wǎng)技術(shù)的發(fā)展使得網(wǎng)絡(luò)信息數(shù)據(jù)迅速增長(zhǎng),非結(jié)構(gòu)化數(shù)據(jù)庫(kù)也隨之迅速發(fā)展起來(lái),這也對(duì)信息管理與共享提出了更高的要求。但目前非結(jié)構(gòu)化數(shù)據(jù)庫(kù)的處理主要是通過(guò)構(gòu)建數(shù)據(jù)庫(kù)集中處理,為了適應(yīng)非結(jié)構(gòu)化數(shù)據(jù)“爆炸式”的增長(zhǎng),進(jìn)一步提高非結(jié)構(gòu)化數(shù)據(jù)的處理性能,滿足分布在網(wǎng)絡(luò)中的各類數(shù)據(jù)同步處理。建立分布式處理體系便是未來(lái)非結(jié)構(gòu)化數(shù)據(jù)處理的重要方向。未來(lái)針對(duì)非結(jié)構(gòu)化數(shù)據(jù)需采用更加先進(jìn)的體系架構(gòu)、處理技術(shù)以滿足分布式存儲(chǔ)和處理大批量數(shù)據(jù)的需要[21]。

        (3)特定方面的技術(shù)改進(jìn)。比如,在數(shù)據(jù)存儲(chǔ)檢索過(guò)程中。雖然可以通過(guò)XML統(tǒng)一格式存儲(chǔ)非結(jié)構(gòu)化數(shù)據(jù),但是非結(jié)構(gòu)化數(shù)據(jù)以此方式存儲(chǔ)后在系統(tǒng)的檢索上仍舊比較困難,必須針對(duì)非結(jié)構(gòu)化數(shù)據(jù)庫(kù)本身的結(jié)構(gòu)特點(diǎn),在操作記錄、限制機(jī)制以及數(shù)據(jù)元組方面結(jié)合XML的特性加以改進(jìn),優(yōu)化非結(jié)構(gòu)化數(shù)據(jù)的處理方式,進(jìn)而提高非結(jié)構(gòu)化數(shù)據(jù)庫(kù)的檢索性能。

        (4)智能化處理。隨著人工智能的普及,機(jī)器學(xué)習(xí)是非結(jié)構(gòu)化數(shù)據(jù)處理的一個(gè)重要方面,特別是可以從數(shù)據(jù)中發(fā)現(xiàn)規(guī)律和挖掘知識(shí),為基于非結(jié)構(gòu)化數(shù)據(jù)處理的綜合決策提供基礎(chǔ)。在數(shù)據(jù)表示層面上,非結(jié)構(gòu)化數(shù)據(jù)的可視化和特征提取以及數(shù)據(jù)降維,仍然是研究的重點(diǎn)[22]。

        4 ?結(jié) ?論

        雖然現(xiàn)在電力企業(yè)擁有較為成熟的數(shù)據(jù)庫(kù)管理處理系統(tǒng),但這僅適用于結(jié)構(gòu)化的數(shù)據(jù)。在大數(shù)據(jù)分析挖掘中,非結(jié)構(gòu)化數(shù)據(jù)的有效處理可以充分挖掘大數(shù)據(jù)價(jià)值。但是在國(guó)內(nèi)外,非結(jié)構(gòu)化數(shù)據(jù)的處理仍是大數(shù)據(jù)處理技術(shù)的關(guān)鍵和難點(diǎn)。非結(jié)構(gòu)化數(shù)據(jù)處理的核心問(wèn)題包括數(shù)據(jù)的采集與表示、數(shù)學(xué)建模、信息挖掘、知識(shí)推理與綜合決策等。未來(lái)隨著產(chǎn)業(yè)的升級(jí)和大數(shù)據(jù)的擴(kuò)張,非結(jié)構(gòu)化數(shù)據(jù)的處理技術(shù)迫切需要得到創(chuàng)新與優(yōu)化,以滿足智能電網(wǎng)和泛在電力物聯(lián)網(wǎng)中數(shù)據(jù)挖掘利用的需要。非結(jié)構(gòu)化數(shù)據(jù)的處理技術(shù)會(huì)朝著智能化數(shù)據(jù)建模與機(jī)器學(xué)習(xí),特別是非線性高維數(shù)據(jù)機(jī)器學(xué)習(xí)方面融合發(fā)展。此外推進(jìn)大容量高速率的分布式數(shù)據(jù)處理與存儲(chǔ)平臺(tái)的建設(shè),對(duì)于提高電力系統(tǒng)海量非結(jié)構(gòu)化數(shù)據(jù)的處理能力和處理效率也有著極為重要的現(xiàn)實(shí)意義。

        參考文獻(xiàn):

        [1] HUANG Y,ZHOU X. Knowledge Model for Electric Power Big Data Based on Ontology and Semantic Web [J].CSEE Journal of Power and Energy Systems,2015,1(1):19-27.

        [2] 施超.智能電網(wǎng)大數(shù)據(jù)相關(guān)應(yīng)用問(wèn)題研究 [D].廣州:華南理工大學(xué),2015.

        [3] 裴珍.國(guó)家電網(wǎng)公司非結(jié)構(gòu)化數(shù)據(jù)管理平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn) [D].天津:天津大學(xué),2016.

        [4] 王瑋,劉蔭,于展鵬,等.電力大數(shù)據(jù)環(huán)境下大數(shù)據(jù)中心架構(gòu)體系設(shè)計(jì) [J].電力信息與通信技術(shù),2016,14(1):1-6.

        [5] 李澤江.電力系統(tǒng)多源異構(gòu)數(shù)據(jù)優(yōu)化管理技術(shù)的研究及應(yīng)用 [D].蘭州:蘭州理工大學(xué),2016.

        [6] 陳碩,閆春生,王歐,等.國(guó)網(wǎng)遼寧全業(yè)務(wù)統(tǒng)一數(shù)據(jù)中心分析域關(guān)鍵技術(shù)組件研究 [A].中國(guó)電力科學(xué)研究院2017智能電網(wǎng)發(fā)展研討會(huì)論文集 [C]//中國(guó)電力科學(xué)研究院:北京市海淀區(qū)太極計(jì)算機(jī)培訓(xùn)中心,2017:4.

        [7] 鄺蘇鵬.國(guó)網(wǎng)業(yè)務(wù)與財(cái)務(wù)協(xié)同平臺(tái)數(shù)據(jù)交換系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn) [D].哈爾濱:哈爾濱工業(yè)大學(xué),2017.

        [8] 張瑀.基于非結(jié)構(gòu)化招聘信息的采集與清洗系統(tǒng) [D].長(zhǎng)沙:湖南師范大學(xué),2017.

        [9] 劉冬蘭,劉新,馬雷,等.電力系統(tǒng)中數(shù)據(jù)集成技術(shù)關(guān)鍵問(wèn)題研究 [J].山東電力技術(shù),2016,43(11):23-27.

        [10] 馬珊.面向Web文本數(shù)據(jù)倉(cāng)庫(kù)的預(yù)處理關(guān)鍵技術(shù)研究 [D].西安:西安電子科技大學(xué),2011.

        [11] 王瑞杰.面向電力調(diào)度控制系統(tǒng)的多源異構(gòu)數(shù)據(jù)處理方法研究 [D].北京:華北電力大學(xué)(北京),2017.

        [12] 吳偉波.軌道交通非結(jié)構(gòu)化數(shù)據(jù)處理與維修決策研究 [D].廣州:廣東工業(yè)大學(xué),2018.

        [13] 李澤江.電力系統(tǒng)多源異構(gòu)數(shù)據(jù)優(yōu)化管理技術(shù)的研究及應(yīng)用 [D].蘭州:蘭州理工大學(xué),2016.

        [14] 萬(wàn)里鵬.非結(jié)構(gòu)化到結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換的研究與實(shí)現(xiàn) [D].成都:西南交通大學(xué),2013.

        [15] 張枝令.結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)化數(shù)據(jù)的分類方法 [J].寧德師專學(xué)報(bào)(自然科學(xué)版),2007(4):417-420.

        [16] 馬曉榮.科技云中非結(jié)構(gòu)化數(shù)據(jù)向結(jié)構(gòu)化數(shù)據(jù)的轉(zhuǎn)換方法 [D].西安:西安電子科技大學(xué),2017.

        [17] 邱劍.電力中文文本數(shù)據(jù)挖掘技術(shù)及其在可靠性中的應(yīng)用研究 [D].杭州:浙江大學(xué),2016.

        [18] 蘇興華.非結(jié)構(gòu)化生產(chǎn)信息的向量表示提取方法 [J].中國(guó)管理信息化,2018,21(23):159-161.

        [19] 溫紹楠.非結(jié)構(gòu)化數(shù)據(jù)處理技術(shù)的應(yīng)用和研究 [D].北京:北京郵電大學(xué),2011.

        [20] 李青,陳陽(yáng),謝浩然,等.一種基于文本相似度矩陣運(yùn)算的非結(jié)構(gòu)化海量投訴數(shù)據(jù)分類算法 [J].計(jì)算機(jī)工程與科學(xué),2012,34(1):103-107.

        [21] 周靜寧.基于XML的非結(jié)構(gòu)化信息存儲(chǔ)系統(tǒng)事務(wù)處理模型研究 [D].武漢:武漢科技大學(xué),2004.

        [22] 徐宗本,張講社.基于認(rèn)知的非結(jié)構(gòu)化信息處理:現(xiàn)狀與趨勢(shì) [J].中國(guó)基礎(chǔ)科學(xué),2007(6):4-8.

        作者簡(jiǎn)介:高明(1978-),男,漢族,陜西寧強(qiáng)人,高級(jí)工程師,碩士研究生,研究方向:電力信息化;陸宏治(1984-),男,漢族,廣東廣州人,高級(jí)工程師,工程碩士,研究方向:電力行業(yè)信息化、軟件工程、基于云大物移智技術(shù)的共享服務(wù)應(yīng)用;梁雪青(1985-),女,漢族,廣東廣州人,高級(jí)工程師,碩士研究生,研究方向:信息技術(shù)。

        猜你喜歡
        電力系統(tǒng)
        淺析繼電保護(hù)自動(dòng)化技術(shù)在電力系統(tǒng)中的應(yīng)用
        電力系統(tǒng)變電運(yùn)行設(shè)備維護(hù)技術(shù)分析
        并聯(lián)電抗器在高壓電網(wǎng)中的應(yīng)用
        試論電力繼電保護(hù)運(yùn)行及可靠性問(wèn)題
        信息時(shí)代的電力系統(tǒng)信息化經(jīng)驗(yàn)談
        關(guān)于智能變電站繼電保護(hù)技術(shù)優(yōu)化探討
        探討電力系統(tǒng)中配網(wǎng)自動(dòng)化技術(shù)
        科技視界(2016年21期)2016-10-17 20:00:58
        配網(wǎng)自動(dòng)化技術(shù)的應(yīng)用探討
        科技視界(2016年21期)2016-10-17 19:54:47
        一種新型高壓電纜頭制作方法
        電力系統(tǒng)繼電保護(hù)技術(shù)常見(jiàn)問(wèn)題及對(duì)策
        国产青青草在线观看视频| 久久综合视频网站| 日本亚洲一级中文字幕| 国产三区二区一区久久| 国产无套粉嫩白浆在线| 国产性一交一乱一伦一色一情| 国产精品无码久久久久免费AV| 成人短篇在线视频夫妻刺激自拍| 自拍偷拍 视频一区二区| 亚洲va久久久噜噜噜久久男同| 五十路熟久久网| 国产美女亚洲精品一区| 国产精品黑丝美腿美臀| 亚洲av成人噜噜无码网站| 成在人线av无码免费| 欧洲无码一级毛片无遮挡| 日韩精品久久午夜夜伦鲁鲁| 久久久噜噜噜久久| 五十路熟女一区二区三区| 国产精品麻豆成人av| 91成人自拍在线观看| 无码少妇一区二区性色av| 婷婷九月丁香| 一本大道加勒比东京热| 国产无套内射又大又猛又粗又爽| 手机看片福利一区二区三区| 日本免费一区二区三区在线看| 国产高清在线精品一区不卡| 婷婷四虎东京热无码群交双飞视频| 999国内精品永久免费视频| 乱色视频中文字幕在线看| 青青草手机免费播放视频| 国产成人亚洲精品无码av大片| 国产精品11p| 国产自产在线视频一区| 日韩乱码人妻无码系列中文字幕| 成 人 免费 黄 色 视频| 色噜噜狠狠色综合欧洲| 亚州无吗一区二区三区| 亚洲av日韩av在线观看| 偷亚洲偷国产欧美高清|