樓鳳丹,裴旭斌,王志強,紀德良
(1.國網浙江省電力公司信息通信分公司,浙江杭州 310007;2.浙江華云信息科技有限公司,浙江杭州 310008)
基于云計算及大數據技術的電力搜索引擎技術研究
樓鳳丹1,裴旭斌1,王志強1,紀德良2
(1.國網浙江省電力公司信息通信分公司,浙江杭州 310007;2.浙江華云信息科技有限公司,浙江杭州 310008)
電力營銷經過多年的信息化發(fā)展,企業(yè)內部已經建立大量異構型應用系統(tǒng),產生了大量分散的結構化、半結構化、非結構化數據?;谠朴嬎慵按髷祿夹g的電力"求索"搜索引擎技術,構建集中式數據中心全文檢索的索引,實現對大規(guī)模不同業(yè)務功能和業(yè)務數據的統(tǒng)一檢索,滿足用戶從大量異構業(yè)務系統(tǒng)和海量數據中進行快速檢索的要求。電力"求索"搜索引擎技術基于開源的Elastic Search,利用分布式索引、分布式檢索、分布式緩存技術,實現分布式全文檢索平臺,提供對大規(guī)模索引數據的高效管理與快速、靈活的訪問能力。通過搜索引擎技術,綜合利用文本挖掘、自然語言處理、信息檢索等領域的技術,進一步提高全文檢索的查準率、查全率。該技術的應用,可以滿足大規(guī)模不同業(yè)務數據的統(tǒng)一檢索的需求;并同時滿足大規(guī)模數據檢索請求的快速響應要求。
Elastic Search;電力;云計算;大數據;分布式全文檢索;單點登錄
隨著大數據時代的來臨,數據以極快的速度增長,形成了文本數據、圖片以及聲音視頻等多媒體數據在內的海量數字資源。電力企業(yè)也不可避免地面臨著大數據信息浪潮的沖擊。
經過多年的信息化發(fā)展,電力企業(yè)內部已經建立起很多以SG186營銷業(yè)務應用系統(tǒng)、用電信息采集系統(tǒng)、電力生產調度系統(tǒng)等為代表的應用系統(tǒng),并產生了大量的結構化、半結構化、非結構化數據。這些數據分散在各個業(yè)務系統(tǒng),無法被有效的快速檢索。為了解決企業(yè)信息系統(tǒng)間的數據孤島問題,需要構建集中、統(tǒng)一、穩(wěn)定、高效的檢索平臺,形成覆蓋電力企業(yè)各門類的信息資源共享體系[1-2]。
通常用關系數據庫來存儲結構化數據,再用關系數據庫管理系統(tǒng)(例如ORACLE)管理這些數據,性能一般能滿足用戶檢索要求。但是關系數據庫在存儲大量非結構化數據和稀疏數據時,暴露出一系列問題,其查詢速度也很慢[3-5]。而全文檢索技術能快速高效的查詢這些數據。隨著電力企業(yè)業(yè)務的發(fā)展和企業(yè)規(guī)模的壯大,企業(yè)內的數據量的不斷增長,電力企業(yè)急需搭建自己的全文檢索平臺,如何快速定位所需資料以及如何從大量文本資料中快速找到關鍵信息成為一個難題。由于內涵和外延的深刻變化,全文檢索系統(tǒng)已成為新一代管理信息系統(tǒng)的代名詞,衡量全文檢索系統(tǒng)的基本指標也逐漸形成規(guī)范[6-8]。
本文根據Elastic Search的特點和大數據時代的大量搜索問題,利用云計算及大數據技術,基于Elastic Search,實現以“求索”搜索引擎為核心的電力企業(yè)級分布式全文檢索系統(tǒng),并確保全文檢索系統(tǒng)的高性能、可擴展和可維護的特性。
1.1 云計算及大數據技術
云計算(cloud computing)是繼個人電腦、互聯網之后電子信息技術領域又一次重大變革。其通過虛擬化有效地聚合各類資源;通過網絡化按需供給資源,通過專業(yè)化提供豐富的應用服務;這種新型的計算資源組織、分配和使用模式,有利于合理配置計算資源并提高利用率、降低成本、促進節(jié)能減排,實現綠色計算。大數據是一系列信息技術的集合,包括數據采集、數據管理、計算處理、數據分析和數據展現5個關鍵技術環(huán)節(jié)[9-10]。
電力“求索”搜索引擎,利用阿里大數據計算服務ODPS,實現原始內容數據和索引結果的存儲。大數據計算服務ODPS(open data processing service,簡稱ODPS)是由阿里云自主研發(fā),提供針對TB/PB級數據、實時性要求不高的分布式處理能力,應用于數據分析、挖掘、商業(yè)智能等領域[11-13]。
1.2 分布式技術
隨著業(yè)務的發(fā)展,電力企業(yè)內部數據量與日俱增,電力企業(yè)希望搭建一個分布式全文檢索系統(tǒng),需要用到分布式技術。
分布式技術主要包含分布式計算和分布式存儲2個方面。電力“求索”搜索引擎是分布式存儲的數據源基礎上進行的分布式全文檢索,因此需要研究分布式技術。elastic search是一個實時的分布式搜索和分析引擎,支持云服務。它是基于Apache Lucene搜索引擎的類庫創(chuàng)建的,提供了全文搜索能力、多語言支持、專門的查詢語言、支持地理位置服務、基于上下文的搜索建議、自動完成以及搜索片段(snippet)的能力。
1.3 全文檢索技術
1.3.1 檢索技術
檢索技術就是檢查并索取所需要的文字或資料,從網絡信息、文獻資料等信息集合中查找到所需信息和資料技術。為了進行快速檢索,通常需要對資料中的關鍵詞進行索引。而全文檢索因為其包含信息檢索的徹底性、原始性等特點獲得快速發(fā)展,已經發(fā)展為目前特別高效的檢索技術[14-17]。
1.3.2 全文檢索技術
全文檢索技術,就是以文字文本、音頻、圖片、視頻等數據作為主要處理對象,用以檢索信息的內容,而不是其外表特征的一種檢索技術,它是一種面向全文內容進行搜索的新技術。簡單的全文檢索可以用于進行字符串匹配的,高級全文檢索技術可以開發(fā)出一個對超大文本、音頻、圖片、視頻等非結構化數據進行綜合管理的大型軟件。隨著對全文檢索技術研究的不斷深入和應用的推廣,全文檢索系統(tǒng)已逐漸成為高效企業(yè)管理信息系統(tǒng)的典范。
1.3.3 全文檢索平臺
全文檢索平臺是利用全文檢索技術開發(fā)的系統(tǒng)。全文檢索平臺是基于全文檢索技術的服務系統(tǒng),它主要用于提供全文檢索服務。如圖1所示為一個全文檢索平臺結構圖,其中全文檢索引擎,它是全文檢索平臺的關鍵部分與核心。由圖1可以看出,全文檢索引擎主要包括文本分析,創(chuàng)建索引和查詢索引3大模塊。其中,首先對各種格式的文檔信息以及數據庫數據進行信息抽取,然后根據文件類型選擇不同的文本分析器進行文本分析,再創(chuàng)建索引,生成索引數據庫,即創(chuàng)建索引模塊。檢索模塊當用戶輸入查詢條件時,首先也是進行文本分析,然后從索引數據庫查詢索引,最后將得到的結果返回給用戶。除此之外,一個設計良好的全文檢索系統(tǒng)還應該便于擴展與維護,應能支持形如進行中文處理、日志記錄、支持WORD文檔處理和下載等操作,所以在保證全文檢索高效率的同時,還應該具有開放的框架和體系結構。
圖1 全文檢索平臺結構圖Fig.1 Structure diagram of full-text search platform
1.4 單點登錄技術
單點登錄(single sign on),簡稱為SSO,是目前比較流行的企業(yè)業(yè)務整合的解決方案之一。SSO的定義是在多個應用系統(tǒng)中,用戶只需要登錄一次就可以訪問所有相互信任的應用系統(tǒng)。
單點登錄技術,可以應用于檢索結果的展現。檢索結果的信息來源于各業(yè)務系統(tǒng),例如,電力用戶檔案資料來源于電力SG186營銷業(yè)務系統(tǒng),可以利用單點登錄,實現檢索結果在電力營銷業(yè)務系統(tǒng)的展現,實現良好的用戶體驗。
1.5 自然語言處理技術
由于文本數據以及用戶檢索輸入基本由自然語言構成,因此自然語言處理技術是輔助檢索應用的重要組成部分。自然語言處理技術包括分詞、詞性標注、句法分析、命名實體識別等,這些技術的應用有助于提高檢索系統(tǒng)對數據和用戶檢索語義的理解,從而進一步提高檢索指標如查準率、查全率等。
1.6 Elastic Search
Elastic Search(簡稱ES)是一個基于lucene構建的開源、分布式、RESful搜索引擎。在云計算中,ES能夠達到實時搜索,穩(wěn)定,可靠,快速,支持通過HTTP使用JSON進行數據索引。
ES索引采用倒排索引機制構建索引。倒排索引與正排序索引不同,正排序索引面向文檔,倒排索引面向單詞,存儲的是由一組鍵值對組成的索引項。ES索引數據結構包括項、域、文檔和段,如圖2所示。
圖2 ES索引的數據結構圖Fig.2 ES index data structure diagram
1)項(term):最小的索引單位,直接代表一個關鍵詞以及其在源文檔中的出現位置和出現次數等信息。
2)域(field):一個關聯的元組,包括域名和域值。域名是一個字符串,域值是一個項。
3)文檔(document):包括所有域信息。
4)段(segment):包含若干文檔,若干段組成子索引或索引。
文中敘述了云計算及大數據技術、分布式技術、全文檢索技術、單點登錄技術、自然語言處理技術以及開源Elastic Search搜索引擎。文中利用上述研究成果,設計和開發(fā)基于云計算及大數據技術的電力“求索”搜索引擎全文檢索系統(tǒng),實現elastic search搜索引擎在電力企業(yè)的應用。
當前主要實現電力企業(yè)級數據中心對大規(guī)模不同業(yè)務數據的統(tǒng)一檢索的需求,并對搜索結果,基于原始數據所在系統(tǒng)的不同業(yè)務功能,利用單點登錄技術進行展現。
檢索模塊通過模擬百度、Google等搜索引擎,以電力一線班組關鍵信息檢索為例,達到如圖3所示效果,其中包括對“杭州”、“服務”、“電費回收”等關鍵詞文本的檢索,高亮顯示關鍵詞以及分頁查詢等。
2.1 總體設計
根據功能需求,本文研究開發(fā)以開源軟件elastic search為基礎,以hadoop技術為主,基于阿里的ODPS,應用struts2、spring框架建立一個適用于電力企業(yè)全文檢索引擎系統(tǒng),能做到對企業(yè)內不同業(yè)務系統(tǒng)的全文檢索。同時本系統(tǒng)提供一個簡易的管理界面,管理員登錄可查看索引數據庫,也可以選擇對新增文檔進行增量索引,然后合并到主索引庫中。
電力“求索”搜索引擎全文檢索系統(tǒng)基于elasticsearch,同時利用部分開源的、功能強大和擴展性強的第三方控件進行封裝和二次開發(fā),如hadoop、spark、kafka等。
圖3 檢索效果圖Fig.3 Retrieval effect diagram
為了更好地用戶體驗,本系統(tǒng)還設計了一套簡單美觀的查詢界面。電力“求索”搜索引擎全文檢索系統(tǒng)總體設計如圖4所示。
圖4 搜索引擎全文檢索系統(tǒng)總體設計圖Fig.4 Search engine full-text search system design
2.2 功能設計
針對用戶輸入的關鍵字進行全文檢索,找到最匹配用戶需求的記錄,并針對用戶的輸入及可獲取的其他信息如用戶屬性等,對查詢結果按相關性大小進行排序。系統(tǒng)考慮的主要指標包括:查準率、查全率、響應時間(計算復雜度)等。因此要提供的系統(tǒng)能力包括:
1)對數據的快速全文檢索能力。利用倒排索引,基于反向索引以加速在大規(guī)模文本數據定位相關信息的能力。
2)檢索相關性。衡量檢索能力的基礎指標是查準率和查全率。查準率標志著檢索系統(tǒng)的精確度,即檢出的結果中正確的數據所占的百分比;查全率標志著檢索系統(tǒng)檢出相關信息的能力,即檢出的相關結果與全部相關結果的百分比。
根據業(yè)務和數據等的不同,可以綜合應用多種實現技術以提高檢索指標,如以下常用技術:
1)基于文本的向量空間模型或者概率模型計算數據與用戶檢索輸入的相關性。
2)基于用戶顯式反饋或者偽反饋迭代計算相關性。
3)基于語義聯想(如基于本體或者LDA模型)以提高檢索的查準率和查全率,
4)基于文本挖掘技術如聚類等提高檢索結果的直觀性。
電力“求索”搜索引擎全文檢索系統(tǒng)功能設計如圖5所示。
2.3 集成設計
電力“求索”搜索引擎全文檢索系統(tǒng)包括以下獨立子系統(tǒng):索引數據同步系統(tǒng)、檢索應用、分布式檢索平臺。其內外部之間的集成關系如圖6所示。
數據源來自阿里ODPS、RDS等,通過數據批量抽取工具進行數據批量抽取,利用分布式消息系統(tǒng)kafka進行數據實時同步,分別實現索引批量構建和索引實時構建。檢索應用系統(tǒng)是整個系統(tǒng)的核心,利用分布式數據分析平臺實現分析結果導入、分析數據加載;通過配置ES的jdbc-datasource.xml、odpsdatasource.xml配置文件,實現數據源管理;通過任務管理調度,進行索引構建。
2.4 分詞和字典實現
2.4.1 分詞實現
全文檢索最關鍵的就是把用戶最想要的相關度最高的結果放在最前面,也就是優(yōu)先考慮查準率,再考慮查全率。單漢字分詞在索引和檢索中保證查全率較好,但為了取得更好的相關度,詞典分詞檢索效果更好。分詞應實現:1)支持對中文、英文、數字混合語句進行較正確的分詞;2)支持根據需要選擇多種分詞技術,如一元分詞、N元分詞、基于中文詞典的分詞、基于中文統(tǒng)計模型的分詞等。
圖5 搜索引擎全文檢索系統(tǒng)功能設計圖Fig.5 Search engine full-text retrieval system functional design
圖6 搜索引擎全文檢索系統(tǒng)集成設計圖Fig.6 Search engine full-text retrieval system integration design
2.4.2 字典實現
全文檢索需要一個詞庫,而詞典需要實時更新和維護,如果不維護,隨著業(yè)務的發(fā)展,詞典遲早會跟不上企業(yè)的內部需求。因此,應實現分詞的維護管理?;赪eb,實現對詞典的分類、批量管理,包括:多詞典分類管理、批量增加單詞(支持一個輸入框輸入多個單詞,每個單詞以空格間隔);刪除單詞、分頁展示、搜索、按詞典類別批量導入(支持基于文本形式)。
利用elastic search默認的分詞詞庫構建基本分詞詞庫,主要包括主詞典詞庫、介詞詞庫、量詞詞庫、停用詞詞庫、后綴詞詞庫,姓氏詞庫。此外還可以擴增加基本分詞詞庫擴展、敏感詞詞庫、語義擴展詞詞庫、同義詞詞庫等,并可以自動完成詞詞庫。
Elastic search本身的中文分詞插件效果有待改進,手動添加詞典可以在一定程度上進行彌補。mmseg的分詞機制采用正向最長匹配算法,例如,針對“小時代”這個單詞,其自帶的詞典中沒有包含該詞,故當用戶搜索小時代時,檢索不到任何結果。手動添加新單詞到mmseg的詞庫中,有2種方法:一是將該詞加入到自帶的某個詞典中(非停頓詞詞典),如words-my.dic;二是新建一個自定義詞典,將其放入默認詞庫文件夾下,編碼格式為UTF-8。
2.5 索引模塊構建
由于涉及多個不同系統(tǒng)之間的數據同步,為了滿足檢索系統(tǒng)對數據的一致性、實效性的要求,需要提供不同的數據采集及索引構建策略:
1)數據全量抽取及索引構建。為了保證索引數據與業(yè)務系統(tǒng)數據之間的一致性,系統(tǒng)需要定期對全部索引數據進行重建。
2)實時同步。對于需要實時(準實時)被檢索到的業(yè)務數據,需要進行實時索引數據構建。
3)定期增量同步。由于索引系統(tǒng)獨立于業(yè)務系統(tǒng)或者消息中間件,需要保證異構系統(tǒng)之間的數據一致性。
ES是基于lucene的全文檢索技術,其索引技術的底層實現和lucene—樣。因此將創(chuàng)建索引的過程分為4步:從存放元數據的oracle數據庫獲取數據;解析生成field對象;構建document對象;index writer建立索引。其中field對象的生成是按照oracle數據庫字段和ES索引中字段的對應方式進行,流程如圖7所示。
圖7 ES索引數據庫構建流程圖Fig.7 ES index database construction flow chart
按照以上方法和步驟,構建了基于云計算及大數據技術的電力“求索”搜索引擎全文檢索系統(tǒng)的索引,如圖8所示。
圖8 “求索”搜索引擎全文檢索系統(tǒng)索引圖Fig.8 The“Search”search engine full-text indexing system
2.6 檢索模塊構建
索引創(chuàng)建設計是為了檢索做準備,利用ES提供的檢索功能,結合電力特點,進行良好的界面設計,實現用戶體驗良好的簡潔搜索頁面。檢索模塊包括檢索分析處理和檢索結果處理。檢索頁面如圖9所示。
圖9 ES檢索頁面圖Fig.9 ES retrieves the page map
2.6.1 檢索分析處理
通過對檢索條件進行分析,如通過分詞、主題提取、語義擴展等技術手段,從文本上最大限度地獲取用戶真實需求,構建相應的檢索條件,從而在索引庫里搜索到最可能滿足用戶需求的數據記錄。
檢索分析處理時,基于預建的詞庫,根據用戶的部分輸入,自動提示可能的后續(xù)的未完成部分。如用戶輸入“電”,系統(tǒng)自動提示“電費”、“電量”等一系列可能的輸入。
2.6.2 檢索結果處理
綜合利用結果聚類、自動摘要、數據去重、信息過濾等技術手段,對檢索結果進行處理,以滿足用戶對檢索結果的人性化反饋的需求。
為了更好地展現檢索結果,通過合適的排序,采用單點登錄技術,在對應的業(yè)務系統(tǒng)里展現搜索結果。
基于云計算及大數據技術的電力“求索”搜索引擎全文檢索系統(tǒng)部署完成后,我們對業(yè)務高峰期系統(tǒng)搜索請求量較大的業(yè)務查詢成功量進行了統(tǒng)計。在部署前后一天中選擇了5個業(yè)務高峰時段,分別提取了該5個時間段相同時間點5 s搜索成功量的數據,并計算出每秒搜索成功速率。
經分析得出,系統(tǒng)部署后平均速率達到了每秒496條,相比部署前每秒不足260條的效率提升了近1倍。同時,對數據庫服務器的資源消耗情況也進行了分析。部署ES之前,在業(yè)務高峰時段,數據庫服務器的CPU平均使用率20%以上,內存消耗控制在40%以上;部署ES之后,同等條件下CPU使用率和內存使用率均降到了10%以內。由此可見,ES系統(tǒng)不僅大大提高了搜索效率和用戶滿意度,同時也降低了數據庫服務器資源的消耗,降低了維護成本,保障了系統(tǒng)的穩(wěn)定運行。ES系統(tǒng)性能監(jiān)控如圖10所示。
圖10 ES系統(tǒng)性能監(jiān)控圖Fig.10 ES system performance monitoring chart
本文在深入研究云計算及大數據技術、分布式技術、全文檢索技術、單點登錄技術、分詞技術和全面剖析elastic search相關技術的基礎上,實現了基于云計算及大數據技術的電力“求索”搜索引擎全文檢索系統(tǒng)。結合文本挖掘、自然語言處理、信息檢索和單點登錄等領域的技術,進一步提高全文檢索的查準率、查全率,創(chuàng)新檢索結果在各業(yè)務系統(tǒng)的展現效果。本技術的應用,可以滿足大規(guī)模不同業(yè)務數據的統(tǒng)一檢索的需求;并同時滿足大規(guī)模數據檢索請求的快速響應要求。
[1]劉峰.大數據時代下的數據插補與預測研究[D].蘭州:蘭州大學,2015.
[2]劉曉萌.電力云計算平臺資源調度策略的研究 [D].北京:華北電力大學,2015.
[3]李愛軍,王海濱,鄭曉波.基于推理控制策略的智能型電力搜索引擎的研究[J].西華大學學報(自然科學版),2008,27(6):34-37.LI Aijun,WANG Haibin,ZHENG Xiaobo.Research on intelligent electric power search engine based on inferential control strategy[J].Journal of Xihua University(Natural Science Edition),2008,27(6):34-37(in Chinese).
[4]王德文.基于云計算的電力數據中心基礎架構及其關鍵技術[J].電力系統(tǒng)自動化,2012,36(11):67-71.WANG Dewen.Basic architecture and key technologies of power data center based on cloud computing[J].Automation of Electric Power Systems,2012,36(11):67-71(in Chinese).
[5]張蓮梅,陳世鴻,陳紅梅,等.基于分布式電力資源庫的搜索引擎框架[J].高電壓技術,2005,31(8):66-68.ZHANG Lianmei,CHEN Shihong,CHEN Hongmei,et al.High Voltage Technology,2005,31(8):66-68(in Chinese).
[6]李江華,宋瑋,盧巖,等.基于云技術的整定計算數據中心的構建[J].南方電網技術,2013,6(5):53-56.LI Jianghua,SONG Wei,LU Yan,et al.The construction of cloud computing data center[J].China Southern Power Grid Technology,2013,6(5):53-56(in Chinese).
[7]萬勇.一種基于云計算技術的SCADA系統(tǒng)設計[J].高壓電器,2013,49(7):89-91.WAN Yong.A design of SCADA system based on cloud computing technology[J].High Voltage Electrical Equipment,2013,49(7):89-91(in Chinese).
[8]王健,宋述停,蘭俊美,等.電力需求側大數據應用模型的建立[J].電力與能源,2014,35(3):283-286.WANG Jian,SONG Shuting,LAN Junmei,et al.Establishment of large data application model for power demand side[J].Electric Power and Energy,2014,35(3):283-286(in Chinese).
[9]白紅偉,馬志偉,朱永利.基于云計算的絕緣子狀態(tài)監(jiān)測數據的處理[J].電瓷避雷器,2011(4):19-22.BAI Hongwei,MA Zhiwei,ZHU Yongli.Insulator condition monitoring data based on cloud computing[J].Insulators and Surge Arresters,2011(4):19-22(in Chinese).
[10]張根周.大數據在智能電網領域的應用[J].電網與清潔能源,2016,32(6):114-117.ZHANG Genzhou.Application of big data in smart grid[J].Power Grid and Clean Energy,2016,32(6):114-117(in Chinese).
[11]唐慧.云計算大數據運行控制技術對智能配電網影響的評價研究[J].電力科學與工程,32(4):32-35.TANG Hui.Cloud computing large data operation control technology impact on intelligent distribution network evaluation[J].Power Science and Engineering,32(4):32-35(in Chinese).
[12]曲朝陽,熊澤宇,顏佳,等.基于空間分割的電力大數據三維全景可視化場景管理方法[J].華北電力大學學報:自然科學版,2016,43(2):23-29.QU Zhaoyang,XIONG Zeyu,YAN Jia,et al.A 3D panoramic scene management method for large power data based on spatial segmentation[J].Journal of North China Electric Power University:Natural Science Edition,2016,43(2):23-29(in Chinese).
[13]孫大雁,丁杰,彭林,等.面向多級調度管理的云搜索體系架構研究[J].江蘇電機工程,2013(6):5-7.SUN Dayan,DING Jie,PENG Lin,et al.Research on cloud search architecture for multilevel scheduling management[J].Jiangsu Electric Engineering,2013(6):5-7(in Chinese).
[14]荀挺,張珂珩,薛浩然,等.電網調控數據綜合智能分析決策架構設計[J].電力系統(tǒng)保護與控制,2015,43(11):121-127.XUN Ting,ZHANG Keheng,XUE Haoran,et al,Integrated smart grid control data analysis and decision framework design[J].Power System Protection and Control,2015,43(11):121-127(in Chinese).
[15]熊小伏,陳星田,翁世杰.支撐大數據分析的發(fā)電廠變電站全息錄波方法[J].電力系統(tǒng)保護與控制,2015(22):17-22.XIONG Xiaofu,CHEN Xingtian,WENG Shijie.The power plant substation to support large data analysis of holographic recording method[J].Power System Protection and Control,2015(22):17-22(in Chinese).
[16]衡星辰,周力.分布式技術在電力大數據高性能處理中的應用[J].電力信息與通信技術,2013.HENG Xingchen,ZHOU Li.Application of distributed technology in high power data processing[J].Power Information and Communication Technology,2013(in Chinese).
[17]徐創(chuàng)學,溫新明,周建武,等.基于云計算工業(yè)視頻級聯的生產實時監(jiān)控管理系統(tǒng)開發(fā)與應用[J].熱力發(fā)電,2014(1):27.XU Chuangxue,WEN Xinming,ZHOU Jianwu,et al.Development and application of real-time monitoring and management system based on cloud computing industrial video cascade[J].Thermal Power Generation,2014(1):27(in Chinese).
Research on Power Search Engine Technology Based on Cloud Computing and Large Data
LOU Fengdan1,PEI Xubin1,WANG Zhiqiang1,JI Deliang2
(1.State Grid Zhejiang Information&Telecommunication Company,Hangzhou 310007,Zhejiang,China;2.Zhejiang Huayun Information Technology Co.,Ltd.,Hangzhou 310008,Zhejiang,China)
After years of information technology development,the enterprise has established a large number of heterogeneous applications,resulting in a large number of distributed structured,semi-structured,unstructured data.Based on the cloud computing and large data technology,the“Search”search engine technology builds a centralized data center full-text index,achieving large-scale business functions and business data of the unified search to meet the user from a large number of heterogeneous business systems and mass data for rapid retrieval requirements.The search engine technology is based on the open source Elastic Search,with the use of distributed index,distributed search,distributed cache technology to achieve distributed full-text search platform to provide largescale index data,efficient management and fast,flexible access.With the help of search engine technology,text search,natural language processing and information retrieval are combined to improve the precision and recall of full-text retrieval.The application of this technology can meet the needs of largescale unified search of different business data,and can meet simultaneously the rapid response request of large-scale data retrieval request.
Elastic Search;power;cloud computing;large data;distributed full-text retrieval;single sign-on
2016-04-18。
樓鳳丹(1963—),女,碩士研究生,高級工程師,主要從事電力系統(tǒng)及其自動化技術研究工作。
(編輯 張曉娟)
國網浙江省電力公司信息化建設項目(7111XT150 015)。
Project Supported by The State Grid Zhejiang Electric Power Company Information Construction(7111XT150015).
1674-3814(2016)12-0086-07
TM64;TM743
B