摘 要:如何使電力生產(chǎn)管理系統(tǒng)給用戶提供更高效的信息檢索服務(wù),是電力行業(yè)存在的一個(gè)問題。本項(xiàng)目參照傳統(tǒng)的Web搜索引擎模式,結(jié)合本體、索引、預(yù)處理、模式圖技術(shù),開發(fā)的面向電力生產(chǎn)管理系統(tǒng)非結(jié)構(gòu)化數(shù)據(jù)檢索系統(tǒng),系統(tǒng)采用B/S架構(gòu),用戶輸入關(guān)鍵字,發(fā)出檢索請(qǐng)求,向用戶返回根據(jù)排序策略發(fā)回的top-k分級(jí)的檢索結(jié)果,提高了電力生產(chǎn)管理系統(tǒng)的查詢效果。
關(guān)鍵詞:本體;索引;top-k
中圖分類號(hào):TP315
基于關(guān)鍵詞的搜索引擎是目前信息檢索的主要方式,現(xiàn)有的互聯(lián)網(wǎng)搜索引擎主要針對(duì)靜態(tài)網(wǎng)頁進(jìn)行索引,而企業(yè)級(jí)搜索引擎則更多地關(guān)注于文檔、視頻、圖像等非結(jié)構(gòu)化數(shù)據(jù)的檢索。對(duì)于電力應(yīng)用而言,往往同時(shí)需要結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化文本,兩類信息的融合成為一個(gè)核心問題。而目前的企業(yè)級(jí)數(shù)據(jù)都存儲(chǔ)于關(guān)系型數(shù)據(jù)庫中,查詢這些數(shù)據(jù),通常需要結(jié)構(gòu)化的查詢語言來訪問,SQL訪問方式需要查詢用戶知道理解數(shù)據(jù)庫模式,也要懂得復(fù)雜的T-SQL查詢語句,因此一般適合專業(yè)用戶。普通用戶查詢一般通過定制的程序查詢接口來訪問后臺(tái)數(shù)據(jù)庫的數(shù)據(jù),此種查詢方式雖然不要求用戶書寫復(fù)雜SQL查詢語句,但是也要求用戶知道理解數(shù)據(jù)庫模式[1-4]。對(duì)于電力行業(yè),企業(yè)級(jí)非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)于后臺(tái)關(guān)系型數(shù)據(jù)中,鑒于關(guān)鍵詞檢索在非結(jié)構(gòu)化數(shù)據(jù)檢索中的直觀易用性,本文將關(guān)鍵詞查詢技術(shù)應(yīng)用到電力生產(chǎn)管理系統(tǒng)中,像使用百度那樣通過提交關(guān)鍵詞來獲取數(shù)據(jù)庫中的相關(guān)數(shù)據(jù),使用戶可以方便、快速地獲取所需要的查詢結(jié)果,同時(shí)為了滿足市場(chǎng)多樣化需求,該系統(tǒng)設(shè)計(jì)時(shí),對(duì)關(guān)鍵詞檢索進(jìn)行語義檢索擴(kuò)展。
1 系統(tǒng)研究與設(shè)計(jì)
1.1 總體設(shè)計(jì)
根據(jù)關(guān)系數(shù)據(jù)庫和關(guān)鍵詞查詢技術(shù)特點(diǎn),參照傳統(tǒng)的Web搜索引擎模式,結(jié)合本體、索引、預(yù)處理、模式圖技術(shù),系統(tǒng)劃分檢索模塊、語義檢索擴(kuò)展模塊、預(yù)處理模塊。
檢索模塊:實(shí)現(xiàn)電力生產(chǎn)管理系統(tǒng)非結(jié)構(gòu)化數(shù)據(jù)檢索,采用B/S架構(gòu),用戶輸入關(guān)鍵字,發(fā)出檢索請(qǐng)求,向用戶返回根據(jù)排序策略發(fā)回的top-k分級(jí)的檢索結(jié)果。
語義檢索擴(kuò)展模塊:結(jié)合本體、索引技術(shù),實(shí)現(xiàn)電力生產(chǎn)管理系統(tǒng)非結(jié)構(gòu)化數(shù)據(jù)檢索具有語義檢索功能。
預(yù)處理模塊:采用預(yù)處理技術(shù),實(shí)現(xiàn)電力生產(chǎn)管理系統(tǒng)非結(jié)構(gòu)化數(shù)據(jù)檢索系統(tǒng)具有預(yù)處理功能,提高系統(tǒng)查詢效果。
1.2 檢索模塊
該模塊主要有關(guān)鍵詞處理器、元組集生成器、候選網(wǎng)絡(luò)生成器、候選網(wǎng)絡(luò)生成器組成。關(guān)鍵詞處理器:把用戶提交的關(guān)鍵詞集進(jìn)行分詞、消詞等相應(yīng)處理,使連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列,消除其中冗余關(guān)鍵詞和重復(fù)關(guān)鍵詞,從而得到更合理的查詢關(guān)鍵詞集。
元組集生成器:利用數(shù)據(jù)庫管理系統(tǒng)提供的全文檢索功能建立IR引擎,將后臺(tái)關(guān)系型數(shù)據(jù)庫中的具有文本屬性的每個(gè)關(guān)系生成元組集,將那些與處理后的關(guān)鍵詞相關(guān)的非空元組集保留下來,當(dāng)且僅當(dāng)關(guān)系中元組和處理后的關(guān)鍵詞相關(guān)大于零時(shí),該元組才被插入元組集。
候選網(wǎng)絡(luò)生成器:利用元組集生成器生成非空元組集對(duì)關(guān)系數(shù)據(jù)庫模式圖進(jìn)行擴(kuò)展,形成元組集圖,采用相應(yīng)算法擴(kuò)展元組集圖,生成結(jié)點(diǎn)不超過預(yù)定最大允許結(jié)點(diǎn)數(shù)的候選網(wǎng)絡(luò)。所謂候選網(wǎng)絡(luò),也稱元組集連接樹,也是可以看做是要用來產(chǎn)生關(guān)鍵詞查詢潛在結(jié)果的JOIN表達(dá)式[5-6]。
候選網(wǎng)絡(luò)執(zhí)行器:候選網(wǎng)絡(luò)執(zhí)行器采用搜索算法執(zhí)行候選網(wǎng),依據(jù)評(píng)分函數(shù)排序策略,計(jì)算出查詢關(guān)鍵詞和檢索結(jié)果的相似度值,依據(jù)相似度的大小,生成最終top-k查詢結(jié)果返還給用戶。
1.3 語義檢索擴(kuò)展模塊
該模塊結(jié)合本體、索引技術(shù),使用戶可以通過SQE自由選擇是否對(duì)查詢關(guān)鍵詞集進(jìn)行語義擴(kuò)展,將其轉(zhuǎn)變?yōu)榫哂姓Z義關(guān)鍵詞檢索,將該模塊應(yīng)用到項(xiàng)目電力生產(chǎn)管理系統(tǒng)非結(jié)構(gòu)化數(shù)據(jù)檢索系統(tǒng)中,可使得該系統(tǒng)具有語義檢索功能。此方法可有效的提高檢索結(jié)果的查全率,并改善查準(zhǔn)率[7]。
1.4 預(yù)處理模塊
該模塊主要有關(guān)系選擇器、元組集生成器II、元組集圖生成器、候選網(wǎng)絡(luò)生成器、TSCN索引組成。
首先生成數(shù)據(jù)庫模式圖,根據(jù)生成的業(yè)務(wù)數(shù)據(jù)庫模式,關(guān)系選擇器通過特定方法選擇出存儲(chǔ)非結(jié)構(gòu)化數(shù)據(jù)的關(guān)系,并將此關(guān)系看做一個(gè)元組集,根據(jù)關(guān)系的主外鍵依賴關(guān)系,將組合列表的每一種情況進(jìn)行處理,通過元組集圖生成器模塊生成相對(duì)應(yīng)元組集圖,在最大允許候選網(wǎng)絡(luò)的大小的限制下通過候選網(wǎng)絡(luò)生成器模塊廣度優(yōu)先遍歷元組集圖生成候選網(wǎng)絡(luò),并將預(yù)處理后的候選網(wǎng)絡(luò)預(yù)存到CNs數(shù)據(jù)庫中,并建立相應(yīng)的TSCN索引。只要數(shù)據(jù)庫結(jié)構(gòu)不變,預(yù)處理只需要執(zhí)行一次。
2 結(jié)束語
面向電力生產(chǎn)管理系統(tǒng)非結(jié)構(gòu)化數(shù)據(jù)檢索系統(tǒng),可是改變用戶訪問關(guān)系數(shù)據(jù)庫的方式;能夠有效降低非專業(yè)用戶獲取后臺(tái)業(yè)務(wù)數(shù)據(jù)庫的檢索門檻,更有效地使數(shù)據(jù)產(chǎn)生價(jià)值;降低業(yè)務(wù)數(shù)據(jù)檢索的復(fù)雜性,使用戶方便、快捷地獲取有價(jià)值的數(shù)據(jù)信息,綜上所述,面向電力生產(chǎn)管理系統(tǒng)非結(jié)構(gòu)化數(shù)據(jù)檢索系統(tǒng)的應(yīng)用開發(fā)研究具有重要的意思和電力企業(yè)強(qiáng)烈的應(yīng)用背景。
參考文獻(xiàn):
[1]H.He,H.X.Wang,J.Yang, et.al.BLINKS:Ranked Keyword Search on Graphs.The 2007 ACM SIGMOD InternationalConference on Management of Data,Beijing,China,2007:305-316.
[2]G.L.Li,B.C.Ooi,J.H.Feng,et al.EASE: An Effective 3-in-1 Keyword Search Method for Unstructured, Semi-structuredand Structured Data.The 2008 ACM SIGMOD International Conference on Management of Data,Vancouver,BC,Canada, 2008:903-914.
[3]L.Qin, J.X.Yu,L.J.Chang,et al.Querying Communities in Relational Databases.The 25th International Conference onData Engineering, Shanghai,China,2009:724-735.
[4]L.Qin,J.Yu,and L.Chang.Ten Thousand SQLs:Parallel Keyword Queries Computing.In Proc of the 2010 ACMSIGMOD Conf.on Management of Data(SIGMOD 2010).Beijing:ACM,2010.58-69.
[5]Ju Fan,Guoliang Li,Lizhu Zhou.Interactive SQL Query Suggestion:Making Databases User-Friendly.In Proc of the 25thInt’l Conf.on Data Engineering(ICDE 2011),1189-1204.
[6]Yanwei Xu.Scalable Top-k Keyword Search in Relational Databases. Database Systems for Advanced Applications -17th International Conference,DASFAA 2012,Busan,South Korea,April 15-19,2012:65-80.
[7]J.Zhang,Z.Peng.Si-SEEKER: Ontology-based Semantic Search over Databases.The 2006 Knowledge Science,Engineering and Management,F(xiàn)irst International Conference,Guilin,China,2006:599-611.
作者單位:邢臺(tái)職業(yè)技術(shù)學(xué)院 信息系,河北邢臺(tái) 054001