黃曉芹
摘 要: 對于政務網(wǎng)產(chǎn)生的政務信息越來越多,信息組織分散,信息結構多樣的現(xiàn)實問題,如何統(tǒng)一并有效地管理是新一代搜索引擎及信息檢索系統(tǒng)開發(fā)需要解決的問題。文章探討了政務網(wǎng)信息采集和檢索業(yè)務的應用目標,分析了系統(tǒng)的應用需求,從設計和實現(xiàn)的角度闡述了系統(tǒng)的開發(fā)思路、總體框架和主要功能。
關鍵詞: 政務網(wǎng); 搜索引擎; 信息檢索系統(tǒng); 政務信息
中圖分類號:TP399 文獻標志碼:A 文章編號:1006-8228(2013)05-62-04
Design of searching engines and information retrieval system based on government network
Huang Xiaoqin
(Economic information center in Zhejiang Province, Hangzhou, Zhejiang 310006, China)
Abstract: Since information generated by government network has increased greatly, decentralized, and diversified, it is a problem how to unify and manage them effectively in the development of a new generation of search engines and information retrieval system. Application goals of government in information collection and information retrieval system are discussed. The system's application requirements are analyzed. The developing ideas, the general framework and main functions of the system are introduced from the perspective of design and implementation.
Key words: chief network; search engine; information retrieval system; government information
0 引言
近年來,隨著各級政府機關網(wǎng)站內容的不斷豐富,網(wǎng)頁數(shù)量也呈幾何式增加,由此也帶來了一個結果:政府門戶網(wǎng)站或網(wǎng)站群信息量巨大,缺乏一條有效的信息快速獲取的途徑,導致政府機關和社會公眾用戶在相關的政府門戶網(wǎng)站上不知道如何快速找到自己需要或最感興趣的內容,查詢所需要的信息變得越來越困難,網(wǎng)絡信息利用率低。鑒于此,在政務網(wǎng)建設搜索引擎系統(tǒng),采集、處理、存儲政務網(wǎng)上網(wǎng)頁信息,建立網(wǎng)頁文件信息資源庫,向政府機關和社會公眾提供查詢服務,從而實現(xiàn)信息整合和有效利用,就顯得比較重要和必要。
1 基于政務網(wǎng)的搜索引擎及信息檢索系統(tǒng)應用目標
⑴ 網(wǎng)絡信息搜索采集智能化。通過采用智能化的搜索引擎技術及開發(fā)定制的產(chǎn)品,可以方便地實現(xiàn)對信息網(wǎng)上各類信息資源的搜索、自動跟蹤與采集,自動化程度高。
⑵ 信息分析與處理的自動化。對于采集下來的Web頁面及其他格式的信息資源,系統(tǒng)可以通過自動分類、聚類、自動摘要、信息自動抽取及自動標引等應用技術,達到對所采集的信息內容進行自動化的分析與挖掘。
⑶ 海量信息內容的統(tǒng)一管理。通過數(shù)據(jù)庫倉庫系統(tǒng),實現(xiàn)對采集入庫的各類格式的信息資源進行集中統(tǒng)一管理。
⑷ 靈活高效的查詢手段。對于采集與分析的各類Web頁面庫、Web頁面信息索引數(shù)據(jù)庫等數(shù)據(jù)庫,可以方便地掛接到網(wǎng)站上,提供靈活多樣的查詢方式,滿足各層次用戶的實際查詢的需要。
2 基于政務網(wǎng)的搜索引擎及信息檢索系統(tǒng)分析
2.1 應用需求及分析
⑴ 政務網(wǎng)信息資源組織和利用。通過系統(tǒng)的建設,在已有信息資源的基礎上進一步拓寬信息資源渠道,建立完整規(guī)范的系統(tǒng)信息服務的信息資源組織體系,對資源的組織進行規(guī)范和整合,實現(xiàn)對信息服務系統(tǒng)資源的有效分類和管理利用。
⑵ 政務網(wǎng)信息的自動采集。系統(tǒng)盡量依靠對口的業(yè)務信息組織人員負責信息的組織和提供維護,從技術上盡量提供方便的手段;盡量加強對已有系統(tǒng)中資源的利用,技術上采取自動的數(shù)據(jù)采集。通過讓業(yè)務人員而不是技術人員直接完成信息的組織提供業(yè)務系統(tǒng)信息的自動采集,保證資源組織的效率和及時的更新。
⑶ 政務網(wǎng)信息資源個性化檢索服務。對資源進行有針對性的整合與配置,在此基礎上提供更好的個性化檢索服務。
⑷ 業(yè)務系統(tǒng)應用接口。結合典型業(yè)務系統(tǒng)數(shù)據(jù)交換體系建設,實現(xiàn)在分布式環(huán)境下各單位信息的自動采集,在進一步充實信息資源的同時大大提高信息提供的效率,保證信息的及時更新。
2.2 業(yè)務功能需求分析
該系統(tǒng)應適應政務網(wǎng)信息安全系統(tǒng)和數(shù)據(jù)交換系統(tǒng)環(huán)境,為便于系統(tǒng)擴展和獲得較高的性價比,我們考慮采用分層功能結構。
⑴ 信息搜索采集
系統(tǒng)要能夠全面完整地搜索采集各級政府機關網(wǎng)頁信息,隨時搜索采集重點網(wǎng)站和網(wǎng)頁的動態(tài)信息;可以根據(jù)授權搜索采集政務網(wǎng)頁信息,并提供方便的權限設置功能;可以按定義自動搜索采集政務網(wǎng)頁信息,可以記錄網(wǎng)頁中的單位名稱、系統(tǒng)名稱等標識網(wǎng)頁屬性的信息;能夠提供超鏈拓撲搜索,自動地搜索整個政務網(wǎng)中的超鏈信息;提供政務網(wǎng)信息更新搜索;支持用戶自行制定對網(wǎng)頁信息采集和更新的搜索方案和策略,包括設置搜索的范圍、內容、網(wǎng)頁文件類型等;支持對框架(Frame)網(wǎng)頁結構的搜索。
⑵ 信息分析
信息分析作為政府信息網(wǎng)搜索引擎及信息檢索系統(tǒng)分析挖掘的工具,主要提供對采集的Web信息內容進行分析與挖掘等信息二次利用,提高信息的利用效率。
系統(tǒng)應提供自動分類、自動聚類功能,并提供方便的人工維護手段,可以依據(jù)政府信息類別及用戶提出的其他標準和參考信息,對搜集到的政務網(wǎng)上全部網(wǎng)頁信息自動分類,具有多類內容的網(wǎng)頁應分別歸入相應類中,并顯現(xiàn)歸屬類的網(wǎng)頁內容。
⑶ 數(shù)據(jù)庫管理
數(shù)據(jù)庫管理作為下載網(wǎng)頁內容、網(wǎng)頁超鏈拓撲及用戶的客戶端內容管理平臺,向請求服務系統(tǒng)提供各類應用資源庫。資源庫類型如圖1所示。
[數(shù)據(jù)庫管理][聚類信息數(shù)據(jù)庫][主題詞詞庫 ][同義詞詞庫 ][近義詞詞庫 ][熱點詞詞庫 ][限制詞詞庫 ]
圖1 數(shù)據(jù)庫分類圖
另外,通過數(shù)據(jù)庫鏡像功能,從提供鏡像服務的其他搜索引擎服務網(wǎng)站下載數(shù)據(jù),復制數(shù)據(jù)庫。系統(tǒng)提供完備的數(shù)據(jù)庫管理工具,便于維護數(shù)據(jù)庫,控制數(shù)據(jù)庫的安全性、完整性、一致性;可以便捷地建立新的數(shù)據(jù)庫。
⑷ 信息服務
系統(tǒng)提供對網(wǎng)頁內容較全面的查詢服務,包括網(wǎng)頁中文本的索引與摘要信息、全文信息、應用系統(tǒng)定位信息和政務網(wǎng)上的其他信息;網(wǎng)頁間超鏈拓撲結構信息;信息查詢可以提供統(tǒng)一格式的查詢頁面,可以將采集的網(wǎng)頁轉換為格式統(tǒng)一的查詢頁面供查詢用戶瀏覽,查詢頁面應具有特色,方便實用。
查詢系統(tǒng)提供多種查詢方式,包括:類目查詢、查詢詞查詢、任務定制查詢、欄目定制查詢等,并可以將多種查詢方式結合使用。
信息查詢系統(tǒng)提供多種查詢方法,包括模糊查詢、精確查詢、外部特征與正文內容的各種邏輯組合查詢、全方位的位置查詢、二次查詢、漸進查詢等。
⑸ 系統(tǒng)管理
系統(tǒng)管理模塊作為整個系統(tǒng)的管理工具,應提供實用的管理控制功能,保證用戶可以協(xié)調并控制系統(tǒng)運行,進行參數(shù)設置,具有完整的容錯、備份、崩潰修復機制,便于用戶對鏡像站下載、復制數(shù)據(jù)庫。系統(tǒng)具備用戶權限管理功能,提供實用方便的用戶管理界面和查詢界面的維護、修改工具。便于用戶管理人員查詢網(wǎng)頁信息和管理系統(tǒng)。
系統(tǒng)應提供方便的查詢頁面維護手段,以便用戶管理人員自行對頁面增、刪、改。信息查詢系統(tǒng)可以方便地鏈接到各級政府機關網(wǎng)站。
系統(tǒng)應提供系統(tǒng)日志及管理日志功能。
⑹ 應用接口
系統(tǒng)應具有良好的開放性,并能提供相應的開發(fā)接口(包括COM、JavaBeans、C/C++等開發(fā)接口),能夠檢索、處理各種關系型數(shù)據(jù)庫、非結構化數(shù)據(jù)庫中的內容,提供與請求服務系統(tǒng)和其他應用軟件的接口,便于輸出和利用搜索引擎所收集的信息。
2.3 系統(tǒng)性能需求分析
⑴ 查詢性能指標
系統(tǒng)的查詢速度在百G級以下數(shù)據(jù)集合上達到亞秒級,對于查詢請求,應在秒級顯示查詢結果,并且不隨文件數(shù)量增大而降低效率。搜索引擎應具有較強的并發(fā)訪問性能,近期應支持500個用戶同時查詢的要求,查詢速度小于1秒。
系統(tǒng)的查準率應達到90%以上,查全率應達到99%以上。
⑵ 采集更新性能指標
系統(tǒng)按照授權采集政務網(wǎng)上的所有網(wǎng)頁信息,應具有較高的網(wǎng)頁信息更新速度,在傳輸速率10Mb以上的網(wǎng)絡環(huán)境中,網(wǎng)頁信息可以每日更新,在傳輸速率10MB以下的網(wǎng)絡環(huán)境中,網(wǎng)頁信息可以每周更新,任務定制查詢中所需網(wǎng)頁信息可隨時更新。數(shù)據(jù)索引更新時間平均小于0.02秒/記錄(每條記錄4Kb)。
⑶ 網(wǎng)頁文件數(shù)據(jù)庫性能指標
系統(tǒng)采用的網(wǎng)頁文件數(shù)據(jù)庫滿足以下性能指標要求:
① 支持跨平臺的應用,支持各種主流的操作系統(tǒng);
② 支持數(shù)據(jù)庫一對多的單向鏡像;
③ 多線程設計,支持SMP體系結構,支持大量并發(fā)用戶訪問,峰值訪問量滿足1000人/秒。
3 基于政務網(wǎng)的搜索引擎及信息檢索管理系統(tǒng)設計
3.1 總體架構
整個系統(tǒng)采用三層體系框架,①門戶接口層:檢索與服務子系統(tǒng)、管理子系統(tǒng)、資源注冊子系統(tǒng)和交換接口子系統(tǒng);②資源庫子系統(tǒng):網(wǎng)頁數(shù)據(jù)庫、文本數(shù)據(jù)庫和詞典庫;③核心功能層:搜索采集子系統(tǒng)、信息分析子系統(tǒng)、索引子系統(tǒng)和統(tǒng)計分析子系統(tǒng)。
利用Web Service技術實現(xiàn)客戶端和數(shù)據(jù)庫服務器之間的數(shù)據(jù)交互,以達到門戶接口層和核心功能層的分離。
整個系統(tǒng)總體框架結構如圖2所示。
[技術標準規(guī)范] [網(wǎng)頁數(shù)據(jù)庫] [文本數(shù)據(jù)庫] [詞典庫][資源庫子系統(tǒng)][核心功能層][搜索采集
子系統(tǒng)][信息分析
子系統(tǒng)][索引
子系統(tǒng)][統(tǒng)計分析
子系統(tǒng)] [門戶接口層][檢索與服務
子系統(tǒng)][管理
子系統(tǒng)][資源注冊
子系統(tǒng)][交換接口
子系統(tǒng)] [安全保障體系]
圖2 系統(tǒng)框架結構圖
3.2 網(wǎng)絡拓撲結構
基于以上的分布式搜索引擎設計及項目的性能要求,建議采用以下的網(wǎng)絡拓撲結構,如圖3所示。
圖3 網(wǎng)絡拓撲結構圖
兩臺數(shù)據(jù)庫服務器為一組,互為鏡像、動態(tài)切換,一組數(shù)據(jù)庫服務器連接兩臺采集服務器。
在系統(tǒng)運行初期,建議部署兩組數(shù)據(jù)庫服務器,共4臺數(shù)據(jù)庫服務器,配4臺采集服務器。今后隨著網(wǎng)頁數(shù)據(jù)庫內容的增長,可再以組為單位擴充數(shù)據(jù)庫服務器。
Web服務器和應用服務器可配置在一臺PC服務器上,安裝搜索引擎門戶軟件。
另外再部署一臺控制服務器,用以安裝分布式搜索引擎的并發(fā)控制中心以及報錯系統(tǒng)日志。
3.3 功能模塊
[搜索采集 ][信息分析 ][交換與接口][用戶權限][檢索與服務][系統(tǒng)控制 ][統(tǒng)計分析 ][索引資源庫][系統(tǒng)功能]
圖4 系統(tǒng)功能模塊圖
⑴ 搜索采集子系統(tǒng)
網(wǎng)站搜索采集是搜索引擎系統(tǒng)的第一個關鍵性環(huán)節(jié)。只有首先從浩如煙海的網(wǎng)頁中采集到與目標主題相關的大批量的數(shù)據(jù),并且盡量做到完整與準確,才能保證后續(xù)對數(shù)據(jù)進行分析、分類、加工等處理的有效性和準確性。
⑵ 信息分析子系統(tǒng)
采集子系統(tǒng)已經(jīng)生成了原始網(wǎng)頁數(shù)據(jù)集,信息分析子系統(tǒng)是在此基礎之上對網(wǎng)頁內容進行分析處理,生成網(wǎng)頁元數(shù)據(jù)信息、網(wǎng)頁文本摘要、內容分類、關鍵詞等信息,以備后續(xù)的索引和利用。
信息分析子系統(tǒng)根據(jù)功能的不同又可以分為內容提取模塊、分類和聚類模塊、文本過濾模塊、詞典自動生成模塊。
⑶ 交換與接口子系統(tǒng)
經(jīng)過分析的數(shù)據(jù),在檢索門戶上提供查詢請求的WebService服務,以利于其他應用系統(tǒng)查詢和獲取搜索引擎資源庫中的信息,然后,通過數(shù)據(jù)交換區(qū)進行信息安全交換,最終進入數(shù)據(jù)庫服務器。安全交換如圖5所示。
圖5 安全交換示意圖
⑷ 檢索與服務子系統(tǒng)
支持多種檢索運算符;支持包括外部特征與正文內容的各種邏輯組合檢索、多字段復合檢索、距離檢索、二次檢索、歷史檢索、相關詞擴展檢索、分類導航檢索、西文(字符)字段支持前方一致檢索、短語與句子檢索功能等。系統(tǒng)提供基于知識或同義詞典的擴展檢索功能,能夠滿足特殊應用領域的高查準率和高查全率的要求,詞典可維護。支持對檢索結果的各種排序;對檢索結果可按與檢索表達式的相關性和重要性程度排序;基于字段的排序;后進先出的快速排序;系統(tǒng)和主流的關系型數(shù)據(jù)庫管理系統(tǒng)無縫集成;支持對關系型數(shù)據(jù)庫的文本數(shù)據(jù)的檢索能力。
⑸ 用戶權限子系統(tǒng)
系統(tǒng)將用戶分為系統(tǒng)管理員、搜索采集員、數(shù)據(jù)庫管理員、普通查詢用戶四個等級的用戶。用戶根據(jù)自己的權限,各司其職,完成相應的系統(tǒng)維護任務。
表1 用戶角色和操作關系表
[用戶\&操作\&系統(tǒng)管理員\&管理用戶、分配管理權限、設置系統(tǒng)運行參數(shù)、管理系統(tǒng)日志\&搜索采集員\&定義和配置采集域、監(jiān)控采集程序運行、設置采集策略\&數(shù)據(jù)管理員\&管理和維護資源庫,分配資源庫權限,備份、復制數(shù)據(jù)庫\&普通查詢用戶\&根據(jù)授權訪問和查詢資源庫,獲得個性化服務\&]
⑹ 系統(tǒng)控制子系統(tǒng)
控制子系統(tǒng)實現(xiàn)對分布式搜索引擎系統(tǒng)的并發(fā)調度。
分布式搜索引擎是根據(jù)地域、分類、IP地址及其他的劃分標準將全網(wǎng)分成若干個自治區(qū)域,在每個自治區(qū)域內設立一個檢索服務器,而每個檢索服務器由信息搜索機器人、網(wǎng)頁索引數(shù)據(jù)庫和檢索代理三部分組成。
⑺ 索引子系統(tǒng)與資源庫
經(jīng)過信息分析子系統(tǒng)生成的數(shù)據(jù),由索引子系統(tǒng)加載入網(wǎng)頁資源庫中。網(wǎng)頁資源庫包括網(wǎng)頁數(shù)據(jù)庫、網(wǎng)頁文本庫和詞典庫三類。具體流程如圖6所示。
[索引數(shù)據(jù)緩存區(qū)] [檢索門戶][檢索代理] [檢索庫][數(shù)據(jù)采集
數(shù)據(jù)分析][索引模塊] [索引庫][切換控制
模塊]
圖6 索引子系統(tǒng)于資源庫流程圖
⑻ 統(tǒng)計分析子系統(tǒng)
統(tǒng)計管理是在日志的基礎上,提供用戶操作統(tǒng)計、資源分布統(tǒng)計、網(wǎng)站訪問統(tǒng)計等幾種統(tǒng)計功能。
統(tǒng)計項目有:信息資源量;統(tǒng)計按地域、按單位的信息資源量及分布狀況;統(tǒng)計網(wǎng)站網(wǎng)頁數(shù)量;統(tǒng)計查詢詞頻、分類查詢頻度、欄目查詢頻度;統(tǒng)計用戶的訪問頻度和分布狀況。
4 結束語
本文探索研究了政務網(wǎng)搜索引擎及信息檢索系統(tǒng),實現(xiàn)了政務網(wǎng)上的網(wǎng)頁文件信息的抓取,通過加工整合,構建起政務網(wǎng)網(wǎng)頁信息資源庫,實現(xiàn)對網(wǎng)頁信息二次開發(fā)利用,為政務網(wǎng)內各級機關提供快速、簡便地查找信息提供了參考,為推進政務網(wǎng)業(yè)務應用建設積累經(jīng)驗、創(chuàng)造條件。另外,隨著信息時代的到來,政務網(wǎng)上圖片,音、視頻等多媒體信息應用越來越廣泛,如何做好采集后多媒體信息的檢索和關聯(lián)利用是下一步關注的方向和研究的重點。
參考文獻:
[1] GB/T 9385-1988.計算機軟件需求編制指南,2012.
[2] 國務院信息化辦公室和國家標準化管理委員會.電子政務標
準化指南(第二版),2010.
[3] 穆勇,彭凱.政務信息資源目錄體系建設理論與實踐[M].北京大學出
版社,2009.
[4] 基于XML的電子文件格式規(guī)范.
[5] 汪風蘭.軟件體系結構初探[J].計算機時代,2011.8.