梁蕙瑋 王志庚 (國家圖書館 北京 100081)
政府信息公開是提高政府科學執(zhí)政、民主執(zhí)政、依法執(zhí)政能力,構(gòu)建社會主義和諧社會的必然要求。《中華人民共和國政府信息公開條例》[1](以下簡稱《條例》)實施1年以來,各地政府在政府信息公開專欄、政府信息公開目錄建設(shè)等方面做了大量的工作。但要進一步提升我國政府公開信息的服務(wù)水平,必須充分重視對海量政府公開信息進行科學的組織與整合,為公民提供統(tǒng)一的開放的信息服務(wù)平臺,使公眾可以方便、快捷、一站式地獲取政府公開信息。
國家圖書館(以下簡稱我館)作為國家的重要文化基礎(chǔ)設(shè)施,一直致力于推動我國公眾文化信息共享事業(yè)的發(fā)展,是公眾獲取信息的重要窗口;作為從事信息資源組織與管理的專業(yè)機構(gòu),對于政府公開信息的整合亦責無旁貸。為此,國家圖書館對政府信息的整合進行了深入的研究,并于2009年4月30日推出了我國首個政府信息整合平臺——“中國政府公開信息整合服務(wù)平臺”(以下簡稱平臺)(http://govinfo.nlc.gov.cn/)。平臺的開通是國家圖書館為公眾服務(wù)、為政府服務(wù)的一項重要舉措,開創(chuàng)了圖書館對政府信息資源整合與利用的先河,更是國家圖書館創(chuàng)新服務(wù)手段、提高服務(wù)水平的重要體現(xiàn)。
“中國政府公開信息整合服務(wù)平臺”的建設(shè)目標是根據(jù)《條例》賦予的職責,全面采集并整合我國各級政府公開信息,構(gòu)建一個方便、快捷的政府公開信息整合服務(wù)門戶,使用戶能夠一站式地發(fā)現(xiàn)并獲取政府公開信息資源及得到相關(guān)服務(wù)。該平臺不僅能成為公眾獲取政府信息的窗口、政府部門公開信息的重要渠道,同時也將為各級公共圖書館依法開展政府信息服務(wù)提供基礎(chǔ)資源,成為圖書館開展所有政府信息服務(wù)的基礎(chǔ)資源平臺,使圖書館成為中國政府公開信息資源的保存者、整合者、傳播者。平臺的整體框架見圖1。
首先是資源的獲取。對于資源的獲取,目前我們采用機器自動采集的方式,將各政府網(wǎng)站上的相關(guān)信息采集到我館。同時我們也考慮下一步與政府部門開展合作,通過政府部門定期提交資源的方式獲取政府公開信息;采集到我館的信息經(jīng)過信息過濾、信息抽取、自動分類等智能處理后,按我們設(shè)計的數(shù)據(jù)庫結(jié)構(gòu)自動地生成政府公開信息庫、政府公報庫、政府機構(gòu)庫(今后還可以考慮在公眾比較關(guān)注的熱點領(lǐng)域創(chuàng)建一些專題數(shù)據(jù)庫),并且我們還將這3個數(shù)據(jù)庫的內(nèi)容與我館印本文獻信息、網(wǎng)絡(luò)采集信息資源進行整合,對外提供服務(wù)(如信息瀏覽、信息檢索等)。另外,還可以通過文獻傳遞服務(wù)提供印刷版政府信息的復制等。
對于該平臺,我館采用了邊建設(shè)邊服務(wù)的策略。目前,該平臺已完成了中央政府及其組成機構(gòu)、各省及省會城市的上百家人民政府網(wǎng)站上政府公開信息欄目下資源的采集與整合,形成政府信息、政府公報和政府機構(gòu)三大部分內(nèi)容,其信息量超過40萬條,收錄時間跨度已超過10年,同時與國家圖書館的館藏資源進行了整合,此外還收集整理政府機構(gòu)3 000余家,為公眾的查詢提供服務(wù)。
“中國政府公開信息整合服務(wù)平臺”采用先進的系統(tǒng)構(gòu)建方法、智能化及人性化的信息服務(wù)與檢索方式。其設(shè)計目標是要建立一個安全、穩(wěn)定、準確、及時、全面的政府公開信息整合服務(wù)系統(tǒng),并且整個系統(tǒng)在總體設(shè)計上遵循開放、可擴展、經(jīng)濟、安全的原則,從而使整個系統(tǒng)結(jié)構(gòu)合理、技術(shù)先進、易于擴展,既能滿足當前的業(yè)務(wù)數(shù)據(jù)處理要求,又符合長期發(fā)展的需要。系統(tǒng)軟件架構(gòu)如圖2。
在應(yīng)用功能層,主要設(shè)計了項目所需的各個應(yīng)用系統(tǒng)或功能模塊,包括網(wǎng)絡(luò)信息采集系統(tǒng)、數(shù)據(jù)加工系統(tǒng)、信息發(fā)布系統(tǒng)、資源檢索系統(tǒng)等,各系統(tǒng)的技術(shù)實現(xiàn)如下:
在本項目中,為了完成系統(tǒng)的網(wǎng)絡(luò)信息采集任務(wù),針對采集網(wǎng)站數(shù)量多、信息海量的特點,我們采用了分布式體系結(jié)構(gòu)以實現(xiàn)高速網(wǎng)頁采集,具體的技術(shù)應(yīng)用包括信息智能化采集,以實現(xiàn)各采集工作站任務(wù)均衡、各網(wǎng)站信息的更新;使用了采集任務(wù)集中控制,多臺采集工作站分布采集的方式,實現(xiàn)可擴展的系統(tǒng);采用多線程并發(fā)采集和控制,將采集模塊分別安裝在不同的采集工作站上,實現(xiàn)多采集工作站協(xié)同工作的模式,從而支持對大量網(wǎng)站的實時采集。
3.2.1 信息自動分析和標引
為了滿足本系統(tǒng)的應(yīng)用,采集到的網(wǎng)頁等信息對象必須經(jīng)過以下智能化處理:正文內(nèi)容提取——通過結(jié)構(gòu)分析的方法確定信息對象的正文、圖片及表格內(nèi)容,自動剔除廣告、導航信息等與主體信息無關(guān)的信息;格式自動轉(zhuǎn)換——自動將HTML等格式文件轉(zhuǎn)換為TXT文件,以方便再加工;屬性自動標引——分析出信息對象的名稱、文號、發(fā)布機構(gòu)、分類等屬性,分析并標注這些屬性信息(元數(shù)據(jù)自動提?。?;內(nèi)碼自動轉(zhuǎn)換——將網(wǎng)頁等信息對象中可能會包含的多種中文內(nèi)碼(如繁體Big5,簡體GB2312、GBK,Unicode等)轉(zhuǎn)換成統(tǒng)一的中文內(nèi)碼,以便統(tǒng)一管理。
3.2.2 漢語分詞
漢語分詞系統(tǒng)是實現(xiàn)實體抽取標引與中文智能檢索的基礎(chǔ),也是實現(xiàn)全文數(shù)據(jù)庫和其他模塊功能的重要基礎(chǔ)。該系統(tǒng)內(nèi)嵌漢語自動分詞系統(tǒng)和多種分詞詞典(包括默認分詞詞典、附加分詞詞典、停用詞典、附加停用詞典、稀疏元組詞典和單字詞典),可實現(xiàn)規(guī)則與統(tǒng)計相結(jié)合的分詞技術(shù);可以準確識別人名、地名、組織結(jié)構(gòu)名等信息;可以提供詞性標注信息;系統(tǒng)同時內(nèi)嵌分詞歧義規(guī)則庫,可以有效解決大部分的切分歧義。
3.2.3 信息自動過濾
自動過濾包括除噪和內(nèi)容過濾兩部分,除噪是指對網(wǎng)頁無關(guān)內(nèi)容進行過濾處理,如剔除廣告、頻道導航、版權(quán)信息等噪聲信息,為后續(xù)的智能化處理、建立查詢索引及純文本保存提供干凈的內(nèi)容;內(nèi)容過濾是識別和過濾各種有害文本信息(如色情、反動、封建迷信、商業(yè)垃圾郵件等),從而擺脫有害信息的侵擾。
3.2.4 自動分類
自動分類是指利用計算機,根據(jù)文獻內(nèi)容進行類別劃分。本項目基于系統(tǒng)的分類模塊來實現(xiàn)對政府信息從主題、題材、機構(gòu)等多個維度的分類標引。自動分類功能支持基于語義規(guī)則的自動分類(機檢分類)和基于統(tǒng)計原理(基于內(nèi)容)的自動分類兩種方法。用戶可以自由維護分類詞表,人工添加或修改規(guī)則。詞表大小沒有限制,規(guī)則分類支持多條件的與、或、非關(guān)系,具有設(shè)定詞頻數(shù)功能,并提供方便的規(guī)則定義界面。
3.2.5 自動排重
自動排重需要使用相似性檢索技術(shù)。相似性檢索是指對于給定樣本文獻,在文獻數(shù)據(jù)集合中查找出與之內(nèi)容相似的文獻的技術(shù)。相似性檢索技術(shù)需要在文獻數(shù)字化表示(比如空間向量模型VSM)的基礎(chǔ)上,通過計算文獻之間的相似程度(向量之間的距離)給出文獻之間的相關(guān)度指標。實踐表明,相似性檢索技術(shù)可以達到很好的網(wǎng)絡(luò)內(nèi)容自動排重、相關(guān)文章推薦效果。相似性檢索的算法主要是基于特征詞的提取和倒排索引技術(shù),在效率上能達到百萬級資料庫的秒級響應(yīng)速度。
系統(tǒng)采用Oracle數(shù)據(jù)庫作為原始信息存儲,并且為實現(xiàn)高效的信息整合存儲與全文檢索,系統(tǒng)引入了全文數(shù)據(jù)庫系統(tǒng),提供基于多種索引模式和知識詞典的全文檢索,并提供自然語言檢索和相似性檢索等全方位智能檢索。全文數(shù)據(jù)庫同時支持結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的存儲管理,并且實現(xiàn)了Native-XML數(shù)據(jù)庫功能,具備強大的結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化信息的處理和檢索能力。它是整個搜索引擎的數(shù)據(jù)倉儲中心,也是整個搜索引擎的檢索動力核心,同時,結(jié)合全文檢索網(wǎng)關(guān)實現(xiàn)完整的數(shù)據(jù)存儲。
在本系統(tǒng)中通過全文檢索網(wǎng)關(guān)來接入關(guān)系數(shù)據(jù)庫,同步其中的數(shù)據(jù)到全文數(shù)據(jù)庫中建立索引,依靠全文數(shù)據(jù)庫服務(wù)器系統(tǒng)強大的檢索功能和高效的檢索性能來為上層的檢索應(yīng)用系統(tǒng)提供核心的檢索動力支撐。在應(yīng)用層基于全文數(shù)據(jù)庫系統(tǒng)實現(xiàn)后臺數(shù)據(jù)庫中信息的對外發(fā)布及檢索交互、結(jié)果表現(xiàn)等功能,為上層提供包括門戶構(gòu)建、政府信息資源搜索等信息服務(wù)。
為了使檢索系統(tǒng)具備強大的檢索性能及高度的穩(wěn)定可靠性,本方案采用了2臺全文數(shù)據(jù)庫服務(wù)器及1臺集群服務(wù)器構(gòu)成檢索的集群,并且該集群架構(gòu)中的全文數(shù)據(jù)庫采用數(shù)據(jù)鏡像方式,數(shù)據(jù)可在2臺服務(wù)器上相互鏡像存儲,每臺服務(wù)器可存儲另一臺服務(wù)器的部分或全部索引數(shù)據(jù)。
搜索引擎系統(tǒng)部署以后,因需要索引和提供服務(wù)的信息會隨著時間的推移和應(yīng)用的需求而不斷增加。數(shù)據(jù)和用戶數(shù)量的不斷增長,會對搜索引擎系統(tǒng)的負載能力和擴展能力提出更高的要求。
本系統(tǒng)中采用的全文數(shù)據(jù)庫服務(wù)器支持以集群模式來搭建搜索系統(tǒng)的核心部分——數(shù)據(jù)存儲索引中心。當前架構(gòu)無法滿足增長的搜索需求情況時,可通過多臺全文數(shù)據(jù)庫服務(wù)器以分組的形式對需要檢索的數(shù)據(jù)進行分布存儲或鏡像存儲。在全文數(shù)據(jù)庫集群結(jié)構(gòu)之上,系統(tǒng)通過引入全文數(shù)據(jù)庫集群服務(wù)器對搜索集群中的各臺服務(wù)器進行統(tǒng)一的請求調(diào)度。
全文數(shù)據(jù)庫集群服務(wù)器是架構(gòu)在多個物理全文檢索數(shù)據(jù)庫服務(wù)器之上的分布式管理系統(tǒng),它支持數(shù)據(jù)分布及負載均衡兩種基本分布方式,并支持兩種方式的組合運用。
平臺向公眾開放服務(wù)后,受到了各方人士的關(guān)注。我們對近半年來的使用情況進行了統(tǒng)計,力圖根據(jù)公眾的實際需求對平臺的發(fā)展進行調(diào)整,為公眾提供更好的服務(wù)。統(tǒng)計包括如下指標:
頁面瀏覽量:統(tǒng)計實際被點擊的網(wǎng)頁數(shù)量,“頁面瀏覽量”往往被用來衡量網(wǎng)站內(nèi)容的受歡迎程度和被訪問情況。
唯一訪問者數(shù):是指訪問網(wǎng)站的IP數(shù)量。
網(wǎng)粘度:是指在某指定時間內(nèi)所有用戶每次訪問網(wǎng)站所用時間的平均值。
回訪數(shù):是指非第一次訪問網(wǎng)站的用戶數(shù)量。
訪問深度:指用戶每次訪問網(wǎng)站時被請求的網(wǎng)頁的數(shù)目。
統(tǒng)計結(jié)果如表1。
表1 中國政府公開信息整合服務(wù)平臺部分數(shù)據(jù)統(tǒng)計表
由表1可以看出,平臺的頁面瀏覽量從最初5月的25 761頁驟增到8月的1 438 326頁,盡管9、10月頁面瀏覽量有所下降,但半年來平臺頁面總訪問量已達到256萬頁;平臺的唯一訪問者數(shù)從5月剛開通時的1 953人,猛增到6月的7 314人,其后的幾個月也在穩(wěn)定地持續(xù)增長(10月盡管表面看上去有所下降,實際上是因為國慶節(jié)8天沒有提供服務(wù));平臺的網(wǎng)粘度基本上維持在12分到18分之間;每月的回訪數(shù)都保持在4 000以上;用戶每次訪問20個頁面以上的已經(jīng)占了訪問總量的32%-40%。
以上統(tǒng)計數(shù)據(jù)反映出在為公眾提供政府信息的服務(wù)中,平臺起到了一定的作用。另外,我們也對訪問者所屬地區(qū)進行了統(tǒng)計分析:到目前為止,訪問者遍布國內(nèi)各地(除西藏外),同時也有來自美國、韓國、日本、澳大利亞等30多個其他國家的用戶對平臺進行了訪問,這也反映出平臺受眾之廣、影響力之大。
當然,由于平臺的建設(shè)剛剛起步,有些工作還未開展,尤其是對外的合作與宣傳還遠遠不夠,這也造成了公眾對平臺的知曉度不高,故平臺還未充分發(fā)揮它應(yīng)有的價值。
5.1.1 缺乏法律保障
《條例》規(guī)定了政府信息應(yīng)當在圖書館公開,但并沒有對政府本身進行強制性的規(guī)定。圖書館作為政府信息公開法定的服務(wù)主體,它所提供的公開信息資源來源于政府機關(guān),但在目前,圖書館對于政府信息的獲取還處于被動地去各個政府網(wǎng)站上抓取的狀態(tài),這對政府信息的整合服務(wù)很不利。圖書館能否成為一個合格的信息公開服務(wù)主體,在很大程度上取決于圖書館能否與政府機關(guān)形成一個雙贏的協(xié)調(diào)機制,這個機制主要來源于法律制度的保障。
5.1.2 缺少規(guī)?;ㄔO(shè)
目前只有國家圖書館對國家層面上的政府公開信息進行開發(fā),但是對于全國的政府公開信息的整合與服務(wù),不是一家圖書館能完成的。任何一家圖書館對政府信息資源的組織服務(wù),都很難照顧到其層級或其他地方的特殊問題。我們在平臺的開發(fā)和建設(shè)中也是困難重重。
平臺的建設(shè)涉及到資源的自動采集、自動分類標引及資源的保存與服務(wù)等多方面的技術(shù),許多方面都處于探索研究階段,會遇到多種問題:
5.2.1 資源采集的問題
盡管在先期我們定義只采集政府信息公開欄目下的內(nèi)容,但是由于該欄目本身的情況參差不齊,有的政府把正式的公文公報法律法規(guī)整合到信息公開欄目;而有的政府雖然設(shè)置了信息公開欄目,但是僅放了一些目錄而沒有內(nèi)容,或是放了一些動態(tài)新聞;還有的直接就鏈到了網(wǎng)站的其他內(nèi)容,這就給信息的采集造成了很大的困難,因為機器很難區(qū)分哪些是要采集的信息,哪些是無用的信息。所以在后期,對數(shù)據(jù)修改所花費的時間比前期建設(shè)的時間還要長許多倍。到目前為止,還有一些有問題的數(shù)據(jù)混雜在其中。
5.2.2 資源分類的問題
目前平臺的主題分類僅為一級分類,即22個類目。對于數(shù)十萬條的政府信息來說,基本上每一類數(shù)據(jù)都可以有幾百頁以上的結(jié)果,這樣的分類是遠遠不能滿足用戶的需求的;對于檢索技巧不是很高的用戶來說,要想通過瀏覽的方式找到相關(guān)的資源其難度也是很高的,因此我們還需要對分類進行細化,進行二級、三級甚至四級分類。而且現(xiàn)在發(fā)布的平臺僅保留主題分類的方式,但對于政府信息還可以從其他角度進行分類查找,比如說信息的類型,諸如公報、法律法規(guī)、統(tǒng)計數(shù)據(jù)或是動態(tài)信息。在這方面,我們做了初步的嘗試,但是由于政府信息本身的多樣性及海量性,目前自動分類的效果還很難達到理想的狀態(tài)。
5.2.3 數(shù)據(jù)質(zhì)量的問題
數(shù)據(jù)質(zhì)量的問題主要體現(xiàn)在數(shù)據(jù)準確性上。數(shù)據(jù)準確性問題在機構(gòu)信息中最為明顯,主要是因為機構(gòu)信息中動態(tài)的信息比較多,如政府機構(gòu)的人事變動,原網(wǎng)站有可能將發(fā)生變動的人的網(wǎng)頁撤除了,當我們再次采集時,無法采到新的信息,這就很難對已經(jīng)采集并發(fā)布的原始網(wǎng)頁進行更新,從而導致頁面出現(xiàn)部分信息不準確的現(xiàn)象。另外,平臺在數(shù)據(jù)的時效性和全面性方面也還有所欠缺。
5.2.4 資源保存的問題
在資源的保存上,我們采用兩種方式,一種是保存純文本,提供檢索與瀏覽的常規(guī)服務(wù);另一種是保存網(wǎng)頁的原貌,以應(yīng)對原始網(wǎng)頁消失的問題。但目前,對于一些特殊格式的網(wǎng)頁,我們不能原汁原味地保存網(wǎng)頁的全貌。
標準規(guī)范是信息資源一致性及平臺擴展的基本保證,應(yīng)圍繞信息采集、組織、分類、保存、發(fā)布與使用等信息生命周期各環(huán)節(jié)建立相應(yīng)的規(guī)范與標準。但在本平臺的建設(shè)中,標準規(guī)范的建設(shè)還不完善,除元數(shù)據(jù)標準、分類標準外,其他環(huán)節(jié)的標準規(guī)范還有所欠缺。這主要是因為平臺建設(shè)處于初創(chuàng)階段,還有許多標準規(guī)范的建設(shè)有待盡快開展。
目前,國家圖書館所建設(shè)的平臺,采集整合了中央政府及其組成機構(gòu)和省人民政府的信息。這個平臺只是我館所構(gòu)想的中國政府公開信息整合服務(wù)平臺的一小部分。我館所設(shè)想的平臺宜走聯(lián)盟化發(fā)展的道路,即由國家圖書館牽頭,聯(lián)合國內(nèi)各省、市公共圖書館及部分重點區(qū)縣圖書館成立政府信息整合服務(wù)聯(lián)盟,共同打造一個可以讓各個圖書館共同參與建設(shè)的大規(guī)模集中式的政府信息整合服務(wù)平臺,通過該平臺各個聯(lián)盟成員館可以采集整合各自行政區(qū)域的政府信息,實現(xiàn)分層建設(shè)、共建共享,同時還可以實現(xiàn)個性化展示和統(tǒng)一展示的完美結(jié)合,為公眾提供更完善的政府信息服務(wù)。
政府信息的整合與服務(wù)僅靠圖書館的熱情是遠遠不夠的,除在公共圖書館界開展合作共建、走聯(lián)盟化發(fā)展的道路外,還需要和政界、學界、法律界及各類從事信息檢索的單位合作。一方面可以爭取政策上的支持,甚至是法律上的保障,從而確立圖書館在政府信息公開中的地位,為平臺的進一步發(fā)展創(chuàng)造條件;另一方面也可將相關(guān)單位的研究成果及經(jīng)驗納入到平臺的建設(shè)中,從而進一步推進平臺標準化、規(guī)范化建設(shè)。
目前,平臺以規(guī)范性的文件為主,像公文、公報、法律法規(guī),但還有大量的其他類型的政府信息沒有涉及,如各種統(tǒng)計數(shù)據(jù)、電子政務(wù)項目,另外還有大量的“泛”政府信息,也就是公開目錄未涉及的相關(guān)內(nèi)容,如政府組織的各類會議和公共活動的相關(guān)報道、政府官員出席活動的講話或者政府官員的博客。如果對這些信息進行深度的挖掘,做到全方位的整合,將能給公眾展示某一事件的全貌,或給政府機構(gòu)決策提供參考。如國務(wù)院發(fā)布一個條例后,會產(chǎn)生相關(guān)的新聞快訊、條例解讀,這種條例流轉(zhuǎn)可以衍生成不同的信息,并且條例的頒布還能在社會上產(chǎn)生不同的影響、導致各種事件的發(fā)生,進而又產(chǎn)生新的條例,等等。將這些信息進行分析,挖掘信息之間的關(guān)聯(lián)關(guān)系,實現(xiàn)基于語義分析的政府信息關(guān)聯(lián),做到多類型政府信息資源的深度整合與服務(wù)將是政府信息整合的一個重要發(fā)展方向。
政府信息整合服務(wù)的展現(xiàn)方式是可以多種多樣的,網(wǎng)站只是其中之一,還可以通過觸摸屏、手機、電視等不同的方式向用戶提供服務(wù)。目前,國家圖書館已經(jīng)實現(xiàn)了網(wǎng)站和觸屏的服務(wù),都受到了用戶的好評,后續(xù)國家圖書館還將考慮通過手機或數(shù)字電視的方式為用戶提供服務(wù),讓用戶可以隨時隨地地獲取到政府公開信息。
中國政府公開信息整合服務(wù)平臺的建設(shè)是國家圖書館依照《條例》在政府信息領(lǐng)域開展整合服務(wù)的探索與嘗試,這對于政府機構(gòu)、公共圖書館乃至公眾來說都是一個新生的事物。如何能以平臺為基礎(chǔ),為公眾、政府、圖書館提供政府信息服務(wù)還有很多問題需要研究,為此,國家圖書館還將繼續(xù)努力,不僅聯(lián)合全國各級公共圖書館結(jié)成“全國圖書館政府公開信息服務(wù)聯(lián)盟”,同時還要加強和政府部門的聯(lián)系,增進同專家學者的交流,團結(jié)一切可以團結(jié)的力量,共同做好政府信息的整合服務(wù)工作。
[1]中華人民共和國政府信息公開條例[EB/OL].[2009-10-28].http://www.gov.cn/zwgk/2007-04/24/content_592937.htm.