梁蕙瑋 王志庚 (國(guó)家圖書館 北京 100081)
政府信息公開是提高政府科學(xué)執(zhí)政、民主執(zhí)政、依法執(zhí)政能力,構(gòu)建社會(huì)主義和諧社會(huì)的必然要求?!吨腥A人民共和國(guó)政府信息公開條例》[1](以下簡(jiǎn)稱《條例》)實(shí)施1年以來(lái),各地政府在政府信息公開專欄、政府信息公開目錄建設(shè)等方面做了大量的工作。但要進(jìn)一步提升我國(guó)政府公開信息的服務(wù)水平,必須充分重視對(duì)海量政府公開信息進(jìn)行科學(xué)的組織與整合,為公民提供統(tǒng)一的開放的信息服務(wù)平臺(tái),使公眾可以方便、快捷、一站式地獲取政府公開信息。
國(guó)家圖書館(以下簡(jiǎn)稱我館)作為國(guó)家的重要文化基礎(chǔ)設(shè)施,一直致力于推動(dòng)我國(guó)公眾文化信息共享事業(yè)的發(fā)展,是公眾獲取信息的重要窗口;作為從事信息資源組織與管理的專業(yè)機(jī)構(gòu),對(duì)于政府公開信息的整合亦責(zé)無(wú)旁貸。為此,國(guó)家圖書館對(duì)政府信息的整合進(jìn)行了深入的研究,并于2009年4月30日推出了我國(guó)首個(gè)政府信息整合平臺(tái)——“中國(guó)政府公開信息整合服務(wù)平臺(tái)”(以下簡(jiǎn)稱平臺(tái))(http://govinfo.nlc.gov.cn/)。平臺(tái)的開通是國(guó)家圖書館為公眾服務(wù)、為政府服務(wù)的一項(xiàng)重要舉措,開創(chuàng)了圖書館對(duì)政府信息資源整合與利用的先河,更是國(guó)家圖書館創(chuàng)新服務(wù)手段、提高服務(wù)水平的重要體現(xiàn)。
“中國(guó)政府公開信息整合服務(wù)平臺(tái)”的建設(shè)目標(biāo)是根據(jù)《條例》賦予的職責(zé),全面采集并整合我國(guó)各級(jí)政府公開信息,構(gòu)建一個(gè)方便、快捷的政府公開信息整合服務(wù)門戶,使用戶能夠一站式地發(fā)現(xiàn)并獲取政府公開信息資源及得到相關(guān)服務(wù)。該平臺(tái)不僅能成為公眾獲取政府信息的窗口、政府部門公開信息的重要渠道,同時(shí)也將為各級(jí)公共圖書館依法開展政府信息服務(wù)提供基礎(chǔ)資源,成為圖書館開展所有政府信息服務(wù)的基礎(chǔ)資源平臺(tái),使圖書館成為中國(guó)政府公開信息資源的保存者、整合者、傳播者。平臺(tái)的整體框架見圖1。
首先是資源的獲取。對(duì)于資源的獲取,目前我們采用機(jī)器自動(dòng)采集的方式,將各政府網(wǎng)站上的相關(guān)信息采集到我館。同時(shí)我們也考慮下一步與政府部門開展合作,通過(guò)政府部門定期提交資源的方式獲取政府公開信息;采集到我館的信息經(jīng)過(guò)信息過(guò)濾、信息抽取、自動(dòng)分類等智能處理后,按我們?cè)O(shè)計(jì)的數(shù)據(jù)庫(kù)結(jié)構(gòu)自動(dòng)地生成政府公開信息庫(kù)、政府公報(bào)庫(kù)、政府機(jī)構(gòu)庫(kù)(今后還可以考慮在公眾比較關(guān)注的熱點(diǎn)領(lǐng)域創(chuàng)建一些專題數(shù)據(jù)庫(kù)),并且我們還將這3個(gè)數(shù)據(jù)庫(kù)的內(nèi)容與我館印本文獻(xiàn)信息、網(wǎng)絡(luò)采集信息資源進(jìn)行整合,對(duì)外提供服務(wù)(如信息瀏覽、信息檢索等)。另外,還可以通過(guò)文獻(xiàn)傳遞服務(wù)提供印刷版政府信息的復(fù)制等。
對(duì)于該平臺(tái),我館采用了邊建設(shè)邊服務(wù)的策略。目前,該平臺(tái)已完成了中央政府及其組成機(jī)構(gòu)、各省及省會(huì)城市的上百家人民政府網(wǎng)站上政府公開信息欄目下資源的采集與整合,形成政府信息、政府公報(bào)和政府機(jī)構(gòu)三大部分內(nèi)容,其信息量超過(guò)40萬(wàn)條,收錄時(shí)間跨度已超過(guò)10年,同時(shí)與國(guó)家圖書館的館藏資源進(jìn)行了整合,此外還收集整理政府機(jī)構(gòu)3 000余家,為公眾的查詢提供服務(wù)。
“中國(guó)政府公開信息整合服務(wù)平臺(tái)”采用先進(jìn)的系統(tǒng)構(gòu)建方法、智能化及人性化的信息服務(wù)與檢索方式。其設(shè)計(jì)目標(biāo)是要建立一個(gè)安全、穩(wěn)定、準(zhǔn)確、及時(shí)、全面的政府公開信息整合服務(wù)系統(tǒng),并且整個(gè)系統(tǒng)在總體設(shè)計(jì)上遵循開放、可擴(kuò)展、經(jīng)濟(jì)、安全的原則,從而使整個(gè)系統(tǒng)結(jié)構(gòu)合理、技術(shù)先進(jìn)、易于擴(kuò)展,既能滿足當(dāng)前的業(yè)務(wù)數(shù)據(jù)處理要求,又符合長(zhǎng)期發(fā)展的需要。系統(tǒng)軟件架構(gòu)如圖2。
在應(yīng)用功能層,主要設(shè)計(jì)了項(xiàng)目所需的各個(gè)應(yīng)用系統(tǒng)或功能模塊,包括網(wǎng)絡(luò)信息采集系統(tǒng)、數(shù)據(jù)加工系統(tǒng)、信息發(fā)布系統(tǒng)、資源檢索系統(tǒng)等,各系統(tǒng)的技術(shù)實(shí)現(xiàn)如下:
在本項(xiàng)目中,為了完成系統(tǒng)的網(wǎng)絡(luò)信息采集任務(wù),針對(duì)采集網(wǎng)站數(shù)量多、信息海量的特點(diǎn),我們采用了分布式體系結(jié)構(gòu)以實(shí)現(xiàn)高速網(wǎng)頁(yè)采集,具體的技術(shù)應(yīng)用包括信息智能化采集,以實(shí)現(xiàn)各采集工作站任務(wù)均衡、各網(wǎng)站信息的更新;使用了采集任務(wù)集中控制,多臺(tái)采集工作站分布采集的方式,實(shí)現(xiàn)可擴(kuò)展的系統(tǒng);采用多線程并發(fā)采集和控制,將采集模塊分別安裝在不同的采集工作站上,實(shí)現(xiàn)多采集工作站協(xié)同工作的模式,從而支持對(duì)大量網(wǎng)站的實(shí)時(shí)采集。
3.2.1 信息自動(dòng)分析和標(biāo)引
為了滿足本系統(tǒng)的應(yīng)用,采集到的網(wǎng)頁(yè)等信息對(duì)象必須經(jīng)過(guò)以下智能化處理:正文內(nèi)容提取——通過(guò)結(jié)構(gòu)分析的方法確定信息對(duì)象的正文、圖片及表格內(nèi)容,自動(dòng)剔除廣告、導(dǎo)航信息等與主體信息無(wú)關(guān)的信息;格式自動(dòng)轉(zhuǎn)換——自動(dòng)將HTML等格式文件轉(zhuǎn)換為TXT文件,以方便再加工;屬性自動(dòng)標(biāo)引——分析出信息對(duì)象的名稱、文號(hào)、發(fā)布機(jī)構(gòu)、分類等屬性,分析并標(biāo)注這些屬性信息(元數(shù)據(jù)自動(dòng)提?。?;內(nèi)碼自動(dòng)轉(zhuǎn)換——將網(wǎng)頁(yè)等信息對(duì)象中可能會(huì)包含的多種中文內(nèi)碼(如繁體Big5,簡(jiǎn)體GB2312、GBK,Unicode等)轉(zhuǎn)換成統(tǒng)一的中文內(nèi)碼,以便統(tǒng)一管理。
3.2.2 漢語(yǔ)分詞
漢語(yǔ)分詞系統(tǒng)是實(shí)現(xiàn)實(shí)體抽取標(biāo)引與中文智能檢索的基礎(chǔ),也是實(shí)現(xiàn)全文數(shù)據(jù)庫(kù)和其他模塊功能的重要基礎(chǔ)。該系統(tǒng)內(nèi)嵌漢語(yǔ)自動(dòng)分詞系統(tǒng)和多種分詞詞典(包括默認(rèn)分詞詞典、附加分詞詞典、停用詞典、附加停用詞典、稀疏元組詞典和單字詞典),可實(shí)現(xiàn)規(guī)則與統(tǒng)計(jì)相結(jié)合的分詞技術(shù);可以準(zhǔn)確識(shí)別人名、地名、組織結(jié)構(gòu)名等信息;可以提供詞性標(biāo)注信息;系統(tǒng)同時(shí)內(nèi)嵌分詞歧義規(guī)則庫(kù),可以有效解決大部分的切分歧義。
3.2.3 信息自動(dòng)過(guò)濾
自動(dòng)過(guò)濾包括除噪和內(nèi)容過(guò)濾兩部分,除噪是指對(duì)網(wǎng)頁(yè)無(wú)關(guān)內(nèi)容進(jìn)行過(guò)濾處理,如剔除廣告、頻道導(dǎo)航、版權(quán)信息等噪聲信息,為后續(xù)的智能化處理、建立查詢索引及純文本保存提供干凈的內(nèi)容;內(nèi)容過(guò)濾是識(shí)別和過(guò)濾各種有害文本信息(如色情、反動(dòng)、封建迷信、商業(yè)垃圾郵件等),從而擺脫有害信息的侵?jǐn)_。
3.2.4 自動(dòng)分類
自動(dòng)分類是指利用計(jì)算機(jī),根據(jù)文獻(xiàn)內(nèi)容進(jìn)行類別劃分。本項(xiàng)目基于系統(tǒng)的分類模塊來(lái)實(shí)現(xiàn)對(duì)政府信息從主題、題材、機(jī)構(gòu)等多個(gè)維度的分類標(biāo)引。自動(dòng)分類功能支持基于語(yǔ)義規(guī)則的自動(dòng)分類(機(jī)檢分類)和基于統(tǒng)計(jì)原理(基于內(nèi)容)的自動(dòng)分類兩種方法。用戶可以自由維護(hù)分類詞表,人工添加或修改規(guī)則。詞表大小沒有限制,規(guī)則分類支持多條件的與、或、非關(guān)系,具有設(shè)定詞頻數(shù)功能,并提供方便的規(guī)則定義界面。
3.2.5 自動(dòng)排重
自動(dòng)排重需要使用相似性檢索技術(shù)。相似性檢索是指對(duì)于給定樣本文獻(xiàn),在文獻(xiàn)數(shù)據(jù)集合中查找出與之內(nèi)容相似的文獻(xiàn)的技術(shù)。相似性檢索技術(shù)需要在文獻(xiàn)數(shù)字化表示(比如空間向量模型VSM)的基礎(chǔ)上,通過(guò)計(jì)算文獻(xiàn)之間的相似程度(向量之間的距離)給出文獻(xiàn)之間的相關(guān)度指標(biāo)。實(shí)踐表明,相似性檢索技術(shù)可以達(dá)到很好的網(wǎng)絡(luò)內(nèi)容自動(dòng)排重、相關(guān)文章推薦效果。相似性檢索的算法主要是基于特征詞的提取和倒排索引技術(shù),在效率上能達(dá)到百萬(wàn)級(jí)資料庫(kù)的秒級(jí)響應(yīng)速度。
系統(tǒng)采用Oracle數(shù)據(jù)庫(kù)作為原始信息存儲(chǔ),并且為實(shí)現(xiàn)高效的信息整合存儲(chǔ)與全文檢索,系統(tǒng)引入了全文數(shù)據(jù)庫(kù)系統(tǒng),提供基于多種索引模式和知識(shí)詞典的全文檢索,并提供自然語(yǔ)言檢索和相似性檢索等全方位智能檢索。全文數(shù)據(jù)庫(kù)同時(shí)支持結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)管理,并且實(shí)現(xiàn)了Native-XML數(shù)據(jù)庫(kù)功能,具備強(qiáng)大的結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化信息的處理和檢索能力。它是整個(gè)搜索引擎的數(shù)據(jù)倉(cāng)儲(chǔ)中心,也是整個(gè)搜索引擎的檢索動(dòng)力核心,同時(shí),結(jié)合全文檢索網(wǎng)關(guān)實(shí)現(xiàn)完整的數(shù)據(jù)存儲(chǔ)。
在本系統(tǒng)中通過(guò)全文檢索網(wǎng)關(guān)來(lái)接入關(guān)系數(shù)據(jù)庫(kù),同步其中的數(shù)據(jù)到全文數(shù)據(jù)庫(kù)中建立索引,依靠全文數(shù)據(jù)庫(kù)服務(wù)器系統(tǒng)強(qiáng)大的檢索功能和高效的檢索性能來(lái)為上層的檢索應(yīng)用系統(tǒng)提供核心的檢索動(dòng)力支撐。在應(yīng)用層基于全文數(shù)據(jù)庫(kù)系統(tǒng)實(shí)現(xiàn)后臺(tái)數(shù)據(jù)庫(kù)中信息的對(duì)外發(fā)布及檢索交互、結(jié)果表現(xiàn)等功能,為上層提供包括門戶構(gòu)建、政府信息資源搜索等信息服務(wù)。
為了使檢索系統(tǒng)具備強(qiáng)大的檢索性能及高度的穩(wěn)定可靠性,本方案采用了2臺(tái)全文數(shù)據(jù)庫(kù)服務(wù)器及1臺(tái)集群服務(wù)器構(gòu)成檢索的集群,并且該集群架構(gòu)中的全文數(shù)據(jù)庫(kù)采用數(shù)據(jù)鏡像方式,數(shù)據(jù)可在2臺(tái)服務(wù)器上相互鏡像存儲(chǔ),每臺(tái)服務(wù)器可存儲(chǔ)另一臺(tái)服務(wù)器的部分或全部索引數(shù)據(jù)。
搜索引擎系統(tǒng)部署以后,因需要索引和提供服務(wù)的信息會(huì)隨著時(shí)間的推移和應(yīng)用的需求而不斷增加。數(shù)據(jù)和用戶數(shù)量的不斷增長(zhǎng),會(huì)對(duì)搜索引擎系統(tǒng)的負(fù)載能力和擴(kuò)展能力提出更高的要求。
本系統(tǒng)中采用的全文數(shù)據(jù)庫(kù)服務(wù)器支持以集群模式來(lái)搭建搜索系統(tǒng)的核心部分——數(shù)據(jù)存儲(chǔ)索引中心。當(dāng)前架構(gòu)無(wú)法滿足增長(zhǎng)的搜索需求情況時(shí),可通過(guò)多臺(tái)全文數(shù)據(jù)庫(kù)服務(wù)器以分組的形式對(duì)需要檢索的數(shù)據(jù)進(jìn)行分布存儲(chǔ)或鏡像存儲(chǔ)。在全文數(shù)據(jù)庫(kù)集群結(jié)構(gòu)之上,系統(tǒng)通過(guò)引入全文數(shù)據(jù)庫(kù)集群服務(wù)器對(duì)搜索集群中的各臺(tái)服務(wù)器進(jìn)行統(tǒng)一的請(qǐng)求調(diào)度。
全文數(shù)據(jù)庫(kù)集群服務(wù)器是架構(gòu)在多個(gè)物理全文檢索數(shù)據(jù)庫(kù)服務(wù)器之上的分布式管理系統(tǒng),它支持?jǐn)?shù)據(jù)分布及負(fù)載均衡兩種基本分布方式,并支持兩種方式的組合運(yùn)用。
平臺(tái)向公眾開放服務(wù)后,受到了各方人士的關(guān)注。我們對(duì)近半年來(lái)的使用情況進(jìn)行了統(tǒng)計(jì),力圖根據(jù)公眾的實(shí)際需求對(duì)平臺(tái)的發(fā)展進(jìn)行調(diào)整,為公眾提供更好的服務(wù)。統(tǒng)計(jì)包括如下指標(biāo):
頁(yè)面瀏覽量:統(tǒng)計(jì)實(shí)際被點(diǎn)擊的網(wǎng)頁(yè)數(shù)量,“頁(yè)面瀏覽量”往往被用來(lái)衡量網(wǎng)站內(nèi)容的受歡迎程度和被訪問(wèn)情況。
唯一訪問(wèn)者數(shù):是指訪問(wèn)網(wǎng)站的IP數(shù)量。
網(wǎng)粘度:是指在某指定時(shí)間內(nèi)所有用戶每次訪問(wèn)網(wǎng)站所用時(shí)間的平均值。
回訪數(shù):是指非第一次訪問(wèn)網(wǎng)站的用戶數(shù)量。
訪問(wèn)深度:指用戶每次訪問(wèn)網(wǎng)站時(shí)被請(qǐng)求的網(wǎng)頁(yè)的數(shù)目。
統(tǒng)計(jì)結(jié)果如表1。
表1 中國(guó)政府公開信息整合服務(wù)平臺(tái)部分?jǐn)?shù)據(jù)統(tǒng)計(jì)表
由表1可以看出,平臺(tái)的頁(yè)面瀏覽量從最初5月的25 761頁(yè)驟增到8月的1 438 326頁(yè),盡管9、10月頁(yè)面瀏覽量有所下降,但半年來(lái)平臺(tái)頁(yè)面總訪問(wèn)量已達(dá)到256萬(wàn)頁(yè);平臺(tái)的唯一訪問(wèn)者數(shù)從5月剛開通時(shí)的1 953人,猛增到6月的7 314人,其后的幾個(gè)月也在穩(wěn)定地持續(xù)增長(zhǎng)(10月盡管表面看上去有所下降,實(shí)際上是因?yàn)閲?guó)慶節(jié)8天沒有提供服務(wù));平臺(tái)的網(wǎng)粘度基本上維持在12分到18分之間;每月的回訪數(shù)都保持在4 000以上;用戶每次訪問(wèn)20個(gè)頁(yè)面以上的已經(jīng)占了訪問(wèn)總量的32%-40%。
以上統(tǒng)計(jì)數(shù)據(jù)反映出在為公眾提供政府信息的服務(wù)中,平臺(tái)起到了一定的作用。另外,我們也對(duì)訪問(wèn)者所屬地區(qū)進(jìn)行了統(tǒng)計(jì)分析:到目前為止,訪問(wèn)者遍布國(guó)內(nèi)各地(除西藏外),同時(shí)也有來(lái)自美國(guó)、韓國(guó)、日本、澳大利亞等30多個(gè)其他國(guó)家的用戶對(duì)平臺(tái)進(jìn)行了訪問(wèn),這也反映出平臺(tái)受眾之廣、影響力之大。
當(dāng)然,由于平臺(tái)的建設(shè)剛剛起步,有些工作還未開展,尤其是對(duì)外的合作與宣傳還遠(yuǎn)遠(yuǎn)不夠,這也造成了公眾對(duì)平臺(tái)的知曉度不高,故平臺(tái)還未充分發(fā)揮它應(yīng)有的價(jià)值。
5.1.1 缺乏法律保障
《條例》規(guī)定了政府信息應(yīng)當(dāng)在圖書館公開,但并沒有對(duì)政府本身進(jìn)行強(qiáng)制性的規(guī)定。圖書館作為政府信息公開法定的服務(wù)主體,它所提供的公開信息資源來(lái)源于政府機(jī)關(guān),但在目前,圖書館對(duì)于政府信息的獲取還處于被動(dòng)地去各個(gè)政府網(wǎng)站上抓取的狀態(tài),這對(duì)政府信息的整合服務(wù)很不利。圖書館能否成為一個(gè)合格的信息公開服務(wù)主體,在很大程度上取決于圖書館能否與政府機(jī)關(guān)形成一個(gè)雙贏的協(xié)調(diào)機(jī)制,這個(gè)機(jī)制主要來(lái)源于法律制度的保障。
5.1.2 缺少規(guī)?;ㄔO(shè)
目前只有國(guó)家圖書館對(duì)國(guó)家層面上的政府公開信息進(jìn)行開發(fā),但是對(duì)于全國(guó)的政府公開信息的整合與服務(wù),不是一家圖書館能完成的。任何一家圖書館對(duì)政府信息資源的組織服務(wù),都很難照顧到其層級(jí)或其他地方的特殊問(wèn)題。我們?cè)谄脚_(tái)的開發(fā)和建設(shè)中也是困難重重。
平臺(tái)的建設(shè)涉及到資源的自動(dòng)采集、自動(dòng)分類標(biāo)引及資源的保存與服務(wù)等多方面的技術(shù),許多方面都處于探索研究階段,會(huì)遇到多種問(wèn)題:
5.2.1 資源采集的問(wèn)題
盡管在先期我們定義只采集政府信息公開欄目下的內(nèi)容,但是由于該欄目本身的情況參差不齊,有的政府把正式的公文公報(bào)法律法規(guī)整合到信息公開欄目;而有的政府雖然設(shè)置了信息公開欄目,但是僅放了一些目錄而沒有內(nèi)容,或是放了一些動(dòng)態(tài)新聞;還有的直接就鏈到了網(wǎng)站的其他內(nèi)容,這就給信息的采集造成了很大的困難,因?yàn)闄C(jī)器很難區(qū)分哪些是要采集的信息,哪些是無(wú)用的信息。所以在后期,對(duì)數(shù)據(jù)修改所花費(fèi)的時(shí)間比前期建設(shè)的時(shí)間還要長(zhǎng)許多倍。到目前為止,還有一些有問(wèn)題的數(shù)據(jù)混雜在其中。
5.2.2 資源分類的問(wèn)題
目前平臺(tái)的主題分類僅為一級(jí)分類,即22個(gè)類目。對(duì)于數(shù)十萬(wàn)條的政府信息來(lái)說(shuō),基本上每一類數(shù)據(jù)都可以有幾百頁(yè)以上的結(jié)果,這樣的分類是遠(yuǎn)遠(yuǎn)不能滿足用戶的需求的;對(duì)于檢索技巧不是很高的用戶來(lái)說(shuō),要想通過(guò)瀏覽的方式找到相關(guān)的資源其難度也是很高的,因此我們還需要對(duì)分類進(jìn)行細(xì)化,進(jìn)行二級(jí)、三級(jí)甚至四級(jí)分類。而且現(xiàn)在發(fā)布的平臺(tái)僅保留主題分類的方式,但對(duì)于政府信息還可以從其他角度進(jìn)行分類查找,比如說(shuō)信息的類型,諸如公報(bào)、法律法規(guī)、統(tǒng)計(jì)數(shù)據(jù)或是動(dòng)態(tài)信息。在這方面,我們做了初步的嘗試,但是由于政府信息本身的多樣性及海量性,目前自動(dòng)分類的效果還很難達(dá)到理想的狀態(tài)。
5.2.3 數(shù)據(jù)質(zhì)量的問(wèn)題
數(shù)據(jù)質(zhì)量的問(wèn)題主要體現(xiàn)在數(shù)據(jù)準(zhǔn)確性上。數(shù)據(jù)準(zhǔn)確性問(wèn)題在機(jī)構(gòu)信息中最為明顯,主要是因?yàn)闄C(jī)構(gòu)信息中動(dòng)態(tài)的信息比較多,如政府機(jī)構(gòu)的人事變動(dòng),原網(wǎng)站有可能將發(fā)生變動(dòng)的人的網(wǎng)頁(yè)撤除了,當(dāng)我們?cè)俅尾杉瘯r(shí),無(wú)法采到新的信息,這就很難對(duì)已經(jīng)采集并發(fā)布的原始網(wǎng)頁(yè)進(jìn)行更新,從而導(dǎo)致頁(yè)面出現(xiàn)部分信息不準(zhǔn)確的現(xiàn)象。另外,平臺(tái)在數(shù)據(jù)的時(shí)效性和全面性方面也還有所欠缺。
5.2.4 資源保存的問(wèn)題
在資源的保存上,我們采用兩種方式,一種是保存純文本,提供檢索與瀏覽的常規(guī)服務(wù);另一種是保存網(wǎng)頁(yè)的原貌,以應(yīng)對(duì)原始網(wǎng)頁(yè)消失的問(wèn)題。但目前,對(duì)于一些特殊格式的網(wǎng)頁(yè),我們不能原汁原味地保存網(wǎng)頁(yè)的全貌。
標(biāo)準(zhǔn)規(guī)范是信息資源一致性及平臺(tái)擴(kuò)展的基本保證,應(yīng)圍繞信息采集、組織、分類、保存、發(fā)布與使用等信息生命周期各環(huán)節(jié)建立相應(yīng)的規(guī)范與標(biāo)準(zhǔn)。但在本平臺(tái)的建設(shè)中,標(biāo)準(zhǔn)規(guī)范的建設(shè)還不完善,除元數(shù)據(jù)標(biāo)準(zhǔn)、分類標(biāo)準(zhǔn)外,其他環(huán)節(jié)的標(biāo)準(zhǔn)規(guī)范還有所欠缺。這主要是因?yàn)槠脚_(tái)建設(shè)處于初創(chuàng)階段,還有許多標(biāo)準(zhǔn)規(guī)范的建設(shè)有待盡快開展。
目前,國(guó)家圖書館所建設(shè)的平臺(tái),采集整合了中央政府及其組成機(jī)構(gòu)和省人民政府的信息。這個(gè)平臺(tái)只是我館所構(gòu)想的中國(guó)政府公開信息整合服務(wù)平臺(tái)的一小部分。我館所設(shè)想的平臺(tái)宜走聯(lián)盟化發(fā)展的道路,即由國(guó)家圖書館牽頭,聯(lián)合國(guó)內(nèi)各省、市公共圖書館及部分重點(diǎn)區(qū)縣圖書館成立政府信息整合服務(wù)聯(lián)盟,共同打造一個(gè)可以讓各個(gè)圖書館共同參與建設(shè)的大規(guī)模集中式的政府信息整合服務(wù)平臺(tái),通過(guò)該平臺(tái)各個(gè)聯(lián)盟成員館可以采集整合各自行政區(qū)域的政府信息,實(shí)現(xiàn)分層建設(shè)、共建共享,同時(shí)還可以實(shí)現(xiàn)個(gè)性化展示和統(tǒng)一展示的完美結(jié)合,為公眾提供更完善的政府信息服務(wù)。
政府信息的整合與服務(wù)僅靠圖書館的熱情是遠(yuǎn)遠(yuǎn)不夠的,除在公共圖書館界開展合作共建、走聯(lián)盟化發(fā)展的道路外,還需要和政界、學(xué)界、法律界及各類從事信息檢索的單位合作。一方面可以爭(zhēng)取政策上的支持,甚至是法律上的保障,從而確立圖書館在政府信息公開中的地位,為平臺(tái)的進(jìn)一步發(fā)展創(chuàng)造條件;另一方面也可將相關(guān)單位的研究成果及經(jīng)驗(yàn)納入到平臺(tái)的建設(shè)中,從而進(jìn)一步推進(jìn)平臺(tái)標(biāo)準(zhǔn)化、規(guī)范化建設(shè)。
目前,平臺(tái)以規(guī)范性的文件為主,像公文、公報(bào)、法律法規(guī),但還有大量的其他類型的政府信息沒有涉及,如各種統(tǒng)計(jì)數(shù)據(jù)、電子政務(wù)項(xiàng)目,另外還有大量的“泛”政府信息,也就是公開目錄未涉及的相關(guān)內(nèi)容,如政府組織的各類會(huì)議和公共活動(dòng)的相關(guān)報(bào)道、政府官員出席活動(dòng)的講話或者政府官員的博客。如果對(duì)這些信息進(jìn)行深度的挖掘,做到全方位的整合,將能給公眾展示某一事件的全貌,或給政府機(jī)構(gòu)決策提供參考。如國(guó)務(wù)院發(fā)布一個(gè)條例后,會(huì)產(chǎn)生相關(guān)的新聞快訊、條例解讀,這種條例流轉(zhuǎn)可以衍生成不同的信息,并且條例的頒布還能在社會(huì)上產(chǎn)生不同的影響、導(dǎo)致各種事件的發(fā)生,進(jìn)而又產(chǎn)生新的條例,等等。將這些信息進(jìn)行分析,挖掘信息之間的關(guān)聯(lián)關(guān)系,實(shí)現(xiàn)基于語(yǔ)義分析的政府信息關(guān)聯(lián),做到多類型政府信息資源的深度整合與服務(wù)將是政府信息整合的一個(gè)重要發(fā)展方向。
政府信息整合服務(wù)的展現(xiàn)方式是可以多種多樣的,網(wǎng)站只是其中之一,還可以通過(guò)觸摸屏、手機(jī)、電視等不同的方式向用戶提供服務(wù)。目前,國(guó)家圖書館已經(jīng)實(shí)現(xiàn)了網(wǎng)站和觸屏的服務(wù),都受到了用戶的好評(píng),后續(xù)國(guó)家圖書館還將考慮通過(guò)手機(jī)或數(shù)字電視的方式為用戶提供服務(wù),讓用戶可以隨時(shí)隨地地獲取到政府公開信息。
中國(guó)政府公開信息整合服務(wù)平臺(tái)的建設(shè)是國(guó)家圖書館依照《條例》在政府信息領(lǐng)域開展整合服務(wù)的探索與嘗試,這對(duì)于政府機(jī)構(gòu)、公共圖書館乃至公眾來(lái)說(shuō)都是一個(gè)新生的事物。如何能以平臺(tái)為基礎(chǔ),為公眾、政府、圖書館提供政府信息服務(wù)還有很多問(wèn)題需要研究,為此,國(guó)家圖書館還將繼續(xù)努力,不僅聯(lián)合全國(guó)各級(jí)公共圖書館結(jié)成“全國(guó)圖書館政府公開信息服務(wù)聯(lián)盟”,同時(shí)還要加強(qiáng)和政府部門的聯(lián)系,增進(jìn)同專家學(xué)者的交流,團(tuán)結(jié)一切可以團(tuán)結(jié)的力量,共同做好政府信息的整合服務(wù)工作。
[1]中華人民共和國(guó)政府信息公開條例[EB/OL].[2009-10-28].http://www.gov.cn/zwgk/2007-04/24/content_592937.htm.