徐 雯 邵 榮 丁曉芹
(中國科學院武漢文獻情報中心,湖北 武漢430071)
開放社會經濟信息的元數(shù)據研究——以開放社會經濟信息集成揭示與服務系統(tǒng)為例
徐 雯 邵 榮 丁曉芹
(中國科學院武漢文獻情報中心,湖北 武漢430071)
〔摘 要〕社會經濟信息與科技創(chuàng)新密切相關。建立支持產業(yè)發(fā)展、技術創(chuàng)新和成果轉化的技術、行業(yè)、經濟和社會信息資源支持體系 ,滿足用戶需求 ,有效支持用戶獲得經過遴選和評價的技術、行業(yè)、經濟和社會等信息 ,為用戶提供全面的信息支撐顯得尤為重要。本文以開放社會經濟信息的元數(shù)據為研究對象 ,對網絡信息資源、報告、新聞資訊、政策法規(guī)、統(tǒng)計數(shù)據、生產技術等資源進行了調研。
〔關鍵詞〕開放獲取 ;社會經濟信息;元數(shù)據 ;信息組織 ;揭示與服務系統(tǒng)
經濟信息 (Economic information)是指社會經濟活動所產生的、反映經濟活動并為其服務的消息、事實、數(shù)據、知識等[1]。狹義的概念只包含經濟活動直接反映出來的信息,而廣義的經濟信息則是包含了經濟活動所涉及的政治、法律、科學、技術、自然環(huán)境等各方面的信息。開放社會經濟信息資源指的是能夠開放獲取 (Open Access)的社會經濟信息 ,包含技術信息、政府信息、市場動態(tài)、行業(yè)資訊、統(tǒng)計數(shù)據、各類相關報告、科研項目信息等。這之中既包括資源的集合也包括資源的內容。
隨著市場經濟的發(fā)展,社會經濟信息日趨成為科技創(chuàng)新活動的重要組成部分。中國科學院 “創(chuàng)新2020”方案明確提出今后要把面向區(qū)域經濟和產業(yè)發(fā)展需求,開展產業(yè)前沿技術創(chuàng)新、技術集成創(chuàng)新、工程化研發(fā)和成果轉移轉化作為重要工作任務的戰(zhàn)略部署[2]。針對從事應用研究、轉換型研究和成果轉移轉化工作較多的研究機構對于社會經濟、市場信息需求愈來愈強烈的現(xiàn)狀,中國科學院國家科學數(shù)字圖書館二期啟動了 “開放社會經濟信息集成揭示與服務系統(tǒng)”項目,實現(xiàn)對相關信息資源的發(fā)現(xiàn)、遴選、采集、描述、組織、利用及長期保存。本文以開放社會經濟信息資源為研究對象,對相關的元數(shù)據進行了研究,嘗試建立準確完善的各類社會經濟信息的元數(shù)據描述規(guī)范 ,使用戶能夠在紛繁蕪雜的各類經濟信息中快速準確獲得有價值、可利用的開放資源。
參考元數(shù)據的研究現(xiàn)狀,科技部科技基礎條件平臺專項資金項目 《我國數(shù)字圖書館標準規(guī)范建設》中的子項目成果——《網絡資源元數(shù)據規(guī)范》[3]基于DC (Dublin Core)元數(shù)據在資源集合的層面做出定義 ,但沒有對具體的資源內容進行描述。國家科技圖書文獻中心制定的 《NSTL文獻資源加工規(guī)范》中有 《科技報告描述元數(shù)據規(guī)范》[4]是針對資源內容的元數(shù)據規(guī)范,但主要針對的是科技報告,社會經濟類的報告和其它資源沒有專門的描述。
由于社會經濟信息具有形態(tài)多樣、種類繁雜、渠道眾多等特點,并且受傳統(tǒng)資源建設觀念的影響,絕大多數(shù)圖書館尚未對這類信息資源進行系統(tǒng)、有效的發(fā)現(xiàn)、組織和保存。基于對零散信息、非結構化信息描述不足的現(xiàn)狀 ,研究制定有針對性的開放社會經濟信息的元數(shù)據描述規(guī)范就顯得十分重要和迫切了。
開放社會經濟信息的資源調研與集成揭示主要分為兩個層級:(1)資源集合層級 ,資源集合能夠讓用戶大量發(fā)現(xiàn)結構化信息資源,對資源集合的揭示可以認為是將大量資源作為一個整體描述。例如我們可以將網站上的各個欄目理解成資源集合,那么網站就是對資源集合的集合;同理,商業(yè)數(shù)據庫通常包括各種類型的統(tǒng)計數(shù)據,每一種統(tǒng)計數(shù)據可以看作是一個資源集合,那么該數(shù)據庫就不難理解為集合的集合了。(2)資源內容層級,具體來講是指一條新聞 ,一篇研究報告,一部法規(guī),諸如此類具體的某一條信息。對資源內容的集成揭示就是將這類單個資源集成為目錄或列表的形式。如 “開放社會經濟集成揭示與服務系統(tǒng)”中 “新聞資訊”、“政策法規(guī)”、“研究報告”等欄目 ,這些都是由單個文檔組成的列表。此外,學會、協(xié)會、政府機構組織產出的報告集也可以歸于此類,報告集目錄是典型的資源內容集成揭示對象。
2.1網絡資源集合的調研
開放社會經濟信息的資源集合包含并不僅限于行業(yè)學會/協(xié)會、機構組織網站、經濟信息門戶與學科導航、統(tǒng)計數(shù)據庫集合、社會綜合信息資源集合等,對資源集合進行集成揭示的方式有:建立集合目錄;用技術方式實現(xiàn)集合的統(tǒng)一檢索;在對集合進行統(tǒng)一的描述和揭示的基礎上 ,實現(xiàn)統(tǒng)一檢索[5]。
2.1.1行業(yè)學會/協(xié)會網站
以International Solar Energy Society[6](國際太陽能學會)網站為例 ,國際太陽能學會是一個研究和發(fā)展太陽能利用中的信息中心,該學會采用實際項目、技術傳播、教育培訓、組織會議等支持會員國開發(fā)可再生能源。網站包含新聞資訊 ,研究報告,項目計劃等幾類資源。
2.1.2政府機構網站
以U.S.Food and Drug Administration[7](美國食品藥品管理局,簡稱FDA)網站為例,F(xiàn)DA的職責是確保美國本國生產或進口的食品、化妝品、藥物、生物制劑、醫(yī)療設備和放射產品的安全。在國際上,F(xiàn)DA被公認為是世界上最大的食品與藥物管理機構之一 ,其它許多國家都通過尋求和接收FDA的幫助來促進并監(jiān)控其該國產品的安全。FDA的網站有非常豐富的信息資源 ,新聞資訊、研究報告、食品藥品信息等。
2.1.3經濟信息門戶與學科導航
以中國經濟網[8](簡稱中經網)為例,中經網是國家級重點新聞網站 ,以經濟報道、資訊傳播和經濟服務為主要發(fā)展方向 ,是目前中國境內最大最權威的綜合經濟類網絡媒體。中經網擁有財經證券、產業(yè)市場、國際經濟、區(qū)域經濟、時政社會、文化、教育、時尚等內容板塊 ,下設宏觀經濟、理財、消費、股市、外匯、銀行、保險、食品、農業(yè)、能源、房產、汽車、家電、通訊和IT等涵蓋經濟生活各領域的綜合頻道100多個。
2.1.4統(tǒng)計數(shù)據庫網站
以中國國家統(tǒng)計局數(shù)據庫[9]為例 ,國家統(tǒng)計局數(shù)據庫包含月度、季度、年度數(shù)據,以及地區(qū)數(shù)據、普查數(shù)據、國際數(shù)據六類統(tǒng)計數(shù)據 ,近800萬筆數(shù)據。月度數(shù)據主要有居民消費價格指數(shù) (CPI)、工業(yè)生產價格指數(shù) (PPI)、商品零售價格指數(shù)、規(guī)模以上工業(yè)生產、固定資產投資、房地產開發(fā)投資、社會消費品零售總額、對外經濟貿易、交通運輸、郵電通信、采購經理指數(shù) (PMI)、財政、金融。季度數(shù)據主要有國內生產總值、農業(yè)、工業(yè)、建筑業(yè)、城鎮(zhèn)居民收入與支出、農村居民收入與支出、固定資產價格指數(shù)、農產品生產價格指數(shù)。年度數(shù)據包括綜合、國內生產總值、人口、就業(yè)人員和工資等27個領域的數(shù)據。地區(qū)數(shù)據涵蓋了全國31個省 (區(qū)、市)以及部分城市主要經濟指標。
由上述調研情況來看這幾種類型的資源集合雖然描述對象有些許差異 ,但又涵蓋許多共同點,所以網絡資源集合的描述會相對比較簡單 ,如果制定合理,多種類型的網絡資源集合可以使用同一種元數(shù)據描述規(guī)范。
2.2網絡資源內容的調研
開放社會經濟信息的資源內容包含并不僅限于信息報道、研究報告、統(tǒng)計數(shù)據、政策法規(guī)、生產技術信息、分析評論等。信息報道又涵蓋行業(yè)資訊、市場動態(tài)、金融信息、經濟貿易、供求信息、新聞動態(tài)等 ;研究報告包括政府機構報告、行業(yè)學協(xié)會報告、研究機構公司報告、咨詢公司的市場調查報告、行業(yè)分析報告、市場預測報告、投資價值分析報告、券商報告、技術報告、戰(zhàn)略報告等;統(tǒng)計數(shù)據類資源包括年鑒、年報、行業(yè)統(tǒng)計數(shù)據、貿易統(tǒng)計、專家技術人員信息、公司廠商信息、市場產品信息、價格信息等。生產技術信息則包括各類專利、標準、工藝流程、產品規(guī)范等。
2.2.1研究報告
以World Health Organization(世界衛(wèi)生組織 ,簡稱WHO)網站的一篇研究報告 《Global status report on alcohol and health 2014》[10]為例 ,網站上僅揭示了報告的題名、摘要等信息,沒有將報告與其責任機構相關聯(lián),報告對應的行業(yè)分類、報告字數(shù)、頁數(shù)等相關信息也不清楚。
2.2.2信息報道、政策法規(guī)、分析評論等
以生物谷網站的一篇新聞 《中國首個生物資源 “樣本庫目錄”上線》[11]為例 ,元數(shù)據的描述只有題名、來源與正文 ,許多重要的關聯(lián)信息如作者、關鍵詞、行業(yè)分類等信息都沒有,如果這些信息不完整,將很難在系統(tǒng)中實現(xiàn)自動分類與標引。
2.2.3生產技術
生產技術中的專利和標準都有專門的描述規(guī)范,也是結構化程度相當高的一類資源,只需要在已有元數(shù)據的基礎上擴展一些與行業(yè)分類、數(shù)據來源相關的字段就比較適應整個系統(tǒng)的要求了。除了這兩種資源之外,其他的例如技術報告、制備工藝、技術成果等生產技術信息,則需要根據資源本身的特點靈活應用。
2.2.4統(tǒng)計數(shù)據
統(tǒng)計數(shù)據受統(tǒng)計口徑、發(fā)布單位不同等各種因素的影響,呈現(xiàn)效果也多種多樣 ,如何將這些零散的信息整合到服務系統(tǒng)中,也需要設計繁簡適度的元數(shù)據描述規(guī)范 ,對數(shù)據的來源、數(shù)據的分類 ,數(shù)據的體量等重要信息進行描述。
2.2.5公司機構
公司機構信息是社會經濟信息中十分重要的一類,競爭公司的商情、原材料及產品定價、行業(yè)內的商業(yè)信息也是用戶最想掌握的核心資源。這樣的信息同樣具有零散、蕪雜、不規(guī)律的特點,集成揭示這一類信息到服務系統(tǒng)中為用戶所用,也需要設計相應的描述規(guī)范。
從以上資源內容的調研情況分析來看,開放社會經濟信息的資源內容類型復雜,不同類型的資源又有其特殊的描述維度,很難遵循同一種描述規(guī)范。為了能夠清晰準確地描述每一種資源 ,應該針對它們設計不同的元數(shù)據描述規(guī)范。
基于DC的網絡資源元數(shù)據描述規(guī)范能夠滿足用戶的基本要求 ,但標引的細致度與完整性有所欠缺,資源集合與資源內容間沒有產生有機的聯(lián)系,資源集合所包含的具體內容類型無法清晰表達 ,資源內容的特征也沒有很好的體現(xiàn)。因此在現(xiàn)有描述規(guī)范的基礎上可以做適度的擴展 ,既能將網站與內容相關聯(lián) ,又可以體現(xiàn)不同類型資源的特征。
3.1網絡資源集合元數(shù)據描述規(guī)范
網絡資源元數(shù)據描述規(guī)范屬性集在已有字段的基礎上擴展了一些特殊字段來描述資源集合的內容類型屬性、資源集合涵蓋的具體內容等 ,更適合開放社會經濟集成揭示與服務系統(tǒng)的用戶需求,如表1所示。
表1 網絡資源元數(shù)據描述規(guī)范屬性集
表1 (續(xù))
3.2資源內容元數(shù)據描述規(guī)范
根據調研結果和不同類型資源內容的形式特征,遵循用戶需求原則,參考影響元數(shù)據質量的幾大維度,即完整性、準確性、規(guī)范性、惟一性、一致性、及時性、有效性、適用性、可維護性、關聯(lián)性[12],對字段進行了擴展(如表2~表7所示)。
表2 研究報告元數(shù)據描述規(guī)范屬性集
表3 信息報道、政策法規(guī)、分析評論元數(shù)據描述規(guī)范屬性集
表4 生產技術——專利元數(shù)據描述規(guī)范屬性集
表4 (續(xù))
表5 生產技術——標準元數(shù)據描述規(guī)范屬性集
表6 統(tǒng)計數(shù)據元數(shù)據描述規(guī)范集
表6 (續(xù))
表7 公司機構信息元數(shù)據描述規(guī)范屬性集
開放社會經濟信息與科技創(chuàng)新密切相關,隨著研究的深入和信息技術、網絡技術的迅猛發(fā)展,開放社會經濟信息的內涵與外延也將不斷擴展和完善。該如何進一步去建立準確、完整、適用的元數(shù)據規(guī)范 ,擴大資源數(shù)量與提升資源質量來幫助用戶獲取有價值的開放社會經濟信息還需要更多的思考與實踐。
參考文獻
[1]孫更新 .經濟信息檢索概論[M].武漢 :武漢大學出版社 ,2011:2-6.
[2]中國科學院 .科技發(fā)展新態(tài)勢與面向2020年的戰(zhàn)略選擇 [R].北京 :科學出版社 ,2013.
[3]《我國數(shù)字圖書館標準規(guī)范建設》課題組 .網絡資源元數(shù)據規(guī)范 [EB].http:∥cdls.nstl.gov.cn/2003/Whole/TecReports.html#allreports,2007-01-19.
[4]國家科技圖書文獻中心 .科技報告描述元數(shù)據規(guī)范[EB]. http:∥spec.nstl.gov.cn/specification/index.php?title=%E7% A7%91%E6%8A%80%E6%8A%A5%E5%91%8A%E6%8F% 8F%E8%BF%B0%E5%85%83%E6%95%B0%E6%8D%AE% E8%A7%84%E8%8C%83,2009-11-09.
[5]宋文 ,傅紅梅 ,路納新 ,等 .文獻資源集成揭示的思路與實踐[J].圖書情報工作 ,2008,52(4):93-96.
[6]International Solar Energy Society[EB].http:∥www.ises.org/index.php?id=2,2015-07-28.
[7]U.S.Food and Drug Administration[EB].http:∥www.fda.gov/,2015-07-28.
[8]中國經濟網 [EB].http:∥www.ce.cn/,2015-07-28.
[9]中國國家統(tǒng)計局數(shù)據庫 [EB].http:∥data.stats.gov.cn/,2015 -07-28.
[10]World Health Organization.Global status report on alcohol and health 2014[EB].http:∥www.who.int/substance-abuse/publications/global-alcohol-report/en/,2014-05-12.
[11]生物谷 .中國首個生物資源“樣本庫目錄”上線[EB]. http:∥news.bioon.com/article/6671602.html,2015-07-27.
[12]程穎 .數(shù)字資源元數(shù)據質量管理的研究與探索 [J].圖書館 ,2015,(7):66-69.
(本文責任編輯:郭沫含)
?信息資源開發(fā)與利用?
Research on the Metadata of Open Socioeconomic Information——Taking Revelation and Service System of Open Socioeconomic Information as an Example
Xu Wen Shao Rong Ding Xiaoqin
(Wuhan Documentation and Information Center,Chinese Academy of Sciences,Wuhan 430071,China)
〔Abstract〕Socioeconomic information is closely related to the innovation of science and technology.It is very important to provide users with comprehensive information support that meet their needs.The system builds support for socioeconomic information of industrial development,technology innovation and transformation through the selection and evaluation.This paper analyzed metadata of Open Socioeconomic Information,and investigated the network information resources,reports,news,policies and regulations,statistical data,production technology and other resources.
〔Key words〕open access;socioeconomic information;metadata;information organization;revelation and service system
作者簡介 :徐 雯(1981-),女 ,館員 ,碩士 ,研究方向 :開放社會經濟資源建設與揭示。
基金項目:本文系中國科學院國家科學數(shù)字圖書館二期項目 “開放社會經濟信息集成揭示與服務系統(tǒng)”的研究成果之一。
收稿日期:2015-08-10
〔中圖分類號〕G250.73
〔文獻標識碼〕B
〔文章編號〕1008-0821(2015)10-0055-07
DOI:10.3969/j.issn.1008-0821.2015.10.011