□ 曾文 徐碩 張運良/中國科學技術信息研究所 北京 100038
數字圖書館數字化文獻再處理工具的開發(fā)與實踐**本文受國家自然科學基金項目“支持面向特定情報分析應用的知識組織系統快速構建關鍵問題研究”(編號:71203208)、“十二五”國家科技支撐計劃課題“基于多源信息的電動汽車數據挖掘關鍵技術研究”(編號:2013BAG06B01)的支持。
□ 曾文 徐碩 張運良/中國科學技術信息研究所 北京 100038
數字圖書館運用計算機系統管理各種載體文獻的加工與服務,通過網絡和通信技術支持用戶訪問數字化文獻信息資源。數字圖書館對海量數據的處理能力是保證數據質量、支持與深化數字圖書館服務功能的基礎。文章論述數字圖書館中數字文獻再處理工具研究的重要性,介紹和闡述已有工作的開展情況,以及結構化的數字文獻再處理工具的開發(fā)與實踐工作。
數字圖書館,結構化數據,數字化文獻,再處理工具
21世紀以來,計算機通信與網絡技術的飛速發(fā)展,使網絡已經成為人們獲取信息的重要途徑,而網絡信息資源正在以驚人的速度不斷增加,需要存儲和傳播的信息量也越來越大,信息的種類和形式也越來越豐富,數字圖書館應運而生。數字圖書館作為數字化信息倉儲,能夠存儲大量各種形式的信息,特別是文獻信息數據是數字圖書館處理的重點內容之一。即數字化文獻數據的處理工作是支持數字圖書館技術服務的數據基礎,良好的數字化存儲資源是構建優(yōu)質技術和服務的重要保障。目前,隨著各類數字化文獻數據資源的豐富,這些來自不同渠道的原始數據格式和質量不盡相同,而且數據量的規(guī)模日益龐大。因此,這些數據通過數字圖書館這個窗口面向用戶服務之前,必須經過對其進行數字化的一系列基本處理過程。顯而易見,自動化處理這些海量的數字化文獻數據是必要的。本文的研究工作正是基于這樣的研究背景提出和開展的。
國內數字圖書館經過十幾年來的發(fā)展,文獻資源的數字化建設得到了極大的進步[1,2]。目前多數的圖書館基本上是采用本地加工和外包加工的方式,使用的數字化加工系統有TPI、TBS、TRS、DIPS等數字資源加工系統,這些系統實現已有和現有的紙質文獻的基本加工和處理過程,將文獻資源制作成為數字化文獻信息資源,進行儲存和管理,豐富虛擬圖書館的文獻信息資源,來進行網絡化檢索和閱讀等服務,從而促進數字圖書館的發(fā)展。這類信息資源又可分為結構化和非結構化的數字資源。這些加工和處理實現文檔掃描、條目著錄、文本化、標引、掛接等一系列操作過程,但實際上這些操作只是文獻資源層處理的基本環(huán)節(jié),并未實現對數字化資源的深層次數據處理、組織和整合。隨著文獻資源逐年海量式的遞增,這種資源處理方式已經難以更好提高數字圖書館文獻的檢全率以及檢準率,也難以滿足圖書館及情報研究機構對文獻資源深層次信息挖掘和分析的需要,對這些文獻數據資源的再處理和整合技術研究是必要的。
目前,國內外很多研究人員從事對文本信息挖掘和處理的研究工作,并取得相應的研究成果,其中包括對文本數據的關鍵術語抽取,文本數據內容自動分析、語義分析等涉及數據內容挖掘方面的研究工作[3]。但這些研究成果基本是建立在數據規(guī)整、數量規(guī)模有限的文本數據實驗基礎之上的,當實際應用于數字圖書館這種海量數據時,無法完全實施已有技術。因為技術的實施是建立在良好的數據之上的,目前數字圖書館的海量數字化文本數據事實上還不具備這種良好的數據質量,如何處理已有和未來的數字化文獻資源使之符合技術研究的應用需求,是目前數字圖書館以及情報學研究人員在實際工作中面臨和需要解決的主要問題之一。
3.1 數據分析
近年來,數字圖書館的應用已不僅僅是作為數字文獻數據資源的簡單原文傳遞的服務窗口,數字圖書館數據資源的豐富和增加,對于數字化文獻的處理、存儲、維護和面向用戶的檢索機制都提出了前所未有的挑戰(zhàn)。如何挖掘海量文獻數據背后的隱含知識和技術信息、文獻之間關聯信息[4],以及學科技術研究趨勢分析和預測等,都是圖書館及情報學研究領域開展研究的技術熱點。但是開展這些研究面臨的首要問題都是數據的獲取和處理問題,已有的數字化文獻加工處理方式并不能滿足這些需求。此外,通過我們對數字圖書館現有的數字化資源進行實際調研發(fā)現,這些已加工處理的數字化數據資源的質量和規(guī)范程度,距離現有技術的實用化實現還有很大的差距。主要表現在如下幾個方面:
(1)數據的存儲內容存在加工或錄入的錯誤,這些錯誤的存在對于海量數據集來說,人工識別和解決都是相當困難的,智能化加工處理技術是必須的。
(2)國內不同的加工單位或文獻供應商由于采用數字化加工方式不同導致數據存儲的結構、描述等不盡相同,數據需要進行結構映射和結構描述歸一化加工。
(3)對于購買的國外數據庫的數據,我們分析時需要從數據庫中導出相應的數據,這些數據導出后的格式同樣存在需要二次格式轉換和加工的問題。
(4)對于數據內容的深層次信息挖掘和分析需要涉及更多數據內容的細節(jié),不單單是目前已加工的文章標題、摘要信息等數據字段,還要涉及如中文作者姓名消歧、外文作者姓名要區(qū)分作者的姓與名的信息,作者單位消歧、引文、正文等數據信息。對于這些特殊數據字段的內容,現有的數字資源數據庫基本并未提供直接可用的內容及文本格式,所以需要對已有數字化數據進行智能化的再處理,人工再處理是不現實的。
基于上述數據分析的情況,開展對已有數字化文獻再處理工具的開發(fā)與實踐探索是必要的。
3.2 研究工作的意義
對于數字圖書館的數字化文獻資源進行再處理的重要意義在于,一是對海量數據信息的深層次挖掘技術的實施需要數字化文獻資源再處理過程來提高現有數據的質量。二是數字圖書館目前提供給用戶的查詢檢索服務需要改變目前單純依賴加工的題錄數據中作者的標題、關鍵詞和摘要信息進行檢索、簡單的推送原文的展示數字圖書館的數字化文獻數據的方式,這種推送和展示方式使得數字圖書館的服務單一化,缺乏深度知識的推介功能,不符合用戶對數據信息的深層次技術信息需求的需要。盡管很多研究機構已經在從事這些方面的研究工作,但是研究常常是獨立的,并源自局部的、數量有限的數據來從事研究工作,即這些數據來源并非完全取自數字圖書館的真實數據而做的研究工作,所以其應用性欠缺。而在圖書館研究領域,對于數據再處理研究工作,往往是基于需要去抽取已有數據庫的數據,進行實驗研究,并未形成實用化處理工具。因此,對于數字化資源的再處理進行實際的開發(fā)與實踐工作是必要的。我們的研究工作首先是基于現有數字圖書館中的結構化數據資源,開展相應的研究和實踐工作。
國內數字圖書館目前除了具有中文文獻數字化資源外,還包括外文文獻數字化資源,其中對部分外文文獻數據的結構化處理方式與中文文獻一樣,也是通過掃描、條目著錄、文本化、標引、掛接等一系列基本操作過程,其他外文文獻則是購買的全文數據庫,通過鏈接訪問國外文獻服務機構提供的外文文獻資源。對于國內數字圖書館的數字化文獻數據,包括結構化數據和非結構化數據,我們對其的再處理直接取自經過一次加工處理后的結構化數字文獻數據,進行相應的二次需求處理。目前我們的工作以期刊文獻數據為研究重點,對來自不同供應商的結構化數字資源,我們需要統一結構和抽取字段內容重新處理并存儲,以為深層次的研究服務,這種深層次研究包括文獻之間的內容關聯、技術關聯、知識信息挖掘和分析等內容。而對于非結構化的數據處理研究是我們日后的工作重點內容之一。目前,我們已經先后研究并處理了部分結構化數據,如期刊文獻數據、專利文獻數據和外文數據庫數據等。
圖1 數字化文獻再處理的基本流程
4.1 結構化數字文獻再處理的關鍵技術和基本處理流程
結構化數字文獻再處理涉及的主要關鍵技術問題是數據的加工和存儲技術。首先我們將結構化的數字文獻數據導出成可再處理的統一數據格式,例如XML格式。
具體的加工技術包括:1)數據元素的識別,即自動識別數據資源中說明和攜帶的數字化文獻數據資源的信息,重點是對原有結構化數據中并未提供的數據元素信息進行整合和抽取。2)數據內容的清洗,針對結構化數字文獻數據存在前期加工處理的錯誤現象,在數據資源存儲之前,首先需要對數據資源進行必要的自動“清洗”處理,去除不規(guī)范的字符和符號等,否則導入數據庫的過程中會出現不必要的數據導入錯誤,而且影響日后數據整合和分析質量。
存儲技術包括:1)建立數據庫,用于存儲處理后的數據,實現對數據的修正和消岐結果進行實時存儲。2)將自動識別的數據資源內容與存儲的數據庫中的字段實現自動匹配,并自動存儲在相應的數據庫字段內。
為此,我們設計了如圖1所示的數字化文獻再處理的基本處理流程。
流程圖中的關鍵技術環(huán)節(jié)即實現對數字化數據資源的數據加工和存儲,它主要包含:一是數據元素的識別,數據內容的“清洗”處理環(huán)節(jié);對于原有結構化數據中已有的數據字段,通過辨識數據字段信息,抽取相應數據字段中的數據內容;對于結構化數據中未加工的數據字段,則需根據整個的數據內容,甚至通過全文數據和網上其他相關資源的內容作參考,設計相應的自動處理方案實現數據整合和抽?。欢菍崿F數據元素與用戶的數據庫字段名稱的自動映射與匹配,并完成對加工處理后的數據內容自動導入用戶數據庫的處理過程,其中數據庫的結構設計要先期設計并完成;三是實現數據的消岐技術,這部分是技術的難點問題,我們也正在探索和實踐階段;四是建立相應的數據處理規(guī)范,我們根據當前數據分析和研究的需求,制定相應的數據規(guī)范和要求。數據規(guī)范是一項長期積累的工作,我們將隨著研究和實踐工作的推進,逐步完善,形成適用于數字化文獻再處理的數據規(guī)范和標準。
基于以上基本處理流程,我們開發(fā)了針對數字圖書館的結構化數字文獻再處理工具,該工具可以提高數據再處理的效率,滿足深層次數據挖掘和分析等研究工作的需要,該工具可以自動實現如下操作過程:
(1)用戶提交操作請求,輸入待處理的數字化文獻數據資源在用戶計算機中的存儲地址,之后進入數據加工與存儲處理過程;
(2)再處理工具自動定位用戶輸入的存儲數據位置,提示用戶輸入需要加工的數據元素名稱,之后再處理工具對數據進行主要數據元素和非主要數據元素的自動識別;
(3)再處理工具對識別出的數據元素對應的數據內容,進行必要的數據內容清洗,例如,自動“清洗”數據內容中首尾出現的不規(guī)范字符,并在操作界面上顯示識別出所有數據名稱;
(4)用戶根據再處理工具界面提示內容,輸入用戶需要存儲的數據名稱,以及用戶用于存儲這些數據的數據庫信息,例如數據庫名稱、用戶及密碼、數據庫字段名等;
(5)再處理工具根據用戶的輸入信息,自動實現數據名稱與數據庫字段名之間的自動映射和匹配;
(6)再處理工具自動實現對數據內容的抽取,并根據用戶需求自動導入數據庫中對應的數據表內存儲。
4.2 數字化文獻處理工具的實現
根據前文的數據分析和再處理流程設計方案,我們開發(fā)了數字化文獻再處理工具,開發(fā)編程語言采用Java語言,JDK1.6.0及以上版本。對硬件設備和系統要求是計算機CPU2.5GHz及以上,內存2GB及以上,至少10G硬盤空閑空間;操作系統支持Windows XP、Windows Server 2000及以上版本,Linux、Unix、MacOS等系統;再處理工具的使用界面圖示見圖2和圖3。目前該工具可以實現對數字化科技文獻再處理的基本處理過程,隨著研究工作的開展還有待于我們進一步完善。
圖4和圖5顯示的是經過再處理工具處理的數字化文獻數據資源最終完成之后的數據存儲狀態(tài)。圖示中,我們處理了557個xml格式的文件,數據大小為11.2GB,通過我們開發(fā)的再處理工具的自動處理,成功完成加工和存儲處理過程,并且按用戶需求存放在數據庫的不同類別數據表的字段內,最終處理結果是每個表的記錄數均為2,781,881條。
圖2 再處理工具的使用界面圖示1
圖3 再處理工具的使用界面圖示2
圖4 處理后數據庫存儲狀態(tài)示例1
圖5 處理后數據庫存儲狀態(tài)示例2
實現對海量的數字化文獻數據資源的再處理,滿足數字圖書館的工作人員,以及數字圖書館領域的科研人員對數字化文獻數據資源的信息挖掘研究進行數據整合的需要,是我們研究工作的出發(fā)點。目前,我們的研究工作成果已應用于“十二五”國家科技支撐計劃課題和國家自然科學基金項目中,并支持這些課題和項目的進一步研究工作。這種再處理工具基本適用于對國家工程技術圖書館和國家科技圖書文獻中心存儲的結構化數字文獻數據資源。而對于購買的國外文獻全文數據庫,數據處理則相對復雜,原因是,國外數字圖書館提供的是檢索服務接口,我們對于文獻數據的相關信息如關鍵詞、摘要和全文等數據獲取需要額外的付費服務。對于這類數字文獻,以及非結構化數字資源的處理和研究工作,我們將在未來的研究工作中逐步開展。
[1]趙繼海.數字圖書館發(fā)展若干領域的評析[J].圖書情報工作,200l(3):16-19.
[2]凌秀麗.略論數字化圖書館與現代化服務[J].圖書館學刊,2005(1):59-60.
[3]THOMAS L C.The State of Mobile in Libraries 2012 [EB/OL].[2012-07-03].http://www.thedigitalshift.corn/2012/02/mobile/the-state-of-mobile-in-libraries.2012/.
[4]林海青,樓向英,夏翠娟.圖書館關聯數據:機會與挑戰(zhàn)[J].中國圖書館學報,2012,38(197):58-68.
The Development and Practice of Digital Library about Structured Digital Document Reprocessing Tools
Zeng Wen, Xu Shuo, Zhang Yunliang/Institute of Scientific and Technical Information of China, Beijing, 100038
Digital library uses computer system to manage all kinds of documents processing and service, through the network and communication technology it supports user to access digital literature information.Processing ability of digital library on the mass data is the foundation of ensuring data quality, supporting and deepening the service function of digital library.The paper discusses the importance of data reprocessing tools research, and it introduces the previous work, elaborates the development and practice work of structured digital document reprocessing tools.
Digital library, Structured data, Digital document, Reprocessing tools
10.3772/j.issn.1673—2286.2013.07.010
曾文,博士,中國科學技術信息研究所,研究方向:智能信息處理、數字圖書館等。E-mail: zengw@istic.ac.cn; zengwen_@sohu.com
2013-01-25)