劉悅?cè)?余育仁(同濟(jì)大學(xué)圖書(shū)館 上海 200092)
韋成府(北京大學(xué)圖書(shū)館 北京 100871)
郭利敏(同濟(jì)大學(xué)圖書(shū)館 上海 200092)
?
圖書(shū)館界的“大數(shù)據(jù)”
——?dú)W盟SCAPE項(xiàng)目工具簡(jiǎn)述
劉悅?cè)?余育仁(同濟(jì)大學(xué)圖書(shū)館 上海 200092)
韋成府(北京大學(xué)圖書(shū)館 北京 100871)
郭利敏(同濟(jì)大學(xué)圖書(shū)館 上海 200092)
數(shù)字資源長(zhǎng)期保存工作,是圖書(shū)館在“大數(shù)據(jù)”領(lǐng)域的一個(gè)應(yīng)用。歐盟FP7資助的SCAPE項(xiàng)目,是一個(gè)經(jīng)實(shí)踐驗(yàn)證的數(shù)字長(zhǎng)期保存項(xiàng)目。項(xiàng)目開(kāi)發(fā)的開(kāi)源軟件,能夠處理大數(shù)量級(jí)的數(shù)據(jù),解決文字處理、圖像數(shù)據(jù)分析或格式遷移等問(wèn)題,在Web歸檔、機(jī)構(gòu)庫(kù)、大數(shù)據(jù)的存儲(chǔ)、復(fù)雜科學(xué)文獻(xiàn)的存儲(chǔ)等多個(gè)方面得到應(yīng)用。本文詳細(xì)介紹這些軟件和應(yīng)用實(shí)例,從中找出可學(xué)習(xí)和利用之處。
大數(shù)據(jù) 數(shù)據(jù)長(zhǎng)期保存 SCAPE項(xiàng)目
在大數(shù)據(jù)時(shí)代背景下,圖書(shū)館界已逐步利用大數(shù)據(jù)理論、方法來(lái)變革圖書(shū)館服務(wù)。侯志江[1]等分析利用基于OPAC日志用戶行為的大數(shù)據(jù),較準(zhǔn)確地了解用戶需求及滿足情況。楊丹丹[2]提出用大數(shù)據(jù)分析為讀者決策采購(gòu)提供準(zhǔn)確的數(shù)據(jù)源,并為進(jìn)一步提升讀者決策采購(gòu)效能成為可能。黃輝[3]提出了圖書(shū)館在大數(shù)據(jù)背景下的微服務(wù)理念,以滿足大數(shù)據(jù)時(shí)代微用戶的特殊信息需求。
對(duì)于數(shù)字圖書(shū)館來(lái)說(shuō),數(shù)字館藏日益增長(zhǎng),早已跨入拍字節(jié)(petaByte),相關(guān)的數(shù)字長(zhǎng)期保存工作也越來(lái)越重要,數(shù)字資源長(zhǎng)期存儲(chǔ)的經(jīng)濟(jì)性和獲取資源的便捷自動(dòng)更是重中之重。筆者認(rèn)為,數(shù)據(jù)長(zhǎng)期保存所涉及到的海量數(shù)據(jù),是真正意義上的大數(shù)據(jù);數(shù)據(jù)保存是大數(shù)據(jù)的實(shí)際應(yīng)用領(lǐng)域,而大數(shù)據(jù)本身又揭示了數(shù)據(jù)保存工作中存在的挑戰(zhàn)。歐盟所支持的SCAPE項(xiàng)目,正是在這背景之下的一個(gè)成功案例,能夠處理大數(shù)據(jù)量,有效解決大數(shù)據(jù)量的數(shù)據(jù)遷移、數(shù)據(jù)規(guī)范等。Sven Schlarb[4]在數(shù)字資源長(zhǎng)期保存的背景下引入“大數(shù)據(jù)”概念,介紹了歐洲項(xiàng)目SCAPE項(xiàng)目,并以?shī)W地利國(guó)家圖書(shū)館為例,詳細(xì)描述“網(wǎng)絡(luò)歸檔”(“Web archiving”)和“大數(shù)據(jù)電子藏書(shū)”(“Large digital book collections”)兩種應(yīng)用場(chǎng)景。目前,國(guó)內(nèi)關(guān)于SCAPE項(xiàng)目的研究較少,吳振新[5]等簡(jiǎn)要介紹了SCAPE項(xiàng)目的框架和部分工具集;郭紅梅[6]等簡(jiǎn)要對(duì)比介紹了SCAPE項(xiàng)目的基本信息和主題類別、經(jīng)費(fèi)等情況。
下文將結(jié)合大數(shù)據(jù)背景,著重研究SCAPE項(xiàng)目提供的開(kāi)源大數(shù)據(jù)工具,通過(guò)對(duì)SCAPE項(xiàng)目進(jìn)行分析和研究,從中找出可借鑒學(xué)習(xí)之處。
SCAPE[7]項(xiàng)目致力于發(fā)展計(jì)劃執(zhí)行機(jī)構(gòu)資源在開(kāi)源平臺(tái)長(zhǎng)期保存的策略,面向大數(shù)據(jù)量的數(shù)字對(duì)象的復(fù)雜異構(gòu)集合,半自動(dòng)化工作流程,可以擴(kuò)展的服務(wù)。SCAPE項(xiàng)目開(kāi)發(fā)的基本工具是基于質(zhì)量保證的自動(dòng)保存工作流框架,其構(gòu)成組件是基于計(jì)劃和監(jiān)控政策的。SCAPE項(xiàng)目主要面臨四個(gè)方面的挑戰(zhàn)[8],如圖所示,分別是有質(zhì)量保證的內(nèi)容分析和遷移、可擴(kuò)展的監(jiān)控和運(yùn)作控制、大規(guī)模分布式數(shù)據(jù)處理、工作流程和過(guò)程管理。
圖1 SCAPE項(xiàng)目面臨的挑戰(zhàn)[8]
SCAPE項(xiàng)目是由歐盟FP7(第七框架計(jì)劃)資助[6],項(xiàng)目持續(xù)時(shí)間為2011年2月至2014年9月[8,4];總預(yù)算達(dá)1200萬(wàn)歐元,其中歐盟資助9.2億歐元經(jīng)費(fèi)[4]。SCAPE項(xiàng)目的參與單位有大英圖書(shū)館(The British Library)、荷蘭皇家圖書(shū)館(Koninklijke Bibliotheek)、奧地利國(guó)家圖書(shū)館(?sterreichische Nationalbibliothek)、丹麥國(guó)家圖書(shū)館(Statsbiblioteket)、柏林工業(yè)大學(xué)(Technische Universit?t Berlin)、維也納科技大學(xué)(Technische Universit?t Wien)、曼徹斯特大學(xué)(The University of Manchester)、布爾諾科技大學(xué)(Brno University of Technology)和蒂米什瓦拉西部大學(xué)(West University of Timisoara)等等[9]。SCAPE項(xiàng)目通過(guò)四個(gè)[10]子項(xiàng)目完成了數(shù)字保存的研究,分別是試驗(yàn)沙盒(Testbeds)、保存組件(Preservation Components)、平臺(tái)(Platform)和規(guī)劃監(jiān)控(Planning and Watch)。SCAPE項(xiàng)目取得的成就在社區(qū)交流和數(shù)字保存方面有著重大影響。
2.1Jpylyzer (JPEG圖片檢驗(yàn)工具)
JP2(即JPEG 2000)[11]圖像采用ISO/IEC 15444-1標(biāo)準(zhǔn)(Part 1 of the JPEG 2000 image compression standard)。目前,越來(lái)越多的機(jī)構(gòu)[12]選用JP2作為存儲(chǔ)圖像介質(zhì)的格式,然而很多舊有的圖像仍然是TIFF格式,因此批量轉(zhuǎn)換TIFF到JP2格式十分有必要。在轉(zhuǎn)換過(guò)程中,由于硬件故障或其他原因可能會(huì)出現(xiàn)損壞圖像。利用Jpylyzer可以輕松驗(yàn)證圖像,檢驗(yàn)圖像是否符合標(biāo)準(zhǔn)壓縮要求,是否有信息丟失。
Jpylyzer可以用來(lái)驗(yàn)證和提取JP2圖像的特征[13]。利用Jpylyzer,可以驗(yàn)證某張圖像是否真正符合JP2標(biāo)準(zhǔn),同時(shí)報(bào)告圖像的重要信息。Jpylyzer是一款開(kāi)源免費(fèi)軟件,適用于Windows、Linux、Unix等平臺(tái),安裝簡(jiǎn)單,使用便捷,可以集成到工作流,便于自動(dòng)化管理。
目前,大英圖書(shū)館(the British Library)和惠康圖書(shū)館(the Wellcome Library)已經(jīng)使用該軟件。
2.2Matchbox(重復(fù)圖像檢測(cè)工具)
在很多情況下,需要識(shí)別專集中圖像是否重復(fù)[14],例如確認(rèn)一頁(yè)或一本書(shū)是否被數(shù)字化兩次;已數(shù)字化的圖像是否代表同一套正本(originals);是否所有掃描圖像都通過(guò)圖像處理。人工檢測(cè)是非常耗時(shí)的,而且容易出錯(cuò),Matchbox工具可以協(xié)助解決這個(gè)問(wèn)題。
Matchbox是一款開(kāi)源工具,能夠判斷同一專集或者交叉專集中的圖像是否重復(fù);即使文件格式、大小等不同,或是來(lái)源于同一出版社的不同版本,Matchbox也能辨別出是否重復(fù)。Matchbox應(yīng)用最先進(jìn)的圖像處理,是OCR技術(shù)無(wú)法比擬的,比如手寫(xiě)體或樂(lè)譜的圖像。在整合多來(lái)源專集、收集缺失文件時(shí)非常有用。
MatchBox[15]基于OpenCV、Python、Git安裝。安裝后有三個(gè)工具組件,分別是Extract_ features(圖像特征提取工具)、Compare(比較工具)、Train(訓(xùn)練工具)。Extract_features提取圖像特征信息,包括圖像元數(shù)據(jù)信息,圖像處理特征如顏色直方圖等以及基于興趣點(diǎn)檢測(cè)的復(fù)雜特征等。提取的信息存儲(chǔ)為壓縮的XML格式或者二進(jìn)制格式。二進(jìn)制存儲(chǔ)格式使得處理速度更快,而XML格式能更為靈活地利用第三方工具處理數(shù)據(jù)。compare工具用于比較兩個(gè)提取的特征信息并計(jì)算其相似性。輸入的文件必須是同一個(gè)特征集,不同特征集之間的比較是不可能的。相似計(jì)算結(jié)果以XML格式輸出。train工具特殊在能夠創(chuàng)建基于視覺(jué)詞袋(Visual bag-of-words)的視覺(jué)詞匯(Visual vocabularies)。
2.3xcorrSound(提高數(shù)字音頻質(zhì)量)
xcorrSound采用了[16]交叉相關(guān)(Cross Correlation)算法來(lái)比較聲波,自動(dòng)分析重疊信息,有利于圖書(shū)館裁剪或合并音頻文件,從而提升終端用戶的視聽(tīng)體驗(yàn)。xcorrSound重疊分析精準(zhǔn),易于安裝與集成,能夠有效提高資源利用率,改進(jìn)優(yōu)化用戶體驗(yàn)。
xcorrSound包括三個(gè)工具[17]:Overlapanalysis,重疊分析工具,檢測(cè)兩份音頻文件的交疊信息(overlap);Sound-match,聲音匹配工具, 檢測(cè)較大音頻文件或音頻文件的索引中出現(xiàn)的小音頻文件;Waveform-compare,波形比較工具,比較兩份音頻文件和輸出相似性。文獻(xiàn)[18]詳細(xì)描述了音頻文件保存和訪問(wèn)操作的自動(dòng)質(zhì)量保證方法,算法采用了互相關(guān)來(lái)比較聲波和重疊分析。
丹麥國(guó)家大學(xué)圖書(shū)館[17](the State and University Library in Denmark)擁有大量數(shù)字化音頻文件,原始數(shù)據(jù)存在2小時(shí)的磁帶上,磁帶之間互有重復(fù)。為了提高用戶體驗(yàn),圖書(shū)館利用xcorrSound工具消除磁帶上的重復(fù),為廣播提供連續(xù)流(Continuous Stream)。
2.4Flint
Flint是一個(gè)可配置的文件/格式校驗(yàn)框架[19]。在實(shí)際使用中,用戶對(duì)文件/格式的需求總會(huì)與官方標(biāo)準(zhǔn)有差異,F(xiàn)lint就是用來(lái)解決這個(gè)問(wèn)題的。Flint準(zhǔn)許自行制定文件規(guī)范(policy),并檢測(cè)不符合規(guī)范的文件,如缺失嵌入字體的PDF文件或者其他非法文件。
Flint的PDF和EPUB模塊 ,使用了一些如Apache Tika、Apache PDFBox、IDPF EpubCheck、Jhove、Calibre and iText 在內(nèi)的程序和類庫(kù);核心模塊還提供了接口,方便開(kāi)發(fā)用于支持其它格式的新模塊。Flint從輸入文件到標(biāo)準(zhǔn)化輸出結(jié)果的工作流實(shí)現(xiàn)的非常簡(jiǎn)潔[20]。Flint擁有強(qiáng)大的驗(yàn)證模塊,有多個(gè)功能選項(xiàng)可供選擇,如基于Schematron(Schematron是一種基于規(guī)則的XML模式語(yǔ)言,用于定義和限制 XML 詞匯表。http:// en.wikipedia.org/wiki/Schematron)的驗(yàn)證,異常和損壞文件驗(yàn)證過(guò)程的超時(shí)處理等。
Flint利用途徑是多樣化的,可以在界面行(fint-cli)使用,也可以在簡(jiǎn)單GUI界面(fint-fx)使用,還可以在Hadoop MapReduce模塊(finthadoop)下使用。
2.5Digital Preservation Toolkit(數(shù)據(jù)保存工具)
Digital Preservation Toolkit,數(shù)據(jù)保存工具[21],是Debian工具包,安裝簡(jiǎn)便。此外還有三個(gè)相關(guān)工具包,分別是Digital-preservationtools-migration、Digital-preservation-toolscharacterization和Digital-preservation-toolsquality-assurance。
3.1Pagelyzer(監(jiān)控網(wǎng)頁(yè)內(nèi)容)
利用Pagelyzer,可以輕松監(jiān)控網(wǎng)頁(yè)動(dòng)態(tài)內(nèi)容[22],解決Web歸檔渲染問(wèn)題,以及其他如格式過(guò)時(shí)檢測(cè)、重復(fù)(近義)檢測(cè)的應(yīng)用等。可降低工作成本,提高工作效率。目前已經(jīng)成功通過(guò)Internet Memory Foundation測(cè)試。
Pagelyzer能夠檢測(cè)大數(shù)量級(jí)的網(wǎng)頁(yè)動(dòng)態(tài)變化,如視覺(jué)變化、布局變化等。檢測(cè)時(shí)[23]基于網(wǎng)頁(yè)分割算法(Web Page Segmentation Algorithm),用SVM(Support Vector Machine,支持向量機(jī))計(jì)算網(wǎng)頁(yè)相似度來(lái)判斷網(wǎng)頁(yè)是否相似。
Pagelyzer可以檢測(cè)網(wǎng)頁(yè)變化和渲染差異,比較網(wǎng)頁(yè)在不同瀏覽器的渲染差異;有助于確定使用瀏覽器截圖的網(wǎng)頁(yè)采集頻率,優(yōu)化網(wǎng)站采集(Web harvest)。
3.2Hawarp(基于Hadoop的網(wǎng)絡(luò)信息資源保存處理)
Hawarp[24]是基于Hadoop框架處理網(wǎng)絡(luò)信息資源保存(Web Archive)的工具,建立在JWAT網(wǎng)絡(luò)信息保存框架的頂層。可以處理舊標(biāo)準(zhǔn)ARC和新ISO標(biāo)準(zhǔn)WARC的數(shù)據(jù)文件;將大量ARC格式數(shù)據(jù)集轉(zhuǎn)為WARC格式;能夠?yàn)锳RC格式文件和WARC格式文件創(chuàng)建索引。
Hawarp的工具Droid-identify和Tikaidentify是通過(guò)本地安裝MapReduce,用Hadoop集群分布式處理網(wǎng)絡(luò)信息資源,其中輸入文件是本地文件系統(tǒng)(local file system)或者HDFS路徑(HDFS paths)的文本文件。Arc2warc-migration-cli是一個(gè)獨(dú)立的命令行工具,和ToMaR一起使用,并行處理計(jì)算機(jī)集群。
3.3Nanite
Nanite是基于Droid和Apache Tika的工具[25,26],提供豐富的格式識(shí)別和鑒定體系,讓大規(guī)模識(shí)別與鑒定變得更加簡(jiǎn)單方便,還有助于比較綜合不同工具的結(jié)果。Nanite-core含有識(shí)別功能的核心代碼,重新實(shí)現(xiàn)Droid核心工作流以更好適應(yīng)CLI或者嵌入Haddop 的MapReduce任務(wù)。解析輸入流(InputStreams)。Nanite-hadoop整合了Nanite-core和其他識(shí)別/鑒定庫(kù)作為Hadoop任務(wù),對(duì)ARC或WARC網(wǎng)絡(luò)文件操作。Nanite- Hadoop目前有兩個(gè)MapReduce程序,分別是GZChecker和FormatProfiler。前者用于自動(dòng)刪除問(wèn)題文件,防止FormatProfiler運(yùn)行數(shù)小時(shí)后才發(fā)現(xiàn)不符合規(guī)范的文件。FormatProfiler是Nanite- Hadoop的核心程序,有多種輸出格式可選,如適用于C3PO的輸入格式。GZChecker用于檢測(cè)輸入文件,自動(dòng)刪除問(wèn)題文件。
4.1ToMaR(大數(shù)量級(jí)保存)
在處理大數(shù)量級(jí)數(shù)據(jù)時(shí),如文件格式遷移(Format Migration),一臺(tái)獨(dú)立服務(wù)器的吞吐量是無(wú)法滿足短時(shí)間內(nèi)的數(shù)據(jù)處理[27],ToMaR解決了這一問(wèn)題,提供了一個(gè)擴(kuò)展性強(qiáng)的解決方案。ToMaR是一個(gè)通用的MapReduce應(yīng)用,能夠處理大批量數(shù)據(jù),使用時(shí)不需要任何編程工作,不需要為特殊的環(huán)境再次編寫(xiě)使用工具,只需要配置一份控制文件即可。ToMaR將復(fù)雜的命令行簡(jiǎn)化為關(guān)鍵字,使用便捷。ToMaR可以視為一個(gè)第三方工具[28],能夠在命令行或者Java應(yīng)用里使用。
4.2SCAPE toolwrapper
ToolWrapper[29]將已有的數(shù)據(jù)保存工具壓縮(wrap)到bash腳本或Taverna工作流或Debian包,以此簡(jiǎn)化工具的描述、調(diào)用和打包(package)。
4.3SCAPE Cloud Deployment Toolkit(云部署工具)
圖書(shū)館界嘗試?yán)迷品?wù),然而圖書(shū)館應(yīng)用的遷移并非易事,無(wú)論是公共云、私有云還是混合云,都需要有好的可擴(kuò)展性、冗余性、可用性和靈活性。在實(shí)際應(yīng)用過(guò)程中,數(shù)字保存環(huán)境是一個(gè)復(fù)雜的系統(tǒng),需要多個(gè)軟件無(wú)縫工作,如Apache Hadoop、Taverna工作流、遷移數(shù)據(jù)的QA工具等等。這些軟件都需要安裝在基本設(shè)施上,可以是物理機(jī),可以是私有云上的虛擬機(jī)也可以是公共云配置的虛擬機(jī),這些軟件的安裝配置使任務(wù)變得更加繁復(fù)易出錯(cuò)。工具Cloud Deployment Toolkit解決這一問(wèn)題[30],使在混合設(shè)施上的安裝和監(jiān)控更簡(jiǎn)單,將各種軟件安裝在云上。
工具Cloud Deployment Toolkit整合了多個(gè)技術(shù)[31]實(shí)現(xiàn)了這一功能。Libcloud,云服務(wù)的接口,解決虛擬機(jī)初始啟動(dòng)時(shí)的安裝配置。Puppet,配置管理系統(tǒng),有效部署Scape項(xiàng)目的組件和工具。Consul,用于各種尋址和配置方案。終端用戶可以直接使用Cloud Deployment Toolkit的用戶交互界面。
5.1C3PO(文件分析)
收集數(shù)字材料時(shí)也許知道文件的格式,但諸如文件的不同版本的確切數(shù)目,超過(guò)100頁(yè)的PDF文件,嵌入視頻和圖片的文件,或者加密文件這類信息卻無(wú)法知曉。C3PO可以深入分析文件[32],幫助進(jìn)一步過(guò)濾和探索深入信息。
C3PO[33](Clever, Crafty, Content Profiling of Objects)是一款對(duì)對(duì)象智能化分析的軟件,能夠從文件中提取元數(shù)據(jù),快速處理和存儲(chǔ)“大數(shù)據(jù)”,提供可供機(jī)讀的概述,允許用戶使用不同的元數(shù)據(jù)格式,易于集成。
5.2Plato(有效可信的保存計(jì)劃工具)
由于不同的用戶群體會(huì)有不同的特別需求,因此制定合理、有效、客觀的數(shù)據(jù)保存方案具有一定挑戰(zhàn)性。Plato[34,35]能夠幫助制定長(zhǎng)期保存策略。通過(guò)整合來(lái)自外部信息、潛在保存組件的注冊(cè)信息和政策的機(jī)讀信息等等,收集某地決策信息,自動(dòng)形成數(shù)據(jù)保存計(jì)劃。
5.3Scout(長(zhǎng)期保存指導(dǎo)工具)
數(shù)字存儲(chǔ)數(shù)據(jù)的風(fēng)險(xiǎn)估算絕非易事,Scout是一個(gè)基于網(wǎng)絡(luò)的服務(wù)[36,37]:協(xié)助機(jī)構(gòu)庫(kù)監(jiān)控?cái)?shù)字資源,根據(jù)保存環(huán)境的變化調(diào)整自己的保存設(shè)置,提供更新提醒如格式過(guò)時(shí)、政策整合。
隨著數(shù)字時(shí)代的來(lái)臨,整個(gè)社會(huì)都面對(duì)“大數(shù)據(jù)”這一話題。數(shù)字保存,作為“大數(shù)據(jù)”的應(yīng)用分支領(lǐng)域,是反映社會(huì)需求,符合圖書(shū)館發(fā)展趨勢(shì)的。歐盟FP7資助的數(shù)字長(zhǎng)期保存SCAPE項(xiàng)目,所涉及到的數(shù)據(jù)處理方法,如文字處理、圖像數(shù)據(jù)分析或格式遷移,經(jīng)過(guò)實(shí)踐證明,可以應(yīng)用到非常大的數(shù)據(jù)集。SCAPE項(xiàng)目中的開(kāi)源工具,可以在Web歸檔、機(jī)構(gòu)庫(kù)、大數(shù)據(jù)的存儲(chǔ)、復(fù)雜科學(xué)文獻(xiàn)的存儲(chǔ)等多個(gè)領(lǐng)域利用。
[1] 侯志江,侯玲娟.基于OPAC 日志用戶行為分析的圖書(shū)采購(gòu)新方法[J].圖書(shū)館建設(shè), 2015(1): 70-72.
[2] 楊丹丹.利用大數(shù)據(jù)分析法提高圖書(shū)館讀者決策采購(gòu)(PDA)[J].圖書(shū)館工作與研究, 2015(1): 60-62.
[3] 黃輝.大數(shù)據(jù)時(shí)代圖書(shū)館的微服務(wù)研究[J].圖書(shū)館學(xué)刊,2015(2):78-80.
[4] Dr.Sven Schlarb.Big Data“ in Bibliotheken: SkalierbareLangzeitarchivierung im SCAPE Projekt[J]. Bibliothek Forschung und Praxis, 2014(1):1-18.
[5] 吳振新,付鴻鵠,李文燕,等.第10 屆數(shù)字對(duì)象長(zhǎng)期保存國(guó)際會(huì)議(iPRES 2013) 綜述[J].圖書(shū)情報(bào)工作,2014(2): 127-135.
[6] 郭紅梅,張智雄. 歐盟數(shù)字化長(zhǎng)期保存研究現(xiàn)狀[J].圖書(shū)情報(bào)工作,2014(4): 122-127.
[7] http://www.scape-project.eu/.
[8] Ross King, Rainer Schmidt, Christoph Becker, Sven Schlarb. SCAPE: Big Data Meets Digital Preservation[J].ERCIM NEWS(89):30-31.
[9] http://www.scape-project.eu/partners.
[10] http://www.scape-project.eu/about/project.
[11] http://zh.wikipedia.org/wiki/JPEG_2000.
[12] http://www.scape-project.eu/leafets/jpylyzerjpeg-2000-validation-made-easy.
[13] http://jpylyzer.openpreservation.org/.
[14] http://www.scape-project.eu/leafets/matchbox -the-duplicate-image-detection-tool.
[15] http://matchbox.openpreservation.org/.
[16] http://www.scape-project.eu/leafets/xcorrsoun d-improve-your-digital-audio-recordings.
[17] http://xcorrsound.openpreservation.org/.
[18] Bolette Ammitzb?ll Jurik, Jesper Sindahl Nielsen. Audio Quality Assurance: An Application of Cross Correlation[C]// iPRES 2012 Proceedings of the 9th International Conference on Preservation of Digital Objects. Toronto 2012, 144-149.
[19] http://www.scape-project.eu/leafets/fint.
[20] http://fint.openplanetsfoundation.org/.
[21] http://dpt.openpreservation.org/.
[22] http://www.scape-project.eu/leaflets/monitoryour-web-content-with-pagelyzer.
[23] http://pagelyzer.openpreservation.org/.
[24] http://hawarp.openpreservation.org/.
[25] http://www.scape-project.eu/leafets/nanite.
[26] http://nanite.openpreservation.org/.
[27] http://www.scape-project.eu/leaflets/tomarleafet.
[28] http://tomar.openpreservation.org/.
[29] http://openpreserve.github.io/scape-toolwrapper/.
[30] http://www.scape-project.eu/leaflets/clouddeployment-toolkit.
[31] http://sct.openpreservation.org/.
[32] http://www.scape-project.eu/leafets/c3po-leaf let.
[33] http://c3po.openpreservation.org/.
[34] http://www.scape-project.eu/leafets/plato-leaf let.
[35] http://plato.openpreservation.org/.
[36] http://www.scape-project.eu/leafets/let-scoutbe-your-preservation-guide.
[37] http://scout.openpreservation.org/.
劉悅?cè)?館員,同濟(jì)大學(xué)圖書(shū)館數(shù)字化部。