亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        學術(shù)電子書元數(shù)據(jù)質(zhì)量檢測及控制

        2019-07-06 01:21:30翟中會
        圖書館研究與工作 2019年7期
        關(guān)鍵詞:電子圖書字段電子書

        翟中會 周 琴 蔡 勤

        (西安交通大學圖書館 陜西西安 710061)

        1 引言

        過去10年里,電子書數(shù)量及質(zhì)量得到了迅猛發(fā)展,僅2016年全球出版了大約45萬種英文語種的學術(shù)電子書,佛羅里達大學圖書館電子書占所有圖書比例已經(jīng)上升到73%[1]。電子書與物理館藏相比有其優(yōu)點,如電子書不會錯架和丟失、實時在線訪問、不用去圖書館借閱;但也有其缺點,如用戶可以通過檢索或瀏覽書架兩種方式發(fā)現(xiàn)物理館藏,而電子書只能通過計算機檢索的方式發(fā)現(xiàn),如果電子書的元數(shù)據(jù)不完整或錯誤,用戶很難檢索到該書[2]。所以書目元數(shù)據(jù)和其他描述信息元素是保證用戶發(fā)現(xiàn)和利用電子書的關(guān)鍵,用戶根據(jù)電子書第一個頁面的元數(shù)據(jù)決定是否閱讀該書。

        影響用戶使用電子書的因素很多,包括電子書格式、個人書架、添加注釋、打印、下載以及移動端訪問等,但這些都必須建立在用戶可發(fā)現(xiàn)的基礎(chǔ)上,一旦電子書元數(shù)據(jù)錯誤、不全或不一致會對用戶發(fā)現(xiàn)電子圖書造成影響。因此元數(shù)據(jù)質(zhì)量是數(shù)字館藏可靠并高效操作的必要條件,元數(shù)據(jù)能夠執(zhí)行發(fā)現(xiàn)、使用、出處、流通、認證和管理這些核心書目功能[3]。本文介紹了出版社和電子書聚合平臺元數(shù)據(jù)的質(zhì)量問題,進而提出質(zhì)量控制方法,以促進圖書館建立高質(zhì)量的元數(shù)據(jù),增加電子圖書的使用效率。

        2 電子書元數(shù)據(jù)質(zhì)量及評價

        2.1 出版社和圖書館元數(shù)據(jù)的差異

        大部分出版社除了提供電子書外還提供大量的電子期刊,電子期刊發(fā)展時間較長,已形成了成熟的標準和生產(chǎn)流程,這些出版社將電子期刊元數(shù)據(jù)標準直接應(yīng)用于電子書,但電子書和電子期刊的發(fā)現(xiàn)方式完全不同,比如用戶通過數(shù)據(jù)庫、索引和A—Z期刊列表發(fā)現(xiàn)電子期刊內(nèi)容,而用戶訪問電子書的途徑主要有OPAC(Online Public Access Catalogue,聯(lián)機公共查詢目錄)、資源發(fā)現(xiàn)系統(tǒng)、出版社平臺、聚合器平臺(EBSCO、MyiLibrary等)、Google等方式。這些平臺的元數(shù)據(jù)來源于出版社提供的MARC(Machine Readable Catalogue,機器可讀目錄)記錄,電子圖書的發(fā)現(xiàn)完全依賴這些MARC記錄,所以用戶很難發(fā)現(xiàn)按照電子期刊方式組織的電子圖書。

        圖書館和出版商使用的元數(shù)據(jù)格式不同,出版商使用ONIX(Online Information Exchange,在線信息交換)元數(shù)據(jù),圖書館使用MARC元數(shù)據(jù)。ONIX元數(shù)據(jù)包括數(shù)字版權(quán)管理、銷售記錄和國際分銷等內(nèi)容,這些特點有利用出版商管理電子圖書的銷售。出版商為了方便圖書館將電子書目加載到本館的ILS(Integrated Library System,圖書館集成系統(tǒng)),采用第三方軟件增強ONIX數(shù)據(jù)或?qū)NIX轉(zhuǎn)換為MARC,有時也從一些提供商或OCLC(Online Computer Library Center,聯(lián)機計算機圖書館中心)訂購MARC記錄。但在這些轉(zhuǎn)化或增強過程中,由于一些字段對出版社并不重要,所以可能遺漏對于圖書館非常重要的字段信息(如美國國會圖書館標題表LCSH)。另外出版社也很難制定出滿足不同ILS系統(tǒng)的元數(shù)據(jù)。電子書可以按照年度、系列或兩者結(jié)合方式銷售,這些銷售信息很容易在ONIX元數(shù)據(jù)中表示,在MARC元數(shù)據(jù)中幾乎不可能實現(xiàn)。

        2.2 MARC記錄不適用于電子圖書

        2011年美國國會圖書館提出重新評估MARC21,認為已有40多年歷史的MARC21不能適應(yīng)大量數(shù)字資源描述。盡管MARC標準是一個非常成熟的標準,但不同的編目人員使用時存在差異,在書目聚合平臺(發(fā)現(xiàn)系統(tǒng))能夠發(fā)現(xiàn)許多標題編目級別上的差異。出版商將許可協(xié)議年份作為“版權(quán)年”,版權(quán)年有利于出版社銷售給圖書館的電子圖書時間范圍。雖然MARC中包括了出版年和版權(quán)年,但出版商所定義的版權(quán)年沒有納入MARC記錄,因此MARC記錄中僅包括出版年。在新的標準出現(xiàn)之前,我們應(yīng)該盡最大努力改善MARC21標準,使之盡可能滿足電子書元數(shù)據(jù)要求。

        3 電子書元數(shù)據(jù)質(zhì)量檢測及使用情況

        3.1 檢測內(nèi)容及方法

        電子書平臺包括商業(yè)出版社平臺、大學出版平臺、電子書聚合平臺(ebrary、E-Book Library、MyiLibrary和EBSCO等)3種形式。圖書館購買的電子書分布在在這3種類型的平臺上。目前,大量出版社不僅在私有的平臺上提供電子書訪問,也在一些供應(yīng)商的聚合器平臺提供電子書的訪問權(quán)限。本次測試選擇了CABI(Center for Agriculture and Bioscience International,國際農(nóng)業(yè)與生物科學中心)等8個出版社和EBSCO等3個平臺測試電子書元數(shù)據(jù)的準確性。

        電子書MARC記錄最常見的錯誤有哪些?不同出版社存在的錯誤是否相同?MARC記錄質(zhì)量是否一致?為了分析這些問題,我們從資源發(fā)現(xiàn)系統(tǒng)中收集電子書MARC記錄,包括標題、作者、出版年,樣本大小基于99%的置信度和5%的置信區(qū)間,采用一個通用ID標識電子書,然后輸入Excel工作表,使用Excel中的RANDBETWEEN函數(shù)選擇隨機抽樣的電子書標題進行元數(shù)據(jù)檢查。檢查內(nèi)容包括:①對比電子書元數(shù)據(jù)和PDF格式電子書中的標題、作者、出版年和ISBN是否一致;②檢查PDF電子書全文頁碼、章節(jié)是否完整;③電子書全文是否可以下載;④目錄表是否能正確鏈接到PDF全文對應(yīng)頁面(目錄通常來源于附加的XML文件或PDF文件中的TOC)。

        3.2 檢測結(jié)果

        書的完整性、PDF下載、MARC記錄和PDF全文中標題、出版年、作者、內(nèi)容匹配情況、TOC鏈接精確度范圍為90.3%到99.6%之間,不同出版社MARC記錄準確性范圍為84.3%到97.8%。結(jié)果表明,大多數(shù)MARC來源的質(zhì)量非常好,標題、作者和出版年3個字段中作者出現(xiàn)錯誤幾率最?。ㄈ绫?所示)。

        表1 出版社MARC記錄錯誤

        3.3 用戶使用MARC的檢索方式

        用戶在檢索電子書時,有的字段經(jīng)常被使用而有的則很少被使用,因此經(jīng)常使用的字段如果發(fā)生錯誤將對電子書的發(fā)現(xiàn)產(chǎn)生很大影響,通過了解哪些字段對終端用戶最重要(如電子書頁碼錯誤對用戶幾乎沒有影響),可以優(yōu)先考慮對這些字段的糾錯。為了確定字段的相對重要性,作者通過電子書平臺搜索日志收集用戶使用MARC字段檢索情況。根據(jù)日志分析,用戶檢索類型主要包括下面幾種情況:作者、主題、標題、LCSH、語言、出版社、ISBN、出版年和“關(guān)鍵詞在所有字段”。“關(guān)鍵詞在所有字段”是使用最多的檢索方式,占整個檢索類型的88%,標題、作者和主題也是比較重要的字段。另外還有學科、主題、控制號(ISBN和數(shù)字對象唯一標識符DOI),標題方式有完整標題檢索(如“Envisioning Easiness:Byron's‘Darkness’,Campbell's‘The East Man’,and the Critical Aftermath.”)、短語檢索(如“The Troubled Dream of Life”),但該書的完整的標題為“The Troubled Dream of Life: In Search of a Peaceful Death”。主題檢索為單個或幾個單詞主題搜索(如“aestheticism”,或“protests + demonstrations+native+Canadians”)。主題或標題檢索,不區(qū)分是主題或標題(如“winnipeg+general+strike”)。主題或作者檢索,不區(qū)分是作者名或是否研究對象為該人名。

        4 建立質(zhì)量控制過程

        元數(shù)據(jù)是電子圖書服務(wù)的基礎(chǔ),目前還沒有完整一致的方法創(chuàng)建元數(shù)據(jù)。建立有效的質(zhì)量控制過程可以解決不同提供商元數(shù)據(jù)不一致和完整性問題,大部分出版社或聚合平臺采用冗余方法控制元數(shù)據(jù)質(zhì)量。然而這種方法在實踐過程中并不是非常有效,另外電子書上線后,讀者應(yīng)該立即就能訪問電子圖書的內(nèi)容,所以元數(shù)據(jù)質(zhì)量應(yīng)該在上線前進行檢查,而不能依靠讀者的反饋糾錯。

        4.1 質(zhì)量評價框架

        目前,電子書元數(shù)據(jù)質(zhì)量評價最完整的一個框架由7個通用維度組成:完整性、精確性、來源、期望一致性、邏輯一致性、時效性和可訪問性。精確性和一致性在這7個維度中最重要。也有學者提出采用分析和經(jīng)驗方法組合來估計元數(shù)據(jù)質(zhì)量變化,構(gòu)建對最終用戶透明的基線質(zhì)量模型。OCLC開發(fā)了質(zhì)量保證機制,并測量了它們對數(shù)字學習庫的影響。他們的案例研究表明,在存儲庫生命周期中為元數(shù)據(jù)創(chuàng)建過程插入控制點可以顯著提高元數(shù)據(jù)的完整性。

        4.2 質(zhì)量控制過程中的問題

        資源描述的精確性和一致性是保證元數(shù)據(jù)在本地語境環(huán)境下可發(fā)現(xiàn)的必要條件,嚴格檢查發(fā)布者列表,嚴格的內(nèi)容加載后檢查以及內(nèi)容完整性的自動檢查有助于元數(shù)據(jù)質(zhì)量提高。

        在數(shù)字環(huán)境下,圖書館扮演聚合和發(fā)布者角色,很難控制和評估元數(shù)據(jù)質(zhì)量,另外元數(shù)據(jù)也不像MARC記錄有成熟的質(zhì)量控制體系,所以必須開發(fā)元數(shù)據(jù)本身的評價和轉(zhuǎn)化過程支持元數(shù)據(jù)基本的互操作能力。出版商使用MARC作為ONIX元數(shù)據(jù)的唯一替代品[4],這迫使圖書館必須以MARC記錄質(zhì)量標準評價元數(shù)據(jù)。但對于電子書來說應(yīng)該在元素水平(如標題)評價元數(shù)據(jù)質(zhì)量,而不是記錄水平(如MARC記錄)。電子書元數(shù)據(jù)必須有書目的發(fā)現(xiàn)、使用、來源、流通、認證和管理功能,使用openURL鏈接解析、搜索引擎可檢索。建立聚合平臺時索引那些MARC字段,在每個標題的第一頁顯示那些特殊字段都是需要考慮的問題[5],如版本對于電子書作用不大,不需要在第一頁顯示版權(quán)字段,但MARC記錄中含有版本字段。IFLA(International Federation of Library Associations,國際圖書館協(xié)會與機構(gòu)聯(lián)合會)在國際編目原則中聲明,元數(shù)據(jù)質(zhì)量控制是為了促進終端用戶發(fā)現(xiàn)、識別、選擇和使用信息資源。然而,近來NISO(National Information Standards Organization,美國國家信息標準組織)強調(diào)電子書元數(shù)據(jù)不僅僅是出版社和圖書館館員使用,更主要是為讀者服務(wù)。高質(zhì)量元數(shù)據(jù)不但提升了電子書的購買和流通,讀者也能通過電子書封面、目錄等內(nèi)容決定是否下載或閱讀該書。

        目前,雖然有一些標準可以應(yīng)用于電子書(如期刊文章標簽套件),但在電子書行業(yè)還在不斷發(fā)展的狀態(tài)下使用一個特定的標準也不是非常合適,也不能解決出版商元數(shù)據(jù)不完整的問題。

        4.3 圖書館和出版社在質(zhì)量控制中的作用

        字段重復和錯誤、MARC記錄錯誤抓取數(shù)據(jù)并索引,都直接影響了元數(shù)據(jù)的質(zhì)量。另外,由于MARC記錄由不同主體完成,所以不同的出版社和出版社內(nèi)部的MARC記錄存在不一致的問題。為了處理這些不一致性,圖書館可以通過分析原始MARC記錄判斷通用映射文件是否正確,在加載數(shù)據(jù)前,分析每個出版社的樣本記錄是否包含需要的所有字段,字段是否以與通用XML映射文件匹配的方式進行編碼。如果數(shù)據(jù)不匹配,需要更改映射文件,以便正確地索引所需的字段,不過這種方案的缺點是忽略了映射文件的通用性。通用性映射文件索引較少的字段,因此用戶體驗性較差,同時如果想轉(zhuǎn)移到豐富元數(shù)據(jù)格式,會導致個性化映射不一致。

        一種處理MARC不一致的方案是從一個元數(shù)據(jù)標準到另一個標準創(chuàng)建“通路”或?qū)ARC記錄映射到完全不同的標準。例如,將不同出版社元數(shù)據(jù)映射到自然語言(Natural Language Processing,簡稱NPL)處理標簽,即使出版社本身以NPL為元數(shù)據(jù)標簽,也需要進一步對元數(shù)據(jù)標準化,這可以保證一致的元數(shù)據(jù)以及索引元數(shù)據(jù)的所有基本元素。

        映射文件不能滿足所有出版社提供的原始元數(shù)據(jù),出版社提供的原始數(shù)據(jù)和后期處理過程都可能產(chǎn)生錯誤,相對于前一種錯誤后期處理過程中產(chǎn)生的錯誤較少見,但如果發(fā)生這種錯誤就會同時影響大批記錄,例如主題編碼字段與映射文件字段不同,處理過程就不能識別主題字段。其他細小的錯誤如作者名字拼寫錯誤、標題錯誤需要圖書館員手動修改。

        控制號(DOI或ISBN)也是元數(shù)據(jù)質(zhì)量非常重要的一個指標[6],近來出現(xiàn)的跨平臺和數(shù)據(jù)庫數(shù)據(jù)共享標準(Knowledge Bases And Related Tools,簡稱KBART)強調(diào)ISBN或eISBN對專著標識的重要性,出版商在電子書元數(shù)據(jù)中加入了EPUB(Electronic Publication)標識字段。

        為了提高電子書元數(shù)據(jù)索引,圖書館可以采取一種適合于電子書的特殊書目信息標準,比如,為不同版本MARC建立對照表,這種方法有利于從其他資源獲取元數(shù)據(jù)(如ONIX、出版社的DTD文檔)。館員將電子書元數(shù)據(jù)與從其他學術(shù)圖書館的目錄中提取的記錄進行比較,創(chuàng)建一個與質(zhì)量控制過程分開的糾錯過程。分析哪些字段對終端用戶最重要,可以優(yōu)先考慮對這些字段的糾錯。

        5 結(jié)語

        通過對電子書元數(shù)據(jù)質(zhì)量分析,發(fā)現(xiàn)即使很少的元數(shù)據(jù)錯誤對電子書來說也是很大的損失。目前圖書館和出版商協(xié)議中還沒有考慮到電子書元數(shù)據(jù)質(zhì)量,元數(shù)據(jù)質(zhì)量也不是協(xié)議中的一個條款,但是敦促出版商提高元數(shù)據(jù)質(zhì)量,圖書館自身清理元數(shù)據(jù)或者通過第三方質(zhì)量控制提升元數(shù)據(jù)質(zhì)量對提升電子圖書利用非常重要。

        猜你喜歡
        電子圖書字段電子書
        圖書館中文圖書編目外包數(shù)據(jù)質(zhì)量控制分析
        打造自己的電子書架
        學與玩(2017年5期)2017-02-16 07:06:30
        出版社紙質(zhì)圖書與電子圖書出版的價值鏈比較
        新聞傳播(2016年11期)2016-07-10 12:04:01
        基于電子書包的學習分析探究
        電子書 等
        CNMARC304字段和314字段責任附注方式解析
        無正題名文獻著錄方法評述
        關(guān)于CNMARC的3--字段改革的必要性與可行性研究
        電子書是否會取代傳統(tǒng)圖書?
        北大方正提供373種電子圖書信息
        国产精品丝袜美女久久| 日本高清www午色夜高清视频 | 曰批免费视频播放免费直播 | 久久久久久国产福利网站| 婷婷开心五月亚洲综合| 99久久精品免费看国产| 日本不卡在线视频二区三区| 日本a在线免费观看| 国产偷国产偷亚洲高清| 亚洲熟妇无码久久精品| 亚洲中文字幕无码久久| 婷婷色国产精品视频一区| 国产在线视频一区二区三| 国产区女主播在线观看| 丁香花在线影院观看在线播放| 国产亚洲精品福利在线| 亚洲精品一区二区三区四区| 欧美性生交活xxxxxdddd| 69久久夜色精品国产69| 国产强伦姧在线观看| 日本中文字幕精品久久| 强奷乱码中文字幕| 欧美国产小视频| 日本不卡一区二区三区在线| 尤物在线观看一区蜜桃| 公粗挺进了我的密道在线播放贝壳| 中文字幕无码免费久久99| 精品日韩在线观看视频| 欧美老肥妇做爰bbww| 99精品视频在线观看| 在线免费观看视频播放| 国产91清纯白嫩初高中在线观看 | 精品国产a∨无码一区二区三区 | 亚洲精品天堂日本亚洲精品| 久久亚洲色一区二区三区| 精品乱码卡1卡2卡3免费开放| 极品人妻少妇一区二区| 喷水白浆视频在线观看| 人妻av鲁丝一区二区三区| 亚洲国产成人手机在线电影| 亚洲国产91精品一区二区|