亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        中華醫(yī)學會系列期刊全文電子文檔交換和存儲標準初探

        2015-04-10 00:38:42沈錫賓王紅劍姜永茂
        中國科技期刊研究 2015年5期
        關鍵詞:標準

        ■沈錫賓 李 鵬 王紅劍 劉 冰 姜永茂

        1)中華醫(yī)學會雜志社新媒體部,北京東四西大街42號 100710

        2)中華醫(yī)學會雜志社,北京東四西大街42號 100710

        1 引言

        隨著信息技術和數字技術的迅猛發(fā)展,傳統(tǒng)的專業(yè)學術出版領域正被逐步顛覆。近年來,科技期刊出版人頗為深切的感受到,讀者的閱讀行為逐漸轉至PC端和移動端[1-3],紙本的訂閱總體呈現(xiàn)萎縮的趨勢[4]。面對這些困境,同仁們在苦尋各種方式以吸引讀者。2013年的調研數據顯示,中國科協(xié)1056種科技期刊建設網站的有812種,占76.9%[5]。這些網站起到了期刊宣傳窗口的功能,但服務窗口的功能尚待提升。如何聯(lián)合學術期刊、整合現(xiàn)有資源、共建專業(yè)性平臺、垂直服務于讀者、精準化營銷,創(chuàng)造一種可持續(xù)的盈利模式,成為當前業(yè)界學者廣泛探討的問題??墒侵袊萍计诳霭嫔纾ň庉嫴浚┬《⒌奶攸c,使得同仁們在數字出版時代的努力捉襟見肘。首當其沖的是數據整合的標準,慶幸的是,在資源整合和數據質量方面國外數字出版已有十多年經驗積累可以借鑒,并形成了一批現(xiàn)成的規(guī)范和標準[6-8]。據筆者所知,國際大型出版商一直推薦使用XML作為數據交換和存儲的基礎,國內很多同行也認為XML是作為科技期刊內容交換和存儲的不二法門[9]。

        中華醫(yī)學會(CMA)雜志社從2006年開始接觸NLM DTD規(guī)范(現(xiàn)已升級為美國國家標準NISO JATS),2013 年對 NLM JATS 3.0 進行剖析[6-8],并開始研制符合中國科技期刊特點的全文結構化文檔標準,2014年10月初版成型,制作了Schema并進行了發(fā)布,命名為CMA JATS 0.1版本。據筆者了解,該標準為國內第一個由雜志社發(fā)起制定并用于實際應用的全文層面的數據標準。本文將詳細介紹此標準,以期對同行有所借鑒。

        2 CMA JATS 0.1特點

        出于對不同時間段內文獻標引質量和成本-效益比的考量,CMA JATS 0.1準備起初設計了兩套不同顆粒度的標準。一套用于全文信息點標引的標準,主要包括了文前信息(<font>),正文信息(<body>)和文后信息(<back>)3大部分。另一套用于文檔元數據標引,包括了論文的摘要信息和全文PDF的信息。前者改編自美國NLM JATS3.0,繼承了NLM JATS的大部分元素和屬性,然后基于中文科技期刊的特性和CMA系列期刊的需求做了一些增刪。摘要信息的標引標準盡可能的保留論文的元數據(metadata),同時在英文數據的標引上能與國外的數據庫進行銜接。本文主要提及全文的標引標準,所以下文中提及的CMA JATS均特指用于標注全文信息的數據標準。

        2.1 適度高顆粒度

        實踐應用中,尋求合適的顆粒度是標準制訂的難點之一。過于繁復,對于制定者來說,提高了標準推行的門檻;對于標準的執(zhí)行者來說,提高了標準認知的難度,加重了整個數據流程鏈上各環(huán)節(jié)人財物的投入;有可能導致標準落地難,出現(xiàn)被束之高閣的尷尬結局。反之,過于簡略、粗線條化,會限制標準的適應性和生命力,削弱文獻的知識深度;有可能為后續(xù)文檔的重利用、知識挖掘和提升和商業(yè)產品的設計埋下隱患。所以避免兩個極端,獲得適合的平衡點是在標準制定中貫徹全程的主線之一。

        CMA JATS 0.1的全文標準定義了168個元素和88個屬性。元素可以理解為期刊論文的顆粒度或知識點,屬性是對各元素中共性內容的提煉,可理解為對這些元素的擴展。比如在定義參考文獻(<ref>)這一知識點時,將其下的<mixed-citation>(混合類型參考文獻)元素定義了52個元素(這可以理解為每條參考文獻的內容可以拆分成哪些信息點),篇幅問題,我們就幾個較常見的信息點進行舉例,比如 <article-title>(文題)、<name>(作者)、<source>(期刊名稱或出處)、<year>(出版年)、<volume>(出版卷)、<issue>(出版期)、<fpage>(起始頁)、<lpage>(終止頁)等等。 <mixed-citation>本身也定義了幾個屬性作為擴展,其中@publication-format和@publication-type是兩個比較重要的屬性。@publication-format指明了出版的媒介,比如“print”(紙媒)、 “electronic”(電子)、“video”(視頻)、 “audio”(音頻)、 “ebook”(電子書)、 “online-only”(僅在線)。 @publication-type指明了出版的類型,比如“journal”(期刊)、 “book”(書)、“l(fā)etter”(信件)、“patent”(專利)、“report”(報告)、“standard”(標準)等等。通過這兩個屬性就可以完整的標注參考文獻的來源和類型。

        由上可見,CMA JATS 0.1標注全文的顆粒度是相對較深的,可能是目前國內科技期刊數據規(guī)范設計中顆粒度最高的,這一規(guī)范脫胎于美國的標準,所以可與國際標準進行接軌,適當的轉化就可以直接向國際知名數據庫上傳數據,當然前提是他們認可并收錄中文科技期刊。

        2.2 國際化視野、兼顧本土化

        中華醫(yī)學會雜志社制定的標準首先考慮是否能為數據交換的國際化提供必要的支持,所以反復研究后認為以NISO JATS作為母版最能獲得國際認可。當然,國外十多年的實踐經驗也驗證了該套標準在期刊數據的交換和存儲、甚至出版中的穩(wěn)定性和通用性。所以中華醫(yī)學會雜志社首先繼承了NISO JATS的絕大部分元素、屬性和實體,然后對部分的元素和屬性做刪減,產生了CMA JATS 0.1。做出刪減的原因部分是考慮到顆粒度過深,但價值有限;部分是因為中文語言不存在的情形;但這些刪減不影響數據的準確性和與國外數據庫的對接。當然更重要的是考慮到初版標準的可行性,不至于影響數據加工商的加工效率,加重數據加工的成本。

        為適應中國科技期刊,尤其是生物醫(yī)學期刊的特點,中華醫(yī)學會雜志社也在細節(jié)上做了調整。

        2.2.1 語言

        NISO JATS的定義者和使用者幾乎均為英語系國家,所以,英語成為該標準的默認選項或主導語種。雖然NISO JATS也允許在大部分的元素上附帶“xml:lang”的屬性來區(qū)別標注內容的語言,但對于中國的期刊來說,母語還是中文為主,出于使用上的習慣考慮,直接將語言的默認值進行了調整,同時在雙語的內容標注時,將中文內容作為第一選項,英語成為了第二語言(翻譯版本,前面冠上trans-)。

        部分中文期刊還有較純英文期刊不同的地方是同一內容同時存在兩種語言的描述。比如圖表的標題或注解,某些期刊使用了中文和英文同時說明。還有一些期刊對于中文的參考文獻在其下附上了英文的翻譯。CMA JATS標準也考慮到了這些情況。

        2.2.2 特殊內容

        中文的科技期刊在不少方面有其特殊的內容。這些是國外期刊不具備的信息。比如,很多期刊有分類號和中圖分類法。某些計算機無法輸入的特殊漢字,在排版輸出時一般會啟用“補字”,所以在一些國際標準中不可能出現(xiàn)插入圖片的內容中增加了行內圖(<inline-graphic>)這一元素。

        2.2.3 擴展的元素

        XML本身具有可擴展的特點,所以標準的特性之一便是其具有一定的靈活性。為能使得數據的知識附加值得到一定的提升,我們在參考文獻的信息點上做了兩項擴展。其一是增加被引文獻期刊當年的影響因子(<cur-if>),關聯(lián)的數據源可以是JCR或CJCR。其二是該參考文獻的摘要信息(<abstract>)。通過這2個元素可極大擴展論文的信息量,再結合引文鏈接的方式進行原文跳轉,讓讀者最大限度的獲取論文相關的知識點,追溯研究的來龍去脈。

        2.3 實踐性

        前文已述,標準的制訂最終需落實到實際應用中。中華醫(yī)學會雜志社在2014年10月推出該標準前,已將CMA JATS標準與上流和下流企業(yè)進行了深入溝通。在數字出版上流,我們跟數據加工商進行了商討,以便讓他們準確地認知我們的標準及其顆粒度,并指導他們依照統(tǒng)一的規(guī)格來制作數據。同時雜志社根據加工商的反饋信息進行修訂,在標準與加工效率之間取得平衡,盡可能提高計算機輔助識別的比例,降低人工標識的成本和人為失誤。同時基于此標準開發(fā)了Schema,以此為準繩,對生產商的數據進行基于計算機的形式審查,可初步對數據的質量進行排查,避免不合法數據的入庫。在數字出版下流,跟平臺開發(fā)商合作,以此標準作為數據入庫的依據,在對數據做先期驗證后將合法的數據進行解析、關鍵信息入庫、編制索引、正文內容編譯成HTML,然后在網站進行展示。

        截止2015年3月,中華醫(yī)學會雜志社已超過15種期刊啟用全文數據標準進行數據加工,并可以通過后臺資源管理系統(tǒng)打包上傳至網刊發(fā)布系統(tǒng),解析后統(tǒng)一發(fā)布至各編輯部的官網上。

        眾所周知,實現(xiàn)數字出版的第一要務是資源整合。中華醫(yī)學會雜志社利用CMA JATS標準指導期刊數據的生產,走出了資源整合的第一步,即便是后端產品還不成熟,但通過資源管理平臺對這些數據進行管理和存儲,本身就為后期的應用打下重要的基礎。

        3 存在的問題

        從研究美國標準開始,到2014年6月開始起草國內標準,到10月份交付使用,撰寫標準的簡版說明、編制Schema、編寫樣例,不斷的測試、修訂。此項工作史無前例,中國科技期刊界經驗相對不足,國內同行對此相對陌生,專業(yè)人才更是欠缺,未在更大范圍內征求同行意見,所以初版標準肯定存在一些不盡如人意的地方,筆者抱著開放的心態(tài),歡迎同行加入和利用該標準體系,通過更多的實踐來發(fā)現(xiàn)該標準的不足,通過更多的討論來完善它。

        現(xiàn)階段,筆者認為存在的問題更多來自數據的生產鏈條。

        3.1 數據加工商

        雖然復合出版的理念深入人心,但國內科技期刊數字出版相對落后,成事者寥寥,對于基于學科特點的數據加工更顯得力不從心。而作為勞動密集型的產業(yè),中國數據加工的企業(yè)不能算不多,但實際上傳統(tǒng)的數據加工過程僅限于文獻摘要信息的提取,做全文層面上的加工商不多。國內也有幾家對外服務的數據服務商能理解國外的數據標準,并制作符合要求的結構化數據。但這些企業(yè)對于國內流行的排版文檔無能為力,加工的工具或軟件一般購自國外,無法適應中文的環(huán)境,而且這些軟件和服務的價格可能超過了一般期刊社能承擔的范圍。

        所以,培養(yǎng)合格的數據加工商是國內科技期刊出版社面臨的一大難題。

        3.2 結構化排版軟件

        若能結合當前的國內外實踐進展,創(chuàng)造出基于XML的結構化排版的科技期刊數字化生產流程模式,在排版的同時解決文檔結構化問題將是一個一勞永逸的方案[10]。筆者以國外成熟的復合出版流程為例(圖1),簡要的說明結構化排版的重要性。

        圖1 國際科技期刊數字出版的簡化生產鏈

        圖1中可以發(fā)現(xiàn)一個明顯的區(qū)別在于XML數據生產的前置,國外的期刊是先期在定稿后的文檔中進行結構化預處理,然后生成XML,再導入排版軟件進行自動輸出[11]。大部分工作均在前期完成,排版的工作明顯弱化。同時,輸出的文件也比較多樣,可以直接輸出多平臺需要的多種格式文檔,比如kindle用的ePub、印刷用的PDF、手機端用的HTML等。XML數據可以通過轉化直接生成國際知名數據庫需要的文檔,比如PMC、PubMed、CrossRef等。很多出版商不是直接使用NISO JATS作為其標準,是因為各出版社的數據均有自己的特點,顆粒度上基本等同甚至超過NISO。所以不直接搬用這個標準還是考慮到了自身期刊的特定需求。

        中國科技期刊的普遍狀況是,很多出版社還停留在傳統(tǒng)出版的思維模式中,首先考慮的是期刊的紙面呈現(xiàn)方式,實現(xiàn)紙質出版,對期刊數據的后續(xù)應用關注不多,所以導致論文的元數據信息無法自動提取,需要數據加工商在后續(xù)再行整理和加工。因此,國內各家中文期刊社使用的排版軟件很少有基于結構化排版思路的,生產的排版數據重利用價值相當有限。

        3.3 資源管理平臺

        國內科技期刊對于期刊數據的管理經驗相對匱乏,也缺乏這種意識,啟用資源管理平臺居指可數,而基于XML文檔的資源管理系統(tǒng)更是欠缺。理想中的資源管理平臺應能在理順科技期刊出版流程的基礎上,將期刊的采編、預格式化、自動排版、校對、拼版組版、按需出版和資源發(fā)布有機貫穿起來。尤其在采編后的過程中應全程基于標準的XML數據作為核心中樞,讓數據制作、檢驗、管理和輸出一氣呵成。

        4 科技期刊數據出版的未來

        未來基于全文標準格式的生產流程,需要重新梳理科技期刊的出版流程,摒棄不適合全媒體時代的傳統(tǒng)出版流程。從中國科技期刊自身的特點出發(fā),基于自身研發(fā)的數據標準,研發(fā)符合刊情的數據加工流程,是中國科技期刊走上復合出版的必由之路。

        4.1 高效的結構化排版

        如前所述,基于中國科技期刊的XML排版軟件將適時出現(xiàn),為科技期刊的數字出版助力。排版的專業(yè)化程度和使用門檻會降低,普通的編輯或具有一定計算機常識的工人就能自如的掌握。因為新型排版流程的工作重點不在于版面樣式的排版和設計,而集中于源文檔(比如Word文檔)的預格式化。操作人員的工作在于標記內容,而非關心樣式。預格式化的文檔通過轉化成為標準的XML數據,而后進入排版引擎,依照設定的模板進行自動輸出。因此,整個排版工作變得相對簡單而高效。

        不僅如此,由于數據的生產可直接用于數據出版,節(jié)省了大量的數據加工成本,而這些工作很多為高勞動密集型,比如編輯部在期刊平臺展示前的數據加工、各數據服務商的數據加工、為適配國際各收錄數據庫的數據加工(比如PubMed、PMC)等,上述過程一般會消耗期刊社一定的人力和財力。

        4.2 數據加工程序化

        對于未通過結構化排版軟件生產的數據,若想加入全文數據庫,對文檔進行全文數據加工也是個必經的過程,雖然目前國內尚缺類似的數據加工商,但未來可能有一批數據加工商迎合市場的需求,開發(fā)個性化的工具,對不同格式的文檔進行分析、提取、拆解、拼接成合格的XML文檔。前期可能會花費一定的時間和經濟成本,但未來的利用和增值服務會讓其物超所值。

        未來可能會圍繞行業(yè)內的數據標準構建起中國科技期刊的各個生態(tài)系統(tǒng),與以往不同的是,該生態(tài)系統(tǒng)的主體權利把握在各期刊社的手中,利用統(tǒng)一的數據格式創(chuàng)作通用的可交換的全文數據。這一定會打破目前數據提供商和服務商的利益格局,為科技期刊社的發(fā)展提供契機。傳統(tǒng)的數據服務商理應端正態(tài)度,回歸角色,發(fā)展自身的技術優(yōu)勢,搭建更符合編輯部需求的數據平臺和交互平臺。

        隨之而變的可能還有各大圖書館和倉儲機構,基于標準的全文格式的數據將更好地提升他們的服務,甚至于擴展了檢索的方式,提升了論文的展示樣式,對于各專業(yè)數據庫來說,可能更多基于本行業(yè)特點的信息會被有效地整合。

        4.3 平臺的差異化和垂直化服務

        筆者認為,目前中國與國外數據庫一個很明顯的差別,在于國內的數據同質化顯著,各數據庫拼的是期刊收錄的數量而非質量。很大原因在于,目前理應把握行業(yè)方向和讀者需求的期刊社無力改變這一現(xiàn)實,將資源賣給了數據服務商,而各編輯部又不愿與數據服務商進行更深入的合作,因為他們不能成為該平臺的直接受益者。這種淺合作模式,使得數據服務商在垂直領域的服務能力下降。未來的平臺應當將服務者的角色讓位于各期刊社,讓他們成為利益的主體方,只有這種模式,編輯部才更有效而主動地發(fā)揮專業(yè)優(yōu)勢,發(fā)揮專家優(yōu)勢,為讀者提供更直接、更個性化的產品和服務。譬如對圖像數據更為敏感的地理、天文、氣象等領域,可以將圖表信息進行深度標引以便于能提供該信息的增值服務。

        4.4 扶持專業(yè)化刊群平臺建設

        中國現(xiàn)已成為期刊大國,但要成為期刊強國,還有很長的一段路要走,扶持中國期刊走出去是條出路,幫扶中國期刊立足中國、服務好中國的讀者亦是相當重要的任務[12]。多年來,在數字出版領域,科技期刊一直未能找到合適的道路,在傳統(tǒng)出版市場日益萎縮的情況下,要有所突破更顯得空間狹小,一些獲得基金支持的期刊社也希望發(fā)展數字出版事業(yè),但能以此作為經濟增長點,并能持續(xù)發(fā)展的乏善可陳。目前國內已有期刊社探索出以專科或專業(yè)期刊集群化建設的道路,聚合該領域科技期刊,以自有和加盟的方式在平臺上進行統(tǒng)一運營,形成行業(yè)影響力,吸引精準用戶群,帶來潛在商業(yè)價值。所以筆者呼吁國家有關部門能夠引導和支持期刊集群化程度相對高的期刊社推進轉企改制,加快市場化步伐,同時以支持專業(yè)化平臺為切入點加大基礎工程的投入力度,扶持專業(yè)化平臺的建設。

        5 結論

        綜上,CMA JATS 0.1貫穿了中華醫(yī)學會系列部分期刊從排版文檔數據加工成標準XML文檔,再上傳至期刊的官方網站進行統(tǒng)一發(fā)布的全流程。截止2015年3月,超過15種期刊實現(xiàn)了在線全文出版,在實踐中,筆者認為該標準能適應醫(yī)學科技期刊的絕大部分內容標記情況,從而有效地整合了中華醫(yī)學會雜志社的期刊資源,推動了中華醫(yī)學會雜志社的數字出版進程,但該標準的全面落實還需跟數字出版產業(yè)鏈的上下流公司進行通力協(xié)作。

        [1] 鄭筱梅.移動終端對科技期刊閱讀行為模式的影響及策略研究[J].科技與出版,2014 (2):73-75.

        [2] 胡曉強,李勇,王軍.數字化閱讀方式對綜合性學術期刊的影響[J].中國科技期刊研究,2014,25(8):1026-1029.

        [3] 李偉,關衛(wèi)屏,游蘇寧,等.醫(yī)學期刊讀者閱讀需求調查分析[J].中國科技期刊研究,2012,23(3):419-422.

        [4] 王家榮.從學術交流角度比較網絡期刊與紙質期刊[J].圖書館學刊, 2007(5):103-105.

        [5] 程維紅,任勝利,沈錫賓,等.中國科協(xié)科技期刊數字出版及傳播力建設[J].中國科技期刊研究,2014,25(3):340-345.

        [6] 包靖玲,李敬文,沈錫賓,等.美國NLM DTD 3.0期刊存儲和交換標簽集中文章正文部分標記解讀[J].中國科技期刊研究,2014,25(4):515-519.

        [7] 包靖玲,霍永豐,顧佳,等.美國國立醫(yī)學圖書館期刊文檔標簽集概述[J].中國科技期刊研究,2013,24(4):624-627.

        [8] 沈錫賓,顧佳,包婧玲,等.美國NLM DTD 3.0期刊存儲和交換標簽集中參考文獻的標記解讀[J].中國科技期刊研究,2013, 24(2): 233-237.

        [9] 沈錫賓,顧佳,包靖玲,等.中國科技期刊文檔格式標準化任重道遠[J].編輯學報, 2013,25(1):27-30.

        [10] 劉冰,游蘇寧.我國科技期刊應盡快實現(xiàn)基于結構化排版的生產流程再造[J].編輯學報,2010,(3):262-266.

        [11] 沈錫賓,顧恬,呂小東,等.國外一基于XML的科技期刊出版工作流個案剖析[J].中國科技期刊研究,2011,22(4):581-583.

        [12] 游蘇寧,王海燕.立足本土的國際化戰(zhàn)略[J].中華內科雜志,2005, 44(4):241.

        猜你喜歡
        標準
        2022 年3 月實施的工程建設標準
        忠誠的標準
        當代陜西(2019年8期)2019-05-09 02:22:48
        標準匯編
        上海建材(2019年1期)2019-04-25 06:30:48
        美還是丑?
        你可能還在被不靠譜的對比度標準忽悠
        一家之言:新標準將解決快遞業(yè)“成長中的煩惱”
        專用汽車(2016年4期)2016-03-01 04:13:43
        2015年9月新到標準清單
        標準觀察
        標準觀察
        標準觀察
        久久综合狠狠综合久久| 天堂av一区二区麻豆| 久久精品国产熟女亚洲av麻豆| 公和我做好爽添厨房| 国产精品午夜爆乳美女视频| 丁香综合网| 久久精品国产亚洲av成人擦边| 水蜜桃网站视频在线观看| 丰满少妇高潮惨叫久久久| 欧美天天综合色影久久精品| 五月天欧美精品在线观看| 熟女人妻中文字幕一区| 极品尤物在线精品一区二区三区| 色欲av伊人久久大香线蕉影院| 成人看片黄a免费看那个网址| 亚洲欧洲日产国码无码AV一| 久天啪天天久久99久孕妇| 日本精品人妻一区二区| 亚洲 日本 欧美 中文幕| 久久久精品人妻久久影视| 国产精品无码无片在线观看3D| 日韩av他人妻中文字幕| 女人av天堂国产在线| 激情综合色综合久久综合| 亚洲人成综合网站在线| 欧美亚洲日韩国产人成在线播放| 国产在线一区二区三区四区乱码| 午夜精品久久久久久久| 欧美日韩亚洲tv不卡久久| 成人午夜视频一区二区无码| 国产麻豆极品高清另类| 日韩综合无码一区二区| 欧美aa大片免费观看视频| 99日本亚洲黄色三级高清网站| 久久久国产精品黄毛片| 国模丽丽啪啪一区二区| 亚洲tv精品一区二区三区| 偷拍视频这里只有精品| 亚洲av无码久久精品色欲| 国产精品11p| 国产精品高清一区二区三区人妖|