趙青青 蔡焱
關(guān)鍵詞:標(biāo)準(zhǔn)數(shù)字化轉(zhuǎn)型,標(biāo)準(zhǔn)標(biāo)簽集,機(jī)器可讀標(biāo)準(zhǔn)
0引言
當(dāng)前標(biāo)準(zhǔn)數(shù)字化轉(zhuǎn)型正在如火如荼地進(jìn)行中。標(biāo)準(zhǔn)標(biāo)簽集(StandardsTagSuite,STS)作為標(biāo)準(zhǔn)數(shù)字化轉(zhuǎn)型的關(guān)鍵技術(shù)之一,是推動(dòng)標(biāo)準(zhǔn)數(shù)字化轉(zhuǎn)型的基礎(chǔ)。標(biāo)準(zhǔn)標(biāo)簽集通過(guò)定義一套XML元素和屬性,對(duì)標(biāo)準(zhǔn)的規(guī)范性和非規(guī)范性內(nèi)容、標(biāo)準(zhǔn)采用和類標(biāo)準(zhǔn)文檔進(jìn)行XML編碼,使標(biāo)準(zhǔn)的知識(shí)內(nèi)容獨(dú)立于最初交付內(nèi)容的形式。因此,標(biāo)準(zhǔn)標(biāo)簽集又被稱為“標(biāo)準(zhǔn)的標(biāo)準(zhǔn)”。
1標(biāo)準(zhǔn)標(biāo)簽集發(fā)展歷程
1.1ISOSTS
2011年底,國(guó)際標(biāo)準(zhǔn)化組織ISO對(duì)其出版系統(tǒng)進(jìn)行改進(jìn),并與Mulberry公司合作,共同開發(fā)了用于ISO標(biāo)準(zhǔn)出版的ISO標(biāo)準(zhǔn)標(biāo)簽集(ISOSTS)。自2011年第一版發(fā)布以來(lái),ISOSTS已經(jīng)經(jīng)過(guò)5個(gè)版本的修訂,最新版本ISOSTS1.1于2013年發(fā)布,以美國(guó)國(guó)家信息標(biāo)準(zhǔn)組織NISO發(fā)布的ANSI/NISOZ39.96《期刊文章標(biāo)簽集》(JournalArticleTagSuite,JATS)的0.4版草案為基礎(chǔ)。
自ISOSTS發(fā)布以來(lái),一些ISO成員如英國(guó)標(biāo)準(zhǔn)協(xié)會(huì)BSI、澳大利亞標(biāo)準(zhǔn)協(xié)會(huì)SA和部分分銷商已經(jīng)采用該STS[1]。但由于ISOSTS并非官方標(biāo)準(zhǔn),無(wú)法與JATS保持耦合,因此美國(guó)的一些標(biāo)準(zhǔn)開發(fā)組織和發(fā)行商并未采用。此后,不同標(biāo)準(zhǔn)開發(fā)組織使用了不同的XML模型來(lái)標(biāo)記標(biāo)準(zhǔn)和類標(biāo)準(zhǔn)文檔,眾多的非標(biāo)準(zhǔn)化XML模型使得標(biāo)準(zhǔn)組織之間的互操作變得困難,增加了開發(fā)成本。推動(dòng)ISOSTS走向標(biāo)準(zhǔn)化并與JATS建立正式關(guān)系勢(shì)在必行。隨后,ISO與NISO討論創(chuàng)建基于ISOSTS1.1的“標(biāo)準(zhǔn)的標(biāo)準(zhǔn)”,2017年NISO發(fā)布NISOSTS標(biāo)準(zhǔn),并正式命名為ANSI/NISOZ39.102-2017(NISOSTS1.0)[2]。2020年春季,ISO在其在線標(biāo)準(zhǔn)開發(fā)平臺(tái)(OnlineStandardsDevelopmentplatform,OSD)中正式采用NISOSTS。
1.2NISOSTS
1.2.1NISOSTS1.0
ISOSTS1.1和NISOSTS1.0均基于JATS進(jìn)行開發(fā),前者基于JATS的0.4版,后者基于2015年發(fā)布的JATS1.1版。同時(shí)NISOSTS1.0還以ISOSTS1.1為基礎(chǔ),完全向后兼容ISOSTS1.1。
NISOSTS1.0包括兩個(gè)標(biāo)簽集:交換標(biāo)簽集和擴(kuò)展標(biāo)簽集,這兩個(gè)標(biāo)簽集由定義的元素和屬性構(gòu)成,旨在為標(biāo)準(zhǔn)發(fā)布和互操作提供模型,不同之處在于交換標(biāo)簽集中唯一的表模型是基于XHTML,而擴(kuò)展標(biāo)簽集還提供OASIS/CALS表模型,為每個(gè)包含MathML2或MathML3的標(biāo)簽集提供了語(yǔ)法(DTD、XSD和RNG形式)。
截至2018年3月底,ISO、IEC、CEN、BSI、DIN、AS等國(guó)際和國(guó)家標(biāo)準(zhǔn)機(jī)構(gòu)已采用NISOSTS1.0,ASTM、ASME、IEEE、API和SAE等機(jī)構(gòu)或采用NISOSTS1.0,或采用與其結(jié)構(gòu)基本相同的模型[3]。因?yàn)镴ATS是期刊出版中的XML標(biāo)準(zhǔn),而NISOSTS又基于JATS,因此JATS和NISOSTS共享一組通用模塊,這對(duì)IEEE、ASME等同時(shí)出版期刊和標(biāo)準(zhǔn)的組織非常有利。
1.2.2NISOSTS1.2
2022年11月14日,NISO宣布發(fā)布更新版本STS,即NISOSTS1.2①,該版本已被美國(guó)國(guó)家標(biāo)準(zhǔn)協(xié)會(huì)ANSI批準(zhǔn)為正式標(biāo)準(zhǔn)ANSI/NISOZ39.102-2022[4]。
NISOSTS1.2擴(kuò)展了元素和屬性描述,以及交換標(biāo)簽集和擴(kuò)展標(biāo)簽集,它還包含了對(duì)JATS1.3(ANSI/NISOZ39.96-2021)所做的適用修改。新版本變化包括:描述XML文件本身的規(guī)定、增加/修改了元素和屬性、擴(kuò)展NISOSTSTBX簡(jiǎn)介和術(shù)語(yǔ)顯示結(jié)構(gòu)等[5]。此外,NISOSTS1.2是完全向后兼容的,任何對(duì)版本1.0有效的文檔也對(duì)版本1.2有效。
1.3NISOSTS與ISOSTS的關(guān)系
此處主要以ISOSTS1.1和NISOSTS1.0為例,進(jìn)行具體分析。NISOSTS1.0中的一些關(guān)鍵改進(jìn)使其比ISOSTS1.1更加靈活[6]。
(1)NISOSTS1.0擴(kuò)展了元數(shù)據(jù)功能,通過(guò)新增,旨在滿足任何標(biāo)準(zhǔn)組織的需求,而不是局限于ISO及國(guó)家標(biāo)準(zhǔn)機(jī)構(gòu);
(2)NISOSTS1.0簡(jiǎn)化了術(shù)語(yǔ)顯示模型
(3)NISOSTS1.0為標(biāo)準(zhǔn)采用提供了一種新的遞歸模型;
(4)NISOSTS1.0同時(shí)容納XHTML和CALS表,以及MathML2和MathML3。相比之下,ISOSTS
1.1僅支持XHTML和MathML2。
2NISOSTS的組成
2.1元素
元素是名詞,例如standard、paragraph和ICS,它們是標(biāo)準(zhǔn)本身、標(biāo)準(zhǔn)的組成部分以及元數(shù)據(jù)。在NISOSTS中,每個(gè)元素都有兩個(gè)名稱,一個(gè)是標(biāo)簽名稱,一個(gè)是元素名稱。標(biāo)簽名稱是在標(biāo)記文檔、DTD片段和模式以及軟件中使用的較短的機(jī)器可讀名稱,元素名稱是較長(zhǎng)的描述性名稱,例如是元素paragraph的標(biāo)簽名稱。NISOSTS1.2定義了353種元素。
在NISOSTS中,描述元素以元素的標(biāo)簽名稱開始,后面緊跟元素名稱,許多元素還帶有用法或備注,以便將該元素與其他類似元素區(qū)分開。NISOSTS還提供元素允許使用的屬性類型、元素的父元素類型以及以何種組合使用的描述等,同時(shí)大多數(shù)元素都包含如何使用的標(biāo)記示例。
2.2屬性
屬性是與元素相關(guān)聯(lián)的名稱-值對(duì),用于修改元素的某些特性。屬性保存有關(guān)元素的事實(shí),例如:在使用元素時(shí),可使用屬性@sec-type確定相應(yīng)的章節(jié)類型(例如scope、foreword、normrefs)。屬性也有兩個(gè)名稱,一個(gè)是較短的機(jī)器可讀名稱(標(biāo)簽名稱),另一個(gè)是較長(zhǎng)的人類可讀的描述性名稱,例如@id是屬性DocumentInternalIdentifier的標(biāo)簽名稱。NISOSTS1.2定義了190種屬性。
屬性的描述方式與元素非常相似,但因?qū)傩圆荒苡凶訉傩?,所以只描述該屬性可以?yīng)用于哪些元素、該屬性的性質(zhì),以及屬性允許的值和默認(rèn)值。
3NISOSTS的主要內(nèi)容
3.1根元素
NISOSTS主要通過(guò)文檔層次圖展示層次結(jié)構(gòu)。每個(gè)層次都有一個(gè)根元素,可以說(shuō)明其他幾個(gè)附屬元素的結(jié)構(gòu)。針對(duì)標(biāo)準(zhǔn)本身、采用標(biāo)準(zhǔn)這兩種文本的特點(diǎn),NISOSTS1.2定義了兩個(gè)根元素、,任何一個(gè)都可用作包含標(biāo)準(zhǔn)文本的文檔元素。用于標(biāo)準(zhǔn)和諸如指南或手冊(cè)等其他類標(biāo)準(zhǔn)文檔;包含關(guān)于采用和原始標(biāo)準(zhǔn)的信息,采用可能包括采用標(biāo)準(zhǔn)的組織信息,并包括采用組織提供的前頁(yè)(如前言)和附屬信息。可以嵌套采用,或采用一個(gè)或多個(gè)。
3.2根元素
(1)前頁(yè)內(nèi)容
(2)主體,描述標(biāo)準(zhǔn)的正文(如圖3所示)。
(3)附屬信息,描述標(biāo)準(zhǔn)的附錄和參考文獻(xiàn)(如圖4所示)。
(4)處理元數(shù)據(jù),描述有關(guān)XML文件本身的處理信息(不是由XML文件編碼的標(biāo)準(zhǔn))。
3.3根元素
(1)
(2)
(3)
(4)
4國(guó)內(nèi)外應(yīng)用情況分析
4.1國(guó)外應(yīng)用情況
4.1.1ISO/IEC在線標(biāo)準(zhǔn)開發(fā)平臺(tái)OSD
在線標(biāo)準(zhǔn)開發(fā)平臺(tái)OSD由ISO和IEC聯(lián)合開發(fā),為標(biāo)準(zhǔn)開發(fā)人員提供了一個(gè)全新的數(shù)字化工具,以簡(jiǎn)化起草和編輯國(guó)際標(biāo)準(zhǔn)的過(guò)程[7],提高了從標(biāo)準(zhǔn)準(zhǔn)備到最終發(fā)布的整個(gè)過(guò)程的效率和協(xié)作。
OSD平臺(tái)旨在用用戶友好的XML編輯器(FontoXML編輯器)取代傳統(tǒng)的基于Word的內(nèi)容創(chuàng)建過(guò)程,幫助標(biāo)準(zhǔn)開發(fā)人員從源頭創(chuàng)建復(fù)雜的結(jié)構(gòu)化內(nèi)容。雖然標(biāo)準(zhǔn)內(nèi)容基于NISOSTS編碼,但是標(biāo)準(zhǔn)開發(fā)人員卻無(wú)需了解XML或結(jié)構(gòu)化內(nèi)容編寫。XML優(yōu)先流程不僅便于編輯處理,而且由于編輯指令規(guī)則嵌入到OSD中,因此在標(biāo)準(zhǔn)開發(fā)的早期階段還可以提高內(nèi)容質(zhì)量。高效的工具允許標(biāo)準(zhǔn)開發(fā)人員專注于內(nèi)容而不是格式,從而生成語(yǔ)義豐富和結(jié)構(gòu)化的標(biāo)準(zhǔn)。CEN和CENELEC也引進(jìn)了該平臺(tái)。
4.1.2可互操作規(guī)范和標(biāo)準(zhǔn)的語(yǔ)義網(wǎng)SWISS
SWISS(TheSemanticWebforInteroperableSpecificationsandStandards)由美國(guó)XSB公司開發(fā),是用于互操作規(guī)范和標(biāo)準(zhǔn)的語(yǔ)義網(wǎng)平臺(tái)[8]。
4.2國(guó)內(nèi)應(yīng)用情況
4.2.1中國(guó)標(biāo)準(zhǔn)出版社“標(biāo)準(zhǔn)在線起草系統(tǒng)”
SWISS通過(guò)建立在NISOSTSXML之上的關(guān)聯(lián)數(shù)據(jù)模型[9],將PDF文檔轉(zhuǎn)換為上下文相關(guān)、可操作的數(shù)字?jǐn)?shù)據(jù)對(duì)象,通過(guò)工程知識(shí)圖譜技術(shù),建立和管理文檔和概念之間的聯(lián)系,同時(shí)可通過(guò)API自動(dòng)將結(jié)果數(shù)據(jù)傳送到企業(yè)的內(nèi)部系統(tǒng)[10]。SWISS通過(guò)在內(nèi)部?jī)?nèi)容和外部標(biāo)準(zhǔn)之間建立自動(dòng)和實(shí)時(shí)連接,提高合規(guī)性并降低風(fēng)險(xiǎn)。
中國(guó)標(biāo)準(zhǔn)出版社將傳統(tǒng)的標(biāo)準(zhǔn)制修訂業(yè)務(wù)與NISOSTS相結(jié)合,從源頭對(duì)標(biāo)準(zhǔn)文件進(jìn)行XML數(shù)據(jù)化處理,實(shí)現(xiàn)對(duì)標(biāo)準(zhǔn)的全生命周期管理。標(biāo)準(zhǔn)在線起草系統(tǒng)可提供起草階段的在線協(xié)同編制、可視化修改、在線溝通,出版階段的智能審校、排版精調(diào),發(fā)布階段的微信推送和動(dòng)態(tài)提醒等功能,對(duì)于縮短標(biāo)準(zhǔn)制修訂周期、提高工作效率、提升標(biāo)準(zhǔn)編寫質(zhì)量等方面發(fā)揮重要作用。
4.2.2同方知網(wǎng)“數(shù)字標(biāo)準(zhǔn)智能應(yīng)用平臺(tái)”
數(shù)字標(biāo)準(zhǔn)智能應(yīng)用平臺(tái)基于機(jī)器可讀和可理解的數(shù)字標(biāo)準(zhǔn)模型,面向標(biāo)準(zhǔn)化工作上下游場(chǎng)景及企業(yè)內(nèi)部標(biāo)準(zhǔn)化業(yè)務(wù),實(shí)現(xiàn)標(biāo)準(zhǔn)全過(guò)程數(shù)字化管理。該平臺(tái)包含3個(gè)子系統(tǒng),其中底層標(biāo)準(zhǔn)數(shù)字化加工系統(tǒng)按照ISOSTS的要求,實(shí)現(xiàn)了標(biāo)準(zhǔn)智能標(biāo)引、指標(biāo)抽取、知識(shí)圖譜、碎片化閱讀等功能,具備ISO/IEC機(jī)器可讀標(biāo)準(zhǔn)模型中二級(jí)水平。
5結(jié)語(yǔ)
實(shí)施標(biāo)準(zhǔn)標(biāo)簽集是標(biāo)準(zhǔn)數(shù)字化轉(zhuǎn)型的重要一環(huán)。我國(guó)對(duì)標(biāo)準(zhǔn)標(biāo)簽集的研究最早可見(jiàn)于2019年發(fā)布的國(guó)家標(biāo)準(zhǔn)GB/T37967-2019《基于XML的國(guó)家標(biāo)準(zhǔn)結(jié)構(gòu)化置標(biāo)框架》[11],但GB/T37967-2019并未基于JATS,因此與ISOSTS、NISOSTS在結(jié)構(gòu)上存在較大差異,故未能和國(guó)際接軌。隨著ISO/IEC機(jī)器可讀標(biāo)準(zhǔn)分級(jí)模型的提出,標(biāo)準(zhǔn)標(biāo)簽集成為描述基于XML編碼的機(jī)器可讀文件的關(guān)鍵技術(shù),但是ISOSTS、NISOSTS主要面向標(biāo)準(zhǔn)出版,因此包含許多格式元素。當(dāng)對(duì)標(biāo)準(zhǔn)中表格、段落中關(guān)鍵技術(shù)指標(biāo)進(jìn)行標(biāo)記時(shí),一般用HTML呈現(xiàn),因此缺乏相應(yīng)的語(yǔ)義和特定含義,故不能進(jìn)行邏輯推理判斷。要想實(shí)現(xiàn)更高水平的機(jī)器可讀能力,還需進(jìn)一步引入語(yǔ)義更豐富的元素,從而真正實(shí)現(xiàn)標(biāo)準(zhǔn)的機(jī)器可用、可讀、可解析。