張 瑋
(國家圖書館 北京 100081)
民國報(bào)紙?zhí)N藏了豐富的時(shí)代信息,反映了民國時(shí)期的政治、經(jīng)濟(jì)、法律、文化、軍事、教育等方面的信息,具有很高的研究?jī)r(jià)值。但由于民國報(bào)紙紙張的酸度很高,目前民國報(bào)紙老化及損壞的程度極高,迫切需要一種新的存儲(chǔ)方式來拯救民國報(bào)紙,目前,各圖書館和出版社都積極采取不同的措施進(jìn)行民國報(bào)紙的拯救工作,比如各地高校圖書館依托豐富、珍稀、特色的民國報(bào)刊,對(duì)某一學(xué)科或某一專題有價(jià)值的信息建立民國時(shí)期報(bào)刊的特色數(shù)據(jù)庫、民國報(bào)刊專題數(shù)據(jù)庫、民國報(bào)刊商業(yè)數(shù)據(jù)庫等以供學(xué)者或商業(yè)使用[1];四川大學(xué)圖書館從提高利用率的實(shí)際角度出發(fā),根據(jù)讀者所查閱膠卷的頻次排名,對(duì)館藏民國四川報(bào)紙進(jìn)行篩選式地?cái)?shù)字化;此外,四川大學(xué)圖書館還自主研發(fā)了《新新新聞》共享平臺(tái),基于前期的數(shù)據(jù)采集錄入,可支持公歷日期、民國日期、報(bào)紙主、副標(biāo)題等字段的高級(jí)檢索[2];重慶圖書館自2012年3月開啟民國報(bào)紙數(shù)碼掃描工作,把民國報(bào)紙加工成方便讀者檢索查閱的PDF 格式的電子文檔進(jìn)行保存[3]。國家圖書館自2014年啟動(dòng)民國報(bào)紙縮微膠片數(shù)字化工作[4],在掃描圖像的基礎(chǔ)上,對(duì)文章標(biāo)題進(jìn)行OCR 文字識(shí)別[5],以方便讀者實(shí)現(xiàn)基于標(biāo)題檢索的精準(zhǔn)閱讀。隨著國家對(duì)民國文獻(xiàn)保護(hù)和利用的重視,各數(shù)字出版公司開發(fā)出一批資源豐富、檢索功能強(qiáng)大的民國文獻(xiàn)大型全文數(shù)據(jù)庫,但存在各文獻(xiàn)類型開發(fā)不均衡、缺少主題類型的數(shù)據(jù)庫等問題[6]。
民國報(bào)紙數(shù)字化已經(jīng)成為解決報(bào)紙問題的首要途徑,如何提高數(shù)字化的效率和質(zhì)量,肖紅從宏觀方面(報(bào)紙、版式、OCR)進(jìn)行數(shù)字化質(zhì)檢問題探析[7],但該文對(duì)于質(zhì)檢細(xì)節(jié)沒有給出詳細(xì)分析和介紹。本文從親身實(shí)踐角度出發(fā),以數(shù)字化驗(yàn)收流程為主線,列出國家圖書館在驗(yàn)收民國報(bào)紙數(shù)字化成品時(shí)發(fā)現(xiàn)的一些常見問題,并且分析這些問題產(chǎn)生的原因,提出有針對(duì)性的改進(jìn)措施和方法,希望能為業(yè)內(nèi)從事數(shù)字化驗(yàn)收工作的同仁提供借鑒參考。
民國報(bào)紙數(shù)字化成品通常包括元數(shù)據(jù)和對(duì)象數(shù)據(jù),國家圖書館民國報(bào)紙數(shù)字化元數(shù)據(jù)采用的是MARC 格式著錄,主要記載民國報(bào)紙的文獻(xiàn)內(nèi)容特征、載體形態(tài)、記錄來源等信息。對(duì)象數(shù)據(jù)采用TIFF 作為存儲(chǔ)格式,JPG、雙層PDF 和XML 作為發(fā)布格式,是對(duì)民國報(bào)紙內(nèi)容的如實(shí)寫照。
民國報(bào)紙數(shù)字化驗(yàn)收主要完成對(duì)民國報(bào)紙?jiān)獢?shù)據(jù)及對(duì)象數(shù)據(jù)的復(fù)查。國家圖書館關(guān)于元數(shù)據(jù)及對(duì)象數(shù)據(jù)依據(jù)相關(guān)規(guī)范進(jìn)行驗(yàn)收,使用漢王開發(fā)的專業(yè)數(shù)字化驗(yàn)收軟件進(jìn)行驗(yàn)收。自2014年開啟民國報(bào)紙數(shù)字化項(xiàng)目以來,截至2018年10月底,國家圖書館已完成114 種約13 萬期、70 余萬版的民國報(bào)紙數(shù)字化加工驗(yàn)收工作。根據(jù)實(shí)際工作,筆者總結(jié)出國家圖書館民國報(bào)紙數(shù)字化驗(yàn)收時(shí)出現(xiàn)的常見問題,如圖1所示。
圖1 國家圖書館民國報(bào)紙數(shù)字化驗(yàn)收常見問題
從驗(yàn)收規(guī)范上看,民國報(bào)紙?jiān)獢?shù)據(jù)的驗(yàn)收,通常查驗(yàn)“記錄標(biāo)識(shí)”、“題名”、“出版日期”、“卷期”、“版次”、“版名”等標(biāo)簽的合法性,標(biāo)簽著錄內(nèi)容是否符合規(guī)則,如:出版日期必須是8 位有效數(shù)字、卷期只能是數(shù)字格式等。在實(shí)際工作中,筆者發(fā)現(xiàn)民國報(bào)紙?jiān)獢?shù)據(jù)驗(yàn)收常見問題包括:字符集非法、標(biāo)簽缺少或多余標(biāo)簽、標(biāo)簽著錄內(nèi)容不符合規(guī)則等。
(1)字符集非法。例如:圖2中標(biāo)簽“作者”為非法字符集,正確識(shí)別應(yīng)為“圖片作者”。
圖2 字符集非法
(2)標(biāo)簽缺少或多余標(biāo)簽。例如:圖3缺少標(biāo)簽“小標(biāo)題”及內(nèi)容。
圖3 標(biāo)簽缺失
(3)標(biāo)簽著錄內(nèi)容不符合規(guī)則。例如:圖4中版次備注:標(biāo)題殘缺。版次備注著錄版次的變更情況,沒有圖示著錄方式;圖5中“出版日期”:中華民國四十七年六月十五日,著錄錯(cuò)誤,著錄內(nèi)容只能是8 位有效數(shù)字;圖6中“出版日期”:19580631 不符合日期的記錄方式;圖7中“卷期”:五百四廿五,著錄錯(cuò)誤,著錄內(nèi)容只能是數(shù)字格式。
圖4 版次備注不合規(guī)則
圖5 出版日期不合規(guī)則
圖6 出版日期不合規(guī)則
圖7 卷期不合規(guī)則
從驗(yàn)收規(guī)范上看,民國報(bào)紙對(duì)象數(shù)據(jù)的驗(yàn)收,包括查驗(yàn)對(duì)象數(shù)據(jù)的圖像存儲(chǔ)文件夾和圖像文件命名是否正確、圖像是否清晰、亮度是否適中、圖像是否進(jìn)行了糾偏處理、圖像是否真實(shí)反映原件內(nèi)容,是否有缺版、錯(cuò)版、數(shù)據(jù)缺失等現(xiàn)象。除此之外,驗(yàn)收的關(guān)鍵點(diǎn)主要是xml 文件,主要查驗(yàn)xml 的各個(gè)標(biāo)簽是否符合加工規(guī)范、篇目是否置標(biāo)正確、篇目著錄內(nèi)容是否正確等。漢王開發(fā)的驗(yàn)收軟件能夠如實(shí)反映xml 的著錄信息。
我館加工的XML 文件(見圖8)涵蓋全面的報(bào)紙信息(常見問題如2.1 節(jié)介紹)、篇目位置坐標(biāo)以及篇目標(biāo)題信息等。對(duì)于篇目位置及篇目信息著錄的驗(yàn)收,可以借助驗(yàn)收軟件直觀地查找錯(cuò)誤,民國報(bào)紙對(duì)象數(shù)據(jù)驗(yàn)收過程中常見問題包括:欄目錯(cuò)誤、篇目錯(cuò)誤、圖片組錯(cuò)誤等。
圖8 民國報(bào)紙XML 文件
(1)欄目錯(cuò)誤
欄目通常是報(bào)紙、雜志等刊物中,依據(jù)文字內(nèi)容(即篇目)、圖片類型等進(jìn)行的統(tǒng)籌概述,如新聞、體育、娛樂、經(jīng)濟(jì)等;它統(tǒng)領(lǐng)的篇目或圖片都應(yīng)屬于同一欄目,且欄目不應(yīng)歸屬于某一篇篇目。
民國報(bào)紙數(shù)字化加工,應(yīng)該把某一欄目統(tǒng)籌下的所有篇目和圖片都標(biāo)注上欄目信息,且欄目不應(yīng)劃在任何一篇篇目中。常見問題包括:確定是否為欄目時(shí)出錯(cuò)、欄目的范圍劃錯(cuò)、欄目的字體識(shí)別錯(cuò)誤。
①欄目的確定性問題。例如:圖9置標(biāo)篇目的欄目有兩個(gè),“新聞”、“國外之部”,而數(shù)字化加工的xml 文件欄目缺失,未著錄欄目,圖10 數(shù)字化加工的xml 文件欄目著錄錯(cuò)誤。
圖9 欄目缺失
圖10 欄目著錄錯(cuò)誤
②欄目的范圍劃錯(cuò)。例如:圖11 把欄目劃入篇目框是錯(cuò)誤的;圖12 大小欄目
順序錯(cuò)誤,統(tǒng)籌范圍大的欄目應(yīng)該寫在范圍小的欄目前面。
圖11 欄目誤入篇目
圖12 大小欄目順序錯(cuò)誤
③欄目的文字識(shí)別錯(cuò)誤。欄目的文字識(shí)別錯(cuò)誤通常包括:多字或少字、文字識(shí)別有誤(異體字、形近字、簡(jiǎn)繁字、未按原貌識(shí)別等)、多符號(hào)少符號(hào)等。例如:圖13,欄目的文字識(shí)別有誤。
圖13 欄目文字識(shí)別錯(cuò)誤
(2)篇目錯(cuò)誤
篇目是指某一欄目框架下關(guān)于某一議題的獨(dú)立的文字內(nèi)容,篇目包括標(biāo)題、作者、篇目?jī)?nèi)容、轉(zhuǎn)版信息、附圖。篇目置標(biāo)要求完整、準(zhǔn)確、美觀地把篇目相關(guān)信息都劃入。篇目標(biāo)題細(xì)分為引題、標(biāo)題、副題、小標(biāo);我館按字號(hào)大小劃分引題、標(biāo)題、副題,字號(hào)最大者為標(biāo)題,標(biāo)題前為引題,標(biāo)題后為副題,篇目?jī)?nèi)容中出現(xiàn)的標(biāo)題為小標(biāo)。篇目作者,要求去掉作者的屬性,比如國籍、辦公地點(diǎn)等,且不做集體作者,但關(guān)于多個(gè)作者的著錄方式要標(biāo)清。篇目轉(zhuǎn)版是指由于版面等原因,當(dāng)前篇目登載不完整,轉(zhuǎn)載至其他版面,要求篇目識(shí)別時(shí)附加轉(zhuǎn)版信息,從而完整記錄當(dāng)前篇目。篇目附圖指當(dāng)前篇目中涉及到的圖片、表格等形式,以附加圖片的形式進(jìn)行展示,附圖屬于篇目的一部分。
篇目的錯(cuò)誤通常分為:篇目置標(biāo)或范圍確定的錯(cuò)誤、篇目框線不美觀、標(biāo)題的確定性錯(cuò)誤及標(biāo)題框線不美觀、作者的確定性錯(cuò)誤及字體識(shí)別錯(cuò)誤、轉(zhuǎn)版錯(cuò)誤、附圖錯(cuò)誤,具體如下。
①篇目置標(biāo)錯(cuò)誤。
A.篇目?jī)?nèi)容缺失或多余。例如:圖14,篇目?jī)?nèi)容缺失“第七章 司法”的部分。
圖14 篇目?jī)?nèi)容缺失
B.篇目嵌套問題
篇目嵌套,即一個(gè)篇目在另一個(gè)篇目的內(nèi)容坐標(biāo)里,需要在大篇目下增加標(biāo)簽“內(nèi)截坐標(biāo)”,以表示大篇目里還有一個(gè)獨(dú)立的小篇目,大小篇目分開識(shí)別。例如:圖15 小篇目:“算命者”嵌套在大篇目下,大篇目沒有做內(nèi)截坐標(biāo),導(dǎo)致小篇目:“算命者”重復(fù)置標(biāo)。
圖15 篇目嵌套
②篇目框線不美觀。
A.篇目框折線問題。例如:圖16,標(biāo)題和作者都被置標(biāo)在篇目框之外了,不僅美觀性差,而且給人一種不是同一篇目的錯(cuò)覺;圖17,篇目置標(biāo)時(shí)出現(xiàn)多余的折線,導(dǎo)致篇目框看起來繁瑣復(fù)雜,不美觀。
圖16 篇目框線不美觀
圖17 篇目框折線問題
B.篇目框壓字。例如:圖18 篇目框左下方壓字。
圖18 篇目框壓字
③標(biāo)題錯(cuò)誤
A.引題、標(biāo)題、副題順序識(shí)別錯(cuò)誤。例如:圖19,引題、副題顛倒,以字號(hào)大小判斷出標(biāo)題(最大字)后,標(biāo)題之前為引題,之后為副題。
圖19 標(biāo)題順序識(shí)別錯(cuò)誤
B.小標(biāo)題未識(shí)別。例如:圖20,小標(biāo)題一、二、三未識(shí)別。
圖20 小標(biāo)題未識(shí)別
C.標(biāo)題框置標(biāo)錯(cuò)誤。通常包括:標(biāo)題框壓字、標(biāo)題框不全、標(biāo)題框交叉、標(biāo)題框劃入其他篇目?jī)?nèi)容(如作者、篇目?jī)?nèi)容等),例如:圖21。
圖21 標(biāo)題置標(biāo)錯(cuò)誤
D.標(biāo)題字識(shí)別錯(cuò)誤,錯(cuò)誤類型同欄目的字識(shí)別部分。
④作者錯(cuò)誤
A.作者的著錄方式識(shí)別錯(cuò)誤。例如:圖22,作者的屬性:法國,應(yīng)該去掉;多個(gè)作者的著錄方式(作、譯)應(yīng)該識(shí)別。
圖22 作者的著錄方式錯(cuò)誤
圖23 作者識(shí)別不全
B.多個(gè)作者識(shí)別不全。例如:圖23,作者識(shí)別不全,圖中圈中的均為作者;
C.作者字體識(shí)別錯(cuò)誤。錯(cuò)誤類型同欄目的字識(shí)別部分。
⑤轉(zhuǎn)版錯(cuò)誤
A.遺漏轉(zhuǎn)版。例如:圖24,篇目結(jié)尾:下接第四版,說明有轉(zhuǎn)版信息,應(yīng)把轉(zhuǎn)版信息如實(shí)著錄。
圖24 遺漏轉(zhuǎn)版信息
B.誤做轉(zhuǎn)版。例如:圖25,轉(zhuǎn)版下接內(nèi)容為獨(dú)立篇目,此情況轉(zhuǎn)版篇目不做轉(zhuǎn)版,而識(shí)別為其所在版面的獨(dú)立篇目。
圖25 轉(zhuǎn)版獨(dú)立篇目
C.轉(zhuǎn)版掛接錯(cuò)誤。數(shù)字化加工過程中會(huì)存在因遺漏或者判斷錯(cuò)誤導(dǎo)致的轉(zhuǎn)版版次錯(cuò)誤的情況,例如:圖26,實(shí)際應(yīng)該轉(zhuǎn)版到第3 版,寫成了轉(zhuǎn)到第2 版。
圖26 轉(zhuǎn)版掛接錯(cuò)誤
D.轉(zhuǎn)版中附圖置標(biāo)錯(cuò)誤,轉(zhuǎn)版的附圖信息統(tǒng)一做到轉(zhuǎn)版所在篇目的附圖里。例如:圖27,轉(zhuǎn)版的附圖應(yīng)該劃在所屬篇目的附圖組中。
圖27 轉(zhuǎn)版附圖錯(cuò)誤
⑥附圖錯(cuò)誤
A.篇目附圖誤入圖片組。例如:圖28,篇目中的附圖做到了圖片組中(圖片的介紹見下一節(jié))。
圖28 附圖誤入圖片組
B.多個(gè)附圖的情況。例如圖29,篇目中的兩個(gè)附圖應(yīng)該分開分別如實(shí)著錄。
圖29 多個(gè)附圖著錄錯(cuò)誤
(3)圖片組錯(cuò)誤
圖片組用來記載獨(dú)立的圖片、表格、題詞等內(nèi)容,它與正文組是并列的關(guān)系;一個(gè)完整的圖片也包括圖片置標(biāo)、圖片標(biāo)題、圖片作者等信息;圖片作為一篇完整的篇目,錯(cuò)誤類型除上述介紹的外,還包括以下幾點(diǎn)。
①圖片有明確文字說明,識(shí)別為標(biāo)題。例如圖30,圖片標(biāo)題不應(yīng)識(shí)別為:[圖片],應(yīng)該按照?qǐng)D片中的標(biāo)題如實(shí)著錄。
圖30 圖片標(biāo)題識(shí)別錯(cuò)誤
②圖片無明確標(biāo)題,自擬標(biāo)題或者總結(jié)大意。例如:圖31,圖片無明確標(biāo)題,概括大意作標(biāo)題,或使用自擬標(biāo)題[照片]、[漫畫]、[新聞圖片]、[廣告]等。
圖31 圖片無標(biāo)題
分析民國報(bào)紙數(shù)字化驗(yàn)收中存在的這些常見問題,主要是由于以下幾方面原因產(chǎn)生的:
(1)數(shù)字化加工人員經(jīng)驗(yàn)不足,流水線加工之間配合不協(xié)調(diào)。一方面外包公司招來的加工人員絕大部分是初中生、高中生,由于加工任務(wù)緊湊,沒有對(duì)加工人員進(jìn)行系統(tǒng)的培訓(xùn)就上崗操作,且加工人員對(duì)加工任務(wù)的理解和操作能力有限,導(dǎo)致一些簡(jiǎn)單操作出錯(cuò);另一方面外包公司的數(shù)字化加工采用流水線作業(yè),流水線之間溝通欠缺,常出現(xiàn)第一個(gè)流水線漏操作,第二個(gè)流水線按照自己的經(jīng)驗(yàn)進(jìn)行錄入。
(2)數(shù)字化加工人員與驗(yàn)收管理方之間溝通不及時(shí)。隨著我館數(shù)字化成品的要求不斷提高,民國報(bào)紙數(shù)字化加工政策時(shí)常發(fā)生細(xì)微變化,我館傳達(dá)給外包公司相關(guān)負(fù)責(zé)人,負(fù)責(zé)人由于技術(shù)理解或者傳達(dá)不及時(shí),導(dǎo)致政策發(fā)送和實(shí)施操作不協(xié)調(diào),從而出現(xiàn)問題。
(3)批量進(jìn)行數(shù)字化加工,加工人員追求量,不追求質(zhì)。外包公司由于利益趨使,常常分配給加工人員滿負(fù)荷的工作量,這就導(dǎo)致加工人員為了完成分配的任務(wù),每天長時(shí)間機(jī)械式地進(jìn)行同一項(xiàng)操作,對(duì)一些細(xì)微之處(比如多字少字、多符號(hào)少符號(hào))忽略,從而出現(xiàn)錯(cuò)誤。
(4)外包公司技術(shù)和經(jīng)驗(yàn)有限。由于外包公司技術(shù)有限,常會(huì)出現(xiàn)篇目置標(biāo)出現(xiàn)細(xì)微鋸齒影響美觀等問題;外包公司加工經(jīng)驗(yàn)欠缺,OCR文字識(shí)別字庫存儲(chǔ)量不足,遇到一些文字識(shí)別問題會(huì)無從下手。
針對(duì)上述原因,筆者認(rèn)為可以從以下幾個(gè)方面加以改進(jìn):
(1)擇優(yōu)選擇外包公司。在競(jìng)投標(biāo)選擇外包公司時(shí),參考公司往年的業(yè)績(jī)和加工任務(wù)量進(jìn)行篩選,選擇一兩個(gè)經(jīng)驗(yàn)豐富、技術(shù)水平過硬的公司負(fù)責(zé)數(shù)字化加工任務(wù)。
(2)根據(jù)不同的錯(cuò)誤類型(比如:字錯(cuò)誤、置標(biāo)錯(cuò)誤),分別計(jì)算外包公司加工的錯(cuò)誤率,錯(cuò)誤率高于某個(gè)閾值即回退公司,重新返工,以此來限制外包公司的加工質(zhì)量,從源頭減少民國報(bào)紙加工中存在的問題。
(3)加工人員根據(jù)我館傳達(dá)的加工規(guī)范,實(shí)時(shí)進(jìn)行培訓(xùn),且對(duì)特殊問題臨時(shí)更改或補(bǔ)充的規(guī)范進(jìn)行一對(duì)一培訓(xùn)學(xué)習(xí),做到從技術(shù)溝通到實(shí)際加工人員之間的無縫鏈接。
(4)驗(yàn)收人員定期培訓(xùn),對(duì)驗(yàn)收流程做到人人熟知,并通過現(xiàn)場(chǎng)參觀外包公司的加工流程,及時(shí)發(fā)現(xiàn)外包公司數(shù)字化加工中存在的問題,減少數(shù)字化驗(yàn)收錯(cuò)誤問題的返回率。
(5)根據(jù)驗(yàn)收人員的經(jīng)驗(yàn)或?qū)iL,分配每個(gè)人的驗(yàn)收任務(wù)量,以便提高驗(yàn)收效率。