熊定富
摘 要 建立報(bào)紙篇名數(shù)據(jù)庫(kù),即報(bào)紙題錄數(shù)據(jù)庫(kù),可以極大地方便讀者檢索圖書館報(bào)紙,提高報(bào)紙的開發(fā)利用率。論文討論了在實(shí)際的報(bào)紙題錄加工中可能用到的、利用關(guān)系數(shù)據(jù)庫(kù)建立的幾種報(bào)紙題錄的數(shù)據(jù)庫(kù)表結(jié)構(gòu),包括不需要鏈接全文和需要鏈接全文兩種形式。論文還提出了利用關(guān)系數(shù)據(jù)庫(kù)二維表分段管理全文索引的具體方法,對(duì)推動(dòng)報(bào)紙題錄建設(shè)具有重要意義。
關(guān)鍵詞 報(bào)紙題錄;數(shù)據(jù)結(jié)構(gòu);篇名數(shù)據(jù)庫(kù);地方文獻(xiàn)
分類號(hào) G254.3
DOI 10.16810/j.cnki.1672-514X.2022.03.006
Research on Newspaper Title Data Structure Based on Relational Database
Xiong Dingfu
Abstract The establishment of newspaper title database, namely newspaper title database, can greatly facilitate readers to search library newspapers and improve the utilization rate of newspaper development. This paper discusses several kinds of database table structures of newspaper titles which may be used in the actual processing of newspaper titles, including two forms: no need to link full text and need to link full text. This paper also puts forward the specific method of segmented management of full-text index by using the two-dimensional table of the relevant system database, which is of great significance to promote the construction of newspaper titles.
Keywords Newspaper title. Data structure. Title database. Local literature.
報(bào)紙是圖書館最重要的館藏文獻(xiàn)之一,任何時(shí)候都要加強(qiáng)對(duì)圖書館報(bào)紙的整理、開發(fā)、利用,而重視報(bào)紙題錄的建設(shè)是重中之重。題錄,是將圖書和報(bào)刊中的篇目按照一定排檢方法編排,供人們查找篇目出處的工具。題錄的著錄項(xiàng)通常包括篇名、著者和出版來(lái)源,無(wú)內(nèi)容摘要[1]。題錄要指明文獻(xiàn)出處。題錄形成的檢索工具,國(guó)內(nèi)通常稱之為論文索引、篇名索引[2]。本文認(rèn)為,建立報(bào)紙的題錄數(shù)據(jù)庫(kù)相對(duì)于文摘和全文系統(tǒng)是最省力省心的辦法,其中,事先規(guī)劃好報(bào)紙題錄數(shù)據(jù)結(jié)構(gòu)顯得十分重要。
1 報(bào)紙題錄的幾種形式
基于關(guān)系數(shù)據(jù)庫(kù)的報(bào)紙題錄可以有兩種形式,一種是不帶全文鏈接的題錄,這種題錄可以指明紙質(zhì)文獻(xiàn)的收藏位置,讓讀者了解大致的館藏,其編寫和制作系統(tǒng)的速度特別快。另一種是編寫的題錄帶了全文鏈接,并且有對(duì)應(yīng)的全文可以閱讀和下載,這種可以叫做全文目錄。全文目錄,是全文系統(tǒng)的一部分,與全文構(gòu)成一個(gè)完整的整體。
全文鏈接,是指題錄要使用一個(gè)字段或幾個(gè)字段來(lái)存貯題錄所對(duì)應(yīng)的全文文獻(xiàn)的鏈接地址。全文鏈接有caj、pdf、DOI、html四種。caj連接超星的caj文檔;pdf連接服務(wù)器上pdf格式的全文;html連接服務(wù)器上的html格式的文檔。DOI是“Digital Object Identifier”(數(shù)字對(duì)象唯一標(biāo)識(shí)符)的簡(jiǎn)寫,由美國(guó)出版協(xié)會(huì)于1994年提出,被形象地稱為“互聯(lián)網(wǎng)上的條形碼”[3],通過(guò)它可以方便、可靠、唯一地鏈接到全文。目前,我國(guó)萬(wàn)方、CNKI等生產(chǎn)的全文文獻(xiàn)已經(jīng)在使用IDF[4]。對(duì)于一些小范圍的自建報(bào)紙題錄或不太愿意與外界進(jìn)行數(shù)據(jù)交流的用戶,可以用pdf全文鏈接等來(lái)代替該字段。
根據(jù)報(bào)紙題錄所鏈接的報(bào)紙全文的形式,又可以分為以下三種:(1)題錄鏈接報(bào)紙的某個(gè)版面的某一篇具體的文章,即單篇鏈接。這是最常見的篇名全文數(shù)據(jù)庫(kù),例如,慧科新聞和CNKI報(bào)紙數(shù)據(jù)庫(kù)。(2)題錄鏈接報(bào)紙的某個(gè)版面,即一條題錄數(shù)據(jù)對(duì)應(yīng)一個(gè)報(bào)紙版面。這是相對(duì)粗糙一點(diǎn)的加工。但是這種題錄形式有一個(gè)優(yōu)點(diǎn),就是加工方便,使用起來(lái)也很方便。因此,很多題錄和全文系統(tǒng)就是這樣做的。如果要在版面內(nèi)進(jìn)行全文檢索,必須將版面的所有內(nèi)容文字化,并建立關(guān)鍵詞索引、題名索引或全文索引。題錄所對(duì)應(yīng)的這個(gè)索引可以存放在本條題錄的專門字段之中,也可以建立專門的索引文件。(3)題錄鏈接某一天整天的報(bào)紙,即一條題錄對(duì)應(yīng)一天的報(bào)紙全文內(nèi)容。這也是相對(duì)粗放的報(bào)紙加工方式。這種加工方式也具有上述優(yōu)點(diǎn),就是加工快捷方便,閱讀起來(lái)也能令讀者接受。
2 常見數(shù)據(jù)結(jié)構(gòu)
2.1 單篇鏈接1:不帶全文鏈接的題名、著者、關(guān)鍵詞綜合在一起的題錄數(shù)據(jù)結(jié)構(gòu)
“題名、著者、關(guān)鍵詞”這個(gè)字段是整條數(shù)據(jù)的核心字段,就是將一條報(bào)紙新聞的標(biāo)題、作者、關(guān)鍵詞全部寫在一起,填入該字段。為了項(xiàng)目操作起來(lái)更加簡(jiǎn)單、方便和快捷,一般可以不加任何標(biāo)點(diǎn)符號(hào)和分隔符(如空隔、斜杠等)。只是在有時(shí)候會(huì)出現(xiàn)檢索誤差,查詢出的結(jié)果會(huì)出現(xiàn)冗余數(shù)據(jù),但這并不會(huì)過(guò)多地影響系統(tǒng)的實(shí)際使用和查詢效率。在我們的實(shí)際應(yīng)用中,“作者”一般情況下不能少。如果報(bào)紙的文章標(biāo)題已經(jīng)較好地反映了內(nèi)容主題,關(guān)鍵詞也可以不必錄入。在標(biāo)題不能全面反映文章的內(nèi)容時(shí),可以適當(dāng)錄入幾個(gè)關(guān)鍵詞??傊?,標(biāo)題、作者和關(guān)鍵詞可以根據(jù)需要分別來(lái)錄入。下面是《重慶晨報(bào)》《重慶晚報(bào)》《重慶時(shí)報(bào)》三份報(bào)紙中的三條新聞,其著錄如樣例1所示。
其腳本程序如下:CREATE TABLE [dbo].[樣例1題錄](méi)(
[ID] [int] NOT NULL,
[報(bào)名] [nvarchar](255) NULL,
[日期] [date] NULL,
[題名著者關(guān)鍵詞] [nvarchar](255)NULL,
CONSTRAINT [PK_樣例1題錄](méi) PRIMARY
KEY CLUSTERED
將題名、著者、關(guān)鍵詞的全部數(shù)據(jù)放在一個(gè)數(shù)據(jù)字段中,檢索題名、著者、關(guān)鍵詞的數(shù)據(jù)時(shí),便可以同時(shí)檢索題名、著者、關(guān)鍵詞,更加方便快捷。由于沒(méi)有原文鏈接,當(dāng)讀者在圖書館電腦中查找到報(bào)紙的線索信息時(shí),可請(qǐng)工作人員從報(bào)紙的紙質(zhì)書庫(kù)中提出報(bào)紙?jiān)?,然后才能進(jìn)行閱讀、查找、復(fù)印、掃描、拍照等利用。此外,還可以對(duì)地方文獻(xiàn)報(bào)紙進(jìn)行快速、大數(shù)量的題錄索引,為讀者提供報(bào)紙線索。又比如,為縮微轉(zhuǎn)電腦版的報(bào)紙編寫題錄,以便為讀者查找報(bào)紙?zhí)峁?biāo)題和關(guān)鍵詞檢索服務(wù)。
最重要的是,這種將題名、著者、關(guān)鍵詞三個(gè)字段的數(shù)據(jù)綜合到一個(gè)字段的形式,也適合于我們后面要談到的其它數(shù)據(jù)結(jié)構(gòu),如按日期或按報(bào)紙版面建立的報(bào)紙題錄。這種建庫(kù)方法將極大地加快建庫(kù)速度,非常適合不需要加入DOI系統(tǒng)的圖書館,如地市級(jí)圖書館加工地方報(bào)紙。采用這種思路最大的好處是可以將房地產(chǎn)廣告、尋人啟示、遺失公告、公司注銷公告等常常為讀者大量查閱的信息錄入系統(tǒng)。
2.2 單篇鏈接2:帶全文鏈接的各檢索字段獨(dú)立的題錄數(shù)據(jù)結(jié)構(gòu)
我們先分析一下國(guó)內(nèi)兩個(gè)大型全文數(shù)據(jù)庫(kù)廠商的報(bào)紙題錄的數(shù)據(jù)結(jié)構(gòu)。CNKI數(shù)據(jù)庫(kù)的報(bào)紙題錄有如下數(shù)據(jù)字段:題名、作者、報(bào)紙名稱、日期、被引、下載、閱讀、收藏、正文快照、關(guān)鍵詞、報(bào)紙日期、版名、版號(hào)、專輯、專題、DOI、分類號(hào)[5]。而“慧科新聞”主要有如下字段:ID、文章相關(guān)度、日期、媒體、版面/欄目/作者、字?jǐn)?shù)、文章編號(hào)(全文鏈接代碼)、原文鏈接地址[6]。
由此我們看到,國(guó)內(nèi)目前已經(jīng)存在的幾種報(bào)紙題錄的數(shù)據(jù)結(jié)構(gòu)具有如下共性:
(1)具有ID、標(biāo)題、作者、關(guān)鍵詞、報(bào)名、日期、版面號(hào)等基礎(chǔ)性字段;
(2)有html地址、caj地址、pdf地址、DOI地址等全文文獻(xiàn)鏈接字段。
其中,題名、作者、報(bào)紙名稱、日期、關(guān)鍵詞、DOI/pdf鏈接、版號(hào)、分類號(hào)是基本字段,一般來(lái)說(shuō)是必備的?!癶tml”字段是將pdf全文轉(zhuǎn)化html或XML格式直接展示給讀者閱讀的字段。如果用戶要閱讀圖像格式的文檔(pdf、caj等格式),通常須自己下載到本地電腦。
將題名、著者、關(guān)鍵詞分字段進(jìn)行存貯與檢索,是當(dāng)前主流全文數(shù)據(jù)庫(kù)加工商的做法,不僅能夠讓數(shù)據(jù)的條理性更加清晰,而且可以方便地從電腦上直接看到文獻(xiàn)的全文。然而在實(shí)踐中也可以看出,無(wú)論是慧科新聞,還是CNKI,它們也有兩個(gè)方面不足:一是沒(méi)有將房地產(chǎn)廣告、尋人啟示、遺失公告、公司注銷公告等讀者大量查閱的信息建庫(kù);二是篇名不齊全,只是選擇了一些重要的新聞文章建立全文庫(kù)。
2.3 按版面加工成題錄的數(shù)據(jù)結(jié)構(gòu)
基本思路是將按版面或按日期加工成的電子文檔(如pdf文檔)同步產(chǎn)生的可編輯文字所形成的文檔(如word文檔)中的結(jié)構(gòu)化數(shù)據(jù),主要是報(bào)紙的標(biāo)題、作者(記者)、關(guān)鍵詞(如重要概念、地點(diǎn)、時(shí)間等)按報(bào)紙的篇名一條一條地提出來(lái),建立一個(gè)單獨(dú)的題錄,在鏈接全文的時(shí)候,同一版面或同一天而且報(bào)名又相同的數(shù)據(jù)鏈接同一個(gè)pdf電子文檔。
這樣做的好處是,加工速度會(huì)成倍加快,因?yàn)檫@樣就不需要去單獨(dú)拆分一篇一篇的報(bào)紙文章。不好的地方是用戶在閱讀的時(shí)候比較麻煩,當(dāng)用戶在題錄中找到某一天或某一版面報(bào)紙的時(shí)候,還得在該日期或該版面中繼續(xù)尋找自己需要的某篇新聞。數(shù)據(jù)樣例如樣例2所示。
上述兩條題錄的題名、著者、關(guān)鍵詞索引不同,但是鏈接了相同的pdf文件地址。很明顯,在這兩條題錄中,讀者能很方便地找到自己需要的文章。而且,這是一種很常見的報(bào)紙加工形式。下面是樣例2的腳本程序,僅供讀者參考:
CREATE TABLE [dbo].[樣例2題錄](méi)(
[ID] [int] NOT NULL,
[報(bào)名] [nvarchar](255) NULL,
[日期] [date] NULL,
[題名著者關(guān)鍵詞索引] [nvarchar](255)
NULL,
[版面] [nvarchar](50) NULL,
[pdf文件地址] [nvarchar](255) NULL,
[Html地址] [nvarchar](255) NULL,
[文字地址] [nvarchar](255) NULL,
CONSTRAINT [PK_樣例2題錄](méi) PRIMARY
KEY CLUSTERED
2.4 按日期加工成題錄的數(shù)據(jù)結(jié)構(gòu)
基本思路類似于按版面加工,即按日期加工的題錄,每一條題錄對(duì)應(yīng)某個(gè)日期報(bào)紙的一篇文章,對(duì)應(yīng)的全文鏈接(如pdf鏈接)則鏈接該日期整天的報(bào)紙全文,可見樣例3。
上述兩條題錄,按“天”加工,就是將2021年1月20日的重慶晨報(bào)掃描制作成一個(gè)電子版,例如一個(gè)pdf文件。然后,為每一條新聞制作一條題錄,但是全文鏈接地址給的是完全相同的地址。讀者打開鏈接之后,自己去尋找當(dāng)天新聞中自己需要的某一篇文章。
這種結(jié)構(gòu)的優(yōu)點(diǎn)是將某一天的報(bào)紙加工成一個(gè)電子全文,利于收藏;在實(shí)際保存中,報(bào)紙文件不會(huì)那么容易被丟失和誤刪除。缺點(diǎn)是讀者閱覽和查找當(dāng)天某一篇自己需要的新聞時(shí),需要花一些時(shí)間,而且因?yàn)樵跀?shù)據(jù)加工的時(shí)候要將同一天報(bào)紙的每一個(gè)版面連接成一個(gè)全文文檔,同樣也要花不少時(shí)間。下面是樣例3的腳本程序,僅供讀者參考:
CREATE TABLE [dbo].[樣例3題錄](méi)(
[ID] [int] NOT NULL,
[報(bào)名] [nvarchar](255) NULL,
[日期] [date] NULL,
[題名著者關(guān)鍵詞索引] [nvarchar]
(255) NULL,
[pdf文件地址] [nvarchar](255) NULL,
[Html地址] [nvarchar](255) NULL,
[文字地址] [nvarchar](255) NULL,
CONSTRAINT [PK_樣例3題錄](méi) PRIMARY
KEY CLUSTERED
2.5 全文索引型題錄
全文索引型題錄不是嚴(yán)格意義上的題錄,但是為了研究的系統(tǒng)性,我們還是將它放在一起進(jìn)行探討。全文索引型題錄的建立方法:采用非結(jié)構(gòu)化的數(shù)據(jù)加工方法+結(jié)構(gòu)化的數(shù)據(jù)管理方法。其基本思路是:(1)一次性將報(bào)紙全部掃描完,同時(shí)生成可編輯文字的文檔和供讀者閱讀的電子文檔。(2)利用計(jì)算機(jī)全文加工系統(tǒng)的插件或者自己編寫的全文索引程序,對(duì)可編輯文字文檔進(jìn)行標(biāo)準(zhǔn)的全文索引,將高頻詞提出來(lái)作為關(guān)鍵詞放到全文索引文件中。(3)對(duì)產(chǎn)生的索引文字使用關(guān)系數(shù)據(jù)庫(kù)進(jìn)行管理。主要是將超過(guò)255個(gè)字符的索引按255個(gè)字符的長(zhǎng)度進(jìn)行切分,形成多個(gè)全文索引數(shù)據(jù)段。這個(gè)切分過(guò)程應(yīng)該使用計(jì)算機(jī)程序段自動(dòng)完成。在進(jìn)行切分的時(shí)候,應(yīng)以詞而不是以單字為單位,注意不要將一個(gè)關(guān)鍵詞切分到兩個(gè)字段之中去。(4)每一個(gè)255字符的索引數(shù)據(jù)段保存為一條記錄,并鏈接上相同的地址。這樣就能實(shí)現(xiàn)全文索引和全文檢索。
如對(duì)重慶晨報(bào)2020年1月21日全天新聞[7]進(jìn)行全文索引,其關(guān)鍵詞如下:
市政協(xié) 五屆四次會(huì)議 開幕 五屆人大四次會(huì)議 預(yù)備會(huì)議 主席團(tuán) 第一次會(huì)議 春節(jié)返鄉(xiāng) 核酸檢測(cè) 陰性 證明 教育熱點(diǎn) 委員 八省市 聯(lián)考 重慶考生 重慶橋都 博物館 橋梁 建議 免征 增程式 電動(dòng)汽車 消費(fèi)稅 搖號(hào)入學(xué) 地域文化 城市設(shè)施 道路命名 學(xué)生 電子產(chǎn)品 教學(xué) 使用時(shí)間 家暴 受害人 扶貧工程 街道辦主任 斂財(cái) 疫情 一線 企業(yè) 100% 復(fù)工復(fù)產(chǎn) 江津 重慶晨報(bào) 上游新聞 記者 2020年 招商引資 豐都縣 重慶橋梁
依據(jù)全文索引切分所建立起的題錄其加工如樣例4所示。
從上面的例子可以看出,即使將一條報(bào)紙新聞的兩個(gè)全文索引詞分別放在不同的題錄中,計(jì)算機(jī)仍然可以檢索出該天的新聞。各個(gè)索引詞之間可以加分隔符,也可以不加分隔符,對(duì)檢索結(jié)果的影響都不是太大。下面是樣例4的腳本程序,僅供讀者參考:
CREATE TABLE [dbo].[樣例4題錄](méi)(
[ID] [int] NOT NULL,
[報(bào)名] [nvarchar](255) NULL,
[日期] [date] NULL,
[全文索引] [nvarchar](255) NULL,
[pdf文件地址] [nvarchar](255) NULL,
[Html地址] [nvarchar](255) NULL,
[文字地址] [nvarchar](255) NULL,
CONSTRAINT [PK_樣例4題錄](méi) PRIMARY
KEY CLUSTERED
使用這種結(jié)構(gòu)來(lái)建立報(bào)紙題錄具有三個(gè)優(yōu)點(diǎn)。(1)全文加工速度快。全文掃描之后,文字層的生成,各種鏈接字段的生成,全文索引、全文題錄的建立等幾乎都可以實(shí)現(xiàn)計(jì)算機(jī)自動(dòng)處理,大大節(jié)省了人工成本。(2)對(duì)于有缺陷的索引,可以在計(jì)算機(jī)處理完成后,以人工繼續(xù)進(jìn)行處理,繼續(xù)向索引字段追加關(guān)鍵詞。(3)與非結(jié)構(gòu)化數(shù)據(jù)庫(kù)系統(tǒng)相比,使用這種結(jié)構(gòu)對(duì)老用戶來(lái)說(shuō)更加利于理解。當(dāng)然,這種數(shù)據(jù)結(jié)構(gòu)也有自己的缺點(diǎn):根據(jù)切分和詞頻抽取出的全文索引詞中,詞頻高的不完全是反映文章主題內(nèi)容的關(guān)鍵詞,而詞頻低但是反映文章主題內(nèi)容的關(guān)鍵詞匯又可能沒(méi)有被索引到,或者沒(méi)有被全文索引收錄。正如上面所說(shuō)的,遇到這種情況時(shí)可以手工編輯索引字段,在全文索引數(shù)據(jù)字段中追加關(guān)鍵詞索引。
參考文獻(xiàn):
徐軍玲,洪江龍.科技文獻(xiàn)檢索[M].上海:復(fù)旦大學(xué)出版社,2004:21.
王立誠(chéng).科技文獻(xiàn)檢索與利用[M].5版.南京:東南大學(xué)出版社,2014: 29.
《醫(yī)藥導(dǎo)報(bào)》編輯部.DOI編碼功能介紹[J].醫(yī)藥導(dǎo)報(bào),2020,39(12): 1707.
龍健,賴茂生.DOI的興起與我國(guó)的對(duì)策[J].情報(bào)雜志,2009,28(12): 161.
程正龍.重慶怎樣加快建成高質(zhì)量發(fā)展高品質(zhì)生活新范例?[N/OL].重慶日?qǐng)?bào),2020-12-24[2021-06-08]. http://elib.cqlib.cn:8081/interlibSSO/goto/10/+jmr9bmjh9mds/KXReader/Detail?TIMESTAMP=637587611121692813&DBCODE=CCND&TABLEName=CCNDLAST2021&FileName=CQRB202012240120&RESULT=1&SIGN=PyrjFZvDW9PxoJuGt6z%2bGtDTTyc%3d#.
開啟新征程!兩江新區(qū)瞄準(zhǔn)兩大定位兩大目標(biāo).慧科新聞[EB/OL].(2021-01-16)[2021-06-08].https://epaper.cqrb.cn/html/cqrb/2021-01/16/003/content_rt_2777602.htm.
重慶報(bào)業(yè)集團(tuán).重慶晨報(bào)[EB/OL].(2021-01-21)[2021-06-08].https://epaper.cqcb.com/html/202101/21/node_001.html.