王榮群 李婷 魏蕊
(河北大學(xué)管理學(xué)院,保定 071000)
隨著數(shù)字技術(shù)的發(fā)展和智能手機(jī)時(shí)代的到來(lái),圖像類(lèi)信息資源大規(guī)模增加。圖書(shū)館等機(jī)構(gòu)開(kāi)始將數(shù)字圖像類(lèi)數(shù)據(jù)庫(kù)納入館藏建設(shè)的范圍。數(shù)字圖像作為數(shù)字信息資源的重要組成部分,它不同于一般的信息資源,其內(nèi)容特征涉及非文字性的圖形、色彩、色調(diào)、紋理、內(nèi)容對(duì)象、物理制作要素等信息[1]。元數(shù)據(jù)是信息資源描述、組織與管理的重要工具,利用元數(shù)據(jù)對(duì)圖像進(jìn)行描述、組織和規(guī)范處理,可以提高檢索的準(zhǔn)確性和快捷性,從而增強(qiáng)其可發(fā)現(xiàn)性和可用性。從數(shù)字圖像的獲得方式來(lái)看,包括直接拍攝的數(shù)字圖像和從紙質(zhì)文獻(xiàn)資源中以?huà)呙璺绞教崛〉臄?shù)字圖像兩大類(lèi)。直接拍攝的數(shù)字圖像主要包括實(shí)物展示類(lèi)圖像和新聞紀(jì)實(shí)類(lèi)圖像兩類(lèi)。因此,本文選擇實(shí)物展示類(lèi)圖像、新聞紀(jì)實(shí)類(lèi)圖像和數(shù)字化提取類(lèi)圖像這三類(lèi)圖像數(shù)據(jù)庫(kù)作為調(diào)查樣本,調(diào)查分析其圖像的元數(shù)據(jù)元素,然后與數(shù)字資源元數(shù)據(jù)標(biāo)準(zhǔn)和圖像類(lèi)資源元數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行對(duì)照分析,結(jié)合實(shí)踐調(diào)查和理論分析提出圖像數(shù)據(jù)庫(kù)元數(shù)據(jù)元素集的改進(jìn)建議。
以中國(guó)知網(wǎng)CNKI為數(shù)據(jù)源,使用“圖像”“圖像數(shù)據(jù)庫(kù)”“元數(shù)據(jù)標(biāo)準(zhǔn)”分別進(jìn)行題名、主題的組合檢索。檢索不限“年份”,經(jīng)過(guò)人工篩選后,得到檢索結(jié)果75條。經(jīng)過(guò)分析可以看出,近年來(lái)國(guó)內(nèi)圖像元數(shù)據(jù)的研究主要集中在兩個(gè)方面。一是對(duì)國(guó)際和行業(yè)上相關(guān)的數(shù)字圖像元數(shù)據(jù)項(xiàng)目和規(guī)范進(jìn)行介紹。例如:袁莉等[1]對(duì)國(guó)外數(shù)字圖像的元數(shù)據(jù)格式MOA2 metadata、VRA Core等做了簡(jiǎn)單介紹和比較,將元數(shù)據(jù)分為描述性元數(shù)據(jù)、結(jié)構(gòu)性元數(shù)據(jù)、管理性元數(shù)據(jù);黃崑等[2]將可用于描述和著錄圖像的元數(shù)據(jù)標(biāo)準(zhǔn)歸納為專(zhuān)門(mén)的圖像元數(shù)據(jù)標(biāo)準(zhǔn)、文化資源相關(guān)的元數(shù)據(jù)標(biāo)準(zhǔn)和通用元數(shù)據(jù)標(biāo)準(zhǔn)并分別介紹。二是對(duì)我國(guó)大量古籍文獻(xiàn)和特殊地方文化等相關(guān)元數(shù)據(jù)標(biāo)準(zhǔn)的制定進(jìn)行探究。例如:北京大學(xué)圖書(shū)館提出古籍元數(shù)據(jù)標(biāo)準(zhǔn)、拓片元數(shù)據(jù)標(biāo)準(zhǔn);郭瑞芳等[3]根據(jù)國(guó)家圖書(shū)館圖像元數(shù)據(jù)元素及修飾詞著錄細(xì)則設(shè)計(jì)了一套描述端硯圖像的元數(shù)據(jù)方案,同時(shí)結(jié)合端硯作品自身特點(diǎn)給出完整描述;王若宸等[4]基于Panofsky和Shatford的圖像學(xué)理論模型構(gòu)建專(zhuān)門(mén)面向非遺數(shù)字圖像的語(yǔ)義描述框架,提出一種專(zhuān)門(mén)面向非遺圖像語(yǔ)義信息的描述方法。
20世紀(jì)90年代,國(guó)外開(kāi)始逐漸出現(xiàn)圖像元數(shù)據(jù)的研究項(xiàng)目,相關(guān)研究以介紹元數(shù)據(jù)在各行業(yè)領(lǐng)域的實(shí)踐應(yīng)用為主,側(cè)重于元數(shù)據(jù)的實(shí)踐技術(shù)等方面研究。關(guān)于元數(shù)據(jù)的具體應(yīng)用實(shí)踐,范圍很廣,比較有代表性的是數(shù)字圖書(shū)館中數(shù)字圖像元數(shù)據(jù)規(guī)范項(xiàng)目的建設(shè)、將圖像元數(shù)據(jù)的標(biāo)準(zhǔn)應(yīng)用于構(gòu)建地標(biāo)圖像的AI訓(xùn)練數(shù)據(jù)集[5],以及從實(shí)驗(yàn)日志和文本文件中提取元數(shù)據(jù),處理圖像并將其上傳到服務(wù)器,從而創(chuàng)建完全注釋的多維數(shù)據(jù)集[6]。Kim等[7]針對(duì)多媒體圖像的侵犯版權(quán)和非法使用等問(wèn)題,提出以JPEG格式的數(shù)據(jù)保護(hù)特性作為元數(shù)據(jù)擴(kuò)展到遠(yuǎn)程訪(fǎng)問(wèn)控制中,通過(guò)將訪(fǎng)問(wèn)控制數(shù)據(jù)的位置信息作為元數(shù)據(jù)保存在圖像文件中,圖像所有者可以允許或拒絕其他人的數(shù)據(jù)消耗,起到隱私保護(hù)作用。在圖書(shū)館、檔案館、博物館等方面,Crowe等[8]以丹佛大學(xué)檔案館館藏為例,分析了高校檔案圖像元數(shù)據(jù)最佳實(shí)踐。Saleh[9]探討了網(wǎng)絡(luò)文化遺產(chǎn)數(shù)字館藏中使用圖像嵌入元數(shù)據(jù)的可用性。
為了保證所調(diào)研數(shù)字圖像的全面性,本文選擇實(shí)物展示類(lèi)圖像數(shù)據(jù)庫(kù)、新聞紀(jì)實(shí)類(lèi)圖像數(shù)據(jù)庫(kù)和數(shù)字化提取類(lèi)圖像數(shù)據(jù)庫(kù)為研究對(duì)象,對(duì)不同類(lèi)型數(shù)字圖像數(shù)據(jù)庫(kù)內(nèi)的元數(shù)據(jù)元素進(jìn)行調(diào)查。圖像類(lèi)目是將圖像按不同特征進(jìn)行歸類(lèi)處理,以滿(mǎn)足用戶(hù)檢索、獲取所需圖像的需求。圖像元數(shù)據(jù)是描述圖像文件的一些信息標(biāo)簽,具體包括圖像拍攝時(shí)自動(dòng)標(biāo)注的圖像尺寸、像素等信息,以及圖像名稱(chēng)、作者、地址等后期對(duì)圖像進(jìn)行人工描述的元數(shù)據(jù)信息。本節(jié)主要通過(guò)網(wǎng)絡(luò)調(diào)查法對(duì)數(shù)據(jù)庫(kù)內(nèi)圖像類(lèi)目和圖像元數(shù)據(jù)進(jìn)行總結(jié)分析,以期為改進(jìn)圖像數(shù)據(jù)庫(kù)元數(shù)據(jù)元素提供一定的實(shí)踐基礎(chǔ)。
實(shí)物展示類(lèi)圖像就是將各類(lèi)實(shí)物直接地予以反映,通過(guò)圖像拍攝真實(shí)還原其本質(zhì)美感。實(shí)物展示類(lèi)圖像數(shù)據(jù)庫(kù)保存的是相機(jī)等拍攝工具直接捕捉的圖像或者計(jì)算機(jī)內(nèi)繪圖工具等創(chuàng)作出的圖像。這類(lèi)數(shù)據(jù)庫(kù)既有圖像資源種類(lèi)豐富的綜合性圖像數(shù)據(jù)庫(kù),如圖蟲(chóng)圖庫(kù)[10],它是字節(jié)跳動(dòng)旗下的優(yōu)質(zhì)攝影圖片整合圖像庫(kù),由攝影愛(ài)好者上傳作品,已有超過(guò)4.6億張正版素材,包括風(fēng)景、動(dòng)物等攝影圖片;也有將某一類(lèi)型的作品收集在一起,為用戶(hù)提供某一專(zhuān)業(yè)領(lǐng)域的圖像檢索及利用服務(wù)的專(zhuān)類(lèi)圖像數(shù)據(jù)庫(kù),如中藥材圖像數(shù)據(jù)庫(kù)[11],它由香港浸會(huì)大學(xué)中醫(yī)藥學(xué)院建立,圖像涉及常用中藥材420余種,以高清圖像展示藥材的外觀特征,并以文字記載藥材的來(lái)源、主產(chǎn)地、性味功效等信息。作為實(shí)物展示類(lèi)圖像數(shù)據(jù)庫(kù),這兩類(lèi)數(shù)據(jù)庫(kù)中的圖像類(lèi)目多種多樣,且都對(duì)不同特征、不同類(lèi)別的圖像進(jìn)行整合區(qū)分。
經(jīng)調(diào)查,圖蟲(chóng)圖庫(kù)主要圖像類(lèi)目包括“人像”“自然風(fēng)光”“節(jié)日”等,為更加細(xì)致地劃分不同類(lèi)別的圖像,圖蟲(chóng)圖庫(kù)對(duì)每一大類(lèi)下的類(lèi)目進(jìn)行細(xì)分,例如,“人像”類(lèi)目下可以細(xì)分為“外國(guó)人”“青年”“女性”“肖像”等,“自然風(fēng)光”類(lèi)目下可以分為“山川”“草原”“海洋”等,以便更好地幫助用戶(hù)根據(jù)圖像的不同特征精確檢索圖像;中藥材圖像數(shù)據(jù)庫(kù)對(duì)常用類(lèi)型中藥材圖像的藥材類(lèi)別、味覺(jué)特性、品質(zhì)特性等進(jìn)行劃分,又對(duì)每一個(gè)類(lèi)目進(jìn)行細(xì)分,如“味覺(jué)特性”可以細(xì)分為“苦”“甘”“辛”等。通過(guò)對(duì)數(shù)據(jù)庫(kù)內(nèi)圖像元數(shù)據(jù)調(diào)查發(fā)現(xiàn),根據(jù)圖像類(lèi)型的不同,所描述的信息側(cè)重點(diǎn)也有所區(qū)別。圖蟲(chóng)圖庫(kù)作為攝影圖像數(shù)據(jù)庫(kù),更注重對(duì)圖像的攝像標(biāo)準(zhǔn)系數(shù)進(jìn)行描述,如白平衡、色彩模式、圖像寬高度、分辨率等,同時(shí)也對(duì)圖像標(biāo)題和作者等主要信息進(jìn)行描述;中藥材圖像數(shù)據(jù)庫(kù)內(nèi)的圖像主要為高清拍攝中藥材圖像,除了對(duì)圖像尺寸、像素等信息進(jìn)行描述外,更注重體現(xiàn)中藥材圖像的屬性特征,對(duì)藥材科名、中外文名稱(chēng)、藥材來(lái)源、藥材產(chǎn)地等圖像元數(shù)據(jù)進(jìn)行描述。
新聞紀(jì)實(shí)圖像的主要功能為向用戶(hù)傳遞故事和信息,在新聞紀(jì)實(shí)類(lèi)圖像中需要展示人物、時(shí)間、地點(diǎn)、事件、原因、發(fā)生過(guò)程六要素,在呈現(xiàn)圖像的同時(shí)搭配文字介紹,更加完善地向外界呈現(xiàn)一個(gè)新聞信息。中國(guó)新聞圖片網(wǎng)[12]屬于新聞紀(jì)實(shí)類(lèi)圖像數(shù)據(jù)庫(kù),將每日新聞圖片制作成電子文本,通過(guò)互聯(lián)網(wǎng)整合成可視化的圖片分享平臺(tái)。新聞的不同類(lèi)型決定圖像也有不同的類(lèi)目。中國(guó)新聞圖片網(wǎng)按反映社會(huì)生活的內(nèi)容將新聞圖像分為政治、經(jīng)濟(jì)、文化、體育、教育等類(lèi)目,并對(duì)不同類(lèi)目下的具體新聞圖像進(jìn)行細(xì)分,例如“體育”大類(lèi)下具體分為“奧運(yùn)”“足球”“NBA”等,以保證新聞覆蓋面的廣泛性。關(guān)于新聞圖像的元數(shù)據(jù),通過(guò)調(diào)查可知,新聞圖像具有新聞的特點(diǎn),其圖像元數(shù)據(jù)也是圍繞新聞六要素,即人物、時(shí)間、地點(diǎn)、事件、原因、發(fā)生過(guò)程進(jìn)行描述。還需要注意是,中國(guó)新聞圖片網(wǎng)通過(guò)“圖像文件名稱(chēng)”“圖片作者”“作者單位”和“拍攝地址”等元數(shù)據(jù)對(duì)圖像信息進(jìn)行描述,以保證新聞的真實(shí)性與準(zhǔn)確性。
數(shù)字化提取類(lèi)圖像數(shù)據(jù)庫(kù)主要指通過(guò)掃描儀等識(shí)別圖像的機(jī)器,將文獻(xiàn)中的圖像傳輸?shù)接?jì)算機(jī)中,通過(guò)圖像處理軟件最大限度地還原文獻(xiàn)圖像,整理保存形成數(shù)據(jù)庫(kù)。插圖是插附于書(shū)刊文字間的特殊圖畫(huà)形式,將文獻(xiàn)中的紙質(zhì)插圖進(jìn)行數(shù)字化提取和整合,有助于更加直觀地理解文本內(nèi)容。
古籍插圖圖像數(shù)據(jù)庫(kù)[13]是由首都圖書(shū)館創(chuàng)辦的一個(gè)包含古籍插圖數(shù)據(jù)的線(xiàn)上查詢(xún)系統(tǒng),目前收錄了1萬(wàn)多張插圖,每張插圖都有其所屬類(lèi)別以及具體的圖像信息。古籍插圖圖像數(shù)據(jù)庫(kù)中每條圖像數(shù)據(jù)包括插圖影像和內(nèi)容描述兩部分。根據(jù)插圖主題內(nèi)容的不同分為小說(shuō)、戲曲、宗教、風(fēng)景等幾大類(lèi)目。在對(duì)插圖進(jìn)行數(shù)字化提取過(guò)程中,主要通過(guò)“插圖題名”“繪圖者”“圖像類(lèi)別”“繪制年代”等元數(shù)據(jù)對(duì)插圖圖像進(jìn)行描述,以揭示圖像內(nèi)蘊(yùn)含的信息。同時(shí)還通過(guò)“文獻(xiàn)題目”“責(zé)任者”對(duì)提取插圖的古籍文獻(xiàn)信息進(jìn)行描述。因此在構(gòu)建圖像元數(shù)據(jù)時(shí)可注重?cái)?shù)字化提取類(lèi)圖像與文獻(xiàn)本身的內(nèi)容聯(lián)系,保障數(shù)字化提取類(lèi)圖像元數(shù)據(jù)描述的完整性。
通過(guò)對(duì)上述三類(lèi)圖像數(shù)據(jù)庫(kù)的調(diào)查分析發(fā)現(xiàn),不同類(lèi)別圖像數(shù)據(jù)庫(kù)中的圖像呈現(xiàn)方式和信息描述不同,圖像類(lèi)目和圖像元數(shù)據(jù)描述側(cè)重點(diǎn)有所差異,結(jié)果見(jiàn)表1所示。
實(shí)物展示類(lèi)圖像主要是對(duì)于事物本身的展示,向外界傳遞圖像自身所攜帶的信息。因此在構(gòu)建圖像元數(shù)據(jù)元素集時(shí)多以描述圖像本身的元素為主。根據(jù)用途不同,在提取元數(shù)據(jù)元素時(shí)有各自不同的依據(jù),從圖蟲(chóng)圖庫(kù)中提取的圖像類(lèi)目都是很直觀的圖像元素,如“自然風(fēng)光”“美食”;而中藥材圖像這種某一具體類(lèi)別的圖像則更多以圖像背后的信息元素作為提取的元數(shù)據(jù),如味甘、味辛是不能在圖像中直觀表示的。因此要根據(jù)圖像的功能定位,以及用戶(hù)對(duì)于圖像的需求等具體情況構(gòu)建實(shí)物展示類(lèi)圖像的元數(shù)據(jù)。新聞紀(jì)實(shí)類(lèi)圖像更加注重事件的表達(dá)和信息的呈現(xiàn),在進(jìn)行圖像描述時(shí),主要以圍繞新聞的六要素,即人物、時(shí)間、地點(diǎn)、事件、原因、發(fā)生過(guò)程構(gòu)建元數(shù)據(jù),此外還需明確新聞圖像的所屬類(lèi)別,注重圖像所反映的新聞主題。數(shù)字化提取類(lèi)圖像與上述兩類(lèi)數(shù)字圖像不同,在構(gòu)建圖像元數(shù)據(jù)元素集時(shí),除了描述圖像本身的元素之外,還要對(duì)提取圖像的文獻(xiàn)資料進(jìn)行描述,插圖所附文獻(xiàn)的題名、故事、人物等也要作為圖像元數(shù)據(jù)描述加以呈現(xiàn)。綜上所述,構(gòu)建數(shù)字圖像元數(shù)據(jù)元素集時(shí),要根據(jù)數(shù)據(jù)庫(kù)的類(lèi)型和定位,考慮用戶(hù)對(duì)于不同圖像的信息需求,綜合考量數(shù)字圖像的基本信息、所屬范疇、主要功能、用戶(hù)定位等因素。
圖像數(shù)據(jù)庫(kù)元數(shù)據(jù)元素集構(gòu)建的最終目的是方便數(shù)字圖像的收集與管理,因此需在構(gòu)建之初將數(shù)字圖像相關(guān)標(biāo)準(zhǔn)與實(shí)際應(yīng)用中的圖像元素進(jìn)行比較研究。本文選取數(shù)字資源元數(shù)據(jù)標(biāo)準(zhǔn)《都柏林核心元素集》(Dublin Core Element Set,DC)和圖像類(lèi)資源元數(shù)據(jù)標(biāo)準(zhǔn)《圖像元數(shù)據(jù)規(guī)范》(WH/T 51—2012)、《中文新聞圖片內(nèi)容描述元數(shù)據(jù)規(guī)范》(GB/T 35311—2017),對(duì)比元數(shù)據(jù)標(biāo)準(zhǔn)與上述4個(gè)圖像數(shù)據(jù)庫(kù)的具體實(shí)踐情況,分析其圖像的元數(shù)據(jù)元素。為縮小元素的含義范圍,使其更具有專(zhuān)指性,所選取的《都柏林核心元素集》和《圖像元數(shù)據(jù)規(guī)范》都給定相應(yīng)的元素修飾詞,因此本節(jié)針對(duì)元素修飾詞在具體圖像數(shù)據(jù)庫(kù)內(nèi)的適應(yīng)性也進(jìn)行一定的分析介紹,從而為圖像數(shù)據(jù)庫(kù)元數(shù)據(jù)元素集的改進(jìn)提供參考。
DC是由聯(lián)機(jī)計(jì)算機(jī)圖書(shū)館中心(Online Computer Library Center,OCLC)與美國(guó)國(guó)家超級(jí)計(jì)算機(jī)應(yīng)用中心(National Center for Supercomputer Applications, NCSA)聯(lián)合發(fā)起,目的是建立一套描述網(wǎng)絡(luò)電子文獻(xiàn)的方法,以便實(shí)現(xiàn)網(wǎng)上信息檢索。DC元數(shù)據(jù)元素集可以歸納為內(nèi)容屬性、知識(shí)產(chǎn)權(quán)屬性、形式屬性3種屬性,共包括15個(gè)核心元素和24個(gè)元素修飾詞。對(duì)照DC元數(shù)據(jù)元素集,將圖蟲(chóng)圖庫(kù)、中藥材圖像數(shù)據(jù)庫(kù)、中國(guó)新聞圖片網(wǎng)和古籍插圖圖像數(shù)據(jù)庫(kù)內(nèi)圖像元數(shù)據(jù)元素的利用情況進(jìn)行對(duì)照分析(見(jiàn)表2)。
表2 DC元數(shù)據(jù)元素在圖像數(shù)據(jù)庫(kù)中的應(yīng)用
上述4個(gè)數(shù)字圖像數(shù)據(jù)庫(kù)都包含DC元數(shù)據(jù)中的“題名”“主題”“描述”“創(chuàng)建者”和“日期”,表明這些元素都是圖像數(shù)據(jù)庫(kù)中最基本的信息。DC是描述電子文獻(xiàn)的元數(shù)據(jù)標(biāo)準(zhǔn),而數(shù)字圖像具有強(qiáng)烈的數(shù)字資源屬性,因此數(shù)字圖像數(shù)據(jù)庫(kù)內(nèi)圖像元素與DC的核心元素適配性較高。例如:“主題”,古籍插圖圖像數(shù)據(jù)庫(kù)中的有“個(gè)人主題”和“地名主題”,這都是對(duì)于“主題”元素的擴(kuò)展應(yīng)用;“語(yǔ)種”,中藥材圖像數(shù)據(jù)庫(kù)內(nèi)圖像的每一個(gè)信息元素都是以中文名、拉丁名、英文名3種語(yǔ)言表示;“權(quán)限”,圖蟲(chóng)圖庫(kù)內(nèi)圖像標(biāo)注“限時(shí)免費(fèi)”“授權(quán)書(shū)”“第三方權(quán)利說(shuō)明”等與使用下載相關(guān)的權(quán)限內(nèi)容。在對(duì)比元素時(shí)發(fā)現(xiàn),一些DC元素修飾詞可以更加精確地描述圖像信息,如“日期”下的元素修飾詞在圖蟲(chóng)圖庫(kù)中有所體現(xiàn),“創(chuàng)建日期”可表示作者拍攝圖像的日期,“可獲得日期”表示用戶(hù)獲取利用圖像資源的時(shí)間區(qū)間,“發(fā)布日期”表示圖像資源正式對(duì)外公開(kāi)發(fā)布的日期。值得注意的是,這種對(duì)比只是在對(duì)照DC元數(shù)據(jù)標(biāo)準(zhǔn)的基礎(chǔ)上分析圖像數(shù)據(jù)庫(kù)元素集在具體項(xiàng)目應(yīng)用中的體現(xiàn),對(duì)于圖像數(shù)據(jù)庫(kù)元數(shù)據(jù)元素集的構(gòu)建還應(yīng)該參考各類(lèi)相關(guān)的元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范。
數(shù)字圖像資源不同于一般的信息資源,對(duì)其內(nèi)容特征元素描述存在特定類(lèi)型圖像元數(shù)據(jù)標(biāo)準(zhǔn),這類(lèi)標(biāo)準(zhǔn)往往對(duì)于描述實(shí)物本質(zhì)特征、派生的數(shù)字化資源以及新聞?lì)悎D像資源內(nèi)容更具有針對(duì)性。本文選取《圖像元數(shù)據(jù)規(guī)范》和《中文新聞圖片內(nèi)容描述元數(shù)據(jù)規(guī)范》兩個(gè)圖像元數(shù)據(jù)標(biāo)準(zhǔn)對(duì)所調(diào)研的圖像數(shù)據(jù)庫(kù)內(nèi)的元素進(jìn)行一一對(duì)照分析。
3.2.1 《圖像元數(shù)據(jù)規(guī)范》
《圖像元數(shù)據(jù)規(guī)范》是國(guó)家文化部發(fā)布的一項(xiàng)文化行業(yè)標(biāo)準(zhǔn),由上海交通大學(xué)圖書(shū)館牽頭,聯(lián)合國(guó)家圖書(shū)館、浙江省圖書(shū)館和山西省圖書(shū)館牽頭制定。標(biāo)準(zhǔn)規(guī)定了圖像資源(包括所有原生和派生的圖像資源)的內(nèi)容和外觀描述,給出圖像資源定位與管理的一般性方法,適用于描述數(shù)字形態(tài)的圖像資源,包括22個(gè)元素和24個(gè)元素修飾詞,其中15個(gè)元素對(duì)應(yīng)DC核心元素,另外7個(gè)其他元素分別為出版地、版本、受眾、收藏機(jī)構(gòu)、背景、源載體和收藏歷史。由于15個(gè)對(duì)應(yīng)的DC核心元素已在表2進(jìn)行對(duì)比,這一部分就不再重復(fù)對(duì)比,只對(duì)4個(gè)數(shù)字圖像數(shù)據(jù)庫(kù)應(yīng)用《圖像元數(shù)據(jù)規(guī)范》中另外7個(gè)元數(shù)據(jù)元素情況進(jìn)行對(duì)照分析(見(jiàn)表3)。
表3 《圖像元數(shù)據(jù)規(guī)范》元數(shù)據(jù)元素在圖像數(shù)據(jù)庫(kù)中的應(yīng)用
這7個(gè)元素均不同程度地體現(xiàn)在4個(gè)圖像數(shù)據(jù)庫(kù)內(nèi):“背景”,作為圖像資源的特有元素,主要體現(xiàn)為圖像資源有關(guān)的責(zé)任者和其他相關(guān)人物的資料,這一元素適用于古籍插圖圖像數(shù)據(jù)庫(kù)中的“出處”,適用于中國(guó)新聞圖片網(wǎng)內(nèi)的“拍攝地址”;“受眾”,作為圖像資源的各類(lèi)實(shí)體,包括創(chuàng)建者、出版者等,不同類(lèi)型圖像數(shù)據(jù)庫(kù)的受眾也會(huì)有所不同,如圖蟲(chóng)圖庫(kù)的受眾更多為專(zhuān)業(yè)攝影師和攝影愛(ài)好者。
需要注意的是,《圖像元數(shù)據(jù)規(guī)范》是在DC的基礎(chǔ)上進(jìn)行設(shè)計(jì),其元素修飾詞相較DC有所補(bǔ)充,主要針對(duì)圖像資源的內(nèi)容特征進(jìn)行描述,一些核心元素的修飾詞對(duì)于圖像類(lèi)資源的描述更加精確。例如“格式”的元素修飾詞“篇幅”復(fù)用DC“大小”,如中國(guó)新聞圖片網(wǎng)內(nèi)的圖像“篇幅”不僅指圖像的尺寸大小,還包括圖像數(shù)量,明確表明每組圖有幾張圖像,以“組圖”的形式出現(xiàn),“格式”下還新增元素修飾詞“技術(shù)細(xì)節(jié)”描述數(shù)字圖像,表現(xiàn)圖片拍攝制作成電子文本所需的技術(shù)細(xì)節(jié)處理;“描述”的元素修飾詞“目次”復(fù)用DC“目錄”,作為資源內(nèi)容的子單元列表,在描述時(shí),幾乎適用于上述提到的所有數(shù)據(jù)庫(kù)內(nèi)的圖像,如圖蟲(chóng)圖庫(kù)內(nèi)“冬奧之約”板塊下的“單板滑雪”“雙板滑雪”“跳臺(tái)滑雪”等,“描述”下還新增元素修飾詞“風(fēng)格”,在4個(gè)圖像數(shù)據(jù)庫(kù)中均有體現(xiàn),如古籍插圖圖像數(shù)據(jù)庫(kù)內(nèi)風(fēng)景、建筑等圖像資源的內(nèi)容具有強(qiáng)烈鮮明的風(fēng)格特點(diǎn)。
3.2.2 《中文新聞圖片內(nèi)容描述元數(shù)據(jù)規(guī)范》
《中文新聞圖片內(nèi)容描述元數(shù)據(jù)規(guī)范》是2017年12月底正式發(fā)布的國(guó)家標(biāo)準(zhǔn),是世界范圍內(nèi)第一個(gè)以圖片視覺(jué)內(nèi)容和語(yǔ)義特征描述為主的圖片元數(shù)據(jù)規(guī)范,專(zhuān)業(yè)性強(qiáng)、結(jié)構(gòu)簡(jiǎn)明,具有較高的應(yīng)用價(jià)值。標(biāo)準(zhǔn)的主要內(nèi)容是對(duì)圖片元數(shù)據(jù)元素做出準(zhǔn)確定義,尤其突出對(duì)圖片視覺(jué)內(nèi)容特征和語(yǔ)義信息的描述。標(biāo)準(zhǔn)以編輯類(lèi)圖片和創(chuàng)意類(lèi)圖片為主要對(duì)象,定義了24個(gè)元數(shù)據(jù)元素,分別歸屬到公共元數(shù)據(jù)、新聞編輯類(lèi)圖片元數(shù)據(jù)和新聞創(chuàng)意類(lèi)圖片元數(shù)據(jù)3個(gè)部分。經(jīng)調(diào)研發(fā)現(xiàn),新聞編輯類(lèi)圖片元數(shù)據(jù)和新聞創(chuàng)意類(lèi)圖片元數(shù)據(jù)側(cè)重描述新聞圖像,對(duì)圖片類(lèi)型的指向性更強(qiáng),強(qiáng)調(diào)新聞的屬性。而圖蟲(chóng)圖庫(kù)、中藥材圖像數(shù)據(jù)庫(kù)和古籍插圖圖像數(shù)據(jù)庫(kù)中不包含新聞圖像,所以只對(duì)比分析公共元數(shù)據(jù)在4個(gè)圖像數(shù)據(jù)庫(kù)內(nèi)的具體應(yīng)用情況(見(jiàn)表4)。
表4 公共元數(shù)據(jù)元素在圖像數(shù)據(jù)庫(kù)中的應(yīng)用
由于公共元數(shù)據(jù)的“公共”特征,因此圖片標(biāo)識(shí)、篇幅、色彩、拍攝角度、被攝體方向等元素均體現(xiàn)在4個(gè)數(shù)字圖像數(shù)據(jù)庫(kù)中。從表4可見(jiàn),“景別”作為描述圖像的特寫(xiě)、近景、全景及人物身體部位的元素,在上述4個(gè)數(shù)字圖像數(shù)據(jù)庫(kù)中均有體現(xiàn),如中藥材圖像數(shù)據(jù)庫(kù)中的“山楂”藥材圖像對(duì)其果肉、果核、果梗和外皮進(jìn)行局部特寫(xiě)描述,圖蟲(chóng)圖庫(kù)內(nèi)對(duì)人物的“身體部位”進(jìn)行描述,如臉部、手、腰部。因此建議“景別”作為數(shù)字圖像元數(shù)據(jù)元素集的一項(xiàng)元素?cái)U(kuò)充其中;“情景”描述畫(huà)面中主要元素呈現(xiàn)出的情形和活動(dòng)信息,偏向于展示圖像的動(dòng)態(tài)信息,中藥材圖像數(shù)據(jù)庫(kù)主要是對(duì)于藥材進(jìn)行展示,圖像不涉及動(dòng)態(tài)的相關(guān)內(nèi)容,因此“情景”未在中藥材圖像數(shù)據(jù)庫(kù)進(jìn)行體現(xiàn),而其他3個(gè)數(shù)字圖像數(shù)據(jù)庫(kù)內(nèi)的圖像都不同程度地展現(xiàn)了圖像的畫(huà)面信息,如圖蟲(chóng)圖庫(kù)內(nèi)的“動(dòng)物捕食”圖像、古籍插圖圖像數(shù)據(jù)庫(kù)的“祭祀”圖像和中國(guó)新聞圖片網(wǎng)內(nèi)的“運(yùn)動(dòng)會(huì)”圖像都呈現(xiàn)了圖像內(nèi)主要元素的活動(dòng)情形。
新聞編輯類(lèi)圖片元數(shù)據(jù)和新聞創(chuàng)意類(lèi)圖片元數(shù)據(jù)強(qiáng)調(diào)新聞圖片的特有屬性,10個(gè)新聞編輯類(lèi)圖片元數(shù)據(jù)“標(biāo)題”“圖說(shuō)”“拍攝時(shí)間”“拍攝地”“人物姓名”“事件”“專(zhuān)題”“新聞分類(lèi)”“民族”“宗教”和4個(gè)新聞創(chuàng)意類(lèi)圖片元數(shù)據(jù)“人物信息”“畫(huà)面主體”“特定時(shí)間”“攝影技術(shù)”均在中國(guó)新聞圖片網(wǎng)內(nèi)有所體現(xiàn)。例如:“民族”和“宗教”兩項(xiàng)可以描述中國(guó)新聞圖片網(wǎng)站內(nèi)的“民族與宗教”板塊內(nèi)的新聞圖片;“圖說(shuō)”描述新聞圖片的創(chuàng)作背景,新聞事件的時(shí)間、地點(diǎn)和人物等,如中國(guó)新聞圖片網(wǎng)中的“河南增派中醫(yī)醫(yī)療隊(duì)馳援上海”這一新聞組圖的文字說(shuō)明——“4月12日,河南省增派75名隊(duì)員組成的中醫(yī)醫(yī)療隊(duì)馳援上海。醫(yī)療隊(duì)隊(duì)員分別來(lái)自河南省中醫(yī)院、河南中醫(yī)藥大學(xué)第三附屬醫(yī)院、河南省中醫(yī)藥研究院附屬醫(yī)院3家醫(yī)療機(jī)構(gòu),均為業(yè)務(wù)能力強(qiáng)的中青年骨干中醫(yī)醫(yī)師”,其中對(duì)圖像涉及的背景、時(shí)間和地點(diǎn)等元素均有介紹。
通過(guò)對(duì)3個(gè)元數(shù)據(jù)標(biāo)準(zhǔn)和4個(gè)圖像數(shù)據(jù)庫(kù)進(jìn)行對(duì)比可知,DC作為描述網(wǎng)絡(luò)資源的元數(shù)據(jù)標(biāo)準(zhǔn)在4個(gè)數(shù)據(jù)庫(kù)內(nèi)均有體現(xiàn),圖像類(lèi)資源元數(shù)據(jù)標(biāo)準(zhǔn)則根據(jù)圖像資源的不同特征在具體應(yīng)用過(guò)程中有所差異,《圖像元數(shù)據(jù)規(guī)范》適用于描述實(shí)物展示類(lèi)圖像、新聞紀(jì)實(shí)類(lèi)圖像和數(shù)字化提取類(lèi)圖像,而《中文新聞圖片內(nèi)容描述元數(shù)據(jù)規(guī)范》更具專(zhuān)指性,側(cè)重對(duì)新聞圖像描述,更適用于對(duì)新聞紀(jì)實(shí)類(lèi)圖像描述。因此本文結(jié)合具體圖像類(lèi)別的不同,參考借鑒不同類(lèi)型的圖像元數(shù)據(jù)標(biāo)準(zhǔn),在元數(shù)據(jù)標(biāo)準(zhǔn)和圖像數(shù)據(jù)庫(kù)具體實(shí)踐對(duì)比分析的基礎(chǔ)上,提出圖像數(shù)據(jù)庫(kù)元數(shù)據(jù)元素集的改進(jìn)建議。
通過(guò)調(diào)查實(shí)物展示類(lèi)圖像數(shù)據(jù)庫(kù)、新聞紀(jì)實(shí)類(lèi)圖像數(shù)據(jù)庫(kù)和數(shù)字化提取類(lèi)圖像數(shù)據(jù)庫(kù)中的元數(shù)據(jù)元素,將數(shù)據(jù)庫(kù)中圖像的元數(shù)據(jù)元素與數(shù)字資源元數(shù)據(jù)標(biāo)準(zhǔn)《都柏林核心元素集》和圖像類(lèi)資源元數(shù)據(jù)標(biāo)準(zhǔn)《圖像元數(shù)據(jù)規(guī)范》《中文新聞圖片內(nèi)容描述元數(shù)據(jù)規(guī)范》進(jìn)行對(duì)照分析,再根據(jù)圖像數(shù)據(jù)庫(kù)的圖像特點(diǎn),參考3個(gè)元數(shù)據(jù)標(biāo)準(zhǔn),共精煉出17個(gè)元數(shù)據(jù)元素和11個(gè)元素修飾詞。其中復(fù)用《都柏林核心元素集》的16個(gè)元數(shù)據(jù)元素和“摘要”“目次”“創(chuàng)建日期”“發(fā)布日期”“可獲日期”“篇幅”“載體”7個(gè)元素修飾詞;復(fù)用《圖像元數(shù)據(jù)規(guī)范》的“風(fēng)格”“技術(shù)細(xì)節(jié)”作為元素修飾詞;復(fù)用《中文新聞圖片內(nèi)容描述元數(shù)據(jù)規(guī)范》的“景別”作為元數(shù)據(jù)元素,“情景”“特定時(shí)間”作為元素修飾詞。
根據(jù)元數(shù)據(jù)在圖像數(shù)據(jù)庫(kù)中的具體應(yīng)用情況,將改進(jìn)的17個(gè)元數(shù)據(jù)元素劃分為3個(gè)基本檢索點(diǎn)、5個(gè)有價(jià)值的檢索點(diǎn)和9個(gè)輔助檢索點(diǎn)?!邦}名”“創(chuàng)建者”“主題”可作為基本檢索點(diǎn)進(jìn)行描述,用戶(hù)可以根據(jù)“題名”和“主題”進(jìn)行簡(jiǎn)單檢索,也可通過(guò)作者及拍攝者進(jìn)行檢索。有價(jià)值的檢索點(diǎn)包括:①“描述”,其元素修飾詞包括“摘要”和“風(fēng)格”,其中“摘要”是對(duì)圖像具體內(nèi)容的概括和總結(jié),“風(fēng)格”包括中國(guó)風(fēng)、表現(xiàn)主義和寫(xiě)實(shí)風(fēng)格等,例如中國(guó)風(fēng)就是圖像中較有特色的一個(gè)風(fēng)格,包含強(qiáng)烈鮮明的中國(guó)元素事物,可以對(duì)中國(guó)風(fēng)的服飾、陶瓷、圖畫(huà)等實(shí)物資源進(jìn)行描述;②“日期”,其中元素修飾詞“創(chuàng)建日期”和“發(fā)布日期”是圖像資源的必備元素,尤其新聞圖片的發(fā)布日期對(duì)新聞報(bào)道尤為重要,而“特定時(shí)間”(例如節(jié)氣、節(jié)日等)也是畫(huà)面內(nèi)容所表現(xiàn)的時(shí)間信息,且都強(qiáng)調(diào)新聞圖片的時(shí)效性和故事性,可作為圖片重要檢索點(diǎn);③“類(lèi)型”,圖像資源的特征或類(lèi)型,按照不同圖像主題檢索;④“格式”,包括圖像資源的媒體類(lèi)型和大小,如尺寸、像素等;⑤“覆蓋范圍”,圖像資源的覆蓋范圍包括時(shí)間范圍和空間范圍,時(shí)間范圍是圖像拍攝的時(shí)間間隔和日期,空間范圍可以涉及圖像資源的地名或地理坐標(biāo)。一些檢索點(diǎn)對(duì)于用戶(hù)檢索需求較少,可作為圖像資源的輔助元素,包括:①“出版者”,使資源可以獲得和利用的責(zé)任實(shí)體,主要指圖像資源的出版者或頒布者,包括個(gè)人與團(tuán)體,由個(gè)人或團(tuán)體的名稱(chēng)來(lái)表示;②“其他責(zé)任者”,對(duì)資源做出貢獻(xiàn)的其他責(zé)任實(shí)體;③“語(yǔ)種”,表達(dá)圖像資源內(nèi)容的語(yǔ)言;④“標(biāo)志符”,給予圖像資源的明確標(biāo)志;⑤“來(lái)源”,與當(dāng)前圖像來(lái)源有關(guān)的資源;⑥“權(quán)限”,指與圖像資源相關(guān)的各種產(chǎn)權(quán)說(shuō)明,記錄圖像資源的權(quán)限管理說(shuō)明等;⑦“關(guān)聯(lián)”,與圖像資源存在某種關(guān)系的其他資源,例如原格式圖像;⑧“受眾”,指利用圖像資源的各種實(shí)體,不同類(lèi)型圖像數(shù)據(jù)庫(kù)的受眾會(huì)有所區(qū)別;⑨“景別”,作為描述的近景、中景、全景及人物身體部位的元素。需要注意的是“受眾”這一元素復(fù)用于DC的非核心元素,其不包括于表2中15個(gè)核心元素內(nèi),將其擴(kuò)充進(jìn)圖像數(shù)據(jù)庫(kù)元數(shù)據(jù)元素集可以較之前更全面地描述數(shù)字圖像,從而完善圖像數(shù)據(jù)庫(kù)元數(shù)據(jù)元素集的構(gòu)建。
為推動(dòng)數(shù)字圖像類(lèi)數(shù)據(jù)庫(kù)的建設(shè),加強(qiáng)圖像資源的可發(fā)現(xiàn)性和可用性,需要一個(gè)更具有針對(duì)性,且與數(shù)字圖像實(shí)踐應(yīng)用緊密結(jié)合的標(biāo)準(zhǔn)。由于數(shù)字圖像元數(shù)據(jù)的組織和規(guī)范具有一定的復(fù)雜性,同時(shí)還受到各方面因素的制約,本文通過(guò)分析當(dāng)前相關(guān)圖像數(shù)據(jù)庫(kù)的建設(shè)現(xiàn)狀和數(shù)據(jù)特點(diǎn),根據(jù)現(xiàn)有國(guó)家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn),提出合理并且實(shí)用的元數(shù)據(jù)改進(jìn)方案,這對(duì)于整理數(shù)量龐大的圖像資源和提高圖像的檢索利用具有重要意義。需要注意的是,隨著技術(shù)的發(fā)展,圖像數(shù)據(jù)庫(kù)元數(shù)據(jù)元素集標(biāo)準(zhǔn)的建設(shè)也會(huì)是一個(gè)不斷完善的過(guò)程,當(dāng)前對(duì)于數(shù)字圖像元數(shù)據(jù)的描述需要進(jìn)一步合理規(guī)范,以保證數(shù)字圖像資源的保存和共享。