文/張 弛 黃 菁 張鵬洲 武國衛(wèi)
圖片內(nèi)容元數(shù)據(jù)體系研究與標準編制
文/張 弛 黃 菁 張鵬洲 武國衛(wèi)
圖片已經(jīng)成為連接媒體、品牌以及消費者的最高效的傳播媒介之一。圖片特征描述是圖片檢索、推薦和交換的重要基礎(chǔ)。基于當(dāng)前圖片應(yīng)用和圖片元數(shù)據(jù)標準的現(xiàn)狀分析,文章提出了著重描述圖片內(nèi)容和語義特征的圖片內(nèi)容元數(shù)據(jù)體系框架,并以此為基礎(chǔ)完成了國家標準《中文新聞圖片內(nèi)容描述元數(shù)據(jù)規(guī)范》的編制,填補了國內(nèi)圖片元數(shù)據(jù)標準的空白,有助于提高圖片標注效率和質(zhì)量,更好地滿足圖片獲取和交易交換的需要。
元數(shù)據(jù);圖片內(nèi)容元數(shù)據(jù);國家標準
圖片在新聞、出版、廣告、營銷等各領(lǐng)域扮演著重要角色。尤其在融合媒體不斷發(fā)展的背景下,圖片憑借其信息量大、視覺吸引力強、數(shù)據(jù)量小等優(yōu)勢,在兩微一端應(yīng)用、精品內(nèi)容生產(chǎn)等方面發(fā)揮越來越大的作用。發(fā)現(xiàn)和獲取高質(zhì)量圖片是圖片應(yīng)用的核心環(huán)節(jié),圖片特征表示是支撐這一核心環(huán)節(jié)的基石。圖像視覺特征自動提取技術(shù)不斷取得進步,近年來深度學(xué)習(xí)技術(shù)在手寫體字符識別、人臉識別、以圖搜圖、圖像分割等圖像處理領(lǐng)域取得了突破性進展[1]。另一方面,基于文本的圖片元數(shù)據(jù)仍然是圖片特征描述的主要手段,隨著文本處理和自然語言處理技術(shù)的不斷發(fā)展,其研究與應(yīng)用具有廣闊的發(fā)展空間。
《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》指出,移動互聯(lián)網(wǎng)主導(dǎo)地位不斷強化,以即時通信、搜索引擎、網(wǎng)絡(luò)新聞為代表的基礎(chǔ)互聯(lián)網(wǎng)應(yīng)用用戶規(guī)模趨于穩(wěn)定,提供精準優(yōu)質(zhì)內(nèi)容服務(wù)為重點方向[2]。圖片成為提供精準優(yōu)質(zhì)內(nèi)容不可或缺的最高效的傳輸媒介,微信朋友圈每日上傳圖片超過10億張,視覺中國圖片庫擁有編輯類圖片超過1.4億張,每天新增超過20000張,個人、商業(yè)和媒體機構(gòu)等擁有的各類圖片庫規(guī)模也在不斷增長。
圖片需要被發(fā)現(xiàn)和流轉(zhuǎn)才能發(fā)揮價值,這要求圖片要能被較好地描述和存儲。針對圖片元數(shù)據(jù)應(yīng)用現(xiàn)狀,筆者對國內(nèi)多家大規(guī)模商業(yè)圖片庫和媒體機構(gòu)圖庫進行了實地調(diào)研。調(diào)研發(fā)現(xiàn):(1)隨著圖片數(shù)量增長和流動速度加快,圖片檢索的難度也越來越大;(2)現(xiàn)有圖片元數(shù)據(jù)標準不能很好滿足圖片標引和檢索的需要,尤其缺乏與內(nèi)容語義相關(guān)的元數(shù)據(jù);(3)圖片標引現(xiàn)狀較為混亂,元數(shù)據(jù)標準不統(tǒng)一,自定義的私有元數(shù)據(jù)情況非常普遍、標引過程缺乏質(zhì)量控制機制等;(4)對統(tǒng)一的圖片元數(shù)據(jù)規(guī)范的需求迫切。
由此,本文提出了一種面向圖片主題和內(nèi)容語義描述的圖片內(nèi)容元數(shù)據(jù)體系,加強標注內(nèi)容語義完整性,提高標注規(guī)范性和標注結(jié)果的兼容性和一致性,并以此為基礎(chǔ),完成了國家標準《中文新聞圖片內(nèi)容描述元數(shù)據(jù)規(guī)范》的編制。
對圖片應(yīng)用、構(gòu)圖和編輯的研究,從不同角度加深對圖片的理解,是構(gòu)建圖片內(nèi)容元數(shù)據(jù)體系的重要基礎(chǔ)。
目前主流的圖片庫大致分為以下幾種類型。一是大型綜合商業(yè)圖片庫,如視覺中國、東方IC等,擁有大量專業(yè)簽約攝影師,主要為機構(gòu)用戶提供高質(zhì)量的編輯類圖片、創(chuàng)意類圖片和微視頻資源等。二是媒體機構(gòu)圖片庫,如中國全球圖片總匯以及各大報社圖片庫等,以編輯類圖片為主,擁有各自的優(yōu)勢資源。三是提供各類設(shè)計素材的圖庫,如全景網(wǎng)、壹圖網(wǎng)、昵圖網(wǎng)、懶人圖庫、拍信等。四是聚焦垂直領(lǐng)域,如電商、汽車、地理、攝影、網(wǎng)頁素材等。此外還有以個人分享交流為重心的社交類圖片庫等。無論是哪一類圖片庫,重中之重是充當(dāng)好連接圖片創(chuàng)作者和消費者之間的橋梁。而發(fā)現(xiàn)圖片是這架橋梁的價值體現(xiàn)。
通過對代表性圖片庫系統(tǒng)的對比分析,圖片檢索功能主要可分為以下幾種:
關(guān)鍵詞檢索:應(yīng)用普遍,一般與圖片主題、畫面事物、人物、地點、事件的相關(guān)度較高。
按類別檢索:類別劃分區(qū)別較大。除了常規(guī)意義的知識領(lǐng)域分類法外,基于標簽的淺層化的圖片主題分類被越來越多地采用。
專題事件檢索:廣泛應(yīng)用于新聞圖片組織和查詢。
圖片屬性篩選:提高圖片檢索準確率,有助于快速定位圖片。常用屬性包括:圖片來源(個人/機構(gòu))、是否授權(quán)、色彩、尺寸、片幅/畫幅、人物信息(人數(shù)、年齡、性別、種族)、畫面背景等。
圖片推薦:主要有熱門推薦、編輯推薦、相似推薦、個性化推薦等。
精細化檢索:主要實現(xiàn)方式有:在結(jié)果中檢索;對上次檢索結(jié)果集合中圖片所標注的標簽進行統(tǒng)計倒排,供用戶點選;相關(guān)標簽推薦。
通過對圖片檢索功能的分析總結(jié)發(fā)現(xiàn):
(1)使用文字來查找圖片仍然是圖片檢索的最主要方式。關(guān)鍵詞、圖片類別、專題事件、檢索過濾用的圖片屬性,甚至圖片推薦,都離不開文字標注信息。
(2)圖片特征描述的維度數(shù)量越來越多。強化圖片特征描述,增加維度、提高精度(例如由簡單的圖說細化為主題詞列表等),彌補傳統(tǒng)圖片編目屬性數(shù)量少的不足,以更好地適應(yīng)從海量圖片中快速定位到目標圖片的客觀需求。
(3)現(xiàn)有圖片元數(shù)據(jù)標準未較好滿足實際應(yīng)用需要,普遍存在自定義私有圖片元數(shù)據(jù)項的情況。有些是共性需求,有些是個性化需要。
(4)圖片內(nèi)容和語義特征的價值凸顯。畫面內(nèi)容、表現(xiàn)形式和主題概念,是圖片的靈魂。幾乎所有圖片檢索功能都與圖片內(nèi)容有關(guān)。
構(gòu)圖是指將現(xiàn)實生活中的物體利用視覺特征,再現(xiàn)到二維空間內(nèi),通過畫面構(gòu)造傳達闡釋更多的信息,反映作者對事物的認識和感情,并具有突出主體、吸引視線、簡化雜亂、使畫面和諧均衡等作用。構(gòu)圖強調(diào)如何把人、景、物等安排在畫面中以獲得最佳布局,在形式美方面訴諸于視覺的點、線、形態(tài)、用光、色彩等的配合。構(gòu)圖的目的是傳達信息、表達主題以及創(chuàng)作者的認知和感情。
從構(gòu)圖的角度來看,一幅畫面主要包括主體、陪體和環(huán)境三部分。主體是畫面的主要表現(xiàn)對象,往往是畫面的結(jié)構(gòu)中心和視覺中心。陪體是指在與主體構(gòu)成一定的情節(jié),幫助表達主體的特征和內(nèi)涵的對象。環(huán)境分為前景和背景,對主體和情節(jié)起烘托作用。處理好主體、陪體和環(huán)境的關(guān)系是表達主題和圖片質(zhì)量評價的關(guān)鍵。此外,用光、影調(diào)、攝影技巧等在圖片創(chuàng)作中不可或缺。
1.3.1 報道攝影
《圖片編輯手冊》[3]中明確界定了報道攝影(Photojournalism),即媒體上圖片與文字相結(jié)合的報道形式,它涵蓋媒體中出現(xiàn)的多種形式的攝影報道。創(chuàng)意攝影、特寫新聞報道屬于報道攝影的不同表現(xiàn)形式,報道攝影有別于宣傳攝影(公關(guān)攝影)和畫意攝影,形象性和新聞性是報道攝影的兩大特性。
優(yōu)秀的報道攝影應(yīng)具備歷史價值、社會價值、心理作用和美學(xué)價值。一張照片帶給讀者的不僅是視覺內(nèi)容本身,還包含通過視覺內(nèi)容所表現(xiàn)出的主題、視覺美感或沖擊、情感、意境等隱含信息。
1.3.2 照片評價
新聞?wù)掌缙诘脑u判標準是“新、真、活、情、意”。隨著傳媒的不斷發(fā)展,對于報道攝影圖片的評價標準也演變?yōu)榧夹g(shù)標準、信息傳遞、美學(xué)標準、傳播效果。技術(shù)標準(包括曝光、色溫、景深、焦點等)為基礎(chǔ),關(guān)注照片傳遞語義信息是否準確豐富,更關(guān)注傳播效果的好壞(從內(nèi)容到形式都對傳播效果有重要影響)。
1.3.3 照片說明寫作
圖片說明要對圖片中容易被察覺的事物和不容易察覺但較重要和有趣的細節(jié)予以說明,同時避免傾向性和主觀評價。單幅照片說明大多用兩句話完成。第一句講畫面上正在發(fā)生什么,交代時間、地點、人物和簡單事件描述;第二句講相關(guān)背景。組圖說明寫作方法包括直接說明事件信息、從事件多個側(cè)面中選擇、突出事件背景介紹等。一般而言,單圖說明側(cè)重點明人物、場景和正在發(fā)生什么,組圖說明側(cè)重背景介紹和深入細致描寫。
由此可見,不論是報道攝影特征、照片評價標準,還是照片說明,關(guān)注的都不僅僅是畫面自身的視覺內(nèi)容,所以從技術(shù)、美學(xué)、事件、背景、重要細節(jié)等多維度來實現(xiàn)多方位、立體式的圖片特征描述具有重要意義。
元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù)。在數(shù)字圖書館領(lǐng)域,元數(shù)據(jù)被分為描述型、管理型和結(jié)構(gòu)型三類?!禝PTC Photo Metadata》[4]作為權(quán)威的圖片元數(shù)據(jù)標準在國際上得到廣泛采用,它將圖片元數(shù)據(jù)劃分為描述(Descriptive)和技術(shù)(Technical)兩類。本文基于語義抽象程度將圖片元數(shù)據(jù)劃分為物理層、邏輯層、內(nèi)容層和主題層,如圖1所示。
圖1 圖片元數(shù)據(jù)層級劃分
物理層元數(shù)據(jù)主要包括數(shù)字圖片文件的相關(guān)屬性、圖片拍攝時的技術(shù)參數(shù)信息和圖片底層視覺特征。邏輯層元數(shù)據(jù)包括圖片自身應(yīng)用屬性和授權(quán)信息等。內(nèi)容層和主題層在物理層和邏輯層之上,主要描述圖片所呈現(xiàn)出的畫面內(nèi)容和主題信息,其中內(nèi)容層側(cè)重畫面所見事物,主題層側(cè)重于通過畫面內(nèi)容所表達出的概念和思想。
對上述四層進一步歸類,將物理層和邏輯層統(tǒng)稱為屬性元數(shù)據(jù),內(nèi)容層和主題層統(tǒng)稱為內(nèi)容元數(shù)據(jù)。本文針對后者提出了圖片內(nèi)容元數(shù)據(jù)體系。
《IPTC Photo Metadata》聚焦圖片描述元數(shù)據(jù),主要涉及邏輯層、內(nèi)容層元數(shù)據(jù),先后發(fā)布了多個版本,元數(shù)據(jù)間缺乏結(jié)構(gòu)關(guān)系,并且未涉及主題層元數(shù)據(jù)。EXIF圖片標準主要側(cè)重圖片物理層元數(shù)據(jù)。《中文新聞信息置標語言》[5]主要面向新聞稿件,對圖片特征描述未作細化的規(guī)約。再結(jié)合前文的分析可見,構(gòu)建面向圖片內(nèi)容和語義的圖片元數(shù)據(jù)體系和編制標準規(guī)范在圖片應(yīng)用、圖片特性、現(xiàn)實情況等多方面都是需要的,具有重要應(yīng)用價值。
如何界定圖片內(nèi)容?看到一張圖片后,讀者直觀感受到的畫面中的事物、色彩、構(gòu)圖等屬于圖片內(nèi)容范疇,同時這些視覺信息使讀者感受、聯(lián)想、體會到的意境、思想、情感等也是圖片內(nèi)容的重要組成部分。
如何描述圖片內(nèi)容?以本文“研究基礎(chǔ)”部分所述為基礎(chǔ),采用自底向上和自頂向下相結(jié)合的思路,最終形成三位一體的體系結(jié)構(gòu)。
圖片內(nèi)容元數(shù)據(jù)包括形、技、意三個方面?!靶巍笔且曈X表現(xiàn),“技”是創(chuàng)作手法,“意”是圖片主題和靈魂?!靶巍焙汀凹肌睘椤耙狻狈?wù),“意”通過“形”和“技”來表達,三者不是相互孤立的,而是相輔相成、相互融合而成為一個有機整體。
具體而言,“形”是指一幅畫面中的主要事物及其特征、環(huán)境信息等?!凹肌笔侵刚掌臄z技術(shù)有關(guān)的信息?!耙狻笔侵笀D片主題、語義以及圖片所屬知識領(lǐng)域分類等信息。三個維度包含若干個子維度,如圖2所示。因大多維度可以顧名思義,所以在此不對每個維度的具體含義作展開說明。
圖2 圖片內(nèi)容元數(shù)據(jù)體系
《中文新聞圖片內(nèi)容描述元數(shù)據(jù)規(guī)范》于2014年9月獲得國家標準委批準立項,筆者作為項目組成員,主要負責(zé)標準文檔的起草編制工作。標準編制得到了來自標準研制機構(gòu)、媒體機構(gòu)、商業(yè)圖片庫、學(xué)術(shù)組織、相關(guān)科技公司等多位標準領(lǐng)域和圖片領(lǐng)域?qū)<业拇罅χС趾椭笇?dǎo)。本標準在圖片內(nèi)容元數(shù)據(jù)體系的基礎(chǔ)上,經(jīng)過反復(fù)調(diào)研、撰寫、評審、反饋、修改,目前已完成報批稿上報國家標準委。
(1)適用性。以滿足業(yè)務(wù)需求為出發(fā)點,突出內(nèi)容語義特征描述,減少層級,提高標注時采用受控詞表的比例。
(2)協(xié)調(diào)性。對與已有相關(guān)標準中含義相同或相近的元數(shù)據(jù)元素采用了一致的命名,避免在多個標準應(yīng)用過程中的混淆。
(3)專業(yè)性。面向圖片內(nèi)容和語義特征描述,元數(shù)據(jù)元素主要圍繞視覺內(nèi)容、主題概念、拍攝技術(shù)三個角度,有多位領(lǐng)域?qū)<业木唧w指導(dǎo)。
《中文新聞圖片內(nèi)容描述元數(shù)據(jù)規(guī)范》從新聞編輯用圖和創(chuàng)意配圖兩個應(yīng)用角度定義了中文新聞圖片內(nèi)容和語義特征描述的元數(shù)據(jù)元素集合,適用于圖片數(shù)據(jù)的采集、編輯、存儲、發(fā)布、檢索、交換等處理環(huán)節(jié)。
元數(shù)據(jù)元素集合分為三個部分:公共元數(shù)據(jù)、新聞編輯類圖片元數(shù)據(jù)、新聞創(chuàng)意類圖片元數(shù)據(jù),共包括40個元數(shù)據(jù)元素。其中“人物信息”和“攝影技術(shù)”包含二級元素。如圖3所示。
圖3 《中文新聞圖片內(nèi)容描述元數(shù)據(jù)規(guī)范》元數(shù)據(jù)集合
對比圖2和圖3可發(fā)現(xiàn),標準中增加幾個邏輯層元數(shù)據(jù)元素,如標題、圖說、拍攝時間、拍攝地和標識。實際應(yīng)用中這幾項是必選的,增加的目的是為了應(yīng)用方便。公共元數(shù)據(jù)部分的元數(shù)據(jù)元素是對應(yīng)到所有類別圖片的,所以將片幅、色彩、景別等從“攝影技術(shù)”元素中取出納入到公共元數(shù)據(jù)部分。
標準中規(guī)定的必填項為8個,集中在公共和編輯類圖片元數(shù)據(jù)部分。標準中給出了22個受控詞表,用于20個元數(shù)據(jù)元素標注。元數(shù)據(jù)的詳細定義說明等內(nèi)容詳見標準正文。
3.3.1 標注時注重規(guī)范性
基于受控詞表有助于提高標注的準確性和一致性,標準支持受控詞表擴展。對于自由文本標注的元數(shù)據(jù)元素,在實際標注時也建議自定義標注規(guī)范。
3.3.2 標注時注重完整性
標準中規(guī)定為必填項的元數(shù)據(jù)元素較少,更好地滿足要求圖片快速發(fā)布的需要。建議采用多級標注方式,粗粒度和細粒度標注相結(jié)合。此外,應(yīng)用中可細化對某些元數(shù)據(jù)元素的標注要求,例如“畫面主體”,對于時尚類圖片的“品牌”和動物圖片的“品種”等可增設(shè)二級元數(shù)據(jù)。
3.3.3 自動標注與人工標注相結(jié)合
利用計算機圖像處理技術(shù),實現(xiàn)如“色彩”“人數(shù)”“色調(diào)”“影調(diào)”等的自動標注。從圖片描述文字中自動提取關(guān)鍵詞,有助于提高對“主題”“地點”“時間”等維度的標注效率。
標準編制的基本目標是更好地滿足圖片檢索和交換的需要。圖片多維度標注的結(jié)果集合也是圖片內(nèi)容分析、資源關(guān)聯(lián)和聚合、相似圖片推薦等的重要基礎(chǔ)。
圖片內(nèi)容元數(shù)據(jù)體系從形、技、意三個維度建立內(nèi)容和語義特征描述框架,以此為基礎(chǔ)編制了《中文新聞圖片內(nèi)容描述元數(shù)據(jù)規(guī)范》,符合實際應(yīng)用需要和圖片自身特性的要求。標準中未涉及圖片版權(quán)的元數(shù)據(jù)定義,原因在于圖片版權(quán)與圖片內(nèi)容相關(guān)度不高,建議在圖片應(yīng)用中直接參照現(xiàn)有版權(quán)相關(guān)標準執(zhí)行。
圖片內(nèi)容特征描述在圖片應(yīng)用中具有重要作用。以深度學(xué)習(xí)為代表的計算機視覺處理技術(shù)不斷取得突破性進步,如何基于文本的圖片特征描述與自動處理技術(shù)深度結(jié)合以更好地滿足多場景下的圖片業(yè)務(wù)需求是具有重要研究和應(yīng)用價值的課題。
[1]劉建偉,劉源,羅雄麟. 深度學(xué)習(xí)研究進展. 計算機應(yīng)用研究. 第31卷第7期. 2014.7.
[2]中國互聯(lián)網(wǎng)絡(luò)信息中心.第40次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告. 2017(7).
[3]任悅,曾璜編著.圖片編輯手冊(第四版). 中國攝影出版社. 2015(9).
[4]IPTC Photo Metadata Standard. http://www.iptc.org/std/photometadata/specification /IPTC-PhotoMetadata.
[5]全國中文新聞信息標準化技術(shù)委員會. 國家標準GB/T 2009-2013《中文新聞信息置標語言》.
G203
A
1671-0134(2017)11-081-04
10.19483/j.cnki.11-4653/n.2017.11.026
新華社通信技術(shù)局)