陳 斌
(杭州圖書館)
在三墩讀書中心跨媒體實驗平臺開展的圖像文獻語義研究項目現已進入第二期,本期的主題是:語義描述與圖像組織的新技法,屬語義形態(tài)的特征研究范疇。目的是提升圖像檢索可視粒度的穩(wěn)定性和圖像檢索質量的系統(tǒng)性(一項解決圖像傳遞和檢索的重大攻關課題)?;ヂ?lián)網時代,數字圖像資源有容量較大、色彩形式多樣、內容豐富的特點,在網絡或數據庫中的圖像資源集中在資源池,通過檢索功能推送至用戶界面。
2017年底,筆者在中國知識資源總庫、萬方數據庫知識服務平臺、維普期刊資源整合服務平臺進行檢索,通過“跨媒體圖像”not(-)“跨媒體檢索”,得到關于跨媒體圖像語義服務研究的成果1項;通過“跨媒體圖像”or(+)“跨媒體圖像檢索”,得到有關跨媒體圖像的成果6項、有關跨媒體圖像檢索的成果3項;通過“跨媒體圖像檢索”or“跨媒體語義”,得到有關跨媒體檢索的成果59項、有關跨媒體語義(服務)的成果12項;通過“圖像檢索”and(*)“圖像語義”,得到交叉和邊緣有關圖像檢索和圖像語義服務共7,770項??梢?,雖然跨媒體圖像語義源自于媒體圖像和圖像檢索的系統(tǒng)方法,但目前對跨媒體圖像語義的研究還較匱乏。
國內關于跨媒體圖像或圖像語義服務的前期研究成果主要有:欒悉道提出了基于概念分布的圖像語義標注與檢索方法,用戶可通過提交概念所在大概位置信息快速查找出與檢索意圖相近的圖像,但該設計只實現了圖像語義標注與檢索系統(tǒng)在相似性上匹配,需加強文本語言的算法;[1]金大衛(wèi)對圖像固有的顏色、紋理、形狀等特征進行自動識別,改進了傳統(tǒng)的圖像檢索技術,認為在圖像的語義空間中還包含隱藏語義特征,并依照向量空間模型方法對特征文本文件建立結構模型。[2]
跨媒體圖像語義的形態(tài)特征對跨庫平臺的圖像搜索程度造成了一定的干擾影響。石躍祥通過衡量圖像之間的相似程度來實現檢索,使用的各種方法都利用了圖像本身客觀性質的特點,但在實現過程中也出現了困惑:不大需要人為地解釋與干預,應用的自動化程度較高,但也存在著檢索精度不夠準確和應用領域較為局限的缺點。[3]楊珺在保持分類能力不變的情況下極大地縮減圖像特征向量的個數,去除了與語義判斷無關的視覺特征,實現了圖像視覺特征到高層語義的映射。[4]王華秋提出新的機器學習方法以及如何有效地將機器學習技術融入語義映射之中,并認為實現高效的語義映射仍會是今后一段時間的研究熱點。[5]
筆者進一步分析發(fā)現,我國學者在研究圖像語義和檢索時,基本上是圍繞圖像語義層、底層視覺特征、高層語義映射、語義描述和聚類、語義向量模型等語義技術展開的,對圖像語義的不同媒介屬性的把握不夠。圖像檢索的視覺特征就是圖像聚類相似度和錯誤匹配之間精確性的提取關系。圖像媒體基礎分布狀態(tài)的處理方法為:① 厘清在檢索結果中可能存在的不相關圖像;② 用戶檢索反饋時的圖像語義參數遺落在哪個推送環(huán)節(jié),此環(huán)節(jié)對下一輪映射有無特征提取、圖像分割的變化,或在某個聚類分布單元組圖像抽取的其他細節(jié)來識別圖像的相似性;③ 語義類和映射對象均指向高層語義,可擴展性語義與跨媒體技術結合會不會對圖像產生自動語義標注;④ 依賴型和學習型是其兩大特點,語義映射需通過多特征關聯(lián)的聚類分析才得以完美析出,這就需要在圖像語義處理模式方面增加基于人工智能識別技術的情感對話,補充心理學、認知科學、生物仿真視覺等訓練分布層的語義框架模型。
從21世紀初開始,基于內容的圖像檢索(Content-based image retrieval,CBIR)技術被提上研究日程,催生了信息資源整合技術,進而拓寬到信息資源應用領域和最大化挖掘信息價值的管理過程。[6]圖像資源的整合是為了更好地管理圖像信息資源,而信息資源特征的“分散孤立”是為了更好地實施信息推送(服務)。從用戶角度來說,精準資源才是最好的資源,用戶概念性檢索要求的提出,有力避免了出現圖像信息組織的服務悖論。
大多數用戶依靠自身的認知水平去理解怎樣“檢索”圖像信息,檢索的結果是指令式的標簽定位。我們把用戶群分為準專業(yè)型和業(yè)余型,其中業(yè)余型用戶群所占比例達到總遠程用戶群的80%左右。準專業(yè)型用戶群懂知識、能描述、會分析;業(yè)余型用戶群不懂描述、不會分析,只是運用檢索通道來獲取真實的、準確的、不帶任何泛在“欺騙性”的唯一圖像信息。我們說,能夠描述出需要圖像信息的用戶同時是具備對圖像整體把握和先驗的,這類用戶獲取圖像信息的途徑與圖像的元描述基本一致,而業(yè)余型用戶群也期望通過“無法描述”的檢索通道獲取精準的圖像資源。
對圖像資源采取組織、管理手段,既是為了提高檢索質量,又是為了滿足廣大用戶的真實所需,摒除“類似”“相似”“聯(lián)系”的查全率。我們要解決的是如何為廣大用戶群獲取“親和”的檢索資源,讓圖像資源真正為用戶所用。因此,建立面向用戶的跨媒體圖像組織管理體系,通過語義技術、語法語言描述、分類組織與主題標引、圖像集成方法及數據組織等手段,以藝術圖像為視角提高查準率,是本課題的研究方向。
跨媒體藝術圖像檢索是新型數字圖像文獻信息檢索技術,它可以實現文本圖像對圖形圖像的跨媒體互操作,凈化圖像語義形態(tài)擴展的真實關聯(lián)數據的穩(wěn)定性形態(tài)特征,活躍Web 5.0的鏈接能力。語義統(tǒng)一是消解異構性和多義性的知識語言,對圖像資源庫響應可靠、真實的請求結果后返回給檢索用戶。語義關系網絡是組織圖像檢索參數的應用系統(tǒng),搜索引擎能實現對圖像文本的自動分類、聚合、標引等語言處理,但暫無情感語言(Emotional Language)的判斷能力,即語義描述的智能化能力??缑襟w圖像語義新技法憑借解析智慧語義的功能走在國內相關研究的前沿。
改善數據的疊加分布狀態(tài),提高圖像信息檢索正確率,充分施展檢索內容的“有用性”,關鍵是增強檢索技術的組織結構。針對目標源和上下文關系,優(yōu)化XML標準標記語言的語義描述,將成為解決數據差異性和不確定性的格式工具(見圖1)。[7]
圖1 跨媒體語義描述標準格式拓展模型
語義技術對語言進行智能化處理,語義層負責處理自然語言,RDF和XML均提供語義描述框架中的結構關系,真正解析出圖像語言之間的推理還需上升到本體層的一個可描述框架中。本體層的可視化技術與跨媒體圖像技術相結合,有利于用戶對圖像識別作出穩(wěn)定的判斷。主題描述揭示圖像的基本特征組織圖像的內涵、特點、結構類型,建立在自然語言之上,并滿足要素檢索。早年,我們以信息關聯(lián)性來揭示圖像之間的相互關系,隨著大數據的不斷膨脹,關聯(lián)性可用于圖像組織,但用于檢索推送就顯得“不友好”,語義識別達不到檢索用戶的期望需求。
圖像文獻語義研究項目的第一期實驗討論跨媒體圖像語義的分布形態(tài),RDF有高語義和高分布性特點,提及XML的語法序列化問題:語義分布和語義數位點對點的關系。臺灣大學典藏數位化計劃項目采用DARCI工具進行架構,該工具在元數據收割時保存了原始數據的映射,與DC有良好的共融性,在圖像數據轉化和整合方面更顯透明,是目前相關機構圖像資源館藏、中長期數字化保存、元數據組織和管理的較為理想的檢索工具。
語義關聯(lián)平臺對XAM圖像元數據映射的共融局限性的表達是圖像元數據在數據特征選取上的相似度對應關系,潛隱的相似映射關系提取單位媒體流特征后進行融合分析(Fusion analysis),并同步相似對象,限制圖像數據之間模態(tài)挖掘的關聯(lián)度(見圖2)。
圖2 圖像元數據映射的共融關系局限
每一種圖像的成像自帶有元數據,元數據是對數字化信息進行框架組織的依據型數據。可用于圖像描述、分類、加工、組織、管理和推送的元數據類型有描述型元數據、技術型元數據、管理型元數據,不同類型元數據的側重點也不同。在元數據種類中能較好支持圖像檢索的是DC元數據和METS元數據,目前在圖書館界廣泛應用的是MARC和MODS。DC是都柏林核心元素集委員會的龍頭產品,其內容描述與外形描述對RDF來說,具有語義上的互操作性。METS是元數據編碼與傳輸標準,結合XML進行圖文編碼標識,與DC的復雜模式DCMI一樣,均在元數據結構方面表現良好,允許可擴展性元素充分擴展,為圖像的語義描述和形象定義打下結構化的映射基礎。
由于圖像本身含有十分復雜的特征描述,每項特征可以視為一元數據,如果我們從更高的語義層次揭示不同數據之間的聯(lián)系,并建立起映射連通關系,那么在映射過程中又導出了另一種含義:圖像內容的特征揭示,即圖像的數字化數據利用HTML標記語言對映射對象起到穩(wěn)定的復雜對接作用。在第一期實驗中,我們認為跨媒體圖像在多次語義描述和筆畫匹配環(huán)境產生記錄標識的元數據格式,新生成的數據具有較為穩(wěn)定的靶向目標,這里的靶向指的是對檢索而言的映射關系,元數據則提供數據存取、鏈接的本體框架。圖像資源有其自身的分布空間作為語義空間,通過檢索能夠使具有相似語義的圖像數據形成關聯(lián)。圖像數據在元數據關系空間里完成映射,純粹的結構化框架已無法利用特征提取技術來提供最優(yōu)的檢索結果。
跨媒體圖像由多維多模形態(tài)的數據組成,語義鴻溝跨度大,不同類型的圖像數據在語義層面上統(tǒng)一,使不同形態(tài)的圖像表達同一語義指向??缑襟w圖像組織技法主要利用語義的組織方法將不同圖像的媒體特征予以精準重塑,提高查準率。
跨媒體圖像是重要的媒體數據之一,圖像檢索統(tǒng)一在邏輯框架中體現描述性數據語言。圖像語義能形象地表述不同圖像之間的特征關系,通過語義描述、信號處理、機器學習、感知推理、演繹分析等環(huán)節(jié),在不同圖像媒體之間抓取用戶提交的查詢對象(語言、文字、行為表達),得到較為精準的圖像數據。
隨著人們文化需求的日益增長,媒體圖像信息資源占據了互聯(lián)網總資源的60%以上。每日新增和更新的圖像數據達到0.2TB。在如此多元的數字環(huán)境下,對圖像進行有效檢索還未能完全實現,資源利用效果缺乏精準和真實。圖像基礎檢索一般經歷六個過程:用戶請求→圖像抓取→特征提取→多維數據分割解析→多因素識別→反饋推送,即便如此,無序或錯誤的圖像仍然充斥著互聯(lián)網。傳統(tǒng)索引語義歸類方法只能分類對象,不能理解對象,甚至會出現圖像語義鴻溝沖突。而多內容矩陣映射可消除不同圖像之間的內容鴻溝。
我們已經熟悉了圖像檢索是相似度匹配的聚類關聯(lián)和動態(tài)分布排序后的查詢反饋,反饋結果視為自動生成的較高關聯(lián)度特征的圖像,但不排除非準確圖像和真實檢索圖像。在藝術美學領域,Colombo等通過研究如何獲取藝術圖像的情感語義,建立了一系列映射規(guī)則,用以判斷藝術圖像傳達的情感。[8]圖像在從低層特征描述向高層語義轉化過程中,會遇到語義鴻溝和特征匹配失敗的情況,這時圖像本體語義提取與外部響應語義提取就要用標引編碼來交互和識別。
數據的動態(tài)表達是人為干預的結果。修改和刪除使原始文本處于網絡傳輸的邊緣,有價值的真本圖像隨即消失,殘留字符又影響正常數字信息傳遞的軌道。數據庫有識別指令的功能,但沒有識別指令情感真實與否的功能。[7]為了完善語義層次上的互操作功能,RDF以豐富的語義料為內容,實現不同領域、多語義的元數據信息交換。如,當一位用戶想查詢《富春山居圖》原圖圖像時,RDF的建??杀磉_為:
經上述,仿制或偽造的《富春山居圖》數據不應該出現在用戶的終端檢索界面上。RDF可提高核心約束機制定義圖像之間的關系;XML關心圖像結構,與RDF互為描述上的補充關系,RDF通過XML語法化來描述RDF的語法功能。從20世紀40年代的機器翻譯到現今的機器學習,自然語言的處理方法經歷了詞義分析、詞素抽取、分類標引和機器算法等自然語言處理技術的階段性過程。
圖3是以檢索《富春山居圖》為例的跨媒體語義特征提取標簽模型。
圖3 跨媒體語義特征提取標簽模型
通過模型可以發(fā)現,圖像文本種類以百目單位記憶,由用戶提交的描述對其先驗特征融合度進行掃描,分配給不同類型的映射層。在形態(tài)特征等多模語義描述析出關聯(lián)度,對圖像“單元數據分布回應點”的進行智能排列,語義描述進一步改變結構走勢,圖像的特征值有孩子(父節(jié)點的孩子;形體、顏色、紋理、空間等關系特征的數據樹也有孩子節(jié)點)的變換形態(tài)排序,跨媒體返回式節(jié)點應答聚焦了正確的相關點,推離不相關點,低層數據資源層的語義分布矩陣的集合組織方法可提高查準率。圖像之間有高度的特征相似度和形態(tài)概念,圖像分割模塊區(qū)域雖近似,但有其語法可尋,可擴展語義標注提高了識別圖像的算法。如:語義標引“淡墨過渡”“前密后疏”標準化專業(yè)術語,不具備此特征的圖像不能映射,亦不能進入用戶檢索反饋結果,只能作為后期的視覺分組訓練學習。特征要素正確的圖像克服遮影、光亮、角度等影響問題后又與原圖匹配,傳送準確的圖像,無關特征圖像或偽圖像不在檢索界面出現。
通過上述的跨媒體圖像檢索新組織方法實驗,發(fā)現在圖像檢索領域仍有十分廣大的研究和發(fā)展空間?;谡Z義描述的圖像檢索從用戶的角度提出更為精密的學習算法、特征模型的演算和語義特征提取等技術,旨在達到精準檢索。在數據挖掘和推送服務方面,主要在以下三方面提升優(yōu)化。① 圖像檢索進入到社會公共事務(如醫(yī)學、生物、生命科學、城市環(huán)境)等學科領域,以語義匹配和特征推離作為識別該領域圖形圖像數據處理的新途徑。② 對圖像數據的結構化組織分析,在融合、改良、排序上要有本體上的訓練過程。適度引入人機交互的反饋評價機制,實現個性化圖像數據定制服務。③ 繼續(xù)對“數字圖書館”數字圖像文獻開展持續(xù)性研究??缑襟w圖像檢索可應用于數字圖書館圖像館藏及互聯(lián)網資源庫的檢索服務,并積累元數據和數據源的同步性,實現圖像數據上的精準組織推送功能和智能索引分析學習,使圖像媒體具有多模認知智能。