張興旺 鄭聰
摘 要:視覺大數(shù)據(jù)資源作為大數(shù)據(jù)的重要組成部分,其價值產(chǎn)生機理與轉換規(guī)律具有高度的領域依賴性。文章從數(shù)字圖書館移動視覺搜索引擎的領域依賴性分析入手,運用模塊化設計思想對其業(yè)務流程進行了分析,在此基礎上,提出了一種領域導向的、自適應的、可演化的數(shù)字圖書館移動視覺搜索引擎。最后,分析了該引擎的各功能模塊,并對該引擎的自適應性、可演化等特征進行了探討。
關鍵詞:移動視覺搜索;數(shù)字圖書館;搜索引擎;領域導向
中圖分類號: G254.9 文獻標識碼: A DOI:10.11968/tsyqb.1003-6938.2016092
Abstract As an important part of big data, visual big data resources have a high degree of field dependence on the mechanism and the law of the conversion. This article from the digital library mobile visual search engine field dependence analysis, using the modular design of the business process, based on this, puts forward the adaptive evolution of digital library can be a domain oriented, and mobile visual search engine. Finally, the function modules of the engine are analyzed, and the characteristics of the adaptive and the evolution of the engine are discussed.
Key words mobile visual search; digital library; search engine; field oriented
1 引言
隨著互聯(lián)網(wǎng)和信息檢索技術的飛速發(fā)展,文本、圖像和視頻等不同類型的視覺資源及關聯(lián)信息(如評論、描述、用戶行為等信息)更加緊密的融合起來,以一種全新的形式來描述視覺資源之間的語義、主題和事件,并逐漸成為各類數(shù)字圖書館重要的信息載體及各種信息搜索引擎、系統(tǒng)與平臺的重點處理對象。據(jù)IDC于2012年發(fā)布的報告顯示預計到2020年,全球數(shù)據(jù)總量將超過40ZB(約4萬億GB),其中75%來自于互聯(lián)網(wǎng)環(huán)境,數(shù)據(jù)類型主要是文本、圖像與音視頻等。面對如此龐大的視覺資源,如何對其進行有效的組織、描述、表達與處理,使用戶能夠便捷地找到最有價值的信息,自然就成為信息檢索、數(shù)字圖書館等領域亟待解決的前沿問題。
視覺資源的價值發(fā)現(xiàn)需求與語義檢索、移動互聯(lián)網(wǎng)技術的跨界融合有效推動了移動視覺搜索理論、模型與技術的發(fā)展。而移動智能終端、移動互聯(lián)網(wǎng)及移動應用等軟硬件條件的迅速發(fā)展,也為視覺搜索從PC端向移動終端發(fā)展提供了軟硬件支持[1]。同時,各類相關技術趨于成熟,也為數(shù)字圖書館移動視覺搜索提供了全方面的技術支持。一是FRBR、RDA與BIBFRAME等可為視覺大數(shù)據(jù)資源語義本體概念模型的構建提供支持;二是鏈接開放數(shù)據(jù)(Linking Open Data,LOD)、關聯(lián)數(shù)據(jù)(Linking Data)、資源描述框架(Resource Description Framework,RDF)等可為視覺大數(shù)據(jù)資源的組織、描述與表達提供支持;三是OpenCV、RAVL、ARToolKitPlus與CImg等開源計算機視覺庫可為視覺資源的分析與處理提供支持;四是Web 3.0、移動互聯(lián)網(wǎng)、語義檢索與JAVA等可為移動視覺搜索平臺建設提供支持;五是現(xiàn)有的Google知識圖譜、百度識圖、愛奇藝大腦與淘寶拍立淘等成功案例可提供經(jīng)驗支持。而本文的研究目的是結合已有相關理論、技術與應用成果,提出一種面向視覺大數(shù)據(jù)資源的自適應的、可演化的數(shù)字圖書館移動視覺搜索引擎。
2 數(shù)字圖書館移動視覺搜索的領域依賴性與業(yè)務分析
2.1 數(shù)字圖書館移動視覺搜索的領域依賴性分析
2015年9月,國務院印發(fā)了《促進大數(shù)據(jù)發(fā)展行動綱要》,目的是要提升“領域數(shù)據(jù)資源的獲取和利用能力”、實現(xiàn)“領域信息資源的匯聚整合和關聯(lián)應用”,“推動跨領域、跨行業(yè)的數(shù)據(jù)融合和協(xié)同創(chuàng)新”[3]。2016年7月,國家自科基金委發(fā)布的重大研究計劃《大數(shù)據(jù)驅動的管理與決策研究》提出,“大數(shù)據(jù)價值的產(chǎn)生機理和轉換規(guī)律具有高度的應用領域依賴性”[4]。2015年7月,國家社科規(guī)劃辦將“面向大數(shù)據(jù)的數(shù)字圖書館移動視覺搜索機制及其應用模式研究”列入重大招標課題[5]。視覺大數(shù)據(jù)資源作為大數(shù)據(jù)重要組成部分,其價值產(chǎn)生機理與轉換規(guī)律也必然具有高度的應用領域依賴性。
移動視覺搜索概念源于2009年12月斯坦福大學主辦的第一屆Mobile Visual Search研討會,在過去的七年里,其理論與應用研究盡管有了較大發(fā)展,但受限于移動互聯(lián)網(wǎng)環(huán)境和技術、視覺處理技術等影響,現(xiàn)有相關研究還具有一定局限性,已有研究重點還是集中在視覺資源處理技術[6-7]、模式探討[8-9]、機制建設[10]、架構分析[11]與標準化問題分析[12]等方面,而忽略了數(shù)字圖書館本身的領域特性分析、移動視覺搜索引擎研究與視覺知識庫構建分析等內容的研究。與大數(shù)據(jù)、互聯(lián)網(wǎng)環(huán)境中信息資源的泛在化、非結構化或半結構化存在形式不同,各類數(shù)字圖書館均有著較強的專業(yè)性、領域性和可拓展性,且其在視覺大數(shù)據(jù)資源的語義組織、描述與表達形式等方面有著先天優(yōu)勢,能夠較好的滿足視覺大數(shù)據(jù)資源的領域依賴性處理需求。