張興旺 鄭聰
摘 要:視覺大數(shù)據(jù)資源作為大數(shù)據(jù)的重要組成部分,其價值產(chǎn)生機理與轉(zhuǎn)換規(guī)律具有高度的領(lǐng)域依賴性。文章從數(shù)字圖書館移動視覺搜索引擎的領(lǐng)域依賴性分析入手,運用模塊化設(shè)計思想對其業(yè)務(wù)流程進行了分析,在此基礎(chǔ)上,提出了一種領(lǐng)域?qū)虻?、自適應(yīng)的、可演化的數(shù)字圖書館移動視覺搜索引擎。最后,分析了該引擎的各功能模塊,并對該引擎的自適應(yīng)性、可演化等特征進行了探討。
關(guān)鍵詞:移動視覺搜索;數(shù)字圖書館;搜索引擎;領(lǐng)域?qū)?/p>
中圖分類號: G254.9 文獻標識碼: A DOI:10.11968/tsyqb.1003-6938.2016092
Abstract As an important part of big data, visual big data resources have a high degree of field dependence on the mechanism and the law of the conversion. This article from the digital library mobile visual search engine field dependence analysis, using the modular design of the business process, based on this, puts forward the adaptive evolution of digital library can be a domain oriented, and mobile visual search engine. Finally, the function modules of the engine are analyzed, and the characteristics of the adaptive and the evolution of the engine are discussed.
Key words mobile visual search; digital library; search engine; field oriented
1 引言
隨著互聯(lián)網(wǎng)和信息檢索技術(shù)的飛速發(fā)展,文本、圖像和視頻等不同類型的視覺資源及關(guān)聯(lián)信息(如評論、描述、用戶行為等信息)更加緊密的融合起來,以一種全新的形式來描述視覺資源之間的語義、主題和事件,并逐漸成為各類數(shù)字圖書館重要的信息載體及各種信息搜索引擎、系統(tǒng)與平臺的重點處理對象。據(jù)IDC于2012年發(fā)布的報告顯示預(yù)計到2020年,全球數(shù)據(jù)總量將超過40ZB(約4萬億GB),其中75%來自于互聯(lián)網(wǎng)環(huán)境,數(shù)據(jù)類型主要是文本、圖像與音視頻等。面對如此龐大的視覺資源,如何對其進行有效的組織、描述、表達與處理,使用戶能夠便捷地找到最有價值的信息,自然就成為信息檢索、數(shù)字圖書館等領(lǐng)域亟待解決的前沿問題。
視覺資源的價值發(fā)現(xiàn)需求與語義檢索、移動互聯(lián)網(wǎng)技術(shù)的跨界融合有效推動了移動視覺搜索理論、模型與技術(shù)的發(fā)展。而移動智能終端、移動互聯(lián)網(wǎng)及移動應(yīng)用等軟硬件條件的迅速發(fā)展,也為視覺搜索從PC端向移動終端發(fā)展提供了軟硬件支持[1]。同時,各類相關(guān)技術(shù)趨于成熟,也為數(shù)字圖書館移動視覺搜索提供了全方面的技術(shù)支持。一是FRBR、RDA與BIBFRAME等可為視覺大數(shù)據(jù)資源語義本體概念模型的構(gòu)建提供支持;二是鏈接開放數(shù)據(jù)(Linking Open Data,LOD)、關(guān)聯(lián)數(shù)據(jù)(Linking Data)、資源描述框架(Resource Description Framework,RDF)等可為視覺大數(shù)據(jù)資源的組織、描述與表達提供支持;三是OpenCV、RAVL、ARToolKitPlus與CImg等開源計算機視覺庫可為視覺資源的分析與處理提供支持;四是Web 3.0、移動互聯(lián)網(wǎng)、語義檢索與JAVA等可為移動視覺搜索平臺建設(shè)提供支持;五是現(xiàn)有的Google知識圖譜、百度識圖、愛奇藝大腦與淘寶拍立淘等成功案例可提供經(jīng)驗支持。而本文的研究目的是結(jié)合已有相關(guān)理論、技術(shù)與應(yīng)用成果,提出一種面向視覺大數(shù)據(jù)資源的自適應(yīng)的、可演化的數(shù)字圖書館移動視覺搜索引擎。
2 數(shù)字圖書館移動視覺搜索的領(lǐng)域依賴性與業(yè)務(wù)分析
2.1 數(shù)字圖書館移動視覺搜索的領(lǐng)域依賴性分析
2015年9月,國務(wù)院印發(fā)了《促進大數(shù)據(jù)發(fā)展行動綱要》,目的是要提升“領(lǐng)域數(shù)據(jù)資源的獲取和利用能力”、實現(xiàn)“領(lǐng)域信息資源的匯聚整合和關(guān)聯(lián)應(yīng)用”,“推動跨領(lǐng)域、跨行業(yè)的數(shù)據(jù)融合和協(xié)同創(chuàng)新”[3]。2016年7月,國家自科基金委發(fā)布的重大研究計劃《大數(shù)據(jù)驅(qū)動的管理與決策研究》提出,“大數(shù)據(jù)價值的產(chǎn)生機理和轉(zhuǎn)換規(guī)律具有高度的應(yīng)用領(lǐng)域依賴性”[4]。2015年7月,國家社科規(guī)劃辦將“面向大數(shù)據(jù)的數(shù)字圖書館移動視覺搜索機制及其應(yīng)用模式研究”列入重大招標課題[5]。視覺大數(shù)據(jù)資源作為大數(shù)據(jù)重要組成部分,其價值產(chǎn)生機理與轉(zhuǎn)換規(guī)律也必然具有高度的應(yīng)用領(lǐng)域依賴性。
移動視覺搜索概念源于2009年12月斯坦福大學(xué)主辦的第一屆Mobile Visual Search研討會,在過去的七年里,其理論與應(yīng)用研究盡管有了較大發(fā)展,但受限于移動互聯(lián)網(wǎng)環(huán)境和技術(shù)、視覺處理技術(shù)等影響,現(xiàn)有相關(guān)研究還具有一定局限性,已有研究重點還是集中在視覺資源處理技術(shù)[6-7]、模式探討[8-9]、機制建設(shè)[10]、架構(gòu)分析[11]與標準化問題分析[12]等方面,而忽略了數(shù)字圖書館本身的領(lǐng)域特性分析、移動視覺搜索引擎研究與視覺知識庫構(gòu)建分析等內(nèi)容的研究。與大數(shù)據(jù)、互聯(lián)網(wǎng)環(huán)境中信息資源的泛在化、非結(jié)構(gòu)化或半結(jié)構(gòu)化存在形式不同,各類數(shù)字圖書館均有著較強的專業(yè)性、領(lǐng)域性和可拓展性,且其在視覺大數(shù)據(jù)資源的語義組織、描述與表達形式等方面有著先天優(yōu)勢,能夠較好的滿足視覺大數(shù)據(jù)資源的領(lǐng)域依賴性處理需求。