莫 雪
(新華通訊社廣西分社,廣西 南寧 530022)
多媒體數(shù)據(jù)是指多種媒體,如數(shù)字、正文、圖形、圖像和聲音的有機(jī)集成。其中數(shù)字、字符等是格式化數(shù)據(jù),文本、圖形、圖像、聲音、視頻等是非格式化數(shù)據(jù)。多媒體數(shù)據(jù)的數(shù)據(jù)量十分龐大,各種數(shù)據(jù)之間的語(yǔ)義聯(lián)系非常復(fù)雜,表達(dá)形式多樣。
隨著多媒體技術(shù)及其支撐技術(shù)的飛速發(fā)展,多媒體應(yīng)用領(lǐng)域越來(lái)越廣,所以,對(duì)多媒體信息進(jìn)行快速高效的處理顯得非常迫切。由于多媒體數(shù)據(jù)種類繁多,傳統(tǒng)的數(shù)據(jù)庫(kù)難以對(duì)這些媒體信息進(jìn)行處理和管理,因而,產(chǎn)生了一種全新的數(shù)據(jù)庫(kù)——多媒體數(shù)據(jù)庫(kù)。
多媒體數(shù)據(jù)庫(kù)(MMDB, Multimedia Database)是一個(gè)由若干多媒體對(duì)象所構(gòu)成的集合,這些數(shù)據(jù)對(duì)象按一定的方式被組織在一起,可為其他應(yīng)用所共享。
多媒體數(shù)據(jù)庫(kù)是能夠有效實(shí)現(xiàn)多媒體數(shù)據(jù)的存儲(chǔ)、讀取、檢索等功能的數(shù)據(jù)庫(kù)系統(tǒng),它繼承了傳統(tǒng)數(shù)據(jù)庫(kù)的一些優(yōu)點(diǎn),并能對(duì)具有時(shí)空關(guān)系的數(shù)據(jù)進(jìn)行同步和管理。
數(shù)據(jù)模型是數(shù)據(jù)庫(kù)系統(tǒng)的核心,從總體發(fā)展上看,多媒體數(shù)據(jù)庫(kù)的數(shù)據(jù)模型可分為如下3類:①關(guān)系數(shù)據(jù)模型;②面向?qū)ο髷?shù)據(jù)模型;③擴(kuò)充的關(guān)系數(shù)據(jù)模型。
關(guān)系數(shù)據(jù)模型以關(guān)系代數(shù)作為其理論基礎(chǔ),發(fā)展至今已能夠非常完善的處理傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)。但是多媒體數(shù)據(jù)庫(kù)里包含了大量的圖形、圖像、聲音和視頻等非結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)結(jié)構(gòu)異常復(fù)雜,且大部分不能用關(guān)系模型表示。因此關(guān)系數(shù)據(jù)模型在處理這些數(shù)據(jù)時(shí)就難以適用了。
面向?qū)ο髷?shù)據(jù)模型對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行表示和操作非常方便,但是其技術(shù)沒(méi)有關(guān)系數(shù)據(jù)模型那樣成熟,理論研究和應(yīng)用開(kāi)發(fā)中還有很多問(wèn)題需要解決。并且需要從底層重寫(xiě)代碼,開(kāi)發(fā)工作量大、周期長(zhǎng),由于這些問(wèn)題的局限,當(dāng)前使用面向?qū)ο髷?shù)據(jù)模型開(kāi)發(fā)多媒體數(shù)據(jù)庫(kù)系統(tǒng)還主要應(yīng)用在大公司指定開(kāi)發(fā)的專用項(xiàng)目上,對(duì)于一般多媒體數(shù)據(jù)庫(kù)系統(tǒng)開(kāi)發(fā)項(xiàng)目來(lái)說(shuō),應(yīng)用面向?qū)ο髷?shù)據(jù)庫(kù)模型來(lái)進(jìn)行開(kāi)發(fā),從技術(shù)和經(jīng)濟(jì)條件上來(lái)講都是不適用的。
使用擴(kuò)充的關(guān)系數(shù)據(jù)模型來(lái)進(jìn)行多媒體數(shù)據(jù)庫(kù)系統(tǒng)的開(kāi)發(fā)是當(dāng)前最常用也是最成熟的方法。在傳統(tǒng)的關(guān)系數(shù)據(jù)模型中引入了面向?qū)ο蟮乃枷?、超文本(hypertex1)模型或超媒體方法,就解決了圖形、圖像、聲音和視頻等非結(jié)構(gòu)化數(shù)據(jù)不能用關(guān)系模型表示的問(wèn)題。
多媒體數(shù)據(jù)庫(kù)管理系統(tǒng) MMDBMS(MultiMedia DataBase Management System)是一個(gè)以多媒體數(shù)據(jù)庫(kù)為基礎(chǔ)的多媒體應(yīng)用。該應(yīng)用能夠完成對(duì)多媒體數(shù)據(jù)庫(kù)的各種操作及管理功能,如對(duì)MMDB的定義、創(chuàng)建、查詢、訪問(wèn)、刪除等。
針對(duì)多媒體應(yīng)用的靈話性,人們希望MMBBMS能提供多種方式的“模糊”查詢手段,具體描述如下:
2.1.1 基于元數(shù)據(jù)的查詢
元數(shù)據(jù)在這里是指數(shù)據(jù)庫(kù)條目的外在屬性,比如作者姓名、創(chuàng)建時(shí)間以及標(biāo)題等。在VOD(點(diǎn)播視頻)應(yīng)用中,這種方式的查詢可以是:“請(qǐng)列出由×××在2007年出席的重要會(huì)議”這種類型的查詢可以用傳統(tǒng)的DBMS技術(shù)來(lái)實(shí)現(xiàn)。
2.1.2 基于注釋的查詢
注釋是指對(duì)數(shù)據(jù)庫(kù)條目?jī)?nèi)容的文字描述。查詢時(shí)一般給出關(guān)鍵字或一些自由文本,而檢索是基于查詢與內(nèi)容注釋的相似性。這種方式的查詢實(shí)例是這樣的:“請(qǐng)放映一下東盟自由貿(mào)易區(qū)成立時(shí)的視頻片段?!边@種類型的查詢要求事先對(duì)所有數(shù)據(jù)庫(kù)條目都恰當(dāng)?shù)剡M(jìn)行注釋,然后用傳統(tǒng)的IR技術(shù)進(jìn)行處理。視頻數(shù)據(jù)、腳本和字幕均可作為注釋。
2.1.3 基于特征的查詢
特征是指多媒體數(shù)據(jù)的統(tǒng)計(jì)信息,如音量、顏色分布及紋理等。這種方式的查詢實(shí)例可以是這樣:“請(qǐng)放映一個(gè)音量分貝在××至××的視頻幀?!逼渲小痢量梢允悄硞€(gè)給定的聲音分貝分布的直方圖。處理這類查詢,傳統(tǒng)的DBMS已無(wú)能為力了,數(shù)據(jù)庫(kù)條目的有關(guān)統(tǒng)計(jì)信息必須事先收集、整理并存儲(chǔ)。
2.1.4 用實(shí)例查詢
用多媒體數(shù)據(jù)對(duì)象來(lái)進(jìn)行查詢,這個(gè)對(duì)象可以是一個(gè)靜止圖像、一張草圖或一個(gè)聲音片段。這種方式的查詢實(shí)例可以是這樣的:“請(qǐng)放映一段視頻,其中有類似×××的場(chǎng)景?!边@種類型的查詢中如果包含有數(shù)據(jù)對(duì)象的空間和時(shí)間關(guān)系,處理時(shí)可能會(huì)非常復(fù)雜,要支持這么多種復(fù)雜的查詢方式,多媒體數(shù)據(jù)庫(kù)引擎需要有全新的體系結(jié)構(gòu)。
根據(jù)上一節(jié)描述的MMDBMS所支持的查詢方式,本文給出圖1所示的MMDBMS體系結(jié)構(gòu)。其中主要的組成都分有:
2.2.1 用戶圖形接口
MMDBMS的用戶接口可以通過(guò)Internet或圖形界面訪問(wèn)。網(wǎng)頁(yè)登陸界面可以用Java applets來(lái)構(gòu)造。這個(gè)用戶接口支持用戶用圖形方式進(jìn)行基于內(nèi)容的查詢,同時(shí)也支持傳統(tǒng)的文本方式的查詢。
2.2.2 索引子系統(tǒng)
索引子系統(tǒng)以多媒體數(shù)據(jù)及相關(guān)文本注釋作為輸入,通過(guò)數(shù)據(jù)分析子系統(tǒng),提取低層多媒體特征信息(如顏色、紋理、形狀等),加上一些重要的文本描述信息(如作者姓名、類屬、主題等),并將這些內(nèi)容存儲(chǔ)在特征數(shù)據(jù)庫(kù)中。
2.2.3 數(shù)據(jù)分析子系統(tǒng)
數(shù)據(jù)分析子系統(tǒng)的功能是提取重要的低層多媒體數(shù)據(jù)特征,如音量、顏色、紋理、形狀等。
2.2.4 特征數(shù)據(jù)庫(kù)
特征數(shù)據(jù)庫(kù)中的條目?jī)?nèi)容包括低層特征數(shù)據(jù)及高層的文字描述數(shù)據(jù)。
2.2.5 查詢處理器
查詢處理器從圖形用戶界面接受查詢語(yǔ)言,通過(guò)特征數(shù)據(jù)庫(kù)進(jìn)行計(jì)算評(píng)估,然后向用戶返回匹配最好的多媒體數(shù)據(jù)。這里所指的查詢語(yǔ)言必須能利用低層特征數(shù)據(jù)及文字描述來(lái)表達(dá)復(fù)雜的查詢方式,傳統(tǒng)的SQL肯定不能勝任。
2.2.6 存儲(chǔ)子系統(tǒng)
存儲(chǔ)子系統(tǒng)完成對(duì)文本、視頻、音頻、圖像等數(shù)據(jù)庫(kù)數(shù)據(jù)的定義、創(chuàng)建、查詢、訪問(wèn)、刪除等管理功能與操作。
圖1 MMDBMS的體系結(jié)構(gòu)圖
我所在的工作單位——新華通訊社,作為國(guó)內(nèi)最權(quán)威的新聞媒體單位、黨和人民的耳目喉舌和國(guó)家、世界性的通訊社,每天都擔(dān)負(fù)著采集、發(fā)布、管理各類多媒體新聞數(shù)據(jù)信息的重大任務(wù)。新華社采集的信息包含文字、圖片、聲音、視頻等多種媒體數(shù)據(jù),涉及政治、外交、經(jīng)濟(jì)、文教、科技、法律等各個(gè)領(lǐng)域,并具有信息量大、權(quán)威、準(zhǔn)確、及時(shí)、豐富等特點(diǎn)。
新華社多媒體數(shù)據(jù)庫(kù)始建于1999年,采用TRS全文檢索的核心技術(shù),2002年,TRS公司與新華社技術(shù)局再次合作實(shí)施了新華社多媒體數(shù)據(jù)庫(kù)英文檢索引擎的提速改造,提速后的系統(tǒng)對(duì)于多媒體數(shù)據(jù)庫(kù)的全文檢索能夠達(dá)到3 s~5 s左右響應(yīng)。目前,多媒體數(shù)據(jù)庫(kù)中已經(jīng)存儲(chǔ)了數(shù)千萬(wàn)條多媒體信息,數(shù)據(jù)容量接近8 T,內(nèi)容涵蓋中、英、法、西、阿、俄等九大主流語(yǔ)種,以文字信息為主,包含圖片、圖表和音視頻信息能,真正實(shí)現(xiàn)多媒體互動(dòng)、數(shù)據(jù)準(zhǔn)確、傳輸高效、檢索便捷。
新華社多媒體數(shù)據(jù)庫(kù)底層采用TRS和Oracle協(xié)同工作的解決方式,由TRS完成千萬(wàn)級(jí)數(shù)據(jù)的索引檢索服務(wù),由Oracle 完成信息制作流程,檢索方式分為本地聯(lián)機(jī)檢索和遠(yuǎn)程網(wǎng)絡(luò)檢索兩種方式,可進(jìn)行精確檢索、模糊檢索、全文檢索、對(duì)各檢索入口項(xiàng)實(shí)行任意聯(lián)合組配檢索;可實(shí)現(xiàn)多級(jí)檢索,逐級(jí)細(xì)化檢索條件,直至命中滿意的檢索結(jié)果;能夠?qū)z索結(jié)果排序;提供中英文全文檢索功能,中文按詞進(jìn)行全文檢索,具有智能詞庫(kù)機(jī)制;對(duì)圖片可按分類號(hào)、作者、拍攝時(shí)間、拍攝地點(diǎn)、照片文字說(shuō)明等項(xiàng)檢索,其中文字說(shuō)明項(xiàng)可實(shí)現(xiàn)中文按詞全文檢索,支持邏輯庫(kù)功能,支持跨庫(kù)檢索,支持文字資料和圖片資料的系統(tǒng)鏈接。
新華社多媒體數(shù)據(jù)庫(kù)作為新華社核心存儲(chǔ)的地位也在不斷加強(qiáng),從以前分散的存儲(chǔ)逐步向統(tǒng)一存儲(chǔ)、統(tǒng)一管理、統(tǒng)一服務(wù)方向發(fā)展。在這個(gè)過(guò)程中,新建設(shè)的其他應(yīng)用系統(tǒng)中,TRS也積極的參與了廣泛的應(yīng)用研究,并在很多系統(tǒng)中直接集成了TRS全文檢索的核心功能,以保證數(shù)據(jù)的檢索性能和統(tǒng)一數(shù)據(jù)的要求。
新華社的多媒體數(shù)據(jù)庫(kù)管理分內(nèi)外兩個(gè)庫(kù)。“內(nèi)庫(kù)”,即待編稿庫(kù),與各分社的地方子庫(kù)連接,新華社所有記者采集的稿件、素材都要進(jìn)入待編稿庫(kù)。我們從國(guó)內(nèi)外搜集到的有價(jià)值的圖片資源、歷史資料、網(wǎng)上和外報(bào)外刊的新聞信息、音視頻資料等數(shù)據(jù)資源,也要分類、整理入庫(kù),并以待編稿庫(kù)為依托建立起全社統(tǒng)一的采編平臺(tái),使文字、圖片、圖表、音頻、視頻新聞信息可在同一界面上顯示、編輯、互動(dòng),供各編輯部和所有編輯選擇、編輯、加工和利用;“外庫(kù)”,即成品稿庫(kù),新華社所有新聞信息產(chǎn)品都要進(jìn)入成品稿庫(kù),并以成品稿庫(kù)為依托建立起全社統(tǒng)一的營(yíng)銷平臺(tái),通過(guò)分社營(yíng)銷平臺(tái)與用戶連接,供廣大用戶選擇、采用,成為新華社新聞信息產(chǎn)品營(yíng)銷的總出口。記者采寫(xiě)、搜集的新聞信息素材要源源不斷地進(jìn)入待編稿庫(kù),經(jīng)過(guò)編輯部門(mén)的編輯、加工變成產(chǎn)品后源源不斷地進(jìn)入成品稿庫(kù),再經(jīng)過(guò)營(yíng)銷人員的工作將數(shù)據(jù)庫(kù)新聞信息產(chǎn)品源源不斷地進(jìn)入市場(chǎng),提供給用戶;同時(shí),及時(shí)反饋用戶意見(jiàn),采編人員再根據(jù)用戶意見(jiàn)不斷改進(jìn),提高多媒體數(shù)據(jù)庫(kù)各類新聞信息產(chǎn)品的質(zhì)量。
1 馬新娜、樊金生.嵌入式實(shí)時(shí)數(shù)據(jù)庫(kù)系統(tǒng)的研究與設(shè)計(jì)[J].微計(jì)算機(jī)信息,2006(8):3~4
2 馮玉才.多媒體數(shù)據(jù)庫(kù)研究動(dòng)態(tài)[J].計(jì)算機(jī)世界報(bào),1997(3):12~13
3 鐘玉、蔡蓮紅.多媒體計(jì)算機(jī)基礎(chǔ)及應(yīng)用[M].北京:高等教育出版社,1999
4 王森、肖健宇.MODB的對(duì)象數(shù)據(jù)模型[C].全國(guó)第五屆多媒體學(xué)術(shù)年會(huì)論文集,1996.9:1~5
5 王森、肖健宇.多媒體MIS對(duì)MDBMS的功能需求及OODBMS對(duì)多媒體MIS的支持[J].計(jì)算機(jī)工程與應(yīng)用,1997.33(10):5l~54
6 張彬.與時(shí)俱進(jìn) 實(shí)現(xiàn)新聞信息服務(wù)模式創(chuàng)新[J].新聞業(yè)務(wù)研究,2002(2):15~16