于紅雪,趙 鋒,賓小林
(中國電子科技集團(tuán)公司第三研究所,北京 100016)
在過去的較長一段時間里,以電視臺、新聞機(jī)構(gòu)、制作公司等媒體機(jī)構(gòu)為代表的眾多單位,都已經(jīng)建設(shè)并使用了媒體資產(chǎn)管理系統(tǒng),但每天產(chǎn)生的海量媒體內(nèi)容所帶來的硬件持續(xù)投入和有效地組織、存儲和檢索等使用方式、充分體現(xiàn)資產(chǎn)價值之間已經(jīng)形成一對主要矛盾。這一矛盾的解決,已經(jīng)成為一項極具挑戰(zhàn)性的工作。內(nèi)容數(shù)字化保存容易,資產(chǎn)屬性的實現(xiàn)困難,已經(jīng)擺在眾多擁有媒體資產(chǎn)的單位面前。近年來發(fā)展并被廣泛探索和實踐的知識圖譜作為一種有效的信息組織和處理工具,提供了解決這一困難問題的可能性。
知識圖譜是一種結(jié)構(gòu)化的知識表示形式,通過實體和實體間的關(guān)系,對各種類型的信息進(jìn)行有效組織。近年來,知識圖譜在信息檢索、推薦系統(tǒng)、自然語言處理等眾多領(lǐng)域得到了廣泛應(yīng)用。其強(qiáng)大的信息整合、鏈接和推理能力,為解決復(fù)雜問題提供了新的視角和可能性。
本文將探索知識圖譜在媒體資產(chǎn)管理中的應(yīng)用,嘗試解答如何利用知識圖譜優(yōu)化媒體資產(chǎn)管理,提升媒體內(nèi)容的檢索效率,增強(qiáng)媒體資產(chǎn)的使用價值等問題,或?qū)⒂兄谕苿又R圖譜在媒體領(lǐng)域的應(yīng)用,也為其他領(lǐng)域知識圖譜應(yīng)用提供一定的借鑒。
知識圖譜(Knowledge Graph)起源于語義網(wǎng)(Semantic Web)的研究,最早由Google 公司于2012年提出并應(yīng)用于其搜索引擎中,目的是提供更準(zhǔn)確和豐富的搜索結(jié)果。它基于圖結(jié)構(gòu),其中的節(jié)點(diǎn)表示實體(如人、地點(diǎn)、物品等),邊則代表這些實體間的各種關(guān)系,是一種用于存儲信息的結(jié)構(gòu)化模型,可以整合多源異構(gòu)數(shù)據(jù),便于機(jī)器理解并提供給用戶有價值的信息。
知識圖譜的構(gòu)建主要包含知識抽取、知識融合及知識推理三個階段。知識抽取是從各種數(shù)據(jù)源(如文本、圖像、數(shù)據(jù)庫等)中識別、提取實體及其屬性和關(guān)系,知識融合是處理并解決來自不同數(shù)據(jù)源的沖突和矛盾,生成一致的、全面的知識圖譜;知識推理是基于已有的知識,進(jìn)行邏輯推導(dǎo),發(fā)現(xiàn)新的知識。
知識圖譜的關(guān)鍵特性包括統(tǒng)一數(shù)據(jù)、語義的理解、集成數(shù)據(jù)源以及跨數(shù)據(jù)實體映射關(guān)系的推理。
大多數(shù)媒體資產(chǎn)管理系統(tǒng)存儲和管理數(shù)據(jù)都是弱關(guān)聯(lián)的,在完成索引后,根據(jù)索引關(guān)鍵字進(jìn)行查詢和使用。使用者的主觀意愿決定了媒體資產(chǎn)管理系統(tǒng)的使用價值,缺乏語境的組織和呈現(xiàn)時,媒體資產(chǎn)價值的呈現(xiàn)是隱性的,服務(wù)能力也是被動而淺顯的。知識圖譜完成統(tǒng)一數(shù)據(jù)的邏輯處理后,每個實體都有其特定的類型(如人、地點(diǎn)、事件等),每種關(guān)系也都有明確的定義。這種強(qiáng)語義的特性使得知識圖譜能夠理解并處理復(fù)雜的查詢和任務(wù),而不僅僅是簡單的關(guān)鍵詞匹配。
媒體資產(chǎn)管理的內(nèi)容涵蓋了還原現(xiàn)實的大量數(shù)據(jù),有效地反映客觀事物所具備的數(shù)據(jù)形態(tài)及其復(fù)雜的相互聯(lián)系邏輯,必須具備語義理解能力,才能減少人們使用數(shù)據(jù)之前需要大量投入的識別、定義、關(guān)聯(lián)處理等工作的精力。知識圖譜自主創(chuàng)建的數(shù)據(jù)網(wǎng)絡(luò)可以完成已有數(shù)據(jù)和新產(chǎn)生數(shù)據(jù)之間的關(guān)聯(lián)處理,不需要對已有工作進(jìn)行返工。
知識圖譜從數(shù)據(jù)中提取實體和上下文關(guān)系,通過智能的擬合推理,自動更新知識庫并響應(yīng)數(shù)據(jù)變化,根據(jù)一定的結(jié)構(gòu)和語義進(jìn)行邏輯推導(dǎo),發(fā)現(xiàn)并填補(bǔ)知識的空缺,從而提升知識的完整性和一致性。例如,岳云鵬是中國知名的喜劇演員和相聲藝術(shù)家,他的知識圖譜可以從多個方面進(jìn)行建模和描述,如圖1 所示。首先,他的個人信息可以包括出生日期、出生地、籍貫等基本背景信息。其次,可以記錄他的作品名稱、與其他演員、導(dǎo)演等的合作關(guān)系。這些關(guān)系可以通過知識圖譜的邊來表示。通過建立岳云鵬的知識圖譜,可以更好地了解他的個人和職業(yè)生涯。未來,隨著更多信息的積累和技術(shù)的發(fā)展,岳云鵬的知識圖譜將不斷完善和擴(kuò)展,為人們提供更多有關(guān)他的深入了解和應(yīng)用價值。
圖1 岳云鵬知識圖譜
總的來說,知識圖譜能夠?qū)⑺槠⒎稚⒌男畔⒓傻揭粋€統(tǒng)一、結(jié)構(gòu)化的框架中,提供更深層次、更全面的信息理解和應(yīng)用,在有效地處理大規(guī)模的數(shù)據(jù)時不斷挖掘其中的價值,服務(wù)于各種復(fù)雜的任務(wù)和需求。如今,知識圖譜已經(jīng)成為人工智能領(lǐng)域的一種重要工具,被廣泛應(yīng)用在信息檢索、推薦系統(tǒng)、自然語言處理、數(shù)據(jù)挖掘等眾多領(lǐng)域。
媒體資產(chǎn)管理系統(tǒng)(Media Asset Management System,MAMS)是對音頻、視頻、圖片和文本等各種媒體資產(chǎn)進(jìn)行集中存儲、管理和分發(fā)的信息化系統(tǒng)。在不同單位的各類應(yīng)用場景中,MAMS 可以有效地利用和共享數(shù)字媒體資源,從而提升使用媒體資產(chǎn)各環(huán)節(jié)的工作效率,降低運(yùn)營成本。
媒體系資產(chǎn)管理系統(tǒng)在IT 技術(shù)發(fā)展歷程中,已經(jīng)在“采集、存儲、編目、自動標(biāo)注、索引、搜索(查詢)、編輯、轉(zhuǎn)碼、分發(fā)和歸檔”等環(huán)節(jié)持續(xù)加深與人工智能引擎的對接和能力挖掘,對元數(shù)據(jù)的處理圍繞基本信息(如創(chuàng)建日期、作者等)、描述信息(如標(biāo)題、摘要等)和技術(shù)信息(如格式、分辨率等)等維度持續(xù)拓展,多維服務(wù)能力不斷增長,很大程度上幫助用戶在不同業(yè)務(wù)場景中調(diào)用內(nèi)容服務(wù)。然而,海量的多模態(tài)數(shù)據(jù)在某個維度上的數(shù)量增加,造成了精準(zhǔn)檢索輸出的結(jié)果規(guī)模很大,內(nèi)容之間的關(guān)聯(lián)關(guān)系無法一目了然,仍然需要人為花時間進(jìn)行判斷。
很多用戶根據(jù)自己的應(yīng)用場景對媒體內(nèi)容進(jìn)行組織和分類,根據(jù)需要創(chuàng)建文件夾、播放列表或項目,將相關(guān)的媒體資產(chǎn)組合在一起,希望達(dá)到便于管理和利用的目的,但總是不能滿足業(yè)務(wù)需求。
除此之外,MAMS 還可以與其他系統(tǒng)(如協(xié)同指揮系統(tǒng)、內(nèi)容生產(chǎn)系統(tǒng)、版權(quán)管理系統(tǒng)、內(nèi)容發(fā)布系統(tǒng)、運(yùn)維管理系統(tǒng)、信息安全系統(tǒng)等)進(jìn)行集成,實現(xiàn)全流程的媒體內(nèi)容生產(chǎn)和發(fā)布。例如,新聞機(jī)構(gòu)可以通過MAMS 將新聞報道的文字、圖片和視頻一同發(fā)布到網(wǎng)站或社交媒體上;電視臺可以通過MAMS將電視節(jié)目的錄制、編輯、播放和存檔等環(huán)節(jié)統(tǒng)一管理。在云計算和大數(shù)據(jù)的背景下,MAMS 的重要性越來越突出,也面臨更多的挑戰(zhàn)與問題,具體如下。
(1)從海量內(nèi)容中尋找有價值的媒體資產(chǎn)訴求明確。隨著數(shù)字媒體的快速發(fā)展,每天都有大量的媒體內(nèi)容產(chǎn)生。如何從這些海量的內(nèi)容中快速、有效地找到有價值的媒體資產(chǎn),是一項具有挑戰(zhàn)性的任務(wù)。傳統(tǒng)的基于關(guān)鍵詞的搜索方法難以滿足這種復(fù)雜和動態(tài)的檢索需求。
(2)個性化的媒體服務(wù)需求持續(xù)增加。隨著用戶需求的多樣化和個性化,如何根據(jù)用戶的興趣和行為,高效地管理和利用媒體資產(chǎn),提供個性化的媒體服務(wù),滿足各種商業(yè)和創(chuàng)新需求,是MAMS 面臨的一個重要挑戰(zhàn)。
媒體資產(chǎn)管理系統(tǒng)有效地組織、索引和檢索各類媒體資產(chǎn),對于實現(xiàn)高效的媒體生產(chǎn)和分發(fā)具有至關(guān)重要的意義。知識圖譜,作為一種結(jié)構(gòu)化的知識表示形式,為媒體資產(chǎn)管理提升服務(wù)能力、充分挖掘媒體資產(chǎn)價值提供了新的手段。
知識圖譜可以在很大程度上豐富媒體資產(chǎn)的元數(shù)據(jù)。在傳統(tǒng)的元數(shù)據(jù)管理中,元數(shù)據(jù)主要包括創(chuàng)建日期、作者、標(biāo)題等基本信息。然而,這種靜態(tài)、平面化的元數(shù)據(jù)管理方式,難以表達(dá)和檢索復(fù)雜的語義信息。知識圖譜通過圖形結(jié)構(gòu),可以表達(dá)實體(如人物、事件、概念等)之間的復(fù)雜關(guān)系,使元數(shù)據(jù)管理具有更多的維度和更高的深度。例如,對于一部電影,知識圖譜不僅可以記錄電影的名字、導(dǎo)演和演員,還可以鏈接到電影的劇情、主題、評價等相關(guān)知識,為用戶提供多角度、不斷深入了解信息的路徑。
知識圖譜通過對媒體內(nèi)容的深度語義分析,可以提升對媒體內(nèi)容的理解和利用。在過去的很長一段時間內(nèi),媒體資產(chǎn)管理必須通過人工方式對內(nèi)容進(jìn)行理解和分析,從而形成元數(shù)據(jù)。對于元數(shù)據(jù)之間的關(guān)系,需要花更多的時間進(jìn)行關(guān)聯(lián)處理。MAMS 好用與否,完全取決于元數(shù)據(jù)處理的詳細(xì)與否。在知識圖譜中,每個實體和關(guān)系都有明確的語義,可以表示復(fù)雜的事實和推理,通過機(jī)器學(xué)習(xí)和自然語言處理技術(shù),可以從媒體內(nèi)容中抽取出實體和關(guān)系,構(gòu)建出與知識圖譜鏈接的語義網(wǎng)絡(luò),實現(xiàn)對媒體內(nèi)容的深度語義理解,大量節(jié)約了人工,提升了效率。例如,對于一篇關(guān)于岳云鵬主演《滿江紅》電影的報道,可以通過知識圖譜理解報道中的主要事件、相關(guān)人物和背景情況,以及他們之間的關(guān)系和影響,如圖2 所示。
圖2 媒體資源的深度理解
知識圖譜可以提供更個性化和智能化的內(nèi)容推薦。傳統(tǒng)的內(nèi)容推薦主要依據(jù)用戶的瀏覽歷史和興趣標(biāo)簽,推薦相似的內(nèi)容。然而,這種方式往往忽略了用戶的多樣性和動態(tài)性。知識圖譜可以構(gòu)建用戶的興趣模型,根據(jù)用戶的行為和反饋,動態(tài)更新興趣模型,從而根據(jù)興趣模型和知識圖譜中的知識,推薦更符合用戶個性化需求的內(nèi)容。
知識圖譜可以通過構(gòu)建一種統(tǒng)一和高效的管理框架,優(yōu)化媒體資產(chǎn)管理的采集、存儲、處理和分發(fā)各環(huán)節(jié)構(gòu)成的工作流程。例如,在媒體資產(chǎn)的采集階段,可以通過知識圖譜自動識別和標(biāo)注媒體內(nèi)容的主要信息和關(guān)鍵概念,降低人工標(biāo)注的成本和錯誤。在存儲階段,知識圖譜可以提供一種靈活的數(shù)據(jù)模型,支持媒體資產(chǎn)的多維度、多層次、多視角的組織和檢索。在處理階段,知識圖譜可以提供各種自動化的分析和處理工具,如實體鏈接、事件抽取、情感分析等。在分發(fā)階段,知識圖譜可以根據(jù)用戶的興趣模型和行為數(shù)據(jù),提供個性化的內(nèi)容推薦和導(dǎo)航。
知識圖譜還可以支持媒體資產(chǎn)的高級分析,如趨勢預(yù)測、社區(qū)檢測、影響力評估等。這些高級分析不僅可以幫助媒體機(jī)構(gòu)理解媒體資產(chǎn)的使用情況和用戶需求,還可以指導(dǎo)媒體內(nèi)容的創(chuàng)作和策略制定。例如,通過分析知識圖譜中的實體和關(guān)系的演變趨勢,可以預(yù)測未來的熱點(diǎn)話題和新聞事件。通過檢測知識圖譜中的社區(qū)結(jié)構(gòu),可以發(fā)現(xiàn)用戶的興趣群體和潛在需求。通過評估媒體內(nèi)容在知識圖譜中的影響力,可以評價媒體內(nèi)容的影響力和價值。
總的來說,知識圖譜在媒體資產(chǎn)管理中的應(yīng)用,既可以提升媒體資產(chǎn)的管理效率和質(zhì)量,也可以提供智能化和個性化的媒體服務(wù),發(fā)掘新的業(yè)務(wù)機(jī)會和創(chuàng)新空間。但是,知識圖譜的應(yīng)用也面臨一些挑戰(zhàn),如知識圖譜的構(gòu)建和維護(hù)成本、知識的實時更新、隱私和安全問題等,需要結(jié)合具體場景進(jìn)行不斷的研究和實踐,尋找最佳的解決方案。
本文通過對知識圖譜和媒體資產(chǎn)管理系統(tǒng)基本概念的解讀,探討兩者的應(yīng)用,得出結(jié)論:知識圖譜作為一種強(qiáng)大的語義工具,可以在諸多方面加強(qiáng)和優(yōu)化媒體資產(chǎn)管理能力,并在媒體資產(chǎn)管理系統(tǒng)未來服務(wù)能力的可拓展空間上發(fā)掘機(jī)會。
盡管知識圖譜在媒體資產(chǎn)管理中的應(yīng)用前景廣闊,但也存在一些挑戰(zhàn)和限制,如知識圖譜的構(gòu)建和維護(hù)成本,知識的實時更新問題,以及隱私和安全問題等。此外,如何在保持知識圖譜的準(zhǔn)確性和一致性的同時處理海量的媒體內(nèi)容和用戶行為數(shù)據(jù),也是一個待解決的問題。
未來,對于知識圖譜的研究可以圍繞以下幾個方向展開:一是結(jié)合人工智能大趨勢,充分評估ChatGPT 等先進(jìn)應(yīng)用技術(shù)發(fā)展的現(xiàn)狀,形成標(biāo)準(zhǔn)化遵循規(guī)范,以降低知識圖譜的構(gòu)建和維護(hù)成本,提高知識圖譜的實時更新能力;二是在切實保護(hù)用戶隱私和保證數(shù)據(jù)安全的前提下,有效利用知識圖譜進(jìn)一步提升媒體資產(chǎn)管理效能;三是開發(fā)新的算法和工具,以處理和分析大規(guī)模的媒體數(shù)據(jù)和用戶行為數(shù)據(jù)。這些研究將推動知識圖譜在媒體資產(chǎn)管理中的應(yīng)用,也為相關(guān)領(lǐng)域的發(fā)展帶來新的啟示和機(jī)會。