摘要:【目的】《知識產權強國建設綱要(2021—2035年)》中將知識產權戰(zhàn)略視為國家重要戰(zhàn)略,強調知識產權在國家層面的重要性。隨著新媒體崛起及媒體融合深入,傳播方式多樣化導致版權侵權問題日益嚴重。深度挖掘多模態(tài)內容特征信息,可實現(xiàn)對新媒體內容全方位版權保護。【方法】文章針對新媒體領域中版權保護生態(tài)現(xiàn)狀,分析目前新媒體版權保護面臨的主要問題,介紹基于數(shù)字水印、多模態(tài)內容指紋和區(qū)塊鏈技術打造的“南方版專+”版權保護平臺?!窘Y果】通過平臺應用效果,可驗證該平臺對新媒體中多模態(tài)內容實現(xiàn)快速確權,降低版權保護成本?!窘Y論】通過“南方版專+”版權保護平臺,可以有效解決新媒體中因侵權方式多樣化帶來的確權難、維權成本高等問題。
關鍵詞:新媒體;數(shù)字版權;多模態(tài)內容指紋;區(qū)塊鏈技術;數(shù)字水印 " " " 中圖分類號:G236 " " " 文獻標識碼:A
文章編號:1671-0134(2023)06-074-06 " " " " DOI:10.19483/j.cnki.11-4653/n.2023.06.015
本文著錄格式:王夢環(huán),羅小龍,李梓華.基于多模態(tài)特征挖掘的新媒體版權保護方法研究與應用[J].中國傳媒科技,2023(06):74-78,86.
導語
據(jù)國家版權局發(fā)布的最新版《中國網絡版權產業(yè)發(fā)展報告(2020)》中指出,2020年中國網絡版權產業(yè)市場規(guī)模首次突破一萬億元[1],較2019年增長23.6%,用戶付費規(guī)模接近5659.2億元,同比增長27.3%。網絡新聞媒體和網絡游戲仍占據(jù)主導地位,而短視頻、直播等新興業(yè)態(tài)迅速崛起,推動網絡版權內容走向“視頻化”和“價值向”。
南方報業(yè)作為以廣東省委機關報《南方日報》為龍頭的傳媒集團,經過幾十年的數(shù)字化變革,積累了豐富的知識版權資源。面對移動互聯(lián)網時代,南方報業(yè)傳媒集團不斷創(chuàng)新圖文、音視頻等全媒體原創(chuàng)內容,逐步從傳統(tǒng)媒體轉向微信、微博、客戶端等為代表的新媒體媒介,版權保護工作隨著傳播內容和傳播方式的變化面臨新的挑戰(zhàn)。因此,南方報業(yè)傳媒集團研究并探索了一種適用于新媒體多模態(tài)數(shù)字內容的版權保護方法,打造集確權、監(jiān)測、存證、維權為一體的一站式版權服務平臺“南方版專+”,提供全鏈條版權保護解決方案,為各類媒體單位在新媒體環(huán)境下的版權保護提供參考。
1.新媒體領域數(shù)字版權保護面臨的主要問題
當前社會已經發(fā)展成為以手機等移動設備為主要載體的信息傳播時代,新媒體內容具有傳播速度快、移動性強、互動性好、個性化足等優(yōu)勢,但新媒體平臺上盜版、抄襲、洗稿等層出不窮的侵權方式讓內容生產商利益受損,創(chuàng)作積極性備受打擊。雖然國家非常重視,出臺多種政策和法規(guī),但面對新媒體技術的迅猛發(fā)展,以及侵權平臺多樣化、侵權手段日益隱蔽等局面,新媒體作品內容容易修改、取證環(huán)境復雜、證據(jù)容易銷毀,造成權利人確權難、取證難,由于缺乏有效的技術手段,原創(chuàng)內容的版權保護很難從根本上解決問題。
同時,在線下維權過程中,整個公證流程繁瑣,且存在侵權方利用紙質公證文書造假的方式進行干擾等問題,導致在維權過程中需要消耗大量的人力、物力且效率低下,因此亟須一種高效且公正的維權方式來解決維權難的問題。
2.“南方版專+”多模態(tài)版權保護方法研究
2.1 " 總體框架設計
“南方版專+”平臺能夠針對原創(chuàng)的文本、圖片、視頻等內容從創(chuàng)作、發(fā)布、傳播等環(huán)節(jié)進行全鏈條的跟蹤記錄,將版權作品的每個變動記錄在區(qū)塊鏈上。
作者在完成原創(chuàng)創(chuàng)作后,平臺依據(jù)原創(chuàng)內容屬性,自動化進行內容加密。對于文本內容,基于指紋哈希技術為其生成內容指紋信息(也稱為內容);對于圖片,基于圖像變換自適應數(shù)字水印技術進行加密嵌入和提取;對于視頻內容,基于視頻特征與時間序列信息進行內容指紋信息生成。
在對原創(chuàng)內容生成內容指紋信息后,系統(tǒng)使用私鑰簽名將加密后的數(shù)據(jù)發(fā)送給區(qū)塊鏈,并將數(shù)據(jù)版權的明文信息留存本地。區(qū)塊鏈的記鏈接口在收到明文信息后,智能合約首先對記鏈信息驗證簽名,簽名通過則將記鏈信息記入賬本并發(fā)送其他節(jié)點進行賬本同步。[2]此時存放在區(qū)塊鏈系統(tǒng)中的信息能完整反映作品的創(chuàng)作和傳播過程中的存證序列,能為版權出現(xiàn)爭議時提供更多可以檢索和驗證的關鍵信息,推動版權保護的模式從以作品結果為中心轉為以創(chuàng)作過程為中心。
在侵權檢測過程中,依據(jù)需要對比的內容模態(tài),選擇對應的特征轉換操作。結合內容相似度比對計算和數(shù)字水印提取及比對這兩種侵權檢測手段同時進行,主要為解決原創(chuàng)內容被侵權方通過技術手段多重轉換的問題,提高檢測能力的魯棒性。對檢測出來的疑似侵權結果,會由人工進行介入來二次確認,經由人工確認并確定的侵權內容會將其信息進行上鏈,并依靠區(qū)塊鏈的不可篡改、可溯源等特性進行固證來用于輔助后續(xù)維權工作。
系統(tǒng)架構圖如下圖所示。
2.2 " 關鍵技術介紹
2.2.1 " "基于MinHash的文本內容指紋生成技術
由于文本的長度、大小均不一致,對全文的所有信息直接上鏈顯然不現(xiàn)實,平臺采用內容指紋算法對文本的內容、摘要等信息進行計算,得到文本的指紋信息,該指紋信息一般為一個長度較小的字符串。即:通過內容指紋映射函數(shù),將原始復雜且冗長的文本信息映射為一個短小的字符串信息,因此可以大大縮短上鏈時間,提升上鏈效率。文本指紋提取的原理如下。
首先將文章內容進行等距切分成段(),并且對每個分段的內容進行文字轉拼音,取每個詞語拼音首個字母作為指紋轉換特征(例如:我 -gt; wo-gt; w);其次通過MinHash算法(最小哈希是適用于大規(guī)模高緯度數(shù)據(jù)的一種快速最近鄰查找算法,其實質是基于一種假設,相似度很高的兩個數(shù)據(jù)映射成同一個hash值的概率較大,而相似度很低的兩個數(shù)據(jù)則很難映射成同一個hash值[3])對指紋轉換特征進行哈希轉換得到指紋信息,如:我愛中國 -gt; "-gt; "-gt; 16811004,然后根據(jù)文章的內容長度給指紋信息定義前置索引,就可以得到文章完整的指紋信息。例如:某一篇文章的內容長度是26個字符,擬將切分距離設為4,則可以將該文章等距切分成7段文本,最終生成的7個帶前置索引的指紋信息為該文章的指紋信息。
2.2.2 " 基于CRBM的視頻內容指紋生成技術
在視頻內容指紋技術出現(xiàn)之前,對視頻相關性的比對分析主要依賴于視頻文件的哈希值進行比對。雖然此方式對驗證文件一致性具有計算快、體積小等優(yōu)勢,但在視頻相關性的比對分析中仍存在明顯不足。主要原因是基于哈希值的比對分析只在整個視頻內容或視頻內容中的某些片段完全相同時才有效。在實際工作中,即使是同一視頻也會存在因不同的視頻編碼或數(shù)字處理版本而導致視頻文件的哈希值不同的情況。
因此采用基于深度學習算法的視頻內容指紋生成技術將視頻特征與時間序列信息相結合進行特征計算,來解決哈希值比對在視頻相關性計算中的不足問題。視頻內容指紋生成技術是一種使用特征提取算法對視頻內容進行識別、提取、壓縮后生成一個比原視頻內容小很多的視頻指紋的方法,該指紋可標記視頻唯一身份,不會因視頻內容的格式轉換、剪輯拼接、壓縮旋轉等變換而發(fā)生變化。通過對兩個視頻的指紋進行比對分析,可快速對比待檢測視頻與原視頻之間的相關性,從而達到版權保護的目的。
在進行視頻內容指紋生成時,須先對目標視頻進行逐幀解碼,獲取該視頻的圖像序列。因相鄰像素和連續(xù)幀之間的相關性反映了每一幀的局部結構及其時間動態(tài),此種相關性為具備較強辨別力和穩(wěn)定性的視覺特征。為捕捉和變現(xiàn)這種抽象的視覺特征,將條件受限玻爾茲曼機器[4](Conditional Restricted Boltzmann Machine,CRBM)作為構建深度特征學習網絡的關鍵部件之一。CRBM使用如下能量函數(shù)來定義過去幀上可見和隱藏層的聯(lián)合概率:
其中、和為權重矩陣,和為偏移參數(shù),用于平衡可見層與隱藏層之間的關系。CRBM的結構示意圖如下:
通過訓練參數(shù)來求解最小化損失函數(shù),函數(shù)表達式如下:
通過最小化損失函數(shù),從而求出可見層(多幀圖像)對應的隱藏層,即視頻指紋。
2.2.3 " 基于內容指紋的相似度比對技術
2.2.3.1 "基于文本內容指紋的相似度對比技術
基于文本內容指紋的相似度對比技術是根據(jù)指紋信息與內容唯一D進行關聯(lián)分析,其中指紋信息與內容D是一對多的關聯(lián)關系,關聯(lián)的前提條件是:假如稿件A中存在指紋F1信息,則表示指紋F1與稿件A關聯(lián)成功,最終將所有指紋信息與內容D形成關聯(lián)圖譜存儲在數(shù)據(jù)庫中,實現(xiàn)快速、準確的文本內容相似度對比效果。
對比過程中如圖4所示,首先將文本內容A進行指紋生成,得到指紋列表F,將指紋列表F中所有指紋作為查詢條件去查詢指紋數(shù)據(jù)庫,查詢結果則返回若干個內容D信息,則表示指紋f的查詢結果,即這些稿件內容都共同擁有f指紋信息,最終將內容D列表進行統(tǒng)計分析,每個D在列表中每出現(xiàn)一次即代表指紋命中一次,以此類推,將得到所有內容D的指紋命中次數(shù)表,x則代表命中次數(shù),命中次數(shù)越高則表示與文本內容A越相似。
2.2.3.2 " 基于視頻內容指紋的相似度對比技術
基于視頻內容指紋的相似度對比技術是根據(jù)指紋時間線進行關聯(lián)分析,其中視頻內容下有n個指紋信息,每個指紋信息都有記錄在視頻中出現(xiàn)的時間線,根據(jù)指紋時間線進行對比分析[5],即可快速、準確地找到目標指紋與庫存指紋中的相似視頻片段。
對比的過程如圖5所示,視頻A作為相似度對比的主體,將視頻A進行指紋生成,得到指紋和指紋時間線,在指紋庫中得到視頻B的指紋和指紋時間線,將指紋fa1進行時間線固定,對視頻B中的指紋所在的時間線上進行逐幀滑動,在滑動過程中計算A與B之間指紋序列的重疊次數(shù),從中得到疑似相似的片段,再結合灰度信息進行相似度算分,最終得到視頻A與視頻B的相似度得分。
2.2.4 " 數(shù)字水印嵌入與提取技術
數(shù)字水印技術作為一種典型的信息隱藏技術,把標識信息(如:商標、版權聲明、圖章、電子簽名等標識性內容)直接嵌入數(shù)字載體當中(如:多媒體、文檔、軟件等),嵌入原則上不影響數(shù)字載體的使用價值,且數(shù)字水印也應該是不易被探知、篡改和擦除的[6],以此來實現(xiàn)防偽溯源、版權保護的目的。
數(shù)字水印的架構如圖6所示,主要基于DCT圖像變換自適應數(shù)字水印技術進行嵌入和提?。核∏度腚A段主要將原始數(shù)據(jù)與加密后的水印通過水印嵌入算法加工,獲取到含隱藏水印的數(shù)字載體;水印提取階段主要通過水印提取算法來識別數(shù)據(jù)中是否含有水印,提取數(shù)據(jù)中的水印內容,進而定位到數(shù)據(jù)的具體來源。
在采用DCT圖像變換自適應數(shù)字水印技術[5]將水印信號嵌入到原始圖像載體過程中,主要分為水印圖像預處理、宿主圖像變換、數(shù)字水印嵌入、數(shù)字水印提取。
在水印圖像預處理的過程中,為了減弱圖像數(shù)據(jù)的相關性,將水印圖像進行二值化處理,有像素的位置為1,否則為0,并對水印進行圖像分塊,圖像塊的數(shù)目與原始圖像保持一致,設為。從而保證了視覺對嵌入水印的不敏感性和水印信息的安全性。
宿主圖像變換則是對N×N大小的256灰度的宿主圖像進行8×8的不重疊像素分塊,將宿主圖像從空間域轉換到DCT變換域,以Zig-Zag方式對DCT變換域的圖像頻率系數(shù)進行重新排列,得到一組一維向量系數(shù),并從中選出中頻系數(shù)。
基于數(shù)字水印預處理下得到的數(shù)字水印服從標準正態(tài)分布,數(shù)字水印嵌入的過程中采用隨機序列對中頻系數(shù)進行修改,公式如下:
如果,則
如果,則
其中為水印強度調節(jié)因子,受圖像塊的掩蔽特性值決定,分別為和參數(shù)線型比例參數(shù)。計算方法如下:
在水印提取時,則選取相同的DCT系數(shù),進行上述逆流程操作,即可提取出數(shù)字水印。
2.2.5 " 區(qū)塊鏈鏈上+鏈下存儲
區(qū)塊鏈技術是一種去中心化的分布式數(shù)據(jù)庫技術,由多個節(jié)點共同維護一個不斷增長的數(shù)據(jù)鏈。區(qū)塊鏈存儲技術可分為鏈上存儲和鏈下存儲兩種。其中鏈上存儲適用于存儲關鍵信息,以確保其安全性和不可篡改性;鏈下存儲則更適用于存儲大量數(shù)據(jù),以降低成本和保護隱私。
在實際應用中,由于區(qū)塊鏈的存儲空間有限,鏈上存儲大量數(shù)據(jù)會導致存儲成本較高。此外,鏈上數(shù)據(jù)的公開性存在隱私泄露的問題。針對此問題采取鏈上+鏈下的設計模式[7]:采用明確授權與選擇性披露的存儲策略,用戶將身份標識的信息公布到鏈上,涉及隱私的數(shù)據(jù)存儲在鏈下,能夠有效保護數(shù)據(jù)的隱私安全,同時也降低數(shù)據(jù)的存儲成本。
鏈上存儲的過程中,將數(shù)據(jù)直接存儲在區(qū)塊鏈的區(qū)塊中,每個區(qū)塊都包含一組經過加密的數(shù)據(jù),當一組加密數(shù)據(jù)被確認后,就會被打包進一個區(qū)塊,然后添加到區(qū)塊鏈上,一旦數(shù)據(jù)被寫入?yún)^(qū)塊鏈,就無法進行修改和刪除,保證了數(shù)據(jù)的完整性和安全性,寫入過程中采用分布式存儲在各個參與者的節(jié)點上,降低單點故障風險,同時能夠被所有參與者查看,確保數(shù)據(jù)的可追溯性和透明度。
鏈下存儲的過程中,涉及繁瑣運算的檢驗與核算工作拆解到鏈下,將無須參與共識、數(shù)據(jù)量大、計算繁瑣的數(shù)據(jù)存儲在鏈下的數(shù)據(jù)庫或分布式文件系統(tǒng)中。當特定鏈下數(shù)據(jù)需要進行多方共識時,可通過鏈下本地化分析處理后,再與鏈上進行交互,通過接口發(fā)送交易完成上鏈。
2.3 "“南方版專+”特點
“南方版專+”是由南方報業(yè)傳媒集團針對目前版權市場行業(yè)現(xiàn)狀和媒體維權痛點打造的集確權、監(jiān)測、存證、維權于一體的一站式版權服務平臺。[8]平臺致力于為各類媒體提供全方位的版權運維解決方案,助力媒體版權保護與版權價值變現(xiàn)。平臺具有以下特點。
圖7 " “南方版專+”平臺簡介圖
2.3.1 " 創(chuàng)作即確權
“南方版專+”從區(qū)塊鏈資產的角度切入數(shù)字版權,利用區(qū)塊鏈技術中的不可篡改性,將內容作者、原創(chuàng)時間和創(chuàng)作內容三位一體進行確權。平臺對發(fā)布后的內容、作者真實姓名、創(chuàng)作環(huán)境、創(chuàng)作時間等信息通過現(xiàn)代密碼學算法進行數(shù)字簽名和加密,生成內容的數(shù)字指紋,加上可信的時間戳后進行上鏈,在得到其他節(jié)點的確認后,即完成內容確權的動作,從而保證數(shù)據(jù)的可信及不可篡改,實現(xiàn)“創(chuàng)作即確權”。
2.3.2 " 覆蓋全網,智能侵權監(jiān)測
“南方版專+”涵蓋紙媒、網站、客戶端、微信、微博、論壇等多平臺內容數(shù)據(jù)庫,監(jiān)測覆蓋報紙1400+,網站18000+,移動App1300+,微信公眾號13萬+,微博5萬+。利用大數(shù)據(jù)智能分析技術,對用戶發(fā)布的原創(chuàng)作品進行7*24小時不間斷全網監(jiān)控并及時反饋監(jiān)測結果,讓侵權行為無所遁形。同時,平臺可針對用戶需求進行個性化檢測,如版權方可根據(jù)實際需要選擇單張監(jiān)測或接入圖片庫作批量監(jiān)測,隨后可實現(xiàn)對圖片單獨維權,以體現(xiàn)其應有的版權價值。
2.3.3 " 一鍵取證,永久固證
針對監(jiān)測發(fā)現(xiàn)的侵權記錄,平臺支持一鍵申請證據(jù)保全,實時固化侵權網頁內容并將其封存在服務器上,在經過加密處理后平臺將證據(jù)同步至公證處服務器上,形成具備公證效力的電子證據(jù)。根據(jù)維權用途,對存證數(shù)據(jù)在線向公證處申請出具《電子數(shù)據(jù)公證保管證書》或《電子證據(jù)保全公證書》,節(jié)約固證成本,確保證據(jù)效力。固證后的證據(jù)可通過電子證據(jù)平臺直接遞交互聯(lián)網法院的區(qū)塊鏈平臺——網通法鏈,極大提高維權效率,同時降低維權成本。
2.3.4 " 線上線下一體化維權
“南方版專+”還提供律師函發(fā)送、侵權調解、提起訴訟等專業(yè)律師維權服務,讓入駐單位輕松維權。作為一家由媒體開發(fā)的版權服務平臺,南方版專+比任何一家商業(yè)技術平臺更了解媒體需求和媒體生態(tài),為平臺用戶提供多元化的版權服務,共同推動版權生態(tài)的健康良性發(fā)展。
2.3.4線上線下一體化維權
“南方版專+”還提供律師函發(fā)送、侵權調解、提起訴訟等專業(yè)律師維權服務,讓入駐單位輕松維權。作為一家由媒體開發(fā)的版權服務平臺,南方版專+比任何一家商業(yè)技術平臺更了解媒體需求和媒體生態(tài),為平臺用戶提供多元化的版權服務,共同推動版權生態(tài)的健康良性發(fā)展。
2.3.5 " 應用與成效
“南方版專+”平臺獨有集確權、監(jiān)控、取證及線上開庭于一體并直連廣州互聯(lián)網法院立案系統(tǒng),目前已在南方報業(yè)傳媒集團全面應用,目前已立案的作品超萬件。除南方報業(yè)傳媒集團報網端自用外,目前平臺已吸引安徽日報報業(yè)集團、海南日報報業(yè)集團以集團名義攜旗下全部媒體整體入駐,同時廣東省內的南方財經傳媒集團下屬《21世紀經濟報道》,廣東省出版集團下屬《時代周報》;廣東省外的《中國經營報》《上海證券報》等財經類媒體也已成功入駐,在全國財經媒體聯(lián)盟形成了一定影響力。以《21世紀經濟報道》的入駐為例,3年來,平臺為其代理維權平臺超過60家,目前達成和解的超過20家,涉及合同金額超過700萬。
結語
隨著深度學習技術和區(qū)塊鏈技術的高速發(fā)展,“南方版專+”也將隨著技術生態(tài)的不斷優(yōu)化和應用場景的不斷完善而持續(xù)改進升級,為南方報業(yè)傳媒集團的媒體融合發(fā)展保駕護航,并衍生媒體版權服務新業(yè)態(tài)。
本文所構建的“南方版專+”平臺雖然取得了一定的成果,但其在關鍵技術的研究上還存在一定的優(yōu)化空間。比如,基于CRBM的視頻內容指紋生成技術在健壯性與識別能力之間的平衡性還可進一步優(yōu)化。后續(xù)還將重點關注智能化識別和多模態(tài)特征共享等方面,對相關的策略和算法進行研究及應用落地,不斷提升“南方版專+”平臺能力,為新媒體中多模態(tài)數(shù)字內容提供更安全的版權保護。
[1]國家版權局網絡版權產業(yè)研究基地.《中國網絡版權產業(yè)發(fā)展報告(2020)》[EB/OL].https://www.ncac.gov.cn/chinacopyright/upload/files/2021/6/9205f5df4b67ed4.pdf.2021-05-17/2023-04-11.
[2]劉玲武. 融媒體時代版權保護機制困境及其與區(qū)塊鏈的耦合發(fā)展研究[J]. 出版與印刷,2020(4):1-8.
[3]王安瑾.一種基于MinHash的改進新聞文本聚類算法[J].計算機技術與發(fā)展,2019(2):39-42.
[4]劉凱,汪興海,張杰.基于深度玻爾茲曼機的圖像多特征融合[J].艦船電子工程,2020(1):32-36.
[5]常江,夏泳,黨海飛等.一種基于人工智能技術的視頻指紋計算與比對系統(tǒng)[J]. 廣播與電視技術,2021(8):29-31.
[6] 蔣銘.多媒體數(shù)字版權保護水印算法研究及應用[D].北京:北京郵電大學,2012.
[7]王晨宇,王洪彬,徐士博等.基于區(qū)塊鏈技術的數(shù)據(jù)存儲和傳遞系統(tǒng)設計[J].物流科技,2023(7):29-31.
[8]洪曉玲.傳統(tǒng)媒體如何保護新媒體版權[N].中國新聞出版廣電報,2019(12).
作者簡介:王夢環(huán)(1995-),男,湖北天門,研究方向為計算機視覺算法研發(fā);羅小龍(1988-),男,湖南長沙,研究方向為數(shù)據(jù)治理與智能化研發(fā);李梓華(1996-),男,廣東東莞,研究方向為NLP算法研發(fā)。
(責任編輯:張曉婧)