亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        人工智能技術在新華社統(tǒng)一數據庫中的應用

        2023-11-01 08:38:16孟慶玉
        中國傳媒科技 2023年10期
        關鍵詞:新華社音頻檢索

        孟慶玉

        (新華社技術局,北京 100803)

        1.背景

        媒體融合是時代所向、大勢所趨。從《關于推動傳統(tǒng)媒體和新興媒體融合發(fā)展的指導意見》,到印發(fā)《關于加快推進媒體深度融合發(fā)展的意見》,媒體融合發(fā)展成為國家戰(zhàn)略。[1]2021 年新華社建社90 周年之際,習近平總書記給新華社的賀信中指出,新華社要“加快融合發(fā)展,加強對外傳播,努力建成國際一流新型全媒體機構”。

        隨著數據井噴、算法進步以及算力突破,以ChatGPT 為代表的人工智能技術“一日千里,狂飆突進”,給傳媒業(yè)帶來巨大機遇和挑戰(zhàn)。2021 年11 月,人民日報社傳播內容認知國家重點實驗室與人民中科共同發(fā)布了面向內容安全的跨模態(tài)視頻搜索引擎“白澤”。2022 年7 月,“白澤”企業(yè)公共服務平臺正式發(fā)布?!鞍诐伞睂崿F了文本搜圖片、文本搜視頻、圖片搜視頻、視頻搜視頻、圖片搜文字、視頻搜文字等多元搜索功能。2022 年4 月,谷歌在移動端推出Multisearch,允許用戶同時輸入圖片和文本進行檢索。例如拍攝了模特一身橙色長裙的照片,輸入“綠色”文本,即可獲得綠色長裙的商品信息。5 月,谷歌推出“Multi-search near Me”,結合谷歌地圖進行檢索。統(tǒng)一數據庫是新華社大數據中心整合新華社新聞信息、報刊、文獻資料、圖片總匯、中國照片檔案館、新華網、電視節(jié)目視頻、移動新媒體等渠道資源,應用多種前沿的人工智能技術融匯而成的數據服務系統(tǒng)。本文將對大數據分析、預訓練大模型、多模態(tài)檢索等人工智能技術在統(tǒng)一數據庫中的應用進行闡述,并就未來發(fā)展趨勢進行探索與展望。

        2.業(yè)務需求

        新華社大數據中心存儲了15 個語種,近4.5 億條珍貴文本稿件和資料,2000 萬張照片、2.5 萬小時音視頻資料。傳統(tǒng)的檢索方式對圖片、視頻、音頻資源的搜索是基于稿件的標題或正文等信息,圖片、視頻、音頻自身的非結構化信息,沒有得到有效利用?;谖谋镜膫鹘y(tǒng)檢索在全媒體時代已逐漸陷入困境。手機拍了一張照片,新華社有相似的圖片和視頻嗎?有相關的文字報道嗎?如何精確檢索到“古特雷斯”的照片和視頻?新華社很多歷史音頻沒有同期聲文字,這些音頻如何檢索?

        隨著傳媒格局和傳播形態(tài)的深刻變革,隨著新華社深入推進媒體融合、大力構建內外并重的工作格局,用戶迫切需要對視音頻自身的非結構信息結合文本信息實現聯合檢索,新聞內容生產和檢索服務需求呈現出從資料查詢到價值發(fā)現的趨勢,形態(tài)上呈現出從單一模態(tài)到多模態(tài)的發(fā)展態(tài)勢。經過深度的用戶需求調研,統(tǒng)一數據庫在優(yōu)化傳統(tǒng)文字檢索服務基礎上,提供語義搜索、以圖搜圖、人像檢索、以圖搜視頻、音頻搜索音頻等多項多模態(tài)檢索服務,豐富了編輯記者信息搜索的方式。

        3.技術應用

        3.1 大數據技術強化數據分析

        統(tǒng)一數據庫應用NLP 大數據分析技術對文本數據自動提取摘要、主題詞等新聞要素,實現聚類、敏感詞檢測、情感分析等數據處理;利用語音轉寫技術,將音視頻中的同期聲轉換為文本數據;應用人工智能技術對圖片、圖像進行OCR 文字的識別和人物、機構、場景、物體、顏色等新聞要素的標注。

        3.1.1 報道專題庫

        統(tǒng)一數據庫利用自動標注后的數據,按照新聞報道策劃自動生成兩會報道、元首外交、進博會和紀錄小康等專題數據庫產品,推動了新聞內容生產流程的自動化、智能化,實現了從單純的稿件管理到內容產品服務的升級跨越。打破了以往以分類為主的稿件展示形式,讓稿件真正“活起來”,達到“從業(yè)務角度整理數據,從用戶角度展示數據”。

        3.1.2 綜合檢索

        綜合搜索服務功能強大,應用廣泛,采用開源搜索數據庫ElasticSearch 作為基礎組件,實現業(yè)務需求全覆蓋。搜索服務支持多種類型的字段檢索,包括大文本、多值、單值、時間等多種類型。統(tǒng)一數據庫融合新聞文本、圖像OCR、語音同期聲以及人物、機構、場景等新聞要素字段提供搜索服務,提升了挖掘信息的能力。

        綜合檢索服務支持中文、英文、日文、韓文等近二十種語言的檢索功能。針對不同的語言,經開發(fā)團隊進行特定分析,采用符合該語種特點的分詞器生成索引數據,并在檢索服務層面進行定制化開發(fā)。為提高中文檢索的準確度,項目組利用新華社稿件作為訓練數據集,采用lstm+crf 深度學習模型完成分詞模型的訓練工作,基于該分詞模型封裝的ElastiSearch 中文分析器在分詞的準確度方面較開源的Jieba、IK 分詞器有了明顯提升,顯著提升了中文檢索的準確性。為提高檢索結果的相關度,綜合檢索使用自研的相關度打分模型。該模型能夠顯著提高檢索服務的準確率和召回率,并支持多種排序方式,如相關度、時間等,以確保用戶“想找的”始終排在最前面。

        3.2 多模態(tài)檢索

        傳統(tǒng)的信息檢索以文本檢索為主,只能按照文本中的關鍵詞文本進行匹配檢索。隨著大模型時代的到來,圖片、視頻、音頻經過大模型處理后,將非結構化數據轉化為大模型向量。由于相似的圖片、視頻、音頻具有空間上相近的向量,結合大模型推理能力,就可以實現多模態(tài)、跨模態(tài)檢索。統(tǒng)一數據庫新推出的多模態(tài)檢索可以結合文本、圖像、音頻、視頻等多種媒體形式,為用戶提供更準確、豐富的檢索功能。

        新華社大數據中心在多模態(tài)檢索方面布局較早,采用大模型特征提取和Milvus 向量檢索技術路線,利用特征提取技術,從圖片、音頻、視頻中提取圖片、人臉、音頻、視頻向量特征,存入Milvus 開源向量數據庫,基于Milvus 進行向量檢索;利用深度學習,基于新華社稿件訓練得到分詞模型,并運用到全文檢索引擎分析器,進一步提升了全文檢索的準確性和召回率。面向全媒體業(yè)務提供語義搜索、以圖搜圖、以圖搜視頻、人像檢索、音頻檢索、顏色篩選等多模態(tài)、跨模態(tài)的智能檢索功能。

        圖1 多模態(tài)檢索技術架構示例圖

        3.2.1 語義搜索

        語義搜索包括語義搜圖和語義搜視頻,是指用自然語言以文本描述檢索到所需圖片或者視頻。媒體融合發(fā)展背景下,該功能是新聞編輯最為迫切的需求。傳統(tǒng)的文字編輯使用此功能后可以迅速達到新媒體編輯的要求。

        預訓練大模型由于其極佳的性能和泛用性,已經成為人工智能領域通用的解決方案。統(tǒng)一數據庫中使用的多模態(tài)預訓練大模型技術是在國內通用領域基線模型ERNIE 基礎上,針對新華社稿件預訓練的研發(fā)成果。

        傳統(tǒng)的視覺-語言預訓練技術基于單視角的對比學習,無法學習多種模態(tài)間和模態(tài)內的關聯性,我們采用了ERNIE-ViL 基于多視角對比學習的預訓練框架,基于新華社豐富的新聞媒體領域視覺/文本樣本,使用超大規(guī)模樣本無監(jiān)督地進行跨模態(tài)對比學習訓練,訓練出能夠理解不同模態(tài)間和模態(tài)內媒體樣本關聯性的大模型。

        在預測階段,我們將預訓練大模型部署為特征提取模式,對輸入的視頻、文本樣本,提取特征向量,再由調用方根據不同需求,送入向量數據庫作為待檢索樣本,或者作為搜索請求去向量數據庫檢索。訓練針對實時新聞數據的大模型,將多媒體樣本提取特征映射到統(tǒng)一的空間中,搭配相似度檢索技術完成無標簽樣本的通用語義稿件檢索。

        開源預訓練大模型主要面向通用數據,往往對新聞樣本,尤其涉政樣本效果不佳,且對新聞概念難以及時理解分析。本項目面向新華社的權威媒體新聞業(yè)務,基于主流媒體新聞數據,側重涉政稿件內容,并增加特色訓練任務,如圖文匹配、組圖分類等,周期性地產出模型,確保模型對新聞數據的準確理解和分析,從而為新華社的權威媒體新聞業(yè)務提供更加準確、有效的多模態(tài)語義檢索服務。

        經與百度公司協同客觀評測,本項目訓練后的模型在全領域稿件數據下,與國際通用的CLIP 架構模型對比,召回準確率提升一倍以上;與開源最佳的清華大學R2D2 對比,召回準確率提升約10%。在主流媒體側重的涉政類領域,與國際通用的CLIP 架構模型對比,召回準確率提升數倍;與開源最佳的清華大學R2D2 對比,召回準確率提升約70%。預訓練大模型技術的多模態(tài)檢索能力在行業(yè)中表現出最佳性能,顯示出其在自然語言處理領域的卓越能力。

        3.2.2 圖片搜索

        統(tǒng)一數據庫的圖片搜索包括以圖搜圖和以圖搜視頻。特別是以圖搜圖功能存在更多的使用場景,更是受到了記者編輯的極大歡迎。例如,上傳一張未知建筑或者未知場景的圖片可以快速在圖片庫中找到相似圖片,通過圖片庫中已經存在數據可以識別用戶上傳的圖片場景。

        統(tǒng)一數據庫圖片搜索選用EfficientNetV2 模型對新華社2000 萬張的成品圖片進行了特征向量抽取,將特征結果存入向量數據庫,提供秒級檢索服務,處于行業(yè)領先水平。

        以圖搜圖功能在技術選型上,通過對比Vgg16、ResNet50、EfficientNetV1、EfficientNetV2 等人工智能模型在新華社1800 萬圖片稿件測試下的效果,最終選擇EfficientNetV2 模型。

        3.2.3 人像搜索

        人像搜索在應用上和以圖搜圖有相似之處,算法上各有側重。統(tǒng)一數據庫的人像搜索采用最先進的MTCNN 人臉檢測算法。MTCNN 是一種多任務級聯卷積神經網絡,用以同時處理人臉檢測和人臉關鍵點定位問題。人臉檢測和人臉關鍵點檢測兩個任務之間往往存在著潛在的聯系,然而以往的方法都未將兩個任務有效的結合起來,MTCNN 充分利用兩個任務之間潛在的聯系,將人臉檢測和人臉關鍵點檢測同時進行,實現人臉檢測和5 個特征點的標定。這個算法在應用上準確率很高,達到了非常完美的效果。

        3.2.4 音頻搜索

        統(tǒng)一數據庫音頻處理采用DeepSpeaker 人工智能模型。同百度的DeepSpeech 模型和Google 的WaveNet相比,DeepSpeaker 具有更高的說話人識別準確率和更好的魯棒性。同時還具有良好的可擴展性,能夠不斷學習和適應新的語音和說話人,挖掘音頻波形中蘊含的說話人聲紋信息。在以新華社成品音頻稿件作為測試集的試驗中,超過90%的檢索結果于首位擊中目標音頻,展示出優(yōu)越的檢索能力。

        為提高音頻檢索的準確度,本項目根據新華社音頻稿件特點定制化設計音頻分幀算法,在錨定音頻片段時間位置的同時,實現單一人聲的分離和足量聲紋特征的保留,增強特征向量的表征能力和區(qū)分度。調優(yōu)后的音頻處理算法相較于通用音頻檢索算法,更加適用于以新聞為基本內容的音頻的檢索,檢索精度優(yōu)異,達到了先進水平。

        4.探索與思考

        通過統(tǒng)一數據庫在大數據分析、大模型、多模態(tài)檢索等方面的實踐探索,可以看到先進適用技術的潛力和價值。智慧中臺提供數智融合的大數據底座,大模型重塑生產傳播全流程,多模態(tài)檢索更快速準確獲取信息,改善用戶體驗,創(chuàng)造更多價值。本項目由于應用了側重不同場景的多種算法模型,前端應用需要花費資源對各種返回結果進行聚合才能更好的服務用戶。未來應加大力度研發(fā)將不同模態(tài)信息映射到一個統(tǒng)一特征表示空間下的算法準確率,以便優(yōu)化系統(tǒng)架構,減少中間環(huán)節(jié)。在開源技術基礎上,設計并訓練一個符合傳媒業(yè)或者新華社特點和需求的生成式大模型,基于特定場景進行訓練和使用,將有助于提升新華社內容生產質量和效率,產生意想不到的效果。

        新的功能服務上線,用戶需要花費時間來學習和適應。為減少學習成本,未來應依靠開源大模型自主研發(fā)對話式檢索,通過自然語言,進行深度交互,支持連續(xù)多輪對話,并在對話過程中記憶先前的對話信息,實現上下文理解。這將極大地提升用戶體驗,幫助受眾準確地表達他們的需求。

        未來,多模態(tài)檢索應用場景還將延展到移動端檢索、媒資管理、內容安全、內容推薦、知識圖譜等更多領域。依托人工智能技術,新華社大數據平臺多模態(tài)檢索能力將不斷提升,持續(xù)為采編和營銷賦能。同時需要警惕,AIGC 技術的過度應用將給我國主流全媒體傳播體系在維護良好輿論環(huán)境和意識形態(tài)安全方面帶來挑戰(zhàn)。過度依賴AIGC 將改變互聯網的內容構成,人類原創(chuàng)內容和知識發(fā)現會逐步減少。據國際新聞媒體協會預測,到2030 年將有超過一半的在線內容由人工智能生產,其中絕大多數不會來自主流媒體或權威機構。

        我們要充分發(fā)揮內容資源優(yōu)勢,積極拓展宣傳陣地,不僅要鞏固自身作為傳統(tǒng)新聞輿論重鎮(zhèn)的地位,還將傳統(tǒng)媒體的影響力拓展到網絡空間,不斷推出具有自身特色的新媒體平臺和產品。

        猜你喜歡
        新華社音頻檢索
        再創(chuàng)新高
        視界
        遵義(2019年20期)2019-10-24 01:41:32
        2019年第4-6期便捷檢索目錄
        應用“8K+5G”技術創(chuàng)新國慶閱兵報道——新華社的實踐與思考
        傳媒評論(2019年10期)2019-06-05 09:25:46
        必須了解的音頻基礎知識 家庭影院入門攻略:音頻認證與推薦標準篇
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        “剛剛體”走紅,新華社“小編”如何專業(yè)賣萌
        傳媒評論(2017年7期)2017-11-08 03:10:56
        音頻分析儀中低失真音頻信號的發(fā)生方法
        電子制作(2017年9期)2017-04-17 03:00:46
        專利檢索中“語義”的表現
        專利代理(2016年1期)2016-05-17 06:14:36
        Pro Tools音頻剪輯及修正
        人間(2015年8期)2016-01-09 13:12:42
        亚洲精品无码永久在线观看你懂的| 男女干逼视频免费网站| 亚洲中文字幕免费精品| 少妇高潮太爽了在线看| 亚洲色婷婷一区二区三区| 精品一区二区三区芒果| 最新精品国偷自产在线| 亚洲美女影院| 一区二区三区在线蜜桃| 精品人妻一区二区三区在线观看| 最新中文字幕av无码不卡| 亚洲AV无码一区二区三区日日强 | 日韩av免费一区二区| 国产乱码卡二卡三卡老狼| 久久av无码精品人妻出轨| A亚洲VA欧美VA国产综合| 国产成人av区一区二区三| 国产精品免费无遮挡无码永久视频| 日本护士吞精囗交gif| 成人永久福利在线观看不卡| 色噜噜亚洲精品中文字幕| 亚洲av日韩av永久无码下载| 国产麻无矿码直接观看| 黄色大片一区二区中文字幕| 日韩有码在线一区二区三区合集| 久久精品国产亚洲av网站| 亚洲视频在线看| 成人黄网站免费永久在线观看| av在线观看免费天堂| 成人久久久久久久久久久| 高清国产美女一级a毛片在线| 宅男天堂亚洲一区二区三区| 少妇人妻中文字幕hd| 久久久久无码国产精品不卡 | 丰满大爆乳波霸奶| 欧美老妇与禽交| 亚洲天堂av社区久久| 免费在线观看视频播放| 丰满人妻av无码一区二区三区| www.亚洲天堂.com| av天堂手机免费在线|