傳媒行業(yè)從黑白到彩色,從模擬到數(shù)字化,從標(biāo)清到高清再到超高清,從三根線到SDI再到IP化傳輸,很多從業(yè)者都經(jīng)歷完整的傳媒行業(yè)的發(fā)展,也見證整個傳媒行業(yè)崛起。2024年2月, Sora剛剛發(fā)布的時候,傳媒從業(yè)者產(chǎn)生是否會被AI取代的憂慮,但隨著技術(shù)迭代不斷發(fā)展,我們發(fā)現(xiàn)AI帶來的只是一個全新的生產(chǎn)方式和生產(chǎn)工具,我們要做的就是擁抱這種新的生產(chǎn)工具。像科大訊飛推出的自然語言處理技術(shù)和星火大模型,已成為越來越多的國內(nèi)多領(lǐng)域頭部媒體及企業(yè)大模型應(yīng)用首選,正在加速賦能廣電傳媒行業(yè)。
智能語音技術(shù)不斷迭代升級
作為智能語音“國家隊”,科大訊飛在智能語音技術(shù)領(lǐng)域有著長期研究積累,并在中文語音合成、語音識別、口語評測等多項技術(shù)上擁有國際領(lǐng)先成果。基于擁有自主知識產(chǎn)權(quán)的世界領(lǐng)先智能語音技術(shù),我們推出并不斷迭代升級訊飛星火大模型、訊飛同傳、訊飛繪文、訊飛智文等產(chǎn)品應(yīng)用。
其中,訊飛同傳依托科大訊飛語音轉(zhuǎn)寫、 機器翻譯、語音合成等核心技術(shù),實現(xiàn)多語種混合識別,多語種語音翻譯、會議內(nèi)容記錄、實時字幕等,并可支持遠程會議人工保障等多種功能。早在2011年,科大訊飛就經(jīng)國家發(fā)展改革委批準與中國科學(xué)技術(shù)大學(xué)成立 “語音及語言信息處理國家工程實驗室”。目前,科大訊飛的語音技術(shù)已經(jīng)形成從識別、轉(zhuǎn)寫、翻譯到語音合成的完整鏈路,并與眾多行業(yè)頭部企業(yè)在人工智能、大數(shù)據(jù)等領(lǐng)域開展全面合作與應(yīng)用。2024年6月,科大訊飛以多語種智能語音關(guān)鍵技術(shù)及產(chǎn)業(yè)化獲得國家科學(xué)進步一等獎。
在機器轉(zhuǎn)寫和翻譯方面,2015年12月,科大訊飛首次將人類發(fā)言同步轉(zhuǎn)寫成實時字幕,這開啟機器轉(zhuǎn)寫應(yīng)用新篇章。2021年11月,在多語種識別比賽中,科大訊飛在15個語種22項比賽中全部是第一名。同時,科大訊飛推出的C端翻譯機作為“口袋中的翻譯官”,支持80多個語種,覆蓋200多個國家和地區(qū)。
在語音合成方面, 科大訊飛基于聽感量化的多人混合訓(xùn)練等合成框架,在配音合成、對話合成等更有表現(xiàn)力的場景方面,以自然通報分5分為滿分的評價指標(biāo),已做到接近4.5分的水平,擬人度達到83%。因此,我們這項成熟的語音合成技術(shù),在學(xué)習(xí)強國、新華社等主流媒體平臺被廣泛應(yīng)用。
星火大模型推動數(shù)字傳媒發(fā)展
2023年5月, 科大訊飛首次發(fā)布通用大模型“星火認知大模型V1.0”。星火認知大模型的能力包括文本生成、語言理解、知識問答、邏輯推理、數(shù)學(xué)能力、 代碼能力、多模態(tài)能力等方面。今年6月,科大訊飛正式發(fā)布訊飛星火大模型V4.0,其文本生成、語言理解、多模態(tài)等7個核心能力全面提升,整體超越GPT-4 Turbo。
在國產(chǎn)化算力方面,科大訊飛一直強調(diào)大模型技術(shù)底座自主可控。2023年10月,科大訊飛與華為聯(lián)合打造的首個支撐萬億參數(shù)大模型訓(xùn)練的萬卡國產(chǎn)算力平臺“飛星一號”正式啟用,并在此基礎(chǔ)上開展對標(biāo)GPT-4的更大參數(shù)規(guī)模的大模型訓(xùn)練。該平臺是國內(nèi)唯一在國產(chǎn)化算力下的大模型基座。在大模型加持下,我們的多語種和多方言免切換識別能力也有了提升,現(xiàn)在可以支持37個語種及37種方言免切換,方言識別效果平均提升30%。另外,科大訊飛打造的企業(yè)智能體平臺,可供企業(yè)結(jié)合業(yè)務(wù)場景快速構(gòu)建可落地的智能體應(yīng)用。
科大訊飛始終致力于支持國家戰(zhàn)略,推動數(shù)字傳媒發(fā)展。我們率先推出傳媒大模型,該模型覆蓋信息傳播、 文化傳播及國際傳播全流程生產(chǎn)場景,為眾多媒體機構(gòu)提供全面的智能創(chuàng)作平臺。得益于傳媒大模型加持,我們在內(nèi)容生產(chǎn)效率、管理制度及內(nèi)容安全審核等方面實現(xiàn)質(zhì)的提升。
多模態(tài)內(nèi)容生成方面,科大訊飛的音頻創(chuàng)作能力尤為突出。我們的語音合成技術(shù)可以支持廣播節(jié)目的AI同期聲配音、AI常態(tài)化廣播及國際傳播節(jié)目配音。
在圖像創(chuàng)作方面,科大訊飛不僅具有文生圖和文生視頻方面的能力,還賦能全媒體生產(chǎn)流程。在國內(nèi)外大型活動上,科大訊飛除提供文字轉(zhuǎn)寫成字幕,還有國際傳播中心或者國際頻道相應(yīng)翻譯,以及后期語音合成配音。在AI數(shù)字人場景應(yīng)用方面,在媒體、金融、文旅教育、政企等多個行業(yè)有相應(yīng)應(yīng)用落地,為內(nèi)容創(chuàng)作者提供相應(yīng)AI創(chuàng)作助手。
在今后的發(fā)展中,科大訊飛將繼續(xù)致力于在人工智能生成內(nèi)容(AIGC)領(lǐng)域為數(shù)字傳媒行業(yè)注入新的生產(chǎn)力,在內(nèi)容生產(chǎn)、內(nèi)容安全、內(nèi)容管理和內(nèi)容運營等多個方面進行深入開發(fā)和優(yōu)化。 最終,我們期待在AIGC時代,積極擁抱AIGC工具、AI技術(shù),以及全新視角和生產(chǎn)模式。W
(作者張美靜系科大訊飛股份有限公司智慧傳媒業(yè)務(wù)總監(jiān))
責(zé)任編輯:任雨希