孫媛媛
AI技術(shù)的創(chuàng)新迭代,將驅(qū)動(dòng)虛擬人的應(yīng)用場(chǎng)景進(jìn)一步落地,為虛擬人行業(yè)發(fā)展帶來(lái)更多想象力和可能性。
虛擬數(shù)字人行業(yè)近年來(lái)發(fā)展迅速,其技術(shù)發(fā)展和市場(chǎng)需求基本圍繞兩點(diǎn)演變,一是視覺(jué)效果,二是交互體驗(yàn)。用戶對(duì)于虛擬數(shù)字人的市場(chǎng)認(rèn)可和消費(fèi)意愿,使虛擬數(shù)字人強(qiáng)大的商業(yè)價(jià)值日益凸顯,加之國(guó)家相關(guān)產(chǎn)業(yè)政策明確表示對(duì)這一新興產(chǎn)業(yè)的支持,新老互聯(lián)網(wǎng)廠商紛紛加碼虛擬數(shù)字人市場(chǎng),自2022年以來(lái)虛擬數(shù)字人的市場(chǎng)應(yīng)用呈現(xiàn)爆發(fā)態(tài)勢(shì)。
即構(gòu)科技2015年成立后,專(zhuān)注自研音視頻引擎,目前已成為全球知名的音視頻云服務(wù)商,多年來(lái)一直在深耕探索音視頻通信、實(shí)時(shí)互動(dòng)、音視頻處理、AI算法等多方面的技術(shù)與能力,尤其在音視頻處理的底層技術(shù)方面具有天然技術(shù)優(yōu)勢(shì),憑借多年沉淀下來(lái)的RTC能力,以及在移動(dòng)端豐富的項(xiàng)目落地經(jīng)驗(yàn),可以穩(wěn)定保障生成式數(shù)字人的音視頻內(nèi)容畫(huà)質(zhì)高清、音質(zhì)無(wú)損,以及數(shù)字人直播的實(shí)時(shí)性體驗(yàn)。即構(gòu)科技創(chuàng)始人兼CEO林友堯表示,即構(gòu)科技無(wú)論在AIGC還是在元宇宙中,最大的核心競(jìng)爭(zhēng)力都是強(qiáng)調(diào)實(shí)時(shí)互動(dòng)。
RTC技術(shù)實(shí)力加持令A(yù)I數(shù)智人快速落地
早在2019年,林友堯就觀察到在線互動(dòng)的新需求,開(kāi)始進(jìn)行技術(shù)積累,包括AI算法、虛擬現(xiàn)實(shí)建模等。當(dāng)看到元宇宙概念走紅時(shí),林友堯感到興奮,因?yàn)樵钪婺芨玫貙⒐痉e累的技術(shù)整合起來(lái),讓技術(shù)有“用武之地”。
即構(gòu)科技在AI領(lǐng)域早有沉淀,其數(shù)字人產(chǎn)品的核心技術(shù)——AI多模態(tài)生成算法,是基于視覺(jué)感知算法和音視頻生成算法以及NLP語(yǔ)義算法的多模態(tài)AI能力的融合,能夠有效促進(jìn)產(chǎn)品在業(yè)務(wù)場(chǎng)景中的商業(yè)化落地,解決實(shí)際痛點(diǎn)。
從最基礎(chǔ)的“面部表情傳遞情感信息”這一基本場(chǎng)景嘗試重構(gòu)溝通方式,經(jīng)過(guò)一年的研發(fā),在2022年即構(gòu)科技推出了3D數(shù)字人產(chǎn)品——ZEGO?Avatar,通過(guò)對(duì)面部表情的高度還原、極低的延遲,實(shí)現(xiàn)了超情感表達(dá)。
同時(shí),林友堯意識(shí)到,人人互動(dòng)和人場(chǎng)互動(dòng)是互聯(lián)網(wǎng)未來(lái)核心場(chǎng)景,重構(gòu)這種場(chǎng)景,需要對(duì)場(chǎng)景抽象化,并實(shí)現(xiàn)高并發(fā)、低延遲的狀態(tài)同步?;诖?,即構(gòu)科技推出了具備虛擬世界開(kāi)發(fā)能力的產(chǎn)品——ZEGO?Metaworld。
今年以來(lái),即構(gòu)科技加碼數(shù)字人業(yè)務(wù),從原先專(zhuān)注3D數(shù)字人,到2D、3D多線并舉,其中2D業(yè)務(wù)上線一站式數(shù)智人解決方案,應(yīng)用于知識(shí)口播、金融、教育、營(yíng)銷(xiāo)、企業(yè)內(nèi)訓(xùn)等場(chǎng)景。
“即構(gòu)數(shù)智人——即智”是即構(gòu)科技最新打造的AI視頻生成應(yīng)用,通過(guò)行業(yè)領(lǐng)先的人工智能、面部動(dòng)態(tài)識(shí)別、聲音處理、實(shí)時(shí)互動(dòng)技術(shù)、云計(jì)算技術(shù)為企業(yè)提供高效的短視頻營(yíng)銷(xiāo)工具、虛擬直播、實(shí)時(shí)互動(dòng)型數(shù)字人等一站式解決方案,可支持?jǐn)?shù)智人形象定制、短視頻創(chuàng)作、數(shù)智人直播,為企業(yè)降本增效再提速。
即構(gòu)數(shù)智人的表現(xiàn)效果,是外界最為關(guān)心的,也是即構(gòu)科技著力打磨的地方。目前“即智”支持定制形象、背景、音色、語(yǔ)言。在平臺(tái)輸入內(nèi)容后,“即智”可自動(dòng)進(jìn)行語(yǔ)義理解,模仿真人表情與動(dòng)作,并且根據(jù)同一段內(nèi)容,數(shù)智人可以每次演繹出不同效果,如同人類(lèi)的“微表情”。
而通過(guò)“即智”數(shù)智人平臺(tái),用戶只需要上傳一段5分鐘的本人錄制視頻,就可以1:1還原本人的聲音、形象,并且在平臺(tái)內(nèi)自由進(jìn)行內(nèi)容創(chuàng)作或者進(jìn)行直播,省去了內(nèi)容生產(chǎn)過(guò)程中的籌備、拍攝、剪輯過(guò)程,團(tuán)隊(duì)可以將更多時(shí)間和精力專(zhuān)注在內(nèi)容質(zhì)量的打磨上,生產(chǎn)效率大大提高。
作為即構(gòu)科技產(chǎn)業(yè)互聯(lián)網(wǎng)業(yè)務(wù)總裁,王文祥目前負(fù)責(zé)即構(gòu)產(chǎn)業(yè)互聯(lián)網(wǎng)業(yè)務(wù)和創(chuàng)新業(yè)務(wù),曾主導(dǎo)過(guò)即構(gòu)RTI升級(jí)、即構(gòu)元宇宙互動(dòng)引擎等創(chuàng)新項(xiàng)目。在接受《小康》雜志、中國(guó)小康網(wǎng)采訪時(shí),王文祥表示,目前能夠熟練運(yùn)用短視頻及直播等營(yíng)銷(xiāo)手段創(chuàng)造效益的企業(yè)并不多,究其原因,是主播人力成本、設(shè)備搭建成本、操作成本、試錯(cuò)成本等支出較高,而數(shù)字人的出現(xiàn),恰好能解決這一痛點(diǎn)。越來(lái)越多企業(yè)開(kāi)始探索數(shù)字人的智能交互體驗(yàn),為企業(yè)自身的運(yùn)作降本增效。另外,在企業(yè)的數(shù)字化轉(zhuǎn)型過(guò)程中,數(shù)字人技術(shù)也被持續(xù)應(yīng)用到如線下大屏、單向客服、數(shù)字教練、VolTel等場(chǎng)景中。
做垂直行業(yè)的數(shù)字人
近年來(lái),AI數(shù)字人已逐漸成為各行業(yè)數(shù)字化應(yīng)用的新風(fēng)口,國(guó)內(nèi)外AI大模型的陸續(xù)出現(xiàn)、廣泛的應(yīng)用前景以及來(lái)自政策層面的大力支持,使這一領(lǐng)域充滿想象空間。當(dāng)AIGC時(shí)代來(lái)臨,哪些企業(yè)具有較早的技術(shù)積累和沉淀,哪些企業(yè)能夠迅速結(jié)合市場(chǎng)需求推出實(shí)用的產(chǎn)品和服務(wù),哪些企業(yè)就掌握了該領(lǐng)域的發(fā)展先機(jī)。
即構(gòu)科技在人人交互和人機(jī)交互領(lǐng)域里積攢經(jīng)驗(yàn),結(jié)合數(shù)智人和大語(yǔ)言模型,為垂直行業(yè)帶來(lái)全新的智能交互體驗(yàn),讓更多客戶體驗(yàn)技術(shù)帶來(lái)的降本增效,通過(guò)“人格化的數(shù)智人”“行業(yè)垂直可控的數(shù)智人”這樣的方案,實(shí)現(xiàn)“有溫度的人機(jī)互動(dòng)”。數(shù)字人和數(shù)智人,有一字之差,王文祥解釋說(shuō):“‘智是一種強(qiáng)調(diào),強(qiáng)調(diào)我們的數(shù)字人更加有智慧、有溫度。”
據(jù)了解,即構(gòu)科技目前已為200多個(gè)國(guó)家/地區(qū)提供一站式音視頻云服務(wù),音視頻技術(shù)已經(jīng)服務(wù)超過(guò)4000家客戶,創(chuàng)業(yè)八年多時(shí)間,公司全部客戶的流失率不到5%,其中大客戶的流失率更是幾乎為0。由于在行業(yè)內(nèi)有很多已經(jīng)落地的成功案例,針對(duì)不同行業(yè)的成熟落地方案,對(duì)于拓展數(shù)字人業(yè)務(wù)具有先發(fā)優(yōu)勢(shì)?;诒旧韺?duì)社交娛樂(lè)、金融、醫(yī)療、教育等行業(yè)深刻的理解和服務(wù),所以數(shù)字人的新業(yè)務(wù)也能夠更好地適應(yīng)和響應(yīng)客戶們的需求。
王文祥提到,“大模型有通用大模型,未來(lái)做大模型除了大廠之外,一些中小型廠商聚焦于做垂直領(lǐng)域的大模型也是非常有市場(chǎng)前景的。而對(duì)于即構(gòu)來(lái)說(shuō),我們希望在應(yīng)用這塊能夠賦能企業(yè)去真正地創(chuàng)造價(jià)值。因此,我們會(huì)注重具體行業(yè)的定制化需求,這是差異化的業(yè)務(wù)戰(zhàn)略?!?/p>
即構(gòu)科技于今年推出的“即智”數(shù)智人平臺(tái),其應(yīng)用于金融領(lǐng)域,可通過(guò)“AI?bank”的模式,讓用戶體驗(yàn)更有溫度更智慧化的業(yè)務(wù)辦理。針對(duì)如何防止黑產(chǎn)行業(yè)利用虛擬數(shù)字人進(jìn)行騙貸騙保等痛點(diǎn),則配套了金融反欺詐的解決方案。與此同時(shí),即構(gòu)數(shù)智人還可適配金融行業(yè)自建產(chǎn)品銷(xiāo)售網(wǎng)絡(luò)及內(nèi)部大型培訓(xùn)等個(gè)性化需求,助力金融機(jī)構(gòu)構(gòu)建自有的私有化直播平臺(tái)。
“像銀行這種對(duì)安全有高要求的敏感行業(yè),數(shù)據(jù)、應(yīng)用、本地化,都要按需定制,我們提供企業(yè)數(shù)字化能力的同時(shí),也助力其保障數(shù)據(jù)安全?!蓖跷南橹赋?,即構(gòu)科技的數(shù)字人擁有序列號(hào)可以溯源,如果被第三方非法使用,是可以被追溯到的?!拔覀冎鲃?dòng)擁抱監(jiān)管,提前布局更安全合規(guī)的內(nèi)容。”
對(duì)于銀行業(yè)務(wù)咨詢(xún)等場(chǎng)景來(lái)說(shuō),需要解決的痛點(diǎn)是數(shù)字人的反饋是否足夠及時(shí)、數(shù)據(jù)是否足夠安全,比如客戶提出了問(wèn)題,中后臺(tái)接收需要時(shí)間,接到問(wèn)題后,語(yǔ)音轉(zhuǎn)化為文字,然后進(jìn)入大模型或者人工后臺(tái)操作,這個(gè)過(guò)程要極致壓縮時(shí)間,令數(shù)字人的回答更實(shí)時(shí),這就需要打造足夠詳細(xì)的數(shù)據(jù)庫(kù)以及提供穩(wěn)定的RTC通信能力。如果一個(gè)提問(wèn),客戶等待很久才能得到數(shù)字人的反饋,體驗(yàn)就比較差。金融企業(yè)客戶通過(guò)接入即構(gòu)科技提供的服務(wù)即可實(shí)現(xiàn)實(shí)時(shí)音視頻通信,尤其在弱網(wǎng)環(huán)境下仍然能夠獲得高質(zhì)量、穩(wěn)定性強(qiáng)的音畫(huà),獲得流暢的溝通。
在確保信息安全方面,數(shù)字人接入如ChatGPT這樣通用開(kāi)放的大模型語(yǔ)言體系客觀上存在一定風(fēng)險(xiǎn)。金融行業(yè)、法律行業(yè)的客戶嚴(yán)肅場(chǎng)景居多,如果數(shù)字人回答得不夠嚴(yán)謹(jǐn)就會(huì)觸發(fā)風(fēng)險(xiǎn),在此基礎(chǔ)上,即構(gòu)科技對(duì)數(shù)字人進(jìn)行反復(fù)訓(xùn)練,在通用的大模型內(nèi),對(duì)它進(jìn)行垂直化、合規(guī)化。“讓我們的數(shù)字人不光會(huì)說(shuō),還不瞎說(shuō),因此在訓(xùn)練時(shí)會(huì)設(shè)置一些圍欄,只講涉及具體行業(yè)的核心部分,相關(guān)信息均經(jīng)過(guò)授權(quán),非行業(yè)內(nèi)知識(shí)進(jìn)行隔離處理。”王文祥表示。
在數(shù)字化經(jīng)濟(jì)浪潮的沖擊下,金融行業(yè)紛紛布局?jǐn)?shù)字化創(chuàng)新戰(zhàn)略,未來(lái)即構(gòu)科技將以扎實(shí)的實(shí)時(shí)音視頻及?AI能力為基礎(chǔ),持續(xù)為金融行業(yè)數(shù)字化的轉(zhuǎn)型注入活力。
數(shù)字人助企業(yè)出海
近日,數(shù)字文娛人工智能創(chuàng)新峰會(huì)在上海舉辦,各類(lèi)人工智能在數(shù)字文娛領(lǐng)域的新應(yīng)用在會(huì)上展出。在即構(gòu)科技的展臺(tái)上,有精心布置的直播間、頗具親和力的帶貨主播、高效的產(chǎn)品介紹……而看似真人直播帶貨的場(chǎng)景,其實(shí)是人工智能構(gòu)建出來(lái)的。
“我們最近用數(shù)字人嘗試了幾場(chǎng)直播,銷(xiāo)售數(shù)據(jù)還不錯(cuò)。接下來(lái),我們準(zhǔn)備提升直播的互動(dòng)性,從一場(chǎng)直播賣(mài)一款產(chǎn)品升級(jí)為賣(mài)多款產(chǎn)品?!蓖跷南楸硎荆瑪?shù)字人直播有兩個(gè)好處,一是數(shù)字人主播不需要停歇,二是節(jié)省直播場(chǎng)地等成本。以數(shù)字人為代表的人工智能在打破人力限制的同時(shí),也突破了跨語(yǔ)種交流的壁壘?!叭斯ぶ悄苁箶?shù)字文娛產(chǎn)業(yè)的出海業(yè)務(wù)更順暢,實(shí)現(xiàn)破局新增長(zhǎng)。”
面向全球市場(chǎng)的數(shù)字人是大模型的另一個(gè)應(yīng)用方向?!斑@種數(shù)字人可以多語(yǔ)種、多形象、多場(chǎng)景定制,只要6分鐘至8分鐘就能生成一條播報(bào)視頻。”
今年5月,中哥文化貿(mào)易促進(jìn)會(huì)在成都市舉行重要合作伙伴授牌儀式,同日,成都IN3咖啡工廠、成都叁叁叁文化科技有限公司、即構(gòu)科技聯(lián)合推出的“哥倫比亞咖啡莊園企業(yè)代表與成都IN3咖啡工廠仿真人直播技術(shù)”正式亮相。
據(jù)了解,該款仿真人是由即構(gòu)科技結(jié)合AIGC技術(shù)自研的“數(shù)智人產(chǎn)品”所打造而成的,以哥倫比亞托利馬大學(xué)負(fù)責(zé)人為原型,對(duì)其進(jìn)行真人形象1:1克隆,隨后經(jīng)過(guò)人工智能訓(xùn)練推理,令其動(dòng)作自然且具備動(dòng)態(tài)化的表現(xiàn)力以及多語(yǔ)言表達(dá)的功能。
仿真人能夠結(jié)合短視頻、直播等社交傳播方式,開(kāi)創(chuàng)性地實(shí)現(xiàn)向全球咖啡愛(ài)好者傳遞哥倫比亞前沿咖啡文化、咖啡資訊與生產(chǎn)技術(shù)的目標(biāo),為哥倫比亞咖啡提供展示舞臺(tái)的同時(shí),也為成都乃至中國(guó)咖啡產(chǎn)業(yè)鏈發(fā)展帶來(lái)更多機(jī)會(huì)。
此次咖啡工廠仿真人直播技術(shù)在IN3咖啡工廠店亮相,標(biāo)志著中國(guó)西部地區(qū)最大的咖啡店在科技創(chuàng)新方面又邁出了新的一步,也將推動(dòng)成都與“一帶一路”倡議響應(yīng)國(guó)更多更好的交流合作,以此為契機(jī)進(jìn)一步推動(dòng)產(chǎn)業(yè)核心技術(shù)研發(fā),為培育新技術(shù)、新業(yè)態(tài)、新模式、新組織帶來(lái)新動(dòng)能。
即構(gòu)科技已經(jīng)為全球200多個(gè)國(guó)家和地區(qū)提供毫秒級(jí)的實(shí)時(shí)互動(dòng)體驗(yàn),在泛互聯(lián)網(wǎng)賽道上擁有?70%?以上的行業(yè)頭部客戶。隨著國(guó)內(nèi)泛互聯(lián)網(wǎng)的發(fā)展,越來(lái)越多的企業(yè)將目光投向了海外市場(chǎng),即構(gòu)科技服務(wù)的大部分頭部客戶都走上了出海的征程,進(jìn)一步實(shí)現(xiàn)全球化。