國產(chǎn)大模型成功解鎖“眼睛”,智譜AI(即北京智譜華章科技有限公司)在9月12日開幕的2024年中國國際服務(wù)貿(mào)易交易會(簡稱服貿(mào)會)上展示了最新發(fā)布的清言App “視頻通話”功能。據(jù)悉,這是全球首個面向大眾用戶開放的大模型視頻通話功能。
據(jù)介紹,清言視頻通話功能跨越文本、音頻和視頻三大模態(tài),具備實時推理能力。用戶可以打開攝像頭,通過視頻通話窗口與清言交流,清言不僅能“看”到用戶畫面,還能聽懂指令并準確執(zhí)行,即便頻繁打斷也能迅速反應(yīng)。在畫面上劃重點,清言還可以理解用戶想讓它重點關(guān)注的地方。
智譜AI表示,此前GPT-4o上線了語音但并未對公眾開放視頻功能,利用清言可以體驗到目前最前沿的AI/大模型技術(shù)。過去和AI交互主要是文字形式,有了視頻功能,用戶可以告別文字長篇大論的提示詞和AI絲滑交流。清言就像用戶身邊有眼力見、能聽懂話的人類助手,只要攝像頭一拍,AI就能知道用戶的環(huán)境、想讓AI做的事,用戶只需口頭吩咐。
清言視頻通話功能還可變身隨身英語翻譯,可實現(xiàn)即時翻譯中英文,根據(jù)用戶所處環(huán)境信息進行英語對話,并協(xié)助糾正用戶的語音和語法錯誤。這一功能的使用場景包括在旅游時隨時講解景點故事,為視障人士識別環(huán)境等,還可以提供學(xué)科作業(yè)輔導(dǎo)、面試指導(dǎo),在會議中完成紀要和總結(jié),分析復(fù)雜的數(shù)據(jù)圖表,實時解讀電腦屏幕的代碼。
(據(jù)澎湃新聞)