行者AI(成都潛在人工智能科技有限公司)作為產業(yè)界代表,從2020年創(chuàng)立以來,一直致力于用人工智能和機器學習技術提高文娛行業(yè)生產力,提供內容生產制作全生命周期解決方案。這些技術實踐源自2013年成立的游戲公司。2016年,我們在游戲公司內部成立了人工智能實驗室,開發(fā)了一系列“人工智能+內容創(chuàng)作”相關工具。隨著技術不斷成熟與應用拓展,我們決定將這些技術獨立分拆,成立全新公司,以更專業(yè)的姿態(tài)服務于全行業(yè)。
行者AI在AI+美術、AI+音樂等多元化領域不斷探索,同時,我們進行AI+安全和AI智能體等應用場景的產品開發(fā)和服務,成果被廣泛應用于大視聽行業(yè)、文娛及教育領域,取得了顯著的市場化成果。
AI賦能提升視聽領域生產力
從產業(yè)角度出發(fā),我們始終關注如何解決行業(yè)痛點。例如,在內容制作領域,長期存在一個“不可能三角”問題,即在追求高質量、高效率與低成本時,往往三者難以同時滿足。無論是視頻制作、短劇創(chuàng)作、文章撰寫,還是繪畫、音樂創(chuàng)作,這一難題都普遍存在。然而,隨著AI 2.0和生成式AI技術的到來,我們可以同時實現(xiàn)高質量、高效率與低成本的內容創(chuàng)作,這無疑為我們帶來了全新挑戰(zhàn)和巨大機遇。
對視聽娛樂與教育領域來講,機遇就是正在迎來一種全新形態(tài),即多模態(tài)和互動式。盡管當前我們看到AI在繪畫、音樂創(chuàng)作等領域的應用,但這些仍屬于傳統(tǒng)媒體形態(tài)。例如,利用AI生成一幅畫作,盡管這在一定程度上提升了生產力并降低了生產成本,但它的本質沒有變化。而我們希望能通過生產力的提升,創(chuàng)造與以前完全不同且無法想象的全新場景。這正是多模態(tài)和互動式所帶來的可能性。
行者AI團隊始終圍繞人工智能多模態(tài)這個理念進行實踐。無論是視覺上的圖片、視頻,還是聽覺上的音頻生成(包括語音合成、歌唱合成)及智能體,都是我們關注與探索的重點。當我們完成了這些基礎組件的構建,便能創(chuàng)造豐富多樣的應用場景。智能化多模態(tài)的體驗將為解決未來眾多問題提供可能,特別是內容創(chuàng)作行業(yè)。例如,拍攝一部短劇的平均成本需要幾十萬元,這要求創(chuàng)作者和從業(yè)者迅速實現(xiàn)盈利,如果無法盈利就無法產生連續(xù)性。游戲、短劇、電影等行業(yè)均面臨這一問題。為了快速回籠資金,許多創(chuàng)作者和從業(yè)者過于關注如何利用“人性”快速吸引觀眾,讓他們迅速獲得滿足感,從而訂閱或付費。這種趨勢導致許多作品忽略了真正有價值的“真善美”元素。
在追求經濟效益的同時,行者AI團隊始終堅守對“真善美”的追求。我們相信,只有平衡商業(yè)目標與藝術價值,才能創(chuàng)作真正有深度和影響力的作品。
AI技術研發(fā)應精心調配
從產業(yè)角度看,例如,在全球范圍內有眾多抑郁癥患者,AI生成的新內容是否適宜這類群體,確實值得探討和商榷。盡管如此,這類內容擁有巨大潛力,能夠開啟全新體驗。其可以被應用于醫(yī)療、教育和宣傳等方面,為人們帶來美的體驗,治愈心靈,陪伴成長。雖然這類內容在各類平臺上的推廣可能面臨困難,廣告購買意愿不高,盈利能力有限,但考慮其低成本和高價值,我們應給予更多重視。
在我們的理念中,無論是從事美術創(chuàng)作、音樂制作,還是從事文本生成,抑或是進行智能體的研發(fā),都希望從業(yè)者走在人工智能前面,學習AI,運用AI,駕馭AI,而絕非被AI所取代。在內容生產的每一個環(huán)節(jié),我們都致力于使AI成為提升生產力的工具,而非替代人類的存在,生產力提升的最終目標仍是為人服務。
在此前提下,我們必須強調三個核心概念,這些概念構成了玩具與工具的根本區(qū)別。首先是“可控性”,其次是“一致性”,最后是“高精度”。例如,在AI繪畫領域,盡管AI能夠繪制畫作,但在完成作品后,其并未展現(xiàn)足夠的實用性和穩(wěn)定性。為此,我們開發(fā)了一款名為“行者丹爐”的產品。這個名稱源于我們認為人工智能研發(fā)就像用丹爐“煉丹”一樣,是一種自我調侃。在人工智能領域,研發(fā)過程指的是通過不斷調整和優(yōu)化算法參數(shù),以獲得更好模型效果。這與傳說中的煉丹術有著異曲同工之妙,都需要經過精心調配和磨礪。
通過我們的產品,用戶可以訓練屬于自己的畫風模型。從學術角度來看,這相當于一個模型訓練器,它可以為用戶創(chuàng)建獨特畫風提供支持,并通過“行者丹爐”將其轉化為獨一無二的模型。這樣,AI就能夠根據用戶的畫風進行創(chuàng)作,既保證了作品獨特性,又避免了侵權問題發(fā)生。這正是我們所追求的可控性和一致性的體現(xiàn)。
另外,AI寫真作為一種先進技術應用,主要是針對個人臉部特征進行模型訓練。一旦臉部模型訓練完成,即可生成多樣化的、屬于個人的寫真集,從而保證一致性和可控性。從高精度方面來看,AI已經可以生成16K超高清大圖,屬于工業(yè)化AI工具所應達成的標準,遠超一般消費者級應用。據真實用戶反饋,使用此技術,工作效率平均提升3至5倍,這便是AI技術在美術領域的獨特價值。
在AI音樂領域,我們秉持相同理念,即追求可控性、一致性和高精度。盡管Suno具備AI作曲功能,但在細節(jié)調整方面,仍存在局限。相比之下,我們的交互式創(chuàng)作工具支持對細節(jié)的精細調整。
AI為產業(yè)發(fā)展帶來無限可能
我們研發(fā)的AI智能體,面向更高層次智能推理,如在電子競技領域,AI智能體可以發(fā)揮強大陪練作用。在AI應用中,安全性至關重要。在利用AI創(chuàng)作豐富多樣的內容時,如何確保這些內容的合規(guī)性成為亟待解決的問題。為此,我們遵循全球各地的法律法規(guī),建立了各種審核標準。目前,我們支持22個國家和地區(qū)的語言,能夠在全球范圍內進行AI合規(guī)性審查,確保所創(chuàng)作的內容符合各項法律法規(guī)。
我們在探索教育場景的應用時,把AI音樂跟我們的音樂學習結合起來,開啟交互式沉浸式體驗。例如,在音樂創(chuàng)作中包括寫詞、作曲、編曲、演唱等,創(chuàng)作手法和過程很復雜。利用AI技術,用戶可以輕松地獲得自動譜曲的服務,而我們則提供精細調整和優(yōu)化。在這個過程中,AI會為用戶提供創(chuàng)作模板,用戶可以在此基礎上二次創(chuàng)作,加入自己的獨特元素。
如果用戶覺得某個部分不理想,AI能夠重新生成,直至滿足用戶審美要求。這種實際應用場景在學校音樂創(chuàng)客教室中得到了充分體現(xiàn)。我們融合了大量音樂知識點,通過一邊創(chuàng)作一邊復盤的方式,幫助學生提升音樂創(chuàng)作能力。該系統(tǒng)曾連續(xù)被中央電視臺報道,并在全國各地幫助眾多學生學習音樂創(chuàng)作。此外,AI技術還能輔助師生進行實時溝通交流,提升互動體驗。
同樣,我們的AI應用可以跟文旅結合,打造豐富多樣的用戶體驗。例如,中國傳統(tǒng)文化中的皮影,就可以用AI生成各種各樣的風格,我們與中國皮影博物館的合作項目便是這一點的生動體現(xiàn),其中所有內容均由AI創(chuàng)作完成。
何為交互式體驗呢?比如,AI和皮影博物館結合,當你進入博物館時,可以使用AI技術拍攝自己的照片并生成自己的皮影形象。無論你走到哪里,皮影都會緊隨其后,為你提供一種全新的探索尋寶體驗。這種體驗不僅更加有趣,并且每一次來訪都會帶給你全新感受。更為重要的是,我們的AI技術能夠實時生成內容,不受任何限制,可以創(chuàng)造無限可能。W
(作者尹學淵系行者AI創(chuàng)始人兼CEO)