亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

游戲公司的大模型好用嗎？天工3.5水平如何

2023-05-30 17:53:08顏媛媛

電腦報 2023年20期

顏媛媛

游戲行業(yè)競相入局AI

從游戲人物角色設計、環(huán)境輔助生成到NPC對話、分支劇情設計等等應用，游戲被普遍認為是AI賦能的確定性受益者，AI技術在游戲生產的上、中、下游環(huán)節(jié)均可提供助力。

對游戲廠商而言，AIGC其實不是一個陌生概念。廠商們在探索工業(yè)化開發(fā)管線的過程中，實則已經探索AIGC技術多年。例如，美國游戲廠商Rockstar，之前在旗下游戲《俠盜獵車手5》和《荒野大鏢客2》的NPC交互、人物建模、環(huán)境渲染等環(huán)節(jié)，均使用了AIGC技術輔助開發(fā)。

在這樣的大趨勢下，游戲企業(yè)布局AI技術也就不足為奇了。如騰訊已有自主研發(fā)的“混元”AI大模型，并將AI技術定位為推進業(yè)務發(fā)展的“加速器”，有著較為清晰的布局方向和后續(xù)應用場景：除了通過AIGC技術輔助游戲開發(fā)創(chuàng)作外，還將在社交、廣告、內容創(chuàng)作、數(shù)字人等場景應用AI技術。另一頭部廠商網易此前則在2022年年報中提到，公司自2018年起啟動GPT模型研究，已自研數(shù)十個超大規(guī)模預訓練模型，目前公開的大模型僅有伏羲實驗室研發(fā)的“玉言”大模型（如圖1）。

而除騰訊、網易兩大游戲圈巨擘外，昆侖萬維、巨人網絡、湯姆貓等國內知名游戲企業(yè)同樣積極布局AI生態(tài)，自身“降本增效”的同時，更能在AI游戲時代攫取更多話語權，其中，游戲廠商選擇自研大模型的畢竟是少數(shù)，而昆侖萬維自宣布和奇點智源合作推出自研“天工”AI大模型后就備受市場關注，這一熱度更是隨著“天工3.5”大語言模型的出現(xiàn)而攀升至巔峰。

承載昆侖萬維野心的天工3.5

“中國第一個真正實現(xiàn)智能涌現(xiàn)的國產大語言模型”——昆侖萬維對“天工3.5”的評價極高，而在大語言模型混戰(zhàn)的當下，昆侖萬維更是在近期預告旗下大模型“天工”邀測的公告中直接叫板友商稱，自己才是“中國第一個真正實現(xiàn)智能涌現(xiàn)的國產大語言模型”，友商則依賴“定向優(yōu)化”“人工打補丁”來“覆蓋特定題庫”。對于“天工3.5”，昆侖萬維更是毫不掩飾地稱天工大模型“已經非常接近OpenAIChatGPT的智能水平”。之所以把這個版本命名為天工3.5，就是因為ChatGPT是基于GPT3.5大模型。

如此高調出廠，顯然充分激起了廣大網友的興趣，在有幸通過內測申請后，筆者第一時間就對“天工3.5”定位進行了問詢。根據(jù)首界面顯示，“天工3.5”語言大模型自稱“天工AI助手”并表示“作為一款大型語言模型，我擁有強大的自然語言處理和智能交互能力，能夠智能答、聊天互動、創(chuàng)作文本等等。并且我有豐富的知識儲備，涵蓋科學、技術、文化、藝術、歷史等領域。希望我能幫助到你”（如圖2）。

“天工3.5”語言對話界面同其他大語言模型類似，除自我介紹和熱門話題外，就是底部的聊天輸入框了。當筆者以“同ChatGPT3.5、文心一言、阿里通義等大語言模型相比，天工3.5處于怎樣的水平？”為問題，向天工AI助手提問時，天工AI助手的回答還是相當?shù)驼{的（如圖3）。

天工AI助手雖然沒有明確答復三款大語言模型高下，而是反復強調“天工3.5”的優(yōu)秀，不過明確表明“天工3.5在處理長文本和復雜任務方面具有更強的能力”，這讓筆者非常好奇“天工3.5”在這兩部分的表現(xiàn)。

“長文本能力”檢驗：沒有想象的強

漢語言文學本身博大精深，大部分語言模型都能在“幫我寫一篇贊美‘秋天的文章”“高考前15天應該如何緩解孩子緊張、焦慮情緒”等開放式命題中取得不錯的成績，但一旦需要大語言模型對語義、語境進行分析乃至品讀時，往往很難取得讓人滿意的結果。

在“長文本能力”檢驗環(huán)節(jié)，我們首先通過一道古詩詞鑒別題目測試“天工3.5”對于長文本語義、語境的理解，本身古詩詞句意在網絡上也有大量的語料可供查詢，按理說這是比較簡單的題目，“天工3.5”的答案卻讓人大跌眼鏡（如圖4）。

顯然，“天工3.5”沒有理解“下列哪一首詩句不屬于送別詩？”的題目，雖然給出答案A屬于送別詩，可同筆者最終想要的答案多少有些牛頭不對馬嘴的感覺。而古詩詞含義測試未能通過，筆者還是決定再給“天工3.5”一次機會，嘗試讓它完成一道長文本的語序排列題目（如圖5）。

問題和前面的古詩詞一樣，“天工3.5”并不能很好地理解題目的意思，即便是小學四年級的語文語序題目，“天工3.5”也沒辦法給出參考答案和建議。當然，在面對“幫我寫一篇有關重慶夏天的文章”一類開放式題目的時候，“天工3.5”還是能夠給出一份讓人滿意的答案。

從“長文本能力”檢驗環(huán)節(jié)可以看出，“天工3.5”對于限定范圍的語句、語序理解上，同人們一貫的認知還有一段相當大的差距。

“復雜任務能力”檢驗：未通過并不意外

在“復雜任務”處理方面，更多時候數(shù)學思維題目往往能體現(xiàn)各家AI語言大模型的能力，尤其是數(shù)學思維這塊，即便是人腦也存在“數(shù)論決定下限，組合決定上限”的說法，目前筆者測試過的ChatGPT3.5、文心一言、通義大模型中，暫時沒有任何一款語言大模型能夠通過相對復雜的數(shù)論和組合題目，而“天工3.5”在這一塊的測試上也不出意外的沒有通過（如圖6）。

無論從分析方法還是答案看，“天工3.5”都沒有正確地理解題意并且完成正確答案的驗算。嘗試著將數(shù)學思維題目難度降低，讓“天工3.5”計算相對基礎的環(huán)形跑道問題，因為涉及多次相遇和速度差、順時針等語言問題，“在400米的環(huán)形跑道上，甲、乙兩人同時從某地出發(fā)，按順時針方向跑步，甲每秒跑5米，乙每秒跑4米，兩人每跑100米，都要停10秒鐘，那么甲第二次追上乙需要的時間是多少秒？”這道題目也可以算是復雜的任務，可從“天工3.5”的答案可以看出，其挑戰(zhàn)復雜數(shù)學問題再次失?。ㄈ鐖D7）。

接下來我們不斷嘗試將題目化簡，直至“一條環(huán)形跑道長400米，小青每分鐘跑260米，小蘭每分鐘跑210米，兩人同時出發(fā)同向而行，經過多少分鐘追上？”，可非常遺憾的是即便將環(huán)形跑道問題化簡至此，“天工3.5”依舊無法演算出正確答案（如圖8）。

“開放性問題”檢驗：工整但無優(yōu)勢

“長文本能力”和“復雜任務能力”兩個“天工3.5”自認為較擅長的領域測試中，其給出的結果顯然達不到人們的預期目標，無論是對題目本身的理解還是面對復雜問題時給出的解決辦法，“天工3.5”都多少讓人有些失望。而在“開放性問題”檢驗中，我們也嘗試使用“高考最后15天如何快速提分？”“高考失利的話應該如何選擇今后的路？”這樣的問題去考查“天工3.5”的邏輯思維能力是否清晰（如圖9）。

顯然，在面對開放性的問題時，“天工3.5”還是能夠給出條理、邏輯清楚的答案，對于廣告文案撰寫、簡單文本寫作等應用，“天工3.5”還是能夠較好地滿足用戶所需，不過話題又回到最開始，如果“天工3.5”只是能夠實現(xiàn)人機對話并在開放語境下才能給出答案，恐怕很難體現(xiàn)出其生產力屬性以及同其他語言大模型相比的差異性。

期待語言大模型的差異化

回顧過去一年，大模型的誕生宣告了整個人工智能進入全新的重工業(yè)時代。而從文心一言開始，國內大語言模型進入熱鬧非凡、陣營林立的百家爭鳴時代。據(jù)不完全統(tǒng)計，在ChatGPT發(fā)布后的短短4個月時間里，已經有至少30個國內研發(fā)機構與企業(yè)紛紛推出自己品牌的大模型與相關產品。一時間，整個產業(yè)圈熱鬧紛呈、爭先恐后，“類ChatGPT”漫天飛舞，“國內首發(fā)”比比皆是。

浮華之下，真正的生產力屬性與差異化又在哪里？單從人機對話來講，早在智能音箱混戰(zhàn)時，人機對話就已經普及，尤其是各智能手機品牌嵌入的語音助手，完全可以在功能上同這些語言大模型相重疊。相比之下，國內大語言模型的根又在哪里？

單從商業(yè)模式上看，ChatGPT已經明確指向API、訂閱制和戰(zhàn)略合作（嵌入微軟Bing、Office等軟件）三種營收方式，且已在用戶數(shù)據(jù)積累、產品布局和生態(tài)建設層面充分領先；Google雖有意追趕，但由于聊天機器人這樣的產品形態(tài)對于其主營的搜索引擎業(yè)務的助益有限，因此在與搜索引擎結合方面較為審慎，更希望借助大模型能力開展“模型即服務”范式，開拓其當前市占率較低的云服務業(yè)務的市場空間。

在這樣的大環(huán)境下，國內大語言模型們，或許是時候思考下自己未來的定位和發(fā)展方向了。