亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

百模大戰(zhàn)，困于語料

2024-05-20 06:25:13徐乃帥

看世界 2024年7期

徐乃帥

近兩年來，以ChatGPT為代表的AIGC（生成式人工智能）產(chǎn)品的出現(xiàn)，引領(lǐng)了新一輪的科技熱潮。國內(nèi)的互聯(lián)網(wǎng)科技企業(yè)緊跟潮流，紛紛推出各自研發(fā)的AIGC產(chǎn)品，目前已出現(xiàn)200多款大模型，形成了“百模大戰(zhàn)”的混沌之勢(shì)。

其中頗讓人關(guān)心的一個(gè)命題是，中文世界的AIGC產(chǎn)品何時(shí)能趕超西方，尤其在大語言模型這一領(lǐng)域，能否撼動(dòng)當(dāng)前ChatGPT一家獨(dú)大的地位？

今年3月9日，央視財(cái)經(jīng)頻道《對(duì)話》欄目對(duì)百度董事長李彥宏進(jìn)行獨(dú)家專訪。李彥宏表示，文心大模型在中文領(lǐng)域已經(jīng)明顯超過了ChatGPT-4。然而此話一出，立刻引起了多方討論和質(zhì)疑。

其中最具代表性的，是前搜狗CEO、百川智能創(chuàng)始人王小川在一次訪談中給出的看法：李彥宏對(duì)自己的產(chǎn)品有誤解，產(chǎn)生了一定“幻覺”；而另一個(gè)更廣泛的觀點(diǎn)則是，縱然文心大模型已經(jīng)在中文某些特定的領(lǐng)域超過ChatGPT，也不值得國人感到驕傲，畢竟ChatGPT本就是一款以英語為主的產(chǎn)品。

英語是全球無可否認(rèn)的世界語言，在政治、經(jīng)濟(jì)、文化和科技等領(lǐng)域都被廣泛使用，這也使得大量的數(shù)據(jù)都以英語產(chǎn)生。這反映在不同語言AIGC的對(duì)比上，不僅意味著總數(shù)據(jù)量的差距，更體現(xiàn)在高質(zhì)量訓(xùn)練語料的差距。

業(yè)界普遍認(rèn)為，中國的大模型發(fā)展要實(shí)現(xiàn)突破，必然要依賴于中文語料庫，而中文語料庫有著顯著的短板。從客觀視角來看，中文AIGC產(chǎn)品想要真正趕超ChatGPT，或有著相當(dāng)長的一段距離。

“質(zhì)”與“量”雙缺

語料，顧名思義，即語言的材料。

任何一款大語言模型，都需要對(duì)海量的、多樣性的語料進(jìn)行充分學(xué)習(xí)，這是其輸出內(nèi)容的基本素材，也是大數(shù)據(jù)時(shí)代人工智能的重要特征。

當(dāng)然，這并不意味著只要搭建好框架，把足夠多的中文數(shù)據(jù)“填鴨式”地喂給AI，就能讓大模型“自學(xué)成才”。只有高質(zhì)量的語料，才能訓(xùn)練出一個(gè)優(yōu)質(zhì)的模型。

諸如貼吧、微博等社交平臺(tái)上的交流內(nèi)容，誠然具有一定的真實(shí)性和多樣性，能夠反映人們的日常語言習(xí)慣和表達(dá)方式，但另一方面也存在大量重復(fù)的同質(zhì)化、無意義內(nèi)容；各個(gè)小說網(wǎng)站上海量的文學(xué)創(chuàng)作，也同樣面臨此類問題，更何況此類語料庫往往還涉及隱私、版權(quán)等問題。

能夠被認(rèn)為是高質(zhì)量訓(xùn)練語料的，一般認(rèn)為包括了出版著作、文獻(xiàn)期刊、新聞報(bào)道、百科全書式知識(shí)等，已經(jīng)被人工篩選檢驗(yàn)過的文本類型。

而這些優(yōu)質(zhì)文本，在投喂給AI之前，也仍需要對(duì)數(shù)據(jù)進(jìn)行一定的“預(yù)處理”，使其成為結(jié)構(gòu)化數(shù)據(jù)更便于AI識(shí)別?！邦A(yù)處理”的工作往往需要投入大量具有一定相關(guān)專業(yè)素養(yǎng)的人才去完成。因此這兩年來，廣州、杭州等一線城市“數(shù)據(jù)標(biāo)注師”“AI訓(xùn)練師”等崗位的招聘需求激增。

中文“數(shù)據(jù)標(biāo)注師”的具體工作，包括清理無效字符、糾正病句錯(cuò)字、對(duì)文本進(jìn)行分詞，以及就內(nèi)容進(jìn)行主題、場(chǎng)景等方面的關(guān)鍵詞標(biāo)注等。

相較于英語，中文的語法結(jié)構(gòu)和表達(dá)方式存在很大差異，且存在大量的方言和口語變化，需要針對(duì)中文的特點(diǎn)進(jìn)行專門的語料標(biāo)注和整理工作—其中“分詞”正是“預(yù)處理”中最為繁瑣的一項(xiàng)。

只有高質(zhì)量的語料，才能訓(xùn)練出一個(gè)優(yōu)質(zhì)的模型。

英文句子中的單詞，天然具有空格這一分隔符，而中文句子中沒有詞的界限，所以在進(jìn)行中文自然語言處理之前，通常需要先進(jìn)行“分詞”，即手動(dòng)隔開基本詞匯。

隨著語言處理技術(shù)的發(fā)展，“分詞”大概率會(huì)變得不再必要。但就目前來說，仍需人類逐步教會(huì)AI如何有效識(shí)別中文語句中的信息。

實(shí)際上，包括語音、圖片等領(lǐng)域在內(nèi)的“數(shù)據(jù)標(biāo)注師”，目前已成為國內(nèi)人工智能行業(yè)從業(yè)人數(shù)最多的一個(gè)群體，被稱為人工智能領(lǐng)域的“羅塞塔石碑”，正構(gòu)筑著人工智能發(fā)展的底座。

而相較之下，英語世界很早就建成了不少系統(tǒng)化、優(yōu)質(zhì)的語料庫。

2008年，美國楊百翰大學(xué)的語言學(xué)教授Mark Davies主持創(chuàng)立了美國當(dāng)代英語語料庫（COCA）。作為當(dāng)今世界上最大的在線免費(fèi)英語平衡語料庫，COCA目前包含超過5.2億單詞的文本。最重要的是，COCA涵蓋了各種英語使用情境和地域，為AI的自然語言處理提供了寶貴的數(shù)據(jù)資源。

此外，國外還有英語國家語料庫（BNC）、喬治城大學(xué)多層語料庫（GUM）等多個(gè)英語大型語料庫，都已完成了基礎(chǔ)的整理和標(biāo)注工作，無疑是為以ChatGPT為代表的大語言模型的發(fā)展提供了極佳的土壤。

在出版物權(quán)威數(shù)據(jù)庫方面，全球最大的三個(gè)數(shù)據(jù)庫社會(huì)引文數(shù)據(jù)庫（SCI）、社會(huì)科學(xué)引文數(shù)據(jù)庫（SSCI）和人文藝術(shù)引文索引數(shù)據(jù)庫（A&HCI）當(dāng)中，超過90%的文章都是用英語發(fā)表的，這必然使得依賴英語訓(xùn)練的大模型，更具有可信性和權(quán)威性。

由此看來，ChatGPT當(dāng)下的領(lǐng)先，實(shí)則是理所應(yīng)當(dāng)。

來自“語料”的詛咒

去年12月，谷歌的大語言模型Gemini鬧出過一個(gè)離奇的笑話。

不需要任何前置對(duì)話，當(dāng)用戶使用中文提問“你是誰”的時(shí)候，Gemini會(huì)回答自己是“文心一言”，一個(gè)由百度公司開發(fā)的語言模型，甚至?xí)嬷约旱膭?chuàng)始人是李彥宏。

當(dāng)用戶用英文提出同樣的問題時(shí)，Gemini給出的則是正常的回復(fù)。

很顯然，這大概率是由于谷歌把百度文心一言的輸出內(nèi)容作為訓(xùn)練數(shù)據(jù)，而數(shù)據(jù)清洗工作又不到位的結(jié)果。不過同時(shí)，這也帶出了另一個(gè)更嚴(yán)重的問題—互聯(lián)網(wǎng)上語料的相互污染。

有傳聞稱，目前各類內(nèi)容平臺(tái)上的很多中文語料，都是由大模型生成的，或者至少寫了其中一部分，因此谷歌才會(huì)不慎“中招”。

2023年2月，美國華裔科幻文學(xué)家特德·姜發(fā)表文章稱：ChatGPT等大語言模型，實(shí)質(zhì)是對(duì)互聯(lián)網(wǎng)語料庫的有損模糊壓縮。

按特德·姜的觀點(diǎn)，用大語言模型生成的文本來訓(xùn)練新的模型，如同反復(fù)以JPEG格式存儲(chǔ)同一圖像，重復(fù)操作下去會(huì)丟失越來越多的信息—大語言模型生成的內(nèi)容在互聯(lián)網(wǎng)上流傳得越多，真實(shí)的內(nèi)容就越難以辨識(shí)，大模型對(duì)現(xiàn)實(shí)的認(rèn)知會(huì)逐漸扭曲，“幻覺”現(xiàn)象就會(huì)越嚴(yán)重。

2023年6月，牛津、劍橋等高校的研究人員發(fā)表過一篇論文《遞歸之詛咒：用生成數(shù)據(jù)訓(xùn)練會(huì)使模型遺忘》。論文用實(shí)驗(yàn)結(jié)果證明，用AI生成數(shù)據(jù)訓(xùn)練新的AI，最終會(huì)讓新的AI模型退化乃至崩潰。

而之所以會(huì)出現(xiàn)“AI生成數(shù)據(jù)訓(xùn)練AI”的情況，根本原因在于數(shù)據(jù)量的不足。就連OpenAI都公開承認(rèn)過訓(xùn)練數(shù)據(jù)稀缺，已無法滿足ChatGPT饕餮般的胃口，甚至還因?yàn)椴糠钟?xùn)練數(shù)據(jù)集涉及版權(quán)糾紛，而接連吃到官司。

用AI生成數(shù)據(jù)訓(xùn)練新的AI，最終會(huì)讓新的AI模型退化乃至崩潰。

2023年4月28日，江西撫州大數(shù)據(jù)標(biāo)注產(chǎn)業(yè)小鎮(zhèn)，當(dāng)?shù)芈殬I(yè)院校學(xué)生正在從事數(shù)據(jù)標(biāo)注的學(xué)習(xí)和實(shí)踐

實(shí)際上，版權(quán)也是互聯(lián)網(wǎng)語料污染的另一個(gè)因素，即創(chuàng)作者為了抗?fàn)帯安徽?dāng)”抓取數(shù)據(jù)的行為，故意設(shè)下了“圈套”。

如此情景，正是驗(yàn)證了全國政協(xié)委員、知乎創(chuàng)始人周源在近期的兩會(huì)上所說的話：“我覺得今天構(gòu)建‘水庫的工作大家都重視得不夠，反而比較看重怎么去打水的環(huán)節(jié)，比如訓(xùn)練模型怎么去進(jìn)行數(shù)據(jù)和內(nèi)容的爬取?！?/p>

倘若說，英文領(lǐng)域的大語言模型的發(fā)展，受到了訓(xùn)練語料不足的掣肘，中文大模型面臨的形勢(shì)，只會(huì)更加嚴(yán)峻。

尋求解決之道

中文語料無論是“質(zhì)”還是“量”，都遠(yuǎn)遠(yuǎn)比不上英文語料，而語料本身的污染，同樣是一個(gè)頗具挑戰(zhàn)性的命題。那么，難道說中文世界的AIGC產(chǎn)品，就沒有超越ChatGPT的可能了嗎？

或許換一種理解大語言模型的思路，就能獲得不同的答案。

大語言模型不一定非得成為“全知全能”的存在，而是可以深挖某個(gè)特定的垂直領(lǐng)域，“落地”到具體的“場(chǎng)景”里去檢驗(yàn)自我，獲得不斷提升。

正如李彥宏提及文心大模型超過ChatGPT-4時(shí)所舉的例子，ChatGPT-4無法理解“沁園春”這一詞牌名，而“文心一言”可以作出一首漂亮的古詞—至少在寫詞這一領(lǐng)域，“文心一言”確實(shí)超越了ChatGPT。

目前，國內(nèi)的工業(yè)、教育、醫(yī)療、政務(wù)等領(lǐng)域，都在進(jìn)行著深層次的智能化變革，有著龐大的需求和優(yōu)渥的市場(chǎng)化氛圍，這或許能給部分體量“小而精”的語言模型一次彎道超車的契機(jī)。

至于綜合性大語言模型的發(fā)展，則仍需有良好的培育土壤。

2023年12月20日，中國網(wǎng)絡(luò)空間安全協(xié)會(huì)在北京發(fā)布了用于大模型的首批中文基礎(chǔ)語料庫，包括1億余條數(shù)據(jù)，500億個(gè)“Token”（文本處理的最小單位）。中文基礎(chǔ)語料庫的發(fā)布，象征著各界初步達(dá)成了協(xié)作的共識(shí)，而這僅僅只是一個(gè)開始，后續(xù)依然有漫長的道路要走。

目前，國內(nèi)還有不少可以開發(fā)的大型語料庫，如中國期刊全文數(shù)據(jù)庫，收錄了7400余種各類期刊；如中國國家圖書館，有藏書3700萬冊(cè)；又如以北京語言大學(xué)的漢語語料庫（BCC）為代表的各大高校語料庫，該語料庫有150億字，包含了報(bào)刊、科技、古漢語等多領(lǐng)域的語料內(nèi)容。

對(duì)此類中文語料內(nèi)容進(jìn)行系統(tǒng)性梳理和標(biāo)注，需要花費(fèi)大量的人力物力，難以憑借一家之力完成，不妨倡議共同開發(fā)，創(chuàng)建一個(gè)能夠讓各方共享的大型語料庫。

這就需要由相關(guān)部門牽頭，從業(yè)界達(dá)成普遍共識(shí)、并建立規(guī)范化章程開始，強(qiáng)化數(shù)據(jù)安全和知識(shí)產(chǎn)權(quán)保護(hù)，逐步加快對(duì)高質(zhì)量中文數(shù)據(jù)集的開發(fā)和利用，給中文語料的市場(chǎng)化流通提供一個(gè)更好的環(huán)境。

而另一種可能性則是，將來出現(xiàn)了一款能夠精準(zhǔn)處理語料的大語言模型，協(xié)助人類從這項(xiàng)繁瑣的工作中獲得“解放”—當(dāng)然在此之前，人類得想辦法不讓特德·姜的預(yù)言成真。

責(zé)任編輯吳陽煜 wyy@nfcmag.com

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

百模大戰(zhàn)，困于語料

“質(zhì)”與“量”雙缺

來自“語料”的詛咒

尋求解決之道

百模大戰(zhàn)，困于語料