亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        百模大戰(zhàn),困于語料

        2024-05-20 06:25:13徐乃帥
        看世界 2024年7期
        關(guān)鍵詞:語言英語模型

        徐乃帥

        近兩年來,以ChatGPT為代表的AIGC(生成式人工智能)產(chǎn)品的出現(xiàn),引領(lǐng)了新一輪的科技熱潮。國內(nèi)的互聯(lián)網(wǎng)科技企業(yè)緊跟潮流,紛紛推出各自研發(fā)的AIGC產(chǎn)品,目前已出現(xiàn)200多款大模型,形成了“百模大戰(zhàn)”的混沌之勢(shì)。

        其中頗讓人關(guān)心的一個(gè)命題是,中文世界的AIGC產(chǎn)品何時(shí)能趕超西方,尤其在大語言模型這一領(lǐng)域,能否撼動(dòng)當(dāng)前ChatGPT一家獨(dú)大的地位?

        今年3月9日,央視財(cái)經(jīng)頻道《對(duì)話》欄目對(duì)百度董事長李彥宏進(jìn)行獨(dú)家專訪。李彥宏表示,文心大模型在中文領(lǐng)域已經(jīng)明顯超過了ChatGPT-4。然而此話一出,立刻引起了多方討論和質(zhì)疑。

        其中最具代表性的,是前搜狗CEO、百川智能創(chuàng)始人王小川在一次訪談中給出的看法:李彥宏對(duì)自己的產(chǎn)品有誤解,產(chǎn)生了一定“幻覺”;而另一個(gè)更廣泛的觀點(diǎn)則是,縱然文心大模型已經(jīng)在中文某些特定的領(lǐng)域超過ChatGPT,也不值得國人感到驕傲,畢竟ChatGPT本就是一款以英語為主的產(chǎn)品。

        英語是全球無可否認(rèn)的世界語言,在政治、經(jīng)濟(jì)、文化和科技等領(lǐng)域都被廣泛使用,這也使得大量的數(shù)據(jù)都以英語產(chǎn)生。這反映在不同語言AIGC的對(duì)比上,不僅意味著總數(shù)據(jù)量的差距,更體現(xiàn)在高質(zhì)量訓(xùn)練語料的差距。

        業(yè)界普遍認(rèn)為,中國的大模型發(fā)展要實(shí)現(xiàn)突破,必然要依賴于中文語料庫,而中文語料庫有著顯著的短板。從客觀視角來看,中文AIGC產(chǎn)品想要真正趕超ChatGPT,或有著相當(dāng)長的一段距離。

        “質(zhì)”與“量”雙缺

        語料,顧名思義,即語言的材料。

        任何一款大語言模型,都需要對(duì)海量的、多樣性的語料進(jìn)行充分學(xué)習(xí),這是其輸出內(nèi)容的基本素材,也是大數(shù)據(jù)時(shí)代人工智能的重要特征。

        當(dāng)然,這并不意味著只要搭建好框架,把足夠多的中文數(shù)據(jù)“填鴨式”地喂給AI,就能讓大模型“自學(xué)成才”。只有高質(zhì)量的語料,才能訓(xùn)練出一個(gè)優(yōu)質(zhì)的模型。

        諸如貼吧、微博等社交平臺(tái)上的交流內(nèi)容,誠然具有一定的真實(shí)性和多樣性,能夠反映人們的日常語言習(xí)慣和表達(dá)方式,但另一方面也存在大量重復(fù)的同質(zhì)化、無意義內(nèi)容;各個(gè)小說網(wǎng)站上海量的文學(xué)創(chuàng)作,也同樣面臨此類問題,更何況此類語料庫往往還涉及隱私、版權(quán)等問題。

        能夠被認(rèn)為是高質(zhì)量訓(xùn)練語料的,一般認(rèn)為包括了出版著作、文獻(xiàn)期刊、新聞報(bào)道、百科全書式知識(shí)等,已經(jīng)被人工篩選檢驗(yàn)過的文本類型。

        而這些優(yōu)質(zhì)文本,在投喂給AI之前,也仍需要對(duì)數(shù)據(jù)進(jìn)行一定的“預(yù)處理”,使其成為結(jié)構(gòu)化數(shù)據(jù)更便于AI識(shí)別?!邦A(yù)處理”的工作往往需要投入大量具有一定相關(guān)專業(yè)素養(yǎng)的人才去完成。因此這兩年來,廣州、杭州等一線城市“數(shù)據(jù)標(biāo)注師”“AI訓(xùn)練師”等崗位的招聘需求激增。

        中文“數(shù)據(jù)標(biāo)注師”的具體工作,包括清理無效字符、糾正病句錯(cuò)字、對(duì)文本進(jìn)行分詞,以及就內(nèi)容進(jìn)行主題、場(chǎng)景等方面的關(guān)鍵詞標(biāo)注等。

        相較于英語,中文的語法結(jié)構(gòu)和表達(dá)方式存在很大差異,且存在大量的方言和口語變化,需要針對(duì)中文的特點(diǎn)進(jìn)行專門的語料標(biāo)注和整理工作—其中“分詞”正是“預(yù)處理”中最為繁瑣的一項(xiàng)。

        只有高質(zhì)量的語料,才能訓(xùn)練出一個(gè)優(yōu)質(zhì)的模型。

        英文句子中的單詞,天然具有空格這一分隔符,而中文句子中沒有詞的界限,所以在進(jìn)行中文自然語言處理之前,通常需要先進(jìn)行“分詞”,即手動(dòng)隔開基本詞匯。

        隨著語言處理技術(shù)的發(fā)展,“分詞”大概率會(huì)變得不再必要。但就目前來說,仍需人類逐步教會(huì)AI如何有效識(shí)別中文語句中的信息。

        實(shí)際上,包括語音、圖片等領(lǐng)域在內(nèi)的“數(shù)據(jù)標(biāo)注師”,目前已成為國內(nèi)人工智能行業(yè)從業(yè)人數(shù)最多的一個(gè)群體,被稱為人工智能領(lǐng)域的“羅塞塔石碑”,正構(gòu)筑著人工智能發(fā)展的底座。

        而相較之下,英語世界很早就建成了不少系統(tǒng)化、優(yōu)質(zhì)的語料庫。

        2008年,美國楊百翰大學(xué)的語言學(xué)教授Mark Davies主持創(chuàng)立了美國當(dāng)代英語語料庫(COCA)。作為當(dāng)今世界上最大的在線免費(fèi)英語平衡語料庫,COCA目前包含超過5.2億單詞的文本。最重要的是,COCA涵蓋了各種英語使用情境和地域,為AI的自然語言處理提供了寶貴的數(shù)據(jù)資源。

        此外,國外還有英語國家語料庫(BNC)、喬治城大學(xué)多層語料庫(GUM)等多個(gè)英語大型語料庫,都已完成了基礎(chǔ)的整理和標(biāo)注工作,無疑是為以ChatGPT為代表的大語言模型的發(fā)展提供了極佳的土壤。

        在出版物權(quán)威數(shù)據(jù)庫方面,全球最大的三個(gè)數(shù)據(jù)庫社會(huì)引文數(shù)據(jù)庫(SCI)、社會(huì)科學(xué)引文數(shù)據(jù)庫(SSCI)和人文藝術(shù)引文索引數(shù)據(jù)庫(A&HCI)當(dāng)中,超過90%的文章都是用英語發(fā)表的,這必然使得依賴英語訓(xùn)練的大模型,更具有可信性和權(quán)威性。

        由此看來,ChatGPT當(dāng)下的領(lǐng)先,實(shí)則是理所應(yīng)當(dāng)。

        來自“語料”的詛咒

        去年12月,谷歌的大語言模型Gemini鬧出過一個(gè)離奇的笑話。

        不需要任何前置對(duì)話,當(dāng)用戶使用中文提問“你是誰”的時(shí)候,Gemini會(huì)回答自己是“文心一言”,一個(gè)由百度公司開發(fā)的語言模型,甚至?xí)嬷约旱膭?chuàng)始人是李彥宏。

        當(dāng)用戶用英文提出同樣的問題時(shí),Gemini給出的則是正常的回復(fù)。

        很顯然,這大概率是由于谷歌把百度文心一言的輸出內(nèi)容作為訓(xùn)練數(shù)據(jù),而數(shù)據(jù)清洗工作又不到位的結(jié)果。不過同時(shí),這也帶出了另一個(gè)更嚴(yán)重的問題—互聯(lián)網(wǎng)上語料的相互污染。

        有傳聞稱,目前各類內(nèi)容平臺(tái)上的很多中文語料,都是由大模型生成的,或者至少寫了其中一部分,因此谷歌才會(huì)不慎“中招”。

        2023年2月,美國華裔科幻文學(xué)家特德·姜發(fā)表文章稱:ChatGPT等大語言模型,實(shí)質(zhì)是對(duì)互聯(lián)網(wǎng)語料庫的有損模糊壓縮。

        按特德·姜的觀點(diǎn),用大語言模型生成的文本來訓(xùn)練新的模型,如同反復(fù)以JPEG格式存儲(chǔ)同一圖像,重復(fù)操作下去會(huì)丟失越來越多的信息—大語言模型生成的內(nèi)容在互聯(lián)網(wǎng)上流傳得越多,真實(shí)的內(nèi)容就越難以辨識(shí),大模型對(duì)現(xiàn)實(shí)的認(rèn)知會(huì)逐漸扭曲,“幻覺”現(xiàn)象就會(huì)越嚴(yán)重。

        2023年6月,牛津、劍橋等高校的研究人員發(fā)表過一篇論文《遞歸之詛咒:用生成數(shù)據(jù)訓(xùn)練會(huì)使模型遺忘》。論文用實(shí)驗(yàn)結(jié)果證明,用AI生成數(shù)據(jù)訓(xùn)練新的AI,最終會(huì)讓新的AI模型退化乃至崩潰。

        而之所以會(huì)出現(xiàn)“AI生成數(shù)據(jù)訓(xùn)練AI”的情況,根本原因在于數(shù)據(jù)量的不足。就連OpenAI都公開承認(rèn)過訓(xùn)練數(shù)據(jù)稀缺,已無法滿足ChatGPT饕餮般的胃口,甚至還因?yàn)椴糠钟?xùn)練數(shù)據(jù)集涉及版權(quán)糾紛,而接連吃到官司。

        用AI生成數(shù)據(jù)訓(xùn)練新的AI,最終會(huì)讓新的AI模型退化乃至崩潰。

        2023年4月28日,江西撫州大數(shù)據(jù)標(biāo)注產(chǎn)業(yè)小鎮(zhèn),當(dāng)?shù)芈殬I(yè)院校學(xué)生正在從事數(shù)據(jù)標(biāo)注的學(xué)習(xí)和實(shí)踐

        實(shí)際上,版權(quán)也是互聯(lián)網(wǎng)語料污染的另一個(gè)因素,即創(chuàng)作者為了抗?fàn)帯安徽?dāng)”抓取數(shù)據(jù)的行為,故意設(shè)下了“圈套”。

        如此情景,正是驗(yàn)證了全國政協(xié)委員、知乎創(chuàng)始人周源在近期的兩會(huì)上所說的話:“我覺得今天構(gòu)建‘水庫的工作大家都重視得不夠,反而比較看重怎么去打水的環(huán)節(jié),比如訓(xùn)練模型怎么去進(jìn)行數(shù)據(jù)和內(nèi)容的爬取?!?/p>

        倘若說,英文領(lǐng)域的大語言模型的發(fā)展,受到了訓(xùn)練語料不足的掣肘,中文大模型面臨的形勢(shì),只會(huì)更加嚴(yán)峻。

        尋求解決之道

        中文語料無論是“質(zhì)”還是“量”,都遠(yuǎn)遠(yuǎn)比不上英文語料,而語料本身的污染,同樣是一個(gè)頗具挑戰(zhàn)性的命題。那么,難道說中文世界的AIGC產(chǎn)品,就沒有超越ChatGPT的可能了嗎?

        或許換一種理解大語言模型的思路,就能獲得不同的答案。

        大語言模型不一定非得成為“全知全能”的存在,而是可以深挖某個(gè)特定的垂直領(lǐng)域,“落地”到具體的“場(chǎng)景”里去檢驗(yàn)自我,獲得不斷提升。

        正如李彥宏提及文心大模型超過ChatGPT-4時(shí)所舉的例子,ChatGPT-4無法理解“沁園春”這一詞牌名,而“文心一言”可以作出一首漂亮的古詞—至少在寫詞這一領(lǐng)域,“文心一言”確實(shí)超越了ChatGPT。

        目前,國內(nèi)的工業(yè)、教育、醫(yī)療、政務(wù)等領(lǐng)域,都在進(jìn)行著深層次的智能化變革,有著龐大的需求和優(yōu)渥的市場(chǎng)化氛圍,這或許能給部分體量“小而精”的語言模型一次彎道超車的契機(jī)。

        至于綜合性大語言模型的發(fā)展,則仍需有良好的培育土壤。

        2023年12月20日,中國網(wǎng)絡(luò)空間安全協(xié)會(huì)在北京發(fā)布了用于大模型的首批中文基礎(chǔ)語料庫,包括1億余條數(shù)據(jù),500億個(gè)“Token”(文本處理的最小單位)。中文基礎(chǔ)語料庫的發(fā)布,象征著各界初步達(dá)成了協(xié)作的共識(shí),而這僅僅只是一個(gè)開始,后續(xù)依然有漫長的道路要走。

        目前,國內(nèi)還有不少可以開發(fā)的大型語料庫,如中國期刊全文數(shù)據(jù)庫,收錄了7400余種各類期刊;如中國國家圖書館,有藏書3700萬冊(cè);又如以北京語言大學(xué)的漢語語料庫(BCC)為代表的各大高校語料庫,該語料庫有150億字,包含了報(bào)刊、科技、古漢語等多領(lǐng)域的語料內(nèi)容。

        對(duì)此類中文語料內(nèi)容進(jìn)行系統(tǒng)性梳理和標(biāo)注,需要花費(fèi)大量的人力物力,難以憑借一家之力完成,不妨倡議共同開發(fā),創(chuàng)建一個(gè)能夠讓各方共享的大型語料庫。

        這就需要由相關(guān)部門牽頭,從業(yè)界達(dá)成普遍共識(shí)、并建立規(guī)范化章程開始,強(qiáng)化數(shù)據(jù)安全和知識(shí)產(chǎn)權(quán)保護(hù),逐步加快對(duì)高質(zhì)量中文數(shù)據(jù)集的開發(fā)和利用,給中文語料的市場(chǎng)化流通提供一個(gè)更好的環(huán)境。

        而另一種可能性則是,將來出現(xiàn)了一款能夠精準(zhǔn)處理語料的大語言模型,協(xié)助人類從這項(xiàng)繁瑣的工作中獲得“解放”—當(dāng)然在此之前,人類得想辦法不讓特德·姜的預(yù)言成真。

        責(zé)任編輯吳陽煜 wyy@nfcmag.com

        猜你喜歡
        語言英語模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        語言是刀
        文苑(2020年4期)2020-05-30 12:35:30
        讓語言描寫搖曳多姿
        累積動(dòng)態(tài)分析下的同聲傳譯語言壓縮
        3D打印中的模型分割與打包
        讀英語
        我有我語言
        酷酷英語林
        欧美野外疯狂做受xxxx高潮| 丝袜美腿在线播放一区二区| 呦泬泬精品导航| 亚洲处破女av一区二区| 亚洲色图在线免费视频| 米奇欧美777四色影视在线| 无码av中文一区二区三区| 国产精品久久久久久久久免费| 伊人久久亚洲综合影院首页| 精品国产三级国产av| 久久精品国产亚洲超碰av| 国产一卡2卡3卡四卡国色天香| 亚洲成AⅤ人在线观看无码| 青青青视频手机在线观看| 国产精品久久久天天影视| 少妇高潮惨叫正在播放对白| 国产午夜视频免费观看| 麻豆精品国产免费av影片| 超碰人人超碰人人| 永久免费观看的毛片手机视频| 国产精品不卡无码AV在线播放| 高清不卡av一区二区| 欧美猛少妇色xxxxx猛交| 亚洲成aⅴ人在线观看| 久久水蜜桃亚洲av无码精品麻豆| 免费人成网在线观看品观网| 亚洲一区亚洲二区视频在线| 亚洲av片在线观看| 香蕉视频一级| 一区二区三区人妻在线| 妺妺窝人体色777777| 精品无码国产一区二区三区av | 久久精品国产免费观看| 91高清国产经典在线观看| 人妻免费黄色片手机版| 午夜天堂一区人妻| 国产精品成年片在线观看| 4hu44四虎www在线影院麻豆| 久久99精品国产麻豆| 护士人妻hd中文字幕| 天天干夜夜躁|