亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大語(yǔ)言模型時(shí)代的術(shù)語(yǔ)翻譯

        2024-01-01 00:00:00馮志偉
        中國(guó)科技術(shù)語(yǔ) 2024年3期
        關(guān)鍵詞:大語(yǔ)言模型民族化國(guó)際化

        摘 要:大語(yǔ)言模型為術(shù)語(yǔ)學(xué)發(fā)展提供了千載難逢的發(fā)展機(jī)會(huì),我國(guó)的術(shù)語(yǔ)學(xué)研究應(yīng)當(dāng)緊緊抓住這個(gè)機(jī)會(huì)。在大語(yǔ)言模型時(shí)代,我們應(yīng)當(dāng)把術(shù)語(yǔ)的民族化和術(shù)語(yǔ)的國(guó)際化結(jié)合起來(lái),從而推動(dòng)我國(guó)術(shù)語(yǔ)學(xué)的發(fā)展。

        關(guān)鍵詞:術(shù)語(yǔ)學(xué);大語(yǔ)言模型;民族化;國(guó)際化

        中圖分類(lèi)號(hào):H083; G20" 文獻(xiàn)標(biāo)識(shí)碼:A" DOI:10.12339/j.issn.1673-8578.2024.03.011

        Term Translation in Era of Large Language Models//FENG Zhiwei

        Abstract: The Large Language Models provide a golden opportunity for the development of terminology studies, and China’s terminology studies should firmly grasp this opportunity. In the era of Large Language Models,we should combine the nationalization of terminology and the internationalization of terminology to promote the development of terminology in China.

        Keywords: terminology; large language model; nationalization; internationalization

        收稿日期:2024-01-24" 修回日期:2024-03-01

        1 GPT系列產(chǎn)品的出現(xiàn)

        2018年,OpenAI公司開(kāi)發(fā)了“基于轉(zhuǎn)換器的生成式預(yù)訓(xùn)練模型”,其英文術(shù)語(yǔ)是Generative Pre-trained Transformer,簡(jiǎn)稱(chēng)GPT-1。GPT-1的推出揭開(kāi)了大語(yǔ)言模型(Large Language Model,LLM)研制的序幕。

        GPT-1利用轉(zhuǎn)換器模型(Transformer)的編碼器(encoder)和解碼器(decoder),從語(yǔ)言大數(shù)據(jù)中獲取了豐富的詞匯、語(yǔ)法和語(yǔ)義知識(shí),在語(yǔ)言生成任務(wù)上達(dá)到了較高水平。

        GPT-1使用Transformer進(jìn)行訓(xùn)練,在訓(xùn)練過(guò)程中,使用海量的自然語(yǔ)言文本數(shù)據(jù)來(lái)學(xué)習(xí)單詞的嵌入表示(word embedding expression)以及上下文之間的關(guān)系(context relation),形成知識(shí)表示(knowledge representation)。一旦訓(xùn)練完成,知識(shí)表示就被編碼在神經(jīng)網(wǎng)絡(luò)的參數(shù)中,利用這些參數(shù)可以生成回答。當(dāng)用戶(hù)提出問(wèn)題時(shí),神經(jīng)網(wǎng)絡(luò)就根據(jù)已經(jīng)學(xué)習(xí)到的知識(shí),把答案反饋給用戶(hù)。

        OpenAI公司分別于2018、2019年開(kāi)發(fā)出了GPT-1和GPT-2,于2020年5月開(kāi)發(fā)出了GPT-3,2020年7月研制了GPT-3中的davinci, curie, babbage三個(gè)模型,2022年3月研制了InstructGPT,進(jìn)行文本和代碼的語(yǔ)言模型訓(xùn)練,研制出GPT-3.5(如下圖1所示)后接著進(jìn)行有監(jiān)督微調(diào)(Supervised Fine Tuning, SFT)和基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)(Reinforcement Learning from Human Feedback,RLHF),之后于2022年11月推出ChatGPT。

        ChatGPT的推出引起了史無(wú)前例的轟動(dòng)。成千上萬(wàn)的用戶(hù)從不同角度對(duì)它進(jìn)行了應(yīng)用體驗(yàn)。ChatGPT在2022年11月30日推出僅5天時(shí),注冊(cè)用戶(hù)就超過(guò)百萬(wàn);推出兩個(gè)月的時(shí)候,月活躍用戶(hù)超過(guò)1億。短視頻社交媒體平臺(tái)TikTok月活躍用戶(hù)超過(guò)1億用了9個(gè)月時(shí)間,推特(Twitter)月活躍用戶(hù)超過(guò)1億用了90個(gè)月時(shí)間,ChatGPT打破了歷史記錄,遙遙領(lǐng)先,引起了全球網(wǎng)民的廣泛關(guān)注,在大語(yǔ)言模型時(shí)代掀起了一場(chǎng)波瀾壯闊、史無(wú)前例的海嘯[1]。

        2 ChatGPT的主要工作機(jī)制

        ChatGPT是一種對(duì)話場(chǎng)景優(yōu)化語(yǔ)言模型(optimizing language models for dialogue)。ChatGPT比GPT-3更進(jìn)一步,進(jìn)化到具備執(zhí)行自然語(yǔ)言指令的能力,用戶(hù)不必給出示例,只要使用自然語(yǔ)言給出指令,ChatGPT就可以理解用戶(hù)的意圖。例如,用戶(hù)只要直接用自然語(yǔ)言告訴 ChatGPT把某個(gè)英語(yǔ)單詞譯成法語(yǔ),ChatGPT就可以執(zhí)行并給出翻譯結(jié)果。ChatGPT可以根據(jù)上下文提示,自動(dòng)理解并執(zhí)行各類(lèi)任務(wù),不必更新模型的參數(shù)或架構(gòu)。

        圖1 ChatGPT的發(fā)展過(guò)程

        ChatGPT利用Transformer模型,從語(yǔ)言大數(shù)據(jù)中獲取豐富的語(yǔ)言知識(shí),在語(yǔ)言生成任務(wù)上達(dá)到了相當(dāng)高的水平,成為了大語(yǔ)言模型時(shí)代最重要的神經(jīng)網(wǎng)絡(luò)模型。

        ChatGPT的訓(xùn)練語(yǔ)料高達(dá)100億個(gè)句子,包含約5000億個(gè)詞元(token)。ChatGPT通過(guò)使用大量訓(xùn)練數(shù)據(jù)來(lái)模擬人的語(yǔ)言行為,生成人類(lèi)可以理解的文本,并根據(jù)上下文語(yǔ)境提供恰當(dāng)?shù)幕卮?,甚至還能做句法分析和語(yǔ)義分析,幫助用戶(hù)調(diào)試計(jì)算機(jī)程序,寫(xiě)計(jì)算機(jī)程序代碼,做數(shù)學(xué)題,而且能夠通過(guò)人類(lèi)反饋的信息,不斷改善生成的功能,達(dá)到很強(qiáng)的自然語(yǔ)言生成能力。ChatGPT的訓(xùn)練參數(shù)越來(lái)越多,性能越來(lái)越好。

        2023年3月17日, Open AI發(fā)布GPT-4。GPT-4 具有強(qiáng)大的識(shí)圖能力,文字輸入限制由3千詞提升至 2.5 萬(wàn)詞,回答問(wèn)題的準(zhǔn)確度顯著提高,能夠生成歌詞、創(chuàng)意文本,改變文本的寫(xiě)作風(fēng)格,甚至還具有自動(dòng)翻譯能力。2023年11月7日,OpenAI舉行開(kāi)發(fā)日(DevDay),宣布了GPT-4的一次大升級(jí),推出了GPT-4 Turbo,引起了全世界的密切關(guān)注。

        我們把這些不同階段的GPT統(tǒng)稱(chēng)為GPTs系列。GPTs系列的成功具有劃時(shí)代的里程碑意義,是大語(yǔ)言模型時(shí)代最偉大的成果之一,足以載入人工智能發(fā)展史冊(cè)。我們已經(jīng)進(jìn)入了大語(yǔ)言模型時(shí)代(Era of Large Language Model)。

        3 大語(yǔ)言模型時(shí)代的術(shù)語(yǔ)翻譯

        術(shù)語(yǔ)是人類(lèi)的科技知識(shí)在自然語(yǔ)言中的結(jié)晶。在大語(yǔ)言模型的發(fā)展過(guò)程中,出現(xiàn)了大量表示新技術(shù)、新概念的術(shù)語(yǔ)。這些術(shù)語(yǔ)一般首先使用英語(yǔ)表達(dá)。中國(guó)人在使用這些術(shù)語(yǔ)的時(shí)候,有必要把這些新術(shù)語(yǔ)翻譯成漢語(yǔ),實(shí)現(xiàn)術(shù)語(yǔ)的民族化,以便廣大中國(guó)用戶(hù)使用。2017年以前,在深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)發(fā)展時(shí)期,不少英文術(shù)語(yǔ)即被翻譯成了漢語(yǔ)(見(jiàn)表1)。這樣的術(shù)語(yǔ)翻譯,便于中國(guó)用戶(hù)理解和使用,受到歡迎。

        2017年6月,谷歌公司在其論文《注意力就是你們所需要的一切》(Attention Is All You Need)[2]中提出了一個(gè)完全基于注意力機(jī)制的預(yù)訓(xùn)練語(yǔ)言模型Transformer,該模型拋棄了在此之前的其他采用注意力機(jī)制的模型所保留的循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),核心部分完全使用注意力機(jī)制。Transformer是完全基于注意力機(jī)制的模型,在各項(xiàng)任務(wù)的完成和性能發(fā)揮方面表現(xiàn)優(yōu)異,因此成為自然語(yǔ)言理解和機(jī)器翻譯的重要基準(zhǔn)模型。

        由于大語(yǔ)言模型的研究和發(fā)展極快,大量新出現(xiàn)的術(shù)語(yǔ)來(lái)不及翻譯成漢語(yǔ),專(zhuān)業(yè)領(lǐng)域內(nèi)部及專(zhuān)業(yè)人員之間,經(jīng)常直接使用英語(yǔ)術(shù)語(yǔ)。Transformer這個(gè)新術(shù)語(yǔ)便是如此,到目前為止沒(méi)有確定的廣為認(rèn)可的中文譯詞。Transformer一詞具有多重含義:變壓器、變形金剛、轉(zhuǎn)換器等,但是人們覺(jué)得這些都不能表達(dá)Transformer在人工智能領(lǐng)域的確切含義,當(dāng)下只好直接使用transformer這個(gè)英文術(shù)語(yǔ)[3]。

        2019年,谷歌公司研制了Bidirectional Encoder Representations from Transformer,即“基于Transformer的雙向編碼器表示”,到目前為止也未有恰當(dāng)?shù)闹形姆g,而是直接使用其英文縮寫(xiě)B(tài)ERT。

        與此同時(shí),大語(yǔ)言模型領(lǐng)域還有若干新出現(xiàn)的產(chǎn)品及技術(shù)術(shù)語(yǔ),都沒(méi)有翻譯為中文,業(yè)內(nèi)普遍使用其英文原文(見(jiàn)表2)。就連最近公布的“漢語(yǔ)盤(pán)點(diǎn)2023”,直接把英文術(shù)語(yǔ)ChatGPT作為漢語(yǔ)熱詞公布,將其稱(chēng)為“國(guó)際詞(如圖2)。

        以上情況說(shuō)明,我們?cè)谔岢g(shù)語(yǔ)民族化的同時(shí),術(shù)語(yǔ)的國(guó)際化也漸行其道,而且逐漸步入主流。

        20世紀(jì)80年代,周有光先生在“文化傳播和術(shù)語(yǔ)翻譯”[4]一文中指出,在科學(xué)技術(shù)領(lǐng)域,可以直接使用外文術(shù)語(yǔ)而不翻譯成漢語(yǔ),實(shí)現(xiàn)術(shù)語(yǔ)的國(guó)際化。他似乎預(yù)見(jiàn)到了今天術(shù)語(yǔ)國(guó)際化的這種局面,指出:“在高層次的專(zhuān)家中,術(shù)語(yǔ)國(guó)際化不僅是可能的,而且是必要的。在一般科技工作者中間,術(shù)語(yǔ)民族化有容易學(xué)習(xí)的好處?!?“中國(guó)如果明確地和認(rèn)真地實(shí)行科技雙語(yǔ)言政策,一方面可以保持術(shù)語(yǔ)民族化的傳統(tǒng),使大眾科技工作者比較容易吸收科技知識(shí),另一方面可以為術(shù)語(yǔ)國(guó)際化準(zhǔn)備必要條件,使專(zhuān)業(yè)科技研究者迎頭趕上迅猛發(fā)展的信

        息化時(shí)代?!?周有光先生的這些預(yù)見(jiàn),今天正在一步一步地變成現(xiàn)實(shí)。在術(shù)語(yǔ)審定工作中,我們是不是有必要認(rèn)真考慮周有光先生的這些預(yù)見(jiàn)呢?

        大語(yǔ)言模型對(duì)術(shù)語(yǔ)學(xué)研究提出了嚴(yán)峻的挑戰(zhàn)。計(jì)算機(jī)把文本中的語(yǔ)言符號(hào)轉(zhuǎn)化為向量,讀了億萬(wàn)個(gè)“詞元”(token),只要根據(jù)上下文對(duì)于下一個(gè)“詞元”的預(yù)測(cè)來(lái)調(diào)整參數(shù),就可以生成符合語(yǔ)法且邏輯通順的文本??梢?jiàn)構(gòu)成新文本的脈絡(luò)就潛藏在大規(guī)模的文本數(shù)據(jù)之中,這樣的脈絡(luò)的實(shí)質(zhì)是什么?怎樣發(fā)現(xiàn)這種脈絡(luò)?怎樣使用這種脈絡(luò)?其中包含著眾多的術(shù)語(yǔ)學(xué)問(wèn)題,應(yīng)當(dāng)引起我們的密切關(guān)注。

        大語(yǔ)言模型為術(shù)語(yǔ)學(xué)發(fā)展提供了一個(gè)千載難逢的好機(jī)會(huì),新時(shí)代的術(shù)語(yǔ)學(xué)研究應(yīng)當(dāng)面對(duì)這些問(wèn)題,從而把術(shù)語(yǔ)學(xué)推進(jìn)到一個(gè)嶄新的階段。

        參考文獻(xiàn)

        [1] 馮志偉, 張燈柯. 數(shù)字人文、元宇宙與自然語(yǔ)言處理[J],外語(yǔ)學(xué)刊, 2023(6):1-12.

        [2] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [J]. Advances in Neural Information Processing Systems, 2017: 5998-6008.

        [3] 馮志偉.計(jì)算語(yǔ)言學(xué)方法研究[M]. 上海:上海外語(yǔ)教育出版社,2023.

        [4] 周有光.文化傳播和術(shù)語(yǔ)翻譯//現(xiàn)代文化的沖擊波[M]. 北京:三聯(lián)書(shū)店,2000:120-138.

        作者簡(jiǎn)介:馮志偉(1939—),男,計(jì)算語(yǔ)言學(xué)家,教育部語(yǔ)言文字應(yīng)用研究所研究員,中國(guó)計(jì)算機(jī)學(xué)會(huì)高級(jí)會(huì)員。北京大學(xué)和中國(guó)科技大學(xué)研究生院兩次研究生畢業(yè)。20世紀(jì)70年代首次測(cè)出漢字熵為9.65比特,為漢字多八位編碼提供了語(yǔ)言學(xué)支持。研制了世界上第一個(gè)把漢語(yǔ)譯為多種外語(yǔ)的機(jī)器翻譯系統(tǒng)。長(zhǎng)期從事語(yǔ)言學(xué)和計(jì)算機(jī)科學(xué)的跨學(xué)科研究,出版論著30多部,發(fā)表論文400多篇,主持研制國(guó)際標(biāo)準(zhǔn)1項(xiàng)、國(guó)家標(biāo)準(zhǔn)1項(xiàng)、國(guó)家規(guī)范3項(xiàng),參與研制國(guó)家標(biāo)準(zhǔn)13項(xiàng)。曾任中國(guó)語(yǔ)文現(xiàn)代化學(xué)會(huì)副會(huì)長(zhǎng),現(xiàn)任中國(guó)人工智能學(xué)會(huì)理事、《中文信息學(xué)報(bào)》顧問(wèn)、《中國(guó)科技術(shù)語(yǔ)》副主編。2006年獲奧地利維斯特獎(jiǎng),2018年獲中國(guó)計(jì)算機(jī)學(xué)會(huì)NLPCC 杰出貢獻(xiàn)獎(jiǎng),2021年獲中國(guó)中文信息學(xué)會(huì)會(huì)士稱(chēng)號(hào),2022年獲香港圣弗朗西斯科技人文獎(jiǎng)。通信方式:zwfengde2010@163.com。

        猜你喜歡
        大語(yǔ)言模型民族化國(guó)際化
        ChatGPT技術(shù)原理及未來(lái)影響研究
        財(cái)務(wù)共享服務(wù)中心的大語(yǔ)言模型應(yīng)用探究
        人工智能需要“靈魂”嗎
        生成式人工智能的教育應(yīng)用與展望
        聚焦港口國(guó)際化
        金橋(2022年10期)2022-10-11 03:29:46
        動(dòng)畫(huà)片《葫蘆兄弟》的造型民族化特征分析
        玩具世界(2022年2期)2022-06-15 07:37:28
        多元文化視域中的油畫(huà)民族化創(chuàng)新探析
        人民幣國(guó)際化十年紀(jì)
        徘徊于民族化與現(xiàn)代性之間——以《云中記》為例
        從園區(qū)化到國(guó)際化
        商周刊(2018年12期)2018-07-11 01:27:18
        超碰Av一区=区三区| 日本少妇浓毛bbwbbwbbw| 午夜福利试看120秒体验区| 怡春院欧美一区二区三区免费| 亚洲国产成人aⅴ毛片大全| 国产精品自拍盗摄自拍 | 97超碰中文字幕久久| 99久久国产精品网站| 永久免费av无码入口国语片| 久久无码人妻一区=区三区| 国产一级一厂片内射视频播放| 久久久精品视频网站在线观看| 色偷偷av男人的天堂| 国产福利酱国产一区二区| 人妻精品久久久一区二区| 成人av片在线观看免费| 精品日韩一区二区三区av| 亚洲国产av无码精品无广告| 老外和中国女人毛片免费视频| 老色鬼永久精品网站| 在线视频精品少白免费观看| 中文字幕日韩精品有码视频| 免费无码又爽又刺激网站| 激情亚洲的在线观看| 人妖在线一区二区三区| 国产色xx群视频射精| 国产第一草草影院| 国产一级黄片久久免费看| 国产免费又色又爽粗视频| 久久99精品久久久久久9蜜桃 | 中文字幕中文字幕在线中二区| 亚洲精品国产suv一区88| 2021国产最新在线视频一区| 亚洲国内精品一区二区在线| 久久99精品久久久大学生| 天美传媒精品1区2区3区| 噜噜噜色97| 91色老久久偷偷精品蜜臀懂色 | 北岛玲精品一区二区三区| 色婷婷久久精品一区二区| 国产午夜无码片在线观看影院|