亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

主持人語大模型時代語言智能應(yīng)注重科學(xué)基礎(chǔ)和社會應(yīng)用

2023-08-01 07:23:37饒高琦

語言戰(zhàn)略研究 2023年4期

饒高琦

語言智能被稱作人工智能皇冠上的明珠。自然語言的理解和生成被視作由計算智能、感知智能邁向認(rèn)知智能所必須實現(xiàn)的重要能力。語言之于人類的關(guān)鍵作用，決定了掌握語言是人工智能融入人類社會、落地生產(chǎn)應(yīng)用不可或缺的環(huán)節(jié)。作為術(shù)語，“語言智能”與“自然語言處理”“計算語言學(xué)”等高度關(guān)聯(lián)，并且在發(fā)展過程中深度融合。這3個術(shù)語現(xiàn)今常被視作近義詞，在很多語境中可以互相替代。

人類對機器擁有語言智能的渴求由來已久，東西方古代神話中都曾出現(xiàn)過能說會寫的人造物。利用機器處理語言的嚴(yán)肅思想實驗則在近代出現(xiàn)。到20世紀(jì)中葉，圖靈測試的提出、人工智能學(xué)科的誕生以及機器翻譯工程的實現(xiàn)等共同催生了語言智能。同時，隨著當(dāng)代語言學(xué)、邏輯學(xué)的高速發(fā)展，語言模型的理論，句法、語義形式化表示的方法，在很大程度上使語言智能發(fā)展成為可能。可以說，語言智能一誕生就具有語言學(xué)、數(shù)學(xué)和計算機科學(xué)的交叉學(xué)科屬性。

伴隨著人工智能學(xué)科的發(fā)展，語言智能也經(jīng)歷了低谷和復(fù)興。1950年，圖靈提出了依靠語言行為檢測智能的“圖靈測試”，標(biāo)志著語言智能研究的開始，同一時期，美蘇兩國的機器翻譯工程吹響了語言智能研究的號角。ELIZA等早期人機對話系統(tǒng)也在這一階段問世，基于規(guī)則和詞典的方法是這一時期的主流。然而，1966年美國科學(xué)院發(fā)布《語言與機器》報告，宣稱“在近期或可以預(yù)見的未來，開發(fā)出實用的機器翻譯系統(tǒng)是沒有指望的”，建議停止對機器翻譯和相關(guān)項目的支持。語言智能研究由此陷入蕭條。

然而在隨后的10年中，計算機軟硬件技術(shù)和形式語言學(xué)的研究并沒有停止。在這一時期，以賈里尼克為代表的學(xué)者開始嘗試使用統(tǒng)計方法進(jìn)行語言建模。20世紀(jì)70年代中期，統(tǒng)計機器翻譯系統(tǒng)和統(tǒng)計語音識別方法取得進(jìn)展，這些都標(biāo)志著語言智能研究開始復(fù)蘇，并出現(xiàn)統(tǒng)計方法轉(zhuǎn)向。從20世紀(jì)70年代末到21世紀(jì)第二個十年，計算能力按摩爾定律飛速提升，互聯(lián)網(wǎng)出現(xiàn)并迅速普及。語言智能的需求快速增長，其發(fā)展所需的數(shù)據(jù)、技術(shù)也日益完善，新算法層出不窮。對人類語言進(jìn)行統(tǒng)計建模的思想在理論和實踐上都取得了輝煌的成就。機器翻譯、人機對話、信息抽取、語音識別與生成等任務(wù)上的系統(tǒng)性能快速提升。幾乎所有信息產(chǎn)業(yè)巨頭都參與到語言智能技術(shù)和產(chǎn)品的研發(fā)中。技術(shù)進(jìn)步和資源投入反過來刺激了數(shù)據(jù)、算法和算力的進(jìn)一步發(fā)展，形成了正反饋效應(yīng)?；诼?lián)結(jié)主義的深度神經(jīng)網(wǎng)絡(luò)建模思想在這一時期逐步完善。2012年，卷積神經(jīng)網(wǎng)絡(luò)助力文字識別取得突破性進(jìn)展，并由此揭開持續(xù)至今的深度神經(jīng)網(wǎng)絡(luò)時代。卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、注意力機制和轉(zhuǎn)換器模型等技術(shù)持續(xù)推動語言智能各項任務(wù)的性能提升，語音識別和語音合成、機器翻譯、人機對話和文本生成都在這一時期快速達(dá)到商用程度。語言智能技術(shù)滲透進(jìn)語言生活的方方面面。深度神經(jīng)網(wǎng)絡(luò)方法中，網(wǎng)絡(luò)結(jié)構(gòu)、數(shù)據(jù)特征和參數(shù)之間的關(guān)系極其復(fù)雜，模型訓(xùn)練存在隨機過程，這些因素導(dǎo)致其呈現(xiàn)“黑箱效應(yīng)”，輸出結(jié)果的可解釋性較差。

今天，學(xué)界相信語言智能已進(jìn)入大規(guī)模語言模型（以下簡稱大模型）時代。大模型是一種預(yù)訓(xùn)練語言模型，是深度神經(jīng)網(wǎng)絡(luò)技術(shù)發(fā)展的高峰。它使用大規(guī)模語料進(jìn)行預(yù)訓(xùn)練，然后使用面向特定任務(wù)的小規(guī)模語料，根據(jù)遷移學(xué)習(xí)的原理進(jìn)行微調(diào)，形成面向具體語言智能任務(wù)的模型。其中基于轉(zhuǎn)換器的生成式預(yù)訓(xùn)練模型（GPT）成為當(dāng)前語言智能研究的核心技術(shù)。GPT利用轉(zhuǎn)換器模型的編碼器和解碼器，從語言大數(shù)據(jù)中獲取了豐富的語言知識，在語言生成任務(wù)上達(dá)到了相當(dāng)高的水平，被視為從感知智能邁向認(rèn)知智能的標(biāo)志性成果，并引發(fā)了社會各界對通用人工智能的遐想。

縱觀語言智能的發(fā)展史，算法、算力和數(shù)據(jù)三大要素起到了至關(guān)重要的作用。它們彼此促進(jìn)又互相制約。人類對語言的顯性認(rèn)識體現(xiàn)為形式化建模中所使用的算法，更多的隱性知識則蘊含于語言數(shù)據(jù)之中。算法得以運行，數(shù)據(jù)得到運用，都取決于算力的大小。神經(jīng)網(wǎng)絡(luò)的觀念誕生于20世紀(jì)中期，到20世紀(jì)末已獲得了相當(dāng)程度的發(fā)展，但未能成為語言智能或人工智能中的主流方法，其重要原因就是數(shù)據(jù)和算力無法對其運行形成有效支持。而規(guī)則和詞典方法在20世紀(jì)長期居于主流，很大程度上也是因其對算力和數(shù)據(jù)的需求較小，適應(yīng)于當(dāng)時的生產(chǎn)力水平。語言智能的性能及其能調(diào)配的算力、使用的算法、擁有的語言數(shù)據(jù)息息相關(guān)。大模型的優(yōu)異表現(xiàn)正源于“能力涌現(xiàn)”現(xiàn)象，而這一現(xiàn)象是大數(shù)據(jù)、大算力和深層網(wǎng)絡(luò)交織產(chǎn)生的。

面對大模型這一“工程奇跡”，人類對其背后的工程機理和科學(xué)奧秘都所知有限。在這一歷史時刻，收獲確定的答案還為時尚早，提出恰當(dāng)?shù)膯栴}顯得更有價值。在工程上，如何有效評估大模型的能力已成為學(xué)界熱點，人類語言測試的理論和實踐有多少可以借鑒，大模型評測如何開展，都成了當(dāng)今“顯學(xué)”。國內(nèi)高校、科研院所和部分企業(yè)，在測試集模式、人工體驗?zāi)Ｊ?、過程檢測模式等研究路線上開展了大量富有成效的研究。另外，大模型如何“瘦身”，如何適應(yīng)低算力、低資源場景，是令其在各細(xì)分領(lǐng)域落地的關(guān)鍵。

在科學(xué)發(fā)展方面，大模型的能力涌現(xiàn)現(xiàn)象必將引導(dǎo)語言學(xué)、復(fù)雜科學(xué)等學(xué)科展開全新的探索。如何從海量無標(biāo)注、少標(biāo)注語言數(shù)據(jù)中萃取知識？多語種數(shù)據(jù)聯(lián)合建模如何形成多語能力？數(shù)學(xué)題、程序代碼等非傳統(tǒng)語言數(shù)據(jù)如何被語言模型所“習(xí)得”？大模型能力和人類能力的相同與相異之處在哪里？為了更加安全地使用大模型，如何提高深度學(xué)習(xí)的可解釋性？這些問題共同構(gòu)成了大模型時代語言智能的科學(xué)基礎(chǔ)問題。并且我們還應(yīng)注意，今天的語言智能，更多依賴于海量數(shù)據(jù)，以無監(jiān)督和少監(jiān)督方式獲取知識。人類積累的顯性知識若能有效融合使用，實現(xiàn)“數(shù)據(jù)-知識雙輪驅(qū)動”，將顯著改善現(xiàn)有語言智能可解釋性、安全性、領(lǐng)域適應(yīng)性、綠色節(jié)能等方面的問題。

在社會應(yīng)用方面，對新生事物的有效治理和向善使用也是無可回避的話題。以下議題已經(jīng)成為語言智能落地過程中的關(guān)鍵：智能體治理（尤其是語言治理），確保語言智能安全、向善使用；引導(dǎo)智能技術(shù)助力信息無障礙、語言應(yīng)急、語言保護(hù)等事業(yè)，增強公益屬性；促進(jìn)“人機共生”的語言生活和諧繁榮發(fā)展。具體到語言文字工作者，工程上的語言資源構(gòu)建、科學(xué)上的語言知識表示，治理上的語言倫理和語言安全研究，應(yīng)當(dāng)成為數(shù)智時代最重要的研究話題。

總之，在新時代，我們所面臨的問題、所產(chǎn)生的需求，總是多于我們新增的知識，但這也恰恰是推動人類不斷探索前行的動力。本專欄的幾篇文章和多人談，就是在這種思路上展開的。在深層科學(xué)基礎(chǔ)方面，我們特別關(guān)注大模型的流利語言表達(dá)對圖靈測試構(gòu)成的直接挑戰(zhàn)，以及它背后的語言哲學(xué)問題。在應(yīng)用方面，我們重視大模型的治理和管理問題，大模型和語言資源的關(guān)系決定了它也適用于語言資源治理的原則和方法。語言智能技術(shù)轉(zhuǎn)換為生產(chǎn)力，離不開人的教育，而技術(shù)本身也向教育提出了挑戰(zhàn)，更帶來了機遇，所以語言智能教育是我們不能忽視的話題。在社會實踐中，語言無障礙是語言智能發(fā)展的重要目標(biāo)，也是科技向善的重要提醒，然而現(xiàn)實情況仍不盡如人意，其中數(shù)據(jù)問題是最大瓶頸之一。對此本期也特別刊文加以探討。希望本專欄能進(jìn)一步推動各界對語言智能研究的關(guān)注，也期盼能得到學(xué)界的呼應(yīng)和社會的支持。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

主持人語 大模型時代語言智能應(yīng)注重科學(xué)基礎(chǔ)和社會應(yīng)用

主持人語大模型時代語言智能應(yīng)注重科學(xué)基礎(chǔ)和社會應(yīng)用