吳洋洋
ChatGPT的發(fā)布改變了很多人的工作,首先就是那些處理自然語言的工程師。
正在清華大學(xué)電子信息專業(yè)讀研二的蔡紫宴3年前決定換掉自己的專業(yè),從經(jīng)濟學(xué)轉(zhuǎn)到人工智能相關(guān)專業(yè)—“自然語言處理”(Natural L anguageProcessing,NLP)。
這是一個當(dāng)時聽起來十分時髦的研究領(lǐng)域。非計算機專業(yè)的人對這個領(lǐng)域或許陌生,但只要你曾與蘋果的Siri等聊天機器人互動過,或是使用過Google翻譯、輸入法中的關(guān)鍵詞聯(lián)想功能,那么你就或多或少地接觸過NLP。
然而研究生入學(xué)一年多后,蔡紫宴就發(fā)現(xiàn),他在課堂和比賽中學(xué)到的自然語言處理技術(shù),正在快速迭代。
“我們看到NLP領(lǐng)域很多研究都被ChatGPT‘消滅了?!彼拇ù髮W(xué)神經(jīng)網(wǎng)絡(luò)方向副研究員郭泉說,如果說此前學(xué)校里的學(xué)生、研究員們還在試圖通過不同的模型使機器更準確地完成分詞、提取人名等傳統(tǒng)N L P任務(wù),那么ChatGPT已經(jīng)可以跳過這些中間環(huán)節(jié),直接生成結(jié)果,而且做得很好。
NLP是個古老的領(lǐng)域,但技術(shù)迭代周期在以翻倍的速度縮短。早在1940年代,工程師們就嘗試用提前設(shè)定好的規(guī)則(比如語法),訓(xùn)練機器理解語言。1990年代,基于統(tǒng)計的技術(shù)開始應(yīng)用到NLP中。2010年之后,深度學(xué)習(xí)成為主流。然后就來到了2020年,當(dāng)年3月,OpenAI發(fā)布了其第3代大語言模型(LargeLanguage Model,LLM)GPT-3(基于Transformer)。
從時間跨度來看,NLP領(lǐng)域的技術(shù)迭代時間從最早的30年、20年減少到了10年—差不多是一位在這一領(lǐng)域求學(xué)的學(xué)生從大學(xué)入學(xué)到博士畢業(yè)的時長。
蔡紫宴擔(dān)心,再過兩年,他在學(xué)校和實踐中所學(xué)的技術(shù)都會被淘汰,“你對一些自然語言的理解可能被完全顛覆,在考試、實習(xí)時你當(dāng)作定理來背的很多東西都沒意義了?!辈套涎缯f,他3年前開始學(xué)習(xí)自然語言處理的相關(guān)知識,當(dāng)時主要與預(yù)訓(xùn)練語言模型相關(guān),雙向編碼的BERT模型更被看好,而如今GPT模型表現(xiàn)出了更好的潛力。
“這就像一棵進化樹,在一個分支十分輝煌后突然走向盡頭,另一個分支逐漸登上舞臺?!辈套涎缯f,如果早些年N L P 的研究類似于純手工的作坊,在2 017年G oogle提出Transformer和后來預(yù)訓(xùn)練語言模型一統(tǒng)天下后,NLP領(lǐng)域的研究就像擁有了自動縫紉機的紡織工—現(xiàn)在,則進一步轉(zhuǎn)向全自動化底座的流水線。
學(xué)術(shù)期刊和會議對收錄論文的要求也一夕之間發(fā)生改變。蔡紫宴發(fā)現(xiàn),但凡論文涉及模型效果,只要論文沒有理論性創(chuàng)新,就必須考慮“大模型”。不然,審稿人基本都會問“你的研究結(jié)果與ChatGP T相比表現(xiàn)如 何”。
進入“大模型時代”以來,技術(shù)的演進速度并沒有慢下來,而是更快了。從本科開始就在做自然語言處理研究的李然告訴《第一財經(jīng)》雜志,2 019年到2021年,基于Transformer的語言處理模型主要還集中在BERT、GPT-2這類規(guī)模較小的模型上,但從2022年年末開始,GPT-3、GPT-4這類更大規(guī)模的預(yù)訓(xùn)練處理模型能夠生成更長文本序列、具有更高的語義理解和生成能力。很快,李然就發(fā)現(xiàn),實驗室里幾乎所有人都開始討論大模型。
2022年下半年,語言處理技術(shù)全面從傳統(tǒng)NL P轉(zhuǎn)入大模型的時候,李然結(jié)束了他的本科學(xué)習(xí),進入研究生階段。
“那時就感覺地球要結(jié)束了。”李然說,之前的研究到底要不要繼續(xù)做下去、已有的技術(shù)積累是不是應(yīng)該被推翻了、如果堅持的話堅持的意義是什么、之前研究的東西在未來還有沒有深入應(yīng)用的價值……李然每天都在思考這些問題,但沒有答案。
蔡紫宴、李然所在的實驗室都開始嘗試轉(zhuǎn)型,從傳統(tǒng)NLP轉(zhuǎn)向“大模型”。不過這種轉(zhuǎn)向并非簡單改變研究興趣就能實現(xiàn),而是涉及從芯片資源到數(shù)據(jù)資源的整體硬件改造。
李然稱,他所在的實驗室只能做一些參數(shù)量在10億到100億之間的模型訓(xùn)練。而像擁有1750億個參數(shù)的GPT-3就“絕對做不了”。有消息稱,GP T-4的參數(shù)量已經(jīng)達到1萬億。
蔡紫宴有相同的擔(dān)憂。在沒有GPT-3、GPT-4這些“大模型”的時候,單個實驗室甚至單個學(xué)生利用實驗室的普通服務(wù)器都可以做自然語言處理的研究,但只要想研究“大語言模型”(Large Language Models,L LMs),就需要聯(lián)合不同實驗室,甚至要帶著老師、實驗室的資源與校外公司合作,依靠對方提供的數(shù)據(jù)來做研究。即使是在清華,能做這種“龐大工程”的實驗室都不多,首先在算力上就有很高的門檻。
數(shù)據(jù)來源:根據(jù)公開資料整理注:GPT-3在2020年3月發(fā)布
大模型熱潮下,NLP領(lǐng)域變得更“卷”了。李然發(fā)現(xiàn),自己好幾次冥思苦想找到的點子還沒付諸實踐,就已經(jīng)被掛在了ArXiv(arxiv.org)上—該網(wǎng)站的論文通常是未經(jīng)同行評審的預(yù)印本,但先發(fā)布就意味著先占坑。前幾天,李然做了半年的研究正要收尾,檢索ArXiv了解最新的研究進展和趨勢時,發(fā)現(xiàn)又有人做過了。
蔡紫宴相對“幸運”一些。他感興趣的是大語言模型如何與人類的價值觀對齊,使大模型輸出的內(nèi)容更加安全并符合人類偏好。剛開始做研究時,這還是一個關(guān)注度不是很高的方向,畢竟當(dāng)時的模型離“電子鸚鵡”相去甚遠,更談不上關(guān)注大模型的倫理與治理問題,業(yè)內(nèi)一個月或者一個季度才會更新幾篇有重要貢獻的論文。但現(xiàn)在,ArXiv上不到兩天就會有一篇新的相關(guān)論文。
“論文更新的速度,普通研究者完全跟不上,大家都瘋狂往這個領(lǐng)域卷,羊駝、原駝……各種動物的名字都被用來命名大模型,從3月到現(xiàn)在新論文已經(jīng)數(shù)不勝數(shù)。”蔡紫宴說。
技術(shù)大轉(zhuǎn)身,畢業(yè)后的去向成為NLP研究生們需要重新思考的問題。
蔡紫宴發(fā)現(xiàn),身邊一些原本“很厲害”的同學(xué)都已經(jīng)放棄讀博。他們一方面想要趕一趕“行業(yè)風(fēng)口”,抓緊投身于這個急需算法工程師的行業(yè),以快速積累經(jīng)驗—以及財富。另一方面,蔡紫宴發(fā)現(xiàn)他們也擔(dān)心“如果四五年后讀完博士,可能技術(shù)通過迭代又發(fā)生了革命性的改變”。
“最糟糕的情況是你已經(jīng)在NLP讀博一或者博二,研究目的是提高算法效率,但研究內(nèi)容與大模型無關(guān),那可能就要調(diào)整研究方向了?!辈套涎缯f。
本來想讀博的李然也開始迷茫。他發(fā)現(xiàn),隨著技術(shù)前沿的劇烈變化,開展前沿研究的門檻越來越高,成本也越來越高,因此前沿研究更傾向于去工業(yè)界和企業(yè)做,而不是在高校實驗室里,高校學(xué)生想在算法研究領(lǐng)域發(fā)表論文越來越難,“我也不是天才”。李然說,他打算在前沿研究領(lǐng)域就此打住,去行業(yè)里面做一些落地的工程化應(yīng)用。
蔡紫宴也看到了算法工程化—而非基礎(chǔ)研究方面—的學(xué)術(shù)和就業(yè)機會。
“大模型應(yīng)用肯定會在近幾年徹底革命各類應(yīng)用和系統(tǒng),到時候所有的應(yīng)用都可能被替換,這需要大量的工程師來維護,解決各種優(yōu)化迭代、運營維護,或者是信息安全等問題。很多公司也有定制化模型的需求。”蔡紫宴說,比如,如果在移動設(shè)備端編譯運行大語言模型,工程師就可以通過編譯優(yōu)化和壓縮模型權(quán)重,用低精度的方式來減少算力需求。
2018年,國內(nèi)共有35所高校獲得人工智能專業(yè)建設(shè)資格,其中多數(shù)為985、211院校。某種程度上,人工智能專業(yè)的設(shè)置體現(xiàn)了高校的前瞻性,但其學(xué)習(xí)和研究速度仍然遠遠趕不上技術(shù)迭代的速度。如果這群處在技術(shù)前沿專業(yè)的學(xué)生,在面臨技術(shù)拐點時都如此脆弱,那教育的價值到底是什么?
郭泉不需要像李然和蔡紫宴那樣焦慮自己的職業(yè)前景,他已經(jīng)是四川大學(xué)神經(jīng)網(wǎng)絡(luò)方向的副研究員。在ChatGPT發(fā)布之后,他進一步思考教育到底應(yīng)該教什么這個問題。
他仍然贊同本科生和研究生要有不同的教學(xué)模式這種傳統(tǒng)。比如對于本科生,就要教他們打好學(xué)科基礎(chǔ),高等代數(shù)、線性代數(shù)、概率論、機器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等課程需要長期留在教學(xué)方案中。
“不需要跟著行業(yè)走,看行業(yè)里出現(xiàn)了自動駕駛、語音識別,課程就跟著調(diào)整,而是要看學(xué)生的思維構(gòu)成需要哪些知識,要培養(yǎng)他們在一個領(lǐng)域思考的能力,前沿的行業(yè)應(yīng)用只作為擴展和了解內(nèi)容。”他對《第一財經(jīng)》雜志說。
但是到了研究生階段,就要強調(diào)“提出問題的思維能力和解決問題的思維能力以及科研過程中的的動手能力”。
“我們不能把計算機當(dāng)成理學(xué)來教,這必須是一個工程實踐相關(guān)的科學(xué),所以我們要培養(yǎng)學(xué)生‘提出問題并解決它的能力。”郭泉說。這一點可以類比化學(xué)實驗,一個實驗需要某種特殊形狀的試管,但市面上沒有賣,如果學(xué)生有很好的實踐能力,就可以用酒精噴燈把實驗室里的試管燒成實驗需要的形狀。燒試管這件事情不會被發(fā)成論文,但燒試管后做出的實驗有可能產(chǎn)生重要的科研成果。
作為研究者,郭泉也反思了他對“問題”的定義。ChatGPT發(fā)布以前,他一直覺得“涌現(xiàn)”是偽科學(xué),但現(xiàn)在,ChatGPT的出現(xiàn)讓他開始認為“涌現(xiàn)”是一個可以被提出、需要被思考的問題(注:ChatGPT發(fā)布后,很多人將神經(jīng)網(wǎng)絡(luò)大到一定程度、喂養(yǎng)足夠規(guī)模的數(shù)據(jù)后出現(xiàn)的智能躍升現(xiàn)象,稱作“涌現(xiàn)”)。他對這個問題還沒有答案,但已將其列入自己的下一個研究課題。