大型語言模型是目前人工智能研究中最熱門的領(lǐng)域之一,各公司競相發(fā)布GPT-3一類的模型,他們可以寫出令人印象深刻的連貫文章,甚至是計算機代碼。
但根據(jù)一個人工智能預(yù)測團隊的說法,一個嚴(yán)峻的問題即將出現(xiàn):我們未來可能沒有足夠的數(shù)據(jù)來訓(xùn)練他們。
大型語言模型是使用維基百科、新聞文章、科學(xué)論文和書籍等文本內(nèi)容進行訓(xùn)練的。
近年來,相關(guān)研究的趨勢是利用越來越多的數(shù)據(jù)來訓(xùn)練這些模型,以期望它們更準(zhǔn)確、更通用。
問題是,最適合用于訓(xùn)練語言模型的數(shù)據(jù)類型可能在不久的將來耗盡。人工智能研究和預(yù)測組織Epoch在一篇未經(jīng)同行評審的論文中指出,數(shù)據(jù)耗盡最早可能出現(xiàn)于2026年。
這個問題源于這樣一個事實,即隨著研究人員建立更強大、能力更多樣的模型,他們必須找到更多的文本來訓(xùn)練他們。
“大型語言模型研究人員越來越擔(dān)心他們會耗盡這類數(shù)據(jù)”人工智能公司HuggingFace的研究員泰文·斯考表示。他沒有參與Epoch的工作。
另一個可能導(dǎo)致問題的事實是,語言人工智能研究人員將他們用于訓(xùn)練模型的數(shù)據(jù)分為兩類:高質(zhì)量和低質(zhì)量。
但論文的第一作者,Epoch研究員巴勃羅·維拉洛博斯指出,這兩種類型之間的界限是十分模糊的。
高質(zhì)量的文本內(nèi)容通常是由專業(yè)作家撰寫的,因此被認(rèn)為寫得更好。而被歸為低質(zhì)量的數(shù)據(jù)包括社交媒體上的帖子或4chan等網(wǎng)站上的評論,這些低質(zhì)量文本的數(shù)量遠(yuǎn)遠(yuǎn)超過了那些被認(rèn)為是高質(zhì)量的數(shù)據(jù)。
研究人員通常只使用高質(zhì)量的數(shù)據(jù)來訓(xùn)練模型,因為這是他們希望模型學(xué)習(xí)和效仿的語言類型。
這種方法已經(jīng)在GPT-3之類的大型語言模型上實現(xiàn)了一些令人印象深刻的成果。
據(jù)南加州大學(xué)專門研究數(shù)據(jù)集質(zhì)量的教授斯瓦巴·斯瓦揚迪普塔表示,克服這些數(shù)據(jù)限制的一種方法是重新評估何為“高質(zhì)量”文本,何為“低質(zhì)量”文本。
斯瓦揚迪普塔認(rèn)為,如果數(shù)據(jù)短缺迫使人工智能研究人員將更多樣化的數(shù)據(jù)集納入到訓(xùn)練過程中,這對語言模型而言是一個“積極因素”。
研究人員還可以努力找到延長語言模型訓(xùn)練數(shù)據(jù)的使用壽命的方法。目前,由于性能和成本的限制,這些模型只在相同的數(shù)據(jù)上訓(xùn)練一次。
但斯瓦揚迪普塔表示,使用相同的數(shù)據(jù)多次訓(xùn)練一個模型也可能是可行的。
一些研究人員認(rèn)為,對于語言模型來說,更大可能并不意味著更好。斯坦福大學(xué)的計算機科學(xué)教授珀西·梁說,有證據(jù)表明,提高模型的效率可以提高他們的能力,而不僅僅是增加他們的規(guī)模。
他解釋說:“我們已經(jīng)看到,在高質(zhì)量數(shù)據(jù)上訓(xùn)練的小模型,其性能足以超過在低質(zhì)量數(shù)據(jù)上訓(xùn)練的大模型?!?/p>