人工智能離不開(kāi)數(shù)據(jù)。為了訓(xùn)練算法以實(shí)現(xiàn)預(yù)期目標(biāo),我們需要大量的數(shù)據(jù),而輸入到人工智能模型中的數(shù)據(jù)質(zhì)量直接決定了輸出結(jié)果的優(yōu)劣。然而,問(wèn)題在于人工智能開(kāi)發(fā)者和研究人員對(duì)所使用的數(shù)據(jù)來(lái)源了解甚少。相比于人工智能模型開(kāi)發(fā)的復(fù)雜性,人工智能的數(shù)據(jù)收集實(shí)踐尚不成熟,大規(guī)模數(shù)據(jù)集通常缺乏關(guān)于其內(nèi)容和來(lái)源的詳細(xì)信息。
為了解決這一問(wèn)題,來(lái)自學(xué)術(shù)界和產(chǎn)業(yè)界的50多名研究人員開(kāi)展了數(shù)據(jù)溯源計(jì)劃。他們提出了一個(gè)簡(jiǎn)單而重要的問(wèn)題:構(gòu)建人工智能所需的數(shù)據(jù)究竟來(lái)自哪里?為此,他們審查了近4000個(gè)公共數(shù)據(jù)集,這些數(shù)據(jù)集涵蓋了600多種語(yǔ)言、67個(gè)國(guó)家,并包含長(zhǎng)達(dá)30年的數(shù)據(jù),數(shù)據(jù)來(lái)源涉及800個(gè)不同的渠道和近700個(gè)組織。
這項(xiàng)研究的結(jié)果首次獨(dú)家發(fā)布在《麻省理工科技評(píng)論》上,揭示了一個(gè)令人擔(dān)憂的趨勢(shì):人工智能的數(shù)據(jù)實(shí)踐正在使權(quán)力過(guò)度集中于少數(shù)幾家主導(dǎo)科技公司手中。
項(xiàng)目成員、美國(guó)麻省理工學(xué)院研究員肖恩·朗普雷表示,在十多年前,數(shù)據(jù)集的來(lái)源相對(duì)多樣化,這些數(shù)據(jù)不僅來(lái)自百科全書(shū)和互聯(lián)網(wǎng),還包括議會(huì)記錄、財(cái)報(bào)電話會(huì)議以及天氣報(bào)告等來(lái)源。朗普雷指出,在那個(gè)時(shí)期,人工智能數(shù)據(jù)集是根據(jù)具體任務(wù)的需求精心策劃并從不同渠道收集的。
然而,2017年,支撐大語(yǔ)言模型的架構(gòu)——Transformer的出現(xiàn),改變了這一切。隨著模型和數(shù)據(jù)集規(guī)模的不斷擴(kuò)大,人工智能的性能顯著提升。這使得人工智能領(lǐng)域逐漸傾向于采用更大規(guī)模的數(shù)據(jù)集。
如今,大多數(shù)人工智能數(shù)據(jù)集是通過(guò)從互聯(lián)網(wǎng)上大規(guī)模、無(wú)差別地抓取內(nèi)容構(gòu)建的。自2018年起,互聯(lián)網(wǎng)成為所有媒體類(lèi)型(如音頻、圖像和視頻)數(shù)據(jù)集的主要來(lái)源。與此同時(shí),網(wǎng)絡(luò)抓取的數(shù)據(jù)與更為精心策劃的數(shù)據(jù)集之間的差距逐漸顯現(xiàn)并不斷擴(kuò)大。
“在基礎(chǔ)模型的開(kāi)發(fā)中,數(shù)據(jù)的規(guī)模、異質(zhì)性以及網(wǎng)絡(luò)來(lái)源對(duì)模型能力的影響無(wú)與倫比?!崩势绽妆硎?。對(duì)數(shù)據(jù)規(guī)模的需求也極大地推動(dòng)了合成數(shù)據(jù)的廣泛使用。
近年來(lái),多模態(tài)生成式人工智能模型應(yīng)運(yùn)而生,這些模型能夠生成視頻和圖像。與大型語(yǔ)言模型類(lèi)似,它們需要盡可能多的數(shù)據(jù),而目前最優(yōu)的數(shù)據(jù)來(lái)源是視頻平臺(tái)YouTube。
以視頻模型為例,從圖表中可以看出,超70%的語(yǔ)音和圖像數(shù)據(jù)集的數(shù)據(jù)都來(lái)自同一來(lái)源。
對(duì)YouTube、谷歌的母公司Alphabet來(lái)說(shuō),這可能是一個(gè)巨大的優(yōu)勢(shì)。與文本數(shù)據(jù)分布在眾多不同的網(wǎng)站和平臺(tái)上不同,視頻數(shù)據(jù)高度集中在單一平臺(tái)。
朗普雷指出:“這使得網(wǎng)絡(luò)上一些最重要的數(shù)據(jù)的控制權(quán)高度集中在一家企業(yè)手中?!?/p>
此外,谷歌自身也在開(kāi)發(fā)自己的人工智能模型,這種巨大的優(yōu)勢(shì)引發(fā)了關(guān)于公司如何向競(jìng)爭(zhēng)對(duì)手提供這些數(shù)據(jù)的疑問(wèn)。AI Now Institute的聯(lián)合執(zhí)行主任莎拉·韋斯特表示,這值得進(jìn)一步探討。
她認(rèn)為,我們應(yīng)該將數(shù)據(jù)視為通過(guò)特定過(guò)程創(chuàng)造出來(lái)的東西,而不是一種自然存在的資源。
她補(bǔ)充道:“如果我們?nèi)粘J褂玫拇蟛糠秩斯ぶ悄芩蕾?lài)的數(shù)據(jù)集反映的是大公司、以利潤(rùn)為導(dǎo)向的企業(yè)的意圖和設(shè)計(jì),那么這將以符合這些大企業(yè)利益的方式重塑我們的世界基礎(chǔ)設(shè)施?!?/p>
這種單一化也引發(fā)了關(guān)于數(shù)據(jù)集是否能夠準(zhǔn)確反映人類(lèi)體驗(yàn)以及我們正在構(gòu)建何種模型的疑問(wèn)。
Cohere公司的研究副總裁、“數(shù)據(jù)源倡儀”成員薩拉·胡克表示:“人們上傳到Y(jié)ouTube的視頻通常是針對(duì)特定受眾而制作的,視頻中的行為往往帶有特定的目的性?!彼€問(wèn)道:“這些數(shù)據(jù)是否捕捉到了人類(lèi)存在的所有細(xì)微差別和多樣性?”
人工智能公司通常不會(huì)公開(kāi)用于訓(xùn)練模型的數(shù)據(jù)來(lái)源。一方面,這是為了保護(hù)其競(jìng)爭(zhēng)優(yōu)勢(shì);另一方面,由于數(shù)據(jù)集的打包和分發(fā)過(guò)程復(fù)雜且不透明,人工智能公司自身也可能無(wú)法完全了解所有數(shù)據(jù)的具體來(lái)源。
此外,人工智能公司可能不了解這些數(shù)據(jù)在使用或共享時(shí)所受到的限制?!皵?shù)據(jù)源倡儀”的研究人員發(fā)現(xiàn),許多數(shù)據(jù)集附帶有嚴(yán)格的許可條款或使用條件,例如,可能限制其在商業(yè)用途上的應(yīng)用。
“數(shù)據(jù)來(lái)源缺乏一致性,使得開(kāi)發(fā)者很難正確選擇使用的數(shù)據(jù)。”胡克表示。
朗普雷補(bǔ)充道,這也讓開(kāi)發(fā)者幾乎不可能完全確保他們的模型沒(méi)有使用受版權(quán)保護(hù)的數(shù)據(jù)進(jìn)行訓(xùn)練。
近年來(lái),像OpenAI和谷歌這樣的公司與出版商、Reddit等主要論壇以及社交媒體平臺(tái)達(dá)成了獨(dú)家數(shù)據(jù)共享協(xié)議。這種做法進(jìn)一步鞏固了它們的權(quán)力。
“這些獨(dú)家合同實(shí)際上將互聯(lián)網(wǎng)劃分為誰(shuí)能訪問(wèn)和誰(shuí)不能訪問(wèn)的不同區(qū)域?!崩势绽字赋觥?/p>
這種趨勢(shì)對(duì)能夠負(fù)擔(dān)此類(lèi)協(xié)議的大型人工智能公司有利,但對(duì)研究人員、非營(yíng)利組織和小型公司則構(gòu)成了不利。這些較小的參與者將難以獲得必要的數(shù)據(jù),而大型公司不僅能簽訂獨(dú)家協(xié)議,還擁有最強(qiáng)大的資源用于抓取數(shù)據(jù)集。
“這是我們?cè)陂_(kāi)放網(wǎng)絡(luò)上前所未見(jiàn)的新一波非對(duì)稱(chēng)性訪問(wèn)?!崩善绽渍f(shuō)道。
用于訓(xùn)練人工智能模型的數(shù)據(jù)也存在嚴(yán)重的地域偏倚。研究人員分析發(fā)現(xiàn),超過(guò)90%的數(shù)據(jù)集來(lái)自歐洲和北美,而來(lái)自非洲的數(shù)據(jù)不足4%。
胡克指出:“這些數(shù)據(jù)集僅反映了我們世界和文化的一部分,卻完全忽視了其他地區(qū)。
訓(xùn)練數(shù)據(jù)中英語(yǔ)的主導(dǎo)地位部分可以用互聯(lián)網(wǎng)的現(xiàn)狀來(lái)解釋。人工智能公司Hugging Face的首席倫理學(xué)家迦達(dá)·皮斯蒂利(并未參與此次研究)表示,互聯(lián)網(wǎng)上超過(guò)90%的內(nèi)容是英語(yǔ),而地球上許多地區(qū)的互聯(lián)網(wǎng)連接非常差,甚至沒(méi)有互聯(lián)網(wǎng)。她補(bǔ)充說(shuō),創(chuàng)建其他語(yǔ)言的數(shù)據(jù)集并將其他文化納入考慮需要有意識(shí)的規(guī)劃和大量的工作。
這種數(shù)據(jù)集的西方傾向在多模態(tài)模型中表現(xiàn)得尤為明顯。胡克舉例說(shuō),當(dāng)一個(gè)人工智能模型被提示生成婚禮的場(chǎng)景和聲音時(shí),它可能只能呈現(xiàn)出西方婚禮的樣子,因?yàn)樗挠?xùn)練數(shù)據(jù)僅限于此。
這種情況強(qiáng)化了偏見(jiàn),可能導(dǎo)致人工智能模型推動(dòng)一種以美國(guó)為中心的世界觀,從而抹殺其他語(yǔ)言和文化的存在。
胡克指出:“我們?cè)谌蚍秶鷥?nèi)使用這些模型,但模型所能看見(jiàn)的世界與看不見(jiàn)的世界之間存在巨大差距。”