孫媛媛
數(shù)據(jù)決定了AI落地程度,基礎(chǔ)數(shù)據(jù)服務(wù)是商業(yè)化過程中重要的一環(huán)。
制作于公元前196年的羅塞塔石碑(Rosetta?Stone),刻有古埃及國王托勒密五世登基的詔書。
石碑上用古希臘文、古埃及象形文以及當(dāng)時(shí)埃及平民使用的通俗體文字刻了同樣的內(nèi)容,這讓考古學(xué)家解讀出失傳千余年的埃及象形文的意義與結(jié)構(gòu),找到讀懂古埃及的密碼。在AI領(lǐng)域,為了讓機(jī)器讀懂人類世界,同樣有一塊“羅塞塔石碑”——數(shù)據(jù)標(biāo)注,它的存在讓大規(guī)模訓(xùn)練數(shù)據(jù)的機(jī)器學(xué)習(xí)成為可能。
人工智能在變得更聰明更有人情味的過程中,離不開數(shù)據(jù)標(biāo)注這個(gè)產(chǎn)業(yè)鏈。ChatGPT的火爆,會(huì)帶動(dòng)數(shù)據(jù)標(biāo)注行業(yè)的高增長嗎?我國數(shù)據(jù)標(biāo)注產(chǎn)業(yè)目前的發(fā)展?fàn)顩r如何?為此,《小康》雜志、中國小康網(wǎng)采訪了業(yè)內(nèi)資深從業(yè)者一探究竟。
數(shù)字經(jīng)濟(jì)的發(fā)展底座
所謂數(shù)據(jù)標(biāo)注,指的是對未經(jīng)處理的語音、圖片、文本、視頻等原始數(shù)據(jù)進(jìn)行加工處理,?使其成為結(jié)構(gòu)化數(shù)據(jù)讓機(jī)器可識(shí)別的過程。
算力、算法和數(shù)據(jù)被稱為是人工智能的“三駕馬車”。過去的十多年時(shí)間里,數(shù)據(jù)、算力、算法等技術(shù)的創(chuàng)新和迭代,可以說是“大爆炸”式的發(fā)展。這里的數(shù)據(jù),更精確地表述為數(shù)據(jù)集,用于人工智能算法模型訓(xùn)練,被公認(rèn)為人工智能算法的“燃料”,是實(shí)現(xiàn)人工智能技術(shù)與產(chǎn)業(yè)結(jié)合能力的必要條件。
近年來,人工智能產(chǎn)業(yè)的發(fā)展帶動(dòng)了數(shù)據(jù)標(biāo)注行業(yè)的快速發(fā)展。數(shù)據(jù)標(biāo)注作為人工智能的基礎(chǔ)層,也為人工智能產(chǎn)業(yè)高速發(fā)展打下堅(jiān)實(shí)的基礎(chǔ),催生了一批圍繞人工智能產(chǎn)業(yè)鏈、大數(shù)據(jù)產(chǎn)業(yè)的新模式、新業(yè)態(tài),成為數(shù)字經(jīng)濟(jì)發(fā)展的“數(shù)據(jù)”底座。
數(shù)據(jù)在AI發(fā)展過程中極為重要,業(yè)內(nèi)甚至將數(shù)據(jù)稱為“新的石油”來體現(xiàn)它作為將人類智能轉(zhuǎn)化為機(jī)器智能原材料的重要性。但放眼整個(gè)AI行業(yè),數(shù)據(jù)的受關(guān)注度遠(yuǎn)沒有AI三元素的另外兩個(gè)元素——算法和算力高。
造成這個(gè)結(jié)果的最主要原因就是數(shù)據(jù)標(biāo)注行業(yè)是一個(gè)勞動(dòng)密集型的產(chǎn)業(yè),“足夠廉價(jià)的勞動(dòng)力”是數(shù)據(jù)標(biāo)注公司的一大標(biāo)簽。
整數(shù)智能信息技術(shù)(杭州)有限責(zé)任公司致力于為AI領(lǐng)域企業(yè)提供數(shù)據(jù)服務(wù)。其聯(lián)合創(chuàng)始人趙子健接受《小康》雜志、中國小康網(wǎng)采訪時(shí)表示:“目前人工智能商業(yè)化在算力、算法和技術(shù)方面基本達(dá)到階段性成熟,想要更加落地,解決行業(yè)具體痛點(diǎn),需要大量經(jīng)過標(biāo)注處理的相關(guān)數(shù)據(jù)做算法訓(xùn)練支撐,可以說數(shù)據(jù)決定了AI的落地程度。AI的發(fā)展離不開海量的數(shù)據(jù)去做訓(xùn)練和喂養(yǎng)。如果說人工智能是一片礦,不管哪一塊需要挖礦,都需要有礦工和挖礦的機(jī)器,而數(shù)據(jù)就可以理解為是挖礦的機(jī)器。作為底層的基礎(chǔ)設(shè)施,每一波的人工智能發(fā)展,作為提供數(shù)據(jù)服務(wù)的公司都能從中獲益,同時(shí)也面臨著更多的挑戰(zhàn)、機(jī)遇、發(fā)展前景和更大的市場?!?/p>
《小康》雜志、中國小康網(wǎng)了解到數(shù)據(jù)標(biāo)注行業(yè)有一套分工流程:巨頭把任務(wù)交給中游的數(shù)據(jù)標(biāo)注公司,再由中游包給下游的小公司、小作坊,有的小作坊還會(huì)進(jìn)一步眾包給“散戶”,比如兼職學(xué)生。一單生意幾經(jīng)轉(zhuǎn)手,就造成了行業(yè)眾包中介層疊越來越嚴(yán)重,利潤所剩無幾。然而,實(shí)際情況是怎樣的呢?
趙子健說:“不同公司定位不一樣。有些公司沒有產(chǎn)品技術(shù)研發(fā)的實(shí)力,能做的事情類似倒賣。一些小的城市,可能薪資較低,他們就適合做人力型團(tuán)隊(duì),提供數(shù)據(jù)標(biāo)注員?!?/p>
《小康》雜志、中國小康網(wǎng)進(jìn)一步了解到,做標(biāo)注和外包審核這部分業(yè)務(wù)的公司人員流動(dòng)性很大,因?yàn)檫@個(gè)業(yè)務(wù)比較枯燥,做的是純一線的重復(fù)性勞動(dòng),加之其他一些不穩(wěn)定因素,一般公司會(huì)優(yōu)先保證重要項(xiàng)目不出現(xiàn)人員斷檔。
國內(nèi)做數(shù)據(jù)標(biāo)注業(yè)務(wù)的公司很少有單業(yè)務(wù)鏈,比如內(nèi)容審核集中在二三線甚至更小的城市,給的薪資相對會(huì)低。而做內(nèi)容審核、內(nèi)容標(biāo)注等這類業(yè)務(wù)的公司集中在天津、成都、重慶、西安……相對消費(fèi)水準(zhǔn)低,投入成本也低。
一位不愿具名的業(yè)內(nèi)資深從業(yè)人士告訴《小康》雜志、中國小康網(wǎng),ChatGPT國產(chǎn)化有個(gè)非常大的風(fēng)險(xiǎn),通過大量的數(shù)據(jù)訓(xùn)練機(jī)器人,跟所有的人對話,這個(gè)過程中其接觸到的數(shù)據(jù)有很多可能是有問題的。有很多信息需要進(jìn)行攔截,比如一些非法的信息。沒有經(jīng)過攔截的信息一經(jīng)流出,就有可能變成變相的宣傳渠道。如果沒有專門的人力對這方面的內(nèi)容加以把控的話,就會(huì)成為被利用的渠道。
為了方便管理,比如擔(dān)心內(nèi)容外泄,較大的互聯(lián)網(wǎng)公司都早早開始自建基地或者子公司,在安全和管理上更好把控,但成本會(huì)更高。字節(jié)跳動(dòng)很早就自己建設(shè)基地,全國各地大概有六七個(gè)城市都有基地。以子公司來做數(shù)據(jù)標(biāo)注,更多是基于安全的考慮,比如涉及黃賭毒的內(nèi)容,有很多是不能流出的。必須承認(rèn)外包業(yè)務(wù)泄露的風(fēng)險(xiǎn)要比自己公司泄露的風(fēng)險(xiǎn)大。然而,從成本上考量一定是外包公司更好。
中國數(shù)據(jù)標(biāo)注產(chǎn)業(yè)崛起中
數(shù)據(jù)標(biāo)注是計(jì)算機(jī)感知世界的起點(diǎn),全球數(shù)據(jù)標(biāo)注行業(yè)是伴隨全球人工智能產(chǎn)業(yè)發(fā)展而生的。最早可以追溯到上世紀(jì)90年代,深藍(lán)戰(zhàn)勝國際象棋世界冠軍加里·卡斯帕羅夫,全球人工智能產(chǎn)業(yè)發(fā)展進(jìn)入新的探索期,1996年澳鵬(Appen)誕生并開始布局?jǐn)?shù)據(jù)服務(wù)領(lǐng)域業(yè)務(wù)。2007年數(shù)據(jù)標(biāo)注行業(yè)正式拉開序幕,始于斯坦福大學(xué)教授李飛飛等人的ImageNet項(xiàng)目,該項(xiàng)目要通過亞馬遜的勞務(wù)眾包平臺(tái)Mechanical?Turk(AMT)來完成圖片的標(biāo)注和處理,得到的數(shù)據(jù)集供機(jī)器算法訓(xùn)練和學(xué)習(xí)。此后,全球開始涌現(xiàn)出眾多的數(shù)據(jù)標(biāo)注企業(yè),全球數(shù)據(jù)標(biāo)注行業(yè)也進(jìn)入成長期。
從行業(yè)供給情況來看,全球數(shù)據(jù)標(biāo)注行業(yè)企業(yè)主要分布在美國、中國、澳大利亞和非洲等國家和地區(qū),但具有一定規(guī)模的企業(yè)數(shù)量相對較少。在美國,數(shù)據(jù)標(biāo)注企業(yè)較多,突出的特點(diǎn)是技術(shù)驅(qū)動(dòng)導(dǎo)向,數(shù)據(jù)標(biāo)注服務(wù)供給能力和質(zhì)量較高,代表性企業(yè)有Scale?AI、Mighty?AI、Mturk、Supervise.ly等;歐洲地區(qū)代表性企業(yè)有塞浦路斯的Mindy?Support等。
數(shù)據(jù)標(biāo)注行業(yè)不被關(guān)注由來已久,直到美國數(shù)據(jù)標(biāo)注企業(yè)Scale?AI,用5年時(shí)間(2016—2021)實(shí)現(xiàn)超73億美元的估值,才為國內(nèi)數(shù)據(jù)標(biāo)注行業(yè)注入了一針強(qiáng)心劑。
此后,隨著特斯拉在2022?AI?DAY上推出Auto?Labelling標(biāo)注平臺(tái),并推出4D標(biāo)注技術(shù),讓更多人知道了自動(dòng)化標(biāo)注的存在,也讓更多專業(yè)的數(shù)據(jù)標(biāo)注企業(yè)走到臺(tái)前。
當(dāng)前,全球數(shù)據(jù)量仍在飛速增長的階段。根據(jù)IDC發(fā)布的《數(shù)據(jù)時(shí)代2025》測算,到2025年,全球的數(shù)據(jù)生產(chǎn)量將達(dá)到175ZB。目前市場上90%以上的數(shù)據(jù)是非結(jié)構(gòu)化數(shù)據(jù),得到有效利用的不足10%,對于這些非結(jié)構(gòu)化的數(shù)據(jù)只有經(jīng)過標(biāo)注處理才能激活其價(jià)值,這就產(chǎn)生了源源不斷的數(shù)據(jù)標(biāo)注處理需求,可以將數(shù)據(jù)標(biāo)注處理理解為結(jié)構(gòu)化數(shù)據(jù)的生產(chǎn)處理,而這些標(biāo)注企業(yè)就是數(shù)字經(jīng)濟(jì)時(shí)代下的新型生產(chǎn)制造企業(yè),生產(chǎn)出來的是“數(shù)據(jù)集”屬性的產(chǎn)品。
在全球數(shù)據(jù)量指數(shù)級的增長過程中,從非結(jié)構(gòu)化到結(jié)構(gòu)化的數(shù)據(jù)生產(chǎn),需要大量的數(shù)據(jù)標(biāo)注服務(wù),數(shù)據(jù)標(biāo)注將大大激活數(shù)據(jù)價(jià)值,提高數(shù)據(jù)質(zhì)量和發(fā)揮數(shù)據(jù)要素的作用。
“目前相對來說,人力成本比較便宜,國內(nèi)數(shù)據(jù)標(biāo)注業(yè)發(fā)展的時(shí)間節(jié)點(diǎn)會(huì)比美國機(jī)器替代人力的時(shí)間晚一些,業(yè)內(nèi)已經(jīng)開始有公司用自動(dòng)化的方式去替代人力,去提高數(shù)據(jù)生產(chǎn)的自動(dòng)化效果。”趙子健介紹說,數(shù)據(jù)標(biāo)注業(yè)務(wù)分不同的標(biāo)準(zhǔn)和不同的難度。比如做人臉識(shí)別的場景,數(shù)據(jù)標(biāo)注的任務(wù)要求并不高,對人力要求也不高。一些特殊領(lǐng)域,比如自動(dòng)駕駛領(lǐng)域,還有一些小語種領(lǐng)域,或者專業(yè)知識(shí)性較強(qiáng)比如法律、金融這樣的場景任務(wù)對從業(yè)人員的知識(shí)儲(chǔ)備、綜合能力要求就特別高。薪水也會(huì)根據(jù)任務(wù)的復(fù)雜程度而有所區(qū)分。
趙子健所在的整數(shù)智能核心定位是產(chǎn)品型公司,做了一套自動(dòng)化的數(shù)據(jù)標(biāo)注工具,把很多人力的工作用自動(dòng)化的算法替代,以提升整體標(biāo)注速度和效率?!稗D(zhuǎn)包最大的問題就在于無法保證數(shù)據(jù)生產(chǎn)的質(zhì)量和速度,數(shù)據(jù)如果沒法保障,就會(huì)影響研發(fā)的進(jìn)程,進(jìn)一步影響商業(yè)化的進(jìn)程,這是一個(gè)非常大的行業(yè)痛點(diǎn)?!彼f,“我們要做的事就是盡可能促進(jìn)行業(yè)規(guī)范化?!痹摴就瞥龅淖詣?dòng)化標(biāo)準(zhǔn)工具可提效、替代70%的人力。此外,該公司自有供應(yīng)鏈穩(wěn)定持續(xù)產(chǎn)出,以此拓展科研機(jī)構(gòu)和企業(yè)客戶。
“勞動(dòng)密集”邁向“技術(shù)密集”
根據(jù)《數(shù)據(jù)時(shí)代2025》測算,到2025年我國擁有的數(shù)據(jù)量在全球的占比將從2018年的23.4%提升到27.8%,位居全球首位。2015年以來,隨著國家的大力推動(dòng),我國大數(shù)據(jù)產(chǎn)業(yè)加速發(fā)展。一大批大數(shù)據(jù)產(chǎn)業(yè)園相繼落地,大數(shù)據(jù)產(chǎn)業(yè)生態(tài)加速完善,相關(guān)標(biāo)準(zhǔn)和技術(shù)體系持續(xù)完善,應(yīng)用市場日益壯大,產(chǎn)業(yè)國際影響力不斷提升。根據(jù)工業(yè)和信息化部發(fā)布《“十四五”大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃》產(chǎn)業(yè)規(guī)模測算,到2025年底,大數(shù)據(jù)產(chǎn)業(yè)規(guī)模將突破3萬億元。在此背景下,數(shù)據(jù)標(biāo)注需求隨數(shù)據(jù)量增長而上升。長期來看,我國大數(shù)據(jù)支出整體呈穩(wěn)步增長態(tài)勢,市場總量有望在2024年超過200億美元。
在大多數(shù)人看來,人工智能是高大上的奢侈品,離實(shí)際生活太遠(yuǎn),而ChatGDP最大特點(diǎn)就在于,它讓每個(gè)人都真實(shí)地體驗(yàn)到了高質(zhì)量的人工智能,這意味著它會(huì)調(diào)動(dòng)社會(huì)的高關(guān)注度、積極性與熱情,也會(huì)使人工智能變成生活中的基礎(chǔ)設(shè)施,意味著會(huì)有更多人投入到這一領(lǐng)域,更多的資本追加、更多的市場關(guān)注度,以及更多的產(chǎn)品推出……這種情況下,AI與各行各業(yè)深度結(jié)合,數(shù)據(jù)標(biāo)注的業(yè)務(wù)量會(huì)進(jìn)一步提升。
不少業(yè)內(nèi)人士表示,ChatGPT的火爆,對于數(shù)據(jù)標(biāo)注行業(yè)是利好的。ChatGPT國產(chǎn)化,數(shù)據(jù)標(biāo)注在整個(gè)市場里占據(jù)很大份額,因?yàn)樗浅R蕾囉谟?xùn)練結(jié)果,機(jī)器可以訓(xùn)練底層的數(shù)據(jù),但是要想和人進(jìn)行更人性化的溝通,以及要符合國家的一些規(guī)定,單靠機(jī)器很難做到,需要大量的人的主觀判斷,人工智能大發(fā)展也會(huì)為數(shù)據(jù)標(biāo)注行業(yè)帶來更好的發(fā)展。
互聯(lián)網(wǎng)內(nèi)容安全從業(yè)者表示,數(shù)據(jù)標(biāo)注10年內(nèi)不太可能被替代?!昂芏鄡?nèi)容,機(jī)器再怎么訓(xùn)練它的算法,也很難完全替代人,因?yàn)楹芏鄸|西非常主觀、隱晦,機(jī)器很難通過算法識(shí)別出來,需要人力去做相應(yīng)的識(shí)別?!?/p>
趙子健則表示:“現(xiàn)在數(shù)據(jù)標(biāo)注行業(yè)已經(jīng)到了變革的時(shí)刻,傳統(tǒng)意義上,大家覺得數(shù)據(jù)標(biāo)注是人力密集型的行業(yè),但未來發(fā)展一定是技術(shù)密集型,以技術(shù)的自動(dòng)化替代人力這條路其實(shí)在美國走得更快。美國相對來說人力成本較高,所以更早地使用機(jī)器替代人力,美國已有大型自動(dòng)化的數(shù)據(jù)標(biāo)注公司,國內(nèi)也一定會(huì)誕生一批這樣的公司,真正實(shí)現(xiàn)提效,這是對于未來的行業(yè)預(yù)判。”他很肯定未來大方向上人工智能一定會(huì)與各產(chǎn)業(yè)深度結(jié)合,而每個(gè)行業(yè),比如智慧醫(yī)療、智能制造、自動(dòng)駕駛……這些場景都是海量的數(shù)據(jù)量級,數(shù)據(jù)已經(jīng)成為一個(gè)新的生產(chǎn)要素。工業(yè)的發(fā)展需要水電煤,新的經(jīng)濟(jì)產(chǎn)業(yè)基礎(chǔ)設(shè)施則需要有數(shù)據(jù)支持,所以,未來它會(huì)是整體經(jīng)濟(jì)發(fā)展的基礎(chǔ)設(shè)施。