亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        26歲華裔天才,在教AI界做事

        2023-06-05 09:06:18朱秋雨
        南風窗 2023年11期
        關(guān)鍵詞:南風窗數(shù)據(jù)服務(wù)

        朱秋雨

        2023年4月底,一個亞洲面孔登上了著名雜志《福布斯》的封面。這是一位年僅26歲的華裔企業(yè)家,名叫Alexandr Wang。

        他手握最高估值73億美元的科技公司。

        2017年,Alexandr創(chuàng)立了一家名叫Scale AI的公司,走的是最熱的AI賽道。7年后,他做的東西已經(jīng)無可替代。據(jù)《福布斯》報道,Scale AI如今包攬了多家頭部自動駕駛車企的服務(wù),谷歌的Waymo、豐田汽車是它的擁躉。2020年起,它還從美國國防部處拿下了多個天價訂單。

        2022年,美國國防部已經(jīng)在用該公司的技術(shù)分析烏克蘭衛(wèi)星圖。

        Scale AI走的路子,是常被頭部大廠和AI創(chuàng)業(yè)者忽略的方向,叫AI的標注數(shù)據(jù)集。

        這是AI領(lǐng)域里的石油,有數(shù)據(jù)才能源源不斷給深度學(xué)習(xí)提供燃料。一項數(shù)據(jù)顯示,截至2021年,全球排名前1000萬的網(wǎng)站中,英文內(nèi)容占比為60.4%,中文內(nèi)容占比僅1.4%。中國AI需要依賴大量英文數(shù)據(jù)集訓(xùn)練。

        實際上,國內(nèi)不乏做AI數(shù)據(jù)集和數(shù)據(jù)標注的公司。上市公司海天瑞聲、頭部創(chuàng)業(yè)公司云測數(shù)據(jù)、數(shù)據(jù)堂等等,是業(yè)內(nèi)佼佼者。

        比起人工智能產(chǎn)業(yè)給人“高大上”的直覺,數(shù)據(jù)工作面臨繁瑣的清洗、標注、處理等過程。業(yè)內(nèi)因此盛傳一句話,“人工有多強大,智能才有多強大”。

        AI分析公司Cognilytica數(shù)據(jù)顯示,在AI項目中,數(shù)據(jù)相關(guān)的處理過程占據(jù)超過80%的時間。

        云測數(shù)據(jù)總經(jīng)理賈宇航對南風窗總結(jié),互聯(lián)網(wǎng)大廠、創(chuàng)業(yè)公司更多在研究算法,AI數(shù)據(jù)服務(wù)公司在做工程的事情。

        在各家巨頭猛追Open AI的當下,是時候關(guān)注支持AI深度學(xué)習(xí)的第一步—數(shù)據(jù)了。

        機遇來了

        不管業(yè)務(wù)是否與大模型掛鉤,國內(nèi)AI數(shù)據(jù)服務(wù)公司近日受到了一大波關(guān)注。

        數(shù)據(jù)集上市公司海天瑞聲在3月底只用了3個交易日,累計漲幅近33%。股價創(chuàng)歷史新高,比年初翻了三倍多,盡管該公司早已貼出風險提示:“自然語言業(yè)務(wù)對公司整體貢獻大約在10%。”“公司尚未與OpenAI開展合作,其ChatGPT的產(chǎn)品和服務(wù)尚未給公司帶來業(yè)務(wù)收入?!?/p>

        因為ChatGPT,云測數(shù)據(jù)總經(jīng)理賈宇航也在2023年收到了來自各行各業(yè)對大模型和數(shù)據(jù)集的關(guān)注和問詢。“每個人都對大模型各有各的看法,我們相互學(xué)習(xí)?!彼嬖V南風窗。

        單論技術(shù)角度而言,ChatGPT代表的大模型,采用了與過往AI數(shù)據(jù)標注不同的技術(shù)路徑。在過去,機器學(xué)習(xí)的主流依賴于human-in-the-loop,即有監(jiān)督的學(xué)習(xí)。

        有監(jiān)督學(xué)習(xí)依賴大量人工對數(shù)據(jù)進行預(yù)處理、標注。例如,貓的圖片,需要人類事先標注,用機器聽得懂的語言告訴它只是一只貓。行內(nèi)公認的規(guī)則是,人類上傳的標注數(shù)據(jù)越多、越準確,機器學(xué)習(xí)的效果越好。

        而ChatGPT代表的大模型,采用的是自監(jiān)督學(xué)習(xí)模式。簡單來說,考驗的是機器自我學(xué)習(xí)能力。

        清華大學(xué)計算機系自然語言處理實驗室副教授劉知遠告訴南風窗:“大模型的不同之處在于,不事先假定到底需要完成哪些任務(wù)或者特定能力。它窮盡互聯(lián)網(wǎng)盡可能獲取多的數(shù)據(jù),讓模型自動地從這些數(shù)據(jù)里面學(xué)習(xí)知識?!?/p>

        OpenAI曾披露,訓(xùn)練GPT的模型是基于公開網(wǎng)站的數(shù)據(jù),包括維基百科、專業(yè)論壇、電子書網(wǎng)站和媒體報道等各類高質(zhì)量文本。

        據(jù)美媒報道,擁有發(fā)達智能水平的ChatGPT,背后還有一群來自非洲肯尼亞的數(shù)據(jù)標注員。他們每天工作9個小時,最終,一個月獲得約合2500~3000元人民幣的報酬。

        盡管對數(shù)據(jù)標注的需求減少,ChatGPT的成功,卻給了眾人更有用的啟示:高質(zhì)量數(shù)據(jù)集對訓(xùn)練AI大模型至關(guān)重要?;贕PT-3.5的ChatGPT使用強化學(xué)習(xí)和人類反饋(RLHF),也涉及了大量數(shù)據(jù)標注工作。

        據(jù)披露,ChatGPT的RLHF標注,需要大量專業(yè)的人才。為此,Open AI特地招了幾十名博士生做標注,針對機器的回答和指令進行基于人類邏輯的反饋。據(jù)《福布斯》報道,Open AI同時使用了外包服務(wù),Alexandr Wang的Scale AI也參與了訓(xùn)練ChatGPT。

        背靠清華大學(xué)的AI初創(chuàng)企業(yè)—聆心智能的聯(lián)合創(chuàng)始人鄭叔亮告訴南風窗,以ChatGPT為代表的生成式AI,對數(shù)據(jù)質(zhì)量提出了更高要求。

        “AI生成的每一個文字,每一個對話,都是根據(jù)此前一個字的生成情況,或者問題本身,通過概率的推導(dǎo)所產(chǎn)生?!编嵤辶琳f。

        這種模式下,一旦數(shù)據(jù)質(zhì)量不高,生成的效果便是胡說八道、毫無可信度的AI。鄭叔亮表示:“因此,一方面我們要搜集更多更精準的語料庫,另一方面,還要加強對這些語料進行清洗、標注?!?/p>

        據(jù)美媒報道,擁有發(fā)達智能水平的ChatGPT,背后還有一群來自非洲肯尼亞的數(shù)據(jù)標注員。他們每天工作9個小時,閱讀150—200段文字,標注帶有性、暴力與仇恨言論的內(nèi)容,最終,一個月獲得約合2500~3000元人民幣的報酬。

        人工智能的背后仍是人工的努力。賈宇航分析,長期來看,靠人力的堆積支撐的AI數(shù)據(jù)服務(wù)產(chǎn)業(yè),并不會有太大改變。

        “大模型來了以后,很多人認為今后AI數(shù)據(jù)服務(wù)的環(huán)節(jié)之一—數(shù)據(jù)標注工作會減少?!彼硎?,“但其實忽略了一點,隨著AI功能越來越多,很多時候到了未涉足領(lǐng)域的時候,可能還需要人工處理?!?/p>

        他認為,數(shù)據(jù)標注不會隨著生成式大模型的誕生而減少,“反而有可能會更多”。

        AI業(yè)的“富士康”

        ChatGPT的出圈,帶給國內(nèi)數(shù)據(jù)集公司的不是猛火,而是久旱后的甘霖。

        中國數(shù)據(jù)集公司興起時間與Scale AI相似,都在2016—2017年。這類公司的核心目標,是幫助AI企業(yè)最大限度地減少劣質(zhì)數(shù)據(jù)帶來的影響。

        不過,數(shù)據(jù)公司以銷售數(shù)據(jù)集為生的少之又少。中國AI數(shù)據(jù)的頭部公司中,明確在官網(wǎng)提及數(shù)據(jù)集業(yè)務(wù)的只有科創(chuàng)板上市公司海天瑞聲。據(jù)該公司披露,基于多年語音識別及合成領(lǐng)域的技術(shù)積累,其在多語種領(lǐng)域構(gòu)筑深厚技術(shù)壁壘。截至2022第一季度,海天瑞聲覆蓋190個語種,累積詞條數(shù)超過1000萬,客戶包括阿里巴巴、騰訊、百度、微軟等大廠。

        比起銷售數(shù)據(jù)集,更多公司在做的是數(shù)據(jù)的下一環(huán),數(shù)據(jù)標注。

        賈宇航對南風窗介紹,數(shù)據(jù)集業(yè)務(wù)占云測數(shù)據(jù)中很小的部分。這一業(yè)務(wù)主要的運用場景在人工智能產(chǎn)品剛立項的階段?!绊椖縿偭㈨椈蜻M行預(yù)演時,需要一些開源,或者行業(yè)的基礎(chǔ)數(shù)據(jù)集,以快速完成對算法的驗證?!?/p>

        而更多企業(yè)的需求,會在后面的階段爆發(fā),即當AI產(chǎn)品進入正式的研發(fā)和持續(xù)迭代時。

        “這時候,對應(yīng)的傳感器或者場景明確,需要基于特定的場景完成數(shù)據(jù)的采集、清洗和標注。我們因此提供高質(zhì)量、場景化的數(shù)據(jù)標注等服務(wù)。”賈宇航說。

        “公會”沒能推動數(shù)據(jù)標注業(yè)愈加繁榮。相反,越來越低的標注價格讓行業(yè)內(nèi)部競爭加劇。

        據(jù)前瞻產(chǎn)業(yè)研究院統(tǒng)計,中國數(shù)據(jù)標注公司從 2014年興起,發(fā)展到2017年達到高峰。2017年,數(shù)據(jù)標注相關(guān)融資事件達到9起。

        這個數(shù)字,也是接下來多年的高峰。

        勞動密集是這一階段數(shù)據(jù)標注業(yè)的特點。據(jù)36氪報道,一家資深數(shù)據(jù)標注公司透露,行業(yè)內(nèi)平均每家數(shù)據(jù)眾包平臺都有上萬人。因此,有人比喻,數(shù)據(jù)標注業(yè)就像“人工智能背后的富士康”。

        2018年,位于太原的山西轉(zhuǎn)型綜合改革示范區(qū)與百度達成合作,打造了號稱“全國范圍內(nèi)人員和產(chǎn)值規(guī)模最大的單體數(shù)據(jù)標注基地”。據(jù)百度披露,該基地占地面積超1萬平米,帶動了至少200家從事數(shù)據(jù)服務(wù)的公司。

        而相對較低的技術(shù)門檻,使得數(shù)據(jù)標注公司多分布于中小城市。以百度為例,該公司披露,旗下數(shù)據(jù)眾包平臺百度眾測除了安在太原,還在山西臨汾、重慶奉節(jié)、四川達州、甘肅酒泉、江西新余、浙江麗水、廣東清遠、湖南郴州、黑龍江哈爾濱等地設(shè)點。

        勞動密集的另一面意味著低門檻。在2021年版的《人工智能訓(xùn)練師國家職業(yè)技能標準》中,對該職業(yè)的能力特征描述是“具有一定的學(xué)習(xí)能力、表達能力、計算能力”,普遍受教育程度寫的是“初中畢業(yè)”。根據(jù)媒體報道的數(shù)據(jù)標注師群體,許多都是中專、大專畢業(yè)生,也容納寶媽、退役軍人等各類群體。

        低門檻的同時,數(shù)據(jù)標注行業(yè)的小作坊遍地開花。

        比起已經(jīng)進入E輪融資、占據(jù)海外市場的Scale AI,占據(jù)我國數(shù)據(jù)標注市場主要份額的,反而是以工作室形態(tài)存在的小公司。

        他們被稱為“公會”“團隊”,通常在眾包平臺上接單,或者接第三方中介公司轉(zhuǎn)過來分包的訂單。

        “公會”沒能推動數(shù)據(jù)標注業(yè)愈加繁榮。相反,越來越低的標注價格讓行業(yè)內(nèi)部競爭加劇。

        2017年開始,AI數(shù)據(jù)公司融資的量開始下滑。2018年,AI數(shù)據(jù)公司相關(guān)融資只有5筆,平均每筆只有千萬級。到了2021年,相關(guān)融資只剩下一年兩筆。

        贏識科技首席執(zhí)行官楚汝峰曾在受訪時表示,我國數(shù)據(jù)標注的競爭激烈,沒能出現(xiàn)像Scale AI獨角獸巨頭主要是因為,“國內(nèi)做標注的小作坊太多了,市場不集中”。

        轉(zhuǎn) 型

        數(shù)據(jù)集公司隨著AI行業(yè)的興衰而變化。與Scale AI相似,給中國數(shù)據(jù)標注公司帶來轉(zhuǎn)機的,是大量涌現(xiàn)的自動駕駛企業(yè)。

        中國工程院院士鄔賀銓曾分析:“智能駕駛需要讓汽車自動識別馬路。但如果只是將視頻單純傳給計算機,計算機無法識別,需要人工在視頻中將道路框出。計算機多次接收信息后,才逐漸學(xué)會在視頻和照片中識別道路?!?/p>

        智能駕駛帶來了大量的需求。國內(nèi)頭部數(shù)據(jù)企業(yè),例如云測數(shù)據(jù)、數(shù)據(jù)堂、龍貓數(shù)據(jù)等,紛紛轉(zhuǎn)向為車企提供服務(wù)。

        據(jù)報道,國內(nèi)一批主流的主機廠,如吉利、上汽、廣汽等,從2021年始加強了自動駕駛數(shù)據(jù)標注方面的投入。到2022年,上述車企的投入預(yù)算已經(jīng)在幾十萬元的基礎(chǔ)上翻了十余倍。

        數(shù)據(jù)堂公司相關(guān)負責人也曾在2022年受訪時說:“(車企)數(shù)據(jù)需求缺口仍在,市場遠未飽和。這對于真正優(yōu)質(zhì)的數(shù)據(jù)供應(yīng)商來說,正是搶占市場高地的絕佳時機?!?p>

        愈加激烈的競爭,對數(shù)據(jù)標注行業(yè)提出了現(xiàn)實的挑戰(zhàn)。數(shù)據(jù)標注公司普遍開始轉(zhuǎn)型。

        一個業(yè)內(nèi)公認的方向是,從勞動密集型走向AI輔助標注。

        “人機交互式?!辟Z宇航總結(jié)。

        他解釋,隨著這幾年的發(fā)展,數(shù)據(jù)標注的類型和內(nèi)容越來越復(fù)雜。“最早的人臉識別,只需要在人臉上做一個拉框的標注,就可以完成對應(yīng)需要的訓(xùn)練。而現(xiàn)在,還要求對人臉的關(guān)鍵點、表情或者一些人臉的屬性或者姿態(tài),例如半張臉被遮擋時等情況,進行標注。”

        與Scale AI相似,給中國數(shù)據(jù)標注公司帶來轉(zhuǎn)機的,是大量涌現(xiàn)的自動駕駛企業(yè)。

        市場的變化要求更高水準的數(shù)據(jù)處理能力。包括Scale AI、Appen等在內(nèi)的國際數(shù)據(jù)公司,將目光鎖定在數(shù)據(jù)標注的平臺以及工具化上。杭州數(shù)據(jù)標注公司曼孚科技曾對媒體總結(jié):“Scale AI的平臺工具已經(jīng)在很大限度上淡化了人在其中的決定性作用,這成為企業(yè)競爭力的關(guān)鍵?!?/p>

        賈宇航告訴南風窗,在強調(diào)質(zhì)量和效率的當下,數(shù)據(jù)標注AI工程化的趨勢愈加明顯。

        也就是說,如何把人組織起來,與機器交互,高效運轉(zhuǎn)AI數(shù)據(jù)處理的過程,成為各家公司競相“卷”的方向。

        需要適應(yīng)變化的除了給AI數(shù)據(jù)服務(wù)的AI,還有人才。賈宇航告訴南風窗:“現(xiàn)在,對于標注人員的要求肯定是越來越高?!?/p>

        如今缺失的,他說,是理解各個垂直領(lǐng)域的專業(yè)人才。比如,為了提高時效性,降低錯誤率,醫(yī)療數(shù)據(jù)需要專業(yè)的醫(yī)學(xué)生。但往往,這類人才極少從事數(shù)據(jù)業(yè)。

        2019年,數(shù)據(jù)服務(wù)平臺CrowdFlower也曾做過一組研究。

        它對大約80名數(shù)據(jù)科學(xué)家進行了一項調(diào)查,發(fā)現(xiàn)數(shù)據(jù)科學(xué)家花費了:

        60%的時間用于組織和清理數(shù)據(jù);

        19%的時間花在收集數(shù)據(jù)集上;

        9%的時間用于挖掘數(shù)據(jù);

        5%的時間花在其他任務(wù)上。

        數(shù)據(jù)科學(xué)家的大部分時間都花在數(shù)據(jù)準備,即收集、清理和標注數(shù)據(jù)上。這其中,57%的人表示,清理和處理數(shù)據(jù),是最無聊、最不愉快的任務(wù)。

        而如今,隨著ChatGPT帶來的AI熱潮,“最無聊、最不愉快”的行業(yè)也正在起飛。

        猜你喜歡
        南風窗數(shù)據(jù)服務(wù)
        《南風窗》新媒體營收激增原因分析
        傳媒(2023年8期)2023-05-20 02:06:12
        地理空間大數(shù)據(jù)服務(wù)自然資源調(diào)查監(jiān)測的方向分析
        基于數(shù)據(jù)中臺的數(shù)據(jù)服務(wù)建設(shè)規(guī)范研究
        數(shù)據(jù)服務(wù)依賴圖模型及自動組合方法研究
        如何運用稅收大數(shù)據(jù)服務(wù)供給側(cè)結(jié)構(gòu)性改革
        中國商論(2016年34期)2017-01-15 14:24:18
        基于頻繁子圖挖掘的數(shù)據(jù)服務(wù)Mashup推薦
        來信
        南風窗(2016年1期)2016-02-17 00:03:54
        一種基于數(shù)據(jù)服務(wù)超鏈進行情景數(shù)據(jù)集成的方法*
        《南風窗》 強化教育公平
        與共和國同行
        南風窗(2010年10期)2010-05-30 09:30:11
        久久久久亚洲精品无码网址| 久久伊人最新网址视频| 麻豆蜜桃av蜜臀av色欲av| 成人精品综合免费视频| 亚洲区偷拍自拍29p| 国产高清不卡二区三区在线观看 | av二区三区在线观看| 亚洲色图在线免费观看视频| 熟女无套内射线观56| 久久99国产伦精品免费| 亚洲av毛片一区二区久久| av在线观看一区二区三区| 日韩人妻无码精品-专区| 久久精品—区二区三区无码伊人色| 色妞一区二区三区免费视频| 国产内射爽爽大片| 日日噜狠狠噜天天噜av| 在线观看国产三级av| 亚洲精品中文字幕91| 亚洲日韩国产av无码无码精品| 欧美精品久久久久久久自慰| 国产男女乱婬真视频免费| 国产在线91精品观看| 米奇7777狠狠狠狠视频影院| 国产精品毛片无遮挡高清| 国产精品成人有码在线观看| 亚洲综合国产成人丁香五月激情 | 国产粉嫩嫩00在线正在播放| 亚洲av综合色一区二区| 久久无码av一区二区三区| 特黄aa级毛片免费视频播放| 国产亚洲精品一区二区在线播放| 2021国产精品视频网站| 野花社区www高清视频| 欧美在线观看www| 激情久久黄色免费网站| 少妇高潮喷水久久久影院| 人妻无码一区二区在线影院| 中文字幕亚洲综合久久久| 久人人爽人人爽人人片av| 一级免费毛片|