亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        可翻譯語言的模型也會(huì)“胡言亂語”?

        2022-10-13 10:36:16
        海外星云 2022年16期
        關(guān)鍵詞:人工智能文本人員

        在計(jì)算機(jī)領(lǐng)域,作為算法的其中一類,大型語言模型的用途日益廣泛。它可以學(xué)習(xí)數(shù)十億個(gè)單詞和短語之間的統(tǒng)計(jì)關(guān)聯(lián),并完成語言翻譯、摘要生成、文本分類和問題解答等任務(wù)。

        這類模型采用了一種名為“神經(jīng)網(wǎng)絡(luò)”的靈感架構(gòu),通過不斷調(diào)整那些被稱為參數(shù)的值來執(zhí)行模型訓(xùn)練,并以抹去文字的方法,完成現(xiàn)實(shí)與預(yù)測(cè)結(jié)果之間的比對(duì)。

        完成訓(xùn)練后的模型不僅可以自動(dòng)生成美好的詩歌,還能正確回答很多生活中會(huì)遇到的小問題,在一定程度上給予了人們較大幫助。

        不過,目前的語言模型并沒有感知語言意義的能力,因此,模型在執(zhí)行任務(wù)的時(shí)候,可能發(fā)生“胡言亂語”的情況。更令人擔(dān)憂的是,模型在選擇源頭學(xué)習(xí)數(shù)據(jù)時(shí)存在局限性,會(huì)給之后的工作帶來嚴(yán)重的倫理缺陷或?qū)嵺`缺陷,比如泄露私密數(shù)據(jù)、提供錯(cuò)誤信息、助長(zhǎng)虐待或偏見等。因?yàn)榇蠖鄶?shù)此類模型由大型科技公司開發(fā),其內(nèi)部工作原理并不對(duì)外展示,所以,想要解決上述問題并不容易。

        為了克服這些難題,打破大型科技公司對(duì)自然語言處理的壟斷,減少可能出現(xiàn)的有害影響,一個(gè)名為“BigScience”的國(guó)際合作項(xiàng)目推出了BLOOM模型的早期版本,希望它能有助于減少人工智能語言模型的有害輸出。

        BLOOM模型是第一個(gè)大規(guī)模多語言模型,擁有1760億個(gè)參數(shù),并由數(shù)百名研究人員完成,其中大部分是學(xué)者,包括哲學(xué)家、法律學(xué)家和倫理學(xué)家,也有一些來自臉書、谷歌等公司、以個(gè)人身份參與工作的員工。該模型的計(jì)算訓(xùn)練工作得到了價(jià)值700萬美元的公共資助,從規(guī)模來看可與OpenAI、谷歌等公司開發(fā)的語言模型相媲美,但它將是開源的。

        通常情況下,包括Reddit網(wǎng)站在內(nèi)的大多數(shù)語言模型都直接從網(wǎng)絡(luò)上抓取語言,而語言模型的好壞卻取決于其基于的數(shù)據(jù)集。對(duì)此,Hugging Face公司的機(jī)器學(xué)習(xí)研究員雅辛·杰尼特認(rèn)為:“選擇模型需要學(xué)習(xí)的文本是一項(xiàng)非常關(guān)鍵的任務(wù)。”

        為了選擇文本資源,研究人員參與了非洲自然語言處理社區(qū)Masakhane、 LatinX in AI、Machine Learning Tokyo等在內(nèi)的一系列社區(qū)團(tuán)體研討會(huì)。此后,BigScience 的研究人員從500個(gè)來源中精心挑選了規(guī)模為3410億字的數(shù)據(jù)集中近2/3的內(nèi)容。

        其內(nèi)容不僅包括《自然》等文章,還包括語義學(xué)者這類人工智能支持的學(xué)術(shù)出版物搜索引擎。杰尼特表示:“我們希望確保那些與他們的國(guó)家、與他們所說的語言以及與數(shù)據(jù)密切相關(guān)的人能夠參與進(jìn)來,共同選擇進(jìn)入模型訓(xùn)練的語言文本。”

        研究人員為解決語言模型存在的缺陷付出了諸多努力。首先,他們充分利用現(xiàn)有的計(jì)算能力,在使用多語言網(wǎng)絡(luò)進(jìn)行抓取的同時(shí),對(duì)數(shù)據(jù)進(jìn)行了質(zhì)量過濾,還完成了隱私編輯工作。其次,他們還通過減少網(wǎng)站的過度呈現(xiàn),來克制模型中可能產(chǎn)生的偏見與歧視。雖然BLOOM模型不可能完全消除偏見,但在確保提供多元文化和高質(zhì)量資源的基礎(chǔ)上,模型的整體質(zhì)量可以得到很大的提升。

        作為一個(gè)擁有人工智能模型和數(shù)據(jù)集的開源平臺(tái)的公司,Hugging Face的聯(lián)合創(chuàng)始人托馬斯·沃爾夫評(píng)價(jià)說:“BLOOM模型背后的代碼和數(shù)據(jù)集是開放的,所以研究人員可以試圖了解有害行為的根源,這可能有助于未來迭代版本的改進(jìn)?!?/p>

        同時(shí),在模型評(píng)估方面,研究人員除了比較BLOOM模型與其他模型在回答問題方面的能力,還設(shè)置了更為多樣化的指標(biāo),包括語言模型產(chǎn)生特定刻板印象的強(qiáng)度、語言模型在特定語言下產(chǎn)生的偏見大小等。布朗大學(xué)自然語言學(xué)習(xí)研究員艾麗·帕弗里克認(rèn)為:“由于這個(gè)模型已經(jīng)被訓(xùn)練成多語言,因此它可能對(duì)語言有著更深的理解,有助于其能力延伸至各類任務(wù)。”

        目前,BLOOM模型正處于3個(gè)月訓(xùn)練期的最后幾周。訓(xùn)練結(jié)束后的模型可供研究人員下載,并開展進(jìn)一步的實(shí)驗(yàn)和新數(shù)據(jù)訓(xùn)練。

        需要說明的是,第一,下載并運(yùn)行該模型需要很大的硬件容量。第二,為允許實(shí)驗(yàn)室跨服務(wù)器共享模型,BigScience還將發(fā)布更小且更少的硬件密集型版本,完成分布式系統(tǒng)的創(chuàng)建。第三,近期Hugging Face公司還會(huì)發(fā)布一款應(yīng)用程序,幫助使用者在不下載的狀態(tài)下查詢BLOOM模型。第四,在使用該模型之前,使用者需要簽署一份不斷發(fā)展的法律許可,不得用模型來服務(wù)不當(dāng)目的。

        目前,BLOOM模型已在多領(lǐng)域得到了應(yīng)用。它既可以作為探索人工智能的工具,又可以從歷史文本中提取信息,還可以完成一些生物學(xué)方面的分類工作。

        猜你喜歡
        人工智能文本人員
        靈活就業(yè)人員參保如何繳費(fèi)
        在808DA上文本顯示的改善
        讓刑滿釋放人員找到家的感覺
        2019:人工智能
        商界(2019年12期)2019-01-03 06:59:05
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        人工智能與就業(yè)
        數(shù)讀人工智能
        小康(2017年16期)2017-06-07 09:00:59
        下一幕,人工智能!
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        急救人員已身心俱疲
        国产av无码专区亚洲av蜜芽 | 亚洲嫩模一区二区三区视频| 精品人妻av中文字幕乱| 中文区中文字幕免费看| 国产情侣久久久久aⅴ免费| 国产激情在观看| 亚洲区一区二区三区四| 熟女中文字幕一区二区三区| 国产精品r级最新在线观看| 九九精品视频在线观看| 国产男女猛烈无遮挡免费视频网址 | 蜜桃视频一区视频二区| 国产成人无码a在线观看不卡| 亚洲av无码av日韩av网站| 精品亚洲女同一区二区| 亚洲中文字幕无码二区在线| 久久久国产视频久久久| 91自拍视频国产精品| 亚洲av福利无码无一区二区| 亚洲天堂资源网| 国产av在线观看91| 日本少妇高潮喷水视频| 中文字幕亚洲情99在线| 香港三级欧美国产精品| 亚洲综合一区二区三区在线观看| 国产太嫩了在线观看| 白嫩少妇激情无码| 丰满少妇高潮在线观看| 国产av剧情一区二区三区| 精品免费看国产一区二区| 一本大道久久a久久综合| 国产av一级二级三级| 艳妇臀荡乳欲伦69调教视频| 精品国精品国产自在久国产应用| 久青青草视频手机在线免费观看| 女人天堂av人禽交在线观看| 亚洲中文字幕国产综合| 久久国产综合精品欧美| 美女被内射中出在线观看| 女人脱了内裤趴开腿让男躁| 欧美激情五月|