亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        東南亞構建本地人工智能的意義

        2025-08-15 00:00:00埃利娜·努爾
        南風窗 2025年17期
        關鍵詞:開發(fā)者人工智能語言

        在OpenAI公司于2022年11月公開發(fā)布ChatGPT后,其承認這款大型語言模型存在向西方觀點和英語傾斜的狀況。對于東南亞的開發(fā)者而言,需要一些能用多種語言為本地區(qū)服務的人工智能工具。這可不是一項小任務,因為該區(qū)域有超過1200種語言。例如,柬埔寨有近30種語言,泰國有大約70種語言,越南有100多種語言。

        不出所料,那些試圖為一個擁有如此多代表性不足的語言的地區(qū)建立真正本地化人工智能模型的人,面臨著諸多障礙—從缺乏高質量、大批量的標注數(shù)據(jù),到無法獲得從頭開始建立和訓練模型所需的算力。在某些情況下,這些挑戰(zhàn)甚至更為基礎,源于母語使用者數(shù)量不足、標準化拼寫體系的缺失或頻繁的電力中斷。

        在這些制約因素下,對外國公司創(chuàng)建的既定模型進行微調,是通常做法。2020—2023年諸如PhoBERT(越南語)、IndoBERT(印尼語)和Typhoon(泰語)等東南亞語言模型,都是從谷歌的BERT、Meta的RoBERTa(后來的LLaMA)和法國的Mistral等更大型模型中衍生出來的。

        即使是SeaLLM的早期版本—由阿里巴巴達摩研究院發(fā)布、針對地區(qū)語言進行優(yōu)化的一套模型,也是基于Meta、Mistral和谷歌的架構構建的。但在2024年,阿里云的Qwen模型打破了這一西方主導態(tài)勢,為東南亞提供了一套更廣泛的選項。卡內(nèi)基國際和平研究院的一項研究就發(fā)現(xiàn),在當年推出的21個地區(qū)性模型中,有5個是基于Qwen構建的。

        努力實現(xiàn)人工智能本地化,并確保東南亞社區(qū)擁有更大自主權,可能會加深開發(fā)者對更龐大參與者的依賴,至少在初始階段是如此。不過,東南亞的開發(fā)者們也已著手解決這一問題。包括SEA-LION(11種官方地區(qū)語言的集合)、PhoGPT(越南語)和MaLLaM(馬來語)在內(nèi)的多個模型,都是在每個特定語言的大型通用數(shù)據(jù)集基礎上,從頭開始預訓練的。這一機器學習過程的關鍵步驟,將使這些模型能夠對各類特定任務實施進一步的微調。

        盡管SEA-LION繼續(xù)依賴谷歌的架構進行預訓練,但它對區(qū)域語言數(shù)據(jù)集的使用,促進了本土模型的開發(fā)—比如能用印尼語、巽他語、爪哇語、巴厘語和峇達克語進行交流的Sahabat-AI。后者自詡為“印尼人工智能主權承諾的證明”。

        但是,代表本土視角也需要強大的本地知識基礎。如果對語言的政治性、傳統(tǒng)意義建構和歷史動態(tài)缺乏了解,我們就無法忠實地呈現(xiàn)東南亞的觀點和價值觀。

        比如,許多土著社區(qū)都對時間和空間—兩個在現(xiàn)代語境中被廣泛理解為線性的、可分割的、可測量的,以最大限度地提高生產(chǎn)力為目的的概念—有著不同的觀感。巴厘島的歷史文獻打破了傳統(tǒng)的編年模式,在西方或許會被視為神話或傳說,但它們繼續(xù)影響著這些社區(qū)對世界的認知。

        該地區(qū)的歷史學家們警告說,用西方的視角來看待當?shù)匚谋?,會增加誤讀土著民眾觀點的風險。從18世紀到19世紀,印尼的殖民管理者經(jīng)常將他們自己對爪哇編年史的理解,寫入翻譯后的再創(chuàng)作作品中。因此,英國人和歐洲人對東南亞人的許多偏見性觀察,被視為有效的歷史記載,官方文件中的種族分類和刻板印象也被內(nèi)化。如果人工智能在這些數(shù)據(jù)的基礎上進行訓練,這些偏見最終可能會進一步變得根深蒂固。

        這需要有意識地過濾歷史遺留的偏見,質疑關于我們身份定義的一些假設,并重新發(fā)現(xiàn)我們語言中的本土知識庫。如果我們從一開始就幾乎不了解我們的文化,那也就無法通過技術去忠實地凸顯它。

        猜你喜歡
        開發(fā)者人工智能語言
        鴻蒙破局·盤古聚力:HDC 2025解碼華為智能生態(tài)閉環(huán)
        中關村(2025年7期)2025-08-18 00:00:00
        利益平衡視域下人工智能數(shù)據(jù)訓練的著作權侵權認定研究
        語言是刀
        文苑(2020年4期)2020-05-30 12:35:30
        2019:人工智能
        商界(2019年12期)2019-01-03 06:59:05
        人工智能與就業(yè)
        讓語言描寫搖曳多姿
        數(shù)讀人工智能
        小康(2017年16期)2017-06-07 09:00:59
        累積動態(tài)分析下的同聲傳譯語言壓縮
        下一幕,人工智能!
        南風窗(2016年19期)2016-09-21 16:51:29
        我有我語言
        无码国产精品色午夜| 国产精品午夜爆乳美女视频| 亚洲熟妇无码av另类vr影视 | 日本av一区二区在线| 伊人久久大香线蕉av波多野结衣| 成人免费一区二区三区| 2021国产成人精品国产| 亚洲最黄视频一区二区| 国内自拍愉拍免费观看| 十八18禁国产精品www| 伊人22综合| 性一交一乱一乱一视频亚洲熟妇| 日本中文一区二区在线| 大又大粗又爽又黄少妇毛片| 提供最新的在線欧美综合一区| 亚洲国产av一区二区三| 久久综合九色综合97婷婷| 国产美女精品一区二区三区| 欧美中文字幕在线| 日本成人三级视频网站| 国产一区二区三区久久悠悠色av| 久久精品国产亚洲av麻豆| 日韩一区二区肥| 一区二区三区夜夜久久| 公和我做好爽添厨房| 日本护士吞精囗交gif| 国产精品伦人视频免费看| 亚洲一区二区自偷自拍另类| 国产日韩精品欧美一区喷水| 草草网站影院白丝内射| 国产黄片一区视频在线观看| 亚洲av日韩一卡二卡| 老司机亚洲精品影院| 日韩成人精品在线| 搞黄色很刺激的网站二区| 夜夜夜夜曰天天天天拍国产| 狠狠色噜噜狠狠狠狠888奇禾| 精品久久久无码不卡| 一区二区黄色在线观看| 婷婷亚洲久悠悠色悠在线播放| 国产亚洲欧洲AⅤ综合一区|