亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種循環(huán)迭代的智能語料標(biāo)注系統(tǒng)

        2021-11-08 02:37:22劉勇陸小慧
        廣東通信技術(shù) 2021年10期
        關(guān)鍵詞:校驗(yàn)語料人工

        [劉勇 陸小慧]

        1 研究背景

        在人工智能飛速發(fā)展的今天,特別是在認(rèn)知智能的智能問答系統(tǒng)研發(fā)過程中,語料的標(biāo)注和校對工作一直需要消耗大量的人力和時間。眾所周知,人工智能領(lǐng)域的算法模型需要通過訓(xùn)練大量的語料得到,這些訓(xùn)練語料被事先進(jìn)行標(biāo)注,往往通常都是人工標(biāo)注,標(biāo)注過程需要耗費(fèi)大量人力和時間。

        因?yàn)闃?biāo)注的過程實(shí)際上是對語料中語言單位的特征進(jìn)行解釋的過程,不同的人可能會有不同的解釋結(jié)果,所以語料標(biāo)注帶有很大的主觀性。不同標(biāo)注者的知識結(jié)構(gòu)和語法理論也各不相同,如果只以少數(shù)人的標(biāo)注結(jié)果作為訓(xùn)練語料,訓(xùn)練出的算法就可能有較大的誤差。

        本文研究旨在積累歷史語料標(biāo)注結(jié)果對算法模型訓(xùn)練的效果,降低語料標(biāo)注工作的人力和時間成本投入,降低標(biāo)注過程中的失誤率,提高語料標(biāo)注的準(zhǔn)確率和效率。

        2 系統(tǒng)定義與關(guān)鍵技術(shù)

        語料標(biāo)注,是對原始浯料進(jìn)行加工,把各種表示語言特征的標(biāo)簽標(biāo)注在相應(yīng)的語言成分上,以便于計算機(jī)的識別和讀取。包括:實(shí)體標(biāo)注、詞性標(biāo)注、句法標(biāo)注、分類標(biāo)注、情感標(biāo)注、篇章關(guān)系標(biāo)注等。

        本文研究并通過實(shí)施例詳細(xì)說明了一種語料標(biāo)注方法和系統(tǒng),即根據(jù)預(yù)設(shè)的算法模型對待標(biāo)注語料集中的語料進(jìn)行標(biāo)注,基于標(biāo)注結(jié)果生成對應(yīng)的訓(xùn)練集,通過訓(xùn)練集更新算法模型,用于下一次語料標(biāo)注。通過本文實(shí)施例的實(shí)施,以每一次標(biāo)注后的結(jié)果來更新算法模型,從而大大減少了人工標(biāo)注的工作量,同時提升了標(biāo)注的一致性和準(zhǔn)確性。本系統(tǒng)分為如下3 個模塊。

        ①語料標(biāo)注模塊,用于根據(jù)預(yù)設(shè)的算法模型對待標(biāo)注語料集中的語料進(jìn)行標(biāo)注;

        ② 訓(xùn)練生成模塊,用于基于標(biāo)注的結(jié)果,生成對應(yīng)的訓(xùn)練集;

        ③算法訓(xùn)練模塊,用于通過所述訓(xùn)練集更新所述算法模型,用于下一次的語料標(biāo)注,如圖1 所示。

        圖1 語料標(biāo)注方法流程圖

        首次語料標(biāo)注工作需要采用原始的人工標(biāo)注方式,將標(biāo)注結(jié)果作為訓(xùn)練語料用于初始算法模型的訓(xùn)練。從第二輪迭代開始,只需將前一次標(biāo)注的語料訓(xùn)練得到的算法模型,應(yīng)用于為標(biāo)注語料設(shè)計的標(biāo)注系統(tǒng)中。該語料標(biāo)注系統(tǒng)可自動將現(xiàn)有語料同領(lǐng)域的不同細(xì)分小類的語料進(jìn)行標(biāo)注,且準(zhǔn)確率較高,并篩選出少量當(dāng)前算法未覆蓋到的無法實(shí)現(xiàn)自動標(biāo)注的語料,在下一輪迭代中進(jìn)行人工標(biāo)注。假設(shè)第三輪跌代出現(xiàn)不同領(lǐng)域的語料時,則需要人工參與新領(lǐng)域語料的標(biāo)注,并將語料標(biāo)注結(jié)果應(yīng)用于算法模型的訓(xùn)練中。從第四輪迭代開始,只需將第三輪跌代輸出的算法模型,再次應(yīng)用于當(dāng)前語料標(biāo)注系統(tǒng),使智能標(biāo)注系統(tǒng)得到擴(kuò)展,算法覆蓋面更大,準(zhǔn)確率更高,標(biāo)注系統(tǒng)更加智能,可自動化實(shí)現(xiàn)新一種領(lǐng)域的語料標(biāo)注工作。

        如此循環(huán)迭代,語料標(biāo)注系統(tǒng)可隨算法訓(xùn)練和人工標(biāo)注新領(lǐng)域語料的持續(xù)作用日益完善,變得更加智能,從而大大提高語料標(biāo)注的工作效率,降低相似語料的人工標(biāo)注成本。

        對于同領(lǐng)域相同子類的語料,如果將多人多次標(biāo)注的結(jié)果持續(xù)積累起來,從一定程度上能降低人工標(biāo)注主觀性引起的誤差。

        該系統(tǒng)不受限于算法或數(shù)據(jù)的類型,無論是文本、音視頻還是圖片圖像的數(shù)據(jù),以及對應(yīng)于這些數(shù)據(jù)的各種算法,都可以按照這種循環(huán)迭代的方式構(gòu)建一個標(biāo)注系統(tǒng),來實(shí)現(xiàn)智能化的數(shù)據(jù)標(biāo)注。具體來說,該系統(tǒng)實(shí)現(xiàn)分4 個部分:①對算法模型未覆蓋語料進(jìn)行人工標(biāo)注;② 用標(biāo)注的語料進(jìn)行算法模型訓(xùn)練;③將算法模型應(yīng)用于智能標(biāo)注系統(tǒng)中;④ 智能標(biāo)注系統(tǒng)對同領(lǐng)域新語料實(shí)現(xiàn)自動化標(biāo)注。

        下面對該系統(tǒng)的實(shí)現(xiàn)流程加以說明,如圖2 所示。

        圖2 語料標(biāo)注示意圖

        其中,語料集A 作為初始語料集,以人工標(biāo)注的形式進(jìn)行標(biāo)注并生成訓(xùn)練集A,基于訓(xùn)練集A 訓(xùn)練出了算法模型,此處即為初始算法模型。語料集B 作為與語料A領(lǐng)域相同的語料集,也就是與算法模型領(lǐng)域一致的語料,可直接通過集成了該算法模型的自動化標(biāo)注系統(tǒng)進(jìn)行標(biāo)注;該自動化標(biāo)注系統(tǒng)除了集成了算法模型之外,還具備一些標(biāo)注所需的其他組成部分,比如工作流、權(quán)限控制等相關(guān)功能。盡管如此,語料集B 中還有領(lǐng)域之下的類別不同的語料集B’,不能直接通過算法模型進(jìn)行標(biāo)注,而采用人工的方式進(jìn)行標(biāo)注。語料集C 是與語料集A 領(lǐng)域不同的語料集,也就是與算法模型領(lǐng)域不一致的語料集,直接通過人工標(biāo)注的方式進(jìn)行標(biāo)注。

        不管是對語料集B的標(biāo)注,還是對語料集B’的標(biāo)注,還是對語料集C的標(biāo)注,最終均生成對應(yīng)的訓(xùn)練集,通過訓(xùn)練集來更新算法模型,作為下一次的語料標(biāo)注所參考的算法模型。

        此外,還可以包括,根據(jù)在各次算法模型對待標(biāo)注集中的語料進(jìn)行標(biāo)注時,語料集B 在待標(biāo)注語料集中的占比,和/或各次標(biāo)注的準(zhǔn)確率,評估算法模型對待標(biāo)注語料的標(biāo)注能力是否達(dá)標(biāo)。在每一次的語料標(biāo)注中,根據(jù)待標(biāo)注語料的領(lǐng)域與算法模型的領(lǐng)域的相同與否,會對應(yīng)產(chǎn)生相應(yīng)的語料集B 和語料集C,根據(jù)可以直接標(biāo)注的語料集B 在待標(biāo)注語料集中的占比可以確定算法模型的標(biāo)注能力;另外,每一次對于待標(biāo)注語料集的標(biāo)注之后,再經(jīng)過校驗(yàn)就可以得知標(biāo)注的準(zhǔn)確率,根據(jù)準(zhǔn)確率也可以確定算法模型的標(biāo)注能力。在得知算法模型的標(biāo)注能力之后,如果算法模型的標(biāo)注能力較弱,或者是標(biāo)注能力不達(dá)標(biāo),則可能需要繼續(xù)借助語料集進(jìn)行訓(xùn)練,逐步完善算法模型標(biāo)注能力。

        基于標(biāo)注的結(jié)果生成對應(yīng)的訓(xùn)練集。生成訓(xùn)練集是為生成算法模型,以及更新算法模型提供了可能,由于初始算法模型已經(jīng)根據(jù)對初始語料的人工標(biāo)注生成了,因此后續(xù)的訓(xùn)練集都是作為更新算法模型而用。

        通過訓(xùn)練集更新算法模型,用于下一次的語料標(biāo)注。下一次的語料標(biāo)注一般都是參考上一次的語料標(biāo)注更新后的算法模型來進(jìn)行,而迭代的次數(shù)越多,覆蓋的領(lǐng)域越廣,因此需要人工參與的次數(shù)也越少,標(biāo)注的準(zhǔn)確率也越高。為了保證語料標(biāo)注的可靠性,通過訓(xùn)練集更新算法模型可以包括:對訓(xùn)練集進(jìn)行校驗(yàn);在校驗(yàn)完成后,通過校驗(yàn)后的訓(xùn)練集對算法模型進(jìn)行更新?;跇?biāo)注的結(jié)果對訓(xùn)練集進(jìn)行校驗(yàn)可以包括:以抽查的方式從訓(xùn)練集中隨機(jī)抽取部分進(jìn)行校驗(yàn);或以全量的方式,直接校驗(yàn)訓(xùn)練集中的所有內(nèi)容。

        3 具體實(shí)施方式

        下面具體描述一下細(xì)化的流程,如圖3 所示。

        圖3 標(biāo)注方法細(xì)化流程圖

        我們先確定待標(biāo)注的語料集:語料可以包括智能問答系統(tǒng)中的語料,文本識別中的文本,以及音視頻、圖片等多媒體語料。

        基于上一次語料標(biāo)注后的算法模型,對待標(biāo)注的語料集中的語料進(jìn)行標(biāo)注;語料中往往包含了很多很豐富的內(nèi)容,但是計算機(jī)可能不能直接的識別和讀取,因此需要對這些語料進(jìn)行標(biāo)注,標(biāo)注也就是對語料庫中的語料進(jìn)行加工,把語料中的各種特征以計算機(jī)可識別的方式進(jìn)行標(biāo)注。

        算法模型根據(jù)迭代階段的不同,大致可分為初始算法模型和過渡算法模型兩類;初始算法模型,也就是在本次語料標(biāo)注中第一個算法模型,這個算法模型大致決定了以后所有相關(guān)的語料標(biāo)注的算法邏輯。過渡算法模型指的是在初始算法模型之外的算法模型,與初始算法模型不同,過渡算法模型通常是持續(xù)變化的。

        判斷標(biāo)注是否成功,也就是從語料中篩選出語料集B 和語料集C的過程;而確定待標(biāo)注語料集中的語料集B和語料集C的方式,可以是通過關(guān)鍵詞篩選等等方式進(jìn)行,或者是由人工參與進(jìn)行判斷,或者是直接假設(shè)都是相同領(lǐng)域的直接進(jìn)行標(biāo)注。對于無法直接標(biāo)注的部分則分離出來作為不同領(lǐng)域的語料集C 進(jìn)行人工標(biāo)注。

        基于標(biāo)注結(jié)果,生成訓(xùn)練集。生成訓(xùn)練集就為生成算法模型,以及更新算法模型提供了可能。由于初始算法模型已經(jīng)根據(jù)對初始語料的人工標(biāo)注生成了,因此后續(xù)的訓(xùn)練集都是作為更新算法模型而用。

        為了保證語料標(biāo)注的可靠性,可對訓(xùn)練集進(jìn)行校驗(yàn),具體的校驗(yàn)方式可以包括:以抽查的方式從訓(xùn)練集中隨機(jī)抽取部分進(jìn)行校驗(yàn);或者以全量的方式,直接校驗(yàn)訓(xùn)練集中的所有內(nèi)容。

        通過校驗(yàn)后的訓(xùn)練集更新算法模型,返回供下次標(biāo)注新的語料集;并通過人工標(biāo)注對標(biāo)注失敗的語料進(jìn)行標(biāo)注。

        下面對技術(shù)方案的實(shí)施做進(jìn)一步的詳細(xì)描述,如圖4所示。

        圖4 銀行業(yè)務(wù)語料標(biāo)準(zhǔn)流程示意圖

        本實(shí)施例中的語料標(biāo)注方法以銀行的業(yè)務(wù)語料為基礎(chǔ),通過訓(xùn)練相應(yīng)的算法模型和循環(huán)迭代,來實(shí)現(xiàn)自動標(biāo)注。智能語料標(biāo)注系統(tǒng)不斷將用新語料訓(xùn)練得到的算法模型進(jìn)行集成,標(biāo)注系統(tǒng)以循環(huán)迭代的方式得到擴(kuò)展和優(yōu)化。

        以智能語料標(biāo)注系統(tǒng)以建行業(yè)務(wù)語料為基礎(chǔ),將訓(xùn)練出的算法模型集成,經(jīng)過迭代后可以自動對中行語料進(jìn)行標(biāo)注為例,循環(huán)迭代的智能語料標(biāo)注系統(tǒng)實(shí)現(xiàn)步驟如圖4 所示。

        步驟1,確定第一批銀行A的業(yè)務(wù)語料;

        步驟2,形成銀行A的語料訓(xùn)練集;

        步驟3,基于銀行A的語料訓(xùn)練集訓(xùn)練生成算法模型,嵌入智能標(biāo)注系統(tǒng)中;

        步驟4,第二批銀行B的業(yè)務(wù)語料需要進(jìn)行標(biāo)注時,判斷銀行A 和銀行B的業(yè)務(wù)語料同屬于銀行領(lǐng)域的語料,屬于同一領(lǐng)域的不同子類,大部分業(yè)務(wù)用語、詞匯相似,于是將銀行B的業(yè)務(wù)語料輸入智能標(biāo)注系統(tǒng)中進(jìn)行自動化標(biāo)注。根據(jù)需要自動標(biāo)注的語料規(guī)模,可考慮部署分布式智能標(biāo)注系統(tǒng)。

        步驟5,對于銀行B的業(yè)務(wù)語料中,無法通過智能標(biāo)注系統(tǒng)中的算法模型自動標(biāo)注的部分,形成X 語料’,人工對X 語料’進(jìn)行標(biāo)注,此時大大降低了人工標(biāo)注的工作量和耗時。人工標(biāo)注的結(jié)果形成第二批訓(xùn)練集,再次執(zhí)行步驟2、步驟3,從而實(shí)現(xiàn)了算法模型的更新,智能標(biāo)注系統(tǒng)得到第二次優(yōu)化和擴(kuò)充。

        步驟6,當(dāng)?shù)谌y行X的業(yè)務(wù)語料需要標(biāo)注時,重復(fù)步驟4 中的操作,從而實(shí)現(xiàn)了算法模型的更新,智能標(biāo)注系統(tǒng)得到再一次優(yōu)化和擴(kuò)充。

        步驟7,當(dāng)?shù)谒呐畴娚痰目头Z料需要進(jìn)行標(biāo)注時,判斷電商的客服語料和已人工標(biāo)注過的銀行語料不是同一領(lǐng)域的語料,用語、詞匯差異很大,于是人工對某電商客服語料進(jìn)行標(biāo)注。形成第四批訓(xùn)練集,再次執(zhí)行步驟2、步驟3,從而實(shí)現(xiàn)了算法模型的更新,智能標(biāo)注系統(tǒng)得到第四次優(yōu)化和擴(kuò)充。

        步驟8,當(dāng)?shù)谖迮娚蘕的客服語料需要標(biāo)注時,重復(fù)步驟4 中的操作,從而實(shí)現(xiàn)了算法模型的更新,智能標(biāo)注系統(tǒng)得到第五次優(yōu)化和擴(kuò)充。

        如果需要對同領(lǐng)域同子類型的語料進(jìn)行標(biāo)注,使用智能標(biāo)注系統(tǒng)對這些語料進(jìn)行自動化標(biāo)注,如果智能標(biāo)注系統(tǒng)已經(jīng)過多輪迭代和優(yōu)化擴(kuò)充,這批語料理論上可以完全實(shí)現(xiàn)自動化標(biāo)注且準(zhǔn)確率達(dá)標(biāo)。

        分析智能標(biāo)注系統(tǒng)對同領(lǐng)域不同子類、同領(lǐng)域相同子類新語料的自動化標(biāo)注比例和準(zhǔn)確率,可以判斷是否需要收集更多更豐富的語料來繼續(xù)訓(xùn)練算法模型。

        4 總結(jié)

        本文研究并提供了一種人工智能認(rèn)知智能領(lǐng)域的語料標(biāo)注方法和系統(tǒng),首先確定已生成的算法模型,根據(jù)算法模型對待標(biāo)注語料集中的語料進(jìn)行標(biāo)注;基于標(biāo)注結(jié)果生成對應(yīng)的訓(xùn)練集,通過訓(xùn)練集更新算法模型,用于下一次語料標(biāo)注。通過本文舉例實(shí)施例的實(shí)施,以每一次標(biāo)注后的結(jié)果來更新算法模型,從而大大減少了人工標(biāo)注的工作量,同時也提升了標(biāo)注的一致性和準(zhǔn)確性。

        每當(dāng)一批新語料需要進(jìn)行標(biāo)注時,人工判斷這批新語料是否屬于現(xiàn)有領(lǐng)域及子類,如果屬于現(xiàn)有領(lǐng)域的新子類,則用標(biāo)注系統(tǒng)自動標(biāo)注,并篩選出系統(tǒng)無法覆蓋到的未實(shí)現(xiàn)自動標(biāo)注的語句進(jìn)行人工標(biāo)注;如果屬于新領(lǐng)域的語料則直接進(jìn)行人工標(biāo)注。

        根據(jù)實(shí)現(xiàn)自動標(biāo)注的語料所占新語料的百分比,結(jié)合標(biāo)注系統(tǒng)對現(xiàn)有領(lǐng)域新子類語料歷次能實(shí)現(xiàn)自動化標(biāo)注比例經(jīng)驗(yàn)值及標(biāo)注準(zhǔn)確率,及人工對這批新語料類別的判斷,可分析出當(dāng)前該標(biāo)注系統(tǒng)在某領(lǐng)域某子類的自動化標(biāo)注能力是否達(dá)標(biāo),是否需要更多的該領(lǐng)域語料來訓(xùn)練算法。

        如果需要自動標(biāo)注的語料規(guī)模較大,該智能標(biāo)注系統(tǒng)可考慮分布式部署。

        該系統(tǒng)不受限于算法或數(shù)據(jù)的類型,無論是文本、音視頻還是圖片圖像的數(shù)據(jù),以及對應(yīng)于這些數(shù)據(jù)的各種算法,都可以按照這種循環(huán)迭代的方式構(gòu)建一個標(biāo)注系統(tǒng),來實(shí)現(xiàn)智能化的數(shù)據(jù)標(biāo)注。

        猜你喜歡
        校驗(yàn)語料人工
        人工3D脊髓能幫助癱瘓者重新行走?
        軍事文摘(2022年8期)2022-11-03 14:22:01
        人工,天然,合成
        人工“美顏”
        哈哈畫報(2021年11期)2021-02-28 07:28:45
        爐溫均勻性校驗(yàn)在鑄鍛企業(yè)的應(yīng)用
        基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
        新型多孔鉭人工種植牙
        華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
        大型電動機(jī)高阻抗差動保護(hù)穩(wěn)定校驗(yàn)研究
        電測與儀表(2015年1期)2015-04-09 12:03:02
        基于加窗插值FFT的PMU校驗(yàn)方法
        鍋爐安全閥在線校驗(yàn)不確定度評定
        久久亚洲道色宗和久久| 亚洲精品国精品久久99热| 野花社区视频在线观看| 亚洲av无码专区亚洲av桃| 2020最新国产激情| 国产日产韩国级片网站| 欧美肥妇毛多水多bbxx水蜜桃| 香蕉久久福利院| 一本无码av一区二区三区| 日本高清在线一区二区| 久久久精品人妻一区二区三区四区 | 亚洲av无码国产精品麻豆天美 | 亚洲av无码片一区二区三区| 日韩久久无码免费看A| 成人性生交大片免费5| 97久久综合区小说区图片区 | 在线天堂中文一区二区三区| 青青草久久久亚洲一区| 国产精品高清一区二区三区不卡| 人妻影音先锋啪啪av资源| 亚洲欧洲AV综合色无码| 尤物蜜桃视频一区二区三区| 成人免费无码视频在线网站 | 国内视频偷拍一区,二区,三区| 亚洲日本中文字幕乱码| 成视频年人黄网站免费视频| 亚洲乱妇老熟女爽到高潮的片| 中文字幕日韩精品美一区二区三区| 久久精品中文字幕有码| 久久久无码人妻精品无码| 欧美深夜福利网站在线观看| 亚洲精品中文字幕乱码三区99| 国产精品人人做人人爽人人添| 伊人久久无码中文字幕| 亚洲乱精品中文字字幕| 国内自拍速发福利免费在线观看| 亚洲av无码专区首页| 日韩亚洲中文图片小说| 成人国产一区二区三区av| 久久久久亚洲精品无码网址蜜桃 | 国产精品18久久久|