亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種循環(huán)迭代的智能語料標(biāo)注系統(tǒng)

2021-11-08 02:37:22劉勇陸小慧

廣東通信技術(shù) 2021年10期

［劉勇陸小慧］

1 研究背景

在人工智能飛速發(fā)展的今天，特別是在認(rèn)知智能的智能問答系統(tǒng)研發(fā)過程中，語料的標(biāo)注和校對工作一直需要消耗大量的人力和時間。眾所周知，人工智能領(lǐng)域的算法模型需要通過訓(xùn)練大量的語料得到，這些訓(xùn)練語料被事先進(jìn)行標(biāo)注，往往通常都是人工標(biāo)注，標(biāo)注過程需要耗費(fèi)大量人力和時間。

因?yàn)闃?biāo)注的過程實(shí)際上是對語料中語言單位的特征進(jìn)行解釋的過程，不同的人可能會有不同的解釋結(jié)果，所以語料標(biāo)注帶有很大的主觀性。不同標(biāo)注者的知識結(jié)構(gòu)和語法理論也各不相同，如果只以少數(shù)人的標(biāo)注結(jié)果作為訓(xùn)練語料，訓(xùn)練出的算法就可能有較大的誤差。

本文研究旨在積累歷史語料標(biāo)注結(jié)果對算法模型訓(xùn)練的效果，降低語料標(biāo)注工作的人力和時間成本投入，降低標(biāo)注過程中的失誤率，提高語料標(biāo)注的準(zhǔn)確率和效率。

2 系統(tǒng)定義與關(guān)鍵技術(shù)

語料標(biāo)注，是對原始浯料進(jìn)行加工，把各種表示語言特征的標(biāo)簽標(biāo)注在相應(yīng)的語言成分上，以便于計算機(jī)的識別和讀取。包括：實(shí)體標(biāo)注、詞性標(biāo)注、句法標(biāo)注、分類標(biāo)注、情感標(biāo)注、篇章關(guān)系標(biāo)注等。

本文研究并通過實(shí)施例詳細(xì)說明了一種語料標(biāo)注方法和系統(tǒng)，即根據(jù)預(yù)設(shè)的算法模型對待標(biāo)注語料集中的語料進(jìn)行標(biāo)注，基于標(biāo)注結(jié)果生成對應(yīng)的訓(xùn)練集，通過訓(xùn)練集更新算法模型，用于下一次語料標(biāo)注。通過本文實(shí)施例的實(shí)施，以每一次標(biāo)注后的結(jié)果來更新算法模型，從而大大減少了人工標(biāo)注的工作量，同時提升了標(biāo)注的一致性和準(zhǔn)確性。本系統(tǒng)分為如下3 個模塊。

①語料標(biāo)注模塊，用于根據(jù)預(yù)設(shè)的算法模型對待標(biāo)注語料集中的語料進(jìn)行標(biāo)注；

② 訓(xùn)練生成模塊，用于基于標(biāo)注的結(jié)果，生成對應(yīng)的訓(xùn)練集；

③算法訓(xùn)練模塊，用于通過所述訓(xùn)練集更新所述算法模型，用于下一次的語料標(biāo)注，如圖1 所示。

圖1 語料標(biāo)注方法流程圖

首次語料標(biāo)注工作需要采用原始的人工標(biāo)注方式，將標(biāo)注結(jié)果作為訓(xùn)練語料用于初始算法模型的訓(xùn)練。從第二輪迭代開始，只需將前一次標(biāo)注的語料訓(xùn)練得到的算法模型，應(yīng)用于為標(biāo)注語料設(shè)計的標(biāo)注系統(tǒng)中。該語料標(biāo)注系統(tǒng)可自動將現(xiàn)有語料同領(lǐng)域的不同細(xì)分小類的語料進(jìn)行標(biāo)注，且準(zhǔn)確率較高，并篩選出少量當(dāng)前算法未覆蓋到的無法實(shí)現(xiàn)自動標(biāo)注的語料，在下一輪迭代中進(jìn)行人工標(biāo)注。假設(shè)第三輪跌代出現(xiàn)不同領(lǐng)域的語料時，則需要人工參與新領(lǐng)域語料的標(biāo)注，并將語料標(biāo)注結(jié)果應(yīng)用于算法模型的訓(xùn)練中。從第四輪迭代開始，只需將第三輪跌代輸出的算法模型，再次應(yīng)用于當(dāng)前語料標(biāo)注系統(tǒng)，使智能標(biāo)注系統(tǒng)得到擴(kuò)展，算法覆蓋面更大，準(zhǔn)確率更高，標(biāo)注系統(tǒng)更加智能，可自動化實(shí)現(xiàn)新一種領(lǐng)域的語料標(biāo)注工作。

如此循環(huán)迭代，語料標(biāo)注系統(tǒng)可隨算法訓(xùn)練和人工標(biāo)注新領(lǐng)域語料的持續(xù)作用日益完善，變得更加智能，從而大大提高語料標(biāo)注的工作效率，降低相似語料的人工標(biāo)注成本。

對于同領(lǐng)域相同子類的語料，如果將多人多次標(biāo)注的結(jié)果持續(xù)積累起來，從一定程度上能降低人工標(biāo)注主觀性引起的誤差。

該系統(tǒng)不受限于算法或數(shù)據(jù)的類型，無論是文本、音視頻還是圖片圖像的數(shù)據(jù)，以及對應(yīng)于這些數(shù)據(jù)的各種算法，都可以按照這種循環(huán)迭代的方式構(gòu)建一個標(biāo)注系統(tǒng)，來實(shí)現(xiàn)智能化的數(shù)據(jù)標(biāo)注。具體來說，該系統(tǒng)實(shí)現(xiàn)分4 個部分：①對算法模型未覆蓋語料進(jìn)行人工標(biāo)注；② 用標(biāo)注的語料進(jìn)行算法模型訓(xùn)練；③將算法模型應(yīng)用于智能標(biāo)注系統(tǒng)中；④ 智能標(biāo)注系統(tǒng)對同領(lǐng)域新語料實(shí)現(xiàn)自動化標(biāo)注。

下面對該系統(tǒng)的實(shí)現(xiàn)流程加以說明，如圖2 所示。

圖2 語料標(biāo)注示意圖

其中，語料集A 作為初始語料集，以人工標(biāo)注的形式進(jìn)行標(biāo)注并生成訓(xùn)練集A，基于訓(xùn)練集A 訓(xùn)練出了算法模型，此處即為初始算法模型。語料集B 作為與語料A領(lǐng)域相同的語料集，也就是與算法模型領(lǐng)域一致的語料，可直接通過集成了該算法模型的自動化標(biāo)注系統(tǒng)進(jìn)行標(biāo)注；該自動化標(biāo)注系統(tǒng)除了集成了算法模型之外，還具備一些標(biāo)注所需的其他組成部分，比如工作流、權(quán)限控制等相關(guān)功能。盡管如此，語料集B 中還有領(lǐng)域之下的類別不同的語料集B’，不能直接通過算法模型進(jìn)行標(biāo)注，而采用人工的方式進(jìn)行標(biāo)注。語料集C 是與語料集A 領(lǐng)域不同的語料集，也就是與算法模型領(lǐng)域不一致的語料集，直接通過人工標(biāo)注的方式進(jìn)行標(biāo)注。

不管是對語料集B的標(biāo)注，還是對語料集B’的標(biāo)注，還是對語料集C的標(biāo)注，最終均生成對應(yīng)的訓(xùn)練集，通過訓(xùn)練集來更新算法模型，作為下一次的語料標(biāo)注所參考的算法模型。

此外，還可以包括，根據(jù)在各次算法模型對待標(biāo)注集中的語料進(jìn)行標(biāo)注時，語料集B 在待標(biāo)注語料集中的占比，和/或各次標(biāo)注的準(zhǔn)確率，評估算法模型對待標(biāo)注語料的標(biāo)注能力是否達(dá)標(biāo)。在每一次的語料標(biāo)注中，根據(jù)待標(biāo)注語料的領(lǐng)域與算法模型的領(lǐng)域的相同與否，會對應(yīng)產(chǎn)生相應(yīng)的語料集B 和語料集C，根據(jù)可以直接標(biāo)注的語料集B 在待標(biāo)注語料集中的占比可以確定算法模型的標(biāo)注能力；另外，每一次對于待標(biāo)注語料集的標(biāo)注之后，再經(jīng)過校驗(yàn)就可以得知標(biāo)注的準(zhǔn)確率，根據(jù)準(zhǔn)確率也可以確定算法模型的標(biāo)注能力。在得知算法模型的標(biāo)注能力之后，如果算法模型的標(biāo)注能力較弱，或者是標(biāo)注能力不達(dá)標(biāo)，則可能需要繼續(xù)借助語料集進(jìn)行訓(xùn)練，逐步完善算法模型標(biāo)注能力。

基于標(biāo)注的結(jié)果生成對應(yīng)的訓(xùn)練集。生成訓(xùn)練集是為生成算法模型，以及更新算法模型提供了可能，由于初始算法模型已經(jīng)根據(jù)對初始語料的人工標(biāo)注生成了，因此后續(xù)的訓(xùn)練集都是作為更新算法模型而用。

通過訓(xùn)練集更新算法模型，用于下一次的語料標(biāo)注。下一次的語料標(biāo)注一般都是參考上一次的語料標(biāo)注更新后的算法模型來進(jìn)行，而迭代的次數(shù)越多，覆蓋的領(lǐng)域越廣，因此需要人工參與的次數(shù)也越少，標(biāo)注的準(zhǔn)確率也越高。為了保證語料標(biāo)注的可靠性，通過訓(xùn)練集更新算法模型可以包括：對訓(xùn)練集進(jìn)行校驗(yàn)；在校驗(yàn)完成后，通過校驗(yàn)后的訓(xùn)練集對算法模型進(jìn)行更新?；跇?biāo)注的結(jié)果對訓(xùn)練集進(jìn)行校驗(yàn)可以包括：以抽查的方式從訓(xùn)練集中隨機(jī)抽取部分進(jìn)行校驗(yàn)；或以全量的方式，直接校驗(yàn)訓(xùn)練集中的所有內(nèi)容。

3 具體實(shí)施方式

下面具體描述一下細(xì)化的流程，如圖3 所示。

圖3 標(biāo)注方法細(xì)化流程圖

我們先確定待標(biāo)注的語料集：語料可以包括智能問答系統(tǒng)中的語料，文本識別中的文本，以及音視頻、圖片等多媒體語料。

基于上一次語料標(biāo)注后的算法模型，對待標(biāo)注的語料集中的語料進(jìn)行標(biāo)注；語料中往往包含了很多很豐富的內(nèi)容，但是計算機(jī)可能不能直接的識別和讀取，因此需要對這些語料進(jìn)行標(biāo)注，標(biāo)注也就是對語料庫中的語料進(jìn)行加工，把語料中的各種特征以計算機(jī)可識別的方式進(jìn)行標(biāo)注。

算法模型根據(jù)迭代階段的不同，大致可分為初始算法模型和過渡算法模型兩類；初始算法模型，也就是在本次語料標(biāo)注中第一個算法模型，這個算法模型大致決定了以后所有相關(guān)的語料標(biāo)注的算法邏輯。過渡算法模型指的是在初始算法模型之外的算法模型，與初始算法模型不同，過渡算法模型通常是持續(xù)變化的。

判斷標(biāo)注是否成功，也就是從語料中篩選出語料集B 和語料集C的過程；而確定待標(biāo)注語料集中的語料集B和語料集C的方式，可以是通過關(guān)鍵詞篩選等等方式進(jìn)行，或者是由人工參與進(jìn)行判斷，或者是直接假設(shè)都是相同領(lǐng)域的直接進(jìn)行標(biāo)注。對于無法直接標(biāo)注的部分則分離出來作為不同領(lǐng)域的語料集C 進(jìn)行人工標(biāo)注。

基于標(biāo)注結(jié)果，生成訓(xùn)練集。生成訓(xùn)練集就為生成算法模型，以及更新算法模型提供了可能。由于初始算法模型已經(jīng)根據(jù)對初始語料的人工標(biāo)注生成了，因此后續(xù)的訓(xùn)練集都是作為更新算法模型而用。

為了保證語料標(biāo)注的可靠性，可對訓(xùn)練集進(jìn)行校驗(yàn)，具體的校驗(yàn)方式可以包括：以抽查的方式從訓(xùn)練集中隨機(jī)抽取部分進(jìn)行校驗(yàn)；或者以全量的方式，直接校驗(yàn)訓(xùn)練集中的所有內(nèi)容。

通過校驗(yàn)后的訓(xùn)練集更新算法模型，返回供下次標(biāo)注新的語料集；并通過人工標(biāo)注對標(biāo)注失敗的語料進(jìn)行標(biāo)注。

下面對技術(shù)方案的實(shí)施做進(jìn)一步的詳細(xì)描述，如圖4所示。

圖4 銀行業(yè)務(wù)語料標(biāo)準(zhǔn)流程示意圖

本實(shí)施例中的語料標(biāo)注方法以銀行的業(yè)務(wù)語料為基礎(chǔ)，通過訓(xùn)練相應(yīng)的算法模型和循環(huán)迭代，來實(shí)現(xiàn)自動標(biāo)注。智能語料標(biāo)注系統(tǒng)不斷將用新語料訓(xùn)練得到的算法模型進(jìn)行集成，標(biāo)注系統(tǒng)以循環(huán)迭代的方式得到擴(kuò)展和優(yōu)化。

以智能語料標(biāo)注系統(tǒng)以建行業(yè)務(wù)語料為基礎(chǔ)，將訓(xùn)練出的算法模型集成，經(jīng)過迭代后可以自動對中行語料進(jìn)行標(biāo)注為例，循環(huán)迭代的智能語料標(biāo)注系統(tǒng)實(shí)現(xiàn)步驟如圖4 所示。

步驟1，確定第一批銀行A的業(yè)務(wù)語料；

步驟2，形成銀行A的語料訓(xùn)練集；

步驟3，基于銀行A的語料訓(xùn)練集訓(xùn)練生成算法模型，嵌入智能標(biāo)注系統(tǒng)中；

步驟4，第二批銀行B的業(yè)務(wù)語料需要進(jìn)行標(biāo)注時，判斷銀行A 和銀行B的業(yè)務(wù)語料同屬于銀行領(lǐng)域的語料，屬于同一領(lǐng)域的不同子類，大部分業(yè)務(wù)用語、詞匯相似，于是將銀行B的業(yè)務(wù)語料輸入智能標(biāo)注系統(tǒng)中進(jìn)行自動化標(biāo)注。根據(jù)需要自動標(biāo)注的語料規(guī)模，可考慮部署分布式智能標(biāo)注系統(tǒng)。

步驟5，對于銀行B的業(yè)務(wù)語料中，無法通過智能標(biāo)注系統(tǒng)中的算法模型自動標(biāo)注的部分，形成X 語料’，人工對X 語料’進(jìn)行標(biāo)注，此時大大降低了人工標(biāo)注的工作量和耗時。人工標(biāo)注的結(jié)果形成第二批訓(xùn)練集，再次執(zhí)行步驟2、步驟3，從而實(shí)現(xiàn)了算法模型的更新，智能標(biāo)注系統(tǒng)得到第二次優(yōu)化和擴(kuò)充。

步驟6，當(dāng)?shù)谌y行X的業(yè)務(wù)語料需要標(biāo)注時，重復(fù)步驟4 中的操作，從而實(shí)現(xiàn)了算法模型的更新，智能標(biāo)注系統(tǒng)得到再一次優(yōu)化和擴(kuò)充。

步驟7，當(dāng)?shù)谒呐畴娚痰目头Z料需要進(jìn)行標(biāo)注時，判斷電商的客服語料和已人工標(biāo)注過的銀行語料不是同一領(lǐng)域的語料，用語、詞匯差異很大，于是人工對某電商客服語料進(jìn)行標(biāo)注。形成第四批訓(xùn)練集，再次執(zhí)行步驟2、步驟3，從而實(shí)現(xiàn)了算法模型的更新，智能標(biāo)注系統(tǒng)得到第四次優(yōu)化和擴(kuò)充。

步驟8，當(dāng)?shù)谖迮娚蘕的客服語料需要標(biāo)注時，重復(fù)步驟4 中的操作，從而實(shí)現(xiàn)了算法模型的更新，智能標(biāo)注系統(tǒng)得到第五次優(yōu)化和擴(kuò)充。

如果需要對同領(lǐng)域同子類型的語料進(jìn)行標(biāo)注，使用智能標(biāo)注系統(tǒng)對這些語料進(jìn)行自動化標(biāo)注，如果智能標(biāo)注系統(tǒng)已經(jīng)過多輪迭代和優(yōu)化擴(kuò)充，這批語料理論上可以完全實(shí)現(xiàn)自動化標(biāo)注且準(zhǔn)確率達(dá)標(biāo)。

分析智能標(biāo)注系統(tǒng)對同領(lǐng)域不同子類、同領(lǐng)域相同子類新語料的自動化標(biāo)注比例和準(zhǔn)確率，可以判斷是否需要收集更多更豐富的語料來繼續(xù)訓(xùn)練算法模型。

4 總結(jié)

本文研究并提供了一種人工智能認(rèn)知智能領(lǐng)域的語料標(biāo)注方法和系統(tǒng)，首先確定已生成的算法模型，根據(jù)算法模型對待標(biāo)注語料集中的語料進(jìn)行標(biāo)注；基于標(biāo)注結(jié)果生成對應(yīng)的訓(xùn)練集，通過訓(xùn)練集更新算法模型，用于下一次語料標(biāo)注。通過本文舉例實(shí)施例的實(shí)施，以每一次標(biāo)注后的結(jié)果來更新算法模型，從而大大減少了人工標(biāo)注的工作量，同時也提升了標(biāo)注的一致性和準(zhǔn)確性。

每當(dāng)一批新語料需要進(jìn)行標(biāo)注時，人工判斷這批新語料是否屬于現(xiàn)有領(lǐng)域及子類，如果屬于現(xiàn)有領(lǐng)域的新子類，則用標(biāo)注系統(tǒng)自動標(biāo)注，并篩選出系統(tǒng)無法覆蓋到的未實(shí)現(xiàn)自動標(biāo)注的語句進(jìn)行人工標(biāo)注；如果屬于新領(lǐng)域的語料則直接進(jìn)行人工標(biāo)注。

根據(jù)實(shí)現(xiàn)自動標(biāo)注的語料所占新語料的百分比，結(jié)合標(biāo)注系統(tǒng)對現(xiàn)有領(lǐng)域新子類語料歷次能實(shí)現(xiàn)自動化標(biāo)注比例經(jīng)驗(yàn)值及標(biāo)注準(zhǔn)確率，及人工對這批新語料類別的判斷，可分析出當(dāng)前該標(biāo)注系統(tǒng)在某領(lǐng)域某子類的自動化標(biāo)注能力是否達(dá)標(biāo)，是否需要更多的該領(lǐng)域語料來訓(xùn)練算法。

如果需要自動標(biāo)注的語料規(guī)模較大，該智能標(biāo)注系統(tǒng)可考慮分布式部署。