亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學習模型的非結構化數(shù)據(jù)標注方法研究

        2020-07-09 11:14:20普措才仁秦亞紅
        關鍵詞:用戶模型

        普措才仁,秦亞紅

        (西北民族大學 數(shù)學與計算機科學學院,甘肅 蘭州 730030)

        0 引言

        隨著開發(fā)文本和圖像自動分析深度學習方法的發(fā)展,要求創(chuàng)建大型、密集注釋的訓練數(shù)據(jù)集,通常由Amazon Mechanical Turk的人工標記.雖然通過非結構化數(shù)據(jù)包獲取數(shù)據(jù)集注釋可以創(chuàng)建由人類審核的黃金標準標簽,但這是一個耗時且昂貴的過程,例如,Visual Genome數(shù)據(jù)集包含了100 k多個圖像的密集注釋,包含了33 000多名有報酬的工人六個多月的時間[1-2].隨著對大型標記數(shù)據(jù)集的需求不斷增加,迫切需要對非結構化數(shù)據(jù)包注釋進行準確和高效的評估.本文探索了深度學習和自然語言處理技術對于非結構化眾包數(shù)據(jù)標簽中自動識別用戶混淆的應用.數(shù)據(jù)集包含圖像、計算機生成的針對每幅圖像的問題以及社交媒體用戶的響應.如果(1)響應包含不正確或不相關的答案,(2)無法從給定的圖像回答問題,則確定用戶響應顯示出混淆.

        數(shù)據(jù)的初步分析表明,評估人員通??梢栽诓徊殚喯鄳獔D像的情況下準確地識別反應中的混淆[1].因此,為了研究圖像特征在分類器性能中的作用,本文將混淆檢測問題分為兩個子任務:①視覺問題響應(VQR),包括分析問題、用戶的反應和圖像特征;②問題響應(QR),完全依賴于問題和回答.對于每個任務,首先通過預測二進制標簽來執(zhí)行混淆的二進制分類0表示正確答案的存在,1表示上述定義的混淆;然后,從非結構化響應文本中識別出正確的答案.

        創(chuàng)建用于評估非結構化數(shù)據(jù)包標簽準確性的自動化方法,能夠大大改善現(xiàn)代深度學習工作流范式,減少對非結構化數(shù)據(jù)包數(shù)據(jù)進行手動質(zhì)量分析的需要,并允許在社交媒體平臺上使用用戶的注釋.

        1 相關工作

        本文將討論使用圖像特征和文本嵌入對數(shù)據(jù)進行分類的相關方法.

        1.1 視覺問題響應(VQR)任務

        微軟研究公司2017年進行的一項研究提出了一種自下而上和自上而下相結合的注意機制,從圖像中提取特征[3-4]:①一個更快的R-CNN模型被用來識別突出的特征(自下而上);②問題文本用作上下文來衡量這些特性(自上而下).從問題文本中提取特征并與圖像特征相結合,生成圖像和問題的聯(lián)合嵌入.

        Pythia是由Facebook AI Research設計的一個模型,它是2018年視覺問答挑戰(zhàn)(VQA)的一個項目,它在VQA_v2.0數(shù)據(jù)集上達到最高性能(準確率為72.27%).Pythia使用自下而上和自上而下的注意模型作為基線,進行了一系列關鍵的修改,例如注意機制的改變和基于特征金字塔網(wǎng)絡的檢測器進行特征提取的使用[7,8,16].Pythia模型為跨圖像和文本數(shù)據(jù)組合特征提供了一種有效的方法,由此發(fā)現(xiàn)它是VQR任務的一個合適的起點.然而,由于本文任務的性質(zhì),有必要做出重大修改.

        1.2 問題響應(QR)任務

        經(jīng)過預先訓練的上下文詞表示已經(jīng)被證明可以提高機器對語言的理解[17,10].Google AI在2018年進行的一項研究中,提出了一種新的轉換學習方法,稱為BERT(Transformers的雙向編碼器表示),用于生成單詞的上下文編碼.BERT方法是一種無監(jiān)督的學習方法,它涉及到使用轉換器訓練一個深度雙向語言模型,然后在其他NLP任務中使用學習編碼.

        QR任務依賴于來自問題和用戶響應的基于文本的特性,因此發(fā)現(xiàn)BERT方法是一個合適的起點。由于QR任務不同于標準NLP任務(如問答預測),因此對其自定義化是必須的.

        2 數(shù)據(jù)與方法

        2.1 數(shù)據(jù)

        本文的數(shù)據(jù)包括從社交媒體獲取的50 628個圖像—問題—回答三組.在Instagram上上傳公共照片的用戶,會被機器人根據(jù)照片的特征來提問,并收集用戶的回答,然后收入這個數(shù)據(jù)集.用戶響應以非結構化自然語言數(shù)據(jù)的形式出現(xiàn),包括口語、拼寫錯誤和表情符號.回復的平均長度為35.9個字符或6.8個單詞.本文的數(shù)據(jù)集中的所有三組信息都由Amazon Turk工作人員手工標注的真實答案.首先分配二進制標簽來表示用戶響應中是否存在混淆,如果AmazonTurk注解器無法在用戶響應中識別正確的答案,則分配一個標簽為1,否則指定標簽為0.然后,給所有具有準確的用戶響應(標簽=0)示例添加附加注釋,以便于識別非結構化響應中正確的答案短語.在本研究過程中設計了一個自定義的、能識別表情符號的標識器,用于從響應中提取標識.然后,用答案跨度對所有示例進行注釋,包括關于響應標記化的真實答案的起始和結束索引.由于研究過程中所使用數(shù)據(jù)集中的真實答案是人工編寫的,因此存在相當大的噪音.在許多情況下,真實答案并不是用戶響應的精確匹配或子字符串.因此,采用模糊字符串匹配算法進行跨度識別.在設計標記化和SPAN提取方法方面進行了大量的開發(fā)工作,以解決各種邊緣情況(在非結構化響應中非常常見).在某些情況下,盡管在上一步中被標記為“不混淆”(標簽=0),但在用戶響應中找不到真實答案.這些示例已從數(shù)據(jù)集中刪除[3-5].

        2.2 方法

        2.2.1 基線模型

        本文設計了兩個基線模型來識別用戶通過問題和響應評估基于文本的特征進行二進制預測,而沒有考慮圖像特征[6,7,16].

        對于研究過程中最初的基線方法,設計了一個單詞包模型.問題和響應的樸素標記是基于空格字符執(zhí)行,并從訓練集中出現(xiàn)的10 000個最頻繁的單詞中生成固定詞匯表,然后將所有問題和響應編碼為10 000大小的字袋頻率矢量.問題和響應向量在被連接并通過最終完全連接層和sigmoid非線性之前,通過分離全連通層和ReLU非線性逐個傳遞,這導致單個值表示混淆的概率.

        第二個基線模型涉及到一個更復雜的神經(jīng)模型以及一種不同的輸入編碼方法的使用,再一次執(zhí)行樸素標記化.問題和用戶響應中的每個標記都用300維GloVe向量或300維emoji2向量表示[15,6].然后,編碼問題和用戶響應通過分離單層的單向的LSTMs傳遞[9].LSTMs的最終隱藏狀態(tài)被連接起來,并通過一個全連接層和一個退出層傳遞.最后,將sigmoid非線性應用于輸出,以獲得混淆的概率.

        2.2.2 視覺問題響應(VQR)

        Pythia模型是一個有效的起點,但對執(zhí)行VQR任務來說,重大的結構改變是必要的.鑒于Pythia預測給定圖像和問題的答案標簽,本文的模型使用圖像—問題—響應三種方法來預測響應是否包含對基于圖片問題的正確答案.另一個重要的問題是自然語言與格式化輸入之間的區(qū)別.Pythia模型和標準的可視問題響應數(shù)據(jù)集僅用于處理格式化的答案(例如“表格”).另一方面,VQR數(shù)據(jù)集使用自然語言響應,例如“是的,這是我祖母的桌子.”

        本文對Pythia體系結構的第一個修改是輸入數(shù)據(jù)的映射,將數(shù)據(jù)集轉換為COCO格式,成為標簽和響應添加字段(如圖1所示).與此同時,開發(fā)了一個自定義標識程序來處理非結構化輸入,用來解決格式文本數(shù)據(jù)中通常不存在的各種邊緣情況.例如,許多響應包含沒有分隔空格的表情符號和標點符號.通過標記程序處理這些情況,以避免字嵌入的不必要使用.接下來,探索了兩種類型的單詞嵌入編碼問題和響應:①一個300維GLoVe和emoji2向量嵌入的組合;②300維FastText嵌入.Facebook Detectron軟件包中一個預處理的快速R-CNN模型被用來從所有特征的圖片中提取特征.

        圖1 VQR數(shù)據(jù)集格式

        VQR數(shù)據(jù)集在單個JSON條目中使用的自定義格式,以Microsoft COCO數(shù)據(jù)集為模型[4].

        為了處理用戶響應,向Pythia體系結構添加了一個重要的擴展,如圖1所示.首先,生成用戶響應的單詞嵌入.然后,編碼通過大小為1 028的退出層之后的兩個卷積層和最后的一個Softmax層的隱藏狀態(tài)的LSTM傳遞.在獲得用戶響應的編碼后,將每個表示傳遞給單個線性層和ReLU非線性,生成圖像、問題和響應嵌入的聯(lián)合嵌入,然后計算一個加權的Hadamard乘積.在下面的方程中,e表示聯(lián)合嵌入,f表示線性層,i表示圖像代表,q和r表示問題和響應嵌入.

        e=(2*fi(i))°(0.5*fq(q))°(0.5*fr(r))

        (1)

        對于二進制分類,用修改Pythia模型來產(chǎn)生單類輸出.通過三個線性層的聯(lián)合嵌入,組合輸出,并對結果進行sigmoid非線性化操作.然后,這個張量通過一個線性層和第二個sigmoid非線性輸出.分類器的輸出值為0?y∧?10,表示用戶混淆的概率.計算加權的BCE損失,并按類別比率分配權重.

        對于答案預測,Pythia模型進行了修改,以預測用戶響應中真實答案的開始和結束索引.節(jié)點嵌入通過三個獨立的非線性層(每個層由一個線性層和ReLU非線性層組成)和三個線性層.然后,將輸出組合起來并通過兩個額外的線性層傳遞,最后對輸出應用一個Softmax激活函數(shù).兩個由此產(chǎn)生的張量大小為30,表示響應中的最大標記數(shù),第一個張量表示可能是答案跨度開始的指數(shù)之間的概率分布.同樣,第二個張量表示可能是答案跨度結束的指數(shù)之間的概率分布.最后計算預測范圍內(nèi)的BCE損失.

        2.2.3 問題響應(QR)

        BERT體系結構是QR任務的有效起點.本文所使用的模型建立在GoogleAI預訓練的BERT的開源模型基礎上.對于二進制分類,來自BERT模型的集合輸出通過一個退出層和一個全連接的層傳遞,產(chǎn)生兩個輸出類.之后,應用Softmax激活函數(shù).第一個類的輸出結果值代表用戶給出正確答案的概率,而第二類的值表示用戶混淆的概率.這樣做是為了模仿BERT現(xiàn)有的分類結構.實際上,AUC-ROC是僅根據(jù)第二類的輸出計算的[10-11].

        (a) 二進制分類的VQR模型

        (b) 答案預測的VQR模型

        圖2所示,初始的Pythia體系結構用淺灰色(如圖a中的最上方字詞嵌入背景色)顯示.本文的自定義用深灰色(如圖a中中間字詞嵌入背景色)顯示.對于答案預測,編碼隱藏狀態(tài)與最后一個通過單一的全連接層的注意塊相對應.這使得兩個輸出類表示響應標記中的索引.第一個值表示答案跨度的開始索引,第二個值表示結束索引.由于BERT執(zhí)行子字標記化,所以必須在預測的輸出索引和字級響應標記之間進行對齊.

        如圖3所示,本文還設計了一個基于BERT體系結構的多任務模型,同時對兩個任務進行訓練,對BERT結構的修改是灰色的(如圖a中丟棄層的背景色).對于數(shù)據(jù)集中的每個示例,該模型識別出用戶混淆,并預測答案范圍,將兩個任務的損失值組合在一起.但是,在用戶響應顯示混淆的情況下(因此沒有相關的答案跨度),跨度提取的損失值被手動設置為0.因此,頭部提取的答案只對有效的響應更新.

        (a) 二進制分類的QR模型 (b) 答案預測的QR模型

        圖3 QR二進制分類和答案預測的模型結構

        3 實驗設計與結果

        3.1 評估方法

        本文通過計算精度、查全率、f1分數(shù)和AUC-ROC分數(shù)來評估二進制分類任務的性能.答案提取任務的表現(xiàn)用f1和精確匹配(Emm)分數(shù)進行評估,并遵循SQuAD挑戰(zhàn)賽制定的標準[12].在質(zhì)量上,本文探討了模型所做的正確和錯誤的預測,發(fā)現(xiàn)研究過程中使用的模型產(chǎn)生了令人驚訝的結果.由于這個數(shù)據(jù)集以前還沒有發(fā)布,所以本次研究的分數(shù)是這個數(shù)據(jù)集上第一個現(xiàn)有的執(zhí)行者[13-14].

        3.2 實驗設計

        對于單詞包基線,本文使用學習率為0.001和默認參數(shù)(β1=0.9,β2=0.99)的Adam優(yōu)化器對模型進行了三次以上大小為16批次的迭代訓練.該模型的總訓練時間為10小時.對于使用預先訓練過的GloVe詞嵌入的基線,再次使用學習速率為0.001、默認參數(shù)(β1=0.9,β2=0.99)的Adam優(yōu)化器,對模型進行了大小為32批次的五次迭代訓練.訓練這個模型大概花了18個小時.

        對基于Pythia的VQR方法,首先使用一個快速R-CNN模型對所有圖像進行預處理,以提取特征.完成這個過程需要花費四天時間.使用學習率為0.0001的Adamax優(yōu)化器,對大小為32的批量處理的模型進行了超過12 000次的迭代訓練.在顯著優(yōu)化代碼庫和預處理輸入數(shù)據(jù)之后,所耗費的訓練時間減少了4倍,只有88分鐘.

        對基于BERT的QR方法,對模型進行了10次以上的大小為32批次的迭代訓練,大約花費了一個小時.這時使用的是5e-5的默認BERT訓練速率的Adam優(yōu)化器.因為BERT需要一個最大的序列長度,所以執(zhí)行一個自定義修整方法以適應當前使用的數(shù)據(jù)集,將組合的最大序列長度設為50.但這表示子字標記化后的標記的合并總數(shù),因此有幾個示例超過了最大長度.在這些情況下,修整方法隨機選擇一個響應窗口,這樣就包含了基本的真實答案,而丟棄了其余的響應.如果用戶響應不包含真實答案,則會選擇一個隨機窗口.

        3.3 實驗結果

        表1 用于二進制分類和答案預測任務的延遲測試集模型性能比較

        該模型在測試集上實現(xiàn)了AUC-ROC值為0.75(精度=0.37,查全率=0.38).使用預先訓練過的GloVe詞嵌入的基線在測試集上得到的AUC-ROC值為0.74(精確度=0.62,查全率=0.46).然而,這個基線模型在訓練集上只實現(xiàn)了0.774的AUC-ROC.這表明該模型不足以對所有復雜的數(shù)據(jù)進行建模.此外,這兩個基線的訓練時間比VQR和QR模型要長得多.

        4 總結

        本文描述了兩種眾包數(shù)據(jù)標簽的質(zhì)量評估和從非結構化響應文本中提取正確答案的深度學習方法.這個項目第一次用這兩種方法設計來識別混淆的模型標識.結果表明,本文的研究在解決VQR任務方面對Pythia進行自定義時有效,并且能夠設計有效識別反應中混亂的模型(AUC-ROC=0.79),并提取答案(F1=0.46).

        猜你喜歡
        用戶模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權M-估計的漸近分布
        關注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        3D打印中的模型分割與打包
        關注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        FLUKA幾何模型到CAD幾何模型轉換方法初步研究
        Camera360:拍出5億用戶
        100萬用戶
        精品国产一区二区三区男人吃奶| 欧美日本国产va高清cabal| 天堂网在线最新版www中文网| 久久久伊人影院| 涩涩国产在线不卡无码| 男女啦啦啦视频在线观看| 国产精品成人一区二区在线不卡| 国产亚洲视频在线播放| 国产成年女人毛片80s网站| 婷婷久久久亚洲欧洲日产国码av| 美女视频一区| 亚洲无AV码一区二区三区| 亚洲处破女av一区二区| 男女做那个视频网站国产| 色欲一区二区三区精品a片| 日本高清视频xxxxx| 亚洲精品无码不卡av| 亚洲偷自拍另类图片二区| 视频网站在线观看不卡| 国产女人av一级一区二区三区 | 亚洲无精品一区二区在线观看| 久久成人成狠狠爱综合网| 十八18禁国产精品www| 久久天天躁狠狠躁夜夜爽| 亚洲av日韩av一卡二卡| 国产黄三级三级三级三级一区二区| 三上悠亚亚洲精品一区| 成 人片 黄 色 大 片| 国产亚洲精品aaaa片小说| 欧美成人三级一区二区在线观看 | 精品人妻无码视频中文字幕一区二区三区 | 中文字幕一区二区三区久久网站| 亚洲Va欧美va国产综合| 久久一区二区三区不卡| 日本一区中文字幕在线播放| 青青草在线免费播放视频| 国产成人精品999视频| 精品久久久中文字幕人妻| 无码免费人妻超级碰碰碰碰| 亚洲av粉嫩性色av| 国产三级精品三级在线专区|