亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多通道卷積神經(jīng)網(wǎng)絡的非結構化數(shù)據(jù)標注

        2021-11-17 08:37:16米啟超趙紅梅林麗萍
        計算機仿真 2021年6期
        關鍵詞:結構化標簽卷積

        米啟超,趙紅梅,林麗萍

        (1. 河南城建學院電氣與控制工程學院,河南 平頂 467036;2. 西安交通大學化工學院,山西 西安 710049)

        1 引言

        早期的數(shù)據(jù)標注工作中,所標注的數(shù)據(jù)通常由相關領域內(nèi)的專家,或使用計算機進行標注。雖然可以保證標注質(zhì)量,但往往效率低下,延誤研究,同時成本較高[1-2]。眾包模式下,大任務較為復雜,通過拆分成小任務的方式降低復雜度,依據(jù)互聯(lián)網(wǎng)接口,網(wǎng)絡用戶得以使用,通過零散時間即可完成小任務,獲取報酬。眾包模式可以充分體現(xiàn)群眾智慧,潛能巨大,具有較為重要的商業(yè)價值,利用群體智慧,解決社會資源冗余問題。

        基于此原因,提出了眾包標注方法,該方法通過較高的任務開放性,提高了標注速度,并降低了成本[3-5]。但該方法標注質(zhì)量較低,需要依賴算法和函數(shù)來添加眾表標注的標簽,來改善標注數(shù)據(jù)的質(zhì)量,需要確定標注中的任務函數(shù),并建立相關模型。早期研究者采用EM算法,對標注者進行混淆矩陣計算,后續(xù)又采取了RY真值推斷算法,并利用其中的敏感性參數(shù)來提高標注任務函數(shù)的準確度[6-8]。但該方法無法具體的體現(xiàn)出標注者的差異性,獲取的標注函數(shù)可靠性不高。而考慮到標注者的特性和差異性問題,運用多通道卷積神經(jīng)網(wǎng)絡技術,可以對其進行深入的運算,具有較高的研究前景。

        2 基于多通道卷積神經(jīng)網(wǎng)絡的非結構化數(shù)據(jù)標注方法設計

        2.1 非結構化數(shù)據(jù)查詢處理

        在進行標注之前,需要對所需標注的數(shù)據(jù)進行確認查詢處理,確定與被標注數(shù)據(jù)的關聯(lián)數(shù)據(jù),避免出現(xiàn)漏標或錯標[9-10]。在進行非結構化的數(shù)據(jù)查詢處理中,采用Hive分布式查詢框架進行數(shù)據(jù)查詢處理??蚣芙Y構如圖1所示。

        圖1 Hive查詢框架結構示意圖

        如圖1所示,圖一中Driver模塊對非結構化數(shù)據(jù)進行編譯,并優(yōu)化其中的執(zhí)行語句。而Compiler模塊由Driver模塊進行控制和調(diào)用,并將獲取到執(zhí)行語句轉(zhuǎn)為MapReduce執(zhí)行策略,轉(zhuǎn)換完成后傳輸回Driver模塊中。而Hadoop模塊作為策略的執(zhí)行引擎,通過Dricver將從MapReduce策略數(shù)據(jù)導入至Hadoop中,并進行查詢。并設置Compiler將獲取到的數(shù)據(jù)轉(zhuǎn)換至一組一元操作符,并獲取到抽象語法樹,然后利用框架中的Semantic Analyzer對語法書中數(shù)據(jù)進行語法分析。同時利用相似性檢索技術進行查詢,通過給定的元素(在本文中,該元素為需要進行標注的數(shù)據(jù)),并尋找其中相似的元素,數(shù)據(jù)集設為A而查詢元素則設為s,相似性檢索即為

        SS(A,s)={a|θs(a,b),a∈A}

        (1)

        其中,不同集合下的相似度計算則如下所示

        (2)

        其中SimJaccard(S,T)的結果代表集合S以及集合T的相似度,|S∩T|代表集合S與集合T之間的交集,|S∩T|則代表集合S與集合T之間的并集。通過對其中標注數(shù)據(jù)相似度的查詢,確定標注數(shù)據(jù)有關信息,利于開展進一步的標注。

        2.2 眾包標注集

        (3)

        (4)

        通過式(4)可以將標注任務形式化,但通過該方法后,標注時對標注者沒有體現(xiàn)出差異性,因此需要對其進行進一步的推算。

        2.3 多通道卷積神經(jīng)網(wǎng)絡差異性識別

        利用多通道卷積神經(jīng)網(wǎng)絡對其中的神經(jīng)元結構帶入標注任務和標注者,并得出其中的最適應標注任務分配,同時給出不同標注者的差異性[11-12]。根據(jù)卷積神經(jīng)網(wǎng)絡的結構,得到網(wǎng)絡輸出公式h,公式為

        (5)

        在式(5)中,xi代表神經(jīng)元中的第i個輸入,wi代表在神經(jīng)元中的第i個輸入權重,b代表偏置值,f代表神經(jīng)元激活函數(shù),h代表輸出公式。當其中的WTx的結果作為線性結果,同時其中的激活函數(shù)引入了WTx的結果映射。而在多通道的卷積神經(jīng)元網(wǎng)絡中,假設其中網(wǎng)絡的輸入值為x,網(wǎng)絡中的權值矩陣為w以及偏置矩陣則為b,輸出為hw,b,在網(wǎng)絡進行反向傳播中,將網(wǎng)絡中的期望輸出值設為y(x)。所訓練的樣本個數(shù)為n,根據(jù)網(wǎng)絡反向傳播理論,在反向傳播中會出現(xiàn)損失函數(shù),本文將損失函數(shù)設為E,則損失函數(shù)在神經(jīng)網(wǎng)絡中的平方誤差為

        (6)

        而在網(wǎng)絡的訓練中,需要首先對其中的權重值w以及偏置值b進行初始化。而在訓練中,由于選取了反向傳播來帶入標注指示函數(shù),并對神經(jīng)網(wǎng)絡中的參數(shù)進行更新,而在該過程中,網(wǎng)絡呈梯度下降的過程,如下圖所示:

        圖2 神經(jīng)網(wǎng)絡中的梯度下降圖

        根據(jù)在多通道卷積神經(jīng)網(wǎng)絡的梯度下降理論,可以根據(jù)梯度下降方向得出的神經(jīng)網(wǎng)絡的權重值w以及偏置值b,并更新得出的w以及b值。獲得的更新公式如下

        (7)

        (8)

        2.4 任務標注模型

        (9)

        在(9)中αk系數(shù)代表標注值能力的系數(shù),βi系數(shù)代表標注任務的難度,而當其中的βi參數(shù)為固定參數(shù),而αk數(shù)值越大則反映標注者的標注能力越好。而當αk數(shù)值為0時,說明該任務里,標注者的正確標注概率僅為50%。而通過將雙標簽任務擴展到多標簽任務標注中時,首先假設一共存在J種標注類型,并建立標注集合C={cj|j=1,2,3,…,J}來表示,而當標注目標i的標注真值為m時,則該標注者k的標注正確率為

        (10)

        (11)

        在式(11)中,存在的隱變量T的和對數(shù),運用Q函數(shù),而在累加形式下,表示出期望狀態(tài),代表了完全數(shù)據(jù)下的標注似然函數(shù)InP(V,T|θ),而其中的觀測數(shù)據(jù)V在對估計參數(shù)θn下的為觀測數(shù)據(jù)T的后驗概率分布P(T|V,θn)的期望值

        (12)

        由此得出在(12)中,算法的迭代過程等價與Q(θ,θn)函數(shù)。借由此得出標注函數(shù)的解值,根據(jù)解值,確定標注模型參數(shù),依據(jù)標注模型完成數(shù)據(jù)標注方法設計。

        3 實驗論證分析

        為了測試本文設計的非結構化數(shù)據(jù)標注方法的有效性,本文選取了Airfares、Music、Hotel以及Books等4個領域中的非結構化數(shù)據(jù),共160個WDB數(shù)據(jù)集,進行標注統(tǒng)計分析。并與文獻[1]、文獻[2]中的標注方法進行對比實驗。

        表1 硬件配置表

        3.1 實驗標注數(shù)據(jù)

        由于目前對非結構化數(shù)據(jù)標注方法缺乏相關的測試標注設計,因此本文數(shù)據(jù)資源通過搜索引擎下載獲得,實驗中使用的數(shù)據(jù)集情況如下表2所示。

        表2 實驗測試數(shù)據(jù)集

        為了減低實驗困難程度,閾值標注通過專家給定,黃金標簽個數(shù)為1000個,經(jīng)過深度學習進行標簽預處理操作,標注對象個數(shù)為11270個,實驗共收集10名標注者信息,判斷修改標簽域與標簽值。

        3.2 實驗評價標準

        在進行數(shù)據(jù)標注中,標注的基準值是通過手工方式得出的數(shù)據(jù)標注結果,并計算其中的標注正確率、召回率以及F-measure數(shù)值來進行評價。

        而標注正確率代表正確標注的數(shù)據(jù)塊個數(shù)以及經(jīng)過查詢得出的數(shù)據(jù)個數(shù)比值召回率代表在標注時得到的正確標注數(shù)據(jù)個數(shù)和查詢得到數(shù)據(jù)塊個數(shù)比值。而F-measure則代表標準的數(shù)據(jù)標注能力評判值,數(shù)值越接近100%,代表性能越優(yōu)秀。本文實驗將運用上述中的三種指標進行實驗結果評價。

        3.3 實驗結果

        在運用數(shù)據(jù)標注方法實驗中使用的數(shù)據(jù)集分別進行數(shù)據(jù)標注后,對獲得的標注結果進行評價。獲得的標注結果如表3所示。

        表3 標注方法間的性能比較表

        依據(jù)表3中的數(shù)據(jù)中可以發(fā)現(xiàn),本文設計的數(shù)據(jù)標注方法在標注的正確率、召回率以及F-measure上均高于其它標注方法。證明本文設計的數(shù)據(jù)標注方法存在較高的可行性。

        為直觀判斷標注效果,在對象標注界面中,包括了標注者當前任務完成情況,當前可選擇標注的標簽,以及待標注的圖片,標注者只需先選中標簽,就可以在圖片中快速框選對象,并為對象打上此標簽。 對象判斷任務中,用戶可以判斷此標簽是否包含有效的對象。

        圖3 標注對象圖

        邊框調(diào)整模塊可以對標簽范圍框進行調(diào)整,將內(nèi)邊距較大的標注范圍框調(diào)整為緊貼標注對象,提高標注質(zhì)量。

        圖4展示了標注者的標注點分布,以及通過 原始聚類和本文卷積神經(jīng)網(wǎng)絡的聚類效果對比。

        圖4 聚類算法效果圖

        由上圖可以看出,本文方法聚類效果較好,標注對象選中密度較大,傳統(tǒng)方法的標簽域范圍較大。主要原因在于本文方法建立Hive分布式查詢框架,對其中與標注目標相關的數(shù)據(jù)進行相似性查找,同時建立眾包標注集,確定相關標注概念。對標注集中的標注差異性,利用多通道卷積神經(jīng)網(wǎng)絡對其差異性進行確認,提高了標注準去率。

        4 結束語

        在本文中,利用多通道卷積神經(jīng)網(wǎng)絡技術,對標注者的差異性進行了深入挖掘,獲得了標注任務函數(shù),并根據(jù)函數(shù)建立了任務標注模型,得出了非結構化的數(shù)據(jù)標注方法,該方法下標注質(zhì)量較高性能較好。但本文研究中,只考慮了對標注者給出的任務標簽數(shù)據(jù)的情況,而在實際中,往往會提供額外的特征信息條件。因此后續(xù)的研究中,將會研究與額外的數(shù)據(jù)標注信息進行結合,進一步改善數(shù)據(jù)標注質(zhì)量。

        猜你喜歡
        結構化標簽卷積
        基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
        促進知識結構化的主題式復習初探
        結構化面試方法在研究生復試中的應用
        計算機教育(2020年5期)2020-07-24 08:53:00
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        無懼標簽 Alfa Romeo Giulia 200HP
        車迷(2018年11期)2018-08-30 03:20:32
        不害怕撕掉標簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        基于傅里葉域卷積表示的目標跟蹤算法
        標簽化傷害了誰
        基于圖模型的通用半結構化數(shù)據(jù)檢索
        計算機工程(2015年8期)2015-07-03 12:20:35
        基于多進制查詢樹的多標簽識別方法
        計算機工程(2015年8期)2015-07-03 12:20:27
        国产精品毛片99久久久久| 乌克兰少妇xxxx做受野外| 亚洲第一成人网站| 国产在线观看免费一级| 日本一区二区三区综合视频| 中文区中文字幕免费看| 国产99久久精品一区二区| 精品囯产成人国产在线观看| 国产av一区仑乱久久精品| 国产91清纯白嫩初高中在线观看| 欧美日韩国产码高清综合人成| 日本精品a在线观看| 国产精品三级1区2区3区| 美女人妻中出日本人妻| 国产一区二区女内射| 欧美一区波多野结衣第一页| av网站可以直接看的| 日本激情网站中文字幕| 国产成本人片无码免费2020| 国产丝袜在线精品丝袜不卡| 色佬易精品视频免费在线观看| 久久天天躁狠狠躁夜夜av浪潮| 亚洲一线二线三线写真| 岛国精品一区二区三区| 久久国产精品国语对白| 中国美女a级毛片| 中文字幕 人妻熟女| 亚洲国产免费公开在线视频| 好看的日韩精品视频在线 | 美女脱了内裤洗澡视频| 久久久久亚洲av成人无码| 精品手机在线视频| 精品久久一区二区av| 久久久亚洲av波多野结衣| 亚洲精品无码久久久久sm| 精品黄色av一区二区三区| 户外精品一区二区三区| 无码人妻精品一区二区在线视频| 五月婷婷激情六月| 经典黄色一区二区三区| 免费视频成人片在线观看|