亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        利用深度學(xué)習(xí)對托福聽力部分進(jìn)行機(jī)器理解

        2021-01-28 03:35:42胡蓉田時(shí)宇
        微型電腦應(yīng)用 2021年1期
        關(guān)鍵詞:短語注意力機(jī)器

        胡蓉, 田時(shí)宇

        (湖南信息學(xué)院 通識教育學(xué)院, 湖南 長沙 410151)

        0 引言

        隨著共享視頻、社交網(wǎng)絡(luò)和在線課程等的普及,多媒體或音頻內(nèi)容的數(shù)量增長速度遠(yuǎn)遠(yuǎn)快于人們可以觀看或收聽的內(nèi)容。用戶可以輕松地瀏覽文本,但音頻內(nèi)容則不是這樣,因?yàn)樗鼈儾荒苤苯语@示在屏幕上,因此,訪問大量的多媒體或音頻內(nèi)容對人類來說是困難和耗時(shí)的。因此,利用機(jī)器實(shí)現(xiàn)自動理解語音內(nèi)容,并為人類提取甚至可視化關(guān)鍵信息是非常必要的。盡管文本和視覺內(nèi)容的機(jī)器理解已經(jīng)得到了廣泛的研究,但是口語內(nèi)容的機(jī)器理解仍然是一個研究較少的問題[1-2]。因此本文對口語內(nèi)容的機(jī)器理解進(jìn)行了初步嘗試。

        本文以托??荚嚍檠芯磕繕?biāo),針對托福考試中的聽力部分,利用深度學(xué)習(xí)進(jìn)行機(jī)器理解。本研究提出了一種新的框架TAL,利用基于注意力的Tree-LSTM來構(gòu)造考慮詞序的句子表示[3]。本文利用自然語言的層次結(jié)構(gòu)和注意機(jī)制的選擇能力,證明了該模型優(yōu)于樸素方法和其他基于神經(jīng)網(wǎng)絡(luò)的模型。

        1 對聽力的機(jī)器理解

        1.1 系統(tǒng)架構(gòu)

        TAL網(wǎng)絡(luò)架構(gòu),如圖1所示。

        由圖1可知,模型中有兩個關(guān)鍵模塊:第一個是Tree-LSTM[4],它將句子編碼成連續(xù)的表示形式,由依賴解析器提供層次結(jié)構(gòu),而不是簡單的順序結(jié)構(gòu),因此它利用了人類語言的內(nèi)在屬性;第二個關(guān)鍵模塊是注意模塊(attention module)。在接下來的實(shí)驗(yàn)中,發(fā)現(xiàn)將這兩個模塊結(jié)合在一起比以前僅使用Tree-LSTM和注意力機(jī)制(attention mechanism)更為出色。

        模型不同組件的詳細(xì)信息如下所示。在圖1的左側(cè),基于Tree-LSTM的句子表示模塊用于根據(jù)問題的單詞序列生成問題向量的表示;ASR系統(tǒng)轉(zhuǎn)錄音頻故事,圖1底部的故事模塊以ASR轉(zhuǎn)錄本為輸入,將轉(zhuǎn)錄本中的句子轉(zhuǎn)換成一個向量序列,每個向量代表一個短語或一個句子;注意力模塊在中間,注意機(jī)制可以應(yīng)用多次。在圖的右側(cè),這四個選項(xiàng)也由句子表示模塊表示為向量。最后,評估答案選擇的置信度得分,并生成答案。系統(tǒng)是端到端學(xué)習(xí)的,除了ASR模塊。

        1.2 句子表征

        句子表示模塊的目標(biāo)是通過捕獲句子語義的向量來表示句子。輸入問題Q和選擇C都是一個單詞組成的序列。在句子表示模塊中,問題Q表示為向量VQ0,選擇C表示為VC。一個問題可以由多個句子Si組成,每個句子首先可以表示為VSi。那么問題向量VQ是問題中所有Si的VSi之和。使用遞歸神經(jīng)網(wǎng)絡(luò)Tree-LSTM獲得句子表示。Tree-LSTM基于其子節(jié)點(diǎn)的向量表示為依賴樹中的每個節(jié)點(diǎn)生成向量表示。

        圖1 TAL網(wǎng)絡(luò)架構(gòu)

        1.3 故事表征

        故事抄寫是一個很長的單詞序列,有很多句子。故事模塊的目標(biāo)是將單詞序列表示為一組向量表示O={o1,o2,…,ot},其中ot表示Tree-LSTM的短語或句子。

        短語層次:O={o1,o2,…,ot}中,每個ot是句子的Tree-LSTM中節(jié)點(diǎn)的隱藏狀態(tài),或者每個ot表示一個短語。因此,t大于故事中的句子數(shù)。

        句子層次:每一個ot是故事中某個句子上Tree-LSTM的根節(jié)點(diǎn)的隱藏狀態(tài),或者每一個ot代表一個句子。在這種情況下,t等于句子數(shù)。

        1.4 注意力機(jī)制

        存儲模塊基于從故事模塊獲得的表示來提取故事中與問題VQ相關(guān)的信息。設(shè)O={o1,o2,…,ot}為故事的向量表示集。集合O中的向量首先由嵌入矩陣W(m)和W(c)轉(zhuǎn)換成記憶向量M={m1,m2,…,mt}和證據(jù)向量C={c1,c2,…,ct},如式(1)。

        (1)

        (2)

        (3)

        式中,⊙表示余弦相似性。每個注意權(quán)重αt對應(yīng)于一個證據(jù)向量ct。故事向量Vs是以注意力為權(quán)重的證據(jù)向量ct的加權(quán)和,如式(4)。

        (4)

        式中,Vs可以看作是從音頻故事中提取的與查詢相關(guān)的信息。

        1.5 多跳

        在圖1的左側(cè),首先使用句子表示模塊將輸入問題轉(zhuǎn)換為問題向量VQ0。該VQ0用于計(jì)算注意值αt以獲得故事向量VS1。然后將VQ0和VS1相加形成新的問題向量VQ1。在圖1中,該處理是第一跳(1跳)。第一跳VQ1的輸出可用于計(jì)算新的注意以獲得新的故事向量VS1。這可以被看作是機(jī)器再次遍歷故事,用一個新的問題向量重新聚焦故事。再次,VQ1和VS1相加形成VQ2(2跳)。在n跳(n是預(yù)定義的)之后,最后一跳VQn的輸出將用于下一小節(jié)中的答案選擇。

        1.6 應(yīng)答模塊

        (5)

        2 實(shí)驗(yàn)與評估

        2.1 實(shí)驗(yàn)設(shè)置

        對于聽力評估使用了預(yù)訓(xùn)練的300維GloVe矢量模型[5],以獲得每個單詞的矢量表示。為了減少詞匯量,在這里使用了斯坦福大學(xué)自然語言處理小組[6]的工具來對問題選擇和故事抄寫中的單詞進(jìn)行詞素化。在訓(xùn)練之前,刪減了故事中的那些話語,這些話語的矢量表示與問題之間的余弦距離很遠(yuǎn),刪減話語的百分比由開發(fā)集上模型的性能決定。

        2.2 結(jié)果與評估

        對于前文描述的模型,前向和后向GRU網(wǎng)絡(luò)的隱藏層的大小都是128。為了避免過度擬合,模型中的所有雙向GRU網(wǎng)絡(luò)和樹LSTM共享同一組參數(shù)。使用RmsProp[7],初始學(xué)習(xí)率為1e-5,動量為0.9。輟學(xué)率為0.2。Tree-LSTM的隱藏層大小和內(nèi)存模塊的嵌入大小均為75。使用AdaGrad[8],初始學(xué)習(xí)率為0.002。梯度裁剪的閾值為20,批量大小為40,使用開發(fā)集將跳數(shù)從1調(diào)整到3。

        使用準(zhǔn)確性(正確回答的問題的百分比)作為評估指標(biāo)。在訓(xùn)練集的故事和問題/答案的手動轉(zhuǎn)錄上對模型進(jìn)行了訓(xùn)練,并在測試集(Manual)和ASR轉(zhuǎn)錄(ASR)上進(jìn)行了測試,為了進(jìn)行公平的比較,統(tǒng)計(jì)了10次運(yùn)行的平均準(zhǔn)確度和標(biāo)準(zhǔn)差,如表1所示。

        表1 不同方法比較結(jié)果

        本文提出的TAL分別用于1跳和2跳的短語/句子級的注意力模型,其準(zhǔn)確度比其他方法都要高很多。1跳句子級注意力模型在manual中的平均準(zhǔn)確率最高,達(dá)到49.2%,顯著高于其他方法的結(jié)果;2跳短語級注意模型在ASR結(jié)果中的平均準(zhǔn)確率最高,達(dá)到48.9%,僅略低于1跳。還可以觀察到,增加跳數(shù)會提高短語級注意的表現(xiàn),但不會提高句子級注意的表現(xiàn),這可能是因?yàn)閷τ诙陶Z級推理,模型首先在1跳中選擇關(guān)鍵短語,然后在2跳中根據(jù)這些關(guān)鍵短語改變其注意力。對于句子級推理,在1跳中只選擇了幾個關(guān)鍵句子,而更多的跳則無法找到額外的關(guān)鍵句子。

        令人驚訝的是,ASR錯誤對聽力理解的影響很小。為了進(jìn)一步分析結(jié)果,進(jìn)行了額外的實(shí)驗(yàn)。在測試階段,用一個概率為34.3%(與WER相同)的隨機(jī)詞替換了manual中的每個詞。結(jié)果顯示在標(biāo)有隨機(jī)的列中。通過比較ASR和隨即兩欄的結(jié)果,我們發(fā)現(xiàn)ASR錯誤對聽力理解準(zhǔn)確性的影響小于隨即替換,如表2所示。

        表2 ASR和隨機(jī)的結(jié)果

        3 總結(jié)

        在本文中,提出了兩個與語音內(nèi)容的機(jī)器理解有關(guān)的目標(biāo)——托福聽力和口語理解。在托福聽力理解中,提出的TAL框架在樹狀結(jié)構(gòu)的LSTM網(wǎng)絡(luò)中結(jié)合了多跳注意力機(jī)制,其準(zhǔn)確性為48.8%;在對口語理解中,利用CNN網(wǎng)絡(luò)改進(jìn)現(xiàn)有的模型,證明了ASR錯誤會大大降低閱讀理解模型的性能,并建議使用不同種類的子字單元來減輕這些錯誤的影響。

        猜你喜歡
        短語注意力機(jī)器
        機(jī)器狗
        讓注意力“飛”回來
        機(jī)器狗
        未來機(jī)器城
        電影(2018年8期)2018-09-21 08:00:06
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        傳媒評論(2017年3期)2017-06-13 09:18:10
        A Beautiful Way Of Looking At Things
        無敵機(jī)器蛛
        亚洲AV永久青草无码性色av| 精品国产偷窥一区二区| 曰本无码人妻丰满熟妇啪啪| 国自产偷精品不卡在线| 欧美亚洲另类 丝袜综合网| 干出白浆视频在线观看| 亚洲av无码乱码国产一区二区| 成av人片一区二区三区久久 | 国色天香精品一卡2卡3卡4| 亚洲AV永久无码制服河南实里| 久久精品视频按摩| 一道之本加勒比热东京| 国产三级av在线播放| 人妻去按摩店被黑人按中出| 国产精品一区二区AV不卡| 日本视频一区二区三区观看| 一本大道无码人妻精品专区| 成人国产精品999视频| 国产精品人人爱一区二区白浆| 三区中文字幕在线观看| 狠狠色婷婷久久一区二区三区| 国产成人精品三级麻豆| 一二区视频免费在线观看| 国产av无码专区亚洲av麻豆| 国产成人午夜精华液| аⅴ天堂一区视频在线观看 | 亚洲AV秘 无套一区二区三区| 极品美女高潮喷白浆视频| 91九色国产在线观看| 又硬又粗进去好爽免费| 1000部夫妻午夜免费| 无码国产精品色午夜| 国产精品一区二区久久久av| 一进一出一爽又粗又大| 国产一级片毛片| 亚洲一区二区三区自拍麻豆| 精品国产偷窥一区二区| 久久97精品久久久久久久不卡| 国产一区二区三区四区色| 亚洲天堂av三区四区不卡| 国产精品亚韩精品无码a在线|