亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的英語自然語言處理系統(tǒng)

        2021-03-10 06:34:50曹艷琴
        系統(tǒng)仿真技術(shù) 2021年4期
        關(guān)鍵詞:分詞特征提取標(biāo)簽

        曹艷琴

        (西安培華學(xué)院人文與國際教育學(xué)院,陜西西安 710125)

        自然語言處理(Natural Language Processing,NLP)是指利用人類交流所使用的自然語言與機器進行交互通信的技術(shù)[1-4]。在NLP研究的早期,學(xué)者主要焦點集中在語言結(jié)構(gòu)分析、技術(shù)驅(qū)動的機器翻譯和語言識別方面[5-6]。目前的研究重點是NLP如何更加自然地在現(xiàn)實世界中使用,相應(yīng)的研究領(lǐng)域包括智能對話系統(tǒng)和社交媒體數(shù)據(jù)等[7-8]。

        隨著機器學(xué)習(xí)的發(fā)展,有學(xué)者提出基于詞典和規(guī)則的有監(jiān)督機器學(xué)習(xí)分詞算法[9-10],該類方法的優(yōu)點是簡單、易于實現(xiàn),并且可以根據(jù)特定場景制定合適的詞典。然而,由于沒有統(tǒng)一的分詞標(biāo)準(zhǔn),詞典的質(zhì)量無法明確界定,分詞結(jié)果存在較大差異。此外,有學(xué)者提出利用深度學(xué)習(xí)在NLP領(lǐng)域進行序列標(biāo)記[11-12]。然而,深度學(xué)習(xí)網(wǎng)絡(luò)訓(xùn)練過程比較復(fù)雜,許多傳統(tǒng)文本標(biāo)記方法無法直接移植到深度學(xué)習(xí)網(wǎng)絡(luò)。最后,NLP中最重要的為文本特征提取,常用的特征提取方法包括TF-IDF算法、TextRank算法、LDA算法等[13-14]。然而,現(xiàn)有的模型并沒有考慮不同模式對當(dāng)前學(xué)習(xí)任務(wù)的重要性,只關(guān)注如何有效地同時使用多種模式進行特征提取。

        為解決上述問題,本文提出了一種多模態(tài)融合特征提取模型,結(jié)合條件隨機場(Conditional Random Field,CRF),解決句子層次分析中的序列標(biāo)注問題。并基于混合網(wǎng)絡(luò)英語分詞處理方法,提高英語分詞效率及準(zhǔn)確率。

        1 英語分詞混合網(wǎng)絡(luò)

        1.1 網(wǎng)絡(luò)架構(gòu)

        基于字符的序列標(biāo)注任務(wù)同樣可以看作是一個英語分詞任務(wù)。在分詞處理過程中,深度學(xué)習(xí)對于四元組的描述,主要是借助A4nin,即注釋集的方式來實現(xiàn)。

        式(1)中,B表示句子開頭;M代表句子中間;E為結(jié)束分詞;S是由單個詞組成的分詞。

        令輸入句子設(shè)定為c(n),長度設(shè)定為n,窗口規(guī)格選定為w,起始字符設(shè)定為c(1)與c(n)。分詞過程可描述如下:

        步驟1將zi定義為輸入層到隱藏層的線性轉(zhuǎn)換結(jié)果,其表達(dá)式為

        式(2)中,w1是權(quán)重矩陣;b1是偏差系數(shù)。

        步驟2通過元素級激活函數(shù)傳遞線性變換的結(jié)果σ,得到隱含層函數(shù)hi,具體計算如下:

        步驟3利用給定的標(biāo)號集,用線性變換方式,開展線性變換操作,實現(xiàn)輸入字符標(biāo)記的可能性,即概率設(shè)定為yi,則

        式(4)中,w2為權(quán)重矩陣,b2為偏差系數(shù)。

        1.2 網(wǎng)絡(luò)分詞處理

        為解決長短時記憶神經(jīng)網(wǎng)絡(luò)(LSTM)在英語分詞處理中結(jié)構(gòu)復(fù)雜、處理數(shù)據(jù)時間長等缺點,在保證處理精度接近的前提下,本文采用門控循環(huán)單元(Gate Recurrent Unit,GRU)[15]結(jié)合CRF16]模型提高模型訓(xùn)練效率及精度。圖3所示為網(wǎng)絡(luò)結(jié)構(gòu)。

        令網(wǎng)絡(luò)中新引入的狀態(tài)轉(zhuǎn)移矩陣為A,雙層GRU神經(jīng)網(wǎng)絡(luò)的輸出矩陣為P。令A(yù)ij表示時間序列中從標(biāo)簽i轉(zhuǎn)移到標(biāo)簽j的權(quán)重;如果Aij的值較大,則表示從標(biāo)簽i轉(zhuǎn)移到標(biāo)簽j的概率較大。令Pij表示輸入觀測序列,即第i個單詞是第j個標(biāo)簽的概率。因此,標(biāo)記序列的預(yù)測輸出y=(y1,y2,…,yn),對應(yīng)于觀察序列T=(t1,t2,…,tn)可表示為

        圖1 GRU-CRF混合網(wǎng)絡(luò)模型結(jié)構(gòu)Fig.1 Structure of GRU-CRFhybrid network model

        2 仿真與分析

        2.1 數(shù)據(jù)集與仿真環(huán)境

        實驗中使用的數(shù)據(jù)來自SQuAD數(shù)據(jù)集,共包含107785個問題和相配套的536篇文章。仿真時隨機選取20%的訓(xùn)練集作為開發(fā)集,其余訓(xùn)練集作為本實驗的訓(xùn)練集。在對輸入數(shù)據(jù)集進行訓(xùn)練之前,對所有數(shù)據(jù)進行預(yù)處理。

        仿真環(huán)境為Python Tensorflow+GPU編譯環(huán)境;顯卡為NVIDIA rtx2080ti;Win10系統(tǒng),64 GB內(nèi)存;表1所示為實驗部分網(wǎng)絡(luò)參數(shù)。

        表1 系統(tǒng)訓(xùn)練參數(shù)Tab.1 System training parameters

        2.2 特征提取性能測試

        表2所示為模型特征降維能力精度測試結(jié)果??梢钥闯?,本文提出的模型能夠從原始的高維特征中提取低維特征,有效地融合多種原始特征。

        表2 精度測試結(jié)果Tab.2 Accuracy test results

        2.3 網(wǎng)絡(luò)分詞性能測試

        將本文提出的混合GRU-CRF網(wǎng)絡(luò)模型與CRF、LSTM、BI-LSTM、GRU網(wǎng)絡(luò)模型進行比較,準(zhǔn)確率測試結(jié)果如圖4所示??梢钥闯?,所提出的混合GRU-CRF網(wǎng)絡(luò)分詞方法準(zhǔn)確率高于其他模型的測試精度,表明本文的方法具有優(yōu)異的分詞性能。

        圖2 不同策略模型性能對比結(jié)果Fig.2 Performance comparison results of different strategy models

        3 結(jié)論

        本文對英文自然語言處理中文本分割及特征提取進行了研究,構(gòu)建了GRU-CRF混合網(wǎng)絡(luò)為內(nèi)核的分詞模型,從而提高英語分詞效率及準(zhǔn)確率。本文所提出的模型不僅在時間指標(biāo)上具備優(yōu)勢,而且還兼?zhèn)銵STM優(yōu)勢,可借助CRF層實現(xiàn)對句子前后標(biāo)簽的關(guān)注與分析。本研究為英語自然語言處理有一定借鑒的作用。

        猜你喜歡
        分詞特征提取標(biāo)簽
        結(jié)巴分詞在詞云中的應(yīng)用
        智富時代(2019年6期)2019-07-24 10:33:16
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        無懼標(biāo)簽 Alfa Romeo Giulia 200HP
        車迷(2018年11期)2018-08-30 03:20:32
        不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        Bagging RCSP腦電特征提取算法
        值得重視的分詞的特殊用法
        標(biāo)簽化傷害了誰
        基于多進制查詢樹的多標(biāo)簽識別方法
        計算機工程(2015年8期)2015-07-03 12:20:27
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        高考分詞作狀語考點歸納與疑難解析
        欧美性生交大片免费看app麻豆 | 国产传媒在线视频| 精品女同一区二区三区免费播放| 中文字幕人妻在线少妇| 亚洲av成人噜噜无码网站| 成人性生交大片免费看r| 青草青草伊人精品视频| 久久精品蜜桃美女av| 精品无码一区二区三区爱欲| 国产成人无码区免费内射一片色欲| 欧美日韩国产在线观看免费| 黄色三级一区二区三区| 国产精品成人亚洲一区| 无遮无挡爽爽免费毛片| 久久精品免费无码区| 人妻中文字幕一区二区三区| 在厨房拨开内裤进入毛片| 国产影片中文字幕| 日韩av二区三区一区| 开心五月激情五月天天五月五月天| 日韩夜夜高潮夜夜爽无码 | 国产激情免费观看视频| 欧美激情乱人伦| 一本一道波多野结衣一区| 久久久久久久尹人综合网亚洲| 人妻少妇偷人精品一区二区三区| 成人免费无码视频在线网站| 国产美女在线精品免费观看网址 | 亚洲欧洲精品成人久久曰影片| 亚洲精品综合色区二区| 亚洲毛片免费观看视频| 欧美老熟妇喷水| 色欲国产精品一区成人精品| 亚洲中文字幕亚洲中文| 人人爽久久久噜人人看| 乱子伦视频在线看| 中文字幕亚洲乱亚洲乱妇| 成人国产精品一区二区八戒网 | 乱中年女人伦av| 一区二区三区国产视频在线观看| av高清在线不卡直播|