亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的網(wǎng)站類型識別研究

        2023-11-10 05:42:18尹杰倪鵬銳
        電子設(shè)計(jì)工程 2023年21期
        關(guān)鍵詞:語義特征文本

        尹杰,倪鵬銳

        (阜陽工業(yè)經(jīng)濟(jì)學(xué)校信息技術(shù)系,安徽阜陽 236032)

        傳統(tǒng)網(wǎng)站分類方式效率低下且易出錯(cuò),快速且準(zhǔn)確地識別出網(wǎng)站類型,有利于令查詢過程更為高效[1-2]。

        Word2vec[3]無法區(qū)分多義詞,ELMO[4]和BERT[5]依據(jù)詞的上下文進(jìn)行動(dòng)態(tài)編碼。ERNIE2.0[6]提出多任務(wù)增量學(xué)習(xí)策略,有效捕獲詞匯、句法和語義信息。機(jī)器學(xué)習(xí)方法[7]需要構(gòu)建特征工程,無法保證提取特征的準(zhǔn)確性,不適合處理大規(guī)模的網(wǎng)站數(shù)據(jù)。文獻(xiàn)[8]針對專利文本分類任務(wù),提出了BERTCNN 模型,CNN 僅能提取局部語義特征。文獻(xiàn)[9]提出了基于BERT-BiLSTM 的違法網(wǎng)站檢測模型,BiLSTM 模塊運(yùn)算效率低,僅能捕獲文本的上下文語義。文獻(xiàn)[10]引入均勻詞向量卷積模塊,提出了基于BERT-AWC 的文本分類模型。文獻(xiàn)[11]將自注意力機(jī)制融入到BiGRU 和多粒度卷積神經(jīng)網(wǎng)絡(luò)。CNN和LSTM 模塊無法聚焦于對網(wǎng)站類型識別結(jié)果影響較大的關(guān)鍵特征。

        文中提出了基于ERNIE2.0-MCNN-BiSRU-AT的網(wǎng)站類型識別模型,利用ERNIE2.0 將網(wǎng)站文本向量化,解決靜態(tài)詞向量無法表示多義詞的問題;多特征融合網(wǎng)絡(luò)同時(shí)捕獲多個(gè)尺度下的文本局部語義和上下文序列融合特征;軟注意機(jī)制賦予模型識別關(guān)鍵特征的能力。

        1 網(wǎng)站類型識別模型

        1.1 模型整體結(jié)構(gòu)

        基于ERNIE2.0-MCNN-BiSRU-AT 的網(wǎng)站類型識別模型整體結(jié)構(gòu)如圖1 所示,主要組成模塊有ERNIE2.0 預(yù)訓(xùn)練模型、多特征融合網(wǎng)絡(luò)、軟注意力機(jī)制和線性分類層。

        圖1 整體模型結(jié)構(gòu)

        其中,ERNIE2.0 負(fù)責(zé)提取網(wǎng)站文本的動(dòng)態(tài)向量矩陣,將離散的文本轉(zhuǎn)化為機(jī)器可處理的數(shù)字形式;多特征融合網(wǎng)絡(luò)采用多個(gè)通道的結(jié)合CNN 和BiSRU模塊對網(wǎng)站文本進(jìn)行語義特征學(xué)習(xí),同時(shí)保留原始的上下文信息抽取的通道;對于每個(gè)通道輸出的分類特征,軟注意力機(jī)制計(jì)算每個(gè)特征對網(wǎng)站類型識別結(jié)果的關(guān)鍵程度,達(dá)到信息聚合的目的,避免無關(guān)特征影響識別結(jié)果。

        1.2 ERNIE2.0預(yù)訓(xùn)練模型

        ERNIE2.0 模型采用海量數(shù)據(jù)和相關(guān)先驗(yàn)知識持續(xù)構(gòu)建無監(jiān)督預(yù)訓(xùn)練任務(wù),并在多個(gè)任務(wù)上進(jìn)行增量學(xué)習(xí),捕捉中文語料句子句法和語義方面的特征信息。ERNIE2.0 模型結(jié)構(gòu)如圖2 所示。

        圖2 ERNIE2.0模型結(jié)構(gòu)

        ERNIE2.0 模型結(jié)構(gòu)主要由多層Transformer 編碼器構(gòu)成,自注意力機(jī)制能夠提取句子內(nèi)部詞與詞之間的依賴關(guān)系,獲取句子語法結(jié)構(gòu)特征。Transformer 編碼器能夠捕獲每個(gè)token 在文本序列中的上下文信息,并生成上下文語境表征嵌入。對于給定的序列,其起始位置是預(yù)定義的分隔符[CLS];對于輸入為多段的任務(wù),不同段之間用預(yù)定義的[SEP]分隔。

        其中,Trans 表示Transformer 編碼器;E=(E1,E2,Ei,…,En)為模型輸入向量,Ei表示文本中的第i個(gè)詞的向量表示,由字向量、位置向量和分割向量相加而成。相關(guān)過程如圖3 所示。

        經(jīng)過編碼器訓(xùn)練后得到符合上下文依賴的動(dòng)態(tài)向量表示T=(T1,T2,Ti,…,Tn),Ti代表第i個(gè)詞的語義向量表示,作為多特征融合網(wǎng)絡(luò)的輸入向量。

        1.3 多特征融合網(wǎng)絡(luò)MCNN-BiSRU

        多特征融合網(wǎng)絡(luò)主要組模塊為多尺度卷積網(wǎng)絡(luò)和雙向簡單循環(huán)單元,在多個(gè)尺度下捕獲文本詞和短語級別的上下文序列特征。多尺度卷積網(wǎng)絡(luò)通過設(shè)定不同大小的卷積核,提取多個(gè)尺度下網(wǎng)站文本局部語義特征,確保獲取特征的多樣性,為確保語義特征不丟失,不使用池化技術(shù)選取關(guān)鍵特征,具體卷積實(shí)現(xiàn)過程如圖4 所示。

        圖4 卷積實(shí)現(xiàn)過程

        相關(guān)計(jì)算過程如式(1)所示。

        其中,w為卷積核;?表示卷積操作;m為窗口大?。籘i:i+m-1表示T中第i到i+m-1 行詞向量表示;f代表激活函數(shù),為模型加入非線性因素,由于RELU 函數(shù)在訓(xùn)練過程中容易出現(xiàn)神經(jīng)元壞死現(xiàn)象,導(dǎo)致模型特征學(xué)習(xí)能力下降,從而影響訓(xùn)練效果,文中采用性能更優(yōu)的非線性激活函數(shù)Swish[12]。Swish 函數(shù)具備無上界有下界、平滑、非單調(diào)的特性,訓(xùn)練過程中通過Swish 函數(shù)獲取固定分布,加速模型收斂和提升訓(xùn)練效果。Swish 函數(shù)計(jì)算過程如式(2)所示。

        其中,β為可訓(xùn)練參數(shù)。通過多次操作滑動(dòng)窗口得到局部特征向量C=(c1,c2,…,cn-m+1),設(shè)置卷積核組合大小為(2,3),得到特征向量C2和C3。

        簡單循環(huán)單元[13](Simple Recurrent Unit,SRU)利用高速跳過連接和簡化狀態(tài)計(jì)算以提供更多的并行性,循環(huán)過程中當(dāng)前狀態(tài)計(jì)算擺脫對上一個(gè)時(shí)間步輸出狀態(tài)的依賴,在任何維度和步驟中進(jìn)行并行運(yùn)算,提高了模型并行計(jì)算能力,訓(xùn)練效率優(yōu)于傳統(tǒng)LSTM[14]和GRU[15]模塊。相關(guān)計(jì)算過程如式(3)-(6)所示。

        其中,符號*表示對應(yīng)矩陣元素相乘;rt和ft分別代表重置門和遺忘門,負(fù)責(zé)控制當(dāng)前步驟狀態(tài)信息流入下一步時(shí)間步驟的程度大小。由式(6)過程可知,ht的計(jì)算不再依賴ht-1,能在任何維度和步驟中并行化執(zhí)行對應(yīng)元素矩陣乘法。為捕獲網(wǎng)站文本完整語義特征,搭建雙向簡單循環(huán)單元(Bidirectional SRU,BiSRU),提取完整上下文序列特征提高語義特征捕捉的全面性[16]。Ht為前向和后向簡單循環(huán)單元在t時(shí)間步的狀態(tài)輸出和拼接結(jié)果,

        將原始語義向量表示T和局部特征向量C2、C3分別輸入到不同通道的BiSRU,獲取BiSRU 模塊輸出的最后時(shí)間狀態(tài)HL,多個(gè)通道分別得到和,拼接組合成向量表示HL。相關(guān)計(jì)算過程如式(7)所示。

        1.4 軟注意力層與分類層

        將多特征融合網(wǎng)絡(luò)輸出的序列特征向量HL輸入到軟注意力機(jī)制層,計(jì)算每個(gè)特征對網(wǎng)站類型識別結(jié)果的注意力得分,加權(quán)求和后得到整體注意力特征表示A。相關(guān)計(jì)算過程如式(8)-(10)所示。

        將注意力特征表示A經(jīng)線性層映射到分類空間,計(jì)算得到分類概率P,最后由Top 函數(shù)取得每行最大概率對應(yīng)標(biāo)簽為網(wǎng)站類型識別結(jié)果R,計(jì)算過程如式(11)-(12)所示。

        2 實(shí)驗(yàn)結(jié)果分析

        2.1 數(shù)據(jù)集與評價(jià)指標(biāo)

        由于目前沒有公開標(biāo)注的網(wǎng)站類型識別標(biāo)準(zhǔn)數(shù)據(jù)集,為確保實(shí)驗(yàn)結(jié)果的有效性,使用Scrapy 爬蟲框架獲取多個(gè)門戶社交平臺上的網(wǎng)站文本數(shù)據(jù),對重復(fù)數(shù)據(jù)進(jìn)行過濾后獲取原始網(wǎng)站樣本數(shù)據(jù)。原始樣本中存在較多的無任何語義的特殊字符,采用正則表達(dá)式進(jìn)行清洗,僅保留含有語義的文字表述。經(jīng)處理后得到標(biāo)準(zhǔn)樣本數(shù)量共16 000 條。采用人工標(biāo)注的方式將數(shù)據(jù)樣本劃分為財(cái)經(jīng)、娛樂、軍事、科技、健康、體育、教育和社會共8個(gè)類別,按照9∶1的比例隨機(jī)拆分為訓(xùn)練集和驗(yàn)證集,數(shù)據(jù)集詳情如表1 所示。

        表1 數(shù)據(jù)集詳情

        為驗(yàn)證文中模型ERNIE2.0-MCNN-BiSRU-AT在網(wǎng)站類型識別任務(wù)上的有效性,采用準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)和F1值作為模型評估指標(biāo),F(xiàn)1 值為準(zhǔn)確率和召回率的整體評價(jià)指標(biāo),更能反映出模型的綜合性能。

        2.2 實(shí)驗(yàn)環(huán)境與模型參數(shù)設(shè)置

        實(shí)驗(yàn)環(huán)境采用Linux 服務(wù)器,顯卡型號為GTX3090,顯存大小為24 GB;使用深度學(xué)習(xí)框架Pytorch1.7.1 進(jìn)行模型編寫和訓(xùn)練,采用第三方庫如Numpy 等計(jì)算模型性能指標(biāo)和進(jìn)行文本數(shù)據(jù)預(yù)處理。

        模型參數(shù)設(shè)置如下:BiSRU 模塊隱藏層大小為256,層數(shù)為2;卷積模塊中卷積核大小為(2,3),特征圖數(shù)量均為128;軟注意力層維度512;損失函數(shù)為多分類交叉熵?fù)p失函數(shù);序列截?cái)嚅L度為150;批處理大小為32,學(xué)習(xí)率為1×10-5;訓(xùn)練輪次為6;采用RAdam[17]動(dòng)態(tài)調(diào)整學(xué)習(xí)率大小,加快訓(xùn)練收斂速度和提高模型訓(xùn)練效果。

        2.3 實(shí)驗(yàn)結(jié)果分析

        為驗(yàn)證文中模型在網(wǎng)站類型識別任務(wù)上的有效性,采用近期性能較優(yōu)秀的深度學(xué)習(xí)模型BERTCNN、BERT-BiLSTM、BERT-AWC 和BiGRU-ATCNN 進(jìn)行實(shí)驗(yàn)對比;并設(shè)置大量消融實(shí)驗(yàn)以驗(yàn)證每個(gè)模塊對性能的貢獻(xiàn)程度。為降低隨機(jī)數(shù)影響模型性能,固定隨機(jī)數(shù)種子,采用10 次冷啟動(dòng)實(shí)驗(yàn)結(jié)果的平均值作為最終結(jié)果。

        模型實(shí)驗(yàn)評估指標(biāo)如表2 所示。由表2 可得,ERNIE2.0-MCNN-BiSRU-AT模型F1值達(dá)到了95.67%,較BERT-CNN、BERT-BiLSTM、BERT-AWC和BiGRU-AT-CNN 模型分別提高了4.52%、4.24%、3.4%和3.34%,證明了ERNIE2.0 模型、多特征融合網(wǎng)絡(luò)和軟注意力機(jī)制三者結(jié)合的有效性,能夠提升網(wǎng)站類型識別性能。

        表2 模型實(shí)驗(yàn)結(jié)果

        為驗(yàn)證ERNIE2.0 提取文本動(dòng)態(tài)向量表示的有效性,采用Word2vec、ELMO 和BERT 詞向量模型進(jìn)行實(shí)驗(yàn)對比,由表2 結(jié)果可知,ERNIE2.0 用作詞嵌入層時(shí),模型F1值最高,達(dá)到了94.23%,證明了ERNIE2.0能夠融合領(lǐng)域知識動(dòng)態(tài)調(diào)整向量表征,解決一詞多義問題,提升詞的表征能力。Word2vec 模型訓(xùn)練過程缺乏位置信息,每個(gè)詞由唯一向量表示,無法依據(jù)具體上下文語境進(jìn)行動(dòng)態(tài)學(xué)習(xí),因此分類效果較差。

        為驗(yàn)證軟注意力的有效性,設(shè)置ERNIE2.0-MCNN-BiSRU 與ERNIE2.0-MCNN-BiSRU-AT進(jìn)行實(shí)驗(yàn)對比,結(jié)果表明加入軟注意力機(jī)制模塊AT 后,模型F1 值提高了1.44%,軟注意力通過計(jì)算每個(gè)特征對網(wǎng)站類型識別結(jié)果的注意力得分,賦予關(guān)鍵特征更高權(quán)重,加權(quán)求和后得到注意力表征,以達(dá)到信息篩選的目的,提升模型分類性能。

        模型ERNIE2.0-MCNN-BiSRU-AT 和ERNIE 2.0-MCNN-BiLSTM-AT 每個(gè)輪次訓(xùn)練時(shí)間結(jié)果如圖5 所示。由圖5 結(jié)果可知,ERNIE2.0-MCNNBiSRU-AT 模型訓(xùn)練耗時(shí)均低于ERNIE2.0-MCNNBiLSTM-AT,說明了BiSRU 模塊通過高速跳過連接和狀態(tài)計(jì)算獨(dú)立化改進(jìn),提高了并行運(yùn)算速度,訓(xùn)練效率優(yōu)于BiLSTM 模型,同時(shí)維持高效的序列建模能力。

        圖5 模型訓(xùn)練時(shí)間

        綜上所述,ERNIE2.0-MCNN-BiSRU-AT 模型能有效識別出網(wǎng)站類型,是解決海量網(wǎng)站類型分類問題的實(shí)用方法。

        3 結(jié)論

        針對網(wǎng)站類型識別任務(wù),提出了基于ERNIE2.0-MCNN-BiSRU-AT 的網(wǎng)站類型識別模型。利用預(yù)訓(xùn)練模型ERNIE2.0 提取網(wǎng)站文本的動(dòng)態(tài)向量表示,解決了一詞多義問題,效果優(yōu)于實(shí)驗(yàn)對比的其他詞向量模型;多特征融合網(wǎng)絡(luò)同時(shí)捕獲文本局部語義特征和上下文序列特征,確保獲取特征的全面性,軟注意力機(jī)制賦予模型識別關(guān)鍵特征的能力。在網(wǎng)站文本類型識別數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),識別效果優(yōu)于實(shí)驗(yàn)對比模型,證明了文中模型的有效性。在未來的研究將考慮使用圖片和視頻等其他模態(tài)信息,基于多模態(tài)進(jìn)行網(wǎng)站類型識別,進(jìn)一步提升識別精度。

        猜你喜歡
        語義特征文本
        語言與語義
        如何表達(dá)“特征”
        在808DA上文本顯示的改善
        不忠誠的四個(gè)特征
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        抓住特征巧觀察
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        認(rèn)知范疇模糊與語義模糊
        如何快速走進(jìn)文本
        語文知識(2014年1期)2014-02-28 21:59:13
        无码av天堂一区二区三区| 久久成人精品国产免费网站 | 91情侣视频| 人妻少妇激情久久综合| 国产视频自拍一区在线观看| av无码精品一区二区三区宅噜噜| 欧美日韩另类视频| 综合激情中文字幕一区二区| 伊人青青草综合在线视频免费播放| 山外人精品影院| 久久精品国产99国产精2020丨| 伊人色综合九久久天天蜜桃| 国产一区二区三区在线男友| 18黑白丝水手服自慰喷水网站| 国产一区二区三区四区五区vm| 亚洲中文字幕无线乱码va| 成熟妇女毛茸茸性视频| 欧美老熟妇喷水| 亚洲自偷自拍另类图片小说| 日韩精品久久不卡中文字幕| 国产一区二区三区内射| 精品国产乱码久久久久久影片| 亚洲欧洲国产日产国码无码| 亚洲一区二区一区二区免费视频| 免费的日本一区二区三区视频| 艳妇臀荡乳欲伦交换在线播放| 伊人亚洲综合网色AV另类| 国产三级韩三级日产三级| 日韩欧美aⅴ综合网站发布| 开心婷婷五月激情综合社区| 欧美亚洲国产精品久久久久| 中文字幕高清不卡视频二区| 中文字幕av一区二区三区人妻少妇| 激情五月婷婷综合| 亚洲自偷自拍另类第一页| 日本一本免费一二区| 精品成人乱色一区二区| 亚洲午夜无码久久久久软件 | 精品人妻大屁股白浆无码| 小12萝8禁在线喷水观看| 日本亚洲成人中文字幕|