亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于語義共現(xiàn)與注意力網(wǎng)絡(luò)的問題分類方法

        2020-08-01 07:30:32馬偉鋒季曹婷馬來賓
        浙江科技學(xué)院學(xué)報 2020年4期
        關(guān)鍵詞:語義分類特征

        樓 姣,馬偉鋒,季曹婷,馬來賓

        (浙江科技學(xué)院 信息與電子工程學(xué)院,杭州 310023)

        隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,各類網(wǎng)絡(luò)問答社區(qū)(community question answering,CQA)相繼出現(xiàn)并蓬勃發(fā)展,而問題分類作為問答社區(qū)的核心技術(shù),受到了研究者的高度關(guān)注。早期問題分類主要使用基于規(guī)則的方法、基于統(tǒng)計的方法及兩者相結(jié)合的方法,通過提取問題中的中心詞[1]、詞性[2-3]、依存關(guān)系[3]等特征或?qū)μ卣鬟M(jìn)行組合[2]的方式對問題進(jìn)行分類,并取得了良好的分類效果[4]。然而上述方法忽略了問題本身的詞序和語義信息。隨著深度學(xué)習(xí)的發(fā)展,深層神經(jīng)網(wǎng)絡(luò)憑借能夠自動提取特征的優(yōu)勢,在文本分類任務(wù)中得到了廣泛的應(yīng)用。Kim等[5-6]通過使用卷積網(wǎng)絡(luò)(convolutional neural network,CNN)探究了深度學(xué)習(xí)網(wǎng)絡(luò)模型在句子分類中的應(yīng)用。Zhou等[7-8]將長短時記憶神經(jīng)網(wǎng)絡(luò)(long short-term memory network,LSTM)與卷積神經(jīng)網(wǎng)絡(luò)、注意力機(jī)制相結(jié)合,捕獲文本的深層語義特征。Yao等[9]利用共現(xiàn)詞與文檔詞之間的關(guān)系,構(gòu)建文本圖卷積神經(jīng)網(wǎng)絡(luò)用于文本分類。近年來,除了對文本分類模型結(jié)構(gòu)進(jìn)行改進(jìn)外,許多研究者開始探索如何對文本擴(kuò)展語義并進(jìn)行特征融合。徐健等[10]提出了一種融合雙語信息的問題分類方法。張棟等[11]利用問題及其答案聯(lián)合學(xué)習(xí)詞向量表示,增強(qiáng)問題文本詞向量的語義信息。Yu等[12]使用疑問詞注意力機(jī)制關(guān)注問句中的疑問詞特征,擴(kuò)展了問句的語義信息。江偉等[13]在詞嵌入層后加入卷積層提取N-gram短語的向量表示,通過學(xué)習(xí)短語的權(quán)重加強(qiáng)文本語義表示。謝雨飛等[14]通過依存句法樹提取問題文本的語義單元,擴(kuò)展了問題文本的語義信息。肖琳等[15]提出基于標(biāo)簽語義注意力的文本分類方法,提升了模型的預(yù)測精度。

        上述研究在問題分類任務(wù)中取得了較好的結(jié)果,但對垂直領(lǐng)域問答社區(qū)的問題分類仍有待進(jìn)一步研究。目前,面向汽車故障領(lǐng)域的問答社區(qū)問題分類主要存在以下難點(diǎn):一是現(xiàn)有的問題分類方法主要基于含有疑問詞的問句[16],而多數(shù)用戶提出的汽車故障問題并不涵蓋疑問詞;二是問答社區(qū)中用戶表述汽車故障有其靈活性,難以區(qū)分整體特征相似但局部差異較大的問題類別,并且常出現(xiàn)問題文本較短導(dǎo)致語義信息不足等現(xiàn)象。針對上述問題,本研究在現(xiàn)有的深度學(xué)習(xí)模型基礎(chǔ)上結(jié)合注意力機(jī)制,借助汽車故障問答社區(qū)豐富的用戶交互文本,提取共現(xiàn)詞作為問題文本的擴(kuò)展語義信息,提出基于問題-答案語義共現(xiàn)的多層次注意力卷積長短時記憶網(wǎng)絡(luò)(co-occurrence word attention convolution LSTM neural network,CACL)模型的問題分類方法。

        1 問題分類模型結(jié)構(gòu)與方法

        基于問題-答案語義共現(xiàn)的多層次注意力卷積長短時記憶網(wǎng)絡(luò)模型結(jié)構(gòu)如圖1所示。圖1中,W為權(quán)重參數(shù)矩陣,uw為注意力權(quán)重,αt為語義重要程度歸一化后的結(jié)果,S為文本表示。

        圖1 CACL模型結(jié)構(gòu)圖Fig.1 Model structure of CACL

        CACL模型處理過程如下:1)在輸入層引入共現(xiàn)詞注意力機(jī)制,通過汽車故障問答社區(qū)中問題-答案文本聯(lián)合構(gòu)建共現(xiàn)詞注意力矩陣,關(guān)注問題文本中與共現(xiàn)詞相似詞的語義信息;2)將共現(xiàn)詞注意力矩陣輸入卷積神經(jīng)網(wǎng)絡(luò)提取局部特征;3)利用共現(xiàn)詞注意力矩陣捕捉有效的卷積特征,將其輸入長短時記憶網(wǎng)絡(luò)抽取長距離依賴特征;4)利用詞級別注意力機(jī)制將長短時記憶網(wǎng)絡(luò)的輸出特征進(jìn)行高層次特征抽取;5)使用Softmax分類器進(jìn)行問題分類。

        1.1 基于共現(xiàn)詞注意力機(jī)制的表示

        由于汽車故障問題文本特征稀疏,缺乏充足的語義信息,并且一般的深度學(xué)習(xí)模型所使用的詞向量并沒有特別關(guān)注那些對分類結(jié)果貢獻(xiàn)度較大的詞,因此本文提出了基于問題-答案語義共現(xiàn)的注意力機(jī)制,利用問答社區(qū)擁有較多用戶交互文本的優(yōu)勢,通過提取問題-答案中的共現(xiàn)詞,構(gòu)建問題文本與共現(xiàn)詞的注意力矩陣,具體方法如下所述。

        1)問題文本q={w1,w2,…,wn},n表示問題文本q所包含的詞語數(shù),n∈[1,N];共現(xiàn)詞u={o1,o2,…,om},om表示問題文本q的第m個共現(xiàn)詞,m∈[1,M]。使用Word2vec模型[17]預(yù)訓(xùn)練的詞向量Vq={x1,x2,…,xd},xd表示問題文本的詞向量在d維上的值;Vu={y1,y2,…,yd},yd表示共現(xiàn)詞的詞向量在d維上的值。

        2)計算問題文本中每個詞與對應(yīng)多個回答所有詞的余弦相似度

        (1)

        利用自定義的停用詞表過濾無實(shí)意的詞,最終選取問題文本中與答案文本相似度最高的K個詞作為有效共現(xiàn)詞,如答案文本中與問題文本“排氣管”“冒黑煙”語義接近的詞有“排氣管”“排氣口”“冒黑煙”“冒煙”“黑煙”等。

        3)引入共現(xiàn)詞注意力矩陣A∈Rn×m來表征問題文本中各個詞與共現(xiàn)詞之間的相似度,其元素

        Anm=f(wn,om)。

        (2)

        式(2)中,函數(shù)f的計算方法同式(1)。

        根據(jù)共現(xiàn)詞注意力矩陣,我們最終還需要為原問題文本生成維度一致的注意力特征圖Fa∈Rn×d,其實(shí)現(xiàn)方法如下:

        Fa=A×W。

        (3)

        式(3)中:W∈Rm×d為權(quán)重參數(shù)矩陣,需在模型訓(xùn)練中不斷學(xué)習(xí)以更新。

        1.2 卷積神經(jīng)網(wǎng)絡(luò)的運(yùn)用

        使用單通道卷積層對基于共現(xiàn)詞的注意力特征圖Fa進(jìn)行卷積,得到新的特征ci。在對Fa進(jìn)行卷積操作時,一般選取h×d維大小的卷積核,其中d為詞向量的維度,h為卷積計算中滑動窗口的大小。ci的計算方式如下:

        ci=fr(W0·Sa,i:i+h-1+b)。

        (4)

        式(4)中:ci為由卷積操作得到的第i個特征;fr為非線性激活函數(shù),本文使用ReLu函數(shù)作為激活函數(shù);W0為卷積核的權(quán)重參數(shù)矩陣,W0∈Rh×d;Sa,i:i+h-1為Fa中第i行到第i+h-1行的局部特征,b為偏置項(xiàng)。對每個窗口中的局部特征進(jìn)行卷積操作,最終得到特征圖

        C=(c1,c2,…,cn-h+1)。

        (5)

        1.3 長短時記憶網(wǎng)絡(luò)的運(yùn)用

        卷積神經(jīng)網(wǎng)絡(luò)雖然能夠提取問題文本的局部特征,但它在捕獲長距離依賴特征時有局限性。而長短時記憶網(wǎng)絡(luò)恰好能彌補(bǔ)這一缺陷。因此,本文將卷積神經(jīng)網(wǎng)絡(luò)提取的特征輸入長短時記憶網(wǎng)絡(luò),用于獲取問題文本的長距離依賴特征。參照Hochreiter等[18]最早提出的長短時記憶網(wǎng)絡(luò)結(jié)構(gòu),最終得到長短時記憶網(wǎng)絡(luò)的輸出結(jié)果H,H=(h1,h2,…,ht-1,ht,ht+1)。長短時記憶網(wǎng)絡(luò)的結(jié)構(gòu)如圖2所示,其中ht為長短時記憶單元在t時刻的輸出結(jié)果,xt為經(jīng)過卷積后時序t的輸入信息。

        圖2 長短時記憶網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 Long short-term memory network structure

        1.4 詞級別注意力機(jī)制的運(yùn)用

        參考Yang等[19]提出的層次注意力模型(hierarchical attention network,HAN),在長短時記憶網(wǎng)絡(luò)完成長距離信息提取后,將其輸出作為詞級別注意力層的輸入,并構(gòu)造加權(quán)注意力參數(shù)矩陣。通過不斷的訓(xùn)練,該參數(shù)矩陣將會根據(jù)問題文本中語義的重要程度分配權(quán)重,聚焦文本中的重要部分,最終得到文本表示S。注意力參數(shù)矩陣的計算方式如下:

        (6)

        式(6)中:ft為激活函數(shù)tanh;Ww為加權(quán)注意力參數(shù)矩陣;ht為長短時記憶網(wǎng)絡(luò)的輸出;bw為偏置項(xiàng);ut為語義向量;uw為注意力權(quán)重;αt為語義重要程度歸一化后的結(jié)果。

        1.5 問題分類

        對長短時記憶網(wǎng)絡(luò)的輸出特征使用Softmax分類器分類,得到問題文本qi到類別j的概率

        p=fs(WcS+bc)。

        (7)

        式(7)中:fs為Softmax分類器;Wc為權(quán)重參數(shù)矩陣;bc為偏置項(xiàng)。

        在模型訓(xùn)練過程中,將交叉熵作為損失函數(shù)衡量模型損失,并加入正則項(xiàng)防止過擬合。模型訓(xùn)練的最終目標(biāo)是最小化交叉熵?fù)p失。損失函數(shù)的計算方式如下:

        (8)

        2 試驗(yàn)結(jié)果與分析

        2.1 數(shù)據(jù)集的標(biāo)注與劃分

        本文使用的數(shù)據(jù)集為自定義基準(zhǔn)數(shù)據(jù)集,來源于一些專業(yè)汽車網(wǎng)站的汽車故障問答社區(qū)。目前,絕大部分汽車類問答社區(qū)尚未建立完整的汽車故障問題分類體系,一般的中文問題分類多采用文獻(xiàn)[20]的分類體系,它將問題歸納為人物、地點(diǎn)、數(shù)字、時間、實(shí)體、描述6大類,而大多數(shù)汽車故障問題都屬于描述類,因此該分類體系并不適用于汽車故障問題領(lǐng)域。本文根據(jù)汽車的故障現(xiàn)象[21],將其歸納為工況異常、滲漏異常、氣味異常、聲響異常、煙氣異常、溫度異常、消耗異常、外觀異常、儀表異常9大類,分類情況及其實(shí)例見表1。

        表1 汽車故障問題分類及其實(shí)例

        本文的基準(zhǔn)數(shù)據(jù)集共包含汽車故障問題8 000條,依據(jù)表1的汽車故障問題分類對其進(jìn)行人工標(biāo)注,并對部分存疑的數(shù)據(jù)最終通過我們這個項(xiàng)目組探討處理。為驗(yàn)證本文所提算法模型的有效性,將隨機(jī)抽取總樣本的20%作為測試數(shù)據(jù)集,從剩余80%的數(shù)據(jù)中再抽取10%作為驗(yàn)證數(shù)據(jù)集,其余的作為訓(xùn)練數(shù)據(jù)集。汽車故障問題數(shù)據(jù)集的分布統(tǒng)計見表2。

        表2 汽車故障問題數(shù)據(jù)集的分布統(tǒng)計Table 2 Data set distribution statistics of automobile fault problems 條

        2.2 評估指標(biāo)的選擇

        (9)

        式(9)中:TP為實(shí)際為正且預(yù)測為正的樣本數(shù);FP為實(shí)際為負(fù)但預(yù)測為正的樣本數(shù);FN為實(shí)際為正但預(yù)測為負(fù)的樣本數(shù);TN為實(shí)際為負(fù)預(yù)測為負(fù)的樣本數(shù);i為測試集中的樣本數(shù)。

        2.3 對比試驗(yàn)的模型選擇

        為驗(yàn)證本文提出模型的有效性,我們使用同一數(shù)據(jù)集對不同模型進(jìn)行對比試驗(yàn)。在進(jìn)行對比試驗(yàn)之前,為獲取更優(yōu)質(zhì)的詞向量,我們使用汽車故障語料庫中的問題文本和答案文本,采用與文獻(xiàn)[7]一致的參數(shù)設(shè)置,聯(lián)合訓(xùn)練詞向量。具體而言,使用Word2vec的Skip-gram模式,上下文窗口設(shè)為5,詞向量維度設(shè)為100,最終得到問題文本在Word2vec中的向量表示。對比試驗(yàn)選取的模型分別為SVM[22]、CNN、LSTM、Bi-LSTM[8]、C-LSTM[7]及我們提出的CACL。

        2.4 結(jié)果分析

        表3是當(dāng)前問題分類的主流模型與CACL模型對比試驗(yàn)后所得出的各項(xiàng)指標(biāo)評估值。由表3可知,傳統(tǒng)的機(jī)器學(xué)習(xí)模型SVM并不能有效學(xué)習(xí)問題文本語義,在問題分類任務(wù)中不具備優(yōu)勢,而主流的深度學(xué)習(xí)模型CNN、LSTM、Bi-LSTM、C-LSTM在學(xué)習(xí)文本語義方面具有顯著優(yōu)勢;相比較于其他5種模型,本文提出的CACL模型在汽車故障問題分類中有較好的表現(xiàn)。這表明利用共現(xiàn)詞注意力矩陣有助于擴(kuò)展問題的文本語義,能有效提升汽車故障問題的分類精度。

        表3 對比試驗(yàn)各項(xiàng)指標(biāo)評估值Table 3 Index evaluation values of comparative experiment %

        表4是Bi-LSTM、C-LSTM及CACL模型在不同汽車故障問題類別間的F1值對比。F1值是精確率和召回率的調(diào)和平均數(shù),能夠有效評估模型精確度。從表4中可以看出相比較于Bi-LSTM和C-LSTM模型,CACL模型整體性能都有所提升,尤其對工況異常、聲響異常及溫度異常等故障問題的分類效果最為顯著。這說明利用共現(xiàn)詞注意力矩陣能夠更好地聚焦問題文本中與答案文本語義相似的內(nèi)容,答案文本能夠在一定程度上對問題文本進(jìn)行語義限定,從而在面對整體特征相似,但局部特征差異較大的汽車故障問題時有較強(qiáng)的區(qū)分能力。

        表4 3種模型在不同汽車故障問題類別上的F1值對比

        圖3 各項(xiàng)指標(biāo)評估值隨共現(xiàn)詞個數(shù)變化的情況Fig.3 Change of index evaluation values with numbers of co-occurrence words

        為了更好地選取優(yōu)質(zhì)共現(xiàn)詞,我們對共現(xiàn)詞的來源進(jìn)行試驗(yàn)對比。選取汽車故障問題文本中與答案文本語義相似的詞作為共現(xiàn)詞Ⅰ型,選取答案文本中與問題文本語義相似的詞作為共現(xiàn)詞Ⅱ型,共現(xiàn)詞Ⅰ型與共現(xiàn)詞Ⅱ型去重之和作為共現(xiàn)詞Ⅲ型。分別對上述3種共現(xiàn)詞的來源通過各項(xiàng)指標(biāo)評估值進(jìn)行試驗(yàn)對比,同時,為了最大限度地保留所有的共現(xiàn)詞,設(shè)置共現(xiàn)詞個數(shù)K=25,試驗(yàn)結(jié)果見表5。由表5可知,共現(xiàn)詞Ⅰ型的指標(biāo)評估值都要優(yōu)于其余兩類共現(xiàn)詞。這是由于共現(xiàn)詞Ⅰ型中的詞都來自問題文本本身,能夠最大限度地減少關(guān)注問題文本中的非共現(xiàn)詞,使共現(xiàn)詞注意力矩陣更加聚焦出現(xiàn)共現(xiàn)詞的這部分文本特征。因此,最終選取共現(xiàn)詞Ⅰ型作為汽車故障問題文本的共現(xiàn)詞來源。試驗(yàn)結(jié)果表明,共現(xiàn)詞的來源也是影響汽車故障問題分類精度的因素之一。

        表5 不同來源共現(xiàn)詞的各項(xiàng)指標(biāo)評估值試驗(yàn)對比的結(jié)果Table 5 Experimental comparison results of index evaluation values for co-occurrence words from different sources %

        3 結(jié) 語

        本文針對汽車問答社區(qū)中汽車故障問題文本復(fù)雜,局部語義特征較難提取的問題,提出一種基于問題-答案聯(lián)合構(gòu)建共現(xiàn)詞注意力矩陣的問題分類方法。依托汽車問答社區(qū)中豐富的用戶交互文本識別出問題文本中與之語義相似的共現(xiàn)詞,作為問題文本的擴(kuò)展語義信息,捕捉兩者的內(nèi)在相關(guān)性,并在這基礎(chǔ)上構(gòu)建共現(xiàn)詞注意力矩陣,使其聚焦問題文本中與答案文本語義共現(xiàn)的部分。同時,利用卷積神經(jīng)網(wǎng)絡(luò)與長短時記憶網(wǎng)絡(luò)提取問題文本的局部特征及長距離依賴特征。最后,通過詞級別注意力機(jī)制,再次重點(diǎn)關(guān)注問題文本中貢獻(xiàn)度較大的部分內(nèi)容,去除冗余文本特征。試驗(yàn)結(jié)果表明,CACL模型能夠有效提高汽車故障問題分類的精度。但是,本研究仍存在一些不足之處,如模型僅適用于已有答案的問題,此外模型未涉及其他領(lǐng)域的問答社區(qū),未來我們將對上述不足做進(jìn)一步研究。

        猜你喜歡
        語義分類特征
        分類算一算
        語言與語義
        如何表達(dá)“特征”
        不忠誠的四個特征
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        抓住特征巧觀察
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        認(rèn)知范疇模糊與語義模糊
        精品高清免费国产在线| 边做边流奶水的人妻| 精品视频一区二区三三区四区| 日本精品a在线观看| 在线无码免费看黄网站| 丰满老熟女性生活视频| 久久九九精品国产av| 日本亚洲欧美色视频在线播放| 国产一级做a爱免费观看| 婷婷综合缴情亚洲狠狠| 国产av大片久久中文字幕| 亚洲男人免费视频网站| 国产精品久久久久免费观看| 久久天天躁狠狠躁夜夜96流白浆| 一本一道AⅤ无码中文字幕| 亚洲国产精品色婷婷久久| 亚洲一区二区三区少妇| 初尝人妻少妇中文字幕| 丰满岳乱妇久久久| 伊在人亚洲香蕉精品区麻豆| 伊人狼人影院在线视频| 一区二区三区中文字幕p站| 久久99国产综合精品| 极品美女扒开粉嫩小泬| 国内精品九九久久精品小草| 日韩精品视频高清在线| 无码国产福利av私拍| 国产午夜无码视频免费网站| 色综合久久五十路人妻| 欧美巨鞭大战丰满少妇| 免费xxx在线观看| 国产成人无码A区在线观| 亚洲一区二区三区天堂av| 日本一本免费一二区| 亚洲av午夜福利精品一区二区| 欧美一级视频精品观看| 中文字幕日本五十路熟女| 肉色丝袜足j视频国产| 亚洲欧美综合在线天堂| 亚洲美女av一区二区| 精品私密av一区二区三区|