亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學習的問答匹配方法

        2017-12-14 05:22:16榮光輝黃震華
        計算機應用 2017年10期
        關鍵詞:注意力語義卷積

        榮光輝,黃震華

        (同濟大學 計算機科學與技術系,上海 201800) (*通信作者電子郵箱huangzhenhua@#edu.cn)

        基于深度學習的問答匹配方法

        榮光輝,黃震華*

        (同濟大學 計算機科學與技術系,上海 201800) (*通信作者電子郵箱huangzhenhua@#edu.cn)

        面向中文問答匹配任務,提出基于深度學習的問答匹配方法,以解決機器學習模型因人工構造特征而導致的特征不足和準確率偏低的問題。在該方法中,主要有三種不同的模型。首先應用組合式的循環(huán)神經(jīng)網(wǎng)絡(RNN)與卷積神經(jīng)網(wǎng)絡(CNN)模型去學習句子中的深層語義特征,并計算特征向量的相似度距離。在此模型的基礎上,加入兩種不同的注意力機制,根據(jù)問題構造答案的特征表示去學習問答對中細致的語義匹配關系。實驗結果表明,基于組合式的深度神經(jīng)網(wǎng)絡模型的實驗效果要明顯優(yōu)于基于特征構造的機器學習方法,而基于注意力機制的混合模型可以進一步提高匹配準確率,其結果最高在平均倒數(shù)排序(MRR)和Top-1 accuray評測指標上分別可以達到80.05%和68.73%。

        問答匹配;深度學習;循環(huán)神經(jīng)網(wǎng)絡;卷積神經(jīng)網(wǎng)絡;注意力機制;機器學習

        0 引言

        隨著互聯(lián)網(wǎng)技術的快速發(fā)展,大量的文本數(shù)據(jù)不斷產(chǎn)生,人們能夠通過搜索引擎檢索到豐富的信息。然而傳統(tǒng)的搜索引擎僅僅返回與結果相關的網(wǎng)頁,導致難以讓用戶獲取準確的關鍵信息。相比之下,智能問答系統(tǒng)能夠以一問一答的自然語言形式,通過與用戶進行交互,精確定位用戶意圖,從而能夠高質(zhì)量地快速滿足用戶的信息需求,降低網(wǎng)站運行成本。目前,智能問答系統(tǒng)已經(jīng)是自然語言處理領域中一個非常重要的研究熱點[1-2],具有重大的應用價值。

        對于問答匹配任務,早期的方法主要是基于機器學習模型,其需要依賴人工構造的規(guī)則特征。這些基于統(tǒng)計機器學習的模型通常會定義包括詞法、句法、語法等相關特征(例如BM25、Edit Distance、詞頻-逆向文件頻率(Term Frequency-Inverse Document Frequency, TFIDF)等),并借助機器學習分類器(例如K近鄰(K-Nearest Neighbor,KNN)、貝葉斯分類、支持向量機(Support Vector Machine, SVM)等)來得到問答對之間的匹配關系。這種基于特征構造的方法是一種淺層學習模型,其結果往往依賴特征提取的質(zhì)量高低,對于不同領域的數(shù)據(jù)泛化能力較差,缺乏對數(shù)據(jù)深層語義信息的學習能力。

        近年來,深度學習模型在圖像處理、語音識別等領域的相關任務上取得了優(yōu)異的表現(xiàn),并逐漸在自然語言處理任務上取得了一些不錯的研究成果。深度學習主要是以深度神經(jīng)網(wǎng)絡為主,主要包括卷積神經(jīng)網(wǎng)絡和循環(huán)神經(jīng)網(wǎng)絡。在2014年,Johnson等[3]提出基于卷積神經(jīng)網(wǎng)絡的短文本分類模型,將文本分類的準確率提高到了新的層次。Zhang等[4]應用卷積深度信念網(wǎng)絡來學習詞匯和句子兩個層面的潛在特征。在機器翻譯上,Sutskever等[5]利用兩個循環(huán)神經(jīng)網(wǎng)絡結構分別作為編碼器和解碼器,構造出從序列到序列(sequence to sequence, seq2seq)的語言翻譯框架,提升了機器翻譯模型的質(zhì)量。因此,應用深度學習模型可以對問答對中細粒度的深層語義匹配關系進行有效的表示學習建模。

        由于深度學習模型在自然語言任務中具有強大的表示學習能力[6],為了能夠學習到問答對中細致的語義匹配關系,在不依賴人工構造特征的情況下,本文改進了一般的深度神經(jīng)網(wǎng)絡模型,提出了3種不同的實驗模型,使其更加適合于問答匹配任務。通過基于深度神經(jīng)網(wǎng)絡的模型,并結合注意力機制的方法,將文本信息向量化,可以學習到句子中更加抽象的語義特征以及問答對之間關鍵的語義匹配信息,從而選擇出正確的候選答案。

        1 相關工作

        問答匹配任務的目標是給定一個問題和候選答案集,從中選擇出語義關系最為匹配的答案,其關鍵在于讓相關模型能夠學習到文本中深層的語義特征和細粒度的匹配關系。以前的相關模型多是基于機器學習的淺層模型,例如IBM Waston部門的Gondek等[7]使用了答案融合和特征排序的方法,Wang等[8]提出了基于關系主題空間特征的多核SVM分類模型。為了得到更豐富的特征,這些相關模型中會引入如語義知識庫(Freebase)和語義詞典(WordNet)等外部資源信息[9-10],以此來提高問答句之間的語義匹配精度。然而這些模型都缺少強大的表示學習能力,且往往需要依賴大量的特征工程。

        近年來,深度學習模型逐漸開始應用到問答匹配任務中,Wang等[11]提出了基于多層長短期記憶網(wǎng)絡(Long Short-Term Memory, LSTM)模型訓練問答對的聯(lián)合特征向量,把問答匹配問題轉換為分類或排序學習問題。Feng等[12]提出了基于共享卷積神經(jīng)網(wǎng)絡來訓練問答對,并在此基礎上進行語義相似度計算,該模型在InsuranceQA英文數(shù)據(jù)集上取得了突破性的實驗效果。另外,基于注意力機制的模型方法在一系列自然語言處理相關任務中也取得了顯著的效果提升,其主要是仿照人腦的注意思維,通過自動加權的方式對整體信息進行局部重點關注。因此在問答匹配任務上可以嘗試使問題更加關注到答案中某些語義特性與其更加相關的詞語,重點將這些關鍵的詞語參與到答案的特征表示計算。例如在文本蘊含領域上,Rocktaschel等[13]使用一種word-by-word attention方法,根據(jù)假設自適應地學習前提的表示,能夠更好地判斷假設與前提的蘊含關系。Yin等[14]提出一種基于注意力機制的多層卷積神經(jīng)網(wǎng)絡模型來對兩個文本語義表示建模,并在答案匹配、釋義識別和文本蘊含任務上都達到了很好的實驗效果。注意力機制主要分為Soft Attention與Hard Attention兩種形式。其中Soft Attention是指對每一個特征都分配一個注意力權值,認為是個概率分布;而Hard Attention在選取特征組合時,并不是對所有的特征都生成權值,可能只選取一個或者多個。本文所提出的注意力模型是將門限循環(huán)單元(Gated Recurrent Unit, GRU)[15]與Soft Attention機制相結合的混合學習模型。

        2 基于深度學習的問答匹配模型

        2.1 基于循環(huán)卷積神經(jīng)網(wǎng)絡的問答匹配模型

        循環(huán)神經(jīng)網(wǎng)絡被廣泛應用于處理可變長的文本序列輸入,因為可以學習到句子的詞序特征,其關鍵的結構是一個記憶單元(Memory Unit)。記憶單元可以記憶某時間段的信息,對于一個句子則可以選擇性記住前一時刻詞語的信息。列如一個問句:“騰訊在線教育由哪幾個部分組成?”,其中“在線教育”這個詞所對應的隱藏單元輸入可以更多地保留來自詞語“騰訊”所傳遞的上文信息。當前循環(huán)神經(jīng)網(wǎng)絡主要有兩種不同的變體LSTM和GRU,它們都能解決傳統(tǒng)RNN存在的長期距離依賴與梯度消失問題。相對于LSTM的網(wǎng)絡結構,GRU內(nèi)部的隱藏單元少一個控制門,參數(shù)少,收斂較快,在保證模型效果的同時,模型的結構也得到了有效簡化,所以本文使用GRU深度層次神經(jīng)網(wǎng)絡來代替LSTM。給定句子輸入x={x1,x2,…,xT},其中:xt∈Rd表示t時刻句子的預訓練的詞向量,前一個時刻的隱藏層輸出表示為ht-1,則t時刻的GRU內(nèi)部記憶單元狀態(tài)如下。

        遺忘門:

        ft=σ(Wxfxt+Uhfht-1)

        更新門:

        zt=σ(Wxzxt+Uhzht-1)

        t時刻內(nèi)部狀態(tài):

        t時刻輸出:

        其中:σ是sigmoid激活函數(shù);⊙代表逐元素(element-wise)相乘;W與U為參數(shù)矩陣。由于單向GRU在t時刻無法學習到在它之前和之后的上下文語義信息,所以本文模型中使用雙向門限循環(huán)層次單元(Bidirectional Gated Recurrent Unit, BGRU),即將輸入序列從正向和反向兩個GRU層分別輸入,把兩個方向在t時刻的隱層輸出串接為一個新向量ht∈R2H,其中每一個隱藏單元的維度為H。相對于單向的GRU層,BGRU模型能夠使一個詞向量表示包含更豐富的信息,從而構造出更好的句子特征表示,其模型的網(wǎng)絡結構如圖1所示。

        圖1 雙向門限循環(huán)單元神經(jīng)網(wǎng)絡結構

        為了能夠學習到句子中更深層次的潛在局部特征,本文將BGRU層的輸出接入到一個卷積層。卷積層的操作就是將句子中連續(xù)的詞向量串接為一個向量,再把這個向量通過某種函數(shù)映射為一個新的特征向量。模型中設置卷積窗口大小為k,拼接相鄰的k個向量得到矩陣S∈R|k*2H|×L,卷積核filter的數(shù)目為c,整個卷積操作計算過程如式(1)所示:

        G=f(WgcS+b)

        (1)

        其中:f是relu激活函數(shù),可以加速模型的收斂,更易于優(yōu)化;權重Wgc和偏差b隨機初始化為均勻分布U(-0.05,+0.05)。不同于傳統(tǒng)單一粒度的卷積核,在實驗中本文使用多粒度的卷積核,即有不同大小的卷積核,每一種粒度的卷積核都可以學習到句子的一種n-gram特征。卷積操作后經(jīng)max-pooling得到固定大小的句子特征向量,串接所有的向量得到句子的最終表示。另外為了防止模型出現(xiàn)過擬合現(xiàn)象,訓練過程中使用了Dropout[16],整個BGRU-CNN模型結構如圖2所示。

        圖2 基于循環(huán)卷積神經(jīng)網(wǎng)絡模型的問答匹配

        2.2 基于注意力機制的問答匹配混合模型

        在BGRU-CNN模型中,對于答案的每個詞向量其實都是同等對待。問題和答案在特征學習的過程中并沒有任何語義上的交互影響,也沒有考慮到一些具有關鍵特征的詞語在答案構造表示中對句子語義匹配的重要性。另外一般句子中都存在很多無關的干擾詞,它們對語義匹配的貢獻度很小,甚至會降低匹配的準確度。而基于注意力機制的混合深度學習模型能夠使問題關注到答案語句中更為重要的特征詞語,讓這些關鍵詞語更多地參與答案的特征表示計算中。

        Soft Attention機制就是對句子的局部重要特征進行重點關注,在模型中為每個詞向量特征設置不同大小的注意力權值系數(shù),不同的權值反映出語義重要性的大小,如以下的一個問答匹配對。

        Q:你知道在上海,有哪些非常好玩的著名景點?

        A:上海是中國最大的經(jīng)濟城市,這里交通發(fā)達,是國際化的大城市,旅游景點也很發(fā)達,主要有東方明珠、外灘、南京路步行街等游玩景點。

        根據(jù)這個問題去匹配候選答案時,則“東方明珠”“外灘”“南京路步行街”這些詞語的語義與問題表述更為相關,所以在模型中應當增強這些詞語的特征表示作用。為了能夠重點關注到答案句子中與問題語義最相關的有效詞語,本文提出的第一個基于注意力機制的問答匹配混合模型叫作AR-BGRU,其主要借鑒Hermann等[17]在閱讀理解相關任務中所提出的一種注意力機制方法稱為AR(Attentive Reader),相對于Tan等[18]提出的Attention-LSTM模型,本文基于BGRU網(wǎng)絡的注意力模型在復雜度上和訓練代價上都更有優(yōu)勢,AR-BGRU模型的網(wǎng)絡結構如圖3所示。

        答案中每一個詞向量的所對應的注意力權值根據(jù)問題決定。從BGRU層輸出的問題詞向量矩陣經(jīng)max-pooling得到問題特征向量rq,答案句子t時刻的輸出ht所對應的權值計算方式如式(2)所示:

        (2)

        其中:Pa,(t)就是h(t)對應的注意力權值,通過rq對h(t)加入注意力使其更新為新的特征向量ha,(t)。h(t)與rq在語義層面越匹配,Pa,(t)所表示的重要性程度系數(shù)也就越大。這種方式可以突出答案中那些與問題相關的詞語,使具有關鍵特征的詞語在答案表示中發(fā)揮著更大的作用。

        圖3 基于AR-BGRU注意力模型的問答匹配

        AR-BGRU模型訓練注意力重要性系數(shù)的方式存在著參數(shù)多、結構復雜的問題,導致模型訓練的代價大;而且max-pooling往往只選取最重要的特征,從而會丟失一些其他較為重要的信息。因此本文提出另外一種基于注意力機制的混合模型,稱作AP-BGRU,不是簡單使用max-pooling去得到最終的答案表示,而是依據(jù)不同的注意力權值系數(shù)通過加權求和的方式去表示答案。與AR-BGRU相比,模型的結構得到簡化,實驗的效果也有所提升,可以更好地在語義層面上匹配到正確的候選答案。AP-BGRU網(wǎng)絡結構如圖4所示。

        圖4 基于AP-BGRU注意力模型的問答匹配

        從BGRU隱藏層輸出得到答案詞向量矩陣A=(a1,a2,…,aT),根據(jù)問題向量rq計算t時刻答案詞向量at的注意力權值系數(shù)?t,其計算方式如式(3)所示:

        (3)

        其中Pt表示at對問題rq的重要性程度函數(shù),其計算公式為:

        (4)

        其中:W是參數(shù)矩陣。所以答案的特征向量表示為ra每個更新后的詞向量做加權求和運算。ra的計算公式為:

        (5)

        通過為不同的詞語設置不同的權值系數(shù),使得與問題無關的詞向量at在最終的答案特征表示中發(fā)揮較小的作用。

        3 實驗與分析

        3.1 詞向量

        深度學習在自然語言處理任務中普遍應用基于分布式的K維稠密實數(shù)向量來表示詞語的特征,通過詞語在向量空間上的距離來判斷它們之間的語義相似度。相對于One-hot語言模型,這種方法不會出現(xiàn)維數(shù)災難。Google在2013年發(fā)布強大開源工具Word2Vec[19]就是一種分布式的詞表征方式。本文使用Word2Vec來預訓練詞向量,訓練語料主要來自爬取的百度百科相關網(wǎng)頁數(shù)據(jù),去除特殊字符和標點符號后,語料庫大小大約有22 GB,所訓練的詞向量維數(shù)d設置為300,句子最大的長度設置為50。

        3.2 實驗設置

        模型的目標函數(shù)定義為:

        L=max{0,m-cos(q,a+)+cos(q,a-)}

        其中:a+為正確答案向量;a-為隨機選取的負向答案向量;m是為了優(yōu)化目標函數(shù)而設置的閾值參數(shù)。目標函數(shù)的意義就是讓正確答案和問題之間的cos值要大于負向答案和問題的cos值。模型的優(yōu)化器設置為Adam[20]來更新神經(jīng)網(wǎng)絡模型中的參數(shù),Dropout rate設置為0.2,卷積核數(shù)c設置為200。實驗環(huán)境是基于Spark 集群的CentOS 6.5服務器,每個CPU有16個核,4塊型號為TITAN X的顯卡,每個顯存大小為12 GB,支持Nvidia Cuda深度學習運算平臺。

        3.3 數(shù)據(jù)集

        數(shù)據(jù)集為NLPCC-ICCPOL 2016 評測任務DBQA所提供的開放域問答數(shù)據(jù)集,數(shù)據(jù)集分為訓練集與測試集。訓練集有8 772個問題,共181 882問答對;測試集有5 997個問題,共122 530個問答對。本文在預處理階段去除了一些常見無意義的停用詞,如“啊”“吧”“的”等。

        3.4 實驗結果

        本文實驗采用了兩種評測指標:準確率(Top-1 accuracy)和平均倒數(shù)排序(Mean Reciprocal Rank, MRR)。實驗結果如表1所示。

        表1 多個模型的實驗評測結果 %

        實驗數(shù)據(jù)集主要是NLPCC-ICCPOL 2016 DBQA Task所提供的中文開放域問答數(shù)據(jù),為了驗證本文模型的有效性,在相同數(shù)據(jù)集下將其他模型的實驗對比結果如表2所示。

        從表2中的實驗結果對比可以看出,就Wu等[21]基于傳統(tǒng)的人工構造特征(如:TF、Edit distance等)模型而言,基于深度學習的雙向長短期記憶網(wǎng)絡(BLSTM)模型在問答匹配上的實驗效果要明顯優(yōu)于基于機器學習的SVM分類排序方法。而本文BGRU-CNN模型與BLSTM相比,MRR指標提高了將近9個百分點,可以推斷出在雙向門限循環(huán)神經(jīng)網(wǎng)絡加卷積層能夠進一步學習到句子中更深層次的語義特征,從而可以提高語義匹配的準確率。在與Wang等模型[22]的實驗對比結果中可以看出,BGRU-CNN實驗效果要比基于Word overlap和Average word embedding特征構造的模型要好很多。這兩個方法存在的共同點就是無法像深度神經(jīng)網(wǎng)絡那樣可以學習到句子中抽象的語義信息。相對于Embedding-based feature方法,BGRU-CNN模型的效果也有一定的提升,MRR指標大約提高了0.7個百分點。從表1~2可以看出,引入注意力機制的AR-BGRU與AP-BGRU模型的實驗效果都要優(yōu)于BGRU-CNN模型,MRR指標分別提高了2.35個百分點和4.73個百分點,從而可以說明基于注意力機制的深度學習混合模型在問答匹配任務上的有效性,它們都可以增強答案特征中與問題最相關的表示部分。另外可以發(fā)現(xiàn)AP-BGRU比AR-BGRU的匹配效果提高了約2.4個百分點,間接地說明基于注意力機制的加權特征構造方式與max-pooling池化方式相比,可以更好地表示答案特征。與Wang等組合多種構造特征(All feature)并通過回歸或者排序學習模型去選取候選答案的方法相比,本文AP-BGRU的效果要稍微差一點,推測這是整個訓練樣本受限的原因。

        表2 與其他相關模型的MRR比較

        4 結語

        針對問答匹配任務,本文提出了三種基于深度學習的模型去改善機器學習方法中存在的不足,實驗結果驗證了本文模型在中文開放域問答數(shù)據(jù)集上的有效性。在不依賴人工構造復雜特征的情況下,本文的模型取得了良好的實驗效果,尤其是在引入注意力機制后,模型的準確率能夠得到進一步的提升。目前中文問答系統(tǒng)的語料相對來說還是欠缺,除了收集和標記更多的語料之外,還可以嘗試如何在深度學習模型中有效地融合傳統(tǒng)的特征提取方法。另外目前基于注意力機制的模型大多數(shù)都是在詞匯級別(word-level)上,而短語級別(phrase-level)的文本可能包含更豐富的語義信息,如何將注意力機制應用到短語級別,更加有效地學習句子的潛在抽象特征,將是未來的重點研究方向。

        References)

        [1] 王元卓, 賈巖濤, 劉大偉, 等. 基于開放網(wǎng)絡知識的信息檢索與數(shù)據(jù)挖掘[J]. 計算機研究與發(fā)展, 2015, 52(2): 456-474. (WANG Y Z, JIA Y T, LIU D W, et al. Open Web knowledge aided information search and data mining[J]. Journal of Computer Research and Development, 2015, 52(2): 456-474.)

        [2] ZHOU T C, LYU M R, KING I. A classification-based approach to question routing in community question answering[C]// Proceedings of the 21st International Conference on World Wide Web. New York: ACM, 2012: 783-790.

        [3] JOHNSON R, ZHANG T. Effective use of word order for text categorization with convolutional neural networks[EB/OL]. [2017- 01- 10]. https://arxiv.org/pdf/1412.1058.pdf.

        [4] ZHANG D, WANG D. Relation classification via recurrent neural network[EB/OL]. [2017- 01- 10]. https://arxiv.org/pdf/1508.01006.pdf.

        [5] SUTSKEVER I, VINYALS O, LE Q V. Sequence to sequence learning with neural networks[C]// NIPS 2014: Proceedings of the 27th International Conference on Neural Information Processing Systems. New York: ACM, 2014: 3104-3112.

        [6] HU B, LU Z, LI H, et al. Convolutional neural network architectures for matching natural language sentences[C]// NIPS 2014: Proceedings of the 27th International Conference on Neural Information Processing Systems. New York: ACM, 2014: 2042-2050.

        [7] GONDEK D C, LALLY A, KALYANPUR A, et al. A framework for merging and ranking of answers in DeepQA[J]. IBM Journal of Research and Development, 2012, 56(3): 399-410.

        [8] WANG C, KALYANPUR A, FAN J, et al. Relation extraction and scoring in DeepQA[J]. IBM Journal of Research and Development, 2012, 56(3): 339-350.

        [9] KASNECI G, SUCHANEK F M, IFRIM G, et al. NAGA: harvesting, searching and ranking knowledge[C]// Proceedings of the 2008 ACM SIGMOD International Conference on Management of Data. New York: ACM, 2008: 1285-1288.

        [10] YIH W T, CHANG M W, MEEK C, et al. Question answering using enhanced lexical semantic models[EB/OL]. [2017- 01- 10]. https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/QA-SentSel-Updated-PostACL.pdf.

        [11] WANG D, NYBERG E. A long short-term memory model for answer sentence selection in question answering[C]// Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. Stroudsburg, PA, USA: Association for Computational Linguistics, 2015: 707-712.

        [12] FENG M, XIANG B, GLASS M R, et al. Applying deep learning to answer selection: a study and an open task[C]// Proceedings of the 2015 IEEE Workshop on Automatic Speech Recognition and Understanding. Piscataway, NJ: IEEE, 2015: 813-820.

        [13] ROCKTASCHEL T, GREFENSTETTE E, HERMANN K M, et al. Reasoning about entailment with neural attention [EB/OL]. [2017- 01- 10]. https://arxiv.org/pdf/1509.06664.pdf.

        [14] YIN W, SCHUTZE H, XIANG B, et al. ABCNN: attention-based convolutional neural network for modeling sentence pairs [EB/OL]. [2017- 01- 10]. https://arxiv.org/pdf/1512.05193.pdf.

        [15] CHUNG J, GULCEHRE C, CHO K H, et al. Empirical evaluation of gated recurrent neural networks on sequence modeling [EB/OL]. [2017- 01- 10]. https://arxiv.org/pdf/1412.3555.pdf.

        [16] SRIVASTAVA N, HINTON G E, KRIZHEVSKY A, et al. Dropout: a simple way to prevent neural networks from overfitting[J]. Journal of Machine Learning Research, 2014, 15(1): 1929-1958.

        [17] HERMANN K M, KOCISKY T, GREFENSTETTE E, et al. Teaching machines to read and comprehend [EB/OL]. [2017- 01- 10]. https://arxiv.org/pdf/1506.03340.pdf.

        [18] TAN M, SANTOS C, XIANG B, et al. LSTM-based deep learning models for non-factoid answer selection [EB/OL]. [2017- 01- 10]. https://arxiv.org/pdf/1511.04108.pdf.

        [19] MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space [EB/OL]. [2017- 01- 10]. https://arxiv.org/pdf/1301.3781.pdf.

        [20] KINGMA D, BA J. Adam: a method for stochastic optimization [EB/OL]. [2017- 01- 10]. https://arxiv.org/pdf/1412.6980.pdf.

        [21] WU F, YANG M, ZHAO T, et al. A hybrid approach to DBQA[C]// Proceedings of the 5th CCF Conference on Natural Language Processing and Chinese Computing, and the 24th International Conference on Computer Processing of Oriental Languages. Berlin: Springer, 2016: 926-933.

        [22] WANG B, NIU J, MA L, et al. A Chinese question answering approach integrating count-based and embedding-based features[C]// Proceedings of the 5th CCF Conference on Natural Language Processing and Chinese Computing, and the 24th International Conference on Computer Processing of Oriental Languages. Berlin: Springer, 2016: 934-941.

        Questionanswermatchingmethodbasedondeeplearning

        RONG Guanghui, HUANG Zhenhua*

        (DepartmentofComputerScienceandTechnology,TongjiUniversity,Shanghai201800,China)

        For Chinese question answer matching tasks, a question answer matching method based on deep learning was proposed to solve the problem of lack of features and low accuracy due to artificial structural feature in machine learning. This method mainly includes 3 different models. The first model is the combination of Recurrent Neural Network (RNN) and Convolutional Neural Network (CNN), which is used to learn the deep semantic features in the sentence and calculate the similarity distance of feature vectors. Moreover, adding two different attention mechanism into this model, the feature representation of answer was constructed according to the question to learn the detailed semantic matching relation of them. Experimental results show that the combined deep nerual network model is superior to the method of feature construction based on machine learning, and the hybrid model based on attention mechanism can further improve the matching accuracy where the best results can reach 80.05% and 68.73% in the standard evaluation of Mean Reciprocal Rank (MRR) and Top-1 accuracy respectively.

        question answer matching; deep learning; Recurrent Neural Network (RNN); Convolution Neural Network (CNN); attention mechanism; machine learning

        2017- 05- 03;

        2017- 07- 09。

        中央高?;究蒲袠I(yè)務費專項資金資助項目(1600219256);上海市青年科技啟明星計劃項目(15QA1403900);上海市自然科學基金資助項目(17ZR1445900);霍英東教育基金會高等院校青年教師基金資助項目(142002)。

        榮光輝(1992—),男,安徽六安人,碩士研究生,主要研究方向:深度學習、自然語言處理; 黃震華(1980—),男,福建泉州人,教授,博士,CCF會員,主要研究方向:數(shù)據(jù)分析、數(shù)據(jù)挖掘、機器學習。

        1001- 9081(2017)10- 2861- 05

        10.11772/j.issn.1001- 9081.2017.10.2861

        TP183

        A

        This work is partially supported by the Fundamental Research Funds for the Central Universities (1600219256), the Sponsored by Shanghai Rising-Star Program (15QA1403900), the Shanghai Natural Science Foundation (17ZR1445900), the Fok Ying-Tong Education Foundation for Young Teachers in the Higher Education Institutions of China (142002).

        RONGGuanghui, born in 1992, M. S. candidate. His research interests include deep learning, natural language processing.

        HUANGZhenhua, born in 1980, Ph. D., professor. His research interests include data analysis, data mining, machine learning.

        猜你喜歡
        注意力語義卷積
        讓注意力“飛”回來
        基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
        語言與語義
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于傅里葉域卷積表示的目標跟蹤算法
        “揚眼”APP:讓注意力“變現(xiàn)”
        傳媒評論(2017年3期)2017-06-13 09:18:10
        A Beautiful Way Of Looking At Things
        “上”與“下”語義的不對稱性及其認知闡釋
        認知范疇模糊與語義模糊
        一種基于卷積神經(jīng)網(wǎng)絡的性別識別方法
        電視技術(2014年19期)2014-03-11 15:38:20
        免费国产自拍在线观看| 国产亚洲曝欧美不卡精品| 97超碰国产一区二区三区| 一区二区三区精品偷拍av| 国内偷拍国内精品多白86| 国产免费无遮挡吸奶头视频| 久久av无码精品人妻出轨| 91久久国产情侣真实对白| 国产自拍视频免费在线观看| 无套中出丰满人妻无码| 精品人妻中文无码av在线| 亚洲av无码一区二区三区性色| 91久久国产综合精品| 久久精品人妻一区二三区 | 亚洲成aⅴ人片久青草影院| 蜜臀av一区二区| 久久久亚洲欧洲日产国码是AV| 全亚洲高清视频在线观看| 亚欧中文字幕久久精品无码| 久久无码人妻一区二区三区午夜| 国产清品夜色一区二区三区不卡| 麻豆成人久久精品二区三区91 | 国产精品亚洲а∨无码播放不卡 | 久久精品免费一区二区喷潮| 好看的欧美熟妇www在线| 亚洲αⅴ无码乱码在线观看性色 | 精品国产午夜理论片不卡| 亚洲一区sm无码| 亚洲一区二区三区免费的视频| 亚洲av无码一区二区一二区| 国产内射性高湖| 绿帽人妻被插出白浆免费观看| 日韩人妻精品中文字幕专区| 一品二品三品中文字幕| 国产成人精品日本亚洲专区6| 激情五月婷婷六月俺也去| 亚州av高清不卡一区二区| 少妇扒开毛茸茸的b自慰| 久久伊人影院| 一区二区三区成人av| 亚洲av无码一区东京热|