亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        結(jié)合句法特征和卷積神經(jīng)網(wǎng)絡(luò)的多意圖識(shí)別模型

        2018-08-27 10:42:36楊春妮馮朝勝
        計(jì)算機(jī)應(yīng)用 2018年7期

        楊春妮,馮朝勝,2

        (1.四川師范大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,成都 610101; 2.電子科技大學(xué) 信息與軟件工程學(xué)院,成都 610054)(*通信作者電子郵箱csfenggy@126.com)

        0 引言

        深度學(xué)習(xí)最近在語(yǔ)音識(shí)別領(lǐng)域取得了顯著成就,人機(jī)交互的方式已從最初的文本信息交互方式發(fā)展到語(yǔ)音交互方式,蘋果的Siri、亞馬遜的Alexa等語(yǔ)音交互助手的廣泛應(yīng)用宣告著語(yǔ)音交互時(shí)代已經(jīng)到來。語(yǔ)音交互的總體流程大致可分為自動(dòng)語(yǔ)音識(shí)別(Automatic Speech Recognition, ASR)、口語(yǔ)理解(Spoken Language Understanding, SLU)、對(duì)話管理(Dialogue Management, DM)和語(yǔ)音合成(Text-To-Speech, TTS)四個(gè)步驟。ASR是將用戶說出的話轉(zhuǎn)化為文本,SLU是理解用戶的意圖并抽取文本中的關(guān)鍵信息,DM是對(duì)機(jī)器和用戶的對(duì)話進(jìn)行管理,TTS是將機(jī)器生成的文本用語(yǔ)音返回給用戶。機(jī)器對(duì)于語(yǔ)義理解的準(zhǔn)確率依賴于ASR的準(zhǔn)確率,但最重要的還是依賴于SLU的準(zhǔn)確率。

        而多意圖(Multi-Intention, MI)識(shí)別是SLU中的難題,與多標(biāo)簽(Multi-Label, ML)分類類似,多意圖識(shí)別難于如何準(zhǔn)確地確定用戶有多少個(gè)意圖,用戶的這些意圖分別屬于什么類別?,F(xiàn)有的研究方法主要分為兩種:一種是將問題轉(zhuǎn)化為傳統(tǒng)的分類問題;二是調(diào)整現(xiàn)有的算法來適應(yīng)多意圖的分類,但都不能更好地解決計(jì)算量大、準(zhǔn)確率低的問題。

        本文針對(duì)如何發(fā)現(xiàn)句子包含多意圖、如何確定具體有幾個(gè)意圖、如何準(zhǔn)確提取用戶多個(gè)意圖這三個(gè)問題,提出了一種結(jié)合句法特征和CNN的多意圖識(shí)別模型。該模型采用現(xiàn)有的智能客服系統(tǒng)的真實(shí)數(shù)據(jù)進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,該模型在多意圖識(shí)別上具有較高的精準(zhǔn)率和召回率,且具有較好的魯棒性和可擴(kuò)展性。

        1 相關(guān)工作

        1.1 意圖分類算法

        意圖分類,就是對(duì)短文本進(jìn)行分類。文本分類除了是語(yǔ)義理解的核心部分,也是信息檢索、信息過濾、情感分析等自然語(yǔ)言處理(Natural Language Processing, NLP)領(lǐng)域各個(gè)任務(wù)的重要組成部分[1]。

        對(duì)于英文短文本分類問題的方法,主要分為基于規(guī)則的方法、基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法?;谝?guī)則的方法首先需要人工進(jìn)行規(guī)則制定,即什么關(guān)鍵詞對(duì)應(yīng)什么類別。這種方式大多使用詞袋模型,從詞袋中選取句子特征;但該方法無法脫離人工制定規(guī)則的部分,且這種方式不易擴(kuò)展?;跈C(jī)器學(xué)習(xí)的方法通常使用分類器,如邏輯回歸、樸素貝葉斯、支持向量機(jī)等,但基于機(jī)器學(xué)習(xí)的方法都無法解決矩陣稀疏的問題,且依賴大量的標(biāo)注性語(yǔ)料,同樣無法降低人工成本。隨著深度學(xué)習(xí)在機(jī)器視覺和語(yǔ)音識(shí)別上取得的顯著成效,研究者們也將其運(yùn)用在文本分類任務(wù)中。文獻(xiàn)[2]提出的單層textCNN模型,利用文獻(xiàn)[3]中訓(xùn)練的詞向量替換原本的句子進(jìn)行CNN訓(xùn)練,該模型在多個(gè)基準(zhǔn)數(shù)據(jù)集上測(cè)試都取得了較好的效果,證明了其可以運(yùn)用在多個(gè)領(lǐng)域的文本分類中。文獻(xiàn)[4]提出了一個(gè)針對(duì)短句子的循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)模型和針對(duì)長(zhǎng)句子的長(zhǎng)短期記憶(Long Short-Term Memory, LSTM)網(wǎng)絡(luò)模型,但是記憶單元深受未登錄詞(Out-Of-Vocabulary, OOV)問題的影響,所以還提出了一個(gè)基于n-gram的算法解決OOV問題,該模型比前饋神經(jīng)網(wǎng)絡(luò)和增強(qiáng)型分類器有更好的效果。因CNN無記憶單元,RNN和LSTM不能局部提取文本特征,一些文獻(xiàn)將這兩種類型的網(wǎng)絡(luò)結(jié)合[5-6]。因神經(jīng)網(wǎng)絡(luò)訓(xùn)練速度緩慢,文獻(xiàn)[7]提出的Fasttext模型,該模型類似于文獻(xiàn)[3]中連續(xù)詞袋(Continuous Bag-Of-Words, CBOW)結(jié)構(gòu),以樹形結(jié)構(gòu)快速訓(xùn)練詞向量和文本分類,該模型的特點(diǎn)就是快,但采用詞袋的方式,忽略了詞語(yǔ)的順序。

        由于中文存在句子分詞不準(zhǔn)、詞匯量大、語(yǔ)義復(fù)雜、語(yǔ)境繁雜等問題,英文的短文本分類法不能直接使用。目前中文的短文本分類法主要分為特征擴(kuò)展的方法和基于深度學(xué)習(xí)的方法。特征擴(kuò)展有基于詞向量的和基于文檔主題生成——潛在狄利克雷分析(Latent Dirichlet Allocation, LDA)模型的方法。文獻(xiàn)[8]基于詞向量提出一種短文本特征擴(kuò)展方法——WEF(Word Embedding Feature),使用多個(gè)數(shù)據(jù)庫(kù)訓(xùn)練詞向量,再對(duì)詞向量進(jìn)行聚類,然后用推理的方法擴(kuò)展短文本的特征。文獻(xiàn)[9]提出了一種利用LDA的主題詞和特征分類權(quán)重相結(jié)合的特征擴(kuò)展方法,并利用不同類別詞匯之間的信息差異的特征權(quán)重分布來克服LDA模型進(jìn)行特征擴(kuò)展的不足?;谏疃葘W(xué)習(xí)的方式主要是利用CNN進(jìn)行短文本分類。文獻(xiàn)[10]提出了一種結(jié)合字符和詞(Char and Phrase, CP)的雙輸入CNN模型——CP-CNN,該方法使用拼音序列的文本表征方式來替換以往的詞向量表征方式,并利用k-max降采樣策略來增強(qiáng)模型的特征表達(dá)能力。文獻(xiàn)[11]提出一種結(jié)合語(yǔ)義擴(kuò)展和CNN的方法,對(duì)新聞數(shù)據(jù)集進(jìn)行分類,首先提取標(biāo)題中的信息,然后利用CNN進(jìn)行語(yǔ)義擴(kuò)展。

        雖然現(xiàn)已提出很多方法來解決新聞數(shù)據(jù)等短文本分類問題,但是上述方法不能很好地解決對(duì)話系統(tǒng)中的意圖分類問題,因?yàn)閷?duì)話系統(tǒng)中的口語(yǔ)句子隨意性更大,特征更難提取。

        1.2 多意圖分類算法

        多意圖分類的研究工作類似于多標(biāo)簽(ML)分類的研究。兩者的相同點(diǎn)是:

        1)類別數(shù)量不確定,有的樣本只屬于一類,而有的樣本屬于多類;

        2)類別之間有相關(guān)性、依賴性,這一問題是多標(biāo)簽分類的一大難點(diǎn)。

        兩者也有不同點(diǎn),多標(biāo)簽分類常用于圖書、文章等長(zhǎng)文本,且標(biāo)簽之前存在關(guān)聯(lián)性;而本文的多意圖分類用于口語(yǔ)短文本,意圖之間大多不具有關(guān)聯(lián)性。

        目前有很多多標(biāo)簽分類算法,根據(jù)解決問題的角度可分為兩類:一是轉(zhuǎn)化問題的方法;二是算法適應(yīng)的方法。轉(zhuǎn)化問題是增加類別,把多個(gè)類別合成一個(gè)新的類別,再使用現(xiàn)有的多分類算法來解決,這是從數(shù)據(jù)的角度來解決;算法適應(yīng)是針對(duì)某一多分類算法進(jìn)行改進(jìn)和擴(kuò)展,使其可以進(jìn)行處理多標(biāo)簽的數(shù)據(jù),這是從算法的角度來解決。轉(zhuǎn)化問題的代表性算法有Label power-set method[12]、Binary Relevance[13]、Calibrated Label Ranking[14]、Randomk-labelsets[15],但是這類方法必然會(huì)增加標(biāo)簽個(gè)數(shù),且需要更大的數(shù)據(jù)量,增加了算法復(fù)雜度。算法適應(yīng)的代表算法有基于K最近鄰(K-Nearest Neighbors,KNN)的方法——ML-KNN(Multi-LabelK-Nearest Neighbors)[16]、基于支持向量機(jī)(Support Vector Machine, SVM)的方法——Rank-SVM(Rank Support Vector Machine)[17]和擴(kuò)展標(biāo)簽依賴的方法——LEAD(multi-label Learning by Exploiting lAbel Dependency)[18],這類方法是針對(duì)問題本身進(jìn)行研究,更加適應(yīng)多標(biāo)簽的分類。隨著深度學(xué)習(xí)的快速發(fā)展,基于此的多標(biāo)簽分類算法也層出不窮,如結(jié)合弱監(jiān)督學(xué)習(xí)和CNN來解決圖片的多標(biāo)簽分類問題[19]、結(jié)合CNN和RNN解決文本的多標(biāo)簽分類問題[20]等。在國(guó)內(nèi)的研究中,文獻(xiàn)[21]提出一種結(jié)合旋轉(zhuǎn)森林和AdaBoost分類器的多標(biāo)簽文本分類法,首先利用旋轉(zhuǎn)森林來分割樣本,通過特征擴(kuò)展形成新的樣本集;然后基于AdaBoost對(duì)樣本分類。文獻(xiàn)[22]提出一種基于隨機(jī)子空間的多標(biāo)簽類屬特征提取算法——LIFT_RSM(Multi-label learning with Label specific FeaTures based on Random Subspace)算法,該方法通過綜合利用隨機(jī)子空間模型和降維方法來提取特征,從而提高分類效果。文獻(xiàn)[23]提出一個(gè)針對(duì)微博句子的多標(biāo)簽情感分類系統(tǒng),首先將語(yǔ)料表示為詞向量,再采用CNN模型將詞向量合為句子向量,最后將這些句子向量作為特征來訓(xùn)練多標(biāo)簽分類器。

        上述方法解決了部分多標(biāo)簽分類問題,但不能直接用來解決語(yǔ)義理解中的多意圖識(shí)別問題。多意圖識(shí)別問題中各個(gè)意圖只屬于一個(gè)類別,因此需要對(duì)文本進(jìn)行句法分析,此外還需要對(duì)用戶進(jìn)行否定情緒判斷。

        2 多意圖識(shí)別模型

        本文的多意圖識(shí)別模型結(jié)合了依存句法分析、語(yǔ)義依存分析、詞頻-逆文檔頻率(Term Frequency-Inverse Document Frequency, TF-IDF)算法、詞向量、標(biāo)準(zhǔn)歐氏距離計(jì)算和卷積神經(jīng)網(wǎng)絡(luò)等。該模型在下文中簡(jiǎn)稱“模型”。

        2.1 模型總體框架

        模型總體框架如圖1所示。模型由4個(gè)部分組成,分別是多意圖發(fā)現(xiàn)模塊(Multi-intention Discovery Module, MDM)、多意圖個(gè)數(shù)識(shí)別模塊(Size of Multi-intention Finding Module, SMFM)、意圖分類模塊(Multi-intention Classification Module, MCM)、情感極性判斷模塊(Emotional Polarity Judgment Module, EPJM)。

        圖1 模型總體框架

        MDM的任務(wù)是利用依存句法分析(Dependency Parsing, DP)提取句子的句法特征,根據(jù)并列關(guān)系發(fā)現(xiàn)句子是否包含多意圖。這一模塊可以發(fā)現(xiàn)句子中顯式的多意圖,且根據(jù)并列關(guān)系的個(gè)數(shù)可初步確定意圖的個(gè)數(shù)。

        SMFM的任務(wù)是識(shí)別句子中多意圖的個(gè)數(shù),即可以對(duì)MDM中顯示的多意圖個(gè)數(shù)進(jìn)行判別,也可以發(fā)現(xiàn)隱式的意圖,主要通過計(jì)算句子中的詞語(yǔ)與意圖類別的關(guān)鍵詞之間的距離,距離越小,詞語(yǔ)與該意圖越相關(guān)。

        MCM的任務(wù)是利用改進(jìn)的CNN模型對(duì)處理后的句子進(jìn)行意圖分類,對(duì)MCM中發(fā)現(xiàn)的意圖分別進(jìn)行分類。用SMFM中計(jì)算的距離矩陣作為CNN模型的輸入,替換一般textCNN的輸入,突出意圖類別的特征。

        EPJM的任務(wù)是正確理解用戶的意圖情感極性,過濾否定極性的意圖。前面的模塊僅僅識(shí)別了句子中包含的意圖,未進(jìn)行情感判斷,EPJM通過對(duì)句子的語(yǔ)義依存分析,提取存在的否定極性,計(jì)算出用戶的真實(shí)意圖。

        2.2 基于句法特征的多意圖發(fā)現(xiàn)

        對(duì)于意圖的發(fā)現(xiàn)采用DP來提取句法特征。DP通過分析句子組成部分間的依存關(guān)系揭示其句法結(jié)構(gòu)特征。直觀地說,DP就是識(shí)別句子中的“主謂賓”“定狀補(bǔ)”等語(yǔ)法成分,并分析各部分之間的關(guān)系。例如,“我想領(lǐng)優(yōu)惠券,還想查詢快遞到哪兒了!”(例1)該句子的DP結(jié)構(gòu)如圖2所示,該結(jié)構(gòu)中包含的關(guān)系如表1所示。

        在多意圖發(fā)現(xiàn)任務(wù)中,需要關(guān)注句子是否含有并列關(guān)系(COOrdinate, COO)。COO可以是相互關(guān)聯(lián)的不同事物,也可以是同一事物的不同方面,還可以是同一主體的不同動(dòng)作。如果句子的DP結(jié)構(gòu)中存在COO時(shí),說明句子中含有多個(gè)事物或動(dòng)作,也就是多個(gè)意圖。

        表1 例1中包含的語(yǔ)義依存關(guān)系

        用SDP={dpi}(i=1,2,…)表示句子s的依存關(guān)系集合,ms表示句子是否為多意圖,計(jì)算公式如式(1)所示:

        (1)

        圖2 例1的依存語(yǔ)義分析結(jié)構(gòu)

        2.3 基于TF-IDF和詞向量的意圖個(gè)數(shù)識(shí)別

        2.3.1 TF-IDF提取關(guān)鍵詞

        TF-IDF是一種基于統(tǒng)計(jì)的常用加權(quán)技術(shù),該值的大小取決于一個(gè)詞在文檔或語(yǔ)料中重要度,因此常用來提取一篇文檔的關(guān)鍵詞或區(qū)別文檔的類別。其中,TF是詞頻(Term Frequency),指一個(gè)詞在一篇文檔中出現(xiàn)的頻率;IDF是反文檔頻率(Inverse Document Frequency),指文檔總數(shù)與包含該詞語(yǔ)的文檔數(shù)之商的對(duì)數(shù)。TF和IDF的公式如下:

        (2)

        (3)

        TFIDF=TF*IDF

        (4)

        式(4)是TF-IDF的計(jì)算方法,在同一類文檔中出現(xiàn)的高頻詞,但又在所有文檔中屬低頻,產(chǎn)生了高權(quán)重的TF-IDF值,因此,TF-IDF高的詞語(yǔ)在特定一類文本中權(quán)重大且預(yù)測(cè)文本分類的能力強(qiáng)。在模型中,首先抽取出每一類意圖中TF-IDF值最高的詞語(yǔ)作為該意圖的關(guān)鍵詞。

        2.3.2 基于詞向量的意圖個(gè)數(shù)識(shí)別

        常用的詞向量技術(shù)是one-hot,但是該技術(shù)形成的是稀疏矩陣,且無法表示詞語(yǔ)和詞語(yǔ)之間的關(guān)系。模型中采用文獻(xiàn)[3]提出的方法來訓(xùn)練詞向量,該模型是通過神經(jīng)網(wǎng)絡(luò)構(gòu)建的語(yǔ)言模型,利用上下文信息將詞語(yǔ)表示為低維向量,向量中的每一維都表示詞語(yǔ)語(yǔ)義,可根據(jù)向量間的距離來表示詞語(yǔ)的相關(guān)性。Rdim表示詞向量空間,dim表示向量空間的維度,詞語(yǔ)向量之間的距離就是詞語(yǔ)的距離,距離越小,兩個(gè)詞語(yǔ)就越相關(guān)。模型用加權(quán)歐氏距離(Weighted Euclidean Distance, WED)表示意圖類別中TF-IDF值高的詞和待識(shí)別句子中各個(gè)詞語(yǔ)的距離。WED是簡(jiǎn)單歐氏距離的改進(jìn)算法,目的是規(guī)避詞向量各維分布不均勻的情況,標(biāo)準(zhǔn)化向量各維數(shù)據(jù)的公式如下:

        x*=(x-m)/a

        (5)

        其中:x和x*表示原始值和標(biāo)準(zhǔn)化后的值;m和a表示向量的均值和標(biāo)準(zhǔn)差。

        假設(shè)有兩個(gè)n維詞向量A={x1,1,x1,2,…,x1,n}與B={y2,1,y2,2,…,y2,n},用普通的歐氏距離公式計(jì)算為:

        (6)

        將標(biāo)準(zhǔn)化公式代入式(6)中可得:

        (7)

        用類卷積操作對(duì)待識(shí)別意圖的句子進(jìn)行距離計(jì)算。具體計(jì)算方式如圖3所示。

        圖3 距離計(jì)算框架

        假設(shè)有nword個(gè)詞語(yǔ)的句子表示為詞向量:

        有nclass個(gè)意圖,這些意圖的關(guān)鍵詞詞向量表示為:

        兩者作類卷積的操作計(jì)算距離disti,k=distance(wi,wk)。

        距離矩陣DIST表示為:

        計(jì)算分為兩個(gè)向量和兩個(gè)操作。兩個(gè)向量是指待識(shí)別句子的詞向量拼接矩陣(Word Embedding)和每個(gè)意圖中TF-IDF值最高的關(guān)鍵詞的詞向量。兩個(gè)操作是指類似于卷積操作和最大池化操作,首先計(jì)算待識(shí)別句子中的每一個(gè)詞與每一個(gè)類別的距離,也就是相關(guān)度,得到WED矩陣;然后通過最大池化操作提取每個(gè)詞最相關(guān)的類別,并設(shè)置一個(gè)相關(guān)度閾值,過濾掉小于該值的類別。經(jīng)過計(jì)算可以識(shí)別出句子所含意圖的個(gè)數(shù)。

        2.4 基于CNN的意圖分類

        目前流行的意圖分類算法中fasttext速度最快,但是實(shí)驗(yàn)表明fasttext模型的準(zhǔn)確率依然不及textCNN模型。而橫向比較深度學(xué)習(xí)解決意圖分類問題的模型中,textCNN模型效果最好,本文的模型就是在該textCNN模型上進(jìn)行改進(jìn)。改進(jìn)的CNN模型框架如圖4所示。對(duì)多意圖的識(shí)別,需突出句子的特征,因此用前面計(jì)算的距離矩陣DIST作為輸入層來替換textCNN模型[8]中的輸入,在通過一個(gè)卷積層和池化層,并經(jīng)過全連接層和softmax層輸出意圖集合T。

        圖4 改進(jìn)的CNN模型框架

        2.4.1 輸入數(shù)據(jù)的構(gòu)造過程

        用DIST替換原來模型中的詞向量拼接矩陣。對(duì)于單意圖分類,直接把DIST作為CNN模型的輸入;對(duì)于多意圖識(shí)別,需依次用DIST的均值替換句子中幾個(gè)和意圖分類最相關(guān)的詞,也就是對(duì)句子中的意圖進(jìn)行一個(gè)一個(gè)識(shí)別,圖中灰色部分表示被均值向量替換后的向量。

        2.4.2 模型訓(xùn)練過程

        模型訓(xùn)練分為4步。

        1)卷積層。設(shè)置卷積核FLT(filter)的尺寸為n*nclass,目的是提取n個(gè)上下文詞語(yǔ)組合的特征,共有m個(gè)FLT,所以計(jì)算后會(huì)有m個(gè)feature map,如式(8)所示:

        c=Relu(∑DIST?FLT+B)

        (8)

        其中:B是偏置量,c是卷積層計(jì)算結(jié)果。

        2)池化層。對(duì)每個(gè)尺寸的feature采用max-pooling最大池化進(jìn)行采樣,然后flatten所有特征值得到全連接層的輸入。

        3)全連接層、softmax層。將特征元素進(jìn)行全連接操作后,通過softmax輸出10個(gè)任務(wù)類型的概率。為了防止過擬合,在全連接層使用了dropout策略,就是在計(jì)算時(shí)隨機(jī)丟掉一定比率訓(xùn)練好的參數(shù),根據(jù)Srivastava等[24]交叉驗(yàn)證實(shí)驗(yàn),確定dropout為0.5的時(shí)候效果最好。反向傳播采用隨機(jī)梯度下降(Stochastic Gradient Descent, SGD)法[25]。

        4)對(duì)輸出向量進(jìn)行分?jǐn)?shù)評(píng)判,設(shè)定分?jǐn)?shù)閾值,若某個(gè)類型出現(xiàn)的概率最大,且超過閾值,則判定句子包含該意圖。

        2.5 基于情感極性判斷的意圖確定

        通常的意圖識(shí)別缺少這一環(huán)節(jié),卻是最關(guān)鍵的環(huán)節(jié)。例如“我想查話費(fèi),不想查快遞”,模型前面的環(huán)節(jié)只能判斷用戶有查話費(fèi)和查快遞的意圖,卻忽略了用戶的否定意圖,因此進(jìn)行用戶情感極性判斷是必要的。模型采用語(yǔ)義依存分析提取句法特征進(jìn)行極性判斷,判斷用戶的肯定情感和否定情感。主要是判斷分析結(jié)果中是否有否定標(biāo)記mNeg(Negation marker)。上例中的語(yǔ)義分析提取結(jié)果如圖5所示,圖中所有標(biāo)記如表2所示。

        情感極性判斷后,利用式(9)計(jì)算用戶最終意圖:

        Y=∑sp·class

        (9)

        其中,意圖class包含否定標(biāo)記mNeg時(shí),則sp為0;反之sp為1。在例2“我想查話費(fèi),不想查快遞”中,包含意圖查話費(fèi)class1和查快遞class2,經(jīng)過語(yǔ)義分析可知class2含有mNeg關(guān)系,因此用戶的最終意圖計(jì)算為:

        class1*1+class2*0=class1

        則上個(gè)例子中用戶的意圖為查話費(fèi)。如果包含3個(gè)及以上意圖,也用同樣的方法計(jì)算。

        圖5 例2的語(yǔ)義依存分析結(jié)構(gòu)

        Tab. 2 Semantic relationship in No. 2 example

        3 實(shí)驗(yàn)結(jié)果及分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)

        實(shí)驗(yàn)數(shù)據(jù)來自正在使用的千行集團(tuán)智能電商客服平臺(tái),共選取了10個(gè)類別,語(yǔ)料共有59 664條,詞數(shù)總計(jì)940 716個(gè),平均句子長(zhǎng)度為15.77。每個(gè)類別的語(yǔ)料分布情況如表3所示。其中,隨機(jī)劃分70%作為訓(xùn)練集,剩下的30%作為測(cè)試集。

        表3 分類語(yǔ)料分布

        3.2 實(shí)驗(yàn)評(píng)價(jià)方法

        本實(shí)驗(yàn)中評(píng)價(jià)方法分為單意圖分類和多意圖識(shí)別兩種評(píng)價(jià)指標(biāo)。

        3.2.1 單意圖分類的評(píng)價(jià)指標(biāo)

        單意圖分類的評(píng)價(jià)指標(biāo)是精準(zhǔn)率(Precision)、召回率(Recall)和F值,具體把每個(gè)分類看成分類正確和不正確這樣的二分類問題,假設(shè)用A表示模型識(shí)別的正樣本個(gè)數(shù),B表示真正的正樣本個(gè)數(shù),則三個(gè)指標(biāo)的計(jì)算方式如下:

        Precision(A,B)=(A∩B)/A

        (10)

        Recall(A,B)=(A∩B)/B

        (11)

        F=(2·Precision·Recall)/(Precision+Recall)

        (12)

        3.2.2 多意圖識(shí)別的評(píng)價(jià)指標(biāo)

        由于多意圖識(shí)別的特殊性,一個(gè)句子包含多個(gè)意圖,評(píng)估效率時(shí)需要對(duì)這些意圖預(yù)測(cè)的類別正誤都進(jìn)行判斷,因此單意圖分類的評(píng)價(jià)指標(biāo)不再適用于此。本實(shí)驗(yàn)采用文獻(xiàn)[21]的評(píng)價(jià)指標(biāo),有:準(zhǔn)確率(Multi-Intention Accuracy, MIA)、精準(zhǔn)率(Multi-Intention Precision, MIP)、召回率(Multi-Intention Recall, MIR)。假設(shè)有|D|個(gè)多意圖樣本(xi,Yi),0≤i≤|D|。Zi=H(xi)表示多意圖分類器對(duì)待測(cè)樣本集的預(yù)測(cè)結(jié)果集合,則具體計(jì)算方法如下:

        (13)

        (14)

        (15)

        3.3 關(guān)鍵詞提取

        根據(jù)TF-IDF算法提取的每一類的關(guān)鍵詞如表4所示。從表4結(jié)果可以看出,提取的關(guān)鍵詞都貼近各自的類別,說明該算法的效果好,準(zhǔn)確率高。

        表4 關(guān)鍵詞提取結(jié)果

        3.4 單意圖分類實(shí)驗(yàn)

        在單意圖分類實(shí)驗(yàn)中,把改進(jìn)的CNN模型與文獻(xiàn)[2]的textCNN模型和文獻(xiàn)[7]的fasttext模型進(jìn)行對(duì)比,分別對(duì)比了3種模型對(duì)實(shí)驗(yàn)數(shù)據(jù)中的10個(gè)類別的分類效果,實(shí)驗(yàn)結(jié)果如圖6所示。

        從圖6(a)可以看出,fasttext模型的對(duì)c1、c3、c5、c6、c7、c10分類的精準(zhǔn)率都低于另外兩種模型,且在10個(gè)類別上的分類效果不穩(wěn)定,c8和c10的精準(zhǔn)率差距達(dá)25個(gè)百分點(diǎn)。說明fasttext模型對(duì)口語(yǔ)意圖的分類不具有普遍適應(yīng)性,即難以用這一種模型適應(yīng)有多種意圖且特征隱藏又復(fù)雜的情況。textCNN模型分類的精準(zhǔn)率相對(duì)于fasttext模型更穩(wěn)定,但是整體精準(zhǔn)效果低于本文模型。本文模型分類的精準(zhǔn)率和穩(wěn)定性更高,除對(duì)c3的效果稍低于textCNN模型以外,其他類別都高于另外兩個(gè)模型。在對(duì)c6的分類結(jié)果中,分別高出fasttext模型和textCNN模型11個(gè)百分點(diǎn)和3個(gè)百分點(diǎn);在對(duì)c10的分類結(jié)果中,分別高出fasttext模型和textCNN模型17個(gè)百分點(diǎn)和6個(gè)百分點(diǎn)。從圖6(b)可以看出:fasttext模型的召回率普遍低于另外兩個(gè)模型;textCNN模型對(duì)各個(gè)類別的召回率不穩(wěn)定,高低起伏較大;而本文模型召回率普遍高于前兩個(gè)模型,且穩(wěn)定性更高。從圖6(c)和圖6(d)可以看出,雖然本文模型有極少的類別的分類效果不及另外兩個(gè)模型,但是總體來看效果最好。綜上所述,本文模型對(duì)處理隨意性大、特征稀疏的句子效果更好。

        圖6 3種模型的評(píng)價(jià)指標(biāo)對(duì)比

        3.5 多意圖分類實(shí)驗(yàn)

        多意圖分類實(shí)驗(yàn)分別從客服平臺(tái)中整理了2 000條含2個(gè)意圖的句子和2 000條含3個(gè)意圖的句子,隨機(jī)打亂順序后利用訓(xùn)練好的模型進(jìn)行實(shí)驗(yàn)。

        3.5.1 距離閾值對(duì)意圖個(gè)數(shù)識(shí)別的準(zhǔn)確率的影響

        圖7展現(xiàn)了不同的距離閾值對(duì)意圖個(gè)數(shù)識(shí)別的影響。由圖7可以看出,閾值在0.855之前是上升趨勢(shì),而之后呈下降趨勢(shì),說明閾值過大會(huì)導(dǎo)致識(shí)別的意圖個(gè)數(shù)為0,從而降低準(zhǔn)確率;過小則會(huì)增加意圖的個(gè)數(shù),同樣降低準(zhǔn)確率。最后選取0.855進(jìn)行下面的實(shí)驗(yàn)。

        3.5.2 多意圖識(shí)別部分實(shí)驗(yàn)結(jié)果

        多意圖識(shí)別的部分實(shí)驗(yàn)結(jié)果如表5所示,實(shí)驗(yàn)隨機(jī)對(duì)含有1~3個(gè)意圖的句子進(jìn)行識(shí)別。S5是含有否定情感的句子,涉及3個(gè)意圖,但實(shí)際只有2個(gè)意圖。

        圖7 距離閾值與意圖個(gè)數(shù)識(shí)別準(zhǔn)確率的關(guān)系

        Tab. 5 Partial experimental results of multi-intention recognition

        3.5.3 多意圖識(shí)別模型對(duì)比實(shí)驗(yàn)

        根據(jù)前面距離閾值與意圖個(gè)數(shù)識(shí)別的關(guān)系,選擇效果最好的0.855作為距離閾值進(jìn)行多意圖識(shí)別實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果分別取模型迭代1~15次的結(jié)果。將本文模型與文獻(xiàn)[16]的ML-KNN模型和文獻(xiàn)[23]的CNN特征空間模型對(duì)比,結(jié)果如圖8所示。

        從圖8(a)可知,三個(gè)模型的MIA值在多次迭代后都趨于平穩(wěn)上升趨勢(shì),但本文模型在整體迭代過程中分別比文獻(xiàn)[23]模型和文獻(xiàn)[16]模型平均高出10個(gè)百分點(diǎn)和20個(gè)百分點(diǎn)。從圖8(b)可知本文模型對(duì)多意圖識(shí)別的MIP值最高,分別比文獻(xiàn)[23]模型和文獻(xiàn)[16]模型平均高出25個(gè)百分點(diǎn)和31個(gè)百分點(diǎn)。從圖8(c)可知3個(gè)模型的召回率非平穩(wěn)變化,在迭代過程中均有抖動(dòng),其中文獻(xiàn)[16]模型抖動(dòng)更劇烈。綜合3個(gè)指標(biāo)來看,本文模型比另外兩個(gè)模型效果更好。

        4 結(jié)語(yǔ)

        為解決多意圖識(shí)別中發(fā)現(xiàn)意圖、抽取意圖和判別意圖類型這幾個(gè)問題,本文提出了結(jié)合句法特征和CNN的多意圖識(shí)別模型,其中利用了依存句法分析、TF-IDF、CNN等技術(shù)來解決多意圖識(shí)別問題。在10個(gè)類別的單意圖分類和多意圖識(shí)別實(shí)驗(yàn)中,本文模型相比其他模型都取得了較好的效果,證明了其穩(wěn)定性和有效性。

        由于中文的復(fù)雜性,本文依賴于句法分析的結(jié)果;此外,僅將用戶意圖的情感粗粒度地分成兩個(gè)極性——否定和非否定,但實(shí)際上用戶表達(dá)意圖的情感更加細(xì)粒度。在今后的工作中,將對(duì)這兩個(gè)問題開展進(jìn)一步的研究。

        国产精品美女久久久久久大全| 无码日韩精品一区二区免费暖暖| 精品国产性色无码av网站| 老头巨大挺进莹莹的体内免费视频 | 国产精品你懂的在线播放 | 国产哟交泬泬视频在线播放| 日本一区二区三区在线视频观看 | 免费国人成人自拍视频| 91精品国产91综合久久蜜臀| 午夜免费视频| 破了亲妺妺的处免费视频国产| 麻豆密入视频在线观看| 青青草手机在线免费视频| 亚洲av永久无码精品网站| 国产精品美女久久久久| 亚洲中文字幕巨乳人妻| 欧美巨大xxxx做受中文字幕| 日韩极品在线观看视频| 国产激情无码一区二区| 亚洲av无码乱码国产精品fc2| 天天澡天天揉揉AV无码人妻斩| 国产麻豆一区二区三区在| 麻豆精品国产av在线网址| 国产精品ⅴ无码大片在线看| 午夜无码一区二区三区在线| 国产三级精品三级在专区中文| 亚洲午夜久久久精品影院| 丰满老熟妇好大bbbbb| 色婷婷狠狠97成为人免费| 国产一区二区av在线免费观看| 久久精品国产精品青草| 国产一区视频在线免费观看| 久久精品国产视频在热| 亚洲免费在线视频播放| 免费a级毛片无码a∨中文字幕下载| 亚洲国产另类精品| 亚洲精品成AV无在线观看| 国产大屁股熟女流白浆一区二区| 国内精品久久久久久99| 1000部精品久久久久久久久| 国产真实二区一区在线亚洲|