亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于詞嵌入擴充的口語對話文本領域分類?

        2016-05-16 05:39:03楊萌萌黃浩
        關鍵詞:詞項文檔口語

        楊萌萌,黃浩

        (新疆大學信息科學與工程學院,新疆烏魯木齊830046)

        0 引言

        口語對話是指人與計算機之間以某種形式通過語音進行信息交換的過程.典型的口語對話系統(tǒng)主要包括以下五個組成部分:自動語音識別、口語理解、對話管理、語言生成和語音合成.口語理解是實現(xiàn)口語對話系統(tǒng)的關鍵技術之一,它的任務是對用戶的口語化輸入和意圖進行解析和理解并從用戶輸入語句中抽取關鍵信息.口語理解方法[1]主要包含三種:基于規(guī)則的方法、基于統(tǒng)計的方法以及兩者的結合.口語對話系統(tǒng)可分為兩種:限制域口語對話系統(tǒng)和開放域口語對話系統(tǒng).由于限制域口語對話系統(tǒng)應用的局限性,對開放域口語對話系統(tǒng)的研究越來越受關注.開放域口語對話系統(tǒng)是針對某幾個領域口語對話進行綜合的系統(tǒng),要提高開放域口語對話系統(tǒng)的有效性,首先需要對語音識別后的口語對話文本進行正確的領域分類.SVM具有較好的分類性能,但需要對訓練數(shù)據(jù)進行大量人工標注.針對以上問題,本文提出了無監(jiān)督的概率生成模型LDA主題分類方法,同時針對數(shù)據(jù)稀疏的問題,采用word2vec對類似于短文本的口語對話文本進行語義擴充,將短文本轉化為長文本,使LDA模型更加有效地估計出口語對話文本的隱含主題.

        1 相關工作

        目前,常見的口語對話系統(tǒng)領域分類方法是SVM,Wu Weilin等人提出了基于SVM的弱監(jiān)督學習方法[2],采用弱監(jiān)督的SVM對口語對話文本進行主題分類.

        隨著LDA主題模型的發(fā)展,LDA已在文本主題分類[3,4]、微博話題發(fā)現(xiàn)[5,6]、自動問答系統(tǒng)[7,8]、物聯(lián)網(wǎng)服務發(fā)現(xiàn)[9]等領域有了廣泛的應用研究.LDA模型在口語對話系統(tǒng)領域的研究是在近幾年出現(xiàn)的.Celikyilmaz[10]等人提出了采用LDA模型進行口語理解領域檢測,即使用LDA模型對口語對話文本進行主題分類.Morchid[11]等人提出了基于LDA模型和高斯分類器的口語對話分類,采用無監(jiān)督的LDA模型和基于決策規(guī)則的高斯分類器,在手機對話系統(tǒng)中進行手機對話服務文本的主題建模和主題分類.

        2 LDA建模方法

        LDA最早由Blei[12]提出,首次將隱含變量用服從狄利克雷分布的模型來描述.LDA模型[13]是一種概率生成模型,即將文檔中的詞按概率分配一定的主題,同時按概率生成文檔中的主題.

        2.1 LDA模型

        LDA模型的基本思想[14,15]是將文檔用不同主題的概率分布表示,將主題用文檔中詞項的概率分布表示.這樣就將文檔從高維詞項空間映射到了低維主題空間,實現(xiàn)了降維目的.

        LDA模型是一個三層貝葉斯結構.LDA模型的圖模型表示如圖1所示.帶陰影的圓圈表示可觀測變量,不帶陰影圓圈表示隱含變量,箭頭表示變量之間的依存關系,方框表示重復,其中右下角的字母表示重復次數(shù).各字母表示的含義為:wd,n表示第d篇文檔中的第n個詞項,zd,n表示第d篇文檔第n個詞項的主題,N表示第d篇文檔中的詞項總數(shù),θd表示第d篇文檔中主題的概率分布,D表示語料庫中文檔總數(shù),α表示主題分布服從的狄利克雷參數(shù),βk表示第k個主題下詞項的概率分布,K表示主題總數(shù),η表示某一主題下詞項分布服從的狄利克雷參數(shù).

        LDA模型的生成過程如下:

        1)文檔中詞項總數(shù)N服從參數(shù)為ξ的泊松分布;

        2)對每篇文檔d∈{1,2,...,D},按概率生成文檔d的主題分布:θd~Dir(α);

        3)對每個主題z∈{1,2,...,K},按概率生成主題z的詞項分布:βk~Dir(η);

        4)對文檔d中的每個詞n∈{1,2,...,N}的生成過程有:

        a)按主題分布θd生成文檔d中第n個詞項的主題:zd,n~Multi(θd)(多項分布);

        b)按詞項分布βk生成所選主題的詞項:wd,n~Multi(βk)(多項分布).

        在以上生成過程中,θ,k,d的聯(lián)合概率為:

        對θ和k進行積分得出d的邊緣概率分布:

        LDA模型的參數(shù)為{α,β},LDA模型的參數(shù)估計方法有變分推理、吉布斯采樣和期望傳播.通過以上算法,最終可得出“文檔-主題”和“主題-詞項”概率分布.

        圖1 LDA圖模型表示

        2.2 口語對話文本的LDA建模

        我們將口語對話文本集看作是文檔集D,將每一次口語對話文本看作是一篇文檔d,將口語對話文本中的詞語看作詞項w,將口語對話文本中的隱含主題看作主題z,其余參數(shù)均與以上LDA模型中的參數(shù)一致,便完成了口語對話文本的LDA建模.

        3 基于word2vec文本擴充的口語對話系統(tǒng)領域分類

        口語對話文本類似于短文本,將口語對話文本進行主題分類類似于短文本主題分類,短文本主題分類中常存在數(shù)據(jù)稀疏的問題.短文本分類方法之一就是文本擴充,將短文本轉化為長文本.word2vec[16]文本擴充的基本思想是通過對word2vec進行訓練,找到口語對話文本中詞語的近義詞或同義詞,并將這些詞和原口語對話文本中的詞一并作為口語對話文本的內(nèi)容,從而將類似于短文本的口語對話文本轉化為長文本,然后對其進行LDA建模和主題分類.

        3.1 word2vec介紹

        word2vec[17]是2013年谷歌發(fā)布的基于深度學習的開源工具,利用神經(jīng)網(wǎng)絡語言模型在大量數(shù)據(jù)集上學習高維向量空間中詞的向量分布,并對詞與詞之間的向量分布進行余弦相似度計算,以此來表示詞與詞之間的句法或語義依存關系.

        word2vec中提出了兩種神經(jīng)網(wǎng)絡語言模型:CBOW(Continuous Bag-of-words)模型和Continuous Skipgram模型.CBOW模型是在前饋神經(jīng)網(wǎng)絡語言模型(Feedforward NNLM)基礎上的改進.前饋NNLM由四個部分組成:輸入層、映射層、隱含層和輸出層,通過映射數(shù)組實現(xiàn)從輸入層到映射層的映射.CBOW模型在前饋NNLM的基礎上去掉了權值多、運算量大的非線性隱含層,同時將映射數(shù)組改成所有詞共享權值的形式,將過去詞和未來詞作為輸入進行訓練和學習來預測當前詞,最終得出詞向量分布,如圖2所示.連續(xù)Skip-gram模型跟CBOW相反,將當前詞作為輸入,來訓練和學習過去詞和未來詞.

        圖2 神經(jīng)網(wǎng)絡語言模型表示

        3.2 基于word2vec文本擴充的口語對話文本LDA建模

        通過word2vec進行文本擴充主要包含以下三個步驟:

        1)生成詞向量

        通過神經(jīng)網(wǎng)絡語言模型對訓練數(shù)據(jù)進行學習,得出每個詞的distributed representation即詞向量.

        2)尋找同義詞或近義詞

        將得出的詞向量構建成詞向量矩陣,將詞與詞之間的相似度計算轉換為詞向量之間的余弦相似度或歐式距離的計算.兩個詞的詞向量越接近,這兩個詞的相似度就越高.

        3)將口語對話文本進行word2vec擴充

        首先,通過word2vec找到訓練數(shù)據(jù)中與口語對話文本d中詞語wdi最相近或最相似的前L個詞:

        然后,通過Wdi對口語對話文本d進行擴充,擴充后的口語對話文本表示為:

        我們將Ed看作是一篇文檔,E看作文檔集Ed的集合,其LDA建模過程與上節(jié)2.2建模過程相同,進而對擴充后的口語對話文本進行主題分類.口語對話系統(tǒng)領域分類的整體框圖如圖3所示.

        圖3 口語對話系統(tǒng)領域分類整體框圖

        4 實驗過程及結果分析

        4.1 實驗環(huán)境和數(shù)據(jù)準備

        實驗環(huán)境為操作系統(tǒng)為Windows 7的一臺Intel(R)Core(TM)電腦;開發(fā)工具為Anaconda提供的spyder,開發(fā)語言為Python,調(diào)用的工具包為gensim.Anaconda是一個科學計算環(huán)境,conda是其自帶的包管理器,包含了使用gensim之前需要安裝的Numpy和Scipy.在Anaconda命令窗口使用pip命令對gensim、jieba等進行安裝,就可以在spyder上進行編程和程序調(diào)用了.jieba是中文分詞工具,用于對問題描述進行中文分詞;gensim是一個用python編寫的庫,包含了TF-IDF、LDA、word2vec等模型工具包的python實現(xiàn).

        本文的數(shù)據(jù)來源為:一部分從“百度百科”下的金融、法律和音樂分類中搜集來文本,根據(jù)搜集的文本人工提問問題,以此來建立問題集,而將搜集來的文本作為word2vec的訓練數(shù)據(jù);另一部分來自于對以天氣為主題的人工提問.我們將以上問題集作為口語對話系統(tǒng)語音識別后的口語對話文本,該問題集總共分為四類,包括金融、法律、音樂、天氣.問句集總共有7 069個問句,其中6 050句作為訓練樣本,1 019句作為測試樣本.具體四類主題的問句在訓練樣本和測試樣本上的數(shù)量分配見表1.

        表1 四類主題的問句在訓練樣本和測試樣本上的數(shù)量分配

        實驗前對數(shù)據(jù)進行預處理.我們將收集到的數(shù)據(jù)保存成純文本格式,引入jieba分詞工具進行中文分詞,建立停用詞表,去除疑問詞、語氣詞等無實際意義的詞,然后進行相關實驗.

        4.2 評價標準

        我們用準確率、召回率和F1值對實驗結果進行評價.Am表示測試集中第m類分類正確的問題數(shù),Bm表示測試集中實際分類為m的問題數(shù),Cm表示測試集中標準分類為m的問題數(shù).Pm表示第m類準確率,Rm表示第m類召回率.

        4.3 實驗結果及分析

        我們以“百度百科”中的相關數(shù)據(jù)作為word2vec的訓練樣本,對問題集進行語義擴充,然后對擴充后的問題集進行LDA建模.LDA模型是一種參數(shù)化的貝葉斯模型,在訓練時需要預先指定主題數(shù)目K.我們選取主題數(shù)K=4,α=1/k并隨機初始化參數(shù)β,對擴充后的問題集進行訓練.為驗證該方法的有效性,我們將該方法與直接使用LDA模型主題分類方法做了比較,分類結果如圖4和圖5.

        圖4 直接使用LDA模型進行主題分類

        由圖4的實驗結果可以得出:在該實驗中,直接使用LDA模型進行分類的分類結果并不穩(wěn)定,實驗分類結果會出現(xiàn)兩種情況,即分為三類和四類的情況.由圖5的實驗結果可以得出:word2vec文本擴充方法的分類結果與擴充長度L有關.當L=8,10時,實驗測試數(shù)據(jù)可準確且穩(wěn)定地分為四類,當L=5,12,15,20時分為三類.由此我們可以得出:實驗數(shù)據(jù)的分類效果與文本擴充長度L有關,當L為8和10時可以準確地分為四類,準確率、召回率和F1值最高,分類效果最好;當L逐漸增大時,實驗分類效果會隨之降低,也就是說并不是擴充長度越長主題分類效果就越好.我們將圖4中分類效果較好的(b)圖同圖5中分類效果較好的L=8時的(b)圖進行比較,詳細數(shù)據(jù)見表2.由此可以看出,擴充后的主題分類的平均準確率、平均召回率和平均F1值與未擴充的主題分類的平均準確率、平均召回率和平均F1值相比分別高出26.1%、25.5%、27.2%,這表明了基于woed2vec文本擴充方法在口語對話系統(tǒng)領域分類的有效性.

        表2 圖4(b)和圖5(b)的分類效果比較

        圖5 基于word2vec文本擴充的LDA主題分類(分別為L=5,8,10,12,15,20的分類情況)

        5 結束語

        針對口語對話系統(tǒng)領域分類任務中傳統(tǒng)分類方法需要人工標注的問題,本文提出了基于LDA模型的領域分類方法,針對口語對話文本主題分類數(shù)據(jù)稀疏的問題,在使用LDA模型基礎上,提出了基于word2vec文本擴充的主題分類方法.與直接進行LDA主題分類方法比較,選取合適擴充長度L的word2vec文本擴充LDA主題分類方法能夠穩(wěn)定地進行主題分類,且主題分類的準確率、召回率和F1值均有明顯提高.這表明了基于woed2vec文本擴充方法在口語對話系統(tǒng)領域分類的有效性.在今后的工作中,將繼續(xù)擴充實驗數(shù)據(jù),對語音識別后的包含一定識別錯誤的口語對話文本進行主題分類,進一步提高主題分類的魯棒性.

        參考文獻:

        [1]吳尉林,陸汝占,段建勇,等.基于兩階段分類的口語理解方法[J].計算機研究與發(fā)展2008,45(5):861-868.

        [2]Wu W L,Lu R Z,Duan J Y,et al.A weakly supervised learning approach for spoken language understanding[C].Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing.Association for Computational Linguistics,2006:199-207.

        [3]李文波,孫樂,張大鯤.基于Labeled-LDA模型的文本分類新算法[J].計算機學報,2008,31(4):620-627.

        [4]王細薇,樊興華,趙軍.一種基于特征擴展的中文短文本分類方法[J].計算機應用,2009,29(3):843-845.

        [5]姜曉偉,王建民,丁貴廣.基于主題模型的微博重要話題發(fā)現(xiàn)與排序方法[J].計算機研究與發(fā)展,2013,50(Suppl):179-185.

        [6]高明,金澈清,錢衛(wèi)寧,等.面向微博系統(tǒng)的實時個性化推薦[J].計算機學報,2014,37(4):963-975.

        [7]余正濤,樊孝忠,郭劍毅,等.基于潛在語義分析的漢語問答系統(tǒng)答案提取[J].計算機學報,2006,29(10):1889-1893.

        [8]Celikyilmaz A,Hakkani-Tur D,Tur G.LDA based similarity modeling for question answering[C].Proceedings of the NAACL HLT 2010 Workshop on Semantic Search.Association for Computational Linguistics,2010:1-9.

        [9]魏強,金芝,許焱.基于概率主題模型的物聯(lián)網(wǎng)服務發(fā)現(xiàn)[J].軟件學報,2014,25(8):1640-1657.

        [10]Celikyilmaz A,Hakkani-T¨ur D Z,T¨ur G.Approximate Inference for Domain Detection in Spoken Language Understanding[C].INTERSPEECH,2011:713-716.

        [11]Morchid M,Linares G,El-Baze,et al.Theme identification in telephone service conversations using quaternions of speech features[C].INTERSPEECH,2013:1394-1398.

        [12]Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation[J].the Journal of machine Learning research,2003,3:993-1022.

        [13]李曉旭.基于概率主題模型的圖像分類和標注的研究[D].北京郵電大學,2012.

        [14]徐戈,王厚峰.自然語言處理中主題模型的發(fā)展[J].計算機學報,2011,34(8):1423-1436.

        [15]張小平,周雪忠,黃厚寬,等.一種改進的LDA主題模型[J].北京交通大學學報:自然科學版,2010(2):111-114.

        [16]MIKOLOV T,SUTSKEVER I,CHEN K,et al.Distributed representations of words and phrases and their compositionality[C]//NIPS 2013:Conference of Neural Information Processing Systems Foundation.Harrahs and Harveys,Lake Tahoe,Nevada,United States:Neural Information Processing Systems Foundation,2013:3111-3119.

        [17]SU Z,XU H,ZHANG D,et al.Chinese sentiment classification using a neural network tool—Word2vec[C]//IEEE MFI 2014:2014 IEEE International conference on Multisensor Fusion and Information Integration for Intelligent Systems.Beijing,China:2014 International Conference on IEEE,2014:1-6.

        猜你喜歡
        詞項文檔口語
        有人一聲不吭向你扔了個文檔
        酒中的口語詩
        文苑(2018年22期)2018-11-19 02:54:18
        自然種類詞項二難、卡茨解決與二維框架
        哲學評論(2018年1期)2018-09-14 02:34:18
        提高口語Level 讓你語出驚人
        學生天地(2017年10期)2017-05-17 05:50:44
        基于RI碼計算的Word復制文檔鑒別
        口語對對碰
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        不讓他人隨意下載Google文檔
        電腦迷(2012年4期)2012-04-29 06:12:13
        BUM-A-RIDE GUIDE 自助游必備搭車口語
        漢語世界(2012年6期)2012-03-25 13:02:00
        英語詞項搭配范圍及可預見度
        无码精品一区二区三区在线| 亚洲一区二区三区在线中文| 国产优质av一区二区三区| 中文字幕亚洲综合久久天堂av| 亚洲春色在线视频| 亚洲精品第一页国产精品| 国产偷闻隔壁人妻内裤av| 开心久久婷婷综合中文字幕| 色狠狠色噜噜av天堂一区| 国内精品久久久久久无码不卡| 国产精品一区二区午夜久久| 久久亚洲春色中文字幕久久| 国产精品女人呻吟在线观看| 国产精品第一二三区久久蜜芽 | 无码精品一区二区三区免费16| 亚洲女同免费在线观看| av中文字幕潮喷人妻系列| 人妻无码中文专区久久五月婷 | 黄页国产精品一区二区免费| 中国久久久一级特黄久久久| 双腿张开被9个男人调教| 久久国产亚洲AV无码麻豆| 日本美女性亚洲精品黄色| 丰满人妻熟妇乱又仑精品| 天天摸日日摸狠狠添| 国产传媒在线视频| 人妻中文久久人妻蜜桃| 国产女主播白浆在线观看| 国产v视频| 一道本中文字幕在线播放| 成午夜福利人试看120秒| 成人黄色网址| 亚洲欧美变态另类综合| 日本免费精品一区二区| 中文字幕aⅴ人妻一区二区| 日韩成人精品在线| 中文字幕一区二区网址| 超碰人人超碰人人| 国产女人18毛片水真多| 亚洲av精品一区二区三| 香蕉久久一区二区不卡无毒影院|