亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于監(jiān)督的RSM改進(jìn)研究

        2014-02-09 07:46:40張立民張建廷
        計算機(jī)工程與設(shè)計 2014年4期
        關(guān)鍵詞:監(jiān)督文本模型

        劉 凱,張立民,張建廷,馬 超

        (海軍航空工程學(xué)院電子信息工程系,山東煙臺264001)

        0 引 言

        文本分析目的在于準(zhǔn)確、高效的提取文檔信息和分析文本語義。RBM[1]作為克服傳統(tǒng)概率主題模型[2-4]后驗概率難以推斷缺點(diǎn)的無向圖模型,受到越來越多的關(guān)注。RAP[5]將詞匯視為泊松分布樣本,較好的實(shí)現(xiàn)文本信息特征的提取,但存在處理不同長度文本計算難度大的問題。RSM[6]克服了RAP的缺點(diǎn)并衍變諸多模型如Document NADE[7,8]、Over Softmax Model[9]等。但上述算法均為無監(jiān)督學(xué)習(xí)方法,對于存在類別屬性的文檔并沒有考慮類別信息對于文本特征提取的影響,本文針對這一問題,在RSM的基礎(chǔ)增加類別信息處理,并提出了基于監(jiān)督的RSM-sRSM。新模型將不僅提高學(xué)習(xí)的收斂速度與收斂精度,而且對于文本表達(dá)更加準(zhǔn)確。

        1 RSM模型

        1.1 受限玻爾茲曼機(jī)

        受限玻爾茲曼機(jī)(RBM)是在玻爾茲曼機(jī)的基礎(chǔ)上增加了限定條件形成的,即層內(nèi)單元無連接、層間單元全連的兩層結(jié)構(gòu)(可見層和隱藏層)的雙向連接馬爾可夫隨機(jī)場(MRF),其網(wǎng)絡(luò)連接如圖1所示。

        圖1 RBM單元連接

        RBM的能量形式請參見文獻(xiàn)[1],如下所示

        由于層間單元是無連接的,可以很方便的推導(dǎo)出隱單元和可見單元的后驗概率分布,分別如下所示[10]

        其中sigm(x)=1/(1+exp (-x))。

        1.2 RSM模型

        Ruslan Salakhutdinov在文獻(xiàn)[6]中提出了RSM,是在RBM的基礎(chǔ)上通過將可見單元設(shè)定為多項分布樣本,實(shí)現(xiàn)了文本的有效表示。RSM中,將每一個文本作為一個RBM的訓(xùn)練樣本,設(shè)定v∈{1,…,K }D,其中K是詞匯單詞的數(shù)量,D是文本的大小,隱單元h∈{0,1 }F代表潛在語義,故可見層為一個K×D的二值矩陣(=1表示在可見單元i的位置上出現(xiàn)的是第k個詞匯),其能量形式如下所示

        其可見單元和隱單元的后驗概率分別為式(6)和式(7)

        RSM模型的單元連接形式如圖2所示。

        圖2 RSM連接

        1.3 CD算法

        RBM可以通過極大似然法則進(jìn)行無監(jiān)督學(xué)習(xí),即最大化數(shù)據(jù)出現(xiàn)的概率,但由于剖分函數(shù)難以計算,因此Hinton于2002年提出了CD算法[11],通過執(zhí)行block Gibbs采樣,提高數(shù)據(jù)的后驗概率分布下限,實(shí)現(xiàn)訓(xùn)練目標(biāo)。

        算法介紹(CD=1):

        ε是CD中隨機(jī)梯度下降的學(xué)習(xí)速率

        W是RBM的權(quán)重矩陣

        b是RBM的輸入偏置

        c是RBM的隱單元偏置

        對于所有的隱單元節(jié)點(diǎn)i

        從后驗概率Q hi|X()

        對于所有的可見單元j

        從后驗概率P (x-j|H+)采樣x-j∈{0,1}

        對于所有的隱單元節(jié)點(diǎn)i

        權(quán)值更新

        2 sRSM模型

        2.1 基于監(jiān)督的RSM模型

        由于RSM為無監(jiān)督學(xué)習(xí)模型,對于帶有類別信息的數(shù)據(jù)并不十分適用,因此提出一種基于監(jiān)督的RSM,新模型通過增加類別單元,影響隱單元的后驗概率分布,實(shí)現(xiàn)帶有類別信息的文本特征的提取。新模型不僅可以適用于帶有類別信息的數(shù)據(jù),而且對于無類別屬性的數(shù)據(jù)也可以直接應(yīng)用,其使用的廣泛性有利于模型的推廣。

        基于監(jiān)督的RSM(sRSM)如圖3所示。類別單元為類別信息的二進(jìn)制編碼表示。sRSM通過新增類別單元以后,其能量形式如下所示

        基于這個能量函數(shù),那么v,(l)的聯(lián)合概率分布見式(10),其中Z為歸一化因子(剖分函數(shù))+采樣h+i∈0,{1}

        圖3 sRSM模型

        隱單元、可見單元與類別單元的激活概率分別見式(11)、式(12)和式(13)

        可見單元和類別單元能夠同時參與生成數(shù)據(jù),若數(shù)據(jù)為無類別數(shù)據(jù),則類別單元L為零向量,即為標(biāo)準(zhǔn)的RSM模型。

        2.2 學(xué)習(xí)算法

        針對于sRSM算法,其學(xué)習(xí)過程(CD=1)改進(jìn)為:輸入:對于一條帶類別信息的文本訓(xùn)練數(shù)據(jù)

        ε是CD中隨機(jī)梯度下降的學(xué)習(xí)速率

        W是RSM的隱單元與可見單元的連接權(quán)重矩陣

        b是RSM的可見單元偏置

        c是RSM的隱單元偏置

        WL是RSM的隱單元與類別單元的連接權(quán)重矩陣

        a是RSM的類別單元偏置

        對于所有的隱單元節(jié)點(diǎn)i

        從后驗概率Q (hi|X+)采樣h+i∈{0,1}

        對于所有的可見單元j

        對x-j進(jìn)行多項采樣,得到新的X-

        從后驗概率Q (ll=1|h+)采樣l-i∈{0,1}

        對于所有的隱單元節(jié)點(diǎn)i

        權(quán)值更新

        3 實(shí)驗結(jié)果及分析

        3.1 重構(gòu)率實(shí)驗

        對于RBM通常通過重構(gòu)誤差[12]來對其進(jìn)行評價。

        從圖4可以得出,sRSM模型的重構(gòu)誤差下降速度要高于RSM,其模型收斂效率和學(xué)習(xí)能力要強(qiáng)于RSM模型。

        圖4 RSM與sRSM重構(gòu)誤差對比

        3.2 文本檢索實(shí)驗

        在設(shè)計完成sRSM模型以后,采用具有類別屬性的20-newgroups作為文本訓(xùn)練集對模型的文本表示性能進(jìn)行測試。

        20-newgroups文檔集共包含18845篇文章,整個文檔集被分為20個不同的新聞組,每一個新聞組包含不同的主題。整個數(shù)據(jù)被分為11314個訓(xùn)練樣本和7531個測試樣本。首先對文本去除停用詞和無用詞;再次提取信息增益最大的前5000個詞匯整合為字典庫;最后將每個文本轉(zhuǎn)變?yōu)橄蛄康男问健?/p>

        模型對文本表達(dá)能力的檢測可以通過簡單的文本檢索指標(biāo)進(jìn)行判斷。通常評價文本模型在信息檢索的效能指標(biāo)有兩個

        由于Ruslan Salakhutdinov在文獻(xiàn)[6]中已經(jīng)表明RSM模型對文本的表示能力已經(jīng)優(yōu)于目前常見的文本表示模型LDA[13],因此新模型sRSM只需要與標(biāo)準(zhǔn)的RSM進(jìn)行比較即可。

        在實(shí)驗中,均將隱單元個數(shù)設(shè)置為120,即M=120;由于20-newgroups中類別個數(shù)為20,則sRSM中的類別單元個數(shù)為5,即L=5,類別數(shù)據(jù)對應(yīng)的類別單元的值即為其二進(jìn)制編碼。

        由于數(shù)據(jù)集較為簡單,在實(shí)驗中,判斷文檔集中的文本是否與查詢文本相關(guān)的判斷標(biāo)準(zhǔn)是兩個文本是否具有的相同的類別標(biāo)簽。對于一個給定的測試文檔,所有的訓(xùn)練文檔按照cosine相似度進(jìn)行排列,然后依次計算檢索出最相關(guān)的1,2,4,8,16,…篇文檔的查準(zhǔn)率和查全率;并且對所有測試文本的計算結(jié)果進(jìn)行平均化,得到其查全—查準(zhǔn)曲線(RPC)如圖5所示。

        圖5 sRSM和RSM的RPC

        由圖5可以看出,sRSM要優(yōu)于RSM,特別是針對小樣本選擇的情況。

        4 結(jié)束語

        本文采用基于監(jiān)督的sRSM,實(shí)現(xiàn)了對帶有類別屬性的文本信息的有效提取。相對于已有的文本信息提取方法,該方法既保留了標(biāo)準(zhǔn)RSM模型簡單、計算隱單元(主題單元)概率快速的優(yōu)點(diǎn),又能夠利用類別單元實(shí)現(xiàn)更迅速的學(xué)習(xí)。此外該模型還可以應(yīng)用到無類別屬性的文本信息處理,具有較廣的應(yīng)用范圍和較高的工程價值。

        [1]LeCun Y,Chopra S,Hadsell R.A tutorial on energy-based learning[J].Predicting Structured Data,2006,20(111):489-548.

        [2]Andriy Mnih,Hinton G E.A scalable hierarchical distributed language model[C]//Vancouver:Advances in Neural Information Processing System,2008:1081-1088.

        [3]Sungjin Ahn,Anoop Korattikara,Max Welling.Bayesian posterior sampling via stochastic gradient fisher scoring[C]//Edinburgh:Proceedings of the 29th International Conference on Machine Learning,2012:1552-1560.

        [4]Salakhutdinov R,Hinton G E.Semantic hashing[J].International Journal of Approximate Reasoning,2009,50(7):969-978.

        [5]Gehler P V,Holub A D,Welling M.The rate adapting poisson model for information retrieval and object recognition[C]//Montreal:Proceedings of the 23rd international conference on Machine learning,2006:337-344.

        [6]Hinton G E,Salakhutdinov R.Replicated softmax:An undirected topic model[C]//Vancouver:Advances in Neural Information Processing Systems,2009:1607-1614.

        [7]Hugo Larochelle,Ian Murray.The neural autoregressive distribution estimator[C]//Fort Lauderdale:Proceedings of the 14th International Conference on Artificial Intelligence and Statistics,2011:29-37.

        [8]Larochelle H,Lauly S.A neural autoregressive topic model[C]//Lake Tahoe:Advances in Neural Information Processing Systems,2012:2717-2725.

        [9]Srivastava N,Salakhutdinov R,Hinton G E.Fast inference and learning for modeling documents with a deep boltzmann machine[C]//Atlanta:Proceedings of the 30th International Conference on Machine Learning.2012:493-510.

        [10]Hinton G E.A practical guide to training restricted Boltzmann machines[R].Toronto:Machine Learning Group University of Toronto,2010:129-136.

        [11]Hinton G E.Training products of experts by minimizing contrastive divergence[J].Neural Computation,2002,14(8):1711-1800.

        [12]Wallach H,Murray I,Salakhutdinov R,et al.Evaluation methods for topic models[C]//Montreal:Proceedings of the 26th International Conference on Machine Learning,2009:1105-1112.

        [13]Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation[J].The Journal of Machine Learning Research,2003,3(10):993-1022.

        猜你喜歡
        監(jiān)督文本模型
        一半模型
        重要模型『一線三等角』
        突出“四個注重” 預(yù)算監(jiān)督顯實(shí)效
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        監(jiān)督見成效 舊貌換新顏
        夯實(shí)監(jiān)督之基
        3D打印中的模型分割與打包
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        国产欧美va欧美va香蕉在| 都市激情亚洲综合一区| 亚洲天堂av黄色在线观看| 中国孕妇变态孕交xxxx| 亚洲处破女av日韩精品| 国产免费网站看v片元遮挡| 日本高清在线一区二区| 女人无遮挡裸交性做爰| 久久夜色精品国产| 国产在线不卡视频| 亚洲蜜臀av一区二区三区漫画| 国产区女主播在线观看| 99香蕉国产精品偷在线观看 | 中文岛国精品亚洲一区| 亚洲人妻御姐中文字幕| 久久国产劲爆∧v内射-百度| 欧美丰满熟妇aaaaa片| 精品国产高清a毛片| 亚洲乱码av一区二区蜜桃av| 99无码熟妇丰满人妻啪啪| 99久久免费精品高清特色大片| 日韩人妻无码精品系列专区无遮| 一本色道久久88加勒比| 亚洲av无码专区亚洲av伊甸园| 97成人精品| 国产精品高清一区二区三区人妖| 久久亚洲中文字幕精品一区| 人妻影音先锋啪啪av资源| 色综合999| 阴唇两边有点白是怎么回事| 亚洲成在人线在线播放无码| 亚洲区在线播放| 国产一区二区三区特黄| 野花香社区在线视频观看播放| 精品国产一区二区三区久久狼| 欧美人与动牲交片免费播放| 亚洲av毛片在线网站| 国产午夜福利100集发布| 自拍亚洲一区欧美另类| 亚洲阿v天堂2018在线观看| 我的美艳丝袜美腿情缘|