亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向特定劃分的主題模型的設(shè)計與實(shí)現(xiàn)*

        2018-07-13 08:54:22周凱文楊智慧馬會心何震瀛荊一楠王曉陽
        計算機(jī)與生活 2018年7期
        關(guān)鍵詞:高斯分布子集向量

        周凱文,楊智慧,馬會心,何震瀛,荊一楠,王曉陽

        復(fù)旦大學(xué) 計算機(jī)科學(xué)技術(shù)學(xué)院,上海 201203

        1 引言

        主題模型是文本分析中的重要研究問題之一。在2010年前,不同的主題模型層出不窮,2010年后由于神經(jīng)網(wǎng)絡(luò)概念的火爆,文本的研究中心逐漸轉(zhuǎn)移。不過主題模型由于其較好的效果以及較為簡易的實(shí)現(xiàn)在文本分類等領(lǐng)域依舊具有很強(qiáng)的生命力。不同的主題模型建模的角度各有不同,如關(guān)聯(lián)主題模型(correlated topic model,CTM)[1]就從主題之間可能存在相互關(guān)聯(lián)的角度用一個邏輯高斯分布進(jìn)行建模,動態(tài)主題模型(dynamic topic model)[2]用高斯分布建模主題的演化過程。不過這些模型依舊是從單篇文檔的角度進(jìn)行建模,而未考慮文本主題分布之間的關(guān)聯(lián)性。

        同時,對于模型推斷方式的研究也層出不窮。以LDA(latent Dirichlet allocation)為例,先后就有變分貝葉斯推斷法、Gibbs采樣法、收縮Gibbs采樣法、EP(expectation propagation[3])法以及收縮變分貝葉斯推斷等方法被提出。各種推斷方法各有利弊,整體來看,可以分為隨機(jī)的采樣法和確定性的變分推斷法兩類。變分推斷法效率高,但存在偏差;采樣法理論上可以收斂到真實(shí)的后驗分布,但收斂速度慢且難以判斷收斂性。因此在考慮推斷方法時還要權(quán)衡不同方法的利弊和模型的實(shí)際情況進(jìn)行選擇。

        2016年1月,習(xí)近平總書記在重慶推動長江經(jīng)濟(jì)帶發(fā)展座談會上指出,“長江病了”,而且病得還不輕?!爱?dāng)前和今后相當(dāng)長一個時期,要把修復(fù)長江生態(tài)環(huán)境擺在壓倒性位置,共抓大保護(hù),不搞大開發(fā)”。2018年4月視察湖北時,習(xí)近平總書記再次強(qiáng)調(diào),“保護(hù)好長江中華民族母親河”“治好‘長江病’,要科學(xué)運(yùn)用中醫(yī)整體觀,追根溯源、診斷病因、找準(zhǔn)病根、分類施策、系統(tǒng)治療”。

        將LDA應(yīng)用于分布式的環(huán)境,以處理更加龐大的文本數(shù)據(jù)規(guī)模也是針對主題模型的研究熱點(diǎn)之一,2008年提出了分布式模型推斷[4],之后各類分布式實(shí)現(xiàn)不斷涌現(xiàn),例如PLDA(parallel latent Dirichlet allocation)[5]分別設(shè)計并實(shí)現(xiàn)了利用MapReduce API以及MPI的分布式LDA,Spark-LDA[6]則將LDA的Gibbs采樣算法應(yīng)用于Spark框架中,這些研究成果豐富了LDA的應(yīng)用情景。

        同時,對主題模型應(yīng)用的研究也有許多成果,例如2D-LDA將LDA應(yīng)用于圖像矩陣,進(jìn)行圖像的特征提取[7],用LDA分類衛(wèi)星圖像[8],以及在醫(yī)療、生物等領(lǐng)域也可以利用主題模型的特征提取能力對大量的數(shù)據(jù)進(jìn)行挖掘。因此主題模型的意義已經(jīng)遠(yuǎn)遠(yuǎn)超過了一個貝葉斯模型的范疇,主題也不再局限為文本的主題,而成為一個抽象的概念。

        文本數(shù)據(jù)庫中的文本可以由一些結(jié)構(gòu)化的屬性劃分為一些子集,每個子集之中的文本存在共性,而這些共性是被如LDA這類假設(shè)文本間獨(dú)立的主題模型所忽略的。因此,本文針對文本數(shù)據(jù)庫的特定劃分,在主題模型中加入了子集的概念,并依據(jù)子集之中的共性對文本進(jìn)行建模。本文將這個全新的主題模型命名為DbLDA(LDAover text database)。

        由于是全新的主題模型,對DbLDA的模型推斷也是本文的主要工作之一。模型近似推斷的方法有很多,本文將對幾種不同的推斷方法進(jìn)行分析,并選取一種比較合適的且較優(yōu)的方法對本文提出的模型進(jìn)行近似推斷。同時,DbLDA模型基于劃分引入了子集的概念,因此模型中也會引入更多的隨機(jī)變量,這些隨機(jī)變量在數(shù)據(jù)挖掘的角度上存在一定的意義,本文也將對此進(jìn)行分析。本文的實(shí)驗部分選取了一種語言模型評估方式,對DbLDA相比于LDA的模型效果進(jìn)行了測試,實(shí)驗還包含對模型運(yùn)行速度的測試,同時最后也對一些模型參數(shù)以及相關(guān)的模型性質(zhì)進(jìn)行了詳細(xì)的討論。

        本文組織結(jié)構(gòu)如下:第1章介紹研究背景,如當(dāng)今主題模型研究成果、模型推斷方式等;第2章介紹相關(guān)工作;第3章介紹DbLDA模型,即本文提出的新的主題模型,包括相關(guān)隨機(jī)變量的意義及模型的物理意義;第4章闡述了近似推斷算法,包括現(xiàn)有近似推斷算法的介紹與比較,對DbLDA的近似推斷過程;第5章為實(shí)驗分析部分,與LDA、CTM對比,對DbLDA的模型效果進(jìn)行評估,包括對模型參數(shù)設(shè)置的討論與分析;第6章對本文工作進(jìn)行了總結(jié)。

        2 相關(guān)工作

        2.1 LDA主題模型

        LDA是2003年由Blei等人提出的主題模型,它基于PLSA(probability latent semantic analysis)等先前的模型,結(jié)合貝葉斯網(wǎng)絡(luò)的思想,提出了如圖1所示的主題模型[9]。

        根據(jù)LDA的圖模型,文本中詞的生成首先從Dirichlet先驗中生成主題分布再生成每個詞所選的主題編號,接著從同樣是由Dirichlet先驗生成的K個主題中選出相應(yīng)的主題生成一個詞[9]。需要注意的是主題是一個V維的向量,即主題是一個詞匯表上的多項分布,而主題分布是一個K維向量,表示一個主題上的多項分布。

        由于加入了貝葉斯先驗,LDA的模型相較當(dāng)時的PLSA更為復(fù)雜,對模型的近似推斷工作較為復(fù)雜。

        2.2 LDA近似推斷

        為了進(jìn)一步探究子集大小劃分帶來的影響,重復(fù)進(jìn)行圖7中的第二組實(shí)驗,即數(shù)據(jù)集為兩個月的Reuters數(shù)據(jù),子集大小為15天新聞文本或30天新聞文本,目的是減少隨機(jī)初始化等不穩(wěn)定因素帶來的波動,結(jié)果如圖8所示。

        精武體育會的這種對外傳播是持續(xù)不斷的。例如1923年10月,又有廣高精武旅行團(tuán)乘港輪龍山號出發(fā),轉(zhuǎn)輪前往南洋。他們“先到星架坡,以次及南洋各屬。荷屬爪哇,法屬安南等埠。沿途以滑稽舞、武化舞、劍舞、鳳舞、音樂新劇、國操、幻燈活動、精武影片等,貢獻(xiàn)于僑胞” [11]。

        2.3 CTM主題模型

        CTM主題模型[1]是Lafferty等人在2005年提出的主題模型,它將LDA主題模型中的先驗分布替換為邏輯高斯分布,用以建模主題之間的關(guān)聯(lián),其生成過程如圖2所示。

        19世紀(jì)末工業(yè)文明興起,機(jī)械設(shè)備的高速批量生產(chǎn)替代傳統(tǒng)緩慢手工制作,讓木地板得以普及.德式歷史建筑室內(nèi)木地板的使用非常普遍.在較高等級的居住建筑室內(nèi)使用相對高檔的鑲花木地板與邊框(Parquetry Floors and Borders),用多種顏色的木材拼成圖案,使用木條鑲花地板或者鑲嵌細(xì)木條可以取得與石材拼花類似的效果.在一般等級的建筑室內(nèi)中,木地板的鋪裝較多采用簡單形式,直線型、人字型最為普遍,沿襲同時期同類型德國本土建筑室內(nèi)地板的鋪裝方式(圖6).

        Fig.2 CTM graphic model圖2 CTM圖模型

        相比LDA主題模型的生成過程,CTM將先驗分布改為邏輯高斯分布,因此建模時多出了一個參數(shù),圖2所示的圖模型為原始論文中的圖模型(省略了對主題矩陣的平滑化處理)。在本文提出的DbLDA主題模型中,同CTM一樣利用了邏輯高斯分布進(jìn)行建模,但是建模的角度有所不同,下一節(jié)將展開分析。

        3 DbLDA模型介紹

        本章基于LDA的模型提出了全新的DbLDA模型,DbLDA融入了子集的概念。3.1節(jié)詳細(xì)介紹DbLDA模型,3.2節(jié)深入分析該模型及其物理意義。

        3.1 生成過程及圖模型

        首先,回顧一下LDA中的文本生成過程:通過從Dirichlet分布生成一個分布作為文章的主題分布,從主題分布中生成這篇文章的主題,然后從相應(yīng)的主題中生成一個單詞,從而獲得文檔中的單詞[9],因此每篇文章的主題分布是獨(dú)立的。

        基于LDA的模型,本文根據(jù)某種給定的劃分方式,加入子集的概念,例如對于一些文本數(shù)據(jù)庫,像新聞數(shù)據(jù)庫,某個時間片段中的文本的主題分布具有一定的相似性,特別是那些報告相同事件的不同新聞頻道的文本,利用時間片段的屬性就可以對數(shù)據(jù)庫進(jìn)行劃分,分成一個個的子集。因此,介紹一個新的文本數(shù)據(jù)庫上的主題模型DbLDA。

        表1列出了本文提出的DbLDA所用到的所有標(biāo)識。在DbLDA中,每個文檔都來源于以下生成過程:

        (1)生成主題矩陣φk~Dir(β)。

        (2)對一個子集生成主題分布θs~L(Dir(α))。

        (3)對子集中的文章,生成主題分布θs,d′|θs~N(θs,Σs)。

        對于變分法而言,由于真實(shí)后驗不可求,變分法通過下式將問題轉(zhuǎn)化為一個最大化問題。事實(shí)(文本)的概率對數(shù)等于KL散度加上事實(shí)下界(evidence lower bound,ELBO),因此最小化KL散度是通過最大化ELBO做到的。

        ①選擇一個主題zs,d,n~Mult(π(θs,d′))。

        ②選擇一個單詞ws,d,n|zs,d,n~Mult(φk)。

        谷振詣、劉壯虎認(rèn)為:“令人擔(dān)憂的不是學(xué)生的批判性思維能力,而是教師的批判性思維能力?!保?0]在創(chuàng)新創(chuàng)業(yè)教育中引入批判性思維教學(xué)模式,勢必要建立專職合理的教研體系,通過集體備課、集體培訓(xùn)有針對性的提高相關(guān)教師的批判性思維,提升其開展批判性思維教育的能力,從而提升創(chuàng)新創(chuàng)業(yè)教育的質(zhì)量。

        其中L是從多項分布參數(shù)向量到自然向量的映射:

        c是一個常數(shù),因此每個多項分布參數(shù)向量對應(yīng)有一個自然參數(shù)向量族。π是從自然參數(shù)向量映射回多項分布參數(shù)向量,

        Table 1 Symbols associated with DbLDA表1 和DbLDA相關(guān)的標(biāo)識

        猜你喜歡
        高斯分布子集向量
        由一道有關(guān)集合的子集個數(shù)題引發(fā)的思考
        向量的分解
        拓?fù)淇臻g中緊致子集的性質(zhì)研究
        利用Box-Cox變換對移動通信中小區(qū)級業(yè)務(wù)流量分布的研究
        聚焦“向量與三角”創(chuàng)新題
        2種非對稱廣義高斯分布模型的構(gòu)造
        關(guān)于奇數(shù)階二元子集的分離序列
        一種基于改進(jìn)混合高斯模型的前景檢測
        向量垂直在解析幾何中的應(yīng)用
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
        亚洲一区二区三区1区2区| 九九九精品成人免费视频小说| 日韩免费小视频| 一区二区三区四区日韩亚洲| 亚洲国产国语在线对白观看| 国产成+人欧美+综合在线观看| 亚洲AV色无码乱码在线观看| 亚洲日本精品一区久久精品| 精品国产亚洲第一区二区三区| 乱中年女人伦av一区二区| 精品一区二区三区在线观看视频| 久久精品女人天堂AV一个| 国产激情在线观看免费视频| 日韩人妻无码一区二区三区久久 | 国产精品亚洲一区二区三区正片| 中文字日产幕码三区国产| 亚洲av不卡一区二区三区| 提供最新的在線欧美综合一区| 色青青女同性恋视频日本熟女| 青青草骚视频在线观看| 狠狠色成人综合网| 亚洲三级香港三级久久| 日本在线一区二区免费| 国产成人精品日本亚洲专区61| 又污又黄又无遮挡的网站| 国产成人综合久久三区北岛玲 | 少妇对白露脸打电话系列| 大陆啪啪福利视频| 国产精品国产三级国产专区不| 少妇粉嫩小泬喷水视频www| 日本在线视频网站www色下载| 在线观看女同一区二区| 色偷偷色噜噜狠狠网站30根| 久久99久久99精品免观看| 日本久久精品免费播放| 麻豆成人久久精品一区| 精品国产av一区二区三区| 亚洲人成亚洲人成在线观看| 亚洲av国产精品色a变脸| 亚洲成av人片天堂网无码| 窝窝影院午夜看片|