亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向多源數(shù)據(jù)的可擴展主題建模分析框架*

        2019-07-18 01:08:08張靈簫趙俊峰鄒艷珍
        計算機與生活 2019年5期
        關(guān)鍵詞:數(shù)據(jù)源視圖文檔

        唐 爽,張靈簫,趙俊峰,3+,謝 冰,3,鄒艷珍,3

        1.北京大學(xué) 信息科學(xué)技術(shù)學(xué)院,北京 100871

        2.高可信軟件技術(shù)教育部重點實驗室,北京 100871

        3.北京大學(xué)(天津濱海)新一代信息技術(shù)研究院,天津 300450

        1 概述

        隨著大數(shù)據(jù)相關(guān)技術(shù)的不斷發(fā)展和應(yīng)用,數(shù)據(jù)的獲取和存儲變得越來越方便,計算機系統(tǒng)中積累了來自各種行業(yè)海量的數(shù)據(jù)[1-3],這些數(shù)據(jù)包括日常生產(chǎn)、業(yè)務(wù)、交易等過程中的記錄,從互聯(lián)網(wǎng)中搜集到的數(shù)據(jù)集,還有來自自動監(jiān)測系統(tǒng)的監(jiān)測指標等。對這些數(shù)據(jù)進行分析處理,能夠獲取大量有價值的信息[4-7]。由于現(xiàn)有的大量系統(tǒng)都基于SQL(structured query language)數(shù)據(jù)庫,這些數(shù)據(jù)中有很大一部分都是結(jié)構(gòu)化數(shù)據(jù),分析處理這些結(jié)構(gòu)化數(shù)據(jù)是一個重要工作[8-9]。這些結(jié)構(gòu)化數(shù)據(jù)具有高維度、低質(zhì)量、無標注等特點[1,8],因此從原始數(shù)據(jù)中采用無監(jiān)督的方式進行特征抽取,并對原始數(shù)據(jù)進行信息提煉和降維是提高分析效率和效果的必要手段。

        主題建模(topic modeling)技術(shù)[10]最初是從自然語言文本中抽取主題信息的一種技術(shù),該技術(shù)假設(shè)主題是一組語義相關(guān)的詞語,而文章由多個主題混合而成。由于主題建模擁有對數(shù)據(jù)原始特征進行抽象的能力,它實際上成為了一種通用性的高級特征抽取方法。除此之外主題建模還是一種無監(jiān)督學(xué)習(xí)方法,它能對無標注數(shù)據(jù)進行分析,因此本文選擇主題建模方法來處理前面所提到的大量高維度、低質(zhì)量、無標注的結(jié)構(gòu)化數(shù)據(jù)。目前已有大量研究工作致力于將主題建模技術(shù)應(yīng)用到結(jié)構(gòu)化數(shù)據(jù)分析中去,例如基于電子商務(wù)交易數(shù)據(jù)的用戶畫像[11],基于診療記錄的臨床路徑模式發(fā)現(xiàn)[12]等。

        要將主題建模技術(shù)更好地應(yīng)用于結(jié)構(gòu)化數(shù)據(jù),還有很多問題需要解決,主要有以下三方面:

        (1)結(jié)構(gòu)化數(shù)據(jù)由二維表來邏輯表達和實現(xiàn),包含表內(nèi)字段和表間關(guān)聯(lián)信息,這與由標題和詞語集合組成的文檔數(shù)據(jù)有較大差異,無法直接作為主題建模的輸入,通常需要進行轉(zhuǎn)化處理。

        (2)樸素的主題建模算法不支持對表內(nèi)多個字段以及多表關(guān)聯(lián)信息進行建模,因此無法滿足對結(jié)構(gòu)化數(shù)據(jù)的分析需求,需要對其進行擴展。

        (3)主題建模的結(jié)果非常抽象,需要良好的可視化方法便于用戶理解。

        目前常用的主題建模工具1)MALLET,http://mallet.cs.umass.edu;Stanford TMT,https://nlp.stanford.edu/software/tmt/tmt-0.4;Gensim,https://radimrehurek.com/gensim。均不能很好地解決以上問題,針對這一情況,本文提出了一個基于可擴展主題建模技術(shù)的數(shù)據(jù)分析框架DBInsight,它能夠?qū)ΠńY(jié)構(gòu)化數(shù)據(jù)在內(nèi)的多源數(shù)據(jù)進行主題建模分析,并提供可視化結(jié)果展示。本文的主要貢獻有:

        (1)提出了針對結(jié)構(gòu)化數(shù)據(jù)特點進行建模分析的兩種擴展主題模型。

        (2)提出了一個基于可擴展主題建模技術(shù)的多源數(shù)據(jù)分析框架。

        (3)根據(jù)上述數(shù)據(jù)分析框架實現(xiàn)了一個數(shù)據(jù)分析工具,通過對兩個現(xiàn)實數(shù)據(jù)集的分析,證明該框架是可行有效的。

        本文后續(xù)內(nèi)容組織如下:第2章介紹擴展的主題模型;第3章詳細介紹基于可擴展主題建模技術(shù)的多源數(shù)據(jù)分析框架;第4章展示根據(jù)此框架實現(xiàn)的數(shù)據(jù)分析工具以及實驗;第5章是總結(jié)和未來工作。

        2 擴展的主題模型

        2.1 樸素LDA主題模型

        潛在狄利克雷分布(latent Dirichlet allocation,LDA)[13]是最樸素的主題模型,其基礎(chǔ)假設(shè)是文章是由多個主題構(gòu)成的,而每個主題都是詞集的一個概率分布。

        用概率圖模型[14]描述LDA算法的實例生成過程如圖1,其過程可以描述為:

        (1)從以β為參數(shù)的Dirichlet分布中抽樣K個主題的詞語分布φ。

        (2)從以α為參數(shù)的Dirichlet分布中抽樣M個文檔的主題分布θ。

        (3)對于第i篇文檔的第j個詞語,首先從第i篇文檔的主題分布中抽樣一個主題zi,j,然后從該主題的詞語分布中抽樣一個詞語xi,j。

        (4)重復(fù)過程3,直到生成所有的N個詞語。

        Fig.1 LDAprobabilistic graphical model圖1LDA概率圖模型

        求解LDA模型的普遍方法是吉布斯采樣,其流程可以概括為:對z值進行隨機初始化,多次迭代進行吉布斯采樣(為每一個z重新分配主題),最后對z值進行計數(shù)求得分布θ和φ。該算法的關(guān)鍵在于為z重新分配主題k′:p(z=k′|z-i,x)。在這里需要根據(jù)其他所有位置上的主題分布計算當前位置上分配到每個主題k的概率p(z=k′|z-i,x),并且將所有k個主題的概率合并為一個多項分布并對其抽樣,將抽樣得到的主題k′賦給當前位置上的z值。下面給出p(z=k′|z-i,x)的計算公式:

        式(1)中,k代表當前位置上分配k主題時的概率,x代表當前位置上的特征,m代表當前實例的編號。公式右邊由兩個因子組成。首先,代表所有實例中x分配給主題k的計數(shù),而代表所有分配給主題k的任意特征的計數(shù)。兩式各加上Dirichlet先驗β做平滑后相除,實際上代表了所有分配了主題k的詞中當前的x所占的比例。同理,右側(cè)因子中代表文檔m中分配給k主題的特征的個數(shù),代表實例的所有詞個數(shù)。兩式各加上Dirichlet先驗α做平滑后相除得到當前實例m中主題k所占的比例。式(1)語義為:當前位置分配主題k的概率等于當前實例中主題k的占比乘以主題k中當前特征的占比,實際上就代表了實例從主題到特征的生成過程。

        2.2 多視圖LDA主題模型

        樸素LDA主題模型只考慮單種詞語,不適合處理多表關(guān)聯(lián)的結(jié)構(gòu)化數(shù)據(jù)。針對關(guān)系型數(shù)據(jù)庫中常見的多表關(guān)聯(lián)關(guān)系,將樸素主題模型擴展到多視圖主題模型,將多個表看作描述同一實例的不同視圖,從而在主題中包含屬于多個視圖的關(guān)聯(lián)特征。這種擴展后的模型能充分利用不同視圖之間互補的特性提高建模效果。

        多視圖LDA主題模型的概率圖模型如圖2,它在樸素LDA主題模型的基礎(chǔ)上增加了多個視圖下的主題詞語分布。圖2中,α是主題分布的超參數(shù),θ表示每個實例(文檔)的主題分布。每個視圖有獨立的主題分配變量z,產(chǎn)生的特征x,主題-特征分布φ,以及超參數(shù)β。同時,所有視圖中的特征最終是由同一個主題分布θ抽樣產(chǎn)生的,該θ代表了模型不同視圖間的共同優(yōu)化目標。圖2展示了包含兩個不同視圖的模型,而多視圖的LDA可以擴展到包含任意多個不同視圖的場景,可以適應(yīng)包含任意數(shù)量的關(guān)聯(lián)表的數(shù)據(jù)。對于包含n個關(guān)聯(lián)表的數(shù)據(jù),每一個實例的實例主題分布是唯一的,它主導(dǎo)了n類不同特征的生成,每類特征都包含各自的φ,每一個主題包含n個對應(yīng)的主題-特征分布。

        Fig.2 Multi-view LDAprobabilistic graphical model圖2 多視圖LDA概率圖模型

        多視圖LDA模型的求解過程與樸素LDA類似,主要區(qū)別在于為z重新分配主題時只計算該視圖下的特征占比,以圖2中視圖A為例,其核心概率計算公式如下:

        式(2)中,左邊的因子用于估算當前視圖中的主題-特征分布,右邊的因子用所有視圖中特征計數(shù)估算實例-主題分布,該因子在計算每個視圖中特征主題分配概率時形式都相同,實際上起到了在各個視圖之間傳遞信息,達到“共識”的目的。

        2.3 多屬性LDA主題模型

        樸素LDA主題模型無法考慮數(shù)據(jù)集中非文本信息,如連續(xù)數(shù)值等。而結(jié)構(gòu)化數(shù)據(jù)中每一個表內(nèi)存在大量的非文本數(shù)據(jù),為了充分利用這些非文本數(shù)據(jù),將樸素主題模型擴展為多屬性主題模型,其核心思想為:將數(shù)據(jù)表中每一個字段都看作描述主題特征的一種屬性,根據(jù)多個屬性能劃分出更準確的主題。它的思路是在樸素LDA中增加代表屬性的隨機變量。

        Fig.3 Multi-attribute LDAprobabilistic graphical model圖3 多屬性LDA概率圖模型

        多屬性LDA主題模型的概率圖模型如圖3,圖中f表示描述屬性的隨機變量,λ代表f所服從的概率分布。注意由于f所服從的概率分布由x和z共同決定,不同的主題和特征對應(yīng)不同的λ。因此包含λ的方框總共重復(fù)K×V次,代表模型中總共包含K×V個不同的λ。這里K代表主題個數(shù),V代表特征的種類數(shù)。此外,還為λ引入了概率分布的先驗γ。由于不同特征服從不同的概率分布,甚至可能為不同類型的值(離散型或者連續(xù)型),因此很多情況下往往需要對不同的特征分別確定其合適的γ先驗,其分布是λ分布的共軛先驗分布。例如在電子病歷的檢驗檢查數(shù)據(jù)中,不同檢查項目的取值范圍是非常不同的,如果將檢查項目結(jié)果作為不同的特征,那么對于V類特征自然應(yīng)該有不同的V種先驗。

        多屬性LDA的求解在樸素LDA的基礎(chǔ)上要增加對特征值的考慮,以增加一種屬性f為例,其核心概率計算公式如下:

        可以看到,為z分配新的主題時還要考慮特征值f。式(3)中第三項因子代表當前位置上的屬性f在該位置上特征xi和主題分配zi確定的情況下,給定其他該主題和該特征下的屬性值,該屬性取當前值的概率。該項的計算由該特征的先驗分布決定,增加多種屬性就在公式中再添加與此類似的對應(yīng)項。

        以上提出的多視圖LDA、多屬性LDA兩種算法分別是針對結(jié)構(gòu)化數(shù)據(jù)的多表關(guān)聯(lián)關(guān)系以及表內(nèi)多字段對應(yīng)關(guān)系進行主題建模分析的擴展算法。在實際應(yīng)用中兩者還能進一步結(jié)合成為多視圖多屬性LDA算法,能夠較好地滿足結(jié)構(gòu)化數(shù)據(jù)分析需求,同時該圖模型還能夠進一步擴展,該算法理論上支持對任意多視圖,每個視圖內(nèi)任意多特征同時進行分析,具有可擴展性,因此本文稱之為可擴展主題模型,運用該模型進行主題建模分析的技術(shù)稱為“可擴展主題建模技術(shù)”。

        3 多源數(shù)據(jù)分析框架

        3.1 問題分析

        本文將多源數(shù)據(jù)的分析流程分為三部分:數(shù)據(jù)導(dǎo)入、數(shù)據(jù)分析以及數(shù)據(jù)可視化。

        (1)數(shù)據(jù)導(dǎo)入。將外部不同來源的數(shù)據(jù)轉(zhuǎn)化為主題建模算法的輸入格式,并根據(jù)需求進行預(yù)處理,消除不同來源數(shù)據(jù)的差異性。為了支持多源數(shù)據(jù)靈活組合,系統(tǒng)應(yīng)提供通用的數(shù)據(jù)接口,以接入不同來源的數(shù)據(jù)。

        (2)數(shù)據(jù)分析。為了增加分析框架的適用范圍,該框架支持多種不同的主題建模算法,并且能夠靈活地修改算法參數(shù)。

        (3)數(shù)據(jù)可視化。將主題建模的結(jié)果進行可視化,方便用戶快速地了解主題建模的結(jié)果。由于主題建模算法有許多種,工具還應(yīng)該支持為特定算法擴展單獨的可視化方法。

        3.2 框架總體設(shè)計

        DBInsight框架主要分為三部分,如圖4所示。

        (1)數(shù)據(jù)導(dǎo)入。數(shù)據(jù)導(dǎo)入過程分為三個步驟:一是訪問外部數(shù)據(jù)源,這里需要用戶提供訪問數(shù)據(jù)源所需的連接信息;二是將外部數(shù)據(jù)轉(zhuǎn)化為主題模型算法標準文檔格式(文檔集,包含多篇由名稱和詞語集合組成的文檔);三是對文檔進行預(yù)處理,例如html、xml格式解析,長文本分詞,去除停用詞等。

        (2)數(shù)據(jù)分析。數(shù)據(jù)分析的核心是主題建模算法。數(shù)據(jù)分析時用戶能夠選擇要分析的文檔集,要使用的主題建模算法,并且設(shè)置算法所需參數(shù),例如LDA算法需要設(shè)定參數(shù)α、β以及主題數(shù)目。為了提高框架的可用性,本框架對算法擴展提供良好的支持,方便用戶添加新的建模算法。

        (3)數(shù)據(jù)可視化。根據(jù)建模結(jié)果的特點,選擇適當?shù)目梢暬绞?。除了對基本分析結(jié)果可視化以外,框架還支持在分析結(jié)果上進一步的深入分析,并將分析結(jié)果可視化。對于特定算法可視化的支持,通過提供擴展接口實現(xiàn)。

        Fig.4 DBInsight frame diagram圖4 DBInsight框架圖

        3.3 數(shù)據(jù)導(dǎo)入

        數(shù)據(jù)導(dǎo)入部分主要分為三個步驟:訪問數(shù)據(jù)源、導(dǎo)入數(shù)據(jù)、數(shù)據(jù)預(yù)處理。其中前兩個步驟將外部多源數(shù)據(jù)轉(zhuǎn)化為標準文檔格式,第三個步驟在標準格式的基礎(chǔ)上進行預(yù)處理。

        3.3.1 訪問數(shù)據(jù)源并導(dǎo)入數(shù)據(jù)

        訪問數(shù)據(jù)源以及導(dǎo)入數(shù)據(jù)的流程如圖5所示。DBInsight框架使用數(shù)據(jù)源、數(shù)據(jù)塊以及導(dǎo)入器三個概念對這一流程進行建模。其中數(shù)據(jù)源指用戶輸入的外部數(shù)據(jù)來源信息,利用這些信息能建立到外部數(shù)據(jù)源的連接。數(shù)據(jù)塊即本文定義的標準文檔格式的數(shù)據(jù)。導(dǎo)入器是一段程序,用來連接到數(shù)據(jù)源,并導(dǎo)入數(shù)據(jù)轉(zhuǎn)化為數(shù)據(jù)塊。

        Fig.5 Access data source,import data圖5 訪問數(shù)據(jù)源、導(dǎo)入數(shù)據(jù)流程

        框架引入數(shù)據(jù)塊的概念來提高可擴展性。如果系統(tǒng)直接從外部數(shù)據(jù)源讀取數(shù)據(jù)進行算法分析,一個支持m種數(shù)據(jù)源,n種分析算法的系統(tǒng)需要編寫m×n份代碼來實現(xiàn)。而有了數(shù)據(jù)塊,將數(shù)據(jù)塊作為數(shù)據(jù)導(dǎo)入的標準輸出格式,算法分析的標準輸入格式,只用編寫m+n份代碼就能實現(xiàn)工具的功能。要添加一種新的數(shù)據(jù)源,只需要提供新的導(dǎo)入器即可,避免了為每一種算法進行適配。

        導(dǎo)入器的主要工作是將外部數(shù)據(jù)源中的數(shù)據(jù)按照用戶輸入的映射關(guān)系映射為文檔數(shù)據(jù)(標題和詞語)??蚣苤刑峁┝藢QL數(shù)據(jù)庫、NoSQL數(shù)據(jù)庫[15]以及文本文件進行導(dǎo)入的方法。對于SQL數(shù)據(jù)庫,采用選擇表格和字段的方式得到數(shù)據(jù)庫中字段到文檔標題、詞語的映射關(guān)系;對于NoSQL數(shù)據(jù)庫,需要用戶輸入對應(yīng)的數(shù)據(jù)庫查詢語句和查詢結(jié)果到文檔的映射關(guān)系;對于文本文件的支持和傳統(tǒng)主題建模分析工具類似,將一個文件視為一個文檔,文檔的標題與文件名相同,文件內(nèi)容就是文檔的內(nèi)容。

        3.3.2 數(shù)據(jù)預(yù)處理

        從外部數(shù)據(jù)源直接轉(zhuǎn)化而來的數(shù)據(jù)塊,根據(jù)需求可以進行進一步的預(yù)處理,例如帶html標簽的數(shù)據(jù)可能需要對標簽進行解析,獲取所需要的數(shù)據(jù)。而分詞、去停用詞、大小寫統(tǒng)一化這些方法是文本數(shù)據(jù)預(yù)處理的常用方法,框架也提供支持。這些預(yù)處理操作主要是對原數(shù)據(jù)塊中文檔詞語的進一步處理,圖6展示了對數(shù)據(jù)塊進行分詞預(yù)處理的效果。

        Fig.6 Preprocess:data chunk segmentation圖6 數(shù)據(jù)塊分詞預(yù)處理

        3.4 數(shù)據(jù)分析

        數(shù)據(jù)分析是主題建模工具的核心內(nèi)容。從前面的數(shù)據(jù)導(dǎo)入部分得到了數(shù)據(jù)塊這一種標準格式的文檔數(shù)據(jù),數(shù)據(jù)分析就是將數(shù)據(jù)塊作為輸入數(shù)據(jù),進行主題建模分析,并將分析結(jié)果以概率分布的形式保存下來,其主要流程如圖7所示。

        Fig.7 Main processes of data analysis圖7 數(shù)據(jù)分析主要流程

        作為主題建模分析的通用框架,框架支持算法擴展。當用戶需要添加一種新的算法時,只要保證算法的輸入格式是框架提供的標準文檔格式,算法的輸出格式是框架提供的標準結(jié)果格式,框架就能將新算法添加到算法選項中。

        框架還對結(jié)構(gòu)化數(shù)據(jù)分析的場景進行了針對性的優(yōu)化。對結(jié)構(gòu)化數(shù)據(jù)進行分析時常常涉及到對表內(nèi)多字段和多表中不同字段的分析,這種需求能夠從輸入數(shù)據(jù)格式得到,因此框架能夠根據(jù)輸入數(shù)據(jù)自動為用戶選擇要使用的分析算法。例如用戶選擇了同一表內(nèi)多個字段作為輸入,則采用多屬性LDA進行建模分析,如果選擇了多個表下的字段,則采用多視圖LDA或者多視圖多屬性LDA進行分析,這種自動選擇降低了框架的使用門檻,用戶無需具有多視圖、多屬性LDA的相關(guān)知識就能使用框架對結(jié)構(gòu)化數(shù)據(jù)進行建模分析。

        為了提高可用性,框架將一次分析過程看作一項分析任務(wù),并且支持任務(wù)管理操作。用戶創(chuàng)建分析任務(wù)進行建模分析,并且可以暫停一項正在進行的分析任務(wù)或者繼續(xù)一項暫停中的分析任務(wù),還可以取消一項分析任務(wù)。不同分析任務(wù)之間可以并行處理,這提高了分析工作的效率。

        3.5 數(shù)據(jù)可視化

        經(jīng)過主題建模分析,得到了主題建模的結(jié)果,主題-詞語分布和文檔-主題分布。數(shù)據(jù)可視化部分就是設(shè)計分析和可視化方法,將主題建模結(jié)果更好地呈現(xiàn)給用戶。其中兩個基本的分布信息作為主題建模最直接的結(jié)果,框架分別從主題和文檔的角度進行可視化。而在主題建模結(jié)果的基礎(chǔ)上,框架支持進一步的應(yīng)用分析,并對應(yīng)用結(jié)果進行可視化。

        4 工具實現(xiàn)與應(yīng)用展示

        4.1 DBInsight框架的工具實現(xiàn)

        根據(jù)前面提出的DBInsight框架,本文實現(xiàn)了一個基于主題建模的數(shù)據(jù)分析工具,工具的方法流程見圖8。

        工具支持MySQL(https://www.mysql.com)為代表的結(jié)構(gòu)化數(shù)據(jù)源、Neo4j(https://neo4j.com)為代表的NoSQL數(shù)據(jù)源以及文本文件數(shù)據(jù)源,并提供了樸素LDA算法以及多屬性LDA、多視圖LDA算法、多屬性多視圖LDA算法三種擴展算法,主題建模結(jié)果通過Web頁面渲染圖表進行可視化。

        4.2 工具界面和使用展示

        圖9是工具的主界面,此界面展示了工具中的數(shù)據(jù)塊信息。

        用戶能夠添加新的數(shù)據(jù)塊,用戶輸入連接信息后工具能夠預(yù)覽數(shù)據(jù)源信息,方便用戶選擇要導(dǎo)入的數(shù)據(jù)。

        數(shù)據(jù)導(dǎo)入完成后,用戶可以創(chuàng)建新的建模分析任務(wù),如圖10所示,用戶需要選擇要分析的數(shù)據(jù)塊以及設(shè)置參數(shù)。

        建模分析完成后,用戶能夠得到建模結(jié)果的可視化圖表,如圖11所示。

        用戶分析數(shù)據(jù)時,首先添加數(shù)據(jù)源,導(dǎo)入數(shù)據(jù);然后選擇要使用的分析算法,設(shè)置算法參數(shù),創(chuàng)建分析任務(wù);分析完成后,通過可視化界面查看分析結(jié)果。工具提供了完整的圖形化界面支持,因此用戶不需要編寫具體代碼,只需要按照提示選擇和輸入信息即可完成分析工作。

        Fig.8 Method process of tool圖8 工具方法流程

        Fig.9 Main interface of tool圖9 工具主界面

        Fig.10 Interface for creating analysis task圖10 創(chuàng)建分析任務(wù)界面

        Fig.11 Interface for result visualization圖11 結(jié)果可視化界面

        目前常用的主題建模分析工具,它們大多是一些開源的開發(fā)工具包,因此沒有圖形用戶界面支持,同時這些工具只支持對文本數(shù)據(jù)進行分析,輸出結(jié)果也只是主題分布,沒有可視化圖表。使用這些工具對SQL等結(jié)構(gòu)化數(shù)據(jù)進行分析時,用戶需要自己編寫將SQL數(shù)據(jù)轉(zhuǎn)化為文檔文件的代碼,然后調(diào)用工具進行算法分析,再使用或者編寫可視化工具進行可視化展示。

        相對于這些現(xiàn)有的主題建模分析工具,本文實現(xiàn)的工具自動化地完成了數(shù)據(jù)導(dǎo)入和結(jié)果可視化的工作,降低了主題建模分析的知識門檻,提高了分析工作的效率。

        4.3 分析結(jié)果展示

        本部分主要介紹工具在兩個結(jié)構(gòu)化數(shù)據(jù)集上的分析結(jié)果。

        4.3.1 北京某醫(yī)院門診記錄數(shù)據(jù)集

        該數(shù)據(jù)集包含了北京某醫(yī)院2009至2012年的門診記錄數(shù)據(jù),包含診斷信息、用藥信息、檢驗檢查信息等。數(shù)據(jù)集的形式為SQL數(shù)據(jù)庫,是標準的結(jié)構(gòu)化數(shù)據(jù)。本實驗用到了病人診斷表以及病人用藥表的數(shù)據(jù),希望得到診斷和用藥之間的關(guān)聯(lián)關(guān)系。

        本實驗中文檔的定義:選擇病人id作為文檔id;分別選擇了兩種視圖的詞語,一是病人診斷表中的疾病名稱,二是病人用藥表中的藥品名稱。參數(shù)設(shè)置為:α=0.1,β=1,主題數(shù)目k=20。

        圖12展示了其中一個主題的信息。其中toppatient對應(yīng)的視圖就是疾病名稱,toppatient-billing對應(yīng)的視圖是藥品名稱。該主題展示了其中包含的兩種視圖詞語之間的關(guān)聯(lián)關(guān)系,即疾病和藥品的關(guān)聯(lián)關(guān)系。

        從疾病對應(yīng)的詞語分布信息可以看出,這是關(guān)于高血壓的主題。而藥品的分布信息中占比較高的藥物拜新同、安博維(厄貝沙坦)、美卡素(替米沙坦)都是用于高血壓治療的藥物,因此可以判斷該主題展示的疾病和用藥的關(guān)聯(lián)信息是有效的。

        4.3.2 MovieLens數(shù)據(jù)集

        MovieLens數(shù)據(jù)集[16]是GroupLens Research采集的一組從20世紀90年代末到21世紀初由MovieLens用戶提供的電影評分數(shù)據(jù)。其中包含電影評分、電影元數(shù)據(jù)以及用戶的個人信息。數(shù)據(jù)集存儲在SQL數(shù)據(jù)庫中,是標準的結(jié)構(gòu)化數(shù)據(jù)。本實驗主要用到了用戶電影評分的數(shù)據(jù)表,本實驗中文檔的定義為:選擇MovieLens用戶id作為文檔名稱,選擇用戶評論的電影名稱作為文檔詞語,額外選擇用戶對電影的評分作為詞語的屬性。參數(shù)設(shè)定為:α=0.1,β=1,主題數(shù)目k=50,評分屬性的分布設(shè)定為均勻分布。

        Fig.12 Multi-view topic-word distribution圖12 多視圖主題-詞語分布信息

        Fig.13 Multi-attribute topic-word distribution圖13 多屬性主題-詞語分布信息

        圖13是從結(jié)果中選擇的一個主題的信息,可以看出這個主題主要是關(guān)于驚悚類和愛情類電影的,因為占比較高的電影有《洛城機密(L.A.Confidential)》《英國病人(The English Patient)》《驚聲尖叫(Scream)》《連鎖陰謀(Conspiracy Theory)》《猜·情·尋(Chasing Amy)》,它們都具有驚悚或者愛情的元素。同時根據(jù)評分這一屬性信息,發(fā)現(xiàn)該偏好主題表現(xiàn)為對驚悚類電影不喜歡以及喜愛愛情電影(幾部驚悚類電影評分都較低,而愛情片評分高)。

        5 總結(jié)和未來工作

        本文從對結(jié)構(gòu)化數(shù)據(jù)進行主題建模分析的應(yīng)用場景出發(fā),發(fā)現(xiàn)了對結(jié)構(gòu)化數(shù)據(jù)進行主題建模分析存在的問題。并針對這些問題進行分析并設(shè)計了分為數(shù)據(jù)導(dǎo)入、數(shù)據(jù)分析、數(shù)據(jù)可視化三部分的數(shù)據(jù)分析框架,支持多種擴展方式。并在框架的基礎(chǔ)上實現(xiàn)了一個數(shù)據(jù)分析工具,該框架和工具降低了主題建模分析的知識門檻,簡化了操作流程,提高了主題建模分析工作的效率,同時對結(jié)果的可視化使用戶更好地了解分析結(jié)果,提升了分析的價值。

        未來工作可以從三方面進行:一是提供編程開發(fā)的API,讓框架方便地集成到其他項目中;二是實現(xiàn)更高效的數(shù)據(jù)處理模式,例如流式處理、在線訓(xùn)練、分布式計算等;三是加入對更多數(shù)據(jù)源和分析算法的支持。

        猜你喜歡
        數(shù)據(jù)源視圖文檔
        有人一聲不吭向你扔了個文檔
        Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
        5.3 視圖與投影
        視圖
        Y—20重型運輸機多視圖
        SA2型76毫米車載高炮多視圖
        基于不同網(wǎng)絡(luò)數(shù)據(jù)源的期刊評價研究
        基于RI碼計算的Word復(fù)制文檔鑒別
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        基于真值發(fā)現(xiàn)的沖突數(shù)據(jù)源質(zhì)量評價算法
        免费看美女被靠的网站| 亚洲中文字幕视频第一二区| 国产一区白浆在线观看| 一本之道日本熟妇人妻| 国产激情一区二区三区| 性欧美大战久久久久久久久| 美女超薄透明丝袜美腿| 中文字幕一区二区三区| 男人添女人囗交做爰视频| 在线永久免费观看黄网站| 99久久精品国产自在首页| 亚洲高清一区二区精品| 免费国产a国产片高清网站 | 久久午夜福利无码1000合集 | 久久久精品中文字幕麻豆发布| 国产精品成人观看视频| 亚洲男人的天堂精品一区二区| 人妻系列影片无码专区| 日本少妇熟女一区二区| 亚洲熟妇自偷自拍另欧美| 国产欧美日韩一区二区三区在线 | 超碰Av一区=区三区| 天堂精品人妻一卡二卡| 日本最新一区二区三区在线| 性无码专区无码| 成人h动漫精品一区二区| 亚洲区日韩精品中文字幕| 亚洲一级天堂作爱av| 国产一区二区长腿丝袜高跟鞋| 影音先锋男人av鲁色资源网 | av一区二区三区亚洲| 国产免费人成网站在线播放| 麻豆精品一区二区av白丝在线| 免费无遮挡禁18污污网站| 亚洲性无码av在线| 日本高清不在线一区二区色 | 亚洲综合偷自成人网第页色| 成人一区二区免费中文字幕视频| 曰本女人牲交全视频免费播放 | 一区二区三区视频免费观看在线| 在线无码中文字幕一区|