亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        查找差異數(shù)據(jù)子集的過濾規(guī)則建模方法

        2019-12-06 06:25:15周鵬程何震瀛荊一楠王曉陽
        軟件工程 2019年11期
        關(guān)鍵詞:數(shù)據(jù)分析

        周鵬程 何震瀛 荊一楠 王曉陽

        摘? 要:大數(shù)據(jù)分析和應(yīng)用得到了各個(gè)行業(yè)的關(guān)注,人們?cè)噲D從大量數(shù)據(jù)中發(fā)現(xiàn)蘊(yùn)含的模式和規(guī)律,進(jìn)而產(chǎn)生更多的價(jià)值,數(shù)據(jù)過濾作為數(shù)據(jù)分析過程中常用手段所起到的作用是無可替代的。基于方便用戶快速篩選數(shù)據(jù)并找到差異性的數(shù)據(jù)子集的實(shí)際需求[1],需要分析與挖掘數(shù)據(jù)項(xiàng)之間聯(lián)系,對(duì)數(shù)據(jù)過濾規(guī)則進(jìn)行建模,以幫助用戶快速定位到差異性的數(shù)據(jù)子集。在本篇論文中創(chuàng)新性地提出一種查找差異數(shù)據(jù)子集的過濾規(guī)則建模方法。該方法的目的是解決如何在數(shù)據(jù)分析中應(yīng)用數(shù)據(jù)過濾規(guī)則建立分析過濾模型,然后利用模型分析過濾得到差異性的數(shù)據(jù)子集,最后利用模型完成結(jié)果集的自動(dòng)可視化。利用該建模方法建立的數(shù)據(jù)分析系統(tǒng)能在真實(shí)數(shù)據(jù)集中快速找到差異性數(shù)據(jù)子集,并且自動(dòng)完成對(duì)結(jié)果子集的可視化展示,展現(xiàn)了建模方法的實(shí)用性和高效性。

        關(guān)鍵詞:數(shù)據(jù)分析;差異性數(shù)據(jù);過濾模型

        中圖分類號(hào):TP18? ? ?文獻(xiàn)標(biāo)識(shí)碼:A

        A Filtering Rule Modeling Method for Finding Subset of Differential Data

        ZHOU Pengcheng1,HE Zhenying2,JING Yinan2,WANG Xiaoyang2

        (1.Software School,F(xiàn)udan University,Shanghai 201203,China;

        2.Computer Science and Technology School,F(xiàn)udan University,Shanghai 201203,China)

        Abstract:The analysis and application of big data have attracted the attention of various industries.People try to find the patterns and rules contained in a large amount of data so as to generate more values.Data filtering plays an irreplaceable role as a common approach in the process of data analysis.Based on the actual requirements of facilitating users to quickly filter data and find the differential data subsets,it is necessary to analyze and mine the connections between data items and conduct modeling of data filtering rules to help users quickly locate the differential data subsets.The purpose of this method is to solve the problem of how to apply data filtering rules in data analysis to establish an analytical filtering model,and then use the model to analyze and filter differential data subsets,and finally use the model to complete automatic visualization of result sets.The data analysis system established by this modeling method can quickly find out the differential data subsets in real data sets,and automatically complete the visualization of the result subsets,which shows the practicability and efficiency of the modeling method.

        Keywords:data analysis;differential data;filtering model

        1? ?引言(Introduction)

        在數(shù)據(jù)無處不在的時(shí)代,用戶的決策越來越受到數(shù)據(jù)分析的驅(qū)動(dòng)[2]。通常,對(duì)于數(shù)據(jù)分析結(jié)果的不同往往能顯著影響決策過程。選擇不當(dāng)數(shù)據(jù),不管是有意的還是無意的,可能導(dǎo)致誤導(dǎo)用戶做出的不合適決策甚至導(dǎo)致錯(cuò)誤的決策。差異化數(shù)據(jù)在數(shù)據(jù)分析中往往具有重要的分析意義,而非差異化的數(shù)據(jù)對(duì)于數(shù)據(jù)分析的貢獻(xiàn)就比較小,甚至?xí)档蛿?shù)據(jù)分析的質(zhì)量。所以提供用戶優(yōu)良的差異性數(shù)據(jù)過濾模型能引導(dǎo)用戶進(jìn)行質(zhì)量更好的數(shù)據(jù)分析,從而提高用戶的決策質(zhì)量。

        2? ?簡(jiǎn)介(Brief introduction)

        大數(shù)據(jù)的快速發(fā)展引起了國內(nèi)外的廣泛關(guān)注和重視,如何對(duì)大數(shù)據(jù)進(jìn)行科學(xué)有效地分析處理是大數(shù)據(jù)領(lǐng)域最核心的問題[3]。分析方法的優(yōu)劣將決定分析結(jié)果的有效與否,將最終影響大數(shù)據(jù)分析成果的應(yīng)用。根據(jù)國內(nèi)外的研究將數(shù)據(jù)分析劃分為描述性統(tǒng)計(jì)分析、探索性數(shù)據(jù)分析以及驗(yàn)證性數(shù)據(jù)分析[4];其中,探索性數(shù)據(jù)分析側(cè)重于在數(shù)據(jù)之中發(fā)現(xiàn)新的特征,而驗(yàn)證性數(shù)據(jù)分析則側(cè)重于已有假設(shè)的證實(shí)或證偽。本論文的研究方向?qū)儆谔剿餍詳?shù)據(jù)分析中的差異性數(shù)據(jù)查找方法。

        2.1相關(guān)研究

        在查找規(guī)律的方法中,粗糙集理論作為一種數(shù)據(jù)分析處理的理論引人注目[5]。粗糙集理論是處理不確定信息的一種方法??梢詮牟煌陚涞男畔⒅械贸霈F(xiàn)有的規(guī)律,并從中提取出一些規(guī)則,這些規(guī)則代表原始數(shù)據(jù)集的數(shù)據(jù)分布。一般的在某些情況下有些信息在某些情況下是無用的或者說是無效的,這時(shí)候我們假設(shè)在不影響最終決策分類結(jié)果的情況下,對(duì)此屬性進(jìn)行約簡(jiǎn)去掉無用的屬性并且對(duì)約簡(jiǎn)后的數(shù)據(jù)進(jìn)行規(guī)則提取,分析提取出的規(guī)則。在屬性簡(jiǎn)約的CEBARKCC算法中采用了基于信息熵的方法,去除冗余屬性從而得到一個(gè)粗糙集,這個(gè)粗糙集是原始數(shù)據(jù)集的一個(gè)子集,相當(dāng)于對(duì)原始數(shù)據(jù)集做一個(gè)抽樣[6]。本文的過濾規(guī)則建模方法也是受到這種做法的啟發(fā),與屬性簡(jiǎn)約的理念不同的是,本方法主要采用一系列的方法(包括信息熵)對(duì)原始數(shù)據(jù)集的過濾,最終的目的是提取具有最大差異數(shù)據(jù)的子數(shù)據(jù)集,這個(gè)數(shù)據(jù)子集不是原始數(shù)據(jù)集的抽樣,而是原始數(shù)據(jù)集中具有最大差異性的數(shù)據(jù)的集合。

        2.2? ?差異數(shù)據(jù)探索

        數(shù)據(jù)分析的目的是把隱沒在一大批看來雜亂無章的數(shù)據(jù)中的信息集中、萃取和提煉出來,以找出所研究對(duì)象的內(nèi)在規(guī)律。數(shù)據(jù)分析是組織有目的地收集數(shù)據(jù)、分析數(shù)據(jù),使之成為信息的過程。不同領(lǐng)域不同類型的大數(shù)據(jù)往往需要特定的分析方法來對(duì)數(shù)據(jù)進(jìn)行分析,此類數(shù)據(jù)分析要求分析者對(duì)該領(lǐng)域數(shù)據(jù)有較為深入的理解,這就意味著分析者需要擁有專業(yè)領(lǐng)域的知識(shí)背景。本論文提出的目的就在于希望通過建立差異化數(shù)據(jù)分析過濾模型協(xié)助分析者對(duì)差異化的數(shù)據(jù)進(jìn)行快速的分析探索。即使是沒有分析經(jīng)驗(yàn)的分析者,面對(duì)大數(shù)據(jù)時(shí)利用本論文提出的分析過濾模型都能使用適當(dāng)?shù)姆椒ㄌ剿鞣治龀鰯?shù)據(jù)集中的差異化的數(shù)據(jù)。

        在大數(shù)據(jù)探索式場(chǎng)景中,面對(duì)大量數(shù)據(jù)時(shí)分析者很難找出差異化的數(shù)據(jù)。為了使用戶能夠盡可能消除容易出錯(cuò)的數(shù)據(jù)探索過程和煩瑣的過濾條件設(shè)置,直截了當(dāng)?shù)氐玫讲町惢瘮?shù)據(jù)子集。毫無疑問的是我們需要一個(gè)標(biāo)準(zhǔn)化的流程來決定該如何進(jìn)行數(shù)據(jù)的選擇。為了實(shí)現(xiàn)這個(gè)目標(biāo),本論文提出一種差異數(shù)據(jù)子集的過濾規(guī)則識(shí)別方法,目的是通過合理的利用算法和設(shè)定相關(guān)的規(guī)則解決如何在數(shù)據(jù)分析中應(yīng)用數(shù)據(jù)過濾規(guī)則建立分析過濾模型,并利用模型分析過濾數(shù)據(jù),最后智能化的展示結(jié)果數(shù)據(jù)。

        建立良好的數(shù)據(jù)過濾規(guī)則面臨以下的這些問題亟待解決:

        (1)維度:考慮從什么維度進(jìn)行分析過濾才能產(chǎn)生更好的差異化分析結(jié)果。

        (2)可解釋性:過濾模型需要能分析出數(shù)據(jù)之間的潛在關(guān)聯(lián),產(chǎn)生能過濾出差異化數(shù)據(jù)的過濾條件。

        (3)質(zhì)量:如何判定分析的質(zhì)量。

        在接下來的章節(jié)中我們會(huì)詳細(xì)地討論如何利用我們的建模方法在來解決上述三個(gè)問題。

        3 問題闡述及解決(Problem description and solution)

        3.1? ?問題闡述

        當(dāng)用戶打開數(shù)據(jù)集時(shí),面對(duì)著成百上千的原始數(shù)據(jù)往往不知道該如何分析哪些數(shù)據(jù)子集。如果用戶對(duì)原始數(shù)據(jù)沒有一定的了解,也就不會(huì)知道數(shù)據(jù)之間的聯(lián)系,更加不可能知道數(shù)據(jù)之間是否存在某種潛在聯(lián)系。因此需要考慮如何選取差異化的維度,使得數(shù)據(jù)的分析能產(chǎn)生足夠差異化的特征表現(xiàn)[7]。

        選取了適合的維度以后,該如何分析選定維度中數(shù)據(jù)的相互聯(lián)系,如何定義在該維度數(shù)據(jù)下的差異化數(shù)據(jù),進(jìn)而選定適合的過濾條件并通過過濾找到其中的差異化數(shù)據(jù)。這個(gè)問題我們?cè)谥髸?huì)詳細(xì)討論如何解決。

        在常用的數(shù)據(jù)分析工具中常用可視化作為直觀地展示數(shù)據(jù)分析結(jié)果的手段,可視化同時(shí)作為評(píng)判數(shù)據(jù)分析結(jié)果的質(zhì)量。但是在常用的數(shù)據(jù)分析工具中需要用戶自己選擇如何對(duì)結(jié)果數(shù)據(jù)集可視化。有經(jīng)驗(yàn)的分析師能憑借經(jīng)驗(yàn)知道該如何選擇,對(duì)于新手來說那就要經(jīng)過多次的試錯(cuò)才能達(dá)到理想的數(shù)據(jù)展示效果。如果能自動(dòng)的判定用戶選定的數(shù)據(jù)該如何生成可視化圖表,就能大大的幫助到用戶檢驗(yàn)數(shù)據(jù)分析的質(zhì)量。事實(shí)上,我們的差異化數(shù)據(jù)分析過濾模型面對(duì)著該如何采用智能化的方法為用戶可視化的問題,即如何使用可視化直觀的呈現(xiàn)用戶數(shù)據(jù)分析的結(jié)果。

        3.2? ?解決方案

        關(guān)于維度的選擇和差異化數(shù)據(jù)過濾條件,本論文基于傳統(tǒng)數(shù)據(jù)庫的表結(jié)構(gòu),從行和列兩個(gè)維度分析差異化數(shù)據(jù)。首先通過列數(shù)據(jù)的分析過濾,查找可能具有差異化信息的數(shù)據(jù)列,之后通過一系列的關(guān)于差異數(shù)據(jù)的信息計(jì)算算法,找到具有差異性特征的數(shù)據(jù)子集,最后通過可視化展示差異性數(shù)據(jù)查找的質(zhì)量。

        總結(jié)來說就是在差異性數(shù)據(jù)過濾模型中有三個(gè)過濾規(guī)則:差異性數(shù)據(jù)列的過濾、差異數(shù)據(jù)范圍的過濾、結(jié)果可視化的過濾。使用過濾模型進(jìn)行差異化數(shù)據(jù)查找流程如圖1所示。

        圖1 差異化數(shù)據(jù)過濾模型過濾流程

        Fig.1 The filtering process of differentiated data

        filtering model

        實(shí)踐證明通過以上過濾規(guī)則引導(dǎo)用戶進(jìn)行差異性數(shù)據(jù)分析,能明顯提升用戶分析差異性數(shù)據(jù)的質(zhì)量。在接下來的章節(jié)4.1介紹數(shù)據(jù)列的過濾規(guī)則建模方法;4.2中介紹數(shù)據(jù)范圍的過濾規(guī)則建模方法;4.3中介紹結(jié)果數(shù)據(jù)可視化的過濾規(guī)則建模方法。

        4? ? 建模方法(Modeling approach)

        接著具體介紹一下如何根據(jù)數(shù)據(jù)集本身特征,以及用戶的真實(shí)需求產(chǎn)生適當(dāng)?shù)臄?shù)據(jù)列差異性分析過濾。

        4.1? ?差異數(shù)據(jù)列的過濾

        數(shù)據(jù)集D里面有很多數(shù)據(jù)列等待差異性分析,對(duì)于沒有分析經(jīng)驗(yàn)的普通用戶來說,并不知道哪些數(shù)據(jù)列具有差異性數(shù)據(jù)。而數(shù)據(jù)列的差異性分析過濾不僅能幫助用戶方便的分析數(shù)據(jù)列之間的聯(lián)系,更能幫助用戶挖掘數(shù)據(jù)列之間的潛在聯(lián)系,用戶通過分析過濾模型得到最有可能具有差異性數(shù)據(jù)子集的數(shù)據(jù)列。

        4.1.1? ?對(duì)于指定關(guān)鍵列差異性分析的列過濾

        當(dāng)用戶指定關(guān)鍵列時(shí),一般來說,用戶希望得到相關(guān)數(shù)據(jù)列對(duì)于關(guān)鍵列的差異性是否具有影響,并希望知道這些相關(guān)列對(duì)于關(guān)鍵列差異性的影響因子。因此,指定的關(guān)鍵列的差異性分析過濾核心思想就是在數(shù)據(jù)集D中計(jì)算相關(guān)列對(duì)于關(guān)鍵列所產(chǎn)生影響的影響因子,然后根據(jù)影響因子大小排序進(jìn)行過濾。本部分過濾模型采用隨機(jī)森林的方法完成相關(guān)列的過濾。隨機(jī)森林[8]計(jì)算影響因子的核心思想就是計(jì)算每個(gè)特征列在隨機(jī)森林中的每顆CART樹(最小二乘回歸樹)上做了多大的貢獻(xiàn),然后取個(gè)平均值,比較特征之間的貢獻(xiàn)大小。貢獻(xiàn)度通常用基尼指數(shù)(Gini index)或者袋外數(shù)據(jù)(OOB)錯(cuò)誤率作為評(píng)價(jià)指標(biāo)來衡量。本論文采用的是袋外數(shù)據(jù)(OOB)錯(cuò)誤率作為評(píng)價(jià)指標(biāo)來衡量貢獻(xiàn)度。方法的偽代碼如下Algorithm 1所示。

        之所以可以用∑(err00B2-errOOB1)/Ntree這個(gè)表達(dá)式作為相應(yīng)特征列影響因子的度量值是因?yàn)槿艚o某個(gè)特征列隨機(jī)加入噪聲之后,袋外的準(zhǔn)確率大幅度下降,則說明這個(gè)特征列對(duì)于關(guān)鍵列的分類結(jié)果影響很大,也就是說它對(duì)于關(guān)鍵列的差異性影響程度比較高。

        4.1.2? ?無指定關(guān)鍵列的差異列過濾

        當(dāng)用戶沒有指定關(guān)鍵列的時(shí)候,很大程度上說明用戶不清楚在這個(gè)數(shù)據(jù)集里面的關(guān)鍵列是什么,或者用戶不清楚數(shù)據(jù)集里面有什么。那么此時(shí)過濾規(guī)則就需要分析出此數(shù)據(jù)集里面有哪些部分是“主要成分”,這些“主要成分”影響著數(shù)據(jù)的差異性,是影響數(shù)據(jù)集中數(shù)據(jù)特征分布的重要成分。因此,本論文面對(duì)這種情況時(shí)分析過濾模型采用PCA[7](Principal Component Analysis,主成分分析)來提取數(shù)據(jù)的主要特征列,這些特征列的影響因子也就是造成數(shù)據(jù)集中差異性數(shù)據(jù)分布的重要性指數(shù)。

        PCA本身的核心思想就是將高維數(shù)據(jù)降維到低緯度空間里,并期望在所投影的維度上數(shù)據(jù)的方差最大。因此可以使用較少的數(shù)據(jù)維度,同時(shí)保留住較多的原數(shù)據(jù)點(diǎn)的特性。同時(shí)PCA可以壓縮數(shù)據(jù)空間提升整體算法效率,進(jìn)一步的消除冗余數(shù)據(jù)和噪音數(shù)據(jù)。PCA作為一個(gè)非監(jiān)督學(xué)習(xí)的方法,僅僅需要以方差衡量信息量,不受數(shù)據(jù)集以外的因素影響。PCA各主成分之間正交,可消除原始數(shù)據(jù)成分間的相互影響的因素。而且PCA計(jì)算方法簡(jiǎn)單,主要運(yùn)算是特征值分解,易于實(shí)現(xiàn)。方法的偽代碼如下Algorithm 2所示。

        根據(jù)PCA得到的數(shù)據(jù)的主成分(即特征向量)與它們的權(quán)值(即特征值)。根據(jù)權(quán)值的大小排序?qū)⒆畲蟮娜刑峁┙o用戶,即得到這些特征列對(duì)于數(shù)據(jù)差異性的影響因子的排行。

        4.2? ?差異數(shù)據(jù)區(qū)間過濾

        4.2.1? ?差異數(shù)據(jù)區(qū)間

        本論文提出過差異性數(shù)據(jù)分析過濾模型會(huì)幫助用戶對(duì)差異性數(shù)據(jù)區(qū)間進(jìn)行過濾,以便用戶對(duì)差異性的數(shù)據(jù)進(jìn)行篩選與分析。如圖2所示,應(yīng)用該模型的一個(gè)系統(tǒng)過濾分析示例,其中5月—10月為差異性數(shù)據(jù)區(qū)間,5月為其中的異常區(qū)間。

        圖2 差異性數(shù)據(jù)范圍過濾示例

        Fig.2 Example of differential data range filtering

        因?yàn)榇藭r(shí)選取一列數(shù)據(jù)進(jìn)行過濾會(huì)對(duì)數(shù)據(jù)集產(chǎn)生一次數(shù)據(jù)的篩選,從而產(chǎn)生不同區(qū)間的數(shù)據(jù)子集??紤]到這種會(huì)影響到其余所有列的數(shù)據(jù)范圍。因此,本論文介紹的過濾規(guī)則首先通過剪切減少計(jì)算,然后通過并行計(jì)算提高差異性數(shù)據(jù)子集的尋找。

        4.2.2? ?數(shù)據(jù)剪切

        數(shù)據(jù)集中的數(shù)據(jù),絕大部分都是非差異化的數(shù)據(jù),差異化的數(shù)據(jù)只占有數(shù)據(jù)中的很小一部分。為了減少計(jì)算的開銷,通過剪切能及其有效地過濾掉非差異化的數(shù)據(jù)。本論文采用的是孤立森林對(duì)差異化數(shù)據(jù)區(qū)間進(jìn)行過濾。孤立森林[9]是一個(gè)基于Ensemble的快速異常檢測(cè)方法,具有線性時(shí)間復(fù)雜度和高精準(zhǔn)度。方法的偽代碼如下Algorithm 3所示。

        看似要計(jì)算m列數(shù)據(jù),實(shí)則不然,在4.1節(jié)中我們已經(jīng)得到對(duì)數(shù)據(jù)差異性影響因子最大的幾個(gè)列。因此,我們?cè)诖颂幹恍枰?jì)算這幾列的差異區(qū)間即可。

        4.2.3? ?并行計(jì)算

        在選擇哪個(gè)差異性數(shù)據(jù)區(qū)間作為數(shù)據(jù)集的過濾條件時(shí),本論文采用相對(duì)熵,也就是K-L散度作為計(jì)算數(shù)據(jù)差異度的方法。假設(shè)有差異性區(qū)間分布P,特征數(shù)據(jù)列的分布Q。他們之間的差異性計(jì)算如下:

        對(duì)于差異性區(qū)間P我們也會(huì)枚舉出P的數(shù)據(jù)子集與特征數(shù)據(jù)列計(jì)算K-L散度,考慮其中的計(jì)算量。本論文采用并行計(jì)算[10]加快差異度的計(jì)算。最終由差異性最大的區(qū)間作為數(shù)據(jù)集的過濾條件。

        4.3? ?結(jié)果集可視化過濾

        為了將差異化分析的結(jié)果數(shù)據(jù)集更加直觀地展示給用戶,我們采用可視化的形式將結(jié)果數(shù)據(jù)展示出來[11]。

        4.3.1? ?結(jié)果集

        在結(jié)果集D中的某一列X有許多差異性區(qū)間記做X1,X2,…,

        Xn,某個(gè)差異性區(qū)間中可以得到一些基本的統(tǒng)計(jì)信息,以及通過計(jì)算得到的信息合稱為一個(gè)信息節(jié)點(diǎn),記作V(Xn)[12,13]。其中V(Xn)包含的信息如下所示。

        ①區(qū)間Xn的基數(shù)值,d(xn)

        ②區(qū)間Xn的最值,max(xn)、min(xn)

        ③區(qū)間Xn的元組值,|xn|

        ④區(qū)間Xn的數(shù)據(jù)類型,評(píng)論型(LongStr)、數(shù)值型(Num)、分類型(Cat)、時(shí)序型(Tem)

        ⑤區(qū)間Xn分完箱后,每個(gè)箱數(shù)據(jù)xn'與其對(duì)應(yīng)的CNT(x')

        ⑥區(qū)間Xn分完箱后,每個(gè)箱數(shù)據(jù)xn'與其對(duì)應(yīng)的CNT(xn')的相關(guān)系數(shù),correlation (x,CNT(xn'))

        ⑦區(qū)間Xn推薦展示圖標(biāo)類型,餅狀圖(Pie)、柱狀圖(Bar)、詞云圖(WordCloud)、折線圖(Line)、散點(diǎn)圖(Scatter)

        Xn提前計(jì)算出可視化節(jié)點(diǎn)V(Xn)的目的是為了減少計(jì)算相對(duì)信息熵時(shí)的計(jì)算開銷,因?yàn)樵谟?jì)算相對(duì)信息熵的時(shí)候會(huì)反復(fù)使用信息節(jié)點(diǎn)中的特征信息和統(tǒng)計(jì)信息。

        4.3.2? ?相對(duì)信息熵排序

        本套建模方法采用一種方法對(duì)結(jié)果集可視化進(jìn)行一定的過濾,按照結(jié)果集中的數(shù)據(jù)列維度展現(xiàn)每一列的差異性數(shù)據(jù)區(qū)間。我們稱之為“相對(duì)信息熵排序”。注意,這里的相對(duì)信息熵和相對(duì)熵不是一個(gè)概念,這里的相對(duì)信息熵是指每一個(gè)不同的可視化方式的信息熵相對(duì)于“標(biāo)準(zhǔn)”的可視化方式計(jì)算得到的信息熵值的比值[14,15]。相對(duì)信息熵越高,使用該可視化方式得到的可視化圖表越接近“標(biāo)準(zhǔn)的”可視化。

        其中,該方法的核心思想就是:

        (1)首先為每一種可視化方式規(guī)定一個(gè)“標(biāo)準(zhǔn)的”可視化。

        (2)根據(jù)剪切規(guī)則過濾。

        (3)計(jì)算結(jié)果集中的差異性區(qū)間在每一個(gè)可視化方式下的信息熵與“標(biāo)準(zhǔn)”可視化的比值。

        (4)根據(jù)比值選取最優(yōu)的可視化方式。

        4.3.2.1? ?剪切規(guī)則

        當(dāng)我們拿到已經(jīng)分箱的xn'數(shù)據(jù)時(shí),根據(jù)xn'數(shù)據(jù)的類型,定義了一套規(guī)則如下。

        (1)當(dāng)xn'的數(shù)據(jù)類型為時(shí)序型:可視化圖表可為柱狀圖、折線圖。

        (2)當(dāng)xn'的數(shù)據(jù)類型為離散型或數(shù)值型:可視化圖表可為柱狀圖、餅狀圖、散點(diǎn)圖。

        通過對(duì)數(shù)據(jù)類型的判斷,能直接過濾掉那些從理論上來講就不能很好的表現(xiàn)差異化數(shù)據(jù)的信息節(jié)點(diǎn)的可視化過程。這樣能大大地減少我們?cè)诳梢暬^程中的計(jì)算節(jié)點(diǎn)次數(shù)[16]。

        4.3.2.2? ?相對(duì)信息熵

        現(xiàn)在,我們正式地介紹一下如何采用相對(duì)信息熵排序的方法[17,18]選擇差異性區(qū)間Xn適合的可視化圖表。信息熵(Comentropy)記作C。

        (1)柱狀圖

        柱形圖是分析師最常用到的圖表之一,適用于各個(gè)場(chǎng)景。當(dāng)xn'元素過多的時(shí)候能更好地展示數(shù)據(jù)的詳細(xì)情況以及利用柱子的高度差提高用戶對(duì)于數(shù)據(jù)差異的辨識(shí)度,展現(xiàn)數(shù)據(jù)的差異化程度。

        (2)餅狀圖

        餅狀圖可展示多組數(shù)據(jù),表現(xiàn)各組數(shù)據(jù)占總比情況。當(dāng)差異性區(qū)間Xn的基數(shù)為1時(shí),|d(Xn)|=1,餅狀圖沒有什么意義。設(shè)置信息熵為0。同理當(dāng)Xn的最小值小于0的時(shí)候,餅狀圖無法展現(xiàn)負(fù)數(shù),信息熵也設(shè)置為0。設(shè)定一個(gè)標(biāo)準(zhǔn)的餅圖,餅圖元素的量不超過20,因此設(shè)置權(quán)重為1。當(dāng)餅圖元素超過20,餅圖所包含的信息反而減少,因此,我們將權(quán)重設(shè)置。由于人的肉眼對(duì)于面積的感知不敏感。在餅狀圖中我們需要有區(qū)分度的CNT(xn')來凸顯各部分的占比,為此引入熵作為判定差異性數(shù)據(jù)標(biāo)準(zhǔn)[19]。

        (3)折線圖

        折線圖的優(yōu)勢(shì)可以反映同一事物在不同時(shí)間里的發(fā)展變化的情況,也就是能夠顯示數(shù)據(jù)的變化趨勢(shì),反映事物的變化情況。

        當(dāng)數(shù)據(jù)CNT(xn')與x'符合某種分布(e.g.線性分布、指數(shù)分布、對(duì)數(shù)分布、低次冪分布)時(shí),我們規(guī)定此信息節(jié)點(diǎn)v的信息熵C(V(Xn))為1。否則,信息熵為0。

        (4)散點(diǎn)圖

        散點(diǎn)圖通過坐標(biāo)軸,表示兩個(gè)變量之間的關(guān)系。繪制它依賴大量數(shù)據(jù)點(diǎn)的分布。其優(yōu)勢(shì)是揭示數(shù)據(jù)間的關(guān)系,發(fā)覺變量與變量之間的關(guān)聯(lián)。

        我們使用相關(guān)系數(shù)可作為散點(diǎn)圖類型的信息熵[20]。

        當(dāng)所有種類可視化圖表信息熵計(jì)算出來以后,算出的C(V(Xn))值越大,表示此信息節(jié)點(diǎn)采用該種類圖表可視化能更好的展現(xiàn)差異化的數(shù)據(jù)給用戶,即Xn的差異化數(shù)據(jù)所對(duì)應(yīng)的節(jié)點(diǎn)V適合該種可視化圖表。特別的情況,當(dāng)|d(Xn)|=1時(shí),所有的C(V(Xn))=0,默認(rèn)柱狀圖作為節(jié)點(diǎn)V的可視化圖表。

        相對(duì)信息熵排序的偽代碼如下Algorithm 4所示。

        5? ?相關(guān)實(shí)驗(yàn)(Experiment)

        5.1? ?性能實(shí)驗(yàn)

        (1)列分析運(yùn)行時(shí)間

        本套差異性數(shù)據(jù)分析過濾規(guī)則建模方法在數(shù)據(jù)列篩選環(huán)節(jié)采用兩種不同的篩選方法隨著數(shù)據(jù)列數(shù)量的增多,兩個(gè)方法顯示了一定的性能差異。“指定關(guān)鍵列”分析方法在相同規(guī)模下運(yùn)行時(shí)間總是小于“無關(guān)鍵列”的分析方法。因此,本建模方法默認(rèn)采用了性能表現(xiàn)更好的“關(guān)鍵列差異性分析的列過濾”的方法。

        圖3 列分析的時(shí)間對(duì)比

        Fig.3 Time comparison of column analysis

        (2)數(shù)據(jù)分析運(yùn)行時(shí)間

        本套差異性數(shù)據(jù)分析過濾規(guī)則建模方法在差異數(shù)據(jù)篩選環(huán)節(jié)采用并行計(jì)算來減少計(jì)算差異數(shù)據(jù)的時(shí)間。通過并行和非并行兩種計(jì)算時(shí)間的對(duì)比。從中看出如果不采用并行計(jì)算,計(jì)算的開銷時(shí)間再交互式的系統(tǒng)中使不可被接受的。在相同數(shù)據(jù)規(guī)模的表現(xiàn)如圖4所示。

        圖4 數(shù)據(jù)分析的時(shí)間對(duì)比

        Fig.4 Time comparison of data analysis

        (3)準(zhǔn)確度

        本套差異性數(shù)據(jù)分析過濾規(guī)則建模方法在分析差異性數(shù)據(jù)的時(shí)候采用異常值加信息熵,也就是K-L散度計(jì)算差異性數(shù)據(jù)。在選取異常值計(jì)算信息熵的過程中會(huì)有一些數(shù)據(jù)被拋棄,那么本套差異性數(shù)據(jù)分析過濾規(guī)則建模方法的差異性數(shù)據(jù)選取的準(zhǔn)確度怎么樣呢?通過實(shí)際的數(shù)據(jù)集測(cè)試,我們選取了100個(gè)數(shù)據(jù)集進(jìn)行測(cè)試。結(jié)果如圖5所示,可以看出準(zhǔn)確度處于一個(gè)非常高的水平。有90%以上的數(shù)據(jù)集準(zhǔn)確率都在90%及以上。

        圖5 準(zhǔn)確度

        Fig.5 Accuracy

        5.2? ?專家評(píng)判

        本套差異性數(shù)據(jù)分析過濾規(guī)則經(jīng)過五位專業(yè)數(shù)據(jù)分析專家的評(píng)測(cè),從準(zhǔn)確度指標(biāo)、多樣性和新穎性三個(gè)指標(biāo)來評(píng)價(jià)本套差異性數(shù)據(jù)分析過濾規(guī)則建模方法(評(píng)價(jià)為五分制)。

        (1)準(zhǔn)確性

        準(zhǔn)確性評(píng)價(jià)數(shù)據(jù)分析過濾規(guī)則推選出來的數(shù)據(jù)以及分析出來的可視化圖表是否真正的表達(dá)出數(shù)據(jù)的差異性。如圖6所示,多數(shù)專家認(rèn)為本數(shù)據(jù)分析過濾規(guī)則能準(zhǔn)確地過濾差異化的數(shù)據(jù)給用戶的。

        圖6 準(zhǔn)確度評(píng)價(jià)

        Fig.6 Accuracy assessment

        (2)多樣性

        多樣性衡量數(shù)據(jù)分析過濾規(guī)則面對(duì)不同的數(shù)據(jù)能否分析過濾出差異化的數(shù)據(jù)。如圖7所示,多數(shù)專家認(rèn)為本數(shù)據(jù)分析過濾規(guī)則面對(duì)不同的數(shù)據(jù)能提供良好的差異化數(shù)據(jù)過濾推薦。

        圖7 多樣性評(píng)價(jià)

        Fig.7 Diversity assessment

        (3)新穎性

        新穎性度量差異化數(shù)據(jù)分析過濾規(guī)則相對(duì)于現(xiàn)存的一些基于相似度數(shù)據(jù)分析方法是否有改進(jìn)。如圖8所示,專家一致認(rèn)為本套數(shù)據(jù)分析過濾規(guī)則相對(duì)于現(xiàn)有的分析系統(tǒng)有較多的改進(jìn),能更加智能化的將差異化數(shù)據(jù)分析過濾并可視化提供給用戶。通過對(duì)差異化數(shù)據(jù)分析建立過濾規(guī)則模型為用戶提供一套完整差異化數(shù)據(jù)分析解決方案。

        圖8 新穎性評(píng)價(jià)

        Fig.8 Novelty assessment

        通過上述幾項(xiàng)評(píng)測(cè)可以看出,本論文提出的這套尋找差異數(shù)據(jù)子集的過濾規(guī)則建模方法總體表現(xiàn)優(yōu)異,能很好地引導(dǎo)用戶查找到差異化數(shù)據(jù)子集。

        6? ?結(jié)論(Conclusion)

        我們已經(jīng)介紹了我們新穎的數(shù)據(jù)過濾規(guī)則建模方法。我們利用機(jī)器學(xué)習(xí)的算法,以及啟發(fā)式的規(guī)則作為基礎(chǔ)解決本文開頭提出的面臨的兩個(gè)挑戰(zhàn)性問題,并且結(jié)合自動(dòng)化的可視化規(guī)則展現(xiàn)差異化數(shù)據(jù)過濾規(guī)則模型的分析過濾結(jié)果。在使用真實(shí)數(shù)據(jù)和用例進(jìn)行的測(cè)試中展現(xiàn)了令人欣喜的結(jié)果。

        未來將挑戰(zhàn)更大規(guī)模的數(shù)據(jù)分析過濾,并考慮加入深度學(xué)習(xí)的相關(guān)技術(shù)用于改進(jìn)和完善數(shù)據(jù)分析過濾規(guī)則[21],比如通過深度學(xué)習(xí)的方法可以不預(yù)先訓(xùn)練相關(guān)特征;網(wǎng)絡(luò)在對(duì)一組數(shù)據(jù)進(jìn)行訓(xùn)練時(shí)學(xué)習(xí)相關(guān)特征。

        參考文獻(xiàn)(References)

        [1] Richard Chow,Hongxia Jin,San Joseg,et al.Differential data analysis for recommender systems[C].RecSys '13 Proceedings of the 7th ACM conference on Recommender systems,2013:323-326.

        [2] Quoc Viet Hung Nguyen,Kai Zheng,Matthias Weidlich,et al.

        What-If Analysis with Conflicting Goals:Recommending Data Ranges for Exploration[C].ICDE,2018:89-100.

        [3] Jiahao Wang,Peng Cai,Jinwei Guo,et al.Range Optimistic Concurrency Control for a Composite OLTP and Bulk Processing Workload[C].ICDE,2018:605-616.

        [4] Li Guo,Wenyuan Xu,Hao Li,et al.Research and Implementation of Interactive Analysis and Mining Technology for Big Data[C].HCC,2018:359-364.

        [5] Lindsay I Smith.A tutorial on Principal Components Analysis[J].International Journal of Remote Sensing,2002,51(2):1100-1127.

        [6] Asma Hassani,Sonia Ayachi Ghannouchi.Analysis of Massive E-learning Processes:An Approach Based on Big Association Rules Mining[C].PDCAT,2018:188-199.

        [7] Brett Walenz,Jun Yang.Perturbation analysis of database queries.Proceedings of the VLDB Endowment,2016,9(14):1635-1646.

        [8] Leo Breiman.Random Forests[J].Machine Learning,2001,45(1):5-32.

        [9] Fei Tony Liu,Kai Ming Ting,Zhi-Hua Zhou.Isolation-based Anomaly Detection[J].TKDD,2011,6(1):3:1-3;39.

        [10] Xudong Zhang,Zhongwen Qian,Siqi Shen,et al.Streaming Massive Electric Power Data Analysis Based on Spark Streaming[C].DASFAA Workshops 2019:200-212.

        [11] E.Wu,F(xiàn).Psallidas.Combining design and performance in a data visualization management system[C].CIDR,2017:111-132.

        [12] T.Siddiqui,A.Kim,J.Lee,et al.Effortless data exploration with zenvisage:An expressive and interactive visual analytics system[J].PVLDB,2016,10(4):457-468.

        [13] Xin Guo,Mingshu He.Research on Data Visualization in Different Scenarios[C].HCC,2018:232-243.

        [14] M.Vartak,S.Madden,A.Parameswaran,et al.Seedb:automatically?generating query visualizations[J].PVLDB.2014,7(13):1581-1584.

        [15] M.Vartak,S.Rahman,S.Madden,et al.SEEDB:efficient data-driven visualization recommendations to support visual analytics[J].PVLDB,2015,8(13):2182-2193.

        [16] Kwan Hui Lim,Sachini Jayasekara.RAPID:Real-time Analytics Platform for Interactive Data Mining[C].ECML/PKDD,2018:649-653.

        [17] Yuyu Luo,Xuedi Qin,Nan Tang,et al.DeepEye:Towards Automatic Data Visualization[C].ICDE,2018:101-112.

        [18] Xuedi Qin,Yuyu Luo,Nan Tang,et al.DeepEye:An automatic big data visualization framework[C].SIGMOD Conference,2018:1733-1736.

        [19] K.Wongsuphasawat,D.Moritz,A.Anand,et al.Voyager:Exploratory analysis via faceted browsing of visualization recommendations[J].IEEE Trans.Vis.Comput.Graph,2016,22(1):649-658.

        [20] Satyanarayan,J.Heer.Lyra:An interactive visualization design environment [J].Comput.Graph.Forum,2014,33(3):351-360.

        [21] S.Kandel,R.Parikh,A.Paepcke,et al.Profiler:integrated statistical analysis and visualization for data quality assessment[C].AVI,2012:547-554.

        作者簡(jiǎn)介:

        周鵬程(1995-),男,碩士生.研究領(lǐng)域:數(shù)據(jù)分析.

        何震瀛(1978-),男,博士,副教授.研究領(lǐng)域:海量數(shù)據(jù)管理,數(shù)據(jù)分析,面向機(jī)器學(xué)習(xí)的效率優(yōu)化.

        荊一楠(1979-),男,博士,副教授.研究領(lǐng)域:大數(shù)據(jù)分析,時(shí)空數(shù)據(jù)管理,移動(dòng)計(jì)算.

        王曉陽(1964-),男,博士,教授.研究領(lǐng)域:時(shí)空移動(dòng)數(shù)據(jù)分析,數(shù)據(jù)系統(tǒng)安全及私密,大數(shù)據(jù)并行式分析.

        猜你喜歡
        數(shù)據(jù)分析
        電子物證檢驗(yàn)的數(shù)據(jù)分析與信息應(yīng)用研究
        基于matlab曲線擬合的數(shù)據(jù)預(yù)測(cè)分析
        商情(2016年40期)2016-11-28 11:28:07
        分眾媒體趨勢(shì)下場(chǎng)景營銷的商業(yè)前景
        商(2016年32期)2016-11-24 17:39:41
        佛山某給水管線控制測(cè)量探討
        科技資訊(2016年18期)2016-11-15 18:05:53
        SPSS在環(huán)境地球化學(xué)中的應(yīng)用
        考試周刊(2016年84期)2016-11-11 23:57:34
        大數(shù)據(jù)時(shí)代高校數(shù)據(jù)管理的思考
        科技視界(2016年18期)2016-11-03 22:51:40
        我校如何利用體育大課間活動(dòng)解決男生引體向上這個(gè)薄弱環(huán)節(jié)
        Excel電子表格在財(cái)務(wù)日常工作中的應(yīng)用
        淺析大數(shù)據(jù)時(shí)代背景下的市場(chǎng)營銷策略
        新常態(tài)下集團(tuán)公司內(nèi)部審計(jì)工作研究
        香港日本三级亚洲三级| 国产三级在线观看性色av| 区无码字幕中文色| 亚洲av乱码国产精品色| 女同在线视频一区二区| 手机在线播放av网址| 亚洲av无码一区二区三区天堂 | 欧美丰满大爆乳波霸奶水多| 78成人精品电影在线播放| 日韩精品一区二区三区四区| 久久久精品人妻一区二| av一区二区在线免费观看| 黄色av亚洲在线观看| 国产精品久久成人网站| 国产麻传媒精品国产av| 激情亚洲一区国产精品| 欧美日韩亚洲成色二本道三区 | 久久HEZYO色综合| 亚洲成av人片在久久性色av| 蜜桃免费一区二区三区| 国产精品亚洲片在线观看不卡| 成人综合婷婷国产精品久久蜜臀| 亚洲av成人一区二区三区av| www.日本一区| 日本av第一区第二区| 美女午夜福利视频网址| 国产精品无码无在线观看| 真人直播 免费视频| 曰韩精品无码一区二区三区| 久久精品这里就是精品| 91l视频免费在线观看| 国产精品免费观看调教网| 成人三级a视频在线观看| 人妻无码Aⅴ中文系列| 国产一级淫片a免费播放口| 久久中文精品无码中文字幕| 人妻少妇精品无码专区二 | av天堂手机在线免费| 日韩精品在线观看在线| 无码人妻丰满熟妇区bbbbxxxx| 99久久精品费精品国产一区二区 |