亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于MIC的江蘇省郵電業(yè)務(wù)數(shù)據(jù)分析應(yīng)用

        2018-08-03 06:47:00郝詩佳
        江蘇通信 2018年2期
        關(guān)鍵詞:電信業(yè)務(wù)互信息業(yè)務(wù)收入

        郝詩佳

        中通服咨詢設(shè)計(jì)研究院有限公司

        0 引言

        當(dāng)今社會,人類活動產(chǎn)生的各種痕跡生成數(shù)據(jù),通過不同渠道源源不斷地積累和記載于數(shù)據(jù)庫中。隨著大數(shù)據(jù)在當(dāng)今科學(xué)研究領(lǐng)域乃至社會的關(guān)注度與日俱增,人們對其理解不再僅限于數(shù)據(jù)本身的價(jià)值,而是更加關(guān)注數(shù)據(jù)背后呈現(xiàn)的關(guān)聯(lián)性,這就需要數(shù)據(jù)分析,構(gòu)建數(shù)據(jù)模型等相關(guān)技術(shù)手段來實(shí)現(xiàn)。

        郵電業(yè)務(wù)是郵政和電信部門為社會各行各業(yè)和人民群眾提供各種產(chǎn)品和服務(wù)的總稱。其設(shè)施和網(wǎng)絡(luò)遍布城鄉(xiāng)、聯(lián)通各地,是與經(jīng)濟(jì)發(fā)展和社會生活密切相關(guān)的基礎(chǔ)設(shè)施。對于地域經(jīng)濟(jì)發(fā)展而言,郵電業(yè)務(wù)主要用于滿足地區(qū)內(nèi)個體及社會團(tuán)體對各種信息的分享與交流需求,是必不可少的一個部門。因此在社會發(fā)展的過程當(dāng)中,人與人之間的關(guān)系越密切,研究郵電業(yè)務(wù)的作用和意義就越深遠(yuǎn)。本文基于2011~2015年江蘇省全省及各地市的郵電業(yè)務(wù)基礎(chǔ)情況數(shù)據(jù),運(yùn)用基于最大信息系數(shù)MIC的數(shù)據(jù)模型分析郵電業(yè)務(wù)數(shù)據(jù)內(nèi)部兩兩指標(biāo)之間的關(guān)系,并提出相關(guān)決策的理論依據(jù)。

        1 數(shù)據(jù)收集與模型選擇

        1.1 數(shù)據(jù)收集

        經(jīng)過郵政局和電信局受理承辦的各種業(yè)務(wù),統(tǒng)統(tǒng)稱為郵電業(yè)務(wù),其中包括郵政、電信、互聯(lián)網(wǎng)等相關(guān)業(yè)務(wù)。本文選取江蘇省2016年統(tǒng)計(jì)年鑒中的郵電業(yè)務(wù)部分作為數(shù)據(jù)來源,該數(shù)據(jù)集中包含全省及13個地市關(guān)于郵政行業(yè)業(yè)務(wù)、電信業(yè)務(wù)總量及收入和快遞、長途電話、移動短信、長途光纜線路長度等35個指標(biāo),此數(shù)據(jù)樣本的時(shí)間跨度為2011~2015年。

        該數(shù)據(jù)集屬性多樣,數(shù)據(jù)真實(shí)可靠,具有一定的可信度和研究價(jià)值。

        1.2 模型選擇

        (1)Pearson相關(guān)系數(shù)

        Pearson相關(guān)系數(shù)(Pearson correlation coefficient) 也叫皮爾森積差相關(guān)系數(shù)(Pearson product-moment correlation coefficient),是用來反映兩個變量相似程度的統(tǒng)計(jì)量。或者說可以用來計(jì)算兩個向量的相似度(在基于向量空間模型的文本分類、用戶喜好推薦系統(tǒng)中都有應(yīng)用)。

        皮爾森相關(guān)系數(shù)計(jì)算公式如下:

        (2)互信息

        互信息是信息論里一種有效的信息度量,它可以看成是一個隨機(jī)變量中包含另一個隨機(jī)變量的相關(guān)信息量,或者說是一個隨機(jī)變量由另一個已知隨機(jī)變量而影響其自身的不穩(wěn)定性?;バ畔⒌亩x是,設(shè)兩個隨機(jī)變量 (X,Y)的聯(lián)合分布為p(x,y),邊際分布分別為 p(x),p(y) ,因此互信息I(X;Y)作為聯(lián)合分布p(x,y)與乘積分布p(x),p(y)的相對熵,即:

        (3)最大信息系數(shù) MIC(Maximal Information Coef fi cient)

        利用Pearson相關(guān)系數(shù)或者Spearman相關(guān)系數(shù)等可以有效地度量數(shù)據(jù)的線性相關(guān)性,甚至可以通過回歸分析確定線性關(guān)系和簡單非線性關(guān)系的數(shù)學(xué)公式。然而由于自然規(guī)律的復(fù)雜性,現(xiàn)實(shí)世界中的數(shù)據(jù)之間即使有較強(qiáng)的相關(guān)關(guān)系,絕大多數(shù)也是非線性的而且無法用簡單的數(shù)學(xué)公式表達(dá)。為了度量數(shù)據(jù)間非線性相關(guān)性的強(qiáng)弱,科學(xué)家們提出了基于閥值相關(guān)、相位同步相關(guān)、距離相關(guān)、互信息等的度量方法。

        最大信息系數(shù)(The Maximal Information Coef fi cient,MIC)是在互信息的基礎(chǔ)上發(fā)展起來的,MIC方法能快速通過給不同類型的關(guān)聯(lián)關(guān)系進(jìn)行評估,從而發(fā)現(xiàn)廣泛范圍的關(guān)系類型。MIC可以檢測各種類型的函數(shù)關(guān)系,比如。當(dāng)存在f使得Y=f(X)時(shí),MIC(X,Y)=1;如果X與Y相互獨(dú)立時(shí),那么MIC(X,Y)=0。

        MIC與相關(guān)系數(shù)相比有以下兩個優(yōu)點(diǎn):

        1、MIC穩(wěn)健性,即MIC不受異常值的影響,然而相關(guān)系數(shù)易受異常值的影響。

        2、MIC普適性,可以檢測出相關(guān)系數(shù)無法識別的函數(shù)關(guān)系。

        因此,本文將用MIC作為數(shù)據(jù)關(guān)聯(lián)性的主要衡量標(biāo)準(zhǔn)。

        2 模型對比與優(yōu)化

        本節(jié)根據(jù)上文介紹的Pearson相關(guān)系數(shù)、最大信息系數(shù)MIC模型進(jìn)行對比,論證MIC作為數(shù)據(jù)特征度量的優(yōu)越性。并在此基礎(chǔ)上,結(jié)合兩個相關(guān)系數(shù),設(shè)計(jì)一種基于MIC的優(yōu)化模型用于分析郵電業(yè)務(wù)數(shù)據(jù)。

        2.1 模型對比

        首先,為了驗(yàn)證MIC作為相關(guān)度量的優(yōu)越性,本文采用Pearson相關(guān)系數(shù)作為參考指標(biāo)進(jìn)行比較分析,運(yùn)用數(shù)據(jù)測試工具生成不同函數(shù)圖。其中一個關(guān)鍵性問題是如何運(yùn)用相應(yīng)的程序評估捕捉完整的線性與非線性相關(guān)依賴。然而,如何檢測非線性信息依賴是一個問題挑戰(zhàn),特別是處于噪聲的數(shù)據(jù)具有可用性時(shí)。因此,第二個關(guān)鍵問題是如何使用評估技術(shù)檢測非線性的可靠有用的數(shù)據(jù)。同時(shí),也需要一個明確的測量方法去度量噪聲中可靠健壯的數(shù)據(jù)來確定數(shù)據(jù)間的非線性關(guān)系。

        模型對比所運(yùn)用到的函數(shù)分別有:線性直線,三角函數(shù),橢圓等;測試樣本容量為1000;置協(xié)方差系數(shù)分別為:1.0,0.8,0.4,0.0.-0.4,-0.8,-1.0。實(shí)驗(yàn)結(jié)果如圖1、圖2和圖3所示:

        圖1 直線加噪旋轉(zhuǎn)測試MIC、Pearson相關(guān)系數(shù)

        表1 圖1的MIC和Pearson相關(guān)系數(shù)實(shí)驗(yàn)結(jié)果(n為噪聲r(shí)為旋轉(zhuǎn))

        圖1是表明在線性函數(shù)上進(jìn)行噪聲處理,對其相關(guān)性度量會有多大影響。因?yàn)樵趯?shí)際大型數(shù)據(jù)集中,數(shù)據(jù)是分散而無序的。而面對0.2比例的加噪,Pearson相關(guān)系數(shù)比MIC仍有較好的測量;但當(dāng)噪聲比例加到1時(shí),Pearson相關(guān)系數(shù)已無法檢測其相關(guān)性,此時(shí)的MIC值仍有0.1。這就說明,面對噪聲極大的函數(shù),無論其是否是相關(guān)函數(shù),MIC的度量比pearson相關(guān)系數(shù)更可靠。

        圖2 線性直線旋轉(zhuǎn)測試MIC、Pearson相關(guān)系數(shù)

        表2 圖2的MIC和Pearson相關(guān)系數(shù)實(shí)驗(yàn)結(jié)果

        根據(jù)圖2、表3對比可知,面對線性相關(guān)的函數(shù),MIC沒有Pearson相關(guān)系數(shù)準(zhǔn)確;但是作為互相關(guān)度量,兩個事件的互信息是對稱,即MIC(X,Y)=MIC(Y,X),所以函數(shù)的旋轉(zhuǎn)對于MIC沒有影響,而Pearson相關(guān)系數(shù)則會出現(xiàn)負(fù)值。這對于數(shù)據(jù)關(guān)聯(lián)性的測量具有較好的呈現(xiàn),即在對比分析時(shí),無需考慮正負(fù)差異和主因變因交換是否會影響分析結(jié)果。

        圖3 其他函數(shù)加噪測試MIC、Pearson相關(guān)系數(shù)

        表3 圖3的MIC和Pearson相關(guān)系數(shù)實(shí)驗(yàn)結(jié)果

        圖3則是在非線性加噪函數(shù)模型上的相關(guān)性測量,MIC在面對加噪非線性相關(guān)函數(shù)呈現(xiàn)較好的度量,并且根據(jù)函數(shù)的線性關(guān)系數(shù)值增大或減小,如三角函數(shù)和橢圓就明顯比其余圖像的值更大。而Pearson相關(guān)系數(shù)則是全部為0。由此可見,對于非線性度量,MIC也有很好的測量性。所以MIC相對于以Pearson相關(guān)系數(shù)為代表的線性相關(guān)性度量更適合面對大型非線性數(shù)據(jù)集的數(shù)據(jù)分析。

        2.2 模型優(yōu)化

        因?yàn)樽畲笮畔⑾禂?shù)MIC作為互信息基礎(chǔ)上發(fā)展出來的相關(guān)系數(shù),其本質(zhì)仍然是測量兩個隨機(jī)變量之間的線性相關(guān)程度。對于非線性相關(guān),最大信息系數(shù)MIC并沒有非常好的表現(xiàn)。因此本文根據(jù)最大信息系數(shù)定義,結(jié)合皮爾森積差相關(guān)系數(shù),用于測試數(shù)據(jù)之間的非線性相關(guān),其公式為:

        非線性相關(guān)系數(shù)= MIC(X,Y)-ρ^2 (X,Y)

        其中:ρ(X,Y)為皮爾森積差相關(guān)系數(shù),且當(dāng)MIC(X,Y)-ρ^2(X,Y)>0時(shí),兩個變量間存在非線性關(guān)系。

        3 應(yīng)用分析

        根據(jù)前文的方法進(jìn)行特征度量并建立模型。首先,從江蘇省2016年鑒中選取郵電業(yè)務(wù)作數(shù)據(jù)集,將數(shù)據(jù)集中的郵電業(yè)務(wù)總量與郵電業(yè)務(wù)收入兩個指標(biāo)設(shè)為自變量,其他指標(biāo)作應(yīng)變量,輸出其MIC與MIC-ρ^2模型結(jié)果。然后,對兩項(xiàng)指標(biāo)的MIC與MIC-ρ^2 值進(jìn)行比較,篩選出相關(guān)數(shù)據(jù)。最后,對結(jié)果進(jìn)行討論以了解觀察到的差異,并針對改進(jìn)的方法提出了一些見解。

        將與郵電業(yè)務(wù)總量MIC值最高的前14項(xiàng)指標(biāo)以表格的形式將其MIC和MIC-ρ^2值列出,如表4所示:

        表4 郵電業(yè)務(wù)總量(億元)相關(guān)因素表

        由表4可看出,MIC值分為0.99572和0.67713兩個檔,其中電信業(yè)務(wù)總量、電信業(yè)務(wù)收入、年末固定電話用戶、年末移動電話用戶和固定寬帶接入用戶是MIC值最高的5項(xiàng)。這說明該5項(xiàng)與郵電業(yè)務(wù)總量具有極大相關(guān)性,而針對這5項(xiàng)的MIC-ρ^2值進(jìn)行排序分析,可看出年末固定電話用戶與年末移動電話用戶這兩項(xiàng)指標(biāo)是具有較大的非線性相關(guān),也就是數(shù)據(jù)之間內(nèi)部潛在的關(guān)聯(lián)性較高。由此,可得出推論:對于郵電業(yè)務(wù)總量,電信業(yè)務(wù)與其相關(guān)性極高,說明電信業(yè)務(wù)的增長能帶動郵電業(yè)務(wù)總量的增長;其中,固定電話用戶與移動電話用戶是最能刺激郵電業(yè)務(wù)總量的兩項(xiàng)指標(biāo),如果能對這兩項(xiàng)數(shù)據(jù)進(jìn)行有效提升,可大幅提高郵電業(yè)務(wù)總量。

        將與郵電業(yè)務(wù)收入MIC值最高的前14項(xiàng)指標(biāo)以表格的形式將其MIC和MIC-ρ^2值列出,如表5所示:

        表5 郵電業(yè)務(wù)收入(億元)相關(guān)因素表

        同理分析表5,可看出MIC值主要分為0.99572、0.67713、0.49647和0.31781四個值,其中郵政行業(yè)業(yè)務(wù)收入、快遞是MIC值最高的2項(xiàng),并且MIC-ρ^2值皆為正。這說明該2項(xiàng)與郵電業(yè)務(wù)收入具有數(shù)據(jù)內(nèi)部之間的極大相關(guān)性。而電信業(yè)務(wù)收入與郵政行業(yè)業(yè)務(wù)收入相比,無論是MIC值還是MIC-ρ^2值都沒有后者高,同理分析剩下的11項(xiàng)指標(biāo),由此可以得出推論:對于郵電業(yè)務(wù)收入,郵政行業(yè)業(yè)務(wù)收入,特別是快遞業(yè)務(wù)對其影響遠(yuǎn)高于其他指標(biāo)。如果能加大快遞業(yè)務(wù)的擴(kuò)展,提高快遞業(yè)務(wù)的規(guī)模,對郵電行業(yè)業(yè)務(wù)收入會有明顯的提高。

        綜合郵電業(yè)務(wù)總量與郵電業(yè)務(wù)收入兩項(xiàng)相關(guān)因素表,不難看出,電信業(yè)務(wù)占郵電業(yè)務(wù)總量的主體,對郵電業(yè)務(wù)具有極大相關(guān)性的影響;但在郵電業(yè)務(wù)收入方面,郵政行業(yè)業(yè)務(wù)特別是快遞業(yè)務(wù)對郵電業(yè)務(wù)收入的影響巨大。因此針對郵電業(yè)務(wù)收入,可以著重發(fā)展快遞業(yè)務(wù),從而有效保證郵電業(yè)務(wù)收入指標(biāo)的提升;并同時(shí)對電信業(yè)務(wù)進(jìn)行維持與擴(kuò)展,從而保證郵電業(yè)務(wù)總量的穩(wěn)步增長。

        4 結(jié)論

        本文基于最大信息系數(shù)MIC的模型設(shè)計(jì)了一個優(yōu)化模型,并根據(jù)這兩個模型對江蘇省近5年來的郵電業(yè)務(wù)進(jìn)行了分析應(yīng)用,提出了關(guān)于郵電業(yè)務(wù)總量與郵電業(yè)務(wù)收入的相關(guān)建議。首先,列舉類比了線性相關(guān)Pearson相關(guān)系數(shù)與最大信息系數(shù)MIC;然后根據(jù)MIC設(shè)計(jì)了一個數(shù)據(jù)內(nèi)部間非線性相關(guān)的度量模型MIC-ρ^2;最后選取江蘇省2016年統(tǒng)計(jì)年鑒中郵電業(yè)務(wù)的數(shù)據(jù),以MIC和MIC-ρ^2為相關(guān)性度量,提取特征值。分析研究結(jié)果顯示,郵電業(yè)務(wù)總量主要影響在于電信業(yè)務(wù),而郵電業(yè)務(wù)收入則主要影響在于郵政行業(yè)業(yè)務(wù)收入,特別是快遞業(yè)務(wù)。

        基于MIC的新優(yōu)化模型更有利于用戶在數(shù)據(jù)分析的同時(shí),發(fā)現(xiàn)數(shù)據(jù)內(nèi)部之間的非線性相關(guān)性,這樣更有助于郵電業(yè)務(wù)從業(yè)者對關(guān)鍵影響因素指標(biāo)進(jìn)行分析定位。例如,郵電業(yè)務(wù)總量中,固定電話用戶與移動電話用戶的MIC值一樣,此時(shí)就需要運(yùn)用MIC-ρ^2。通過對比得到:移動電話用戶相較于固定電話用戶對郵電業(yè)務(wù)總量有更大的影響,從而幫助郵電業(yè)務(wù)從業(yè)者針對相關(guān)指標(biāo)作出更好的分析決策。

        猜你喜歡
        電信業(yè)務(wù)互信息業(yè)務(wù)收入
        軟件業(yè):加速增長、加速轉(zhuǎn)型
        電信業(yè)務(wù)總量保持高位增長
        2015年全國快遞業(yè)務(wù)量同比增長48%
        基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
        聯(lián)合互信息水下目標(biāo)特征選擇算法
        改進(jìn)的互信息最小化非線性盲源分離算法
        電測與儀表(2015年9期)2015-04-09 11:59:22
        基于增量式互信息的圖像快速匹配方法
        2014年7月份通信業(yè)經(jīng)濟(jì)運(yùn)行情況
        2014年8月份通信業(yè)經(jīng)濟(jì)運(yùn)行情況
        SQL語言在電信業(yè)務(wù)數(shù)據(jù)庫數(shù)據(jù)查詢中的應(yīng)用
        日韩AV无码中文无码AV| 在线观看的网站| 中文字幕av一区二区三区人妻少妇| 成人片黄网站色大片免费观看cn | 亚洲av无码成人精品区天堂| 久久99老妇伦国产熟女高清| 精品人妻一区二区视频| 自拍偷拍 视频一区二区| 大学生高潮无套内谢视频| 中国凸偷窥xxxx自由视频| 国产精品天天看大片特色视频| 日韩国产有码精品一区二在线 | 国产一级r片内射免费视频| 国产精品久久av高潮呻吟| 亚洲在线视频免费视频| 亚洲中文字幕久久无码精品| 久久久久99精品国产片| 国产精品久久一区性色a| 新视觉亚洲三区二区一区理伦| 嫩草伊人久久精品少妇av| 中文字幕乱码熟女人妻水蜜桃| 亚洲日本va99在线| 一区二区视频网站在线观看 | 午夜视频在线在免费| 久久亚洲道色宗和久久| 一区二区三区在线观看日本视频| 亚州无吗一区二区三区| 国产亚洲精品成人aa片新蒲金| 越猛烈欧美xx00动态图| 日本高清色惰www在线视频| 青青草成人免费播放视频| 91成人自拍国语对白| 又色又爽又黄还免费毛片96下载| 亚洲精品成人片在线观看| 男女干逼视频免费网站| 亚洲女同恋av中文一区二区| 国产欧美日韩一区二区三区 | 国产av精品一区二区三区久久 | 国产在线视频一区二区三区| 国产精品色内内在线播放| 开心五月激情五月天天五月五月天 |