亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        關(guān)于大數(shù)據(jù)系統(tǒng)構(gòu)架中電信用戶流失的分析

        2020-06-30 05:51:38馮亮
        工程技術(shù)與管理 2020年5期
        關(guān)鍵詞:用戶分析服務(wù)

        馮亮

        太原理工大學(xué),中國(guó)·山西 太原 030000

        大數(shù)據(jù)系統(tǒng);客戶構(gòu)架;分析

        1 引言

        當(dāng)今電信市場(chǎng)競(jìng)爭(zhēng)激烈運(yùn)營(yíng)商每月客戶流失率在1%~3%,挽留將要流失客戶、降低客戶流失率是近年來(lái)熱門(mén)的研究領(lǐng)域[1]。而數(shù)據(jù)挖掘技術(shù)是解決這一問(wèn)題的有效途徑,論文對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)挖掘與分析,深入了解電信客戶流失的關(guān)鍵,以對(duì)該類客戶的行為特性進(jìn)行預(yù)警分析,采取針對(duì)性的措施改善客戶關(guān)系,避免客戶流失或者挽留客戶。[2,3]文中數(shù)據(jù)是在CCF 大數(shù)據(jù)與計(jì)算智能大賽官網(wǎng)尋找,來(lái)源于Kaggle 平臺(tái)。數(shù)據(jù)集的大小為7043 行,22 列,并且存在缺失。

        Hadoop 平臺(tái)對(duì)處理大數(shù)據(jù)本身具有很顯著的優(yōu)點(diǎn),首先它具有很高的可靠性,Hadoop 中HDFS 分布式文件系統(tǒng)采用了備份恢復(fù)機(jī)制,MapReduce 中的任務(wù)采用了監(jiān)控機(jī)制,這就保證了分布式處理的可靠性;其次它具有很好的高擴(kuò)展性,Hadoop 是在可用的計(jì)算機(jī)集群間進(jìn)行數(shù)據(jù)的分配的,也是在集群中分布完成計(jì)算任務(wù)的,這些集群族能擴(kuò)展到數(shù)以千計(jì)的節(jié)點(diǎn)中,Hadoop 能可靠的存儲(chǔ)和處理數(shù)據(jù)。不管在存儲(chǔ)上還是計(jì)算上,可擴(kuò)展性都是Hadoop 的設(shè)計(jì)根本所在;并且它具有高效性,Hadoop 的高效性表現(xiàn)在Hadoop 能夠在節(jié)點(diǎn)之間進(jìn)行動(dòng)態(tài)的移動(dòng)數(shù)據(jù),同時(shí)能保證各個(gè)節(jié)點(diǎn)的數(shù)據(jù)動(dòng)態(tài)平衡,這就使得Hadoop 在處理數(shù)據(jù)時(shí)速度非???。這種方式為高效處理海量數(shù)據(jù)做好了基礎(chǔ)準(zhǔn)備。Hadoop 可以運(yùn)行在廉價(jià)PC 上,采用自動(dòng)保存數(shù)據(jù)的多個(gè)副本方式,并能自動(dòng)為失敗的任務(wù)進(jìn)行重新配置。隨著Hadoop 生態(tài)系統(tǒng)的成長(zhǎng),越來(lái)越多的新項(xiàng)目對(duì)Hadoop 是很好的補(bǔ)充或提供一些更高層的抽象。

        Hadoop 的生態(tài)圖如下:

        (1)HDFS:分布式文件系統(tǒng),可以對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)。

        (2)MapReduce:分布式數(shù)據(jù)處理模型和執(zhí)行環(huán)境,可以對(duì)數(shù)據(jù)進(jìn)行處理操作。

        (3)ZooKeeper:在分布式系統(tǒng)中如何就某個(gè)值(決議)達(dá)成一致,是一個(gè)十分重要的基礎(chǔ)問(wèn)題。ZooKeeper 作為一個(gè)分布式的服務(wù)框架,解決了分布式計(jì)算中的一致性問(wèn)題。在此基礎(chǔ)上,ZooKeeper 可用于處理分布式應(yīng)用中經(jīng)常遇到的一些數(shù)據(jù)管理問(wèn)題,如統(tǒng)一命名服務(wù)、狀態(tài)同步服務(wù)、集群管理、分布式應(yīng)用配置項(xiàng)的管理等。ZooKeeper 常作為其他Hadoop相關(guān)項(xiàng)目的主要組件,發(fā)揮著越來(lái)越重要的作用。

        (4)Hbase:Hbase 是一個(gè)在HDFS 上開(kāi)發(fā)的面向列的分布式數(shù)據(jù)庫(kù)。如果需要實(shí)時(shí)地隨機(jī)訪問(wèn)超大規(guī)模數(shù)據(jù)集,我們就可以使用Hbase 這一Hadoop 應(yīng)用。

        (5)Pig:運(yùn)行在Hadoop 上,是對(duì)大型數(shù)據(jù)集進(jìn)行分析和評(píng)估的平臺(tái)。它簡(jiǎn)化了使用Hadoop 進(jìn)行數(shù)據(jù)分析的要求,提供了一個(gè)高層次的、面向領(lǐng)域的抽象語(yǔ)言:PigLatin。通過(guò)Pig Latin,數(shù)據(jù)工程師可以將復(fù)雜且相互關(guān)聯(lián)的數(shù)據(jù)分析任務(wù)編碼為Pig 操作上的數(shù)據(jù)流腳本,通過(guò)將該腳本轉(zhuǎn)換為MapReduce 任務(wù)鏈,在Hadoop 上執(zhí)行。和Hive—樣,Pig 降低了對(duì)大型數(shù)據(jù)集進(jìn)行分析和評(píng)估的門(mén)檻。

        (6)Hive:是Hadoop 中的一個(gè)重要子項(xiàng)目,最早由Facebook 設(shè)計(jì),是建立在Hadoop 基礎(chǔ)上的數(shù)據(jù)倉(cāng)庫(kù)架構(gòu),它為數(shù)據(jù)倉(cāng)庫(kù)的管理提供了許多功能,包括:數(shù)據(jù)ETL(抽取、轉(zhuǎn)換和加載)工具、數(shù)據(jù)存儲(chǔ)管理和大型數(shù)據(jù)集的查詢和分析能力。Hive 提供的是一種結(jié)構(gòu)化數(shù)據(jù)的機(jī)制,定義了類似于傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)中的類SQL 語(yǔ)言。

        (7)Mahout:起源于2008年,最初是Apache Lucent 的子項(xiàng)目,它在極短的時(shí)間內(nèi)取得了長(zhǎng)足的發(fā)展,現(xiàn)在是Apache的頂級(jí)項(xiàng)目。Mahout 的主要目標(biāo)是創(chuàng)建一些可擴(kuò)展的機(jī)器學(xué)習(xí)領(lǐng)域經(jīng)典算法的實(shí)現(xiàn),旨在幫助開(kāi)發(fā)人員更加方便快捷地創(chuàng)建智能應(yīng)用程序。Mahout現(xiàn)在己經(jīng)包含了聚類、分類、推薦引擎(協(xié)同過(guò)濾)和頻繁集挖掘等廣泛使用的數(shù)據(jù)挖掘方法。除了算法,Mahout 還包含數(shù)據(jù)的輸入/輸出工具、與其他存儲(chǔ)系統(tǒng)(如數(shù)據(jù)庫(kù)、MongoDB 或Cassandra)集成等數(shù)據(jù)挖掘支持架構(gòu)。

        (8)Hume:Flume 是Cloudera 開(kāi)發(fā)維護(hù)的分布式、可靠、高可用的日志收集系統(tǒng)。它將數(shù)據(jù)從產(chǎn)生、傳輸、處理并最終寫(xiě)入目標(biāo)的路徑的過(guò)程抽象為數(shù)據(jù)流,在具體的數(shù)據(jù)流中,數(shù)據(jù)源支持在Flume 中定制數(shù)據(jù)發(fā)送方,從而支持收集各種不同協(xié)議數(shù)據(jù)。同時(shí),F(xiàn)lume 數(shù)據(jù)流提供對(duì)日志數(shù)據(jù)進(jìn)行簡(jiǎn)單處理的能力,如過(guò)濾、格式轉(zhuǎn)換等。此外,F(xiàn)lume 還具有能夠?qū)⑷罩緦?xiě)往各種數(shù)據(jù)目標(biāo)(可定制)的能力??偟膩?lái)說(shuō),F(xiàn)lume 是一個(gè)可擴(kuò)展、適合復(fù)雜環(huán)境的海量日志收集系統(tǒng)。

        (9)Sqoop:是SQL-to-Hadoop 的 縮 寫(xiě),是Hadoop的周邊工具,它的主要作用是在結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)與Hadoop之間進(jìn)行數(shù)據(jù)交換。Sqoop 可以將一個(gè)關(guān)系型數(shù)據(jù)庫(kù)(例如 MySQL、Oracle、PostgreSQL 等)中的數(shù)據(jù)導(dǎo)入 Hadoop 的 HDFS、Hive 中,也可以將HDFS、Hive 中的數(shù)據(jù)導(dǎo)入關(guān)系型數(shù)據(jù)庫(kù)中。Sqoop 充分利用了 Hadoop 的優(yōu)點(diǎn),整個(gè)數(shù)據(jù)導(dǎo)入導(dǎo)出過(guò)程都是用MapReduce 實(shí)現(xiàn)并行化,同時(shí),該過(guò)程中的大部分步驟自動(dòng)執(zhí)行,非常方便。

        2 具體數(shù)據(jù)分析

        2.1 實(shí)驗(yàn)環(huán)境搭建

        Hadoop3.2.0,Hive3.1.2,Sqoop1.4.7,Spark2.4.4。

        2.2 數(shù)據(jù)預(yù)處理

        (1)導(dǎo)入數(shù)據(jù)集,并查看數(shù)據(jù)及信息、大小。

        (2)檢查各列、各字段數(shù)據(jù)類型、字段內(nèi)容和數(shù)量,發(fā)現(xiàn)“TotalCharges”(總消費(fèi)額)列有11 個(gè)用戶數(shù)據(jù)缺失,將其數(shù)據(jù)類型強(qiáng)制轉(zhuǎn)換為浮點(diǎn)型,并將缺失用戶數(shù)據(jù)填充為“NaN”。

        (3)經(jīng)過(guò)觀察,發(fā)現(xiàn)這11 個(gè)用戶‘tenure’(入網(wǎng)時(shí)長(zhǎng))為0 個(gè)月,推測(cè)是當(dāng)月新入網(wǎng)用戶。根據(jù)一般經(jīng)驗(yàn),用戶即使在注冊(cè)的當(dāng)月流失,也需繳納當(dāng)月費(fèi)用。因此將這11 個(gè)用戶入網(wǎng)時(shí)長(zhǎng)“tensure”改為1,將總消費(fèi)額填充為月消費(fèi)額,符合實(shí)際情況。

        (4)將處理完的數(shù)據(jù)保存為新的數(shù)據(jù)集。

        2.3 使用Hive 數(shù)據(jù)分析

        將數(shù)據(jù)加載到Hive 中

        (1)將預(yù)處理后的新數(shù)據(jù)集上傳到HDFS 中。

        (2)在Hive 中創(chuàng)建一個(gè)數(shù)據(jù)庫(kù)來(lái)加載HDFS 中的數(shù)據(jù)

        2.4 分析用戶各屬性及流失率的關(guān)系

        2.4.1 分析流失用戶數(shù)量和占比(見(jiàn)圖1)

        圖1 流失用戶數(shù)量和占比

        結(jié)論:屬于不平衡數(shù)據(jù)集,流失用戶占比達(dá)26.54%。

        2.4.2 用戶屬性分析

        按照年齡分析用戶流失比例,如圖2所示。

        圖2 分析用戶流失比例圖(按照年齡)

        結(jié)論:年老用戶流失率占顯著高于年輕用戶。

        按照性別分析用戶流失比例,如圖3所示。

        圖3 分析用戶流失比例(按照性別)

        結(jié)論:男性與女性用戶之間的流失情況基本沒(méi)有差異。

        按照婚否分析用戶流失比例,如圖4所示。

        圖4 分析用戶流失比例(按照婚否)

        結(jié)論:在所有數(shù)據(jù)中未婚與已婚人數(shù)基本持平,但未婚中流失人數(shù)比已婚中的流失人數(shù)高出了快一倍。

        按照是否有家屬分析用戶流失比例,如圖5所示。

        圖5 分析用戶流失比例(按照是否有家屬)

        結(jié)論:有家屬的用戶流失占比低于無(wú)家屬用戶。

        2.4.3 服務(wù)屬性分析

        按照有多條線路分析用戶流失比例,如圖6所示。

        圖6 分析用戶流失比例(按照有多條線路)

        結(jié)論:是否有多條線路整體對(duì)用戶流失影響不明顯。

        按照多條線路互聯(lián)網(wǎng)服務(wù)提供商(DSL,F(xiàn)iber optic,No)分析用戶流失比例,如圖7所示。

        圖7 分析用戶流失比例(按照多條線路互聯(lián)網(wǎng)服務(wù)提供商)

        結(jié)論:光纖用戶的流失占比較高。

        根據(jù)互聯(lián)網(wǎng)服務(wù)用戶綁定情況分析用戶流失比例,如圖8所示。

        圖8 分析用戶流失比例(根據(jù)互聯(lián)網(wǎng)服務(wù)用戶綁定情況)

        結(jié)論:由圖可以看出,在網(wǎng)絡(luò)安全服務(wù)、在線備份業(yè)務(wù)、設(shè)備保護(hù)業(yè)務(wù)、技術(shù)支持服務(wù)、網(wǎng)絡(luò)電視和網(wǎng)絡(luò)電影六個(gè)變量中,沒(méi)有互聯(lián)網(wǎng)服務(wù)的客戶流失率值是相同的,都是相對(duì)較低。這可能是因?yàn)橐陨狭鶄€(gè)因素只有在客戶使用互聯(lián)網(wǎng)服務(wù)時(shí)才會(huì)影響客戶的決策,這六個(gè)因素不會(huì)對(duì)不使用互聯(lián)網(wǎng)服務(wù)的客戶決定是否流失產(chǎn)生推論效應(yīng)。

        綁定了安全、備份、保護(hù)、技術(shù)支持服務(wù)的流失率較低;附加流媒體電視、電影服務(wù)的流失率占比較高。

        根據(jù)付款方式分析用戶流失比例,如圖9所示。

        圖9 分析用戶流失比例(根據(jù)付款方式)

        結(jié)論:在四種支付方式中,使用Electronic check 的用戶流流失率最高,其他三種支付方式基本持平,因此可以推斷電子賬單在設(shè)計(jì)上影響用戶體驗(yàn)。

        根據(jù)消費(fèi)額情況分析用戶流失比例,如圖10所示。

        圖10 分析用戶流失比例(根據(jù)消費(fèi)額情況)

        結(jié)論:月消費(fèi)額大約在70-110 之間用戶流失率較高。

        長(zhǎng)期來(lái)看,用戶總消費(fèi)越高,流失率越低,符合一般經(jīng)驗(yàn)。

        3 將結(jié)果可視化

        我們利用Html 和CSS 簡(jiǎn)單制作了一個(gè)網(wǎng)頁(yè),將上述所得結(jié)果呈現(xiàn)給用戶,網(wǎng)頁(yè)地址為http://47.93.163.14。

        4 結(jié)語(yǔ)

        針對(duì)性給出增加用戶黏性、預(yù)防流失的建議。

        推薦老年用戶采用數(shù)字網(wǎng)絡(luò),且簽訂2年期合同(可以各種輔助優(yōu)惠等營(yíng)銷手段來(lái)提高2年期合同的簽訂率),若能開(kāi)通相關(guān)網(wǎng)絡(luò)服務(wù)可增加用戶粘性,因此可增加這塊業(yè)務(wù)的推廣,同時(shí)考慮改善電子賬單支付的用戶體驗(yàn)。

        電信業(yè)的競(jìng)爭(zhēng)重點(diǎn)集中在對(duì)客戶市場(chǎng)的爭(zhēng)奪,這要求各大電信運(yùn)營(yíng)商將更多的精力投入到客戶市場(chǎng)。做好客戶的培育、鞏固和回流工作,這三個(gè)方面的工作是相互促進(jìn)、相互補(bǔ)充的。針對(duì)客戶的回流工作,可采取以下措施以盡可能地降低客戶的流失率。

        4.1 開(kāi)展個(gè)性化服務(wù)

        現(xiàn)階段企業(yè)服務(wù)水平的差異不是體現(xiàn)在大眾化服務(wù)上而是體現(xiàn)在個(gè)性化服務(wù)上。目前電信消費(fèi)群體對(duì)個(gè)性化消費(fèi)的要求越來(lái)越高、電信企業(yè)如何適應(yīng)消費(fèi)群體定制化服務(wù)的要求,將特色服務(wù)作為企業(yè)新的競(jìng)爭(zhēng)力和業(yè)務(wù)增長(zhǎng)點(diǎn),是電信企業(yè)迫切需要解決的問(wèn)題。例如:針對(duì)年老、單身、無(wú)家屬的用戶推出特制服務(wù),如人文套餐等,一可以增強(qiáng)用戶之間的聯(lián)系度,二可以提供個(gè)性化設(shè)計(jì)服務(wù)。

        4.2 做好客戶的開(kāi)發(fā)和維持工作

        良好的客戶關(guān)系對(duì)于項(xiàng)目的成功有著不可低估的作用。及時(shí)掌握客戶的通信需求,可以增進(jìn)人與人之間的情感交流與思想溝通等,企業(yè)間的合作最終是人與人之間的合作,例如贈(zèng)送半年或一年打折券。對(duì)于使用光纖和附加流媒體電影、電視服務(wù)的用戶,重點(diǎn)在于提高網(wǎng)絡(luò)使用體驗(yàn)、增值服務(wù)體驗(yàn)。

        4.3 完善自身業(yè)務(wù)能力

        電信運(yùn)營(yíng)商對(duì)現(xiàn)有的業(yè)務(wù)做好進(jìn)一步的宣傳工作。對(duì)客戶需要而企業(yè)暫時(shí)不能開(kāi)放提供的業(yè)務(wù)則要加大內(nèi)部研發(fā)工作,不能讓需求在等待中消失,更不能因能力不足而失去收入增長(zhǎng)的機(jī)會(huì)。此外還要認(rèn)真研究市場(chǎng),做好業(yè)務(wù)的預(yù)測(cè)工作。

        猜你喜歡
        用戶分析服務(wù)
        隱蔽失效適航要求符合性驗(yàn)證分析
        服務(wù)在身邊 健康每一天
        服務(wù)在身邊 健康每一天
        服務(wù)在身邊 健康每一天
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        招行30年:從“滿意服務(wù)”到“感動(dòng)服務(wù)”
        商周刊(2017年9期)2017-08-22 02:57:56
        關(guān)注用戶
        電力系統(tǒng)及其自動(dòng)化發(fā)展趨勢(shì)分析
        關(guān)注用戶
        關(guān)注用戶
        亚洲精品久久区二区三区蜜桃臀 | 伊人久久大香线蕉av色婷婷色| 波多野42部无码喷潮| 极品粉嫩嫩模大尺度无码| 久久久精品中文无码字幕| 午夜视频在线观看日本| 国产日产精品_国产精品毛片| 亚洲精品字幕| 超碰Av一区=区三区| 手机免费在线观看日韩av| 91久久精品国产综合另类专区 | 男人边吻奶边挵进去视频| 国产精品系列亚洲第一| 日韩av在线手机免费观看| 国产麻豆精品精东影业av网站| 中国xxx农村性视频| 高清高速无码一区二区| 国产成人精品一区二区三区av| 高h小月被几个老头调教| 久久无码av三级| 欧美一级视频在线| 国产91精品在线观看| 欧美大屁股xxxx高跟欧美黑人| 精品乱码卡1卡2卡3免费开放| 久久洲Av无码西西人体| 日本免费观看视频一区二区| 国产女主播白浆在线观看| 天堂网www在线资源| 蜜桃视频色版在线观看| 蜜桃视频在线观看网址| 亚欧色一区w666天堂| 欧美在线区| 日本高清在线一区二区三区| 无码熟妇人妻av在线网站| 亚洲av第一页国产精品| 国产一精品一aⅴ一免费| 国语对白精品在线观看| 人妻 色综合网站| 免费看奶头视频的网站| 少妇人妻av一区二区三区| 后入到高潮免费观看|