亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于大數(shù)據(jù)的IPTV精準(zhǔn)營(yíng)銷方案研究與應(yīng)用

        2016-02-08 03:56:20于洪涌聞劍峰蔡鑫邱晨旭
        電信科學(xué) 2016年12期
        關(guān)鍵詞:用戶分析模型

        于洪涌,聞劍峰,蔡鑫,邱晨旭

        (中國(guó)電信股份有限公司上海研究院,上海 200122)

        基于大數(shù)據(jù)的IPTV精準(zhǔn)營(yíng)銷方案研究與應(yīng)用

        于洪涌,聞劍峰,蔡鑫,邱晨旭

        (中國(guó)電信股份有限公司上海研究院,上海 200122)

        分析了大數(shù)據(jù)技術(shù)在IPTV精準(zhǔn)營(yíng)銷中的應(yīng)用,因地制宜地制定了“Hadoop大數(shù)據(jù)平臺(tái)+爬蟲技術(shù)+建模工具”的框架方案,并對(duì)方案中的關(guān)鍵點(diǎn)和整個(gè)數(shù)據(jù)分析建模過程在現(xiàn)網(wǎng)中的應(yīng)用進(jìn)行了深入分析。在IPTV精準(zhǔn)營(yíng)銷中取得了較好的效果,具有較高的應(yīng)用價(jià)值。

        大數(shù)據(jù)技術(shù);數(shù)據(jù)建模;IPTV;精準(zhǔn)營(yíng)銷

        1 引言

        隨著2015年國(guó)務(wù)院“65號(hào)文”全面開放運(yùn)營(yíng)商進(jìn)入IPTV領(lǐng)域和運(yùn)營(yíng)商網(wǎng)絡(luò)升級(jí),IPTV迎來一個(gè)發(fā)展良機(jī)。來自流媒體網(wǎng)的數(shù)據(jù),2016年1-6月,IPTV用戶凈增1 991.7萬戶,總數(shù)達(dá)到6 581.2萬戶。然而,在運(yùn)營(yíng)商業(yè)務(wù)體系中,IPTV主要起到寬帶業(yè)務(wù)填充和增加用戶黏性的作用,直接收入貢獻(xiàn)不突出。IPTV互聯(lián)網(wǎng)特性提供了點(diǎn)播等不同于傳統(tǒng)電視的業(yè)務(wù)模式,為IPTV業(yè)務(wù)增收另辟蹊徑。同時(shí),隨著視頻業(yè)務(wù)在網(wǎng)絡(luò)流量中比重日益增加以及政策放開帶來的競(jìng)爭(zhēng),發(fā)展新用戶也是IPTV業(yè)務(wù)當(dāng)前的發(fā)展重點(diǎn)。

        在當(dāng)前IPTV業(yè)務(wù)營(yíng)銷中,最大問題是準(zhǔn)確定位 “向誰”營(yíng)銷“什么業(yè)務(wù)”,傳統(tǒng)方式指向性不夠,導(dǎo)致營(yíng)銷效率低下,且容易引起用戶反感。另一方面,電信運(yùn)營(yíng)商擁有豐富的用戶數(shù)據(jù),從數(shù)據(jù)中掘金,是當(dāng)前大勢(shì)所趨?,F(xiàn)在數(shù)據(jù)具有體量大、類型多樣、速度快、價(jià)值密度低4個(gè)特征,為適應(yīng)新形式下的數(shù)據(jù)挖掘,大數(shù)據(jù)技術(shù)應(yīng)運(yùn)而生。

        2 需求分析

        在IPTV業(yè)務(wù)實(shí)際運(yùn)營(yíng)中,發(fā)現(xiàn)存在以下問題。

        (1)訂購(gòu)用戶少

        以某運(yùn)營(yíng)商省公司2016年5月數(shù)據(jù)為例,增值業(yè)務(wù)用戶數(shù)僅占全部IPTV用戶數(shù)的10%左右,增值業(yè)務(wù)收入占IPTV業(yè)務(wù)收入的1/4。

        (2)基于用戶惰性行為的分析

        增值業(yè)務(wù)訂購(gòu)有點(diǎn)播、包月、包年等不同時(shí)效的產(chǎn)品包,從用戶行為看,少有用戶不停點(diǎn)播不同內(nèi)容的,應(yīng)該更多地發(fā)展包年用戶。

        (3)不同內(nèi)容產(chǎn)品包的用戶差距明顯

        以某運(yùn)營(yíng)商省公司的數(shù)據(jù)為例,訂購(gòu)最多的“影院高清包年”用戶是“英超高清包年”的上百倍。

        (4)高清拉動(dòng)

        隨著高清電視的普及和帶寬的提升,用戶對(duì)高清視頻需求增長(zhǎng)明顯。

        (5)積分訂購(gòu)和賬單訂購(gòu)用戶退訂行為差距大

        積分訂購(gòu)用戶在業(yè)務(wù)到期后退訂明顯,賬單訂購(gòu)用戶退訂相對(duì)平緩。

        針對(duì)以上分析,發(fā)展增值業(yè)務(wù)用戶需要考慮:用戶的視頻需求,包括觀看時(shí)間、內(nèi)容、是否高清敏感等;用戶的支付習(xí)慣,包括消費(fèi)敏感度、積分支付行為等。對(duì)于發(fā)展新用戶,首先在寬帶用戶中發(fā)展,由于目標(biāo)用戶還沒有使用IPTV,應(yīng)基于運(yùn)營(yíng)商ODS(operating data store,運(yùn)營(yíng)數(shù)據(jù)倉(cāng)儲(chǔ))數(shù)據(jù)和網(wǎng)絡(luò)DPI(deep packet inspection,深度分組檢測(cè))數(shù)據(jù)對(duì)用戶進(jìn)行分析,向有視頻傾向的寬帶用戶推薦IPTV業(yè)務(wù),同時(shí)推薦用戶感興趣的增值業(yè)務(wù)。

        3 方案框架

        3.1 基于Hadoop大數(shù)據(jù)平臺(tái)實(shí)現(xiàn)數(shù)據(jù)匯聚

        本文方案用到的數(shù)據(jù)比較復(fù)雜:數(shù)據(jù)體量大,僅IPTV業(yè)務(wù)數(shù)據(jù)就包括十幾個(gè)表,每天大于5 GB的裸數(shù)據(jù)(某運(yùn)營(yíng)商省公司IPTV業(yè)務(wù)數(shù)據(jù)),而DPI數(shù)據(jù)更是體量大、價(jià)值密度低;數(shù)據(jù)類型多,包括ODS傳統(tǒng)數(shù)據(jù)庫(kù)數(shù)據(jù)、IPTV日志類業(yè)務(wù)數(shù)據(jù)、DPI數(shù)據(jù)和網(wǎng)上爬取的數(shù)據(jù)等;不同類型和來源的數(shù)據(jù)需要進(jìn)行用戶和格式的統(tǒng)一;涉及的數(shù)據(jù)大多來自現(xiàn)網(wǎng)數(shù)據(jù),包括IPTV業(yè)務(wù)數(shù)據(jù)、用戶套餐信息等,為避免影響現(xiàn)網(wǎng)業(yè)務(wù),有必要新建數(shù)據(jù)平臺(tái)進(jìn)行數(shù)據(jù)保存處理。

        采用Hadoop技術(shù)搭建大數(shù)據(jù)平臺(tái),集群規(guī)模為 “2+ 16+1”(名稱節(jié)點(diǎn)+數(shù)據(jù)節(jié)點(diǎn)+接口機(jī)),50 TB存儲(chǔ)空間(能滿足同時(shí)開展3個(gè)省公司的IPTV大數(shù)據(jù)分析的數(shù)據(jù)存儲(chǔ)),部署了 Sqoop、Flume等數(shù)據(jù)同步工具,Big、Hive、Impala、Spark等數(shù)據(jù)查詢分析工具。

        3.2 基于CRISP-DM的數(shù)據(jù)挖掘流程

        CRISP-DM (cross-industry standard process for data mining,跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程)提供了一個(gè)數(shù)據(jù)挖掘生命周期的全面評(píng)述,在數(shù)據(jù)挖掘中被廣泛采用。其流程如圖1所示。

        CRISP-DM模型流程包括圖1中的6個(gè)步驟[1],說明如下。

        圖1 CRISP-DM模型處理流程示意

        (1)商業(yè)問題定義

        主要從項(xiàng)目目標(biāo)和業(yè)務(wù)角度理解需求,并制定初步計(jì)劃;為發(fā)展IPTV增值業(yè)務(wù)和IPTV新用戶提供數(shù)據(jù)挖掘服務(wù),精準(zhǔn)定位需求用戶,其中發(fā)展IPTV增值業(yè)務(wù)包括發(fā)展增值業(yè)務(wù)新用戶、增值業(yè)務(wù)升級(jí)(點(diǎn)播/包月轉(zhuǎn)包年)、業(yè)務(wù)升級(jí)(標(biāo)清轉(zhuǎn)高清/4K(即4K分辨率,ultra HD標(biāo)準(zhǔn)),寬帶升級(jí))等;發(fā)展新用戶主要在寬帶用戶中發(fā)展IPTV用戶。

        (2)數(shù)據(jù)理解

        從數(shù)據(jù)收集開始進(jìn)行數(shù)據(jù)探索,發(fā)現(xiàn)數(shù)據(jù)內(nèi)部屬性;需要的數(shù)據(jù)包括IPTV業(yè)務(wù)數(shù)據(jù)、用戶電信畫像數(shù)據(jù)(用戶套餐信息、家庭成員結(jié)構(gòu)、支付習(xí)慣等)、用戶視頻畫像數(shù)據(jù)等。

        (3)數(shù)據(jù)準(zhǔn)備

        數(shù)據(jù)準(zhǔn)備階段包括從未處理數(shù)據(jù)中構(gòu)造最終數(shù)據(jù)集的所有活動(dòng)。基于業(yè)務(wù)目標(biāo),對(duì)匯集的數(shù)據(jù)進(jìn)行分析,縮小數(shù)據(jù)范圍,并對(duì)不同來源數(shù)據(jù)進(jìn)行對(duì)接統(tǒng)一;Hive提供的Hive SQL非常適合熟悉SQL語(yǔ)言的人使用,本項(xiàng)目使用Hive的UDF(user defined function,用戶定義函數(shù))進(jìn)行數(shù)據(jù)提取,為數(shù)據(jù)建模提供寬表數(shù)據(jù)。

        (4)建模

        對(duì)數(shù)據(jù)進(jìn)行建模分析;建??梢允褂肦語(yǔ)言、Python言語(yǔ)、Mahout編程實(shí)現(xiàn),但對(duì)實(shí)現(xiàn)者要求高,實(shí)現(xiàn)周期長(zhǎng),管理復(fù)雜;數(shù)據(jù)探索結(jié)果顯示,經(jīng)過數(shù)據(jù)分析提取,最終用于數(shù)據(jù)挖掘的數(shù)據(jù)量并不多(以某運(yùn)營(yíng)商省公司的“包月轉(zhuǎn)包年”模型為例,經(jīng)過分析后獲取的寬表數(shù)據(jù)每個(gè)月數(shù)據(jù)量在50~70 MB),這非常適合使用成熟的建模工具進(jìn)行處理,本文采用支持CRISP-DM模型的現(xiàn)成建模工具。

        (5)評(píng)估

        檢查構(gòu)造模型的步驟,確保模型可以完成業(yè)務(wù)目標(biāo);對(duì)建模的算法、效果進(jìn)行分析比較,并基于測(cè)試分區(qū)進(jìn)行檢查。

        (6)部署

        將模型獲得的知識(shí)進(jìn)行應(yīng)用;模型導(dǎo)出營(yíng)銷用戶清單及對(duì)應(yīng)的推薦業(yè)務(wù),營(yíng)銷部門根據(jù)該清單進(jìn)行營(yíng)銷,并反饋營(yíng)銷效果。

        3.3 總體框架方案

        基于上述分析,框架方案可如圖2所示,“IPTV精準(zhǔn)營(yíng)銷大數(shù)據(jù)平臺(tái)”基于Hadoop技術(shù)搭建,匯聚了數(shù)據(jù)分析所需的數(shù)據(jù),同時(shí)部署了爬蟲程序用于爬取視頻相關(guān)數(shù)據(jù),構(gòu)建用戶視頻畫像(詳見第4.2節(jié)),還有數(shù)據(jù)的預(yù)處理分析也在“IPTV精準(zhǔn)營(yíng)銷大數(shù)據(jù)平臺(tái)”上進(jìn)行,經(jīng)過處理向建模工具輸出寬表數(shù)據(jù);建模工具實(shí)現(xiàn)數(shù)據(jù)的建模分析,向營(yíng)銷部門輸出營(yíng)銷用戶清單。營(yíng)銷由專門的營(yíng)銷部門實(shí)現(xiàn),是方案成果的使用部門和價(jià)值體現(xiàn),同時(shí)還需要根據(jù)營(yíng)銷結(jié)果進(jìn)行數(shù)據(jù)分析和建模的調(diào)整。

        4 數(shù)據(jù)匯聚和預(yù)處理

        4.1 運(yùn)營(yíng)商數(shù)據(jù)匯聚

        本文用到的運(yùn)營(yíng)商數(shù)據(jù)包括IPTV業(yè)務(wù)數(shù)據(jù)、用戶套餐信息、家庭標(biāo)簽、支付標(biāo)簽、ODS數(shù)據(jù)、DPI數(shù)據(jù)等,處理的方式各不相同:IPTV業(yè)務(wù)數(shù)據(jù)目前沒有匯聚到運(yùn)營(yíng)商大數(shù)據(jù)平臺(tái),需要與IPTV業(yè)務(wù)平臺(tái)對(duì)接,定期采集數(shù)據(jù)到“IPTV精準(zhǔn)營(yíng)銷大數(shù)據(jù)平臺(tái)”;用戶套餐信息、家庭標(biāo)簽、支付標(biāo)簽等數(shù)據(jù)從運(yùn)營(yíng)商ODS系統(tǒng)中查詢獲取,將結(jié)果保存到“IPTV精準(zhǔn)營(yíng)銷大數(shù)據(jù)平臺(tái)”;DPI數(shù)據(jù)已經(jīng)保存到運(yùn)營(yíng)商大數(shù)據(jù)平臺(tái),利用其租戶空間進(jìn)行數(shù)據(jù)初步分析,獲取用戶視屏標(biāo)簽數(shù)據(jù),結(jié)果匯聚到“IPTV精準(zhǔn)營(yíng)銷大數(shù)據(jù)平臺(tái)”。

        4.2 通過數(shù)據(jù)爬取構(gòu)建用戶視頻畫像

        數(shù)據(jù)爬取需求主要包括:節(jié)目信息爬取和建立視頻標(biāo)簽的數(shù)據(jù)爬取。

        IPTV業(yè)務(wù)平臺(tái)只有節(jié)目的名稱,沒有視頻節(jié)目標(biāo)簽數(shù)據(jù),如節(jié)目分類、主演、地區(qū)等;需要通過爬蟲爬取節(jié)目信息,為用戶IPTV播放記錄打上視頻標(biāo)簽。輸入輸出樣例如下:

        輸入樣例:00000050000000010000000011024895|愛回家6_26

        輸出樣例:00000050000000010000000011024895|愛回家6_26|標(biāo)題=愛·回家|年份=2012|分類=電視劇|主演=劉丹/徐榮/黎諾懿/郭少蕓/朱慧敏/林漪娸|地區(qū)=香港|導(dǎo)演=徐遇安|類型=劇情/搞笑/時(shí)裝/家庭|編劇=冼翠貞

        對(duì)于沒有使用IPTV業(yè)務(wù)的寬帶用戶,可通過其DPI數(shù)據(jù)獲取視頻觀看記錄,構(gòu)建其視頻畫像,雖然運(yùn)營(yíng)商大數(shù)據(jù)平臺(tái)已有包括視頻標(biāo)簽的完整標(biāo)簽體系,但指向性不夠,兼顧目標(biāo)和效率,本文選取樂視、優(yōu)酷、愛奇藝等幾個(gè)規(guī)模大、更接近電視屏的視頻網(wǎng)站,基于用戶對(duì)這些視頻網(wǎng)站的訪問行為構(gòu)建用戶的視頻畫像,為此本文通過爬蟲爬取了明星庫(kù)、節(jié)目庫(kù)、基于主要視頻網(wǎng)站的視頻分類和標(biāo)簽信息,構(gòu)建了用于刻畫用戶畫像的視頻標(biāo)簽系統(tǒng)。

        圖2 IPTV精準(zhǔn)營(yíng)銷框架方案流程

        爬蟲程序基于開源項(xiàng)目Scrapy自主開發(fā),并分布式部署在“IPTV精準(zhǔn)營(yíng)銷大數(shù)據(jù)平臺(tái)”,爬取的數(shù)據(jù)自動(dòng)保存到“IPTV精準(zhǔn)營(yíng)銷大數(shù)據(jù)平臺(tái)”。其中爬取的節(jié)目信息直接通過自主開發(fā)的程序?yàn)橛脩鬒PTV觀看行為數(shù)據(jù)打視頻標(biāo)簽;爬取的明星庫(kù)、節(jié)目庫(kù)、視頻分類信息構(gòu)建了用戶視頻標(biāo)簽系統(tǒng),并運(yùn)營(yíng)商大數(shù)據(jù)平臺(tái)租戶空間中對(duì)用戶DPI數(shù)據(jù)打視頻標(biāo)簽,并將最終打上視頻標(biāo)簽的數(shù)據(jù)匯聚到“IPTV精準(zhǔn)營(yíng)銷大數(shù)據(jù)平臺(tái)”。

        4.3 數(shù)據(jù)預(yù)處理

        預(yù)處理包括從用戶維度對(duì)數(shù)據(jù)進(jìn)行統(tǒng)一處理,并根據(jù)業(yè)務(wù)邏輯進(jìn)行數(shù)據(jù)抽取,形成統(tǒng)一的寬表數(shù)據(jù),供建模分析。預(yù)處理體現(xiàn)了建模的人工智慧——需要確定數(shù)據(jù)抽取的范圍、粒度,體現(xiàn)了數(shù)據(jù)挖掘的業(yè)務(wù)邏輯,其成果將直接影響建模的有效性。具體包括:數(shù)據(jù)的統(tǒng)一,基于用戶寬帶賬號(hào)、IPTV賬號(hào)對(duì)應(yīng)的用戶標(biāo)識(shí)進(jìn)行數(shù)據(jù)的統(tǒng)一;數(shù)據(jù)提取,根據(jù)業(yè)務(wù)分析確定業(yè)務(wù)處理邏輯,并從原始數(shù)據(jù)中提取、匯總、比較等,生成最終用于建模的數(shù)據(jù)。“匯聚的數(shù)據(jù)—數(shù)據(jù)分析—建模分析”間的關(guān)系就如同“經(jīng)初步處理的棉麻原料—布匹—成衣”的過程。

        以IPTV包月轉(zhuǎn)包年模型為例,經(jīng)過數(shù)據(jù)分析后形成的寬表數(shù)據(jù)包括以下方面。

        (1)用戶基礎(chǔ)信息

        包括用戶寬帶套餐、積分?jǐn)?shù)據(jù)、IPTV業(yè)務(wù)狀態(tài)、IPTV機(jī)頂盒信息(廠商、型號(hào)、清晰度、數(shù)量等)等,這些信息基本上可以直接通過數(shù)據(jù)抽取得到。

        (2)用戶IPTV增值業(yè)務(wù)使用信息

        包括按不同支付方式匯總近3年訂購(gòu)金額、次數(shù),在訂產(chǎn)品包個(gè)數(shù)和總金額等;用戶在訂/退訂各年包/半年包匯總數(shù)據(jù);用戶在訂、退訂的最長(zhǎng)時(shí)間產(chǎn)品包信息;用戶點(diǎn)播的高清/非高清電影、電視劇等不同種類節(jié)目匯總的次數(shù)、天數(shù)、時(shí)長(zhǎng)、節(jié)目數(shù)等;這些數(shù)據(jù)要從匯聚的數(shù)據(jù)經(jīng)過計(jì)算、匯總得到;用戶觀看直播節(jié)目匯總信息。

        (3)用戶其他畫像信息

        基于用戶住宅區(qū)域、套餐信息和賬單支付形成的用戶支付畫像,基于用戶工作日寬帶網(wǎng)絡(luò)、IPTV使用情況,家庭Wi-Fi使用、網(wǎng)站訪問搜索和購(gòu)物信息等形成的家庭人口畫像,這些已有運(yùn)營(yíng)商大數(shù)據(jù)平臺(tái)生成,可直接抽取用戶標(biāo)簽數(shù)據(jù)使用。

        還有的需要進(jìn)行額外的數(shù)據(jù)比較,如通過比較用戶IPTV清晰度和帶寬信息(加上用戶高清視頻標(biāo)簽),推薦用戶進(jìn)行帶寬升級(jí)、IPTV清晰度升級(jí)或兩者均升級(jí)等;這需求比較IPTV標(biāo)清/高清/4K需要的帶寬信息、用戶套餐的帶寬信息、用戶IPTV機(jī)頂盒清晰度信息,定義用戶帶寬和IPTV滿足度的新字段。

        經(jīng)過預(yù)處理的數(shù)據(jù)優(yōu)化了數(shù)據(jù)結(jié)構(gòu),大大降低了數(shù)據(jù)量,更易于建模分析。提交給建模的數(shù)據(jù)包括觀察數(shù)據(jù)和預(yù)測(cè)數(shù)據(jù),觀察數(shù)據(jù)用于建模,得到“實(shí)現(xiàn)業(yè)務(wù)目標(biāo)”的用戶模型,然后用這些用戶模型對(duì)預(yù)測(cè)數(shù)據(jù)分析,得出“下月可能實(shí)現(xiàn)業(yè)務(wù)目標(biāo)”的用戶清單。

        5 建模分析

        建模過程輸入寬表數(shù)據(jù),輸出營(yíng)銷月用戶清單。整個(gè)分析過程包括:根據(jù)觀察數(shù)據(jù)建立用戶模型;根據(jù)用戶模型對(duì)預(yù)測(cè)數(shù)據(jù)進(jìn)行分析,得出下月營(yíng)銷目標(biāo)用戶,并根據(jù)用戶的視頻畫像進(jìn)行聚類,向用戶推薦合適的產(chǎn)品包。本部分以“包月轉(zhuǎn)包年”模型為例描述建模分析過程。

        5.1 數(shù)據(jù)建模分析

        具體的建模分析過程可分為數(shù)據(jù)預(yù)處理和數(shù)據(jù)建模兩部分。

        其中數(shù)據(jù)預(yù)處理主要是根據(jù)建模要求,對(duì)寬表數(shù)據(jù)做進(jìn)一步處理,使其更符合建模分析的需要,以“包月轉(zhuǎn)包年”模型為例,數(shù)據(jù)預(yù)處理包括以下方面。

        (1)字段處理

        將寬表數(shù)據(jù)根據(jù)建模要求進(jìn)行數(shù)據(jù)統(tǒng)計(jì)、新字段定義,如統(tǒng)計(jì)用戶產(chǎn)品月齡、在訂/退訂產(chǎn)品包信息,定義“次月是否新訂年包”等;基于營(yíng)銷時(shí)機(jī)的處理,如選擇最近訂購(gòu)或退訂過包月業(yè)務(wù)的用戶。

        (2)區(qū)別不同訂購(gòu)方式

        業(yè)務(wù)分析中,發(fā)現(xiàn)用戶賬單支付和積分支付行為差距明顯,在建模前將兩類數(shù)據(jù)區(qū)別開,分別進(jìn)行建模。

        (3)數(shù)據(jù)分區(qū)

        建模中將數(shù)據(jù)按訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)進(jìn)行分區(qū)。

        (4)數(shù)據(jù)平衡

        整體用戶中訂購(gòu)用戶相對(duì)稀疏,以某月數(shù)據(jù)為例,訂購(gòu)用戶和未訂購(gòu)用戶之比接近1∶60,在建模前需要對(duì)訂購(gòu)用戶和未訂購(gòu)用戶進(jìn)行數(shù)據(jù)平衡。

        數(shù)據(jù)建模主要是選擇合適的算法對(duì)數(shù)據(jù)進(jìn)行分析,并選擇最優(yōu)模型用于用戶預(yù)測(cè)?!鞍罗D(zhuǎn)包年”模型建模選擇了“自動(dòng)分類器”中的C5、判別、CHAID、C&R樹、Quest等算法進(jìn)行建模,其中賬單支付的各算法建模結(jié)果比較如圖3所示,基于“總體精確性”指標(biāo)選擇最優(yōu)算法(賬單支付中選擇判別算法),用于后續(xù)進(jìn)行用戶預(yù)測(cè)的模型。

        圖3 賬單支付下各算法建模結(jié)果比較

        積分訂購(gòu)建模中總體成功率更高,以選擇的“C&R樹”算法為例,訓(xùn)練數(shù)據(jù)集結(jié)果為78.299%,測(cè)試數(shù)據(jù)集結(jié)果為84.206%,這與業(yè)務(wù)分析是一致的:對(duì)于積分支付用戶來說,只要用戶喜歡這些增值業(yè)務(wù)(有視頻觀看偏向),手里又有積分,那訂購(gòu)的成功率還是較高的;對(duì)于賬單支付用戶來說,用戶要真金白銀的出錢考慮的因素就多了,況且還有樂視、優(yōu)酷等其他互聯(lián)網(wǎng)品牌可以選擇。

        5.2 導(dǎo)出營(yíng)銷用戶清單

        導(dǎo)出營(yíng)銷用戶清單包括數(shù)據(jù)預(yù)處理、用戶預(yù)測(cè)和推薦產(chǎn)品包選擇。數(shù)據(jù)預(yù)處理包括字段處理、用戶剔除(最近半年已營(yíng)銷用戶等)和區(qū)分用戶支付方式等。

        數(shù)據(jù)預(yù)處理后,使用第5.1節(jié)中選定的數(shù)據(jù)模型分別對(duì)賬單支付用戶和積分用戶進(jìn)行預(yù)測(cè),得到下個(gè)月“根據(jù)模型可能訂購(gòu)業(yè)務(wù)”的用戶,并設(shè)置置信度閾值,選取營(yíng)銷目標(biāo)用戶。

        最終提交的營(yíng)銷清單還包括向用戶推薦的產(chǎn)品包,嚴(yán)格意義上應(yīng)該分析用戶的視頻觀看行為得到用戶的視頻畫像,向用戶推薦“用戶最感興趣”的節(jié)目,實(shí)際營(yíng)銷中營(yíng)銷的產(chǎn)品包往往是有限的——根據(jù)自身資源和統(tǒng)計(jì)“最熱門”的產(chǎn)品來確定。本次營(yíng)銷根據(jù)IPTV平臺(tái)的節(jié)目資源和以往用戶訂購(gòu)統(tǒng)計(jì)信息,確定了包括“影院高清年包”“熱劇年付”“全能看包年”“紀(jì)實(shí)高清半年包”“動(dòng)漫高清半年包”等在內(nèi)的十幾個(gè)產(chǎn)品包,內(nèi)容集中在電影、電視劇、動(dòng)漫、紀(jì)實(shí)上。

        為此,采用k-means聚類算法,對(duì)用戶視頻觀看行為進(jìn)行聚類,并根據(jù)營(yíng)銷的產(chǎn)品包顯示高清電影觀看時(shí)長(zhǎng)(vod_hd_mov_dur)、標(biāo)清電影觀看時(shí)長(zhǎng)(vod_non_hd_mov_ dur)、高清電視劇觀看時(shí)長(zhǎng)(vod_hd_tvp_dur)、標(biāo)清電視劇觀看時(shí)長(zhǎng) (vod_non_hd_tvp_dur)、高清紀(jì)實(shí)觀看時(shí)長(zhǎng)(vod_hd_doc_dur)、高清動(dòng)漫觀看時(shí)長(zhǎng)(vod_hd_ct_dur)在聚類中的分布,結(jié)果如圖4所示,其中圖4(a)是按“總體重要性排序”的絕對(duì)分布,從中可看出對(duì)總體重要性而言,動(dòng)漫、紀(jì)實(shí)排在前兩位,這可以解釋大多用戶對(duì)電影、電視劇偏向的普遍性;圖4(b)是“聚類內(nèi)重要性”的相對(duì)分布,基于圖4向用戶推薦產(chǎn)品包(其中聚類2只有兩個(gè)值作為離群值概率),見表1。

        圖4 對(duì)用戶觀看內(nèi)容的聚類結(jié)果

        表1 向不同聚類用戶推薦不同產(chǎn)品包

        5.3 模型評(píng)估優(yōu)化

        模型的評(píng)估優(yōu)化包括部署前模型本身的評(píng)估和部署后根據(jù)營(yíng)銷反饋的優(yōu)化。

        模型本身的評(píng)估包括:算法和測(cè)試分區(qū)的驗(yàn)證、平衡因子的調(diào)整、字段的調(diào)整等。首先,通過選擇不同的算法得出不同的算法模型,結(jié)合測(cè)試分區(qū)的驗(yàn)證,選擇最優(yōu)算法或算法組合;本例中通過選擇“自動(dòng)分類器”中不同算法,并結(jié)合測(cè)試分區(qū)的驗(yàn)證確定最優(yōu)模型。然后通過調(diào)整平衡因子調(diào)整目標(biāo)用戶在整體數(shù)據(jù)中的比例,多次運(yùn)行模型,確定平衡因子的最優(yōu)范圍。還有結(jié)合建模結(jié)果中各字段的重要性進(jìn)行字段微調(diào)。

        同時(shí)模型還要根據(jù)營(yíng)銷反饋的數(shù)據(jù)進(jìn)行優(yōu)化,可以結(jié)合建模將用戶隨機(jī)分成幾組,調(diào)整算法、置信度、字段等,結(jié)合不同的營(yíng)銷效果進(jìn)行模型的調(diào)優(yōu),這部分工作還在進(jìn)行中。

        總之,數(shù)據(jù)挖掘中建立數(shù)據(jù)模型不是分析的結(jié)束,而是又一輪分析的開始,要經(jīng)過各種手段的調(diào)整優(yōu)化,不斷提升數(shù)據(jù)挖掘的效果。

        6 結(jié)束語(yǔ)

        本次分析主要配合某運(yùn)營(yíng)商省公司的電銷進(jìn)行,從效果來看,營(yíng)銷成功率比原先提升將近一倍,效果最好的“包月轉(zhuǎn)包年”營(yíng)銷成功率由原來的不到5%提升到12%,應(yīng)該說取得了比較好的效果。

        當(dāng)然數(shù)據(jù)挖掘在營(yíng)銷過程中主要還是幕后的“軍師”,本文主要通過數(shù)據(jù)建模得出下月有可能成為“IPTV用戶”或“訂購(gòu)增值業(yè)務(wù)的用戶”。而實(shí)際營(yíng)銷主要是向用戶提供滿足用戶需求的、性價(jià)比可接受的產(chǎn)品,大數(shù)據(jù)分析在IPTV用戶需求分析、產(chǎn)品提供等其他方面也可以發(fā)揮幕后軍師的作用,全方位提升IPTV的營(yíng)銷效果。同時(shí),大數(shù)據(jù)分析也可以擴(kuò)大到其他更廣的領(lǐng)域,就運(yùn)營(yíng)商內(nèi)部而言,在終端換機(jī)、3G升4G、交叉營(yíng)銷等方面,已經(jīng)利用大數(shù)據(jù)分析技術(shù)來有的放矢提高營(yíng)銷成功率??梢哉f,大數(shù)據(jù)技術(shù)在電信行業(yè)已經(jīng)也將發(fā)揮更大的作用。

        [1]CRISP-DM方法論[EB/OL].[2016-11-04].http://wiki.mbalib. com/wiki/CRISP-DM方法論.

        于洪涌(1976-),男,中國(guó)電信股份有限公司上海研究院數(shù)據(jù)分析師,主要從事IPTV數(shù)據(jù)分析、智慧家庭數(shù)據(jù)分析等方面工作。

        聞劍峰(1977-),男,中國(guó)電信股份有限公司上海研究院大數(shù)據(jù)智慧運(yùn)營(yíng)研發(fā)(高級(jí))工程師,主要從事大數(shù)據(jù)基礎(chǔ)架構(gòu)研發(fā)工作。

        蔡鑫(1975-),男,中國(guó)電信股份有限公司上海研究院高級(jí)工程師,主要研究方向?yàn)閿?shù)據(jù)規(guī)劃、數(shù)據(jù)分析、數(shù)據(jù)標(biāo)準(zhǔn)。

        邱晨旭(1973-),男,中國(guó)電信股份有限公司上海研究院高級(jí)工程師,主要從事電信數(shù)據(jù)規(guī)劃、項(xiàng)目管理等工作。

        Research and application of IPTV precision marketing based on big data

        YU Hongyong,WEN Jianfeng,CAI Xin,QIU Chenxu
        Shanghai Research Institute of China Telecom Co.,Ltd.,Shanghai 200122,China

        The big data technology in IPTV precision marketing was analyzed.According to local conditions,the framework solution of“Hadoop big data platform+Web crawler+modeling tool”was developed.The key points of the solution and the whole data modeling process were analyzed.Good results were achieved in IPTV precision marketing,and higher application value was gained.

        big data technology,data modeling,IPTV,precision marketing

        F274

        A

        10.11959/j.issn.1000-0801.2016316

        2016-11-08;

        2016-12-13

        猜你喜歡
        用戶分析模型
        一半模型
        隱蔽失效適航要求符合性驗(yàn)證分析
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        電力系統(tǒng)及其自動(dòng)化發(fā)展趨勢(shì)分析
        3D打印中的模型分割與打包
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        免费人妻无码不卡中文字幕系 | 久久天天躁狠狠躁夜夜2020一 | 欧美人妻日韩精品| 99久久精品国产片| 国产av一级二级三级| 国产精品久久久久久av| 色八a级在线观看| 亚洲国产成人久久综合一区77| 天堂av中文在线官网| 亚洲人不卡另类日韩精品| 欧美俄罗斯40老熟妇| 福利网址在线观看| 亚洲一区二区三区偷拍自拍| 夜晚黄色福利国产精品| 午夜福利av无码一区二区| 伊人久久大香线蕉免费视频| 国内自拍视频在线观看| 男女交射视频免费观看网站| 免费a级毛片无码| 亚洲中文字幕无码天然素人在线| 国产午夜三级一区二区三| 精品久久亚洲一级α| 日本一区二区三级免费| 夜夜高潮夜夜爽国产伦精品| 精品国产v无码大片在线观看| 亚洲成AV人久久| 日本一区二区三区熟女俱乐部| 国产三级av在线播放| 狠狠久久久久综合网| 97中文字幕一区二区| 蜜桃成熟时在线观看免费视频| 婷婷亚洲久悠悠色悠在线播放| 亚洲a级片在线观看| 国产高清不卡二区三区在线观看| 欧美性猛交99久久久久99按摩 | 国产精美视频| 国产精品一区二区三区黄片视频 | 热re99久久精品国产99热| 国产剧情无码中文字幕在线观看不卡视频 | 日本精品少妇一区二区三区| 宝贝把腿张开我要添你下边动态图|